CN101957826A

CN101957826A - 教材自动扩充方法与相关学习教材扩充系统

Info

Publication number: CN101957826A
Application number: CN2009101399408A
Authority: CN
Inventors: 沈民新; 李青宪
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2009-07-15
Filing date: 2009-07-15
Publication date: 2011-01-26

Abstract

本发明提供教材自动扩充方法，适用于学习教材扩充系统，用以扩充输入教材数据至数据库中，其中输入教材数据具有至少一个语句单元，数据库中包括至少一个主题以及主题相关的结构信息，主题有对应主题分类，主题分类包括至少一个对应主题语句单元。方法包括下列步骤。首先，计算输入教材数据中语句单元对应至数据库中主题的主题相似度估计值，其中主题相似度估计值包含与主题相关的内容相似度估计值以及结构相似度估计值。其次，利用语句单元对应的主题的主题相似度估计值，执行可靠度计算，得到主题对应的可靠度估计值。接着，依据可靠度估计值，决定语句单元的扩充方式。

Description

教材自动扩充方法与相关学习教材扩充系统

技术领域

本发明有关于一种教材自动扩充方法及其相关学习教材扩充系统，特别是有关于一种整合语句、会话流程结构相似度以及可靠度衡量的会话教材自动扩充方法及系统。

背景技术

近几年来，随着数字学习的蓬勃发展，愈来愈多样的教材例如语言学习教材，可提供给使用者练习以辅助使用者学习。在语言学习中，听和说部分已经从单调的听说练习逐渐走向模拟真实情境的对话互动。然而，要达成符合真实情境，则学习系统(例如情境仿真会话学习系统)必须具备有一套丰富的情境会话教材。

一套丰富的情境模拟对话教材必须包含多路径会话教材，目前此类教材需通过人工事先编制，教材扩充也需要仰赖大量人工分类处理，使得扩充不易。

发明内容

有鉴于此，本发明提供了教材自动扩充方法，让学习教材扩充系统可以快速扩充其教材内容，达成其模拟真实环境的效果，并提供自动化教材扩充。

本发明的实施例提供了教材自动扩充方法，适用于学习教材扩充系统，用以扩充输入教材数据至数据库中，其中输入教材数据具有至少一个语句单元，数据库中包括至少一个主题以及主题相关的结构信息，主题有对应主题分类，主题分类包括至少一个对应主题语句单元。方法包括下列步骤。首先，计算输入教材数据中语句单元对应至数据库中主题的主题相似度估计值，其中主题相似度估计值包含与主题相关的内容相似度估计值以及结构相似度估计值。其次，利用语句单元对应的主题的主题相似度估计值，执行可靠度计算，得到主题对应的可靠度估计值。接着，依据可靠度估计值，决定语句单元的扩充方式。

本发明的实施例另外提供学习教材扩充系统，其包括数据库、内容相似度计算模块、结构相似度计算模块、主题相似度计算模块、可靠度计算模块以及自动扩充模块。数据库中包括多个主题以及主题相关的结构信息，每一主题有对应主题分类，每一主题分类包括至少一个语句单元。内容相似度计算模块耦接至数据库，接收具有多个语句单元的输入教材数据并计算输入教材数据中每一语句单元对应至数据库中每一主题的内容相似度估计值，其中输入教材语句单元间具有流程结构信息。结构相似度计算模块耦接至内容相似度计算模块，利用流程结构信息以及数据库中的结构信息，得到每一语句单元对应至数据库中每一主题的结构相似度估计值。主题相似度计算模块耦接内容相似度计算模块以及结构相似度计算模块，依据每一语句单元对应至数据库中每一主题的主题内容相似度估计值以及结构相似度估计值，得到对应每一主题的主题相似度估计值。可靠度计算模块耦接至主题相似度计算模块，利用每一语句单元对应的每一主题的主题相似度估计值，执行可靠度计算，得到每一主题对应的可靠度估计值。自动扩充模块耦接至可靠度计算模块，依据每一可靠度估计值，决定每一语句单元的扩充方式，以将输入会话教材加入至数据库中。

本发明的上述方法可以通过程序代码方式记录于实体媒体中。当程序代码被机器加载且执行时，机器变成用以实行本发明的装置。

为使本发明的上述和其它目的、特征、和优点能更明显易懂，下文特举出优选实施例，并配合附图作详细说明如下。

附图说明

图1显示依据本发明实施例的学习教材扩充系统的示意图。

图2显示依据本发明实施例的主题流程结构示意图。

图3显示依据本发明实施例的语句相似度计算流程示意图。

图4显示依据本发明实施例的教材自动扩充方法的流程图。

图5显示另一依据本发明实施例的教材自动扩充方法的流程图。

【主要组件符号说明】

10 教材；

100 学习教材扩充系统；

110 数据库；

120 内容相似度计算模块；

130 结构相似度计算模块；

140 主题相似度计算模块；

150 可靠度计算模块；

160 自动扩充模块；

170 显示单元；

172 使用者接口；

n1、n2、n3 主题分类；

n11、n12、n21、n22、n31、n32 主题语句单元；

200 结构信息；

400 流程；

S410-S470 执行步骤；

S510-S550 执行步骤。

具体实施方式

图1显示依据本发明实施例的学习教材扩充系统100。在实施例中，学习教材扩充系统100为语言学习教材扩充系统。如图1所示，学习教材扩充系统100中至少包括数据库110、内容相似度计算模块120、结构相似度计算模块130、主题相似度计算模块140、可靠度计算模块150、自动扩充模块160以及显示单元170。其中，会话数据库110可包含多个主题以及主题相关的结构信息，每一主题有对应主题分类(或称主题语句单元群)(sentence category)，每一主题分类包括至少一个语句单元(例如会话语句)、主题标题(topic)、角色。每一主题分类包含相同主题的一群主题语句单元，主题结构信息则为主题间的流程结构信息。

图2显示依据本发明实施例的主题流程结构示意图。如图2所示，共有主题分类n1、n2以及n3与结构信息200。其中，主题分类n1具有主题“purpose.C”以及对应的主题语句单元n11以及n12，主题分类n2具有主题“purpose.T”以及对应的主题语句单元n21以及n22，而主题分类n3具有主题“duration.C”以及对应的主题语句单元n31以及n32。结构信息200则记录主题分类间的特定对应关系的信息，也就是主题之间的主题流程结构，n1-＞n2-＞n3。结构相似度计算模块130将依据此结构信息200计算出输入教材中每个语句单元对应的结构相似度估计值。

内容相似度计算模块120耦接至数据库10，其接收输入教材10，并比较输入教材中每一语句单元与数据库中每一主题分类中每一主题语句单元的语句相似度，再依据语句相似度比较结果，得到每一主题对应的内容相似度估计值以及选出至少一个候选主题。其中输入教材10具有语句单元1至语句单元n。举例来说，若输入教材10为会话教材时，每一语句单元可为会话语句(sentence)。

结构相似度计算模块130依据数据库110中的主题结构信息以及输入教材10中每一语句单元所对应的候选主题间的对应关系，得到结构相似度估计值。主题相似度计算模块140耦接至内容相似度计算模块120以及结构相似度计算模块130，依据内容相似度计算模块120以及结构相似度计算模块130所计算出的内容相似度估计值以及结构相似度估计值，得到每一主题对应的主题相似度估计值。可靠度计算模块150耦接至主题相似度计算模块140，利用主题相似度计算模块140计算出的主题相似度估计值，执行可靠度计算，得到可靠度估计值。可靠度模块150可利用预设的拒绝阈值以及接受阈值，得到可靠度估计值。

自动扩充模块160耦接至可靠度计算模块150以及显示语句单元170，依据每一语句单元对应的可靠度估计值，决定语句单元的扩充方式。举例来说，扩充方式可包括建立新主题分类、合并至原有的主题分类以及将候选主题依据相似度排序推荐，但不限于此。若其中一个语句单元对应的可靠度估计值小于拒绝阈值时，自动扩充模块160可自动产生新主题分类，否则接着再检查可靠度估计值是否超过接受阈值，如果是则自动扩充模块160，可自动合并新语句单元到原有的主题分类，反之自动扩充模块160则通过显示语句单元170将候选主题依据相似度排序显示并提供推荐主题。显示语句单元170可进一步包括使用者接口172，使得使用者可通过使用者接口172，依据可靠度与相似度编辑对映关系。

当有新的教材(包含一句以上的会话语句)输入时，可通过内容相似度计算模块120，求得新的教材中每一语句与数据库中主题的内容相似度估计值，再通过结构相似度计算模块130分析新的语句之间的流程结构，得到结构相似度估计值，再通过主题相似度计算模块140整合两者得到每一语句可对应的候选主题的主题相似度估计值。

之后，再通过可靠度模块150进行可靠度检查，得到可靠度估计值，最后自动扩充模块160再依据可靠度估计值，决定对新语句的扩充方式。

以下列举了实施例，用以进一步说明本发明的教材自动扩充方法。

图4显示依据本发明实施例的教材自动扩充方法的流程图400。依据本发明实施例的教材自动扩充方法可以由如图1中的学习教材扩充系统100所执行。值得注意的是，为方便说明，在以下实施例中，学习教材扩充系统100是语言教材处理学习系统，输入教材10是包括多个会话语句的会话教材，但并非用以限定本发明。

首先，当有新会话教材10输入时，如步骤S410，内容相似度计算模块120接收输入会话教材10。其中，输入会话教材包括多个语句S1到Sn。

接着，如步骤S420，内容相似度计算模块120比较输入教材中每一会话语句与数据库110中每一主题分类中每一主题语句单元的语句相似度，得到语句相似度估计值。

在实施例中，语句相似度估计值的计算方式如下。假设新的会话教材有n个语句，数据库中的既有会话有m个主题分类。内容相似度计算模块120可依据以下图3的语句相似度计算方法计算出两个语句的语句相似度估计值。

图3显示依据本发明实施例的语句相似度计算流程示意图。如图3所示，两个语句的语句相似度计算包含断词、停用字过滤、词性标记、关键词抽取、关键词权重调整、语意知识库等步骤或模块。举例来说，在实施例中，两个语句可先经过断词模块进行断词，再经由停用字过滤模块过滤出停用字，进而取得词汇特征，也可以再进行关键词抽取与权重调整修正词汇特征，其中特征值可采用词频或语意知识库的词汇语意相似度；也可再通过词性标记和语法分析组件求得语句的语法特征，据此分别得到两个语句的特征向量，而两个语句的相似度分数即可用余弦相似度求得。值得注意的是，断词、停用字过滤、词性标记、关键词抽取、关键词权重调整以及语意知识库等是现有的技术，故其细节在此省略。

得到每一语句的语句相似度估计值之后，接着，如步骤S430，内容相似度计算模块120可依据语句相似度比较结果，得到每一会话语句对应至每一主题的内容相似度估计值以及至少一个候选主题。其中，主题的内容相似度估计值即为该主题所属的语句单元相似度估计值中的最大值。因此，每一会话语句可依据主题内容相似度估计值，得到一个候选主题。在实施例中，内容相似度计算模块120可将所有语句相似度估计值中的最大值所对应的主题设为候选主题。举例来说，若主题(分类)x以及y分别包括语句x1、x2、x3以及y1、y2，且其语句相似度估计值分别为0.88、078、0.90以及0.81、0.76，则主题x以及y的内容相似度估计值分别为对应的最大语句相似度估计值0.90以及0.81，并且主题x将视为候选主题。

得到每一会话语句对应至每一主题的内容相似度估计值之后，如步骤S440，结构相似度计算模块130可依据会话语句的候选主题间的特定对应关系以及数据库中的主题结构信息，得到每一会话语句对应至每一主题的结构相似度估计值。举例来说，在实施例中，结构相似度估计值的计算方式如下。假设会话语句对应的候选主题x、y、z之间有以下对应关系：

x-＞y-＞z......(1)，

而数据库110中主题n1、n2、n3具有以下结构信息200(参见图2)：

n1-＞n2-＞n3......(2)，

明显地，若候选主题x对应至主题n1且候选主题z对应至主题n3，则可以根据(1)以及(2)得知候选主题y对应至主题n2的相似度应该给予较高的估计值。因此，可利用每一语句流程之间的对应关系得到主题相关的结构相似度。在实施例中，主题相关的结构相似度估计值σ_flow(n_ij)可经由以下计算公式求出：

G_T＝<N_T，E_T>；新材料：G_S＝<N_S，E_S>；

N＝{n_i|n_i是对应主题分类，n_i包括至少一个语句}

E＝{n_in_j|n_i，n_j∈N}，路径

表示n_i...n_k...n_j

σ_in(n_ij)＝max(σ(n_xy))，其中n_i，n_x∈N_S，n_j，n_y∈N_T，且G_S中

σ_out(n_ij)＝max(σ(n_xy))，其中n_i，n_x∈N_S，n_j，n_y∈N_T，且G_S中

σ_flow(n_ij)＝avg(σ_in(n_ij)，σ_out(n_ij))

其中，G_T为数据库中包含的图形结构，G_S为输入语句中包含的图形结构，N为图形中的节点(node)，E为图形中的边线，σ_in(n_ij)表示比较节点之前最高相似度，σ_out(n_ij)表示表示比较节点之后最高相似度，σ_flow(n_ij)表示结构相似度估计值。

得到结构相似度估计值之后，如步骤S450，主题相似度计算模块140依据输入教材中每一会话语句对应的内容相似度估计值以及结构相似度估计值，得到每一主题的主题相似度估计值。其中，内容相似度估计值以及结构相似度估计值有一权重关系，表示两者的比例。举例来说，若内容相似度的权重为0.6时，则结构相似度的权重为1-0.6＝0.4，表示主题相似度估计值的计算中主要以内容相似度为主。类似地，若内容相似度的权重为0.4，则结构相似度的权重为1-0.4＝0.6，表示主题相似度的计算中主要以结构相似度为主。在实施例中，输入教材中的第i个会话语句与数据库中第j个主题分类的主题相似度估计值可经由以下式子得到：

σ(n_ij)＝W_uni×σ_uni(n_ij)+(1-W_uni)×σ_flow(n_ij)，

其中σ_uni(n_ij)表示第i个会话语句与第j个主题分类的内容相似度估计值，σ_flow(n_ij)表示第i个会话语句与第j个主题分类的结构相似度估计值，而W_uni表示权重。

得到所有会话语句对应的候选主题的主题相似度估计值之后，如步骤S460，可靠度计算模块150利用每一主题的主题相似度估计值，执行可靠度计算。接着，如步骤S470，自动扩充模块160依据可靠度计算结果，决定输入会话教材的扩充方式，例如建立新主题分类、合并至原有的主题分类以及将候选主题依据相似度排序推荐，但不限于此。

在本实施例中，可靠度计算分别计算域外可靠度(out of domain confidence measure)CM_OOD以及主题可靠度(topic confidence measure)CM_topic。域外可靠度的判断利用拒绝阈值(reject threshold)TH_R判断输入会话教材是否属于原有的主题分类，而主题可靠度的判断利用接受阈值(accept threshold)TH_A判断候选主题相似度的差异程度，其中，拒绝阈值TH_R以及接受阈值TH_A的数值可依据教材内容以及经验法则来决定以及调整。

域外可靠度CMOOD的计算公式如下：

{CM}_{OOD} (n_{i}) = \underset{k = 1 . . m}{Σ} λ_{k} σ (n_{ik})

其中n_i表示第i个主题分类，λ_k表示主题分类n_k的预设权重，而V1(n_i)表示域外可靠度的决定函数。由决定函数V1(n_i)可知，当域外可靠度CM_OOD小于拒绝阈值TH_R时，其值为0，表示新会话教材不属于原有的主题分类，因此需要新增加一个主题分类。当域外可靠度CM_OOD大于或等于拒绝阈值TH_R时，其值为1，可再计算主题可靠度CM_topic。

类似地，主题可靠度CM_topic的计算公式如下：

{CM}_{topic} (n_{i}) = \frac{σ (n_{ij})}{σ (n_{il})},

l = \arg \max_{k = 1 . . m, k &NotEqual; j} σ (n_{ik})

其中σ(n_ij)表示新会话的第i个会话语句最可能对应的主题分类j的相似度估计值，σ(n_il)表示新会话的第i个会话语句第二可能对应的主题分类l的相似度估计值，而V2(n_i)表示主题可靠度的决定函数。也就是说，主题可靠度用以检测候选主题相似度的差异程度。由决定函数V2(n_i)可知，当主题可靠度CM_topic大于等于接受阈值TH_A时，其值为1，表示新输入的会话教材的会话语句i最接近主题分类j，于是可自动对应新的会话教材至该最接近主题分类j。否则，也就是决定函数V2(n_i)为0时，表示数据库中有多个接近的主题分类，也就是主题分类i以及l都与会话语句类似，因此便可依相似度排序显示候选主题。

图5显示另一依据本发明实施例的教材自动扩充方法的流程图500。如图5所示，如步骤S510，可靠度计算模块150先计算域外可靠度CM_OOD，判断输入会话教材中每一会话语句对应至每一主题的主题相似度估计值是否小于拒绝阈值TH_R。如果会话语句对应的主题相似度估计值小于拒绝阈值TH_R时(步骤S510的是)，则表示输入会话教材中的会话语句与目前数据库中的主题都不相似，也就是此为新主题，于是，如步骤S520，自动扩充模块160新增主题以及主题分类，并将新的会话语句设为该新增的主题分类。如果主题相似度估计值大于或等于拒绝阈值TH_R时(步骤S510的否)，如步骤S530，则可靠度计算模块150接着计算主题可靠度CM_topic，判断前述会话语句对应的主题相似度估计值是否大于接受阈值TH_A。如果主题相似度估计值大于接受阈值TH_A时(步骤S530的是)，如步骤S540，则表示新输入的会话教材的会话语句最接近该主题分类，于是自动扩充模块160自动对应新的会话教材至该最接近主题分类。

如果主题相似度估计值小于或等于接受阈值TH_A时(步骤S530的否)，表示数据库中有一个以上的可能候选主题分类，于是，如步骤S550，自动扩充模块160将所有主题依相似度排序显示在显示语句170并提供推荐主题。举例来说，自动扩充模块160可在显示语句170上依序列出由高到低的主题相似度估计值对应的主题，并显示推荐的主题。使用者可直接将新的会话教材加入至推荐的主题分类，或通过使用者接口172决定新的会话教材要加入哪一个主题分类。

综上所述，依据本发明的教材自动扩充方法与相关学习系统，可分析新进会话教材与原有会话数据库中语句的差异，建立对应关系，自动将新进会话教材扩充至数据库，并通过可靠度的量测，编辑对应关系，以减少会话教材扩充所需要的人工介入程度，可以达到快速扩充教材内容的目的。

本发明的方法，或特定形式或其部份，可以以程序代码的形式包含于实体媒体，如软盘、光盘、硬盘、或是任何其它机器可读取(如计算机可读取)存储媒体中，其中，当程序代码被机器，如计算机加载且执行时，此机器变成用以参与本发明的装置。本发明的方法与装置也可以以程序代码形式通过一些传送媒体，如电线或电缆、光纤、或是任何传输形式进行传送，其中，当程序代码被机器，如计算机接收、加载且执行时，此机器变成用以参与本发明的装置。当在一般用途处理器执行时，程序代码结合处理器提供类似于应用特定逻辑电路的独特装置的操作。

虽然本发明已以优选实施例公开如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围的情况下，可做出更改与改进，因此本发明的保护范围当视所附的权利要求所界定的为准。

Claims

1.一种教材自动扩充方法，适用于学习教材扩充系统，用以扩充输入教材数据至数据库中，其中所述输入教材数据具有至少一个语句单元，所述数据库中包括至少一个主题以及所述主题相关的结构信息，所述主题有对应主题分类，所述主题分类包括至少一个对应主题语句单元，所述方法包括下列步骤：

计算所述输入教材数据中所述语句单元对应至所述数据库中所述主题的主题相似度估计值，其中所述主题相似度估计值包含与所述主题相关的内容相似度估计值以及结构相似度估计值；

利用所述语句单元对应的所述主题的所述主题相似度估计值，执行可靠度计算，得到所述主题对应的可靠度估计值；以及

依据所述可靠度估计值，决定所述语句单元的扩充方式。

2.如权利要求1所述的教材自动扩充方法，其中，所述依据所述可靠度估计值，决定所述语句单元的所述扩充方式的步骤进一步包括：

当语句单元的所述可靠度估计值小于拒绝阈值时，决定所述语句单元的所述扩充方式为新增主题分类。

3.如权利要求2所述的教材自动扩充方法，进一步包括：

当所述语句单元的所述可靠度估计值大于所述拒绝阈值时，判断所述可靠度估计值是否大于接受阈值；以及

当所述可靠度估计值大于所述接受阈值时，决定所述语句单元的所述扩充方式为自动将所述语句单元并入至所述主题分类中对应的主题分类。

4.如权利要求3所述的教材自动扩充方法，进一步包括：

当所述语句单元的所述可靠度估计值小于或等于所述接受阈值时，决定所述语句单元的所述扩充方式为自动显示依相似度排序的候选主题并显示至少一个推荐主题。

5.如权利要求1所述的教材自动扩充方法，其中，所述计算所述输入教材数据中所述语句单元对应至所述数据库中所述主题的所述主题相似度估计值的步骤进一步包括：

依据所述语句单元的所述内容相似度估计值，得到所述语句单元对应至所述主题的至少一个候选主题；以及

利用所述语句单元对应的所述候选主题的对应关系以及所述结构信息，得到所述语句单元对应至所述主题的所述结构相似度估计值。

6.如权利要求5所述的教材自动扩充方法，进一步包括：

提供权重；以及

依据所述权重，决定所述语句单元对应至所述主题的所述主题内容相似度以及所述主题结构相似度的比例，以得到所述语句单元对应至所述主题的所述主题相似度估计值。

7.如权利要求1所述的教材自动扩充方法，进一步包括：

对所述语句单元，分别求出所述语句单元与所述主题的所述主题语句单元的语句相似度估计值，并利用对应至所述主题的所述语句相似度估计值，得到对应至所述主题的所述内容相似度估计值。

8.如权利要求7所述的教材自动扩充方法，其中，所述利用对应至所述主题的所述语句相似度估计值，得到对应至所述主题的所述主题内容相似度估计值的步骤将所述主题对应的所述语句相似度估计值中的最大值设为所述内容相似度估计值。

9.如权利要求8所述的教材自动扩充方法，其中，所述分别求出所述语句单元与所述主题的所述主题语句单元的语句相似度估计值是利用断词、停用字过滤、词性标记、关键词抽取以及关键词权重调整步骤得到的。

10.一种学习教材扩充系统，包括：

数据库，所述数据库中包括多个主题以及所述主题相关的结构信息，每一所述主题有对应主题分类，每一所述主题分类包括至少一个对应主题语句单元；

内容相似度计算模块，耦接至所述数据库，接收具有多个语句单元的输入教材数据并计算所述输入教材数据中每一所述语句单元对应至所述数据库中每一所述主题的内容相似度估计值，其中所述语句单元间具有流程结构信息；

结构相似度计算模块，耦接至所述内容相似度计算模块，利用所述流程结构信息以及所述数据库中的所述结构信息，得到每一所述语句单元对应至所述数据库中每一所述主题的结构相似度估计值；

主题相似度计算模块，耦接所述内容相似度计算模块以及所述结构相似度计算模块，依据每一所述语句单元对应至所述数据库中每一所述主题的所述主题内容相似度估计值以及所述结构相似度估计值，得到对应每一所述主题的主题相似度估计值；

可靠度计算模块，耦接至所述主题相似度计算模块，利用每一所述语句单元对应的每一所述主题的所述主题相似度估计值，执行可靠度计算，得到每一所述主题对应的可靠度估计值；以及

自动扩充模块，耦接至所述可靠度计算模块，依据每一所述可靠度估计值，决定每一所述语句单元的扩充方式，以将所述输入会话教材加入至所述数据库中。

11.如权利要求10所述的学习教材扩充系统，其中，所述自动扩充模块进一步在语句单元的所述可靠度估计值小于拒绝阈值时，决定所述语句单元的所述扩充方式为新增主题分类。

12.如权利要求11所述的学习教材扩充系统，其中，所述可靠度计算模块进一步在所述语句单元的所述可靠度估计值大于所述拒绝阈值时，判断所述可靠度估计值是否大于接受阈值，并且在所述可靠度估计值大于所述接受阈值时，所述自动扩充模块决定所述语句单元的所述扩充方式为自动将所述语句单元并入至所述主题分类中对应的主题分类。

13.如权利要求12所述的学习教材扩充系统，进一步包括显示语句单元，并且当所述语句单元的所述可靠度估计值小于或等于所述接受阈值时，所述自动扩充模块决定所述语句单元的所述扩充方式为自动显示依相似度排序的候选主题并在所述显示语句单元上显示至少一个推荐主题。

14.如权利要求10所述的学习教材扩充系统，其中，所述内容相似度计算模块进一步依据每一所述语句单元的所述内容相似度估计值，得到每一所述语句单元对应至每一所述主题的至少一个候选主题，并且所述结构相似度计算模块进一步利用所述语句单元对应的所述候选主题的对应关系以及所述结构信息，得到每一所述语句单元对应至每一所述主题的所述结构相似度估计值。

15.如权利要求14所述的学习教材扩充系统，进一步包括所述主题相似度计算模块进一步依据权重，决定每一所述语句单元对应至每一所述主题的所述主题内容相似度以及所述主题结构相似度的比例，以得到每一所述语句单元对应至每一所述主题的所述主题相似度估计值。

16.如权利要求10所述的学习教材扩充系统，其中，所述内容相似度计算模块进一步对每一所述语句单元，分别求出所述语句单元与每一所述主题的所述主题语句单元的语句相似度估计值，并利用对应至每一所述主题的所述语句相似度估计值，得到对应至每一所述主题的所述内容相似度估计值。

17.如权利要求10所述的学习教材扩充系统，其中，所述内容相似度计算模块将每一所述主题对应的所述语句相似度估计值中的最大值设为所述主题内容相似度估计值。

18.一种机器可读取媒体，存储程序代码用以在执行时致使装置执行教材自动扩充方法，用以扩充输入教材数据至数据库中，其中所述输入教材数据具有至少一个语句单元，所述数据库中包括多个主题以及所述主题相关的结构信息，每一所述主题有对应主题分类，每一所述主题分类包括至少一个对应主题语句单元，所述方法包括下列步骤：

计算所述输入教材数据中每一所述语句单元对应至所述数据库中每一所述主题的主题相似度估计值，其中所述主题相似度估计值包含与所述主题相关的内容相似度估计值以及结构相似度估计值；

利用每一所述语句单元对应的每一所述主题的所述主题相似度估计值，执行可靠度计算，得到每一所述主题对应的可靠度估计值；以及

依据每一所述可靠度估计值，决定每一所述语句单元的扩充方式，

其中所述扩充方式包括新增主题分类、自动将所述语句单元并入至所述主题分类中对应的主题分类以及自动显示依相似度排序的候选主题并显示至少一个推荐主题。

19.如权利要求18所述的机器可读取媒体，其中，所述依据每一所述可靠度估计值，决定每一所述语句单元的所述扩充方式的步骤进一步包括：

对每一所述语句单元，分别求出所述语句单元与每一所述主题的所述主题语句单元的语句相似度估计值，并利用对应至每一所述主题的所述语句相似度估计值，得到对应至每一所述主题的所述内容相似度估计值。

20.如权利要求19所述的机器可读取媒体，其中，所述方法进一步包括：

依据每一所述语句单元的所述内容相似度估计值，得到每一所述语句单元对应至每一所述主题的至少一个候选主题；以及

利用所述语句单元对应的所述候选主题的对应关系以及所述结构信息，得到每一所述语句单元对应至每一所述主题的所述结构相似度估计值。