CN1614585A

CN1614585A - 文本概括

Info

Publication number: CN1614585A
Application number: CNA200310114860XA
Authority: CN
Inventors: 韩客松; 陈芳; 陈桂林
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 2003-11-07
Filing date: 2003-11-07
Publication date: 2005-05-11
Also published as: WO2005048120A1

Abstract

本发明公开了一种用于概括文本的方法，包括根据预设的标准对文本中所选单词进行估算(24)，以提供每个所选单词的单词分数值。该方法随后计算每个所选单词的单词加权分数(25)，其取决于所述单词分数值和每个所选单词出现的数量。此后是对文本中的句子打分的步骤(26)，从而为句子确定句子加权分数。所述句子加权分数取决于句子类型和句中单词的组合单词加权分数。该方法随后选取至少一个句子(27)来提供文本的概要，所述的选取取决于句子的句子加权分数。

Description

文本概括

技术领域

本发明涉及文档的自动文本概括。本发明尤其可使用于(但不限于)对通过与电子设备相关联的无线通信端口或存储模块接收的文本进行概括。

背景技术

每天人们都要面对诸如报纸、技术论文、电子邮件、技术报告和一般新闻等文档中文本。每年特定领域中出版的印刷物的数量通常都大到无法让个人阅读和消化吸收。理想地，标题和摘要应该给读者传达文档的主要主题并由此判断整个文档是否相关适用。然而，内容非常丰富的这些文档部分有可能是令人误解的和错误的。因此，需要提供一种自动文档概括产生工具。通过文档的概括可以使读者确定该文档是否有趣，并由此确定是否想读取文档的更多部分。反过来，读取文档的概要可足以充分告诉读者有关文档的内容，或者可以向读者表明该特定文档是没有意思的。

发明内容

根据本发明的一个方面，提供了一种概括文本的方法，该方法包括如下步骤：

根据预设的标准来估算所选文本的单词数，从而提供每个所选单词的单词分数值；

计算每个所选单词的单词加权分数，该分数取决于单词分数值和每个所选单词出现的数量；

为文本的句子评分，从而为句子确定句子加权分数，所述句子加权分数取决于句子类型和其中单词的组合单词加权分数；和

选取至少一个句子来提供文本的概要，所进行的选择取决于至少某些句子的句子加权分数。

优选地，句子类型取决于预设的标志单词和词组。句子类型可以取决于单词的大小写或者可以来自于下述组：

标题句，

副标题句，

不带任何符号的子标题，

自然段中的第一句，

自然段中的第二句，

自然段中的中间句，和

自然段中的最后一句。

优选地，预设的标准可以包括单词长度或者单词所出现的句子的类型，或者单词词性，或者单词固有值，或者单词在句中的语法功能值。

优选地，单词加权分数W是由下述公式确定的：

W＝W_L×W_POS×W_type×W_value×W_RIS

其中假设W是文本中单独出现的单词加权分数，W_L是单词长度值，W_POS是单词词性值，W_type是该单词出现的单词句子类型值，W_value是单词固有值，W_RIS是在单词所出现的句子中的单词语法功能值。

优选地，使用下述的非线性方程来为多次出现的单词确定单词加权分数：

W(n+1)＝W(n)+1/(n+1)×Wⁿ⁺¹ 其中W(1)＝W

当单词出现过n+1次时，假设W(n+1)是单词的总权重，当单词总共出现了n次时，W(n)是单词的累积权重，而Wⁿ⁺¹则是单个单词在其第n+1次出现时的权重。

优选地，使用下述的方程来提供句子加权分数：

WS＝∑W(w_i)×S(type)/S(len)

其中WS是一个句子的句子加权分数，∑W(w_i)是该句子中所有单词加权分数的和，S(len)是涉及句子长度的另一个加权因子。

优选地，为概要选取句子的步骤包括仅选取句子长度在最小句子长度门限值与最大句子门限值之间的句子，所述句子长度是由其中的单词数量确定的。

优选地，对至少一个句子进行的选取可以基于对根据其句子加权分数排序的句子的比例进行的选取。在另一种情况中，对至少一个句子进行的选取可以基于对句子加权分数大于门限值的句子进行的选取。

在第二方面中，本发明提供了一种文本概括系统，用以完成上述的方法，该系统包括：

用于接收文档和储存程序的存储器。

用于使用程序对存储器中的文档执行上述方法的处理器。

在第三方面中，本发明提供了一种嵌入到浏览器中的引擎用以完成上述的方法，该系统包括：

用于接收文档和储存程序的存储器。

用于使用程序对存储器中的文档执行上述方法的处理器。

在第四方面中，本发明是一个电子通信设备，用以完成上述的方法，该系统包括：

用于接收文档和储存程序的存储器。

用于使用程序对存储器中的文档执行上述方法的处理器。

电子通信设备可包括移动电话或个人数字助理。

附图说明

下面将结合附图描述本发明的实例，其中：

图1是电子设备的框图；和

图2是图示说明可在图1的设备上完成的概括文本的方法的流程图。

具体实施方式

在附图中，使用类似的数字全部用于指示类似的元素。参看图1，其以无线电话的形式说明了电子设备1，该无线电话包括连接处理器3从而与之进行通信的射频通信单元2。以屏幕5和键区6的形式说明了输入界面，它们都连接到处理器3从而与之进行通信。

处理器3包括编码器/解码器11以及相关联的只读存储器(ROM)12，该ROM储存用于对可由无线电话1发射或接收的语音或者其它信号进行编码和解码的数据。处理器3还包括一个通过通用数据和地址总线17连接到编码器/解码器11和相关联的字符只读存储器(ROM)14的微处理器13、随机存取存储器(RAM)4、静态可编程存储器16和可拆卸的SIM模块18。静态可编程存储器16和SIM模块18都可以储存，其中尤其是可以储存所选取的输入文本消息和电话簿数据库TDb。

微处理器13具有用于连接到键区6、屏幕5和提示模块15的端口，提示模块15通常包括扬声器、振动电机及相关的驱动。字符只读存储器14储存用于对可由通信单元2接收、在键区6输入的文本消息进行解码或编码的代码。在这个实施例中，字符只读存储器14还会储存用于微处理器13的操作代码(OC)和用于完成如下结合图2所述的文本概括的代码。

射频通信单元2是一个组合的接收器和发射器，其具有一个公用的天线7。通信单元2具有通过射频放大器9连接到天线7的收发器8。收发器8还连接到将通信单元2连接到处理器3的组合调制器/解调器10。

现在参看图2，图示说明了用于概括文本的方法20。方法20通常是在开始步骤21通过用户在键区6输入命令而调用的。方法20随后包括提供文本的步骤22，其可以通过由用户把包含文本的存储模块插入到SIM模块18或者由设备1通过射频单元2接收随后将存储在静态存储器16中的消息来提供。应该注意到，可以通过包括从因特网下载(通过一个未示出的端口)在内的其它方法来接收文本。提供文本(通常以电子文档的形式)之后，就可以标记合适的资源以使用，这些资源储存在ROM 14中。例如，对于中文文本来说，可以标记汉语字典和汉语词性(POS)词典以使用。

方法20随后进行识别文本结构的步骤23，其实质上是一个预处理的阶段，此时文本将为自动概括作准备。所有的概括处理都是由微处理器13通过使用储存在字符只读存储器14中的代码而完成。通常将以作者的特殊风格以及作者优选的版式来书写文本。例如，某个书写者可能喜欢在自然段之间插入一个空行，而另一个书写者可能在每自然段的开始处加四个空格。此外，由于中文文本是基于双字节字符集(DBCS)的，所以存在与其相关的特殊问题。中文文档中的大部分字符都是使用两个字节存储的，但通常也会有许多单字节符号，诸如英文字母、数字和标点等。标点，例如句点“.”就会产生额外的问题。句点可以是单字节字符集(SBC)的句号，其可以标识一个句子的结束，所以应该被转换成“□”。但是如果它是一个数字串中的小数点，或者如果它是省略号的一部分的话，就不需要进行对其作进一步的处理。

在步骤23中，将识别并删除不必要的空格和空行。步骤23通常还会包括确定文本行的平均长度和句子的数量。也可以对文本进行结构分析以识别其不同的部分，诸如：标题；作者；摘要；段号；自然段中或完整文本中的相对编号；以及参考文献。

方法20接下来进行根据预设标准估算文本中所选取单词的步骤24，以提供每个所选单词的单词分数值。在步骤24中，将根据其将会在概要中使用的可能性而存储文本中的单词。同时，要对中文词进行分段，其包括通过词匹配进行的粗分段。通过使用公知的“右优先(right priority)”和“高频优先”(使用频率较高的字符组)汉字字符组来处理多义词。由于中文文本中可以有单名和双名，所以接下来处理人名和地名。同时将处理(stem)英文单词，其包括去除可变词尾，诸如“ing”和“ed”。在分段和处理(stem)操作之后，将根据以下的标准给文本中的每个所选单词分配一个分数值：

1.单词长度值W_L(其中当单词可以以字母数字字符表示时，可假设构成单词的每个字符为整数值1，词长度值是该整数值的平方根(SQR)；当文本是在中文字符中时，将分配缺省的词长度值1)；因此，单词“dog”具有SQR(3)的单词长度值，单词“begin”具有SQR(5)的单词长度值，而单词“iterative”的单词长度值是3。

2.单词词性值W_POS(名词＝1.2，动词＝1.3，形容词＝1.1，代词＝1.1，其它＝0.5)。

3.单词句子类型值W_type或者单词所出现的句子类型的等级，或者(如果合适的话)用于该单词的最高等级。根据单词所在句子的等级对单词进行分类。W_type有14种类型，它们是：

标题中的单词＝14

副标题中的单词＝13

文本摘要中的单词＝12

无符号的子标题中的单词＝11

第一级子标题中的单词＝10

第二级子标题中的单词＝9

第三级子标题中的单词＝8

第四级子标题中的单词＝7

自然段的第一句中的单词＝6

自然段的第二句中的单词＝5

自然段的最后一句中的单词＝4

自然段的中间句中的单词＝3

独立句中的单词＝2

参考文献中的单词＝1

另外，当单词被识别为“条件指示(subject indicative)”词或者“举例”词时，将选取用于单词的最高等级(值14)。例如，条件指示词有“This text”、“In a word”、“All in all”、“Mainly introduce”、“Mainly research”、“Mainly analyze”、“highly commend”、“particularly point out”、“Unanimously think”、“intensively accuse”和“Unanimously overpass”。举例词的例子有“for example”、“forinstance”、“instance”“given an example”和“example”。

4.单词固有值W_value(值0，1或2)。根据历史、地理或其它的因素，不同的单词具有不同的固有重要性。例如，对于hard disk，有两个中文词。一个(硬盘)主要是在中国大陆使用，另一个(硬碟)主要在香港和台湾使用，所以根据地理原因，这两个词具有不同的值。还可能有同义的两个词，其中一个很少用到，所以这两个词由于历史原因而具有不同的值。单词的固有值是由经验确定的，并且储存在可以检索到它的词典中。

5.单词在句中的语法功能值W_RIS。例如，主观的或客观的或预测性的词的值为2；辅助词(complimentary word)的值为1。

在估算步骤24之后将实施计算步骤25，用来计算每个所选单词的单词加权分数，其取决于单词分数值和每个所选单词出现的频率。用于所选单词的实际单词加权分数W¹是由如下的非线性公式确定的：

W＝W_L×W_POS×W_type×W_value×W_RIS

当单词多次出现时，单词加权分数将如下式计算：

W(n+1)＝W(n)+1/(n+1)×Wⁿ⁺¹

从而累计权重，其中W(n+1)是当单词出现n+1次时的单词的总加权分数，W(n)是当单词总共出现n次时的单词的累计加权分数，Wⁿ⁺¹是在第n+1词出现时的单个单词加权分数，取W(1)记为W¹。

在线性加权系统中，权重要乘以出现频率。例如，如果单词“Clone”出现了5次，其具有固有值3，则它的值为：5*3＝15。相反地，当W¹＝3、W²＝3、W³＝3、W⁴＝5.5和W⁵＝7.375时，频率加权的非线性方法会使单词W的累加单词加权重为：

W(1)＝3

W(2)＝3+1/2*3＝4.5

W(3)＝4.5+1/3*3＝5.5

W(4)＝5.5+1/4*5.5＝6.875

W(5)＝6.875+1/5*6.875＝8.25

计算步骤25之后，为句子打分的步骤将对文本的句子进行打分，以为句子确定句子加权分数，句子加权分数至少取决于句子类型值S(type)和句中单词的组合词加权分数。缺省的句子类型值S(type)从14到1的范围如下面的表1所示。

表1 缺省句子类型值

宏名称缺省句子类型值DSTV 等级

MAIN_TITLE 14 标题句

VICE_TITLE 13 副标题句

SYMBOL_LESS_TITLE 12 无任何符号的子标题

FIRST_LEVEL_TITLE 11 第一级子标题

SECOND_LEVEL_TITLE 10 第二级子标题

THIRD_LEVEL_TITLE 9 第三级子标题

FOURTH_LEVEL_TITLE 8 第四级子标题

ABSTRACT_SENTENCE 7 作者摘要句

PARAGRAPH_FIRST_SENTENCE 6 段中第一句

PARAGRAPH_SECOND_SENTENCE 5 段中第二句

PARAGRAPH_MIDDLE_SENTENCE 4 段中中间句

PARAGRAPH_TAIL_SENTENCE 3 段中最后一句

INDEPENDENT_SENTENCE 2 独立句

REFERENCE_SENTENCE 1 参考文献中的句子

句子类型值还取决于单词的大小写。对于大写字母的句子，缺省句子类型值DSTV要乘以唯一的大小写因子CF，而对于小写字母的句子，缺省句子类型值DSTV要通过0.9的大小写因子CF来改变。包含任何一系列预设标志词或词组的句子也将影响缺省句子类型值DSTV。例如，“In conclusion”、“this letter”、“results”、“argue”、“propose”、“develop”、“attempt”都因为最有可能被用于概要中，所以可以被识别为标志词。由此，具有这样的标志词的句子的缺省句子类型值DSTV将被1.2的标志词因子IWF而改变，而不具有这样的标志词的句子将具有唯一的标志词因子IWF。

因此，句子类型值S(type)＝DSTV*CF*IWF。

在步骤26中，句子将根据其中单词的权重、句子类型值S(type)或者等级以及其长度而以非线性的方式加权。使用下面的公式对一个句子进行加权：

WS＝∑W(w_i)×S(type)/S(len)

其中WS是一个句子的句子加权分数，∑W(w_i)是该句子中所有单词加权分数的和，S(len)是与句子长度有关的另一个加权因子。

单词加权分数的和考虑每个单词的单独权重，并因此考虑句子是否包含条件指示或举例词。经验告诉我们，如果一个句子包含条件指示词，那么这个句子比那些没有条件指示词的句子更有可能是概括句。类似地，包含举例词的句子比那些不包含举例词的句子更不可能是概括句。

对源文本中和人类准备的概要中的句子长度分布的统计分析是基于文档的语料库而进行。最长的句子具有180个单词。我们找到这两个非常类似的分布。因此使用最小均方差的方法来处理句子长度和重要性之间的关系，并给出一个三次方程来定量地描述此关系：

S(len)＝y，其中y＝ax³+bx²+cx+d

其中x是句子单词的长度。同时，使用180个单词的最长句子，可以得到元素(x_i，y_i)的180*180的矩阵X。因此我们得到Y＝X·θ，也即得到：

[\begin{matrix} y_{1} \\ y_{2} \\ y_{3} \\ \cdot \cdot \cdot \\ y_{180} \end{matrix}] [\begin{matrix} x_{1}^{3} & x_{1}^{2} & x_{1}^{1} & 1 \\ x_{2}^{3} & x_{2}^{2} & x_{2}^{1} & 1 \\ x_{3}^{3} & x_{3}^{2} & x_{3}^{1} & 1 \\ \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \\ x_{180}^{3} & x_{180}^{2} & x_{180}^{1} & 1 \end{matrix}] [\begin{matrix} a \\ b \\ c \\ d \end{matrix}]

因为可以推出θ＝[X^TX]^-1X^TY，我们可以确定四个参数a、b、c和d的值。这些值分别为：a＝0.0002；b＝0.2127；c＝4.9961；d＝6.8755。

在为句子打分的步骤26之后，选取步骤27将能够从文本中选取句子(备选概括句)以提供文本的概要，所述的选取取决于至少某些句子的句子加权分数。在这点上，选取备选概括句之前，通过按照句子的权重降序存储这些句子。

太短或太长的句子都不会包括在概括中。例如，假定可允许的最短句子长度设置的最小句子长度门限MST值为5个单词，而最大句子长度门限LST值设为50个单词。这个范围之外的句子都不会被选取。也就是说，选取步骤27只会选取句子长度在最小句子长度门限MST值和最大句子长度门限LST值之间的句子，句子长度是由其中单词的数量决定的。

假定生成的概要的一定长度为L，从句子组S中选取句子S_i，以同时满足这两个条件：

|∑L(S_i)-L|＝min

∑W(S_i)＝max

其中L(S_i)与S_i相关，W(S_i)与S_i的权重相关。

为了选取，可以计算全部的句子加权分数从而对句子进行排序。如果概要的缺省长度L被设置为原始文本文档的30％，那么就将选取并连接这些排序后的句子的前30％，从而创建出概要。换句话说，所述的选取是选取根据句子加权分数排序的句子的比例。另外，所述选取是选取具有高于门限值的句子加权分数的句子。通过标准已知的技术可以使这个概括通顺，并随后在显示步骤28将该概括显示在屏幕5上，在测试步骤29，用户可以通过选择键区6的相应按键来决定对该概括是否满意。如果对这个概括不满意，用户可以在调整参数步骤30调整门限MST、LST，调整概括的缺省长度L，并改变某些单词的偏权重(bias weighting)。同时，不同的读者对文章可能有不同的兴趣。因此方法20自动地保存了一个偏好单词列表，用户可以在调用方法20之前或在步骤30从这个列表中增加或删除单词。

步骤30之后，进行步骤27和28，如果在测试步骤29认为概括不满意的话，可以再次调整参数，否则在步骤29选取该概括作为满意的概括(或者用户中止方法20)，在结束步骤31，该概括可以在方法20中止前被储存在存储器16中。

本发明的优点在于，提供了一种有效概括文本的有用方法。本领域技术人员将认识到，在不背离如更广泛描述的本发明的精神或范围的前提下，如特定实施例所示的本发明可以做出各种改变和/或修改。因此，本发明的实施例在各个方面都可以被认为是说明性的，而非限制性的。

Claims

1.一种用于概括文本的方法，其包括如下步骤：

根据预设的标准对文本中所选单词进行估算，以为每个所选单词提供单词分数值；

为每个所选单词的单词计算加权分数，该加权分数取决于所述单词分数值和每个所选单词出现的数量；

对所述文本中的句子打分，从而为所述句子确定句子加权分数，所述句子加权分数取决于句子类型和其中单词的组合单词加权分数；和

选取至少一个句子来提供所述文本的概要，所述的选取取决于至少某些句子的所述句子加权分数。

2.根据权利要求1所述的方法，其特征在于所述句子类型取决于预设的标志词和词组。

3.根据权利要求1所述的方法，其特征在于所述句子类型取决于单词的大小写。

4.根据权利要求1所述的方法，其特征在于所述句子类型来自下述组：

标题句，

副标题句，

不带任何符号的子标题，

自然段中的第一句，

自然段中的第二句，

自然段中的中间句，和

自然段中的最后一句。

5.根据权利要求1所述的方法，其特征在于所述预设标准包括单词长度。

6.根据权利要求1所述的方法，其特征在于所述预设标准包括其中出现所述单词的句子的类型。

7.根据权利要求1所述的方法，其特征在于所述预设标准包括单词的词性。

8.根据权利要求1所述的方法，其特征在于所述预设标准包括单词固有值。

9.根据权利要求1所述的方法，其特征在于所述预设标准包括所述单词在所述句子中的语法功能值。

10.根据权利要求1所述的方法，其特征在于所述单词加权分数W是由下述公式确定的：

W＝W_L×W_POS×W_type×W_valuee×W_RIS其中假设W是文本中单独出现的单词加权分数，W_L是单词长度值，W_POS是单词词性值，W_type是该单词出现的单词句子类型值，W_value是单词固有值，W_RIS是在单词所出现的句子中的单词语法功能值。

11.根据权利要求10所述的方法，其特征在于，使用下述的非线性方程来为多次出现的单词确定单词加权分数：

W(n+1)＝W(n)+1/(n+1)×Wⁿ⁺¹ 其中W(1)＝W当单词出现过n+1次时，假设W(n+1)是单词的总权重，当单词总共出现了n次时，W(n)是单词的累积权重，而Wⁿ⁺¹则是单个单词在其第n+1次出现时的权重。

12.根据权利要求11所述的方法，其特征在于，使用下述的方程来提供所述句子加权分数：

WS＝∑W(w_i)×S(type)/S(len)其中WS是一个句子的句子加权分数，∑W(w_i)是该句子中所有单词加权分数的和，S(len)是涉及句子长度的另一个加权因子。

13.根据权利要求1所述的方法，其特征在于，所述的为概要选取句子的步骤包括：仅选取句子长度在最小句子长度门限值与最大句子门限值之间的句子，所述句子长度是由其中的单词数量确定的。

14.根据权利要求1所述的方法，其特征在于，对至少一个句子进行的选取可以基于对根据其句子加权分数排序的句子的比例进行的选取。

15.根据权利要求1所述的方法，其特征在于，对至少一个句子进行的选取可以基于对句子加权分数大于门限值的句子进行的选取。