CN101539923A

CN101539923A - 从文档中提取正文片段的方法及装置

Info

Publication number: CN101539923A
Application number: CN200810102182A
Authority: CN
Inventors: 刘明智; 王文俊; 姜全
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2008-03-18
Filing date: 2008-03-18
Publication date: 2009-09-23

Abstract

本发明公开了从文档中提取正文片段的方法及装置，解决目前的提取方法提取出的正文片段不能准确概括整篇文档的问题。所述方法包括：对文本中的句子评定级别；以句子为单位截取预置长度的文本片段，并根据关键词匹配程度和句子级别进行权重计算；将权重最高的文本片段作为要提取的正文片段。所述方法不仅仅参考关键词匹配对正文片段提取的影响，而是将句子级别作为评价参考同时结合关键词的匹配。因此，可以更准确有效地评价网页正文的概括性。

Description

从文档中提取正文片段的方法及装置

技术领域

本发明涉及搜索引擎技术，特别是涉及从文档中提取正文片段的方法及装置。

背景技术

从文档中自动提取出的一个正文片段，如果能够概括全文内容，则称为该文本的摘要，而自动摘要是自动文本摘要的简称。在搜索引擎技术中，自动摘要是搜索引擎返回给用户查询结果的重要组成部分，用户通过浏览摘要就能够了解文档中与查询词相关的部分，进而判断是否值得详细阅读整篇文档。对于同样的一篇文档，查询词不同，搜索引擎返回的自动摘要也不同。为描述方便，以下内容将以自动摘要为例来说明正文片段的提取，并将自动摘要简称为摘要。

目前，从搜索结果网页中提取摘要的方法是：对网页中的文本进行查询关键词的匹配，在得到关键词在网页中的匹配信息之后，可以通过寻找最长匹配的方法选择一段摘要文本。其中，所述最长匹配是指该摘要能够最大限度地包含与关键词相关的信息，可以通过匹配次数、匹配程度等因素来衡量。针对一段文本，把其中匹配上的关键词长度之和作为匹配长度，而最长匹配就是在各个可能作为摘要结果的片段中匹配长度最长的一段文本。

上述只考虑匹配长度的方法虽然实现过程简单易用，但是在匹配过程中丢掉了很多与关键词密切相关的重要信息，使得提取出的摘要不是最优结果。例如，对于有两个关键词的查询，第一个词在某一段匹配了很多次，而另一段同时匹配了两个词，上述方法就会因为前者的匹配长度而放弃了最优的段落，而实质上后一段落才是对整篇文档概括性最强的摘要结果。

目前，还有其他的一些摘要提取方法，但这些方法都不能获得准确的摘要，而摘要在搜索引擎的检索结果中起着重要作用，因此，需要提供一种能够更准确地提取出检索网页的摘要的方法。

发明内容

本发明所要解决的技术问题是提供从文档中提取正文片段的方法及装置，以解决目前的摘要提取方法提取出的摘要不能准确概括整篇文档的问题。

为解决上述技术问题，根据本发明提供的具体实施例，本发明公开了以下技术方案：

从文档中提取正文片段的方法，包括：

对文本中的句子评定级别；以句子为单位截取预置长度的文本片段，并根据关键词匹配程度和句子级别进行权重计算；

将权重最高的文本片段作为要提取的正文片段。

其中，所述权重计算的步骤包括：根据关键词匹配程度和句子级别，对文本片段分别进行加分和减分的计算，然后求和得到总分数。

其中，所述加分的计算步骤包括：对句子级别加分，并对不同句子级别设置不同分数。

其中，所述加分的计算步骤包括：对关键词命中位置位于文本片段前部的加分。

其中，所述加分的计算步骤包括：当文本片段第一次命中关键词时加分，和/或命中完整关键词时加分。

其中，所述减分的计算步骤包括：对关键词出现频繁的文本片段减分。

其中，所述减分的计算步骤包括：对语义起伏的文本片段减分，所述语义起伏情况根据句子级别判断。

其中，所述减分的计算步骤包括：对显示长度偏离目标长度的文本片段减分。

其中，所述对句子评定级别的步骤包括：根据分隔符信息，以及在分句过程中获得的句子属性，对句子评定级别。

其中，所述关键词匹配的步骤包括：关键词被分割为短语和词语，短语由词语组成；进行分层级匹配。

从文档中提取正文片段的装置，包括：

句子评级单元，用于对文本中的句子评定级别；

正文片段提取单元，用于以句子为单位截取预置长度的文本片段，并根据关键词匹配程度和句子级别进行权重计算；将权重最高的文本片段作为要提取的正文片段。

其中，所述正文片段提取单元在进行权重计算时，是根据关键词匹配程度和句子级别，通过对文本片段分别进行加分和减分的计算，然后求和得到总分数。

其中，所述加分计算包括：对句子级别加分，并对不同句子级别设置不同分数；和/或对关键词命中位置位于文本片段前部的加分；和/或当文本片段第一次命中关键词时加分，和/或命中完整关键词时加分。

其中，所述减分计算包括：对关键词出现频繁的文本片段减分；和/或对语义起伏的文本片段减分，所述语义起伏情况根据句子级别判断；和/或对显示长度偏离目标长度的文本片段减分。

其中，所述句子评级单元根据分隔符信息，以及在分句过程中获得的句子属性，对句子评定级别。

所述装置还包括：关键词匹配单元，用于进行分层级的关键词匹配；其中，所述关键词被分割为短语和词语，短语由词语组成。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供的一种摘要提取评价方法，通过对文本中的句子进行评级，并在截取文本片段进行权重计算时，根据所述关键词匹配程度和句子级别进行权重计算，将权重最高的作为摘要。经过所述过程提取出的摘要，能够更准确地概括整篇文档的信息。

上述摘要提取方法由于在对文本片段进行评价时，参考句子级别对评价结果的影响，同时结合关键词的匹配程度，主要通过评价步骤来综合评价一段文本片段是否为有效的摘要。所述方法不仅仅参考关键词匹配对摘要提取的影响，而是将句子级别作为评价参考同时结合关键词的匹配。因此，可以更准确有效地评价网页正文的摘要。

附图说明

图1是本发明实施例所述一种摘要提取评价方法的步骤流程图；

图2是本发明实施例所述一种摘要提取评价装置的结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

针对现有的摘要提取方法不准确的问题，本发明提供了一种更有效的摘要提取方法，通过对分句进行评级，将句子级别和关键词匹配程度结合起来，共同评价一段文本片段。

参照图1，是本发明实施例所述一种摘要提取评价方法的步骤流程图。

在得到用户输入的查询关键词和网页文本后，对文本中的句子进行关键词匹配，求出关键词(即用户输入的查询关键词)在网页正文中出现的位置，同时对句子进行级别评定。

根据本领域技术人员所掌握的本领域技术知识，在搜索引擎技术中，关键词匹配的方式有多种，本实施例采用的匹配方法是：关键词有可能会被分割为短语和词语，短语由词语组成；在关键词被切分的情况下进行分层级匹配。

本实施例中，句子级别的计算方法为：根据分隔符信息，以及在分句过程中获得的句子属性，对句子评定级别。按照自然语言的表达习惯，句子的属性等信息能够在一定程度上表征作为摘要的特征。例如逗号后面的句子是前一句的继续，等等情况都符合作为摘要所具有的特征。所以，这些有可能当作摘要的句子其级别就高于其它句子。由上可知，句子评级的作用是为了从网页大量的分句中挑选出符合作为摘要的句子，从而更准确地提取出网页正文的摘要。

上述过程是本实施例的预处理步骤，经过所述步骤的处理，得到关键词在网页正文中的命中位置以及每个分句的级别，以下步骤是利用这些信息进行网页摘要的提取过程。

步骤101，以句子为单位截取预置长度的文本片段。

将网页文本按照预置长度截取为多个文本片段，每个片段以句子为单位截取，由于句子长度不一，所以每个片段包含的句子个数也不同。为了准确提取摘要，在截取片段时使相邻片段之间存在重叠的部分。

步骤102，根据关键词匹配程度和句子级别，对所述文本片段进行权重计算。所述权重计算是指根据一些评价参数来评价哪些文本片段可能作为摘要，其中哪个片段作为摘要更准确。

根据权重的表达方式，可以有多种权重计算方法，本实施例采用计分制来对一段文本片段进行评价打分。具体评价方法是：分别设置加分和减分的评价参数，并为各参数设置不同分值，然后根据评价参数对每个待评价的文本片段分别进行加分和减分计算，最后根据加减分值得到总分数，作为该片段的权重值。本实施例设置的评价参数主要依据关键词匹配程度和句子级别。

针对各评价参数，下面列出对文本片段进行评价时可执行的加分步骤：

1、对句子级别加分，并对不同句子级别设置不同分数，从而在摘要提取过程中优先使用代表性强的句子。句子级别越高则表示越重要，加分也越多。

2、对关键词命中位置位于文本片段前部的加分，从而加强可读性，增大信息量。例如，命中位置在第一句加100分，在第二句加50等。由于关键词出现在摘要的靠前位置比较符合用户的阅读习惯，能够给用户带来更好的使用体验，所以将关键词命中位置作为一个加分参数。

3、当文本片段第一次命中关键词时加分，与用户的查询词匹配完全一致的匹配分数高。

本实施例中，对文本片段进行评价时可执行的减分步骤包括：

1、对关键词出现频繁的文本片段减分。根据文本片段中对命中次数的统计，当关键词出现次数超过预置阈值时，表示该片段出现太多的重复，可认为是垃圾信息。

2、对语义起伏的文本片段减分。所述语义起伏是指文本片段中的句子太短，语义表达不完整。语义起伏情况可根据句子级别进行判断，例如，片段1：[0121212]，片段2：[012345]，则片段1的语义起伏程度要比片段2的大，即片段2的表述一直都在同一个语义范畴内。

3、对显示长度偏离目标长度的文本片段减分。其中，所述显示长度是指文本片段的长度，所述目标长度是指搜索引擎在结果页面中设定的摘要长度。本实施例在此限制显示长度，目的是使搜索结果列表看起来更整齐美观。

分析上述加分和减分的评价参数可知，本发明在对一个文本片段进行评价打分时，是将关键词在文本片段中的匹配程度和片段中句子的级别结合起来进行的，因而能够更加准确地评价一个片段是否是最佳的摘要。例如，上述加分的步骤1和减分的步骤2，执行依据是利用句子级别信息；上述加分的步骤2、3和减分的步骤1，执行依据是关键词的命中次数及命中位置等表示匹配程度的因素。

上述加分和减分的评价参数仅作为举例说明，除此之外，一些常用的关键词权重计算方法也适用于本发明，而且也可以与句子级别结合起来共同评价一个文本片段。

优选的，本实施例仅对包含关键词的文本片段进行评价打分。因为根据上述评价参数，如果片段中不包含关键词，则关键词在该片段中的匹配程度为零，即使与句子级别结合起来打分，分值也不会很高；而且从用户使用的角度考虑，如果一段摘要里并没有包含用户的查询关键词，则用户点击的可能性也非常低。因此，基于以上两点，本实施例优先对包含关键词的文本片段进行评价打分。

步骤103，将权重最高的文本片段作为摘要。

通过上述打分，将各个片段的分值进行比较，就可以将分值最高的片段作为最佳摘要返回给用户，使用户只需要浏览摘要即可了解要查询的信息。

下面举个详细的例子来说明上述摘要提取过程。

查询串：“火车雪”

一段文本片段如下：

“莎娜的雪火车雪火车火车火车莎娜的雪火车莎娜的雪火车雪火车

火车晚点错过2006年第一场雪讲述：张方武汉大学研究生采写：记者刘晓宁我家在北方小城，正月初六晚上，在开往汉口的火车上，接到一位同学的短信：武汉下雪了，天冷路滑，路上多保重。赶忙回短信问：还在下吗？同学说：是啊，好大的雪。忽然感到很兴奋，因为我总觉得冬天不下场雪就不是冬天。

倒霉的“财神爷”记者翁晓波腊月29一大早就听到门口一阵锣响接着雪一段“恭喜发财”小调起床一看两个脸上花里胡哨古代官袍站门口忙乎火车。

航班延误我被旅客感动得哭了”分句并评级的结果为：(后边的lev表示句子级别，数字越小越好)

s[0]-(莎娜的雪火车雪火车火车火车) lev(0)

s[1]-(莎娜的雪火车莎娜的雪火车雪火车) lev(3)

s[2]-(火车晚点错过2006年第一场雪讲述：) lev(1)

s[3]-(张方武汉大学研究生采写：记者刘晓宁) lev(5)

s[4]-(我家在北方小城，正月初六晚上，在开往汉口的火车上，) lev(3)

s[5]-(接到一位同学的短信：武汉下雪了，天冷路滑，路上多保重。) lev(4)

s[6]-(赶忙回短信问：还在下吗？) lev(2)

s[7]-(同学说：是啊，好大的雪。) lev(2)

s[8]-(忽然感到很兴奋，因为我总觉得冬天不下场雪就不是冬天。) lev(2)

s[9]-(倒霉的“财神爷”记者翁晓波腊月29一大早) lev(1)

s[10]-(就听到门口一阵锣响接着雪一段“恭喜发财”小调)lev(3)

s[11]-(起床一看两个脸上花里胡哨古代官袍) lev(3)

s[12]-(站门口忙乎火车。) lev(3)

s[13]-(航班延误我被旅客感动得哭了) lev(1)

按照上述打分方式对整个片段打分，得到如下结果：

(1)对关键词出现过于频繁的减分(下面这段有过多的重复，可以认为是垃圾信息)

“莎娜的雪火车雪火车火车火车莎娜的雪火车莎娜的雪火车雪火车”

(2)对句子级别加分

“火车晚点错过2006年第一场雪讲述：张方武汉大学研究生采写：记者刘晓宁我家在北方小城，正月初六晚上，在开往汉口的火车上，接到一位同学的短信：武汉下雪了，天冷路滑，路上多保重。赶忙回短信问：还在下吗？同学说：”

(3)对语义起伏的减分“倒霉的“财神爷”记者翁晓波腊月29一大早，就听到门口，一阵锣响。接着雪，一段“恭喜发财”小调。起床一看，两个脸上花里胡哨、古代官袍。站门口忙乎火车。”

(4)对命中位置加分

参见(2)，关键词“雪”和“火车”都在第一句中出现，命中句子靠前，效果好。

(5)显示长度偏离目标减分(尽量使结果整齐)

“航班延误我被旅客感动得哭了”

通过上述五点打分后，确定提取出的摘要是“火车晚点错过2006年第一场雪讲述：张方武汉大学研究生采写：记者刘晓宁我家在北方小城，正月初六晚上，在开往汉口的火车上，接到一位同学的短信：武汉下雪了，天冷路滑，路上多保重。赶忙回短信问：还在下吗？同学说：”。

针对上述摘要提取方法，本发明还提供了一种摘要提取装置实施例。参照图2，是本发明实施例所述一种摘要提取评价装置的结构图。所述装置主要包括关键词匹配单元201、句子评级单元202、正文片段提取单元203。

所述关键词匹配单元201用于利用分句信息，按句进行关键词匹配，从而求出关键词在网页正文中出现的位置。关键词匹配单元202采用的匹配方法是：根据空格或逗号等分隔符将关键词切分为短语和词语，然后进行分层级匹配。

所述句子评级单元202用于对所述句子评定级别，句子级别的计算方法为：根据分隔符信息以及在分句过程中获得的句子属性，进行句子评级。

所述正文片段提取单元203用于以句子为单位截取预置长度的文本片段，并根据关键词匹配程度和句子级别进行权重计算，最后将权重最高的文本片段作为摘要。为了准确提取摘要，所述相邻片段之间存在重叠的部分。根据关键词匹配单元202可以获得关键词在网页正文中出现的位置，根据句子评级单元203可以获得句子级别信息。正文片段提取单元203利用所述关键词匹配单元202和句子评级单元203的处理结果，设置加分和减分的评价参数，并为各参数设置不同分值，然后根据评价参数对每个待评价的文本片段分别进行加分和减分计算，最后根据加减分值得到总分数，作为该片段的权重值。

其中，所述加分的评价参数包括：对句子级别加分，对关键词命中位置位于文本片段前部的加分，当文本片段第一次命中关键词时加分，当文本片段第一次出现完整短语时也加分等。所述减分的评价参数包括：对关键词出现频繁的文本片段减分，对语义起伏的文本片段减分，对显示长度偏离目标长度的文本片段减分等。所述正文片段提取单元203需要不断地对参数进行评估和调整，从而提取出更加准确有效的网页正文摘要。

图2所示装置中未详述的部分可以参见图1所示方法的相关部分，为了篇幅考虑，在此不再详述。

以上对本发明所提供的从文档中提取正文片段的方法及装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1、从文档中提取正文片段的方法，其特征在于，包括：

将权重最高的文本片段作为要提取的正文片段。

2、根据权利要求1所述的方法，其特征在于，所述权重计算的步骤包括：

根据关键词匹配程度和句子级别，对文本片段分别进行加分和减分的计算，然后求和得到总分数。

3、根据权利要求2所述的方法，其特征在于，所述加分的计算步骤包括：

对句子级别加分，并对不同句子级别设置不同分数。

4、根据权利要求2所述的方法，其特征在于，所述加分的计算步骤包括：

对关键词命中位置位于文本片段前部的加分。

5、根据权利要求2所述的方法，其特征在于，所述加分的计算步骤包括：

当文本片段第一次命中关键词时加分，和/或命中完整关键词时加分。

6、根据权利要求2所述的方法，其特征在于，所述减分的计算步骤包括：

对关键词出现频繁的文本片段减分。

7、根据权利要求2所述的方法，其特征在于，所述减分的计算步骤包括：

对语义起伏的文本片段减分，所述语义起伏情况根据句子级别判断。

8、根据权利要求2所述的方法，其特征在于，所述减分的计算步骤包括：

对显示长度偏离目标长度的文本片段减分。

9、根据权利要求1所述的方法，其特征在于，所述对句子评定级别的步骤包括：

根据分隔符信息，以及在分句过程中获得的句子属性，对句子评定级别。

10、根据权利要求1所述的方法，其特征在于，所述关键词匹配的步骤包括：

关键词被分割为短语和词语，短语由词语组成；

进行分层级匹配。

11、从文档中提取正文片段的装置，其特征在于，包括：

句子评级单元，用于对文本中的句子评定级别；

12、根据权利要求11所述的装置，其特征在于：所述正文片段提取单元在进行权重计算时，是根据关键词匹配程度和句子级别，通过对文本片段分别进行加分和减分的计算，然后求和得到总分数。

13、根据权利要求12所述的装置，其特征在于，所述加分计算包括：

对句子级别加分，并对不同句子级别设置不同分数；

和/或对关键词命中位置位于文本片段前部的加分；

和/或当文本片段第一次命中关键词时加分，和/或命中完整关键词时加分。

14、根据权利要求12所述的装置，其特征在于，所述减分计算包括：

对关键词出现频繁的文本片段减分；

和/或对语义起伏的文本片段减分，所述语义起伏情况根据句子级别判断；

和/或对显示长度偏离目标长度的文本片段减分。

15、根据权利要求11所述的装置，其特征在于：所述句子评级单元根据分隔符信息，以及在分句过程中获得的句子属性，对句子评定级别。

16、根据权利要求11所述的装置，其特征在于，还包括：关键词匹配单元，用于进行分层级的关键词匹配；其中，所述关键词被分割为短语和词语，短语由词语组成。