CN101075260A - 摘要提取方法以及摘要提取模块 - Google Patents
摘要提取方法以及摘要提取模块 Download PDFInfo
- Publication number
- CN101075260A CN101075260A CN 200710109499 CN200710109499A CN101075260A CN 101075260 A CN101075260 A CN 101075260A CN 200710109499 CN200710109499 CN 200710109499 CN 200710109499 A CN200710109499 A CN 200710109499A CN 101075260 A CN101075260 A CN 101075260A
- Authority
- CN
- China
- Prior art keywords
- weight
- current window
- content
- keyword
- window content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种摘要提取方法,该方法包括:在文档中以设定步长滑动窗口的过程中,从文档中提取与当前窗口对应的当前窗口内容,根据关键词计算当前窗口内容的权重,并保存当前窗口内容及对应的权重;在滑动结束后,根据所保存的窗口内容及对应的权重,取出与较高权重对应的一个或多个窗口内容作为摘要。本发明还公开了一种摘要提取模块,该模块包括存储单元、滑动单元、计算单元以及摘要形成单元。由于本发明在窗口滑动过程中根据关键词计算窗口内容的权重,最后取出与较高权重对应的一个或多个窗口内容作为摘要,从而取出能够最佳反应与关键词关系的摘要内容,将与用户输入的关键词最贴近的内容作为摘要提供给用户。
Description
技术领域
本发明涉及根据关键词从文档中提取摘要的技术领域,特别是摘要提取方法和摘要提取模块。
背景技术
搜索引擎是目前互联网上常见的一种工具。通常,搜索引擎利用爬虫从网络上的站点或者本地计算机上获取数据,并形成多个文档。当用户使用搜索引擎进行搜索时,搜索引擎根据用户提交的关键词匹配到一个或多个文档。接着,搜索引擎中的摘要提取模块根据用户提交的关键词,从所匹配到的文档中提取与关键词相关的内容作为摘要,该摘要应该能够最大限度地包含与关键词相关的信息,然后搜索引擎通过页面将各个文档的摘要显示给用户。
目前,摘要提取模块在文档中通过关键词进行位置匹配,然后将文档中关键词周围的内容作为摘要。例如,当关键词为三个时,这些关键词在文档中出现了10次、12次、18次,现有的摘要提取模块将这30处关键词中的一部分关键词及其附近的内容作为摘要。
但是,当文档中有4个包括全部关键词的句子时,说明这4个句子与关键词非常相关,但是上述现有技术并不能得知这一情况,从而提取出这4个句子作为摘要的一部分。换言之,现有的摘要提取方法提取出的摘要与关键词的关联程度较低,并不能将文档中与关键词高度相关的内容体现出来。
发明内容
有鉴于此,本发明提出了一种摘要提取方法,用以将与关键词高度匹配的内容提取出来作为摘要。本发明还提出了一种摘要提取模块。
本发明提供了一种摘要提取方法,该方法包括:
在文档中以设定步长滑动窗口的过程中,从文档中提取与当前窗口对应的当前窗口内容,根据关键词计算当前窗口内容的权重,并保存当前窗口内容及对应的权重;
在滑动结束后,根据所保存的窗口内容及对应的权重,取出与较高权重对应的一个或多个窗口内容作为摘要。
所述设定步长为文档内容中的最小单位。
在根据关键词计算当前窗口内容的权重之前进一步包括判断当前窗口内容中是否包含关键词的步骤,并在是的情况下计算当前窗口内容的权重。
所述根据关键词计算当前窗口内容的权重的步骤包括:对每个关键词的权重求和作为当前窗口内容的权重。
该方法进一步包括:根据各关键词的重要性,为各关键词的权重分别乘以一个系数,其中所述系数随重要性的增加而增大;和/或,为当前窗口内容的权重乘以或加上一个系数,该系数在当前窗口内容中关键词出现的次序与输入的关键词的次序越接近时和/或在当前窗口内容中关键词之间的距离越短时越大。
在保存当前窗口内容及对应的权重之前进一步包括判断当前窗口内容的权重是否大于与当前窗口重叠的窗口内容的权重,并在是的情况下保存当前窗口内容及对应的权重。
所述取出与较高权重对应的一个或多个窗口内容作为摘要的步骤包括:根据权重对对应的窗口内容排序;根据摘要的大小,按照权重从大到小的顺序取出一个或多个窗口内容作为摘要。
本发明还提供了一种摘要提取模块,该模块包括存储单元、滑动单元、计算单元以及摘要形成单元,其中:
所述存储单元用于存储文档、窗口内容及对应的权重;
所述滑动单元用于在文档中以设定步长滑动窗口,并在滑动的过程中,从文档中提取与当前窗口对应的当前窗口内容提供给计算单元;
所述计算单元用于根据关键词计算当前窗口内容的权重,并在存储单元中保存当前窗口内容及对应的权重;
所述摘要形成单元用于在滑动结束后从所述存储单元取出与较高权重对应的一个或多个窗口内容作为摘要。
该摘要提取模块进一步包括:设置单元,用于为滑动单元设置窗口大小和滑动步长;和/或,排序模块,用于根据权重对存储单元中对应的窗口内容排序,以便所述摘要生成单元顺序取出与较高权重对应的一个或多个窗口内容作为摘要。
所述计算单元进一步用于判断当前窗口内容中是否包含关键词,并在是的情况下计算当前窗口内容的权重;和/或,进一步用于判断当前窗口内容的权重是否大于与当前窗口重叠的窗口内容的权重,并在是的情况下保存当前窗口内容及对应的权重。
从上述方案中可以看出,由于本发明在窗口滑动过程中根据关键词计算窗口内容的权重,最后取出与较高权重对应的一个或多个窗口内容作为摘要,从而取出能够最佳反应与关键词关系的摘要内容,将与用户输入的关键词最贴近的内容作为摘要提供给用户。
附图说明
图1为根据本发明实施例的摘要提取方法的流程示意图;
图2为根据本发明实施例的摘要提取系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下举实施例对本发明进一步详细说明。
图1为根据本发明实施例的摘要提取方法的流程示意图。如图1所示,本发明实施例的摘要提取方法包括以下步骤:
步骤101,预先设定窗口大小以及滑动步长。这里的窗口是指在文档中提取内容的基本单元,通常包括多个字词。一般来说步长要小于等于窗口的大小,否则就不能覆盖到文档的全部内容。
优选地,将步长设为文档中内容的最小单位,例如一个汉字、一个英文单词、一个数字等。
步骤102,以设定的步长向前滑动窗口,并提取当前窗口所对应的内容。在这里将窗口所对应的内容的称为窗口内容,将当前窗口所对应的内容称为当前窗口内容。
步骤103,判断当前窗口中是否包含关键词,如果包含关键词,则执行步骤104及其后续步骤;否则,执行步骤107及其后续步骤。
当然,也可以不进行步骤103的判断而直接执行步骤104及其后续步骤,因为不包含关键词的情况下当前窗口的权重会被计算为零,从而不会被用作摘要。
步骤104,根据关键词计算当前窗口内容的权重。
这里以关键词为多个的情况进行描述。当关键词为单个时,可以看成是多个关键词的简化特例。
简单来说,窗口内容的权重等于对每个关键词的权重求和。简便起见,以两个关键词为例进行描述。假设用户输入的关键词是“摘要提取”两个词,那么,窗口内容的权重就等于“摘要”的权重加上“提取”的权重。而每个关键词的权重与这个关键词在当前窗口内容中出现的次数相关,出现的次数越多,关键词的权重越大。从上面的描述可以看出,窗口内容的权重与其中出现的关键词的个数以及各个关键词出现的次数相关。当关键词为单个时,只需要按照上述方法将关键词的权重作为当前窗口内容的权重即可,并不涉及下面的内容。
进一步,由于每个关键词的重要性是不一样的,可以在求和之前为每个关键词的权重乘以一个系数。例如,在文档中“摘要”出现了784次,而“提取”出现了98次,在文档中出现次数多的关键词的重要性一般小于在文档中出现次数少,所以在求和之前为“摘要”的权重乘以一个较小的系数,而为“提取”的乘以一个较大的系数,从而区分出两者的重要性。
更进一步,在计算窗口内容的权重时,还可以根据窗口内容中多个关键词的相关程度,对窗口内容的权重进行修正,例如加一个系数和/或乘以一个系数。举例来说,当窗口内容中的“摘要”、“提取”出现的次序与用户输入的顺序一致或者越接近时,加上一个较大的系数和/或乘以一个较大的系数;当窗口内容中的“摘要”、“提取”出现的次序与用户输入的顺序不一致或者越不接近时,加上一个较小的系数和/或乘以一个较小的系数;当窗口内容中的“摘要”和“提取”的距离较短时,加上一个较大的系数和/或乘以一个较大的系数;当窗口内容中的“摘要”和“提取”的距离较大时,加上一个较小的系数和/或乘以一个较小的系数。
步骤105,判断当前窗口内容的权重是否大于与当前窗口重叠的窗口内容的权重,如果是,则执行步骤106及其后续步骤;否则,丢弃当前窗口内容,然后执行步骤107及其后续步骤。
步骤106,保存当前窗口内容以及对应的权重。
另外,也可以不执行步骤105的判断,直接保存当前窗口内容以及对应的权重。
步骤107,判断滑动是否结束,即是否达到文档末尾,如果是,则执行步骤108及其后续步骤;如果不是,则执行步骤102及其后续步骤。
步骤108,对保存的窗口内容按照权重进行排序,不妨假设按照与其对应的权重从大到小排列。
步骤109,根据摘要长度的要求,按照步骤108中的排序,从排列的窗口内容中依照圈中从大到小的次序取出一个或多个窗口内容,从而形成摘要。
另外,在本发明实施例的方法中,也可以不执行步骤108的排序,而是在步骤109中,根据所保存的窗口内容及对应的权重,取出与较高权重对应的一个或多个窗口内容作为摘要。
该流程至此结束。
图2是根据本发明实施例的摘要提取模块的结构示意图。参照图2,该摘要提取装置包括存储单元、滑动单元、计算单元以及摘要形成单元。
其中,存储单元用于存储文档、窗口内容及对应的权重。
滑动单元用于在文档中以设定步长滑动窗口,并且在滑动的过程中,从文档中提取与当前窗口对应的当前窗口内容,然后将当前窗口内容提供给计算单元。
计算单元用于根据关键词计算当前窗口内容的权重,并在存储单元中保存当前窗口内容及对应的权重。计算单元可以通过对每个关键词的权重求和作为当前窗口内容的权重。进一步,计算单元还可以根据各关键词的重要性,为各关键词的权重分别乘以一个系数,其中所述系数随重要性的增加而增大。另外,计算单元还可以为当前窗口内容的权重乘以或加上一个系数,该系数在当前窗口中关键词出现的次序与输入的关键词的次序越接近时和/或在当前窗口中关键词之间的距离越短时越大。
另外,计算单元可以进一步在收到当前窗口内容并且未计算当前窗口的权重时,判断当前窗口内容中是否包含关键词,并在是的情况下计算当前窗口内容的权重,如果当前窗口内容中不包含关键词,则不计算当前窗口内容的权重,从滑动单元接收并处理下一个当前窗口内容。
另外,计算单元可以进一步在保存当前窗口内容及对应的权重时,判断当前窗口内容的权重是否大于与当前窗口重叠的窗口内容的权重,并在是的情况下保存当前窗口内容及对应的权重,如果当前窗口内容的权重不大于与当前窗口重叠的窗口内容的权重,则丢弃当前窗口内容。
摘要形成单元用于在滑动结束后从存储单元取出与较高权重对应的一个或多个窗口内容作为摘要。
继续参照图2,本发明实施例的摘要提取模块还可以进一步包括设置单元,该设置单元用于为滑动单元设置窗口大小和滑动步长。
本发明实施例的摘要提取模块还可以进一步包括排序单元,该排序单元用于根据权重对存储单元中对应的窗口内容排序,以便摘要生成单元顺序取出与较高权重对应的一个或多个窗口内容作为摘要。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1、一种摘要提取方法,其特征在于,该方法包括:
在文档中以设定步长滑动窗口的过程中,从文档中提取与当前窗口对应的当前窗口内容,根据关键词计算当前窗口内容的权重,并保存当前窗口内容及对应的权重;
在滑动结束后,根据所保存的窗口内容及对应的权重,取出与较高权重对应的一个或多个窗口内容作为摘要。
2、根据权利要求1所述的方法,其特征在于,所述设定步长为文档内容中的最小单位。
3、根据权利要求1所述的方法,其特征在于,在根据关键词计算当前窗口内容的权重之前进一步包括判断当前窗口内容中是否包含关键词的步骤,并在是的情况下计算当前窗口内容的权重。
4、根据权利要求1所述的方法,其特征在于,所述根据关键词计算当前窗口内容的权重的步骤包括:对每个关键词的权重求和作为当前窗口内容的权重。
5、根据权利要求4所述的方法,其特征在于,该方法进一步包括:
根据各关键词的重要性,为各关键词的权重分别乘以一个系数,其中所述系数随重要性的增加而增大;和/或,
为当前窗口内容的权重乘以或加上一个系数,该系数在当前窗口内容中关键词出现的次序与输入的关键词的次序越接近时和/或在当前窗口内容中关键词之间的距离越短时越大。
6、根据权利要求1所述的方法,其特征在于,在保存当前窗口内容及对应的权重之前进一步包括判断当前窗口内容的权重是否大于与当前窗口重叠的窗口内容的权重,并在是的情况下保存当前窗口内容及对应的权重。
7、根据权利要求1所述的方法,其特征在于,所述取出与较高权重对应的一个或多个窗口内容作为摘要的步骤包括:
根据权重对对应的窗口内容排序;
根据摘要的大小,按照权重从大到小的顺序取出一个或多个窗口内容作为摘要。
8、一种摘要提取模块,其特征在于,该摘要提取模块包括存储单元、滑动单元、计算单元以及摘要形成单元,其中:
所述存储单元用于存储文档、窗口内容及对应的权重;
所述滑动单元用于在文档中以设定步长滑动窗口,并在滑动的过程中,从文档中提取与当前窗口对应的当前窗口内容提供给计算单元;
所述计算单元用于根据关键词计算当前窗口内容的权重,并在存储单元中保存当前窗口内容及对应的权重;
所述摘要形成单元用于在滑动结束后从所述存储单元取出与较高权重对应的一个或多个窗口内容作为摘要。
9、根据权利要求1所述的摘要提取模块,其特征在于,该摘要提取模块进一步包括:
设置单元,用于为滑动单元设置窗口大小和滑动步长;和/或,
排序模块,用于根据权重对存储单元中对应的窗口内容排序,以便所述摘要生成单元顺序取出与较高权重对应的一个或多个窗口内容作为摘要。
10、根据权利要求1所述的摘要提取模块,其特征在于,所述计算单元进一步用于判断当前窗口内容中是否包含关键词,并在是的情况下计算当前窗口内容的权重;和/或,
进一步用于判断当前窗口内容的权重是否大于与当前窗口重叠的窗口内容的权重,并在是的情况下保存当前窗口内容及对应的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB200710109499XA CN100492366C (zh) | 2007-06-28 | 2007-06-28 | 摘要提取方法以及摘要提取模块 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB200710109499XA CN100492366C (zh) | 2007-06-28 | 2007-06-28 | 摘要提取方法以及摘要提取模块 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101075260A true CN101075260A (zh) | 2007-11-21 |
CN100492366C CN100492366C (zh) | 2009-05-27 |
Family
ID=38976311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB200710109499XA Active CN100492366C (zh) | 2007-06-28 | 2007-06-28 | 摘要提取方法以及摘要提取模块 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100492366C (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314448A (zh) * | 2010-07-06 | 2012-01-11 | 株式会社理光 | 一种在文档中获得一个或多个关键元素的设备和方法 |
WO2015196824A1 (zh) * | 2014-06-27 | 2015-12-30 | 北京君和信达科技有限公司 | 一种安检结论提交方法和装置 |
CN105808566A (zh) * | 2014-12-30 | 2016-07-27 | 北京奇虎科技有限公司 | 一种基于搜索词从网页中提取摘要的方法和装置 |
CN105808552A (zh) * | 2014-12-30 | 2016-07-27 | 北京奇虎科技有限公司 | 一种基于滑动窗口从网页中提取摘要的方法和装置 |
CN105808570A (zh) * | 2014-12-30 | 2016-07-27 | 北京奇虎科技有限公司 | 一种提供搜索摘要服务的方法和装置 |
CN107451302A (zh) * | 2017-09-22 | 2017-12-08 | 深圳大学 | 滑动窗口下基于位置top‑k关键词查询的建模方法及系统 |
CN108628833A (zh) * | 2018-05-11 | 2018-10-09 | 北京三快在线科技有限公司 | 原创内容摘要确定方法及装置,原创内容推荐方法及装置 |
CN109522402A (zh) * | 2018-10-22 | 2019-03-26 | 国家电网有限公司 | 一种基于电力行业特征关键词的摘要提取方法及存储介质 |
CN117764459A (zh) * | 2024-02-22 | 2024-03-26 | 山邮数字科技(山东)有限公司 | 一种基于数据智能分析处理的企业管理系统及方法 |
-
2007
- 2007-06-28 CN CNB200710109499XA patent/CN100492366C/zh active Active
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314448A (zh) * | 2010-07-06 | 2012-01-11 | 株式会社理光 | 一种在文档中获得一个或多个关键元素的设备和方法 |
CN102314448B (zh) * | 2010-07-06 | 2013-12-04 | 株式会社理光 | 一种在文档中获得一个或多个关键元素的设备和方法 |
WO2015196824A1 (zh) * | 2014-06-27 | 2015-12-30 | 北京君和信达科技有限公司 | 一种安检结论提交方法和装置 |
CN105808566A (zh) * | 2014-12-30 | 2016-07-27 | 北京奇虎科技有限公司 | 一种基于搜索词从网页中提取摘要的方法和装置 |
CN105808552A (zh) * | 2014-12-30 | 2016-07-27 | 北京奇虎科技有限公司 | 一种基于滑动窗口从网页中提取摘要的方法和装置 |
CN105808570A (zh) * | 2014-12-30 | 2016-07-27 | 北京奇虎科技有限公司 | 一种提供搜索摘要服务的方法和装置 |
CN107451302A (zh) * | 2017-09-22 | 2017-12-08 | 深圳大学 | 滑动窗口下基于位置top‑k关键词查询的建模方法及系统 |
WO2019056568A1 (zh) * | 2017-09-22 | 2019-03-28 | 深圳大学 | 滑动窗口下基于位置top-k关键词查询的建模方法及系统 |
CN108628833A (zh) * | 2018-05-11 | 2018-10-09 | 北京三快在线科技有限公司 | 原创内容摘要确定方法及装置,原创内容推荐方法及装置 |
CN109522402A (zh) * | 2018-10-22 | 2019-03-26 | 国家电网有限公司 | 一种基于电力行业特征关键词的摘要提取方法及存储介质 |
CN117764459A (zh) * | 2024-02-22 | 2024-03-26 | 山邮数字科技(山东)有限公司 | 一种基于数据智能分析处理的企业管理系统及方法 |
CN117764459B (zh) * | 2024-02-22 | 2024-04-26 | 山邮数字科技(山东)有限公司 | 一种基于数据智能分析处理的企业管理系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN100492366C (zh) | 2009-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101075260A (zh) | 摘要提取方法以及摘要提取模块 | |
CN1240011C (zh) | 应用于操作系统的文件分类管理系统及方法 | |
US8078625B1 (en) | URL-based content categorization | |
KR100451978B1 (ko) | 정보 검색 방법과 정보 검색 장치 | |
US8015124B2 (en) | Method for determining near duplicate data objects | |
CN101566984B (zh) | 一种应用在个人手持设备中的搜索引擎和资源搜索方法 | |
CN1290036C (zh) | 根据机器可读词典建立概念知识的计算机系统及方法 | |
US8498455B2 (en) | Scalable face image retrieval | |
CN101079031A (zh) | 一种网页主题提取系统和方法 | |
CN106776567B (zh) | 一种互联网大数据分析提取方法及系统 | |
CN1732451A (zh) | 为移动通信装置的文档内容做摘要的方法和装置 | |
WO2012075884A1 (zh) | 书签智能分类的方法和服务器 | |
CN101061478A (zh) | 提供与文档相关的信息 | |
US20110264997A1 (en) | Scalable Incremental Semantic Entity and Relatedness Extraction from Unstructured Text | |
EP1826692A2 (en) | Query correction using indexed content on a desktop indexer program. | |
CN101030221A (zh) | 一种用于文本或网络内容分析的大规模多关键词匹配方法 | |
CN1145899C (zh) | 为文字文档自动生成摘要的方法 | |
CN101075252A (zh) | 一种网络搜索方法及系统 | |
CN104572720B (zh) | 一种网页信息排重的方法、装置及计算机可读存储介质 | |
EP2631815A1 (en) | Method and device for ordering search results, method and device for providing information | |
CN101079025A (zh) | 一种文档相关度计算系统和方法 | |
CN1362681A (zh) | 信息检索处理装置和方法,记录信息检索程序的记录媒体 | |
CN105912662A (zh) | 基于Coreseek的垂直搜索引擎研究与优化的方法 | |
CN101046809A (zh) | 基于关联规则模式的新词识别方法 | |
CN110019637B (zh) | 一种标准文献检索的排序算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |