CN110008313A - 一种抽取式无监督文本摘要方法 - Google Patents
一种抽取式无监督文本摘要方法 Download PDFInfo
- Publication number
- CN110008313A CN110008313A CN201910289008.7A CN201910289008A CN110008313A CN 110008313 A CN110008313 A CN 110008313A CN 201910289008 A CN201910289008 A CN 201910289008A CN 110008313 A CN110008313 A CN 110008313A
- Authority
- CN
- China
- Prior art keywords
- sentences
- weight
- text
- sentence
- reserved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 230000011218 segmentation Effects 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000001902 propagating effect Effects 0.000 claims description 5
- 230000007547 defect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种抽取式无监督文本摘要方法,步骤如下:S1、将文本分割成若干组成单元(单词、句子)并建立图模型;S2、利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘;其中,建立模型和确定权重的的流程为:S201、预处理;S202、构建图G=(V,E),其中V为句子集,对句子进行分词、去除停止词,得S203、句子相似度计算:构建图G中的边集E,基于句子间的内容覆盖率,给定两个句子。本发明能够压缩文本信息冗余度,减少存储资源;增加了用户阅读信息的有效性,缩短文本阅读时间;能够根据外部数据进行权重以及权重库的调整,增加了很强的时效性;提高了效率,降低了运行成本。
Description
技术领域
本发明涉及一种文本摘要方法,特别涉及一种抽取式无监督文本摘要方法。
背景技术
随着近年来信息(尤其是文本信息)的爆发式增长,我们每天能接触到海量的信息,如新闻、论文、微博、学术报告等。从大量文本信息中提取重要且简短的内容,已成为一个迫切需求,其中自动文本摘要(automatic text summarization)提供了一个高效的解决方案。
根据Radev提出的定义,摘要是“一段从一份或多份文本中提取出来的文字,它包含了原文本中的重要信息,其长度不超过或远少于原文本的一半”。自动文本摘要旨在通过机器自动输出简洁、流畅、保留关键信息的摘要。自动文本摘要有非常多的应用场景,如自动报告生成、新闻标题生成、搜索结果预览等。此外,自动文本摘要也可以为下游任务提供支持。
尽管对自动文本摘要有庞大的需求,这个领域的发展却比较缓慢。对计算机而言,生成摘要是一件很有挑战性的任务。从一份或多份文本生成一份合格摘要,要求计算机在阅读原文本后理解其内容,并根据轻重缓急对内容进行取舍,裁剪和拼接内容,最后生成流畅的短文本。因此,自动文本摘要需要依靠自然语言处理/理解的相关理论,是近几年来的重要研究方向之一。
自动文本摘要通常可分为两类,分别是抽取式(extractive)和生成式(abstractive)。抽取式摘要判断原文本中重要的句子,抽取这些句子成为一篇摘要。而生成式方法则应用先进的自然语言处理的算法,通过转述、同义替换、句子缩写等技术,生成更凝练简洁的摘要。自动文本摘要提供了简洁的处理方式,可以帮助人们在海量文本数据中快速获取信息、节省阅读时间、抓住信息内容重点,实现文本数据资源的格式化、简短化、内容中心化等特点,成为数据获取、处理、分析的重要基础。
目前的自动文本摘要方法尤其是抽取式自动文本摘要方法,存在一定的缺陷,比如在判断原文本中重要句子时,会存在路径依赖,在长期运行的情况下,会存在一定的误判断的情况,导致不能及时的进行更正,导致了出现自动文本摘要的不准确性,而人工进行干预的情况下又会导致效率降低,成本增加。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种抽取式无监督文本摘要方法。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明一种抽取式无监督文本摘要方法,步骤如下:
S1、将文本分割成若干组成单元(单词、句子)并建立图模型;
S2、利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘;
其中,建立模型和确定权重的的流程为:
S201、预处理:将输入的文本或文本集的内容分割成句子得
T=[S1,S2,…,Sm];
S202、构建图G=(V,E),其中V为句子集,对句子进行分词、去除停止词,得
Si=[ti,1,ti,2,…,ti,n];
其中,ti,j∈Sj为保留后的候选关键词;
S203、句子相似度计算:构建图G中的边集E,基于句子间的内容覆盖率,给定两个句子:Si,Sj;
采用公式进行计算;
S204、若步骤S203中两个句子之间的相似度大于给定的阈值,就认为这两个句子语义相关并将它们连接起来,即边的权值;
S3、根据公式,迭代传播权重计算各句子的得分;
S4、将步骤S3中得到的句子得分进行倒序排序,抽取重要度最高的T个句子作为候选文摘句;
S5、根据字数或句子数要求,从候选文摘句中抽取句子组成文摘;
其中,步骤S202中,ti,j∈Sj为保留后的候选关键词;
候选关键词的权重以及权重库为实时动态更新;
更新步骤为:
S501、抓取当前语言的至少两个搜索引擎和/或至少前五的新闻网站的热门检索词;
S502、将步骤S501中抓取到的检索词导入进权重以及权重库;其中,
保留后或已保留的候选关键词也同时根据抓取后的新的权重以及权重库进行更新;
S503、完成步骤S5中的权重以及权重库的实时动态更新。
作为本发明的一种优选技术方案,所述步骤S501中的的抓取间隔为 10-25分钟。
作为本发明的一种优选技术方案,所述S103中进行计算的公式为,
作为本发明的一种优选技术方案,所述S104中边的权值为,
wji=Similarity(Si,Sj)。
本发明所达到的有益效果是:本发明能够压缩文本信息冗余度,减少存储资源;增加了用户阅读信息的有效性,缩短文本阅读时间;能够根据外部数据进行权重以及权重库的调整,增加了很强的时效性;提高了效率,降低了运行成本。
具体实施方式
以下对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
本发明提供一种抽取式无监督文本摘要方法,步骤如下:
S1、将文本分割成若干组成单元(单词、句子)并建立图模型;
S2、利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘;
其中,建立模型和确定权重的的流程为:
S201、预处理:将输入的文本或文本集的内容分割成句子得
T=[S1,S2,…,Sm];
S202、构建图G=(V,E),其中V为句子集,对句子进行分词、去除停止词,得
Si=[ti,1,ti,2,…,ti,n];
其中,ti,j∈Sj为保留后的候选关键词;
S203、句子相似度计算:构建图G中的边集E,基于句子间的内容覆盖率,给定两个句子:Si,Sj;
采用公式进行计算;
S204、若步骤S203中两个句子之间的相似度大于给定的阈值,就认为这两个句子语义相关并将它们连接起来,即边的权值;
S3、根据公式,迭代传播权重计算各句子的得分;
S4、将步骤S3中得到的句子得分进行倒序排序,抽取重要度最高的T个句子作为候选文摘句;
S5、根据字数或句子数要求,从候选文摘句中抽取句子组成文摘;
其中,步骤S202中,ti,j∈Sj为保留后的候选关键词;
候选关键词的权重以及权重库为实时动态更新;
更新步骤为:
S501、抓取当前语言的至少两个搜索引擎和/或至少前五的新闻网站的热门检索词;
S502、将步骤S501中抓取到的检索词导入进权重以及权重库;其中,
保留后或已保留的候选关键词也同时根据抓取后的新的权重以及权重库进行更新;
S503、完成步骤S5中的权重以及权重库的实时动态更新。
实施例2
本发明提供一种抽取式无监督文本摘要方法,步骤如下:
S1、将文本分割成若干组成单元(单词、句子)并建立图模型;
S2、利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘;
其中,建立模型和确定权重的的流程为:
S201、预处理:将输入的文本或文本集的内容分割成句子得
T=[S1,S2,…,Sm];
S202、构建图G=(V,E),其中V为句子集,对句子进行分词、去除停止词,得
Si=[ti,1,ti,2,…,ti,n];
其中,ti,j∈Sj为保留后的候选关键词;
S203、句子相似度计算:构建图G中的边集E,基于句子间的内容覆盖率,给定两个句子:Si,Sj;
采用公式进行计算;
S204、若步骤S203中两个句子之间的相似度大于给定的阈值,就认为这两个句子语义相关并将它们连接起来,即边的权值;
S3、根据公式,迭代传播权重计算各句子的得分;
S4、将步骤S3中得到的句子得分进行倒序排序,抽取重要度最高的T个句子作为候选文摘句;
S5、根据字数或句子数要求,从候选文摘句中抽取句子组成文摘;
其中,步骤S202中,ti,j∈Sj为保留后的候选关键词;
候选关键词的权重以及权重库为实时动态更新;
更新步骤为:
S501、抓取当前语言的至少两个搜索引擎和/或至少前五的新闻网站的热门检索词;
S502、将步骤S501中抓取到的检索词导入进权重以及权重库;其中,
保留后或已保留的候选关键词也同时根据抓取后的新的权重以及权重库进行更新;
S503、完成步骤S5中的权重以及权重库的实时动态更新。
步骤S501中的的抓取间隔为10-25分钟。
实施例3
本发明提供一种抽取式无监督文本摘要方法,步骤如下:
S1、将文本分割成若干组成单元(单词、句子)并建立图模型;
S2、利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘;
其中,建立模型和确定权重的的流程为:
S201、预处理:将输入的文本或文本集的内容分割成句子得
T=[S1,S2,…,Sm];
S202、构建图G=(V,E),其中V为句子集,对句子进行分词、去除停止词,得
Si=[ti,1,ti,2,…,ti,n];
其中,ti,j∈Sj为保留后的候选关键词;
S203、句子相似度计算:构建图G中的边集E,基于句子间的内容覆盖率,给定两个句子:Si,Sj;
采用公式进行计算;
S204、若步骤S203中两个句子之间的相似度大于给定的阈值,就认为这两个句子语义相关并将它们连接起来,即边的权值;
S3、根据公式,迭代传播权重计算各句子的得分;
S4、将步骤S3中得到的句子得分进行倒序排序,抽取重要度最高的T个句子作为候选文摘句;
S5、根据字数或句子数要求,从候选文摘句中抽取句子组成文摘;
其中,步骤S202中,ti,j∈Sj为保留后的候选关键词;
候选关键词的权重以及权重库为实时动态更新;
更新步骤为:
S501、抓取当前语言的至少两个搜索引擎和/或至少前五的新闻网站的热门检索词;
S502、将步骤S501中抓取到的检索词导入进权重以及权重库;其中,
保留后或已保留的候选关键词也同时根据抓取后的新的权重以及权重库进行更新;
S503、完成步骤S5中的权重以及权重库的实时动态更新。
S103中进行计算的公式为,
S104中边的权值为,
wji=Similarity(Si,Sj)。
本发明能够压缩文本信息冗余度,减少存储资源;增加了用户阅读信息的有效性,缩短文本阅读时间;能够根据外部数据进行权重以及权重库的调整,增加了很强的时效性;提高了效率,降低了运行成本。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种抽取式无监督文本摘要方法,其特征在于,步骤如下:
S1、将文本分割成若干组成单元(单词、句子)并建立图模型;
S2、利用投票机制对文本中的重要成分进行排序;
其中,建立模型和确定权重的的流程为:
S201、预处理:将输入的文本或文本集的内容分割成句子得
T=[S1,S2,…,Sm];
S202、构建图G=(V,E),其中V为句子集,对句子进行分词、去除停止词,得
Si=[ti,1,ti,2,…,ti,n];
其中,ti,j∈Sj为保留后的候选关键词;
S203、句子相似度计算:构建图G中的边集E,基于句子间的内容覆盖率,给定两个句子:Si,Sj;
采用公式进行计算;
S204、若步骤S203中两个句子之间的相似度大于给定的阈值,就认为这两个句子语义相关并将它们连接起来,即边的权值;
S3、根据公式,迭代传播权重计算各句子的得分;
S4、将步骤S3中得到的句子得分进行倒序排序,抽取重要度最高的T个句子作为候选文摘句;
S5、根据字数或句子数要求,从候选文摘句中抽取句子组成文摘;
其中,步骤S202中,ti,j∈Sj为保留后的候选关键词;
候选关键词的权重以及权重库为实时动态更新;
更新步骤为:
S501、抓取当前语言的至少两个搜索引擎和/或至少前五的新闻网站的热门检索词;
S502、将步骤S501中抓取到的检索词导入进权重以及权重库;其中,保留后或已保留的候选关键词也同时根据抓取后的新的权重以及权重库进行更新;
S503、完成步骤S5中的权重以及权重库的实时动态更新。
2.根据权利要求1所述的一种抽取式无监督文本摘要方法,其特征在于,所述步骤S501中的的抓取间隔为10-25分钟。
3.根据权利要求1所述的一种抽取式无监督文本摘要方法,其特征在于,所述S203中进行计算的公式为,
4.根据权利要求1所述的一种抽取式无监督文本摘要方法,其特征在于,所述S204中边的权值为,
wji=Similarity(Si,Sj)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910289008.7A CN110008313A (zh) | 2019-04-11 | 2019-04-11 | 一种抽取式无监督文本摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910289008.7A CN110008313A (zh) | 2019-04-11 | 2019-04-11 | 一种抽取式无监督文本摘要方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110008313A true CN110008313A (zh) | 2019-07-12 |
Family
ID=67171076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910289008.7A Pending CN110008313A (zh) | 2019-04-11 | 2019-04-11 | 一种抽取式无监督文本摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110008313A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339763A (zh) * | 2020-02-26 | 2020-06-26 | 四川大学 | 一种基于多层级神经网络的英文邮件主题生成方法 |
CN111858912A (zh) * | 2020-07-03 | 2020-10-30 | 黑龙江阳光惠远知识产权运营有限公司 | 一种基于单篇长文本的摘要生成方法 |
CN114328826A (zh) * | 2021-12-20 | 2022-04-12 | 青岛檬豆网络科技有限公司 | 一种提取技术成果、技术需求的关键词和文摘的方法 |
CN115563250A (zh) * | 2022-10-10 | 2023-01-03 | 江苏国光信息产业股份有限公司 | 一种医疗自助语音服务设备及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657347A (zh) * | 2015-02-06 | 2015-05-27 | 北京中搜网络技术股份有限公司 | 一种面向新闻优化阅读类移动应用的自动摘要方法 |
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN107133213A (zh) * | 2017-05-06 | 2017-09-05 | 广东药科大学 | 一种基于算法的文本摘要自动提取方法与系统 |
US20190034538A1 (en) * | 2017-07-26 | 2019-01-31 | International Business Machines Corporation | Extractive query-focused multi-document summarization |
-
2019
- 2019-04-11 CN CN201910289008.7A patent/CN110008313A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657347A (zh) * | 2015-02-06 | 2015-05-27 | 北京中搜网络技术股份有限公司 | 一种面向新闻优化阅读类移动应用的自动摘要方法 |
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN107133213A (zh) * | 2017-05-06 | 2017-09-05 | 广东药科大学 | 一种基于算法的文本摘要自动提取方法与系统 |
US20190034538A1 (en) * | 2017-07-26 | 2019-01-31 | International Business Machines Corporation | Extractive query-focused multi-document summarization |
Non-Patent Citations (1)
Title |
---|
曹洋: ""基于TextRank算法的单文档自动文摘研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339763A (zh) * | 2020-02-26 | 2020-06-26 | 四川大学 | 一种基于多层级神经网络的英文邮件主题生成方法 |
CN111339763B (zh) * | 2020-02-26 | 2022-06-28 | 四川大学 | 一种基于多层级神经网络的英文邮件主题生成方法 |
CN111858912A (zh) * | 2020-07-03 | 2020-10-30 | 黑龙江阳光惠远知识产权运营有限公司 | 一种基于单篇长文本的摘要生成方法 |
CN114328826A (zh) * | 2021-12-20 | 2022-04-12 | 青岛檬豆网络科技有限公司 | 一种提取技术成果、技术需求的关键词和文摘的方法 |
CN114328826B (zh) * | 2021-12-20 | 2024-06-11 | 青岛檬豆网络科技有限公司 | 一种提取技术成果、技术需求的关键词和文摘的方法 |
CN115563250A (zh) * | 2022-10-10 | 2023-01-03 | 江苏国光信息产业股份有限公司 | 一种医疗自助语音服务设备及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10599721B2 (en) | Method and apparatus for automatically summarizing the contents of electronic documents | |
Li et al. | Real-time novel event detection from social media | |
CN110008313A (zh) | 一种抽取式无监督文本摘要方法 | |
Dai et al. | Online topic detection and tracking of financial news based on hierarchical clustering | |
Ding et al. | Automatic hashtag recommendation for microblogs using topic-specific translation model | |
US20180121555A1 (en) | Systems and methods for event detection and clustering | |
US9189470B2 (en) | Generation of explanatory summaries | |
US8090720B2 (en) | Method for merging document clusters | |
Antognini et al. | Learning to create sentence semantic relation graphs for multi-document summarization | |
US20160260166A1 (en) | Identification, curation and trend monitoring for uncorrelated information sources | |
Wu et al. | Efficient near-duplicate detection for q&a forum | |
Anoop et al. | Unsupervised concept hierarchy learning: a topic modeling guided approach | |
US9460231B2 (en) | System of generating new schema based on selective HTML elements | |
US20120254166A1 (en) | Signature Detection in E-Mails | |
Hsu et al. | Hierarchical comments-based clustering | |
Oliveira et al. | A concept-based ILP approach for multi-document summarization exploring centrality and position | |
Reddy et al. | An efficient approach for web document summarization by sentence ranking | |
Lin et al. | Combining a segmentation-like approach and a density-based approach in content extraction | |
Alsmadi et al. | Short text classification using feature enrichment from credible texts | |
Makinist et al. | Preparation of improved Turkish dataset for sentiment analysis in social media | |
Das et al. | Opinion based on polarity and clustering for product feature extraction | |
Agrawal et al. | Enrichment and reductionism: Two approaches for web query classification | |
Sood et al. | Summarizing online conversations: A machine learning approach | |
Dammak et al. | Histogram Based Method for Unsupervised Meeting Speech Summarization | |
Wang et al. | Multi-document summarization via LDA and density peaks based sentence-level clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190712 |