CN110008313A - 一种抽取式无监督文本摘要方法 - Google Patents

一种抽取式无监督文本摘要方法 Download PDF

Info

Publication number
CN110008313A
CN110008313A CN201910289008.7A CN201910289008A CN110008313A CN 110008313 A CN110008313 A CN 110008313A CN 201910289008 A CN201910289008 A CN 201910289008A CN 110008313 A CN110008313 A CN 110008313A
Authority
CN
China
Prior art keywords
sentences
weight
text
sentence
reserved
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910289008.7A
Other languages
English (en)
Inventor
周航成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Hualong Network Haishu Technology Co Ltd
Original Assignee
Chongqing Hualong Network Haishu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Hualong Network Haishu Technology Co Ltd filed Critical Chongqing Hualong Network Haishu Technology Co Ltd
Priority to CN201910289008.7A priority Critical patent/CN110008313A/zh
Publication of CN110008313A publication Critical patent/CN110008313A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种抽取式无监督文本摘要方法,步骤如下:S1、将文本分割成若干组成单元(单词、句子)并建立图模型;S2、利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘;其中,建立模型和确定权重的的流程为:S201、预处理;S202、构建图G=(V,E),其中V为句子集,对句子进行分词、去除停止词,得S203、句子相似度计算:构建图G中的边集E,基于句子间的内容覆盖率,给定两个句子。本发明能够压缩文本信息冗余度,减少存储资源;增加了用户阅读信息的有效性,缩短文本阅读时间;能够根据外部数据进行权重以及权重库的调整,增加了很强的时效性;提高了效率,降低了运行成本。

Description

一种抽取式无监督文本摘要方法
技术领域
本发明涉及一种文本摘要方法,特别涉及一种抽取式无监督文本摘要方法。
背景技术
随着近年来信息(尤其是文本信息)的爆发式增长,我们每天能接触到海量的信息,如新闻、论文、微博、学术报告等。从大量文本信息中提取重要且简短的内容,已成为一个迫切需求,其中自动文本摘要(automatic text summarization)提供了一个高效的解决方案。
根据Radev提出的定义,摘要是“一段从一份或多份文本中提取出来的文字,它包含了原文本中的重要信息,其长度不超过或远少于原文本的一半”。自动文本摘要旨在通过机器自动输出简洁、流畅、保留关键信息的摘要。自动文本摘要有非常多的应用场景,如自动报告生成、新闻标题生成、搜索结果预览等。此外,自动文本摘要也可以为下游任务提供支持。
尽管对自动文本摘要有庞大的需求,这个领域的发展却比较缓慢。对计算机而言,生成摘要是一件很有挑战性的任务。从一份或多份文本生成一份合格摘要,要求计算机在阅读原文本后理解其内容,并根据轻重缓急对内容进行取舍,裁剪和拼接内容,最后生成流畅的短文本。因此,自动文本摘要需要依靠自然语言处理/理解的相关理论,是近几年来的重要研究方向之一。
自动文本摘要通常可分为两类,分别是抽取式(extractive)和生成式(abstractive)。抽取式摘要判断原文本中重要的句子,抽取这些句子成为一篇摘要。而生成式方法则应用先进的自然语言处理的算法,通过转述、同义替换、句子缩写等技术,生成更凝练简洁的摘要。自动文本摘要提供了简洁的处理方式,可以帮助人们在海量文本数据中快速获取信息、节省阅读时间、抓住信息内容重点,实现文本数据资源的格式化、简短化、内容中心化等特点,成为数据获取、处理、分析的重要基础。
目前的自动文本摘要方法尤其是抽取式自动文本摘要方法,存在一定的缺陷,比如在判断原文本中重要句子时,会存在路径依赖,在长期运行的情况下,会存在一定的误判断的情况,导致不能及时的进行更正,导致了出现自动文本摘要的不准确性,而人工进行干预的情况下又会导致效率降低,成本增加。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种抽取式无监督文本摘要方法。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明一种抽取式无监督文本摘要方法,步骤如下:
S1、将文本分割成若干组成单元(单词、句子)并建立图模型;
S2、利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘;
其中,建立模型和确定权重的的流程为:
S201、预处理:将输入的文本或文本集的内容分割成句子得
T=[S1,S2,…,Sm];
S202、构建图G=(V,E),其中V为句子集,对句子进行分词、去除停止词,得
Si=[ti,1,ti,2,…,ti,n];
其中,ti,j∈Sj为保留后的候选关键词;
S203、句子相似度计算:构建图G中的边集E,基于句子间的内容覆盖率,给定两个句子:Si,Sj
采用公式进行计算;
S204、若步骤S203中两个句子之间的相似度大于给定的阈值,就认为这两个句子语义相关并将它们连接起来,即边的权值;
S3、根据公式,迭代传播权重计算各句子的得分;
S4、将步骤S3中得到的句子得分进行倒序排序,抽取重要度最高的T个句子作为候选文摘句;
S5、根据字数或句子数要求,从候选文摘句中抽取句子组成文摘;
其中,步骤S202中,ti,j∈Sj为保留后的候选关键词;
候选关键词的权重以及权重库为实时动态更新;
更新步骤为:
S501、抓取当前语言的至少两个搜索引擎和/或至少前五的新闻网站的热门检索词;
S502、将步骤S501中抓取到的检索词导入进权重以及权重库;其中,
保留后或已保留的候选关键词也同时根据抓取后的新的权重以及权重库进行更新;
S503、完成步骤S5中的权重以及权重库的实时动态更新。
作为本发明的一种优选技术方案,所述步骤S501中的的抓取间隔为 10-25分钟。
作为本发明的一种优选技术方案,所述S103中进行计算的公式为,
作为本发明的一种优选技术方案,所述S104中边的权值为,
wji=Similarity(Si,Sj)。
本发明所达到的有益效果是:本发明能够压缩文本信息冗余度,减少存储资源;增加了用户阅读信息的有效性,缩短文本阅读时间;能够根据外部数据进行权重以及权重库的调整,增加了很强的时效性;提高了效率,降低了运行成本。
具体实施方式
以下对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
本发明提供一种抽取式无监督文本摘要方法,步骤如下:
S1、将文本分割成若干组成单元(单词、句子)并建立图模型;
S2、利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘;
其中,建立模型和确定权重的的流程为:
S201、预处理:将输入的文本或文本集的内容分割成句子得
T=[S1,S2,…,Sm];
S202、构建图G=(V,E),其中V为句子集,对句子进行分词、去除停止词,得
Si=[ti,1,ti,2,…,ti,n];
其中,ti,j∈Sj为保留后的候选关键词;
S203、句子相似度计算:构建图G中的边集E,基于句子间的内容覆盖率,给定两个句子:Si,Sj
采用公式进行计算;
S204、若步骤S203中两个句子之间的相似度大于给定的阈值,就认为这两个句子语义相关并将它们连接起来,即边的权值;
S3、根据公式,迭代传播权重计算各句子的得分;
S4、将步骤S3中得到的句子得分进行倒序排序,抽取重要度最高的T个句子作为候选文摘句;
S5、根据字数或句子数要求,从候选文摘句中抽取句子组成文摘;
其中,步骤S202中,ti,j∈Sj为保留后的候选关键词;
候选关键词的权重以及权重库为实时动态更新;
更新步骤为:
S501、抓取当前语言的至少两个搜索引擎和/或至少前五的新闻网站的热门检索词;
S502、将步骤S501中抓取到的检索词导入进权重以及权重库;其中,
保留后或已保留的候选关键词也同时根据抓取后的新的权重以及权重库进行更新;
S503、完成步骤S5中的权重以及权重库的实时动态更新。
实施例2
本发明提供一种抽取式无监督文本摘要方法,步骤如下:
S1、将文本分割成若干组成单元(单词、句子)并建立图模型;
S2、利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘;
其中,建立模型和确定权重的的流程为:
S201、预处理:将输入的文本或文本集的内容分割成句子得
T=[S1,S2,…,Sm];
S202、构建图G=(V,E),其中V为句子集,对句子进行分词、去除停止词,得
Si=[ti,1,ti,2,…,ti,n];
其中,ti,j∈Sj为保留后的候选关键词;
S203、句子相似度计算:构建图G中的边集E,基于句子间的内容覆盖率,给定两个句子:Si,Sj
采用公式进行计算;
S204、若步骤S203中两个句子之间的相似度大于给定的阈值,就认为这两个句子语义相关并将它们连接起来,即边的权值;
S3、根据公式,迭代传播权重计算各句子的得分;
S4、将步骤S3中得到的句子得分进行倒序排序,抽取重要度最高的T个句子作为候选文摘句;
S5、根据字数或句子数要求,从候选文摘句中抽取句子组成文摘;
其中,步骤S202中,ti,j∈Sj为保留后的候选关键词;
候选关键词的权重以及权重库为实时动态更新;
更新步骤为:
S501、抓取当前语言的至少两个搜索引擎和/或至少前五的新闻网站的热门检索词;
S502、将步骤S501中抓取到的检索词导入进权重以及权重库;其中,
保留后或已保留的候选关键词也同时根据抓取后的新的权重以及权重库进行更新;
S503、完成步骤S5中的权重以及权重库的实时动态更新。
步骤S501中的的抓取间隔为10-25分钟。
实施例3
本发明提供一种抽取式无监督文本摘要方法,步骤如下:
S1、将文本分割成若干组成单元(单词、句子)并建立图模型;
S2、利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘;
其中,建立模型和确定权重的的流程为:
S201、预处理:将输入的文本或文本集的内容分割成句子得
T=[S1,S2,…,Sm];
S202、构建图G=(V,E),其中V为句子集,对句子进行分词、去除停止词,得
Si=[ti,1,ti,2,…,ti,n];
其中,ti,j∈Sj为保留后的候选关键词;
S203、句子相似度计算:构建图G中的边集E,基于句子间的内容覆盖率,给定两个句子:Si,Sj
采用公式进行计算;
S204、若步骤S203中两个句子之间的相似度大于给定的阈值,就认为这两个句子语义相关并将它们连接起来,即边的权值;
S3、根据公式,迭代传播权重计算各句子的得分;
S4、将步骤S3中得到的句子得分进行倒序排序,抽取重要度最高的T个句子作为候选文摘句;
S5、根据字数或句子数要求,从候选文摘句中抽取句子组成文摘;
其中,步骤S202中,ti,j∈Sj为保留后的候选关键词;
候选关键词的权重以及权重库为实时动态更新;
更新步骤为:
S501、抓取当前语言的至少两个搜索引擎和/或至少前五的新闻网站的热门检索词;
S502、将步骤S501中抓取到的检索词导入进权重以及权重库;其中,
保留后或已保留的候选关键词也同时根据抓取后的新的权重以及权重库进行更新;
S503、完成步骤S5中的权重以及权重库的实时动态更新。
S103中进行计算的公式为,
S104中边的权值为,
wji=Similarity(Si,Sj)。
本发明能够压缩文本信息冗余度,减少存储资源;增加了用户阅读信息的有效性,缩短文本阅读时间;能够根据外部数据进行权重以及权重库的调整,增加了很强的时效性;提高了效率,降低了运行成本。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种抽取式无监督文本摘要方法,其特征在于,步骤如下:
S1、将文本分割成若干组成单元(单词、句子)并建立图模型;
S2、利用投票机制对文本中的重要成分进行排序;
其中,建立模型和确定权重的的流程为:
S201、预处理:将输入的文本或文本集的内容分割成句子得
T=[S1,S2,…,Sm];
S202、构建图G=(V,E),其中V为句子集,对句子进行分词、去除停止词,得
Si=[ti,1,ti,2,…,ti,n];
其中,ti,j∈Sj为保留后的候选关键词;
S203、句子相似度计算:构建图G中的边集E,基于句子间的内容覆盖率,给定两个句子:Si,Sj
采用公式进行计算;
S204、若步骤S203中两个句子之间的相似度大于给定的阈值,就认为这两个句子语义相关并将它们连接起来,即边的权值;
S3、根据公式,迭代传播权重计算各句子的得分;
S4、将步骤S3中得到的句子得分进行倒序排序,抽取重要度最高的T个句子作为候选文摘句;
S5、根据字数或句子数要求,从候选文摘句中抽取句子组成文摘;
其中,步骤S202中,ti,j∈Sj为保留后的候选关键词;
候选关键词的权重以及权重库为实时动态更新;
更新步骤为:
S501、抓取当前语言的至少两个搜索引擎和/或至少前五的新闻网站的热门检索词;
S502、将步骤S501中抓取到的检索词导入进权重以及权重库;其中,保留后或已保留的候选关键词也同时根据抓取后的新的权重以及权重库进行更新;
S503、完成步骤S5中的权重以及权重库的实时动态更新。
2.根据权利要求1所述的一种抽取式无监督文本摘要方法,其特征在于,所述步骤S501中的的抓取间隔为10-25分钟。
3.根据权利要求1所述的一种抽取式无监督文本摘要方法,其特征在于,所述S203中进行计算的公式为,
4.根据权利要求1所述的一种抽取式无监督文本摘要方法,其特征在于,所述S204中边的权值为,
wji=Similarity(Si,Sj)。
CN201910289008.7A 2019-04-11 2019-04-11 一种抽取式无监督文本摘要方法 Pending CN110008313A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910289008.7A CN110008313A (zh) 2019-04-11 2019-04-11 一种抽取式无监督文本摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910289008.7A CN110008313A (zh) 2019-04-11 2019-04-11 一种抽取式无监督文本摘要方法

Publications (1)

Publication Number Publication Date
CN110008313A true CN110008313A (zh) 2019-07-12

Family

ID=67171076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910289008.7A Pending CN110008313A (zh) 2019-04-11 2019-04-11 一种抽取式无监督文本摘要方法

Country Status (1)

Country Link
CN (1) CN110008313A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339763A (zh) * 2020-02-26 2020-06-26 四川大学 一种基于多层级神经网络的英文邮件主题生成方法
CN111858912A (zh) * 2020-07-03 2020-10-30 黑龙江阳光惠远知识产权运营有限公司 一种基于单篇长文本的摘要生成方法
CN114328826A (zh) * 2021-12-20 2022-04-12 青岛檬豆网络科技有限公司 一种提取技术成果、技术需求的关键词和文摘的方法
CN115563250A (zh) * 2022-10-10 2023-01-03 江苏国光信息产业股份有限公司 一种医疗自助语音服务设备及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657347A (zh) * 2015-02-06 2015-05-27 北京中搜网络技术股份有限公司 一种面向新闻优化阅读类移动应用的自动摘要方法
CN106227722A (zh) * 2016-09-12 2016-12-14 中山大学 一种基于上市公司公告摘要的自动提取方法
CN107133213A (zh) * 2017-05-06 2017-09-05 广东药科大学 一种基于算法的文本摘要自动提取方法与系统
US20190034538A1 (en) * 2017-07-26 2019-01-31 International Business Machines Corporation Extractive query-focused multi-document summarization

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657347A (zh) * 2015-02-06 2015-05-27 北京中搜网络技术股份有限公司 一种面向新闻优化阅读类移动应用的自动摘要方法
CN106227722A (zh) * 2016-09-12 2016-12-14 中山大学 一种基于上市公司公告摘要的自动提取方法
CN107133213A (zh) * 2017-05-06 2017-09-05 广东药科大学 一种基于算法的文本摘要自动提取方法与系统
US20190034538A1 (en) * 2017-07-26 2019-01-31 International Business Machines Corporation Extractive query-focused multi-document summarization

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹洋: ""基于TextRank算法的单文档自动文摘研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339763A (zh) * 2020-02-26 2020-06-26 四川大学 一种基于多层级神经网络的英文邮件主题生成方法
CN111339763B (zh) * 2020-02-26 2022-06-28 四川大学 一种基于多层级神经网络的英文邮件主题生成方法
CN111858912A (zh) * 2020-07-03 2020-10-30 黑龙江阳光惠远知识产权运营有限公司 一种基于单篇长文本的摘要生成方法
CN114328826A (zh) * 2021-12-20 2022-04-12 青岛檬豆网络科技有限公司 一种提取技术成果、技术需求的关键词和文摘的方法
CN114328826B (zh) * 2021-12-20 2024-06-11 青岛檬豆网络科技有限公司 一种提取技术成果、技术需求的关键词和文摘的方法
CN115563250A (zh) * 2022-10-10 2023-01-03 江苏国光信息产业股份有限公司 一种医疗自助语音服务设备及方法

Similar Documents

Publication Publication Date Title
US10599721B2 (en) Method and apparatus for automatically summarizing the contents of electronic documents
Li et al. Real-time novel event detection from social media
CN110008313A (zh) 一种抽取式无监督文本摘要方法
Dai et al. Online topic detection and tracking of financial news based on hierarchical clustering
Ding et al. Automatic hashtag recommendation for microblogs using topic-specific translation model
US20180121555A1 (en) Systems and methods for event detection and clustering
US9189470B2 (en) Generation of explanatory summaries
US8090720B2 (en) Method for merging document clusters
Antognini et al. Learning to create sentence semantic relation graphs for multi-document summarization
US20160260166A1 (en) Identification, curation and trend monitoring for uncorrelated information sources
Wu et al. Efficient near-duplicate detection for q&a forum
Anoop et al. Unsupervised concept hierarchy learning: a topic modeling guided approach
US9460231B2 (en) System of generating new schema based on selective HTML elements
US20120254166A1 (en) Signature Detection in E-Mails
Hsu et al. Hierarchical comments-based clustering
Oliveira et al. A concept-based ILP approach for multi-document summarization exploring centrality and position
Reddy et al. An efficient approach for web document summarization by sentence ranking
Lin et al. Combining a segmentation-like approach and a density-based approach in content extraction
Alsmadi et al. Short text classification using feature enrichment from credible texts
Makinist et al. Preparation of improved Turkish dataset for sentiment analysis in social media
Das et al. Opinion based on polarity and clustering for product feature extraction
Agrawal et al. Enrichment and reductionism: Two approaches for web query classification
Sood et al. Summarizing online conversations: A machine learning approach
Dammak et al. Histogram Based Method for Unsupervised Meeting Speech Summarization
Wang et al. Multi-document summarization via LDA and density peaks based sentence-level clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190712