CN110781291A - 一种文本摘要提取方法、装置、服务器及可读存储介质 - Google Patents

一种文本摘要提取方法、装置、服务器及可读存储介质 Download PDF

Info

Publication number
CN110781291A
CN110781291A CN201911020426.2A CN201911020426A CN110781291A CN 110781291 A CN110781291 A CN 110781291A CN 201911020426 A CN201911020426 A CN 201911020426A CN 110781291 A CN110781291 A CN 110781291A
Authority
CN
China
Prior art keywords
sentence
weight
text
sentences
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911020426.2A
Other languages
English (en)
Inventor
刘彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEJING COMPUTING CENTER
Original Assignee
BEJING COMPUTING CENTER
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEJING COMPUTING CENTER filed Critical BEJING COMPUTING CENTER
Priority to CN201911020426.2A priority Critical patent/CN110781291A/zh
Publication of CN110781291A publication Critical patent/CN110781291A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种文本摘要提取方法、装置、服务器及可读存储介质,涉及数据处理技术领域技术领域,包括:步骤一,获取待处理文本;步骤二,断句处理,步骤三,提取关键词,设置句子的权值;分析句子位置分布,设置句子的权值;提取线索词,设置句子的权值;步骤四,结合步骤三中关键词个数、句子位置分布、线索词个数设置的权值来计算获得每个句子的最终权值;步骤五,根据步骤四中的句子的最终权值,按照压缩比例,筛选权值靠前的句子,并根据句子在文章中的顺序,生成文本摘要。总之,本发明是一种信息更加全面、效率更高、精准度更高的文本摘要提取方法、装置,能够提高工作效率的同时且能够满足工作精度需求,具有重要的研究意义和使用价值。

Description

一种文本摘要提取方法、装置、服务器及可读存储介质
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种文本摘要提取方法、装置、服务器及可读存储介质。
背景技术
摘要又称概要、内容提要等,意思是摘录要点或摘录下来的要点。摘要是以提供文章内容梗概为目的,不加评论和补充解释,简明、确切地表达文章重要内容的短文。摘要应具有独立性和自明性,并且拥有与文献同等量的主要信息,即我们在不阅读全文的情况才,就能获得必要的信息,利用计算机将大量的文本进行处理,产生简洁、精炼内容的过程就是文本摘要,人们可通过阅读摘要来把握文本主要内容,这不仅大大节省时间,更提高阅读效率。但人工摘要耗时又耗力,已经不能满足日益增长的信息需求,因此借助计算机进行文本处理的自动文摘应运而生。近年来,自动摘要、信息检索、信息过滤、机器识别、等研究已成为了人们关注的热点。
但是,文本摘要是目前自然语言处理领域中比较艰难的任务,别说是用机器来提取摘要,就连专家人工提取摘要的时候都需要具备很强的语言阅读理解能力和归纳总结能力。
现有的自动摘要方法有抽取式和概括式方法。概括式摘要提取方法需要较多的数据样本,并需要人工标注,比较繁琐。抽取式摘要方法关注文章中的句子重要程度,并根据压缩比例抽取相应的句子组成摘要内容,抽取式摘要提取方法相比于概括式方法较成熟,也是目前应用的比较多的提取方法。
但是,传统的抽取式摘要提取方法主要关注的是句子的重要程度,并根据压缩比例抽取相应的句子组成摘要内容因此,可能会漏掉某些部分的内容,造成提取的信息不够全面,不符合人们的写作习惯和要求,因此,亟待研究一种信息更加全面、效率更高、精准度更高的摘要提取方法,来满足人们的需求。
应该注意,上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些技术方案在本发明的技术背景部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
本发明的目的在于提供一种信息更加全面、效率更高、精准度更高的文本摘要提取方法、装置、服务器及可读存储介质,能够大大提高工作效率的同时且能够满足工作精度需求,具有重要的研究意义和使用价值。
为实现上述目的,本发明提供了以下技术方案:
本发明提供了一种文本摘要提取方法,包括:
步骤一,获取待处理文本;
步骤二,对获取到的所述待处理文本进行断句处理,获取所述待处理文本对应的断句结果;
步骤三,提取关键词,设置句子的权值:对所述断句结果的每个句子提取关键词,含有关键词个数越多的句子,所述权值越大;
分析句子位置分布,设置句子的权值:根据所述句子位置分布对所述断句结果的每个句子设置权值,首段和末段中句子的权值高于其他段落的权值,首句和末句的权值高于其他句子的权值;
提取线索词,设置句子的权值:根据预设的线索词库对所述断句结果的每个句子提取线索词,含有线索词个数越多的句子,所述权值越大;
步骤四,结合所述步骤三中所述关键词个数、所述句子位置分布、所述线索词个数设置的所述权值来计算获得每个所述句子的最终权值;
步骤五,根据所述步骤四中的所述句子的所述最终权值,按照压缩比例,筛选权值靠前的句子,并根据句子在文章中的顺序,生成文本摘要。
可选地,所述步骤二中的所述断句处理为:依据基于所述待处理文本包含的预置标点符号或者停用词得到的分割点,获取所述待处理文本对应的断句结果。
可选地,所述预置标点符号为句号、问号、感叹号、省略号或分号。
可选地,所述压缩比例为0.2:十个句子,筛选权值靠前的两个句子。
可选地,所述步骤三中根据TFIDF对所述断句结果的每个句子提取关键词:
词语的TF-IDF值是词频与逆文档率的乘积,如果一个词语在语料库中一篇文本中反复出现,则说明词语重要性高于其他词语,如果词语在语料库中多篇文本都反复出现,则说明所述词语重要性低于其他词语;
Figure BSA0000193115250000021
Figure BSA0000193115250000022
tfidfi,j=tfi,j×idfi
其中,ni,j是词语ti在文本dj中的出现次数,∑knk,j是在文本dj中所有词语出现的次数之和,|D|是语料库中的文本总数,|{j:ti∈dj}+1|代表包含词语ti的文本数目。
可选地,所述步骤三中预设的所述线索词库中的所述线索词为建议、希望、所以、因此、重要、另外、此外、因而或者总之,含有所述线索词个数越多的句子,所述权值越大。
本发明还提供了一种文本摘要提取装置,所述文本摘要提取装置包括依次连接的文本获取模块、断句处理模块、句子权值设置模块、权值计算模块、文本摘要提取模块:
所述文本获取模块用于获取待处理文本;
所述断句处理模块用于对获取到的所述待处理文本进行断句处理,获取所述待处理文本对应的断句结果;
所述句子权值设置模块用于对所述断句结果的句子分别设置权值;
所述权值计算模块结合所述句子权值设置模块设置的所述权值来计算获得每个所述句子的最终权值;
所述文本摘要提取模块根据所述句子的所述最终权值,按照压缩比例,筛选权值靠前的句子,并根据句子在文章中的顺序,生成文本摘要。
可选地,所述句子权值设置模块包括:
关键词模块:用于提取关键词,设置句子的权值,对所述断句结果的每个句子提取关键词,含有关键词个数越多的句子,所述权值越大;
句子分布位置模块:用于分析句子位置分布,设置句子的权值,根据所述句子位置分布对所述断句结果的每个句子设置权值,首段和末段中句子的权值高于其他段落的权值,首句和末句的权值高于其他句子的权值;
线索词模块:用于提取线索词,设置句子的权值,根据预设的线索词库对所述断句结果的每个句子提取线索词,含有线索词个数越多的句子,所述权值越大。
可选地,所述断句处理模块依据基于所述待处理文本包含的预置标点符号或者停用词得到的分割点,获取所述待处理文本对应的断句结果。
本发明还提供了一种服务器,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本发明提供的技术方案中,通过以下几方面来设置句子的权值:第一,提取关键词,设置句子的权值:对断句结果的每个句子提取关键词,含有关键词个数越多的句子,权值越大;第二,分析句子位置分布,设置句子的权值:根据所述句子位置分布对断句结果的每个句子设置权值,首段和末段中句子的权值高于其他段落的权值,首句和末句的权值高于其他句子的权值;第三,提取线索词,设置句子的权值:根据预设的线索词库对断句结果的每个句子提取线索词,含有线索词个数越多的句子,权值越大;并最终结合第一:关键词个数、第二句子位置分布、第三线索词个数设置的权值来计算获得每个句子的最终权值;传统的抽取式摘要提取方法主要关注的是句子的重要程度,并根据压缩比例抽取相应的句子组成摘要内容,可能会漏掉某些部分的内容,造成提取的信息不够全面,不符合人们的写作习惯和要求,本发明提供的技术方案中,综合考虑关键词数量、句子分布位置、线索词数量三方面的信息,并进行整合汇总,是一种信息更加全面、效率更高、精准度更高的摘要提取方法,能够充分满足人们的需求,具有重要的研究意义和使用价值。
在本发明的优选方案中,通过以下几个模块来设置句子的权值,第一,关键词模块:用于提取关键词,设置句子的权值,对断句结果的每个句子提取关键词,含有关键词个数越多的句子,权值越大;第二,句子分布位置模块:用于分析句子位置分布,设置句子的权值,根据句子位置分布对断句结果的每个句子设置权值,首段和末段中句子的权值高于其他段落的权值,首句和末句的权值高于其他句子的权值;第三,线索词模块:用于提取线索词,设置句子的权值,根据预设的线索词库对断句结果的每个句子提取线索词,含有线索词个数越多的句子,权值越大。传统的抽取式摘要提取方法主要关注的是句子的重要程度,并根据压缩比例抽取相应的句子组成摘要内容,可能会漏掉某些部分的内容,造成提取的信息不够全面,不符合人们的写作习惯和要求,本发明提供的技术方案中,综合考虑关键词数量、句子分布位置、线索词数量三方面的信息,充分利用关键词模块、句子分布位置模块和线索词模块对关键词数量、句子分布位置、线索词数量三方面的信息进行整合汇总,是一种信息更加全面、效率更高、精准度更高的摘要提取装置,能够充分满足人们的需求,具有重要的研究意义和使用价值。
在本发明的优选方案中,断句处理为:依据基于待处理文本包含的预置标点符号或者停用词得到的分割点,获取待处理文本对应的断句结果,对于基于待处理文本包含的预置标点符号得到分割点的断句方法主要根据人们写作习惯的标点符号划分,本方法断句的主要标点符号为句号、问号、感叹号、省略号或者分号,能够依据人们的写作习惯对压缩文件进行充分还原,使得提取到的摘要更加符合人们的写作习惯。
对于基于待处理文本包含的停用词得到的分割点,获取待处理文本对应的断句结果,其中停用词是依据大数据对目前数据库中的数据进行建模分析,得到一般情况下断句处的常用词,并将这些排名靠前的常用词作为停用词,从而获取断句处理结果,该断句方法是新兴起的方式,能够更加科学、更加准确的得到精确的断句位置,并获得准确的断句结果。
在本发明的优选方案中,根据TFIDF对断句结果的每个句子提取关键词:
词语的TF-IDF值是词频与逆文档率的乘积,如果一个词语在语料库中一篇文本中反复出现,则说明词语重要性高于其他词语,如果词语在语料库中多篇文本都反复出现,则说明词语重要性低于其他词语;
Figure BSA0000193115250000031
Figure BSA0000193115250000032
tfidfi,j=tfi,j×idfi
其中,ni,j是词语ti在文本dj中的出现次数,∑knk,j是在文本dj中所有词语出现的次数之和,|D|是语料库中的文本总数,|{j:ti∈dj}+1|代表包含词语ti的文本数目。该关键词提取方法是新兴起的方式,能够更加科学、更加准确判断句子的重要程度,TF-IDF值反应的是词频与逆文档率的乘积,如果一个词语在语料库中一篇文本中反复出现,则说明词语重要性高于其他词语,那么便可以对该词语的权值适当增加一些,如果词语在语料库中多篇文本都反复出现,则说明词语重要性并不是很高,则其权值便不会很大,由此,从权值的角度来反映词语的重要程度,在摘要提取过程中,重要程度靠前的词语被留下作为文本摘要的可能性更高。
在本发明的优选方案中,步骤三中预设的线索词库中的线索词为建议、希望、所以、因此、重要、另外、此外、因而或者总之,含有线索词个数越多的句子,权值越大。如果在一个句子中反复出现线索词,即该句子中含有的线索词个数比较多,则说明该句子的重要性高于其他句子,那么便可以对该句子的权值适当增加一些,如果在一个句子中几乎没有出现线索词,即该句子中含有的线索词个数比较少甚至是没有,则说明该句子的重要性低于其他句子,那么对该句子的权值就会比较低一些,由此,从权值的角度来反映句子的重要程度,在摘要提取过程中,重要程度靠前的句子被留下作为文本摘要的可能性更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中摘要提取方法流程图;
图2是本发明实施例中详细摘要提取方法流程图;
图3是本发明实施例中摘要提取装置结构示意图;
图4是本发明实施例中摘要提取装置详细结构示意图。
101、文本获取模块;201、断句处理模块;301、句子权值设置模块;3001、关键词模块;3002、句子分布位置模块;3003、线索词模块;401、权值计算模块;501、文本摘要提取模块。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
现有的自动摘要方法有抽取式和概括式方法。概括式摘要提取方法需要较多的数据样本,并需要人工标注,比较繁琐。抽取式摘要方法关注文章中的句子重要程度,并根据压缩比例抽取相应的句子组成摘要内容,抽取式摘要提取方法相比于概括式方法较成熟,也是目前应用的比较多的提取方法。
但是,传统的抽取式摘要提取方法主要关注的是句子的重要程度,并根据压缩比例抽取相应的句子组成摘要内容因此,可能会漏掉某些部分的内容,造成提取的信息不够全面,不符合人们的写作习惯和要求,然而本发明提供的文本摘要提取方法、装置信息更加全面、效率更高、精准度更高,能够大大提高工作效率的同时且能够满足工作精度需求,具有重要的研究意义和使用价值。
本发明提供一种文本摘要提取方法,如图1-图2所示,包括以下五个步骤:
步骤一,获取待处理文本;
步骤二,对获取到的待处理文本进行断句处理,获取待处理文本对应的断句结果;
步骤三,提取关键词,设置句子的权值:对断句结果的每个句子提取关键词,含有关键词个数越多的句子,权值越大;
分析句子位置分布,设置句子的权值:根据句子位置分布对断句结果的每个句子设置权值,首段和末段中句子的权值高于其他段落的权值,首句和末句的权值高于其他句子的权值;
提取线索词,设置句子的权值:根据预设的线索词库对断句结果的每个句子提取线索词,含有线索词个数越多的句子,权值越大;
步骤四,结合步骤三中关键词个数、句子位置分布、线索词个数设置的权值来计算获得每个句子的最终权值;
步骤五,根据步骤四中的所述句子的最终权值,按照压缩比例,筛选权值靠前的句子,并根据句子在文章中的顺序,生成文本摘要。传统的抽取式摘要提取方法主要关注的是句子的重要程度,并根据压缩比例抽取相应的句子组成摘要内容因此,可能会漏掉某些部分的内容,造成提取的信息不够全面,不符合人们的写作习惯和要求,然而本发明提供的文本摘要提取方法,通过以下几方面来设置句子的权值:第一,提取关键词,设置句子的权值:对断句结果的每个句子提取关键词,含有关键词个数越多的句子,权值越大;第二,分析句子位置分布,设置句子的权值:根据所述句子位置分布对断句结果的每个句子设置权值,首段和末段中句子的权值高于其他段落的权值,首句和末句的权值高于其他句子的权值;第三,提取线索词,设置句子的权值:根据预设的线索词库对断句结果的每个句子提取线索词,含有线索词个数越多的句子,权值越大;并最终结合第一:关键词个数、第二句子位置分布、第三线索词个数设置的权值来计算获得每个句子的最终权值,能够综合考虑关键词数量、句子分布位置、线索词数量三方面的信息,并进行整合汇总,是一种信息更加全面、效率更高、精准度更高的摘要提取方法,能够大大提高工作效率的同时且能够满足工作精度需求,具有重要的研究意义和使用价值。
于本发明的具体实施例中,步骤二中的断句处理为:依据基于待处理文本包含的预置标点符号或者停用词得到的分割点,获取待处理文本对应的断句结果,这是目前市面上常用的两种断句处理方式,对于基于待处理文本包含的预置标点符号得到分割点的断句方法主要根据人们写作习惯的标点符号划分,本发明的具体实施例中,断句的主要标点符号为句号、问号、感叹号、省略号、分号等,能够依据人们的写作习惯对压缩文件进行充分还原,使得提取到的摘要更加符合人们的写作习惯。
对于基于待处理文本包含的停用词得到的分割点,获取待处理文本对应的断句结果,其中停用词是依据大数据对目前数据库中的数据进行建模分析,得到一般情况下断句处的常用词,并将这些排名靠前的常用词作为停用词,从而获取断句处理结果,该断句方法是新兴起的方式,能够更加科学、更加准确的得到精确的断句位置,并获得准确的断句结果。
根据步骤四中的句子的最终权值,按照压缩比例,筛选权值靠前的句子,并根据句子在文章中的顺序,生成文本摘要。于本发明的具体实施例中,压缩比例为0.2,即:十个句子,筛选权值靠前的两个句子,即筛选出权值靠前的前20%的句子,并根据句子在文章中的顺序,来得到所需的文本摘要。
需要说明的是,在生成文本摘要的过程中压缩比例并不局限于0.2,即,并不局限于仅筛选出权值靠前的前20%的句子,压缩比例0.2只是本发明优选的一种技术方案,还可以根据实际的文本摘要提取要求进行适当调整,只要是能够满足用户对文本摘要的提取要求即可。
于本发明的具体实施例中,步骤三中根据TFIDF对断句结果的每个句子提取关键词:
词语的TF-IDF值是词频与逆文档率的乘积,如果一个词语在语料库中一篇文本中反复出现,则说明词语重要性高于其他词语,如果词语在语料库中多篇文本都反复出现,则说明词语重要性低于其他词语;
Figure BSA0000193115250000051
Figure BSA0000193115250000052
tfidfi,j=tfi,j×idfi
其中,ni,j是词语ti在文本dj中的出现次数,∑knk,j是在文本dj中所有词语出现的次数之和,|D|是语料库中的文本总数,|{j:ti∈dj}+1|代表包含词语ti的文本数目。
当一个词语ti在文本dj中的出现次数为ni,j,文本dj中所有词语出现的次数之和为∑knk,j,ni,j越大,即,词语ti在文本dj中出现次数越多,则说明词语ti重要性高于其他词语,ni,j越小,即,词语ti在文本dj中出现次数较少,则说明词语ti重要性低于其他词语,包含词语ti的文本数目为|{j:ti∈dj}+1|,语料库中的文本总数为|D|,|{j:ti∈dj}+1|越大,即,包含词语ti的文本数目在语料库中的文本总数所占的比例越大,意味着词语ti在语料库中多篇文本都反复出现,词语ti重要性反倒低于其他词语,从权值的角度来看,如果一个词语在语料库中一篇文本中反复出现,则说明词语重要性高于其他词语,那么便可以对该词语的权值适当增加一些,如果词语在语料库中多篇文本都反复出现,则说明词语重要性并不是很高,则其权值便不会很大,由此,从权值的角度来反映词语的重要程度,在摘要提取过程中,重要程度靠前的词语被留下作为文本摘要的可能性更高。
于本发明的具体实施例中,步骤三中预设的线索词库中的线索词为建议、希望、所以、因此、重要、另外、此外、因而、总之等,含有线索词个数越多的句子,权值越大。如果在一个句子中反复出现线索词,即该句子中含有的线索词个数比较多,则说明该句子的重要性高于其他句子,那么便可以对该句子的权值适当增加一些,如果在一个句子中几乎没有出现线索词,即该句子中含有的线索词个数比较少甚至是没有,则说明该句子的重要性低于其他句子,那么对该句子的权值就会比较低一些,由此,从权值的角度来反映句子的重要程度,在摘要提取过程中,重要程度靠前的句子被留下作为文本摘要的可能性更高
本发明还提供一种文本摘要提取装置,如图2-图3所示,文本摘要提取装置包括依次连接的文本获取模块101、断句处理模块201、句子权值设置模块301、权值计算模块401、文本摘要提取模块501:
文本获取模块101用于获取待处理文本;
断句处理模块201用于对获取到的待处理文本进行断句处理,获取待处理文本对应的断句结果;
句子权值设置模块301用于对断句结果的句子分别设置权值;
权值计算模块401结合句子权值设置模块301设置的权值来计算获得每个句子的最终权值;
文本摘要提取模块501根据句子的最终权值,按照压缩比例,筛选权值靠前的句子,并根据句子在文章中的顺序,生成文本摘要。
传统的抽取式摘要提取方法主要关注的是句子的重要程度,并根据压缩比例抽取相应的句子组成摘要内容,可能会漏掉某些部分的内容,造成提取的信息不够全面,不符合人们的写作习惯和要求,本发明提供的技术方案中,通过句子权值设置模块对断句结果的句子分别设置权值、并利用权值计算模块结合句子权值设置模块设置的权值来计算获得每个句子的最终权值,是一种信息更加全面、效率更高、精准度更高的摘要提取装置,能够充分满足人们的需求,具有重要的研究意义和使用价值。
于本发明的具体实施例中,句子权值设置模块301包括:
关键词模块3001:用于提取关键词,设置句子的权值,对断句结果的每个句子提取关键词,含有关键词个数越多的句子,权值越大;
句子分布位置模块3002:用于分析句子位置分布,设置句子的权值,根据句子位置分布对所述断句结果的每个句子设置权值,首段和末段中句子的权值高于其他段落的权值,首句和末句的权值高于其他句子的权值;
线索词模块3003:用于提取线索词,设置句子的权值,根据预设的线索词库对断句结果的每个句子提取线索词,含有线索词个数越多的句子,权值越大。本发明具体实施例中,通过以下几个模块来设置句子的权值,第一,关键词模块:用于提取关键词,设置句子的权值,对断句结果的每个句子提取关键词,含有关键词个数越多的句子,权值越大;第二,句子分布位置模块:用于分析句子位置分布,设置句子的权值,根据句子位置分布对断句结果的每个句子设置权值,首段和末段中句子的权值高于其他段落的权值,首句和末句的权值高于其他句子的权值;第三,线索词模块:用于提取线索词,设置句子的权值,根据预设的线索词库对断句结果的每个句子提取线索词,含有线索词个数越多的句子,权值越大。传统的抽取式摘要提取方法主要关注的是句子的重要程度,并根据压缩比例抽取相应的句子组成摘要内容,可能会漏掉某些部分的内容,造成提取的信息不够全面,不符合人们的写作习惯和要求,本发明提供的技术方案中,综合考虑关键词数量、句子分布位置、线索词数量三方面的信息,充分利用关键词模块、句子分布位置模块和线索词模块对关键词数量、句子分布位置、线索词数量三方面的信息进行整合汇总,是一种信息更加全面、效率更高、精准度更高的摘要提取装置,能够充分满足人们的需求,具有重要的研究意义和使用价值。
于本发明的具体实施例中,断句处理模块201依据基于待处理文本包含的预置标点符号或者停用词得到的分割点,获取待处理文本对应的断句结果。这是目前市面上常用的两种断句处理方式,对于基于待处理文本包含的预置标点符号得到分割点的断句方法主要根据人们写作习惯的标点符号划分,本发明的具体实施例中,断句的主要标点符号为句号、问号、感叹号、省略号、分号等,断句处理模块能够依据人们的写作习惯对压缩文件进行充分还原,使得提取到的摘要更加符合人们的写作习惯。
断句处理模块201中,对于基于待处理文本包含的停用词得到的分割点,获取待处理文本对应的断句结果,其中停用词是依据大数据对目前数据库中的数据进行建模分析,得到一般情况下断句处的常用词,并将这些排名靠前的常用词作为停用词,从而获取断句处理结果,该断句处理模块,能够更加科学、更加准确的得到精确的断句位置,并获得准确的断句结果。
根据权值计算模块得到的句子的最终权值,按照压缩比例,筛选权值靠前的句子,并根据句子在文章中的顺序,生成文本摘要。于本发明的具体实施例中,压缩比例为0.2,即:十个句子,筛选权值靠前的两个句子,即筛选出权值靠前的前20%的句子,并根据句子在文章中的顺序,来得到所需的文本摘要。
需要说明的是,文本摘要提取模块在生成文本摘要的过程中压缩比例并不局限于0.2,即,并不局限于仅筛选出权值靠前的前20%的句子,压缩比例0.2只是本发明优选的一种技术方案,还可以根据实际的文本摘要提取要求进行适当调整,只要是能够满足用户对文本摘要的提取要求即可。
本发明还提供了一种服务器,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述程序时实现上述文本摘要提取方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述文本摘要提取方法的步骤。
需要说明的是,句子权值设置模块并不仅仅包括关键词模块、句子分布位置模块、线索词模块,句子权值设置模块包括关键词模块、句子分布位置模块、线索词模块是一种开放式的写法,仅仅是一种实施例,并不局限于本发明的具体实施例,均是可以根据用户需求以及时代发展来进行实时更新的。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (11)

1.一种文本摘要提取方法,其特征在于,包括:
步骤一,获取待处理文本;
步骤二,对获取到的所述待处理文本进行断句处理,获取所述待处理文本对应的断句结果;
步骤三,提取关键词,设置句子的权值:对所述断句结果的每个句子提取关键词,含有关键词个数越多的句子,所述权值越大;
分析句子位置分布,设置句子的权值:根据所述句子位置分布对所述断句结果的每个句子设置权值,首段和末段中句子的权值高于其他段落的权值,首句和末句的权值高于其他句子的权值;
提取线索词,设置句子的权值:根据预设的线索词库对所述断句结果的每个句子提取线索词,含有线索词个数越多的句子,所述权值越大;
步骤四,结合所述步骤三中所述关键词个数、所述句子位置分布、所述线索词个数设置的所述权值来计算获得每个所述句子的最终权值;
步骤五,根据所述步骤四中的所述句子的所述最终权值,按照压缩比例,筛选权值靠前的句子,并根据句子在文章中的顺序,生成文本摘要。
2.根据权利要求1所述的文本摘要提取方法,其特征在于,所述步骤二中的所述断句处理为:依据基于所述待处理文本包含的预置标点符号或者停用词得到的分割点,获取所述待处理文本对应的断句结果。
3.根据权利要求2所述的文本摘要提取方法,其特征在于,所述预置标点符号为句号、问号、感叹号、省略号或分号。
4.根据权利要求1所述的文本摘要提取方法,其特征在于,所述压缩比例为0.2:十个句子,筛选权值靠前的两个句子。
5.根据权利要求1所述的文本摘要提取方法,其特征在于,所述步骤三中根据TFIDF对所述断句结果的每个句子提取关键词:
词语的TF-IDF值是词频与逆文档率的乘积,如果一个词语在语料库中一篇文本中反复出现,则说明词语重要性高于其他词语,如果词语在语料库中多篇文本都反复出现,则说明所述词语重要性低于其他词语;
Figure FSA0000193115240000012
tfidfi,j=tfi,j×idfi
其中,ni,j是词语ti在文本dj中的出现次数,∑knk,j是在文本dj中所有词语出现的次数之和,|D|是语料库中的文本总数,|{j:ti∈dj}+1|代表包含词语ti的文本数目。
6.根据权利要求1所述的摘要提取方法,其特征在于,所述步骤三中预设的所述线索词库中的所述线索词为建议、希望、所以、因此、重要、另外、此外、因而或者总之,含有所述线索词个数越多的句子,所述权值越大。
7.一种文本摘要提取装置,其特征在于,所述文本摘要提取装置包括依次连接的文本获取模块(101)、断句处理模块(201)、句子权值设置模块(301)、权值计算模块(401)、文本摘要提取模块(501):
所述文本获取模块(101)用于获取待处理文本;
所述断句处理模块(201)用于对获取到的所述待处理文本进行断句处理,获取所述待处理文本对应的断句结果;
所述句子权值设置模块(301)用于对所述断句结果的句子分别设置权值;
所述权值计算模块(401)结合所述句子权值设置模块(301)设置的所述权值来计算获得每个所述句子的最终权值;
所述文本摘要提取模块(501)根据所述句子的所述最终权值,按照压缩比例,筛选权值靠前的句子,并根据句子在文章中的顺序,生成文本摘要。
8.根据权利要求7所述的文本摘要提取装置,其特征在于,所述句子权值设置模块(301)包括:
关键词模块(3001):用于提取关键词,设置句子的权值,对所述断句结果的每个句子提取关键词,含有关键词个数越多的句子,所述权值越大;
句子分布位置模块(3002):用于分析句子位置分布,设置句子的权值,根据所述句子位置分布对所述断句结果的每个句子设置权值,首段和末段中句子的权值高于其他段落的权值,首句和末句的权值高于其他句子的权值;
线索词模块(3003):用于提取线索词,设置句子的权值,根据预设的线索词库对所述断句结果的每个句子提取线索词,含有线索词个数越多的句子,所述权值越大。
9.根据权利要求7所述的文本摘要提取装置,其特征在于,所述断句处理模块(201)依据基于所述待处理文本包含的预置标点符号或者停用词得到的分割点,获取所述待处理文本对应的断句结果。
10.一种服务器,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。
11.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
CN201911020426.2A 2019-10-25 2019-10-25 一种文本摘要提取方法、装置、服务器及可读存储介质 Pending CN110781291A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911020426.2A CN110781291A (zh) 2019-10-25 2019-10-25 一种文本摘要提取方法、装置、服务器及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911020426.2A CN110781291A (zh) 2019-10-25 2019-10-25 一种文本摘要提取方法、装置、服务器及可读存储介质

Publications (1)

Publication Number Publication Date
CN110781291A true CN110781291A (zh) 2020-02-11

Family

ID=69387803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911020426.2A Pending CN110781291A (zh) 2019-10-25 2019-10-25 一种文本摘要提取方法、装置、服务器及可读存储介质

Country Status (1)

Country Link
CN (1) CN110781291A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836016A (zh) * 2021-02-05 2021-05-25 北京字跳网络技术有限公司 会议纪要生成方法、装置、设备和存储介质
CN113822038A (zh) * 2021-06-03 2021-12-21 腾讯科技(深圳)有限公司 一种摘要生成方法和相关装置
WO2022262266A1 (zh) * 2021-06-18 2022-12-22 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101526938A (zh) * 2008-03-06 2009-09-09 夏普株式会社 文档处理装置
CN107526841A (zh) * 2017-09-19 2017-12-29 中央民族大学 一种基于Web的藏文文本自动摘要生成方法
CN108182247A (zh) * 2017-12-28 2018-06-19 东软集团股份有限公司 文摘生成方法和装置
CN109960724A (zh) * 2019-03-13 2019-07-02 北京工业大学 一种基于tf-idf的文本摘要方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101526938A (zh) * 2008-03-06 2009-09-09 夏普株式会社 文档处理装置
CN107526841A (zh) * 2017-09-19 2017-12-29 中央民族大学 一种基于Web的藏文文本自动摘要生成方法
CN108182247A (zh) * 2017-12-28 2018-06-19 东软集团股份有限公司 文摘生成方法和装置
CN109960724A (zh) * 2019-03-13 2019-07-02 北京工业大学 一种基于tf-idf的文本摘要方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
季姮等: "基于概念统计和语义层次分析的英文自动文摘研究", 《中文信息学报》 *
程园等: "基于综合的句子特征的文本自动摘要", 《计算机科学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836016A (zh) * 2021-02-05 2021-05-25 北京字跳网络技术有限公司 会议纪要生成方法、装置、设备和存储介质
CN113822038A (zh) * 2021-06-03 2021-12-21 腾讯科技(深圳)有限公司 一种摘要生成方法和相关装置
WO2022262266A1 (zh) * 2021-06-18 2022-12-22 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN109960724B (zh) 一种基于tf-idf的文本摘要方法
CN104933027B (zh) 一种利用依存分析的开放式中文实体关系抽取方法
Schmaltz et al. Adapting sequence models for sentence correction
CN113254574A (zh) 一种机关公文辅助生成方法、装置以及系统
CN104881458B (zh) 一种网页主题的标注方法和装置
CN110781291A (zh) 一种文本摘要提取方法、装置、服务器及可读存储介质
CN110716749A (zh) 一种基于功能相似度匹配的代码搜索方法
CN110008309A (zh) 一种短语挖掘方法及装置
CN110674296B (zh) 一种基于关键词的资讯摘要提取方法及系统
CN107239455B (zh) 核心词识别方法及装置
CN116090416B (zh) 基于标准知识图谱的标准编写方法、系统、设备及介质
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
Pettersson et al. HistSearch-Implementation and Evaluation of a Web-based Tool for Automatic Information Extraction from Historical Text.
Lin et al. Combining a segmentation-like approach and a density-based approach in content extraction
CN110674283A (zh) 文本摘要的智能抽取方法、装置、计算机设备及存储介质
Li-Juan et al. A classification method of Vietnamese news events based on maximum entropy model
CN113868431A (zh) 面向金融知识图谱的关系抽取方法、装置及存储介质
Ströbel et al. Multilingual Workflows in Bullinger Digital: Data Curation for Latin and Early New High German
CN108763229B (zh) 一种基于特征性句干提取的机器翻译方法及装置
CN113449504A (zh) 一种标书智能评分方法及系统
CN113971403A (zh) 一种考虑文本语义信息的实体识别方法及系统
CN115757760A (zh) 文本摘要提取方法及系统、计算设备、存储介质
CN113468339A (zh) 基于知识图谱的标签提取方法、系统、电子设备及介质
Kolle et al. Extractive summarization of text from images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 249 Dongsi South Street, Dongcheng District, Beijing 100094

Applicant after: Beijing Computing Center Co.,Ltd.

Address before: 249 Dongsi South Street, Dongcheng District, Beijing 100094

Applicant before: BEIJING COMPUTING CENTER