CN115080729B - 一种文本的摘要提取方法及装置 - Google Patents

一种文本的摘要提取方法及装置 Download PDF

Info

Publication number
CN115080729B
CN115080729B CN202210854443.1A CN202210854443A CN115080729B CN 115080729 B CN115080729 B CN 115080729B CN 202210854443 A CN202210854443 A CN 202210854443A CN 115080729 B CN115080729 B CN 115080729B
Authority
CN
China
Prior art keywords
text
clause
window
training
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210854443.1A
Other languages
English (en)
Other versions
CN115080729A (zh
Inventor
王卿云
亓克娜
朱凯泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sohu New Media Information Technology Co Ltd
Original Assignee
Beijing Sohu New Media Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sohu New Media Information Technology Co Ltd filed Critical Beijing Sohu New Media Information Technology Co Ltd
Priority to CN202210854443.1A priority Critical patent/CN115080729B/zh
Publication of CN115080729A publication Critical patent/CN115080729A/zh
Application granted granted Critical
Publication of CN115080729B publication Critical patent/CN115080729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本的摘要提取方法及装置。该方法包括:对获取的待处理文本进行预处理,得到预处理文本,对所述预处理文本的每个分句进行特征提取,得到所述每个分句的文本特征向量,将所述文本特征向量输入进预训练的摘要提取模型,对所述文本特征向量进行序列标注和摘录预测,得到所述每个分句的标注预测结果,对所有的标注预测结果按照分窗规则划分成多个窗口,并计算每个窗口的所有标注预测结果的平均值作为窗口平均值,根据所述多个窗口各自的窗口平均值获得所述待处理文本的摘要。如此,提高了文本的连贯性和可读性,同时也提高了文本摘要的重点的准确性。

Description

一种文本的摘要提取方法及装置
技术领域
本申请涉及文本提取技术领域,特别是涉及一种文本的摘要提取方法及装置。
背景技术
随着互联网的发展,文本内容也变得愈发冗余,阅读者很难在简短的时间内从大量的文字内容之中挑选出重要信息,因此,以新闻业为例,一般采用新闻的摘要来让阅读者可以快速的了解到这一篇新闻的重点。现有的技术是采用人工提取摘要的方法对新闻进行摘要提取,但是需要耗费大量的人力物力,并且,人工提取摘要是通过提取者的经验和主观决断,可能会使摘要与这篇新闻的重点有偏差。
公开号为CN111209752A的专利公开了一种基于辅助信息的中文抽取性集成无监督摘要的方法,该方法主要基于图和聚类的方法对文本进行自动化摘要算法进行处理,考虑了文本之间的相似性程度,主要步骤为将文本预处理,对段落进行分词和去停用词,处理后的文本提供给无监督记性自动化的聚类进行处理,选出备选文本摘要集,再经过计算文本之间的相似性程度,再次进行筛选。但是,此专利采用的方法对文本进行摘要提取,很可能摘要的句子都为文本的首句或者和标题相近的句子,这样的句子无法准确反映文本的总体内容。而且抽取出的句子可能是分开的,不连贯且可读性差。由此可知,现有技术的缺点在于抽取的文字片段不连贯,摘要的可读性差、重点的准确性低。
基于此,如何解决提取的摘要的文字不连贯、可读性差以及重点的准确性低,是本领域技术人员亟待解决的问题。
发明内容
基于上述问题,本申请提供了一种文本的摘要提取方法及装置,以解决提取的摘要的文字不连贯、可读性差以及重点的准确性低的问题。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例提供了一种文本的摘要提取方法,所述方法包括:
对获取的待处理文本进行预处理,得到预处理文本,其中,所述预处理包括按照分句规则对所述预处理文本进行分句;
对所述预处理文本的每个分句进行特征提取,得到所述每个分句的文本特征向量;
将所述文本特征向量输入进预训练的摘要提取模型,对所述文本特征向量进行序列标注和摘录预测,得到所述每个分句的标注预测结果;
对所有的标注预测结果按照分窗规则划分成多个窗口,并计算每个窗口的所有标注预测结果的平均值作为窗口平均值;
根据所述多个窗口各自的窗口平均值获得所述待处理文本的摘要。
可选地,所述根据所述多个窗口各自的窗口平均值获得所述待处理文本的摘要,包括:
确定多个窗口平均值中的最大窗口平均值,并将所述最大窗口平均值对应的窗口中的所有分句按照序号顺序输出,作为待处理文本的摘要。
可选地,所述预训练的摘要提取模型主要是通过以下方式训练获得:
对经过预处理的训练文本进行特征提取,得到所述预处理的训练文本的每个分句的训练特征向量,将所述训练特征向量输入进待训练的摘要提取模型;
利用所述待训练的摘要提取模型对所述训练特征向量进行序列标注和摘录预测,得到训练标注预测结果;
对所有的训练标注预测结果按照分窗规则分成多个窗口,并计算每个窗口的所有训练标注预测结果的平均值作为训练窗口平均值;
选取所述多个窗口的训练窗口平均值中的最大数值,根据所述最大数值对应的窗口中的所有训练标注预测结果进行集合得到训练集合;
将所述训练集合与所述预处理的训练文本的标准集合相比较,若比较结果符合预设训练规则,则完成对所述待训练的摘要提取模型的训练,若比较结果不符合所述预设训练规则,则调整所述待训练的摘要提取模型的参数,继续使用新的预处理的训练文本训练所述待训练的摘要提取模型。
可选地,所述根据所述最大数值对应的窗口中的所有训练标注预测结果进行集合得到训练集合,具体通过以下方式实现:
确定所述最大数值对应的窗口,并将所述窗口中的每一个训练标注预测结果中的摘录预测的结果与预设摘录值进行比较;
若所述摘录预测的结果小于所述预设摘录值,则记为0;若所述摘录预测的结果大于或等于所述预设摘录值,则记为1;
将所有与所述预设摘录值通过比较得到的结果按照序列标注的顺序集合成一个含有0和/或1的集合,以作为训练集合。
可选地,所述对获取的待处理文本进行预处理,具体通过以下方式是实现:
去除所述待处理文本的无用标签和停用词;
对所述预处理文本按照句号、感叹号、问号和省略号四个符号进行分句。
可选地,所述对所述预处理文本的每个分句进行特征提取,得到所述每个分句的文本特征向量,包括:
对所述预处理文本的每个分句进行文本相似度计算,得到所述每个分句的相似值;
利用文本排名textrank算法对所述预处理文本的每个分句进行得分计算,得到所述预处理文本的每个分句的计算分值;
根据所述预处理文本的每个分句的相似值、计算分值和频道信息得到所述每个分句的特征评分值,以作为所述每个分句的文本特征向量。
可选地,所述对所述文本特征向量进行序列标注和摘录预测,得到所述每个分句的标注预测结果,具体通过以下方式实现:
对所述每个分句的文本特征向量按照所述每个分句在所述预处理文本中的顺序进行标注序号;
预测经过标注序号的所述每个分句的文本特征向量被摘录的概率,得到所述每个分句的文本特征向量的摘录概率值;
将所述特征评分值与所述摘录概率值相加,得到所述每个分句的标注预测结果。
可选地,所述对所有的标注预测结果按照分窗规则划分成多个窗口,包括:
对所有的标注预测结果按照序列标注的序号进行排序;
按照每个窗口包括预设数量的标注预测结果进行窗口划分。
可选地,所述按照每个窗口包括预设数量的标注预测结果进行窗口划分,具体通过以下方式实现:
按照预设数量将按照序号顺序排序的标注预测结果划分出第一窗口;
按照预设数量划分第二窗口时,所述第二窗口中的第一位置的标注预测结果为所述第一窗口的第二位置的标注预测结果,并取预设数量的标注预测结果作为所述第二窗口;
按照所述第二窗口的划分过程,依次划分剩余所有窗口。
第二方面,本申请实施例提供了一种文本的摘要提取装置,所述装置包括:预处理单元,特征提取单元和预训练的摘要提取模型,其中所述预训练的摘要提取模型包括标注预测单元,窗口划分单元和窗口搜索单元;
所述预处理单元,用于对获取的待处理文本进行预处理,得到预处理文本,其中,所述预处理包括按照分句规则对所述预处理文本进行分句;
所述特征提取单元,用于对所述预处理文本的每个分句进行特征提取,得到所述每个分句的文本特征向量;
所述预训练的摘要提取模型,用于对所述每个分句的文本特征向量进行接收和处理;
所述标注预测单元,用于对所述文本特征向量进行序列标注和摘录预测,得到所述每个分句的标注预测结果;
所述窗口划分单元,用于对所有的标注预测结果按照分窗规则划分成多个窗口,并计算每个窗口的所有标注预测结果的平均值作为窗口平均值;
所述窗口搜索单元,用于根据所述多个窗口各自的窗口平均值获得所述待处理文本的摘要。
相较于现有技术,本申请具有以下有益效果:
本申请通过对获取的待处理文本进行预处理,得到预处理文本,对所述预处理文本的每个分句进行特征提取,得到所述每个分句的文本特征向量,将所述文本特征向量输入进预训练的摘要提取模型,对所述文本特征向量进行序列标注和摘录预测,得到所述每个分句的标注预测结果,对所有的标注预测结果按照分窗规则划分成多个窗口,并计算每个窗口的所有标注预测结果的平均值作为窗口平均值,根据所述多个窗口各自的窗口平均值获得所述待处理文本的摘要。其中,通过对待处理文本的分句,并进行特征提取,区别于现有技术中对每个词进行特征提取,能够使最终提取的摘要中文字的连贯性较高;并且通过摘要提取模型对文本特征向量进行序列标注和摘录预测,提升了摘要中句子的可读性;根据所述多个窗口各自的窗口平均值获得所述待处理文本的摘要,提高了摘要的重点的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本的摘要提取方法的流程图;
图2为本申请实施例提供的一种文本的摘要提取模型的训练过程的流程图;
图3为本申请实施例提供的一种文本的摘要提取装置的结构示意图;
图4为本申请实施例提供的一种文本的摘要提取装置中的摘要提取模型的结构示意图。
具体实施方式
正如前文描述,发明人在针对产品的测试需求范围的研究中发现,现有技术中的采用的方法对文本进行摘要提取,很可能摘要的句子都为文本的首句或者和标题相近的句子,这样的句子无法准确反映文本的总体内容。而且抽取出的句子可能是分开的,不连贯且可读性差。由此可知,现有技术的缺点在于抽取的文字片段不连贯,摘要的可读性差、重点的准确性低。
为了解决上述问题,本申请实施例提供一种文本的摘要提取方法,该方法包括:对获取的待处理文本进行预处理,得到预处理文本,对所述预处理文本的每个分句进行特征提取,得到所述每个分句的文本特征向量,将所述文本特征向量输入进预训练的摘要提取模型,对所述文本特征向量进行序列标注和摘录预测,得到所述每个分句的标注预测结果,对所有的标注预测结果按照分窗规则划分成多个窗口,并计算每个窗口的所有标注预测结果的平均值作为窗口平均值,根据所述多个窗口各自的窗口平均值获得所述待处理文本的摘要。
如此,通过对待处理文本的分句,并进行特征提取,区别于现有技术中对每个词进行特征提取,能够使最终提取的摘要中文字的连贯性较高;并且通过摘要提取模型对文本特征向量进行序列标注和摘录预测,提升了摘要中句子的可读性;根据所述多个窗口各自的窗口平均值获得所述待处理文本的摘要,提高了摘要的重点的准确性。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种文本的摘要提取方法的流程图。结合图1所示,本申请实施例提供的文本的摘要提取方法,可以包括:
S101:对获取的待处理文本进行预处理,得到预处理文本。
待处理文本可以是文章,新闻等等,包括但不限于所述两种情况,在此不做具体限定。
其中,预处理过程具体可以包括:
步骤1:去除待处理文本的无用标签和停用词。
其中,无用标签是指富文本、超文本标记语言HTML标签等,包括但不限于所述两种情况,在此并不做具体限定。
其中,停用词是指预先确定的禁止使用或不使用的字、词语或句子。
步骤2:在去除待处理文本的无用标签和停用词后,保留文本的正文内容作为预处理文本,并对预处理文本按照分句规则进行分句。
其中,分句规则中的符号可以包括句号、感叹号、问号和省略号,包括但不限于所述四种符号,也可以使用其他符号作为分句规则中的符号,在此不做具体限定。本申请实施中分句规则可以自定义,也可以是沿用已有的分句规则。
S102:对所述预处理文本的每个分句进行特征提取,得到所述每个分句的文本特征向量。
在一种示例实现方式中,特征提取得到每个分句的文本特征向量的过程可以包括:
对所述预处理文本的每个分句进行文本相似度计算,得到所述每个分句的相似值;利用文本排名textrank算法对所述预处理文本的每个分句进行得分计算,得到所述预处理文本的每个分句的计算分值;根据所述预处理文本的每个分句的相似值、计算分值和频道信息得到所述每个分句的特征评分值,以作为所述每个分句的文本特征向量。
其中,对预处理文本的每个分句进行文本相似度计算是指计算每个分句与预处理文本之间的相似程度,可以使用bm25相似性算法来进行计算,也可以使用其他相似度的计算算法,在此不做具体限定。
其中,文本排名textrank算法是一种基于图形的文本排序算法。它是基于PageRank衍生出来的自然语言处理算法,是一种基于图论的排序算法,以文本的相似度作为边的权重,迭代计算每个文本的textrank值,最后把排名高的文本抽取出来,作为这段文本的关键词或者文本摘要。
其中,频道信息是对文本内容涉及的领域的描述,例如,新闻,体育,汽车,房产,旅游,科技等,包括但不限于所述几种情况,在此并不做具体限定。
S103:将所述文本特征向量输入进预训练的摘要提取模型,对所述文本特征向量进行序列标注和摘录预测,得到所述每个分句的标注预测结果。
具体的,在将文本特征向量输入进预训练的摘要提取模型后,所述摘要提取模型会对文本特征向量进行续联标注和摘录预测,其中,序列标注是指对每个文本特征向量按照每个分句的特征向量按照所述每个分句在所述预处理文本中的顺序进行标注序号。
摘录预测的过程可以为:对经过标注序号的所述每个分句的特征向量被摘录的概率,得到所述每个分句的特征向量的摘录概率值;将所述特征评分值与所述摘录概率值相加,得到所述每个分句的标注预测结果。
S104:对所有的标注预测结果按照分窗规则划分成多个窗口,并计算每个窗口的所有标注预测结果的平均值作为窗口平均值。
具体的,对所有的标注预测结果按照分窗规则划分成多个窗口,此过程可以为:对所有的标注预测结果按照序列标注的序号进行排序;按照每个窗口包括预设数量的标注预测结果进行窗口划分。
其中,窗口划分的过程可以为:
按照预设数量将按照序号顺序排序的标注预测结果划分出第一窗口;
按照预设数量划分第二窗口时,所述第二窗口中的第一位置的标注预测结果为所述第一窗口的第二位置标注预测结果,并取预设数量的标注预测结果作为所述第二窗口;
按照所述第二窗口的划分过程,依次划分剩余所有窗口。
其中,预设数量是指每个窗口所包含标注预测结果的数量,例如,可以设置每个窗口包含的标注预测结果为5,那么在划分窗口时,每个窗口有5条标注预测结果。预设数量可以根据实际场景或实际情况来确定,在此并不做具体限定。
其中,在划分窗口的过程中,简单举例来说,比如预设数量为4,标注预测结果有10条,分别序号为1,2,3,4,5,6,7,8,9,10,在窗口划分过程中,第一窗口就是1,2,3,4;第二窗口就是2,3,4,5;第三窗口就是3,4,5,6;……以此类推,直至分组到7,8,9,10为止。此处举例仅为了对窗口划分进行解释说明,并不限缩本申请的保护范围。
S105:根据所述多个窗口各自的窗口平均值获得所述待处理文本的摘要。
具体的,确定多个窗口平均值中的最大窗口平均值,并将所述最大窗口平均值对应的窗口中的所有分句按照序号顺序输出,作为待处理文本的摘要。
本申请实施例通过对获取的待处理文本进行预处理,得到预处理文本,对所述预处理文本的每个分句进行特征提取,得到所述每个分句的文本特征向量,将文本特征向量输入进预训练的摘要提取模型,对文本特征向量进行序列标注和摘录预测,得到所述每个分句的标注预测结果,对所有的标注预测结果按照分窗规则划分成多个窗口,并计算每个窗口的所有标注预测结果的平均值作为窗口平均值,根据所述多个窗口各自的窗口平均值获得所述待处理文本的摘要。其中,通过对待处理文本的分句,并进行特征提取,区别于现有技术中对每个词进行特征提取,能够使最终提取的摘要中文字的连贯性较高;并且通过摘要提取模型对文本特征向量进行序列标注和摘录预测,提升了摘要中句子的可读性;根据所述多个窗口各自的窗口平均值获得所述待处理文本的摘要,提高了摘要的重点的准确性。
基于上述实施例提供的一种文本的摘要提取方法,为了进一步提高文本摘要的重点的准确性,本申请实施例另外提供一种文本的摘要提取模型的训练过程,图2为本申请实施例提供的一种文本的摘要提取模型的训练过程的流程图。结合图2所示,本申请实施例提供的文本的摘要提取模型的训练方法,可以包括:
S201:对经过预处理的训练文本进行特征提取,得到所述预处理的训练文本的每个分句的训练特征向量,将所述训练特征向量输入进待训练的摘要提取模型。
S202:利用所述待训练的摘要提取模型对所述训练特征向量进行序列标注和摘录预测,得到训练标注预测结果。
S203:对所有的训练标注预测结果按照分窗规则划分成多个窗口,并计算每个窗口的所有训练标注预测结果的平均值作为训练窗口平均值。
其中,步骤S201~S203的具体处理过程与上一实施例中的S101~S104的处理过程相同,因此在本实施例中不再赘述。
S204:选取所述多个窗口的训练窗口平均值中的最大数值,根据所述最大数值对应的窗口中的所有训练标注预测结果进行集合得到训练集合。
具体的,根据所述最大数值对应的窗口中的所有训练标注预测结果进行集合得到训练集合,可以通过以下方式实现:
确定所述最大数值对应的窗口,并将所述窗口中的每一个训练标注预测结果中的摘录预测的结果与预设摘录值进行比较;
若所述摘录预测的结果小于预设摘录值,则记为0;若所述摘录预测的结果大于或等于预设摘录值,则记为1;
将所有与预设摘录值进行比较的结果按照序列标注的顺序集合成一个含有0和/或1的集合,以作为训练集合。
其中,标准集合是由人工标注训练文本并得到的集合。
S205:将所述训练集合与所述预处理的训练文本的标准集合相比较,若比较结果符合预设训练规则,则完成对所述待训练的摘要提取模型的训练,若比较结果不符合所述预设训练规则,则调整所述待训练的摘要提取模型的参数,继续使用新的预处理的训练文本训练所述待训练的摘要提取模型。
其中,预设训练规则是指根据是实际情况或实际场景确定的规则,举例来说,如果预设训练规则为比较结果为0,即训练集合预标准集合完全相同,那么当训练集合预标准集合完全相同时,完成对所述待训练的摘要提取模型的训练。
根据上述实施例提供的一种文本的摘要提取模型的训练过程,本申请实施例还提供一种训练文本为天气预报网讯的文本的摘要提取模型的训练过程,其训练过程可以为:
步骤一:获取训练文本,其中,训练文本为一则天气预报网讯,具体天气预报新闻内容如下:
“中央气象台7月26日18时继续发布暴雨橙色预警:预计,7月26日20时至27日20时,浙江北部、上海、江苏、安徽等地有大到暴雨,其中,浙江北部、上海、江苏中东部、安徽中部和东南部等地的部分地区有大暴雨(100~220毫米)。
另外,黑龙江北部、陕西南部、河北北部、北京北部、云南南部、四川盆地南部、西藏东南部等地的部分地区有大雨,局地暴雨。上述地区最大小时降雨量30~60毫米,局地可超过80毫米,并伴有雷暴大风等强对流天气。
防御指南:
1、建议政府及相关部门按照职责做好防御暴雨应急工作;
2、切断有危险地带的室外电源,暂停户外作业;
3、做好城市、农田的排涝,注意防范可能引发的山洪、滑坡、泥石流等灾害。”
步骤二:对训练文本进行预处理,得到预处理的训练文本,得到如下分句后的内容,参见表1:
表1
Figure 271374DEST_PATH_IMAGE001
步骤三:对上述表1中的每个分句进行特征提取,得到每个分句的文本特征向量,并输入进待训练的摘要提取模型,进行序号标注和摘录预测,得到如下训练标注预测结果,参见表2:
表2
Figure 820167DEST_PATH_IMAGE002
步骤四:对所有的训练标注预测结果按照分窗规则分成多个窗口,并计算每个窗口的所有所述训练标注预测结果的平均值作为训练窗口平均值,参见表3:
表3
Figure 377050DEST_PATH_IMAGE003
步骤五:选取所有训练窗口平均值中的最大数值,即第一窗口,将第一窗口中的所有训练标注预测结果进行集合得到训练集合[1,1,0,0]。
步骤六:将训练集合[1,1,0,0]与预处理的训练文本的标准集合[1,1,0,0]相比较,若训练集合和标准集合相同,则完成对所述待训练的摘要提取模型的训练。
假设训练集合为[1,0,0,0],与标准集合[1,1,0,0]不相同,则调整所述待训练的摘要提取模型的参数,继续使用新的预处理的训练文本训练所述待训练的摘要提取模型。
基于上述实施例提供的一种文本的摘要提取方法,本申请实施例另外提供一种文本的摘要提取装置,图3为本申请实施例提供的一种文本的摘要提取装置的结构示意图,图4为本申请实施例提供的一种文本的摘要提取装置中的摘要提取模型的结构示意图。结合图3和图4所示,本申请实施例提供的文本的摘要提取装置,所述装置300可以包括:预处理单元301,特征提取单元302和预训练的摘要提取模型303,其中所述预训练的摘要提取模型303包括标注预测单元3031,窗口划分单元3032和窗口搜索单元3033;
所述预处理单元301,用于对获取的待处理文本进行预处理,得到预处理文本,其中,所述预处理包括按照分句规则对预处理文本进行分句;
所述特征提取单元302,用于对所述预处理文本的每个分句进行特征提取,得到所述每个分句的文本特征向量;
所述预训练的摘要提取模型303,用于对所述每个分句的文本特征向量进行接收和处理;
所述标注预测单元3031,用于对文本特征向量进行序列标注和摘录预测,得到所述每个分句的标注预测结果;
所述窗口划分单元3032,用于对所有的标注预测结果按照分窗规则划分成多个窗口,并计算每个窗口的所有标注预测结果的平均值作为窗口平均值;
所述窗口搜索单元3033,用于根据所述多个窗口各自的窗口平均值获得所述待处理文本的摘要。
在一种可选的具体实施方式中,为了能够更好的实现文本的摘要提取的流程,进一步提高摘要的连贯性和可读性,所述预处理单元301,具体可以用于:
去除所述待处理文本的无用标签和停用词;
对所述预处理文本按照句号、感叹号、问号和省略号四个符号进行分句。
具体的,为了能够更好的实现文本的摘要提取的流程,进一步提高摘要的连贯性和可读性,所述特征提取单元302,具体可以用于:
对所述预处理文本的每个分句进行文本相似度计算,得到所述每个分句的相似值;
利用文本排名textrank算法对所述预处理文本的每个分句进行得分计算,得到所述预处理文本的每个分句的计算分值;
根据所述预处理文本的每个分句的相似值、计算分值和频道信息得到所述每个分句的特征评分值,以作为所述每个分句的文本特征向量。
具体的,为了能够更好的实现文本的摘要提取的流程,进一步提高摘要的连贯性和可读性,所述标注预测单元3031,具体用于:
对所述每个分句的特征向量按照所述每个分句在所述预处理文本中的顺序进行标注序号;
预测经过标注序号的所述每个分句的特征向量被摘录的概率,得到所述每个分句的特征向量的摘录概率值;
将所述特征评分值与所述摘录概率值相加,得到所述每个分句的标注预测结果。
具体的,为了能够更好的实现文本的摘要提取的流程,进一步提高摘要的连贯性和可读性,所述窗口划分单元3032,具体用于:
对所有的标注预测结果按照序列标注的序号进行排序;
按照每个窗口包括预设数量的标注预测结果进行窗口划分。
其中,所述窗口划分的具体过程为:
按照预设数量将按照序号顺序排序的标注预测结果划分出第一窗口;
按照预设数量划分第二窗口时,所述第二窗口中的第一位置的标注预测结果为所述第一窗口的第二位置标注预测结果,并取预设数量的标注预测结果作为所述第二窗口;
按照所述第二窗口的划分过程,依次划分剩余所有窗口。
本申请实施例提供的通过对获取的待处理文本进行预处理,得到预处理文本,对所述预处理文本的每个分句进行特征提取,得到所述每个分句的文本特征向量,将文本特征向量输入进预训练的摘要提取模型,对文本特征向量进行序列标注和摘录预测,得到所述每个分句的标注预测结果,对所有的标注预测结果按照分窗规则划分成多个窗口,并计算每个窗口的所有标注预测结果的平均值作为窗口平均值,根据所述多个窗口各自的窗口平均值获得所述待处理文本的摘要。其中,通过对待处理文本的分句,并进行特征提取,区别于现有技术中对每个词进行特征提取,能够使最终提取的摘要中文字的连贯性较高;并且通过摘要提取模型对文本特征向量进行序列标注和摘录预测,提升了摘要中句子的可读性;根据所述多个窗口各自的窗口平均值获得所述待处理文本的摘要,提高了摘要的重点的准确性。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请实施例中提到的 “第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识,并不代表顺序上的第一、第二。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (9)

1.一种文本的摘要提取方法,其特征在于,所述方法包括:
对获取的待处理文本进行预处理,得到预处理文本,其中,所述预处理包括按照分句规则对所述预处理文本进行分句;
对所述预处理文本的每个分句进行特征提取,得到所述每个分句的文本特征向量;
将所述文本特征向量输入进预训练的摘要提取模型,对所述文本特征向量进行序列标注和摘录预测,得到所述每个分句的标注预测结果;
对所有的标注预测结果按照分窗规则划分成多个窗口,并计算每个窗口的所有标注预测结果的平均值作为窗口平均值;
根据所述多个窗口各自的窗口平均值获得所述待处理文本的摘要;
其中,所述对所述预处理文本的每个分句进行特征提取,得到所述每个分句的文本特征向量,包括:
对所述预处理文本的每个分句进行文本相似度计算,得到所述每个分句的相似值;
利用文本排名textrank算法对所述预处理文本的每个分句进行得分计算,得到所述预处理文本的每个分句的计算分值;
根据所述预处理文本的每个分句的相似值、计算分值和频道信息得到所述每个分句的特征评分值,以作为所述每个分句的文本特征向量。
2.根据权利要求1所述的文本的摘要提取方法,其特征在于,所述根据所述多个窗口各自的窗口平均值获得所述待处理文本的摘要,包括:
确定多个窗口平均值中的最大窗口平均值,并将所述最大窗口平均值对应的窗口中的所有分句按照序号顺序输出,作为待处理文本的摘要。
3.根据权利要求1所述的文本的摘要提取方法,其特征在于,所述预训练的摘要提取模型主要是通过以下方式训练获得:
对经过预处理的训练文本进行特征提取,得到所述预处理的训练文本的每个分句的训练特征向量,将所述训练特征向量输入进待训练的摘要提取模型;
利用所述待训练的摘要提取模型对所述训练特征向量进行序列标注和摘录预测,得到训练标注预测结果;
对所有的训练标注预测结果按照分窗规则划分成多个窗口,并计算每个窗口的所有训练标注预测结果的平均值作为训练窗口平均值;
选取所述多个窗口的训练窗口平均值中的最大数值,根据所述最大数值对应的窗口中的所有训练标注预测结果进行集合得到训练集合;
将所述训练集合与所述预处理的训练文本的标准集合相比较,若比较结果符合预设训练规则,则完成对所述待训练的摘要提取模型的训练,若比较结果不符合所述预设训练规则,则调整所述待训练的摘要提取模型的参数,继续使用新的预处理的训练文本训练所述待训练的摘要提取模型。
4.根据权利要求3所述的文本的摘要提取方法,其特征在于,所述根据所述最大数值对应的窗口中的所有训练标注预测结果进行集合得到训练集合,具体通过以下方式实现:
确定所述最大数值对应的窗口,并将所述窗口中的每一个训练标注预测结果中的摘录预测的结果与预设摘录值进行比较;
若所述摘录预测的结果小于所述预设摘录值,则记为0;若所述摘录预测的结果大于或等于所述预设摘录值,则记为1;
将所有与所述预设摘录值通过比较得到的结果按照序列标注的顺序集合成一个含有0和/或1的集合,以作为训练集合。
5.根据权利要求1所述的文本的摘要提取方法,其特征在于,所述对获取的待处理文本进行预处理,具体通过以下方式实现:
去除所述待处理文本的无用标签和停用词;
对所述预处理文本按照句号、感叹号、问号和省略号四个符号进行分句。
6.根据权利要求1所述的文本的摘要提取方法,其特征在于,所述对所述文本特征向量进行序列标注和摘录预测,得到所述每个分句的标注预测结果,具体通过以下方式实现:
对所述每个分句的文本特征向量按照所述每个分句在所述预处理文本中的顺序进行标注序号;
预测经过标注序号的所述每个分句的文本特征向量被摘录的概率,得到所述每个分句的文本特征向量的摘录概率值;
将所述特征评分值与所述摘录概率值相加,得到所述每个分句的标注预测结果。
7.根据权利要求1所述的文本的摘要提取方法,其特征在于,所述对所有的标注预测结果按照分窗规则划分成多个窗口,包括:
对所有的标注预测结果按照序列标注的序号进行排序;
按照每个窗口包括预设数量的标注预测结果进行窗口划分。
8.根据权利要求7所述的文本的摘要提取方法,其特征在于,所述按照每个窗口包括预设数量的标注预测结果进行窗口划分,具体通过以下方式实现:
按照预设数量将按照序号顺序排序的标注预测结果划分出第一窗口;
按照预设数量划分第二窗口时,所述第二窗口中的第一位置的标注预测结果为所述第一窗口的第二位置的标注预测结果,并取预设数量的标注预测结果作为所述第二窗口;
按照所述第二窗口的划分过程,依次划分剩余所有窗口。
9.一种文本的摘要提取装置,其特征在于,所述装置包括:预处理单元,特征提取单元和预训练的摘要提取模型,其中所述预训练的摘要提取模型包括标注预测单元,窗口划分单元和窗口搜索单元;
所述预处理单元,用于对获取的待处理文本进行预处理,得到预处理文本,其中,所述预处理包括按照分句规则对所述预处理文本进行分句;
所述特征提取单元,用于对所述预处理文本的每个分句进行特征提取,得到所述每个分句的文本特征向量;
所述预训练的摘要提取模型,用于对所述每个分句的文本特征向量进行接收和处理;
所述标注预测单元,用于对所述文本特征向量进行序列标注和摘录预测,得到所述每个分句的标注预测结果;
所述窗口划分单元,用于对所有的标注预测结果按照分窗规则划分成多个窗口,并计算每个窗口的所有标注预测结果的平均值作为窗口平均值;
所述窗口搜索单元,用于根据所述多个窗口各自的窗口平均值获得所述待处理文本的摘要;
所述特征提取单元,具体可以用于:
对所述预处理文本的每个分句进行文本相似度计算,得到所述每个分句的相似值;
利用文本排名textrank算法对所述预处理文本的每个分句进行得分计算,得到所述预处理文本的每个分句的计算分值;
根据所述预处理文本的每个分句的相似值、计算分值和频道信息得到所述每个分句的特征评分值,以作为所述每个分句的文本特征向量。
CN202210854443.1A 2022-07-20 2022-07-20 一种文本的摘要提取方法及装置 Active CN115080729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210854443.1A CN115080729B (zh) 2022-07-20 2022-07-20 一种文本的摘要提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210854443.1A CN115080729B (zh) 2022-07-20 2022-07-20 一种文本的摘要提取方法及装置

Publications (2)

Publication Number Publication Date
CN115080729A CN115080729A (zh) 2022-09-20
CN115080729B true CN115080729B (zh) 2022-12-27

Family

ID=83260443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210854443.1A Active CN115080729B (zh) 2022-07-20 2022-07-20 一种文本的摘要提取方法及装置

Country Status (1)

Country Link
CN (1) CN115080729B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241267A (zh) * 2020-01-10 2020-06-05 科大讯飞股份有限公司 摘要提取和摘要抽取模型训练方法及相关装置、存储介质
CN114139497A (zh) * 2021-12-13 2022-03-04 国家电网有限公司大数据中心 一种基于bertsum模型的文本摘要提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11272058B2 (en) * 2020-07-27 2022-03-08 Verizon Patent And Licensing Inc. Method and apparatus for summarization of dialogs

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241267A (zh) * 2020-01-10 2020-06-05 科大讯飞股份有限公司 摘要提取和摘要抽取模型训练方法及相关装置、存储介质
CN114139497A (zh) * 2021-12-13 2022-03-04 国家电网有限公司大数据中心 一种基于bertsum模型的文本摘要提取方法

Also Published As

Publication number Publication date
CN115080729A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN109284400B (zh) 一种基于Lattice LSTM和语言模型的命名实体识别方法
CN108664474B (zh) 一种基于深度学习的简历解析方法
CN107169079B (zh) 一种基于Deepdive的领域文本知识抽取方法
CN110399606B (zh) 一种无监督电力文档主题生成方法及系统
CN109657058A (zh) 一种公告信息的抽取方法
CN102662923A (zh) 一种基于机器学习的本体实例学习方法
CN111159356B (zh) 基于教学内容的知识图谱构建方法
CN103678310A (zh) 网页主题的分类方法及装置
CN112527933A (zh) 一种基于空间位置和文本训练的中文地址关联方法
CN110175246A (zh) 一种从视频字幕中提取概念词的方法
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN111144119B (zh) 一种改进知识迁移的实体识别方法
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN110298039B (zh) 事件地的识别方法、系统、设备及计算机可读存储介质
WO2014000130A1 (en) Method or system for automated extraction of hyper-local events from one or more web pages
CN104573711A (zh) 基于文本-物体-场景关系的物体和场景的图像理解方法
CN109033166A (zh) 一种人物属性抽取训练数据集构建方法
CN108595430B (zh) 航变信息提取方法及系统
CN105389303B (zh) 一种异源语料自动融合方法
CN107992550A (zh) 一种网络评论分析方法及系统
CN107451433B (zh) 一种基于文本内容的信息源识别方法与装置
Yue et al. Using twitter data to determine hurricane category: An experiment
CN115080729B (zh) 一种文本的摘要提取方法及装置
CN109388804A (zh) 利用深度学习模型的证券研报核心观点提取方法及装置
CN111401004A (zh) 一种基于机器学习的文章断句方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant