CN110674286A - 一种文本摘要抽取方法、装置及存储设备 - Google Patents

一种文本摘要抽取方法、装置及存储设备 Download PDF

Info

Publication number
CN110674286A
CN110674286A CN201910934236.5A CN201910934236A CN110674286A CN 110674286 A CN110674286 A CN 110674286A CN 201910934236 A CN201910934236 A CN 201910934236A CN 110674286 A CN110674286 A CN 110674286A
Authority
CN
China
Prior art keywords
text
short
extracted
sentence
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910934236.5A
Other languages
English (en)
Inventor
祝文博
雷欣
李志飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chumen Wenwen Information Technology Co Ltd
Original Assignee
Chumen Wenwen Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chumen Wenwen Information Technology Co Ltd filed Critical Chumen Wenwen Information Technology Co Ltd
Priority to CN201910934236.5A priority Critical patent/CN110674286A/zh
Publication of CN110674286A publication Critical patent/CN110674286A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本摘要抽取方法、装置及计算机存储设备,首先获取待抽取文本;接着对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;之后确定所述若干个短句中每一个短句对应的多维短句特征;进一步地,利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;最后根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。

Description

一种文本摘要抽取方法、装置及存储设备
技术领域
本发明涉及文本处理技术领域,尤其涉及一种文本摘要抽取方法、装置及计算机存储设备。
背景技术
获取文本摘要属于一种应用广泛的文本技术。在实际应用中,获取文本摘要的技术方案大体可以分为抽取式方法和生成式方法两种。目前,抽取式方法应用较为广泛,而生成式方法由于不成熟故应用较少。即使是应用较为广泛的抽取式方法,目前也会受到应用文本类型的限制,并没有一套相对通用的策略。
发明内容
本发明实施例为了有效克服现有获取文本摘要的技术方案中所存在的上述缺陷,创造性地提供一种文本摘要抽取方法、装置及计算机存储设备。
根据本发明实施例第一方面,提供一种文本摘要抽取方法,该方法包括:获取待抽取文本;对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;确定所述若干个短句中每一个短句对应的多维短句特征;利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。
根据本发明一实施方式,对所述待抽取文本进行预处理,包括:根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割,得到多个短句;对所得到的多个短句进行短句预处理,得到用于表征所述待抽取文本的文本信息的若干个短句。
根据本发明一实施方式,所述对所得到的多个短句进行短句预处理包括如下处理操作至少之一:将所述待抽取文本中表示日期的文本内容设位特殊标志位;将所述待抽取文本中的数字设为特殊标志位;将所述待抽取文本中括号内的文本设为特殊标志位;去除所述待抽取文本中的停用词。
根据本发明一实施方式,所述在根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割之前,所述方法还包括:对所述待抽取文本进行文本预处理。
根据本发明一实施方式,所述对所述待抽取文本进行文本预处理包括如下处理操作至少之一:将所述待抽取文本中的繁体中文转换为简体中文;将所述待抽取文本中的全角字符转换为半角字符;将所述待抽取文本中的断句符设为特殊标志位;相应的,根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割包括:根据所述待抽取文本中的特殊标志位对文本预处理后的待抽取文本进行短句切割。
根据本发明一实施方式,所述确定所述若干个短句中每一个短句对应的多维短句特征包括:确定所述若干个短句中每一个短句对应的文本排序特征、位置特征及与首句的相似度特征。
根据本发明一实施方式,确定所述若干个短句中每一个短句对应的文本排序特征,包括:将所述若干个短句中每一个短句表示为对应的频率逆文档频率tfidf向量;利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中各个短句之间的相似度;将所计算得到的所述若干个短句中各个短句之间的相似度合并表示成一个相似度矩阵;利用文本排序text rank算法来根据所表示成的相似度向量计算得到每一个短句对应的文本排序特征。
根据本发明一实施方式,确定所述若干个短句中每一个短句对应的位置特征,包括:确定所述若干个短句中每一个句子对应的分数;将所述每一个句子对应的分数作为对应的位置特征;其中,所述确定所述若干个短句中每一个句子对应的分数,包括:将所述若干个短句中的首句对应分数的分子确定为第一数值;将所述若干个短句中除首句外的其他句子对应分数的分子确定为第二数值,所述第二数值小于第一数值;将所述第一数值与n-1个第一数值的和作为所述若干个短句中每一个短句对应分数的分母,所述n的取值为所述若干个短句的数量。
根据本发明一实施方式,确定所述若干个短句中每一个短句对应的与首句的相似度特征,包括:将所述若干个短句中每一个短句表示为对应的tfidf向量;利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中除首句外的其他短句与首句之间的相似度,并将所确定的相似度作为与首句的相似度特征。
根据本发明一实施方式,所述利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句,包括:计算每一个短句所对应的多维短句特征的加权和;利用所计算的加权和对应分数由高到低的方式从所述若干个短句中筛选出特定数量的目标短句。
根据本发明第二方面,还提供一种文本摘要抽取装置,所述装置包括:获取模块,用于获取待抽取文本;预处理模块,用于对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;确定模块,用于确定所述若干个短句中每一个短句对应的多维短句特征;筛选模块,用于利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;拼接处理模块,用于根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。
根据本发明一实施方式,所述预处理模块包括:短句切割单元,用于根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割,得到多个短句;短句预处理单元,用于对所得到的多个短句进行短句预处理,得到用于表征所述待抽取文本的文本信息的若干个短句。
根据本发明一实施方式,所述短句预处理单元对所得到的多个短句进行短句预处理包括如下处理操作至少之一:将所述待抽取文本中表示日期的文本内容设位特殊标志位;将所述待抽取文本中的数字设为特殊标志位;将所述待抽取文本中括号内的文本设为特殊标志位;去除所述待抽取文本中的停用词。
根据本发明一实施方式,所述预处理模块还包括文本预处理单元,用于在所述短句切割单元根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割之前,对所述待抽取文本进行文本预处理。
根据本发明一实施方式,所述文本预处理单元对所述待抽取文本进行文本预处理包括如下处理操作至少之一:将所述待抽取文本中的繁体中文转换为简体中文;将所述待抽取文本中的全角字符转换为半角字符;将所述待抽取文本中的断句符设为特殊标志位;相应的,根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割包括:根据所述待抽取文本中的特殊标志位对文本预处理后的待抽取文本进行短句切割。
根据本发明一实施方式,所述确定模块具体用于,确定所述若干个短句中每一个短句对应的文本排序特征、位置特征及与首句的相似度特征。
根据本发明一实施方式,所述确定模块具体用于,将所述若干个短句中每一个短句表示为对应的tfidf向量;利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中各个短句之间的相似度;将所计算得到的所述若干个短句中各个短句之间的相似度合并表示成一个相似度矩阵;利用text rank算法来根据所表示成的相似度向量计算得到每一个短句对应的文本排序特征。
根据本发明一实施方式,所述确定模块具体用于,确定所述若干个短句中每一个句子对应的分数;将所述每一个句子对应的分数作为对应的位置特征;其中,所述确定所述若干个短句中每一个句子对应的分数,包括:将所述若干个短句中的首句对应分数的分子确定为第一数值;将所述若干个短句中除首句外的其他句子对应分数的分子确定为第二数值,所述第二数值小于第一数值;将所述第一数值与n-1个第一数值的和作为所述若干个短句中每一个短句对应分数的分母,所述n的取值为所述若干个短句的数量。
根据本发明一实施方式,所述确定模块具体用于,将所述若干个短句中每一个短句表示为对应的tfidf向量;利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中除首句外的其他短句与首句之间的相似度,并将所确定的相似度作为与首句的相似度特征。
根据本发明一实施方式,所述筛选模块具体用于,计算每一个短句所对应的多维短句特征的加权和;利用所计算的加权和对应分数由高到低的方式从所述若干个短句中筛选出特定数量的目标短句。
根据本发明第三方面,又提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行上述任一项所述文本摘要抽取方法。
本发明实施例所公开的文本摘要抽取方法、装置及计算机存储设备,首先获取待抽取文本;接着对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;之后确定所述若干个短句中每一个短句对应的多维短句特征;进一步地,利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;最后根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。如此,本发明通过将多维短句特征进行了有效的融合,设计了一种快速有效的抽取式文本摘要方法。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本发明实施例文本摘要抽取方法的实现流程示意图;
图2示出了本发明一应用示例文本摘要抽取方法的实现流程示意图;
图3示出了本发明实施例文本摘要抽取装置的组成结构示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
图1示出了本发明实施例文本摘要抽取方法的实现流程示意图。参考图1,本发明实施例提供一种文本摘要抽取方法,该方法包括:操作101,获取待抽取文本;操作102,对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;操作103,确定所述若干个短句中每一个短句对应的多维短句特征;操作104,利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;操作105,根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。
在操作102,对所述待抽取文本进行预处理,包括:根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割,得到多个短句;对所得到的多个短句进行短句预处理,得到用于表征所述待抽取文本的文本信息的若干个短句。
其中,所述对所得到的多个短句进行短句预处理包括如下处理操作至少之一:将所述待抽取文本中表示日期的文本内容设位特殊标志位;将所述待抽取文本中的数字设为特殊标志位;将所述待抽取文本中括号内的文本设为特殊标志位;去除所述待抽取文本中的停用词。
参考图2,在操作102根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割之前,所述方法还包括:对所述待抽取文本进行文本预处理。
其中,所述对所述待抽取文本进行文本预处理包括如下处理操作至少之一:将所述待抽取文本中的繁体中文转换为简体中文;将所述待抽取文本中的全角字符转换为半角字符;将所述待抽取文本中的断句符设为特殊标志位;相应的,根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割包括:根据所述待抽取文本中的特殊标志位对文本预处理后的待抽取文本进行短句切割。
在操作103,参考图2,确定所述若干个短句中每一个短句对应的多维短句特征具体包括:确定所述若干个短句中每一个短句对应的文本排序特征、位置特征及与首句的相似度特征。
其中,确定所述若干个短句中每一个短句对应的文本排序特征,包括:将所述若干个短句中每一个短句表示为对应的频率逆文档频率tfidf向量;利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中各个短句之间的相似度;将所计算得到的所述若干个短句中各个短句之间的相似度合并表示成一个相似度矩阵;利用文本排序text rank算法来根据所表示成的相似度向量计算得到每一个短句对应的文本排序特征。
这里,确定所述若干个短句中每一个短句对应的位置特征,包括:确定所述若干个短句中每一个句子对应的分数;将所述每一个句子对应的分数作为对应的位置特征;其中,所述确定所述若干个短句中每一个句子对应的分数,包括:将所述若干个短句中的首句对应分数的分子确定为第一数值;将所述若干个短句中除首句外的其他句子对应分数的分子确定为第二数值,所述第二数值小于第一数值;将所述第一数值与n-1个第一数值的和作为所述若干个短句中每一个短句对应分数的分母,所述n的取值为所述若干个短句的数量。
举例来说,将首句对应分数的分子确定为2,其他句子对应的分数的分子确定为1,然后计算出分母N=2+1*(n-1),n是若干个短句的数量,这样首句的分数为2/N,其他句子的分数均为1/N。
这里,确定所述若干个短句中每一个短句对应的与首句的相似度特征,包括:将所述若干个短句中每一个短句表示为对应的tfidf向量;利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中除首句外的其他短句与首句之间的相似度,并将所确定的相似度作为与首句的相似度特征。
在操作104,利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句具体为:计算每一个短句所对应的多维短句特征的加权和;利用所计算的加权和对应分数由高到低的方式从所述若干个短句中筛选出特定数量的目标短句。其中,特定数量记为M,其取值可以根据文本摘要的长度自行设置。
本发明实施例所公开的文本摘要抽取方法,首先获取待抽取文本;接着对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;之后确定所述若干个短句中每一个短句对应的多维短句特征;进一步地,利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;最后根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。如此,本发明通过将多维短句特征进行了有效的融合,设计了一种快速有效的抽取式文本摘要方法。
同样,基于如上文所述文本摘要抽取方法,本发明实施例又提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器至少执行如下所述的操作步骤:操作101,获取待抽取文本;操作102,对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;操作103,确定所述若干个短句中每一个短句对应的多维短句特征;操作104,利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;操作105,根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。
进一步地,基于上文所述文本摘要抽取方法,本发明实施例还提供一种文本摘要抽取装置30,所述装置30包括:获取模块301,用于获取待抽取文本;预处理模块302,用于对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;确定模块303,用于确定所述若干个短句中每一个短句对应的多维短句特征;筛选模块304,用于利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;拼接处理模块305,用于根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。
根据本发明一实施方式,预处理模块302包括:短句切割单元,用于根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割,得到多个短句;短句预处理单元,用于对所得到的多个短句进行短句预处理,得到用于表征所述待抽取文本的文本信息的若干个短句。
根据本发明一实施方式,短句预处理单元对所得到的多个短句进行短句预处理包括如下处理操作至少之一:将所述待抽取文本中表示日期的文本内容设位特殊标志位;将所述待抽取文本中的数字设为特殊标志位;将所述待抽取文本中括号内的文本设为特殊标志位;去除所述待抽取文本中的停用词。
根据本发明一实施方式,预处理模块302还包括文本预处理单元,用于在所述短句切割单元根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割之前,对所述待抽取文本进行文本预处理。
根据本发明一实施方式,文本预处理单元对所述待抽取文本进行文本预处理包括如下处理操作至少之一:将所述待抽取文本中的繁体中文转换为简体中文;将所述待抽取文本中的全角字符转换为半角字符;将所述待抽取文本中的断句符设为特殊标志位;相应的,根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割包括:根据所述待抽取文本中的特殊标志位对文本预处理后的待抽取文本进行短句切割。
根据本发明一实施方式,确定模块303具体用于,确定所述若干个短句中每一个短句对应的文本排序特征、位置特征及与首句的相似度特征。
根据本发明一实施方式,确定模块303具体用于,将所述若干个短句中每一个短句表示为对应的tfidf向量;利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中各个短句之间的相似度;将所计算得到的所述若干个短句中各个短句之间的相似度合并表示成一个相似度矩阵;利用text rank算法来根据所表示成的相似度向量计算得到每一个短句对应的文本排序特征。
根据本发明一实施方式,确定模块303具体用于,确定所述若干个短句中每一个句子对应的分数;将所述每一个句子对应的分数作为对应的位置特征;其中,所述确定所述若干个短句中每一个句子对应的分数,包括:将所述若干个短句中的首句对应分数的分子确定为第一数值;将所述若干个短句中除首句外的其他句子对应分数的分子确定为第二数值,所述第二数值小于第一数值;将所述第一数值与n-1个第一数值的和作为所述若干个短句中每一个短句对应分数的分母,所述n的取值为所述若干个短句的数量。
根据本发明一实施方式,确定模块303具体用于,将所述若干个短句中每一个短句表示为对应的tfidf向量;利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中除首句外的其他短句与首句之间的相似度,并将所确定的相似度作为与首句的相似度特征。
根据本发明一实施方式,筛选模块304具体用于,计算每一个短句所对应的多维短句特征的加权和;利用所计算的加权和对应分数由高到低的方式从所述若干个短句中筛选出特定数量的目标短句。
这里需要指出的是:以上对文本摘要抽取装置实施例的描述,与前述图1和2所示的方法实施例的描述是类似的,具有同前述图1和2所示的方法实施例相似的有益效果,因此不做赘述。对于本发明对文本摘要抽取装置实施例中未披露的技术细节,请参照本发明前述图1和2所示的方法实施例的描述而理解,为节约篇幅,因此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以利用硬件的形式实现,也可以利用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文本摘要抽取方法,其特征在于,所述方法包括:
获取待抽取文本;
对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;
确定所述若干个短句中每一个短句对应的多维短句特征;
利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;
根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。
2.根据权利要求1所述的方法,其特征在于,对所述待抽取文本进行预处理,包括:
根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割,得到多个短句;
对所得到的多个短句进行短句预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;
其中,所述对所得到的多个短句进行短句预处理包括如下处理操作至少之一:
将所述待抽取文本中表示日期的文本内容设位特殊标志位;
将所述待抽取文本中的数字设为特殊标志位;
将所述待抽取文本中括号内的文本设为特殊标志位;
去除所述待抽取文本中的停用词。
3.根据权利要求2所述的方法,其特征在于,所述在根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割之前,所述方法还包括:对所述待抽取文本进行文本预处理;
其中,所述对所述待抽取文本进行文本预处理包括如下处理操作至少之一:
将所述待抽取文本中的繁体中文转换为简体中文;
将所述待抽取文本中的全角字符转换为半角字符;
将所述待抽取文本中的断句符设为特殊标志位;
相应的,根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割包括:根据所述待抽取文本中的特殊标志位对文本预处理后的待抽取文本进行短句切割。
4.根据权利要求1所述的方法,其特征在于,所述确定所述若干个短句中每一个短句对应的多维短句特征包括:确定所述若干个短句中每一个短句对应的文本排序特征、位置特征及与首句的相似度特征。
5.根据权利要求4所述的方法,其特征在于,确定所述若干个短句中每一个短句对应的文本排序特征,包括:
将所述若干个短句中每一个短句表示为对应的频率逆文档频率tfidf向量;
利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中各个短句之间的相似度;
将所计算得到的所述若干个短句中各个短句之间的相似度合并表示成一个相似度矩阵;
利用文本排序text rank算法来根据所表示成的相似度向量计算得到每一个短句对应的文本排序特征。
6.根据权利要求4所述的方法,其特征在于,确定所述若干个短句中每一个短句对应的位置特征,包括:
确定所述若干个短句中每一个句子对应的分数;
将所述每一个句子对应的分数作为对应的位置特征;
其中,所述确定所述若干个短句中每一个句子对应的分数,包括:将所述若干个短句中的首句对应分数的分子确定为第一数值;将所述若干个短句中除首句外的其他句子对应分数的分子确定为第二数值,所述第二数值小于第一数值;将所述第一数值与n-1个第一数值的和作为所述若干个短句中每一个短句对应分数的分母,所述n的取值为所述若干个短句的数量。
7.根据权利要求4所述的方法,其特征在于,确定所述若干个短句中每一个短句对应的与首句的相似度特征,包括:
将所述若干个短句中每一个短句表示为对应的tfidf向量;
利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中除首句外的其他短句与首句之间的相似度,并将所确定的相似度作为与首句的相似度特征。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句,包括:
计算每一个短句所对应的多维短句特征的加权和;
利用所计算的加权和对应分数由高到低的方式从所述若干个短句中筛选出特定数量的目标短句。
9.一种文本摘要抽取装置,其特征在于,所述装置包括:
获取模块,用于获取待抽取文本;
预处理模块,用于对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;
确定模块,用于确定所述若干个短句中每一个短句对应的多维短句特征;
筛选模块,用于利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;
拼接处理模块,用于根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1至8任一项所述文本摘要抽取方法。
CN201910934236.5A 2019-09-29 2019-09-29 一种文本摘要抽取方法、装置及存储设备 Pending CN110674286A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910934236.5A CN110674286A (zh) 2019-09-29 2019-09-29 一种文本摘要抽取方法、装置及存储设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910934236.5A CN110674286A (zh) 2019-09-29 2019-09-29 一种文本摘要抽取方法、装置及存储设备

Publications (1)

Publication Number Publication Date
CN110674286A true CN110674286A (zh) 2020-01-10

Family

ID=69080070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910934236.5A Pending CN110674286A (zh) 2019-09-29 2019-09-29 一种文本摘要抽取方法、装置及存储设备

Country Status (1)

Country Link
CN (1) CN110674286A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581358A (zh) * 2020-04-08 2020-08-25 北京百度网讯科技有限公司 信息抽取方法、装置及电子设备
CN114218923A (zh) * 2021-12-20 2022-03-22 北京中科闻歌科技股份有限公司 文本摘要抽取方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
CN108681574A (zh) * 2018-05-07 2018-10-19 中国科学院合肥物质科学研究院 一种基于文本摘要的非事实类问答答案选择方法及系统
CN109766434A (zh) * 2018-12-29 2019-05-17 北京百度网讯科技有限公司 摘要生成方法及装置
CN109960724A (zh) * 2019-03-13 2019-07-02 北京工业大学 一种基于tf-idf的文本摘要方法
KR20190107832A (ko) * 2018-03-13 2019-09-23 국민대학교산학협력단 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
KR20190107832A (ko) * 2018-03-13 2019-09-23 국민대학교산학협력단 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체
CN108681574A (zh) * 2018-05-07 2018-10-19 中国科学院合肥物质科学研究院 一种基于文本摘要的非事实类问答答案选择方法及系统
CN109766434A (zh) * 2018-12-29 2019-05-17 北京百度网讯科技有限公司 摘要生成方法及装置
CN109960724A (zh) * 2019-03-13 2019-07-02 北京工业大学 一种基于tf-idf的文本摘要方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李涛 等: "《数据挖掘的应用与实践 大数据时代的案例分析》", 31 October 2013 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581358A (zh) * 2020-04-08 2020-08-25 北京百度网讯科技有限公司 信息抽取方法、装置及电子设备
CN111581358B (zh) * 2020-04-08 2023-08-18 北京百度网讯科技有限公司 信息抽取方法、装置及电子设备
CN114218923A (zh) * 2021-12-20 2022-03-22 北京中科闻歌科技股份有限公司 文本摘要抽取方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108460014B (zh) 企业实体的识别方法、装置、计算机设备及存储介质
CN108009293B (zh) 视频标签生成方法、装置、计算机设备和存储介质
TWI536181B (zh) 在多語文本中的語言識別
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
US8290925B1 (en) Locating product references in content pages
CN110704608A (zh) 文本主题生成方法、装置和计算机设备
CN109656385B (zh) 基于知识图谱的输入预测方法、装置和电子设备
JPWO2019224891A1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
CN108536676B (zh) 数据处理方法、装置、电子设备及存储介质
CN110674286A (zh) 一种文本摘要抽取方法、装置及存储设备
JP4957796B2 (ja) 差分算出プログラム、差分算出装置および差分算出方法
CN113240322B (zh) 气候风险披露质量方法、装置、电子设备及存储介质
CN108874870A (zh) 一种数据抽取方法、设备及计算机可存储介质
CN109670183B (zh) 一种文本重要性的计算方法、装置、设备和存储介质
CN109614494B (zh) 一种文本分类方法及相关装置
CN109508390B (zh) 基于知识图谱的输入预测方法、装置和电子设备
CN111191011A (zh) 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN108170838B (zh) 话题演变的可视化展现方法、应用服务器及计算机可读存储介质
CN111046173A (zh) 通过机器学习及上下文词性发现重要名词标签的方法
CN112732901B (zh) 摘要生成方法、装置、计算机可读存储介质及电子设备
CN107590163B (zh) 文本特征选择的方法、装置和系统
JP2009265770A (ja) 重要文提示システム
CN110826488B (zh) 一种针对电子文档的图像识别方法、装置及存储设备
CN109947947B (zh) 一种文本分类方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200110

RJ01 Rejection of invention patent application after publication