CN110609997B - 生成文本的摘要的方法和装置 - Google Patents

生成文本的摘要的方法和装置 Download PDF

Info

Publication number
CN110609997B
CN110609997B CN201810623713.1A CN201810623713A CN110609997B CN 110609997 B CN110609997 B CN 110609997B CN 201810623713 A CN201810623713 A CN 201810623713A CN 110609997 B CN110609997 B CN 110609997B
Authority
CN
China
Prior art keywords
sentence
sentences
text
probability
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810623713.1A
Other languages
English (en)
Other versions
CN110609997A (zh
Inventor
李法远
陈思姣
罗雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810623713.1A priority Critical patent/CN110609997B/zh
Publication of CN110609997A publication Critical patent/CN110609997A/zh
Application granted granted Critical
Publication of CN110609997B publication Critical patent/CN110609997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供一种的生成文本的摘要的方法和装置,该方法包括:对于文本包括的M个句子中的每个句子,根据句子的N个特征和该句子得到句子的特征标签,并根据该句子的特征标签,获取该句子属于该文本的摘要的概率;根据每个句子属于该文本的摘要的概率,获取M个句子中每两个句子的关联度,并根据M个句子中每两个句子的关联度,获取每个句子的得分;生成文本的摘要,该文本的摘要包括M个句子中得分位于前L的L个句子。本申请中即考虑了待生成摘要的文本的全局信息,又考虑了文本语料库的全局历史信息,提高了生成的摘要的准确度。

Description

生成文本的摘要的方法和装置
技术领域
本申请实施例涉及计算机技术,尤其涉及一种生成文本的摘要的方法和装置。
背景技术
当前信息严重过载,每天都有海量新闻或文章生成,为了用户从海量新闻或文章中简单快捷地获取信息知识,文本的摘要生成具有重大的意义。
现有技术中常用的生成文本的摘要的方法包括基于图的排序算法获取摘要和基于机器学习算法获取摘要。但是上述两种算法获取摘要时,生成的摘要准确度并不高。
如何提高生成的摘要准确度是当前亟待解决的问题。
发明内容
本申请实施例提供一种生成文本的摘要的方法和装置,以克服现有技术中生成的摘要的准确度不高的技术问题。
第一方面,本申请实施例提供一种生成文本的摘要的方法,包括:
对于文本包括的M个句子中的每个句子,根据句子的N个特征和所述句子得到所述句子的特征标签,并根据所述句子的特征标签,获取所述句子属于所述文本的摘要的概率,M和N为正整数;
根据每个句子属于所述文本的摘要的概率,获取所述M个句子中每两个句子的关联度,并根据所述M个句子中每两个句子的关联度,获取每个句子的得分,所述得分表示句子在所述文本中的重要程度;
生成所述文本的摘要,所述摘要包括所述M个句子中得分位于前L的L个句子,L为正整数,L≤M。
在一种可能的设计中,所述根据所述句子的特征标签,获取所述句子属于所述文本的摘要的概率,包括:
对于每个句子,根据所述句子的特征标签和机器学习模型,采用机器学习算法,得到所述句子属于所述文本的摘要的概率;
其中,所述机器学习模型为采用所述机器学习算法,基于多个训练样本得到的,每个训练样本包括其它文本的一个句子的特征标签。
在一种可能的设计中,所述机器学习算法为朴素贝叶斯算法,所述机器学习模型为朴素贝叶斯模型;或者,
所述机器学习算法为神经网络算法,所述机器学习模型为神经网络模型。
在一种可能的设计中,在所述根据每个句子属于文本的摘要的概率,获取所述M个句子中每两个句子的关联度之前,还包括:
对于所述M个句子中的每个句子,获取所述句子包括的至少一个词语,所述至少一个词语中不包括停用词;
所述根据每个句子属于文本的摘要的概率,获取所述M个句子中每两个句子的关联度,包括:
对于M个句子中的每两个句子,根据两个句子各自包括的词语的总数,第一词频,第二词频,第一概率以及第二概率获取两个句子间的关联度;
其中,所述两个句子包括第一句子和第二句子,所述第一词频为第一词语相对于第一句子的词频,所述第二词频为第一词语相对于第二句子的词频,所述第一概率为所述第一句子属于所述文本的摘要的概率,所述第二概率为所述第二句子属于所述文本的摘要的概率,所述第一词语为同时存在于所述两个句子中的词语。
在一种可能的设计中,在所述根据每个句子属于文本的摘要的概率,获取所述M个句子中每两个句子的关联度之前,还包括:
获取M个句子中每个句子的句子向量;
所述根据每个句子属于文本的摘要的概率,获取所述M个句子中每两个句子的关联度,包括:
对于M个句子中的每两个句子,根据所述两个句子各自的句子向量,第一概率以及第二概率获取所述两个句子间的关联度;
其中,所述两个句子包括第一句子和第二句子,所述第一概率为所述第一句子属于所述文本的摘要的概率,所述第二概率为所述第二句子属于所述文本的摘要的概率。
在一种可能的设计中,所述根据所述M个句子中每两个句子的关联度,获取每个句子的得分,包括:
根据所述M个句子中每两个句子的关联度,采用基于图模型的排序算法,获取每个句子的得分。
在一种可能的设计中,所述根据两个句子各自包括的词语的总数,第一词频,第二词频,第一概率以及第二概率获取两个句子间的关联度,包括:
通过如下公式获取两个句子间的关联度:
Figure GDA0001789514830000031
其中,wij为句子i和句子j的关联度,H为第一词语的个数,第一词语为句子i和句子j中相同的词语,fhi为第一词语h相对于句子i的词频,fhj为第一词语h相对于句子j的词频,|si|为句子i中包括的词语的个数,|sj|为句子j中包括的词语的个数;Gi为句子i属于所述文本的摘要的概率,Gj为句子j属于所述文本中的摘要的概率;h=1,……H,H为整数。
在一种可能的设计中,对于M个句子中的每两个句子,根据所述两个句子各自的句子向量,第一概率以及第二概率获取所述两个句子间的关联度,包括:
Figure GDA0001789514830000032
其中,wij为句子i和句子j的关联度,Gi为句子i属于所述文本的摘要的概率,Gj为句子j属于所述文本中的摘要的概率,Ai为句子i的句子向量,Aj为句子j的句子向量,||Ai||句子i的句子向量的模,||Aj||句子j的句子向量的模。
在一种可能的设计中,所述根据所述M个句子中每两个句子的关联度,采用基于图模型的排序算法,获取每个句子的得分,包括:
通过如下公式获取句子的得分:
Figure GDA0001789514830000041
其中,WS(Vi)表示句子i的得分,d是阻尼系数,WS(Vj)表示上次迭代过程得到的句子j的得分,wij为句子i和句子j的关联度,
Figure GDA0001789514830000042
为与句子j相似的k个句子与句子j的关联度之和,句子j为所述M个句子中除了句子i的句子。
在一种可能的设计中,在所述对于文本包括的M个句子中的每个句子,根据句子的N个特征和句子得到句子的特征标签之前,还包括:
判断所述文本包括的单词数是否小于预设阈值;
若是,则获取所述文本包括的所有句子;
去除所述文本包括的所有句子中的无效句子,得到所述文本包括的M个句子;所述无效句子为包括网页链接的句子、包括广告的句子、包括网页代码的句子中的至少一项;
若所述文本包括的单词数大于或等于预设阈值,则对所述文本进行裁剪,得到裁剪后的文本;
获取所述裁剪后的文本包括的所有句子;
去除裁剪后的文本包括的所有句子中的无效句子,得到所述文本包括的M个句子;所述无效句子为包括网页链接的句子、包括广告的句子、包括网页代码的句子中的至少一项。
在一种可能的设计中,所述裁剪后的文本包括所述文本的第一段,最后一段,其余各段的第一句和最后一句。
第二方面,本申请实施例提供一种生成文本的摘要的装置,包括:
第一获取模块,用于对于文本包括的M个句子中的每个句子,根据句子的N个特征和所述句子得到所述句子的特征标签,并根据所述句子的特征标签,获取所述句子属于所述文本的摘要的概率,M和N为正整数;
第二获取模块,用于根据每个句子属于所述文本的摘要的概率,获取所述M个句子中每两个句子的关联度,并根据所述M个句子中每两个句子的关联度,获取每个句子的得分,所述得分表示句子在所述文本中的重要程度;
生成模块,用于生成所述文本的摘要,所述摘要包括所述M个句子中得分位于前L的L个句子,L为正整数,L≤M。
在一种可能的设计中,所述第一获取模块,具体用于:
对于每个句子,根据所述句子的特征标签和机器学习模型,采用机器学习算法,得到所述句子属于所述文本的摘要的概率;
其中,所述机器学习模型为采用所述机器学习算法,基于多个训练样本得到的,每个训练样本包括其它文本的一个句子的特征标签。
在一种可能的设计中,所述第二获取模块,还用于对于所述M个句子中的每个句子,获取所述句子包括的至少一个词语,所述至少一个词语中不包括停用词;
所述第二获取模块,具体用于:
对于M个句子中的每两个句子,根据两个句子各自包括的词语的总数,第一词频,第二词频,第一概率以及第二概率获取两个句子间的关联度;
其中,所述两个句子包括第一句子和第二句子,所述第一词频为第一词语相对于第一句子的词频,所述第二词频为第一词语相对于第二句子的词频,所述第一概率为所述第一句子属于所述文本的摘要的概率,所述第二概率为所述第二句子属于所述文本的摘要的概率,所述第一词语为同时存在于所述两个句子中的词语。
在一种可能的设计中,所述第二获取模块,具体用于:
所述第二获取模块,还用于:获取M个句子中每个句子的句子向量;
所述第二获取模块,具体用于:
对于M个句子中的每两个句子,根据所述两个句子各自的句子向量,第一概率以及第二概率获取所述两个句子间的关联度;
其中,所述两个句子包括第一句子和第二句子,所述第一概率为所述第一句子属于所述文本的摘要的概率,所述第二概率为所述第二句子属于所述文本的摘要的概率。
第三方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,在所述计算机程序被处理器执行时,执行第一方面以及第一方面任一可能的设计中所述的方法。
第四方面,本申请实施例提供一种生成文本的摘要的装置,包括处理器和存储器,其中,
存储器,用于存储程序;
处理器,用于执行所述存储器存储的所述程序,当所述程序被执行时,所述处理器用于执行第一方面以及第一方面任一可能的设计中所述的方法。
本申请中在获取M个句子中每两个句子的关联度时,引入了两个句子属于摘要的概率;由于句子属于摘要的概率是基于机器学习算法得到的,机器学习算法需要基于语料库获取大量训练样本训练得到机器学习模型,也就是说获取句子属于摘要的概率考虑了文本语料库的全局历史信息,因此将两个句子属于摘要的概率引入到两个句子的关联度计算时,即考虑了待生成摘要的文本的全局信息,又考虑了文本语料库的全局历史信息,提高了生成的摘要的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的生成文本的摘要的方法的流程图;
图2为本申请实施例提供的生成文本的摘要的装置的结构示意图一;
图3为本申请实施例提供的生成文本的摘要的装置的结构示意图二;
图4为本申请实施例提供的生成文本的摘要的装置的结构示意图三。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的生成文本的摘要的方法的流程图,如图1所示,本实施例的方法可以包括:
步骤S101、对于文本包括的M个句子中的每个句子,根据句子的N个特征和该句子得到该句子的特征标签,并根据该句子的特征标签,获取该句子属于该文本的摘要的概率,M和N为正整数;
步骤S102、根据每个句子属于该文本的摘要的概率,获取M个句子中每两个句子的关联度,并根据M个句子中每两个句子的关联度,获取每个句子的得分,每个句子的得分表示每个句子在该文本中的重要程度;
步骤S103、生成该文本的摘要,该文本的摘要包括M个句子中得分位于前L的L个句子,L为正整数,L≤M。
具体地,对于步骤S101、对于待生成摘要的文本,需要先获取该文本包括的M个句子;
其中,获取文本包括的M个句子的方法如下:
a1、判断文本包括的单词数是否小于预设阈值;
若该文本包括的单词数小于预设阈值,则执行a2~a3:
a2、获取文本包括的所有句子;
a3、去除文本包括的所有句子中的无效句子,得到文本包括的M个句子;无效句子为包括网页链接的句子、包括广告的句子、包括网页代码的句子中的至少一项;
若该文本包括的单词数大于或等于预设阈值,则执行a4~a5:
a4、对该文本进行裁剪,得到裁剪后的文本;
a5、获取裁剪后的文本包括的所有句子;
a6、去除裁剪后的文本包括的所有句子中的无效句子,得到文本包括的M个句子;无效句子为包括网页链接的句子、包括广告的句子、包括网页代码的句子中的至少一项;
具体地,若待生成摘要的文本的语言为汉语,则本实施例中的单词指的是汉字,一个汉字为一个单词;若待生成摘要的文本的英语等字母类语言,则本实施例中的单词即为常规意义的单词,比如a为一个单词,fire为一个单词。
对于a1、获取待生成摘要的文本包括的单词数后,判断待生成摘要的文本包括的单词数是否小于预设阈值;其中,预设阈值可为3万~4万中的任意值。
对于a2和a3、若待生成摘要的文本包括的单词数小于预设阈值,则获取待生成摘要的文本包括的所有句子;其中,获取文本包括的所有句子的方法可采用现有技术中的方法,比如,使用通用句子结束符(如“。”、“!”,“?”等)分割,本实施例中不再赘述。
去除待生成摘要的文本包括的所有句子中的无效句子,得到待生成摘要的文本包括的M个句子。无效句子为包括网页链接的句子、包括广告的句子、包括网页代码的句子中的至少一项。比如通过正则表达式过滤掉为网页链接的句子,通过关键词过滤掉明显具有广告嫌疑的句子,清洗待生成摘要的文本中存在的为网页代码的句子。
对于a4~a6、若待生成摘要的文本包括的单词数大于或等于预设阈值,则对待生成摘要的文本进行裁剪,得到裁剪后的文本;
其中,裁剪后的文本可包括待生成摘要的文本的第一段,最后一段,其余各段的第一句和最后一句。
接着,获取裁剪后的文本包括的所有句子;其中,获取方法可同a2。
去除裁剪后的文本包括的所有句子中的无效句子,得到文本包括的M个句子;去除无效句子的方法可同a3。
进一步地,在得到M个句子后,对于M个句子中的每个句子,将句子切成词粒度,去掉停用词,得到每个句子包括的至少一个词语。比如句子“我爱北京XXX”包括的词语为“我”、“爱”、“北京”、“XXX”。
其中,停用词为是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词(Stop Words);比如“的”、“了”,“啦”等。
在得到待生成摘要的文本的M个句子后,对于M个句子中的每个句子,根据句子的N个特征和该句子得到句子的特征标签,得到每个句子的特征标签的过程如下:
对于每个句子:
获取句子的N个特征,其中N个特征可包括如下中的任一项:
(1)句子中所有词语(unigram)的词频-逆句子频率(terM frequency–inverseSentence frequency,简称TF-ISF)的平均值;其中,词语的逆句子频率=句子所在的文本包括的句子的总数量与该文本中包括相应词语的句子的数量的比值;
(2)句子中所有双词语(bigram)的词频-逆句子频率(terM frequency–inverseSentence frequency,简称TF-ISF)的平均值;其中,双词语为句子包括的相邻的两个词语的组合。
(3)句子长度:句子对应的字符长度,也就是表示句子的字符串的长度;
(4)句子位置:比如句子为文本的第几句;
(5)句子与其所在的文本的标题的关联度(获取方法可采用现有技术中获取句子间之间的关联度的计算方法);
(6)句子与其所在的文本的所有关键词组成的句子的关联度(提取文本关键词的方法可为现有技术中的方法);
(7)句子与其所在的文本的其它句子的关联度之和;
(8)句子与文本中心的关联度。
将N个特征经过离散化处理后,转变成字符串表示,再与表示句子的字符串串联,得到句子的特征标签。
经过上述方法,可得到M个句子的M个特征标签,每个句子对应一个特征标签。
在得到每个句子的特征标签后,根据每个句子的特征标签,获取每个句子属于待生成文本的摘要中的句子的概率,具体为:
对于每个句子,根据句子的特征标签和机器学习模型,采用机器学习算法,得到句子为文本的摘要中的句子的概率;其中,机器学习模型为采用机器学习算法,基于多个训练样本得到的,每个训练样本包括其它文本的一个句子的特征标签。
具体地,对于每个句子,将句子特征标签归一化后,得到句子的特征向量,将句子的特征向量作为机器学习模型的输入,采用机器学习算法,得到句子属于待生成摘要的文本的摘要的概率。
可以理解是,步骤S101中得到的句子属于文本的摘要的概率,并不是最终的句子属于文本的摘要的概率,是采用机器学习算法预测的句子属于文本的摘要的概率。
可选地,机器学习算法可为朴素贝叶斯算法,机器学习模型为朴素贝叶斯模型;则对于每个句子,根据句子的特征标签和朴素贝叶斯模型,采用朴素贝叶斯算法,得到句子属于待生成摘要的文本的摘要的概率。朴素贝叶斯算法是现有技术中成熟的算法,本实施例中不再赘述。
可选地,机器学习算法为神经网络算法,机器学习模型为神经网络模型;则对于每个句子,根据句子的特征标签和神经网络模型,采用神经网络算法,得到句子属于待生成摘要的文本的摘要的概率。
下面对朴素贝叶斯模型获取的方法进行说明。
b1、获取多个训练样本,每个训练样本包括其它文本的一个句子的特征标签。
b2、对多个训练样本进行训练,得到朴素贝叶斯模型。
具体地,对于b1、可采用如下方式获取训练样本:
抓取娱乐、民生、科技、财经、体育等多个领域的共5w篇新闻以及各自的摘要,使用文本预处理系统对5w篇新闻进行处理,每篇新闻被切分成多个句子(方法可同上述的获取待生成摘要的文本的M个句子的方法)。
对于每篇新闻,获取该篇新闻的每个句子与该篇新闻的摘要的关联度,将与摘要的关联度位于前K的K个句子,作为K个正样本句子,K的取值取决于该篇新闻的摘要长度;从该篇新闻剩余的句子中随机选取K个句子作为K个负样本句子。
可以理解的是,对于不同的新闻来说,K的取值可不相同。
对于每篇新闻,获取每个正样本句子的特征标签,以及每个负样本句子的特征标签,每个句子对应的特征标签为一个训练样本。其中,此处获取句子的特征标签的方法与上述获取待生成摘要的文本包括的M个句子中的每个句子的特征标签的方法相同。
若上述5w篇新闻中的新闻A,具有K1个正样本句子,K1个负样本句子,则根据新闻A,可对应得到2K1个特征标签。则根据5w篇新闻,则可得到大量的训练样本。
对于b2、将b1中得到的训练样本作为输入,采用朴素贝叶斯算法得到朴素贝叶斯模型。其中,具体的训练方法可采用现有技术中的方法,本实施例中不再赘述。
根据b1和b2得到的朴素贝叶斯模型,便可用于上述待生成摘要的文本包括的M个句子中每个句子属于该文本的摘要的概率的获取。
对于步骤S102、在得到待生成摘要的文本包括的M个句子中每个句子属于该文本的摘要的概率后,便可基于M个句子中每个句子属于该文本的摘要中的概率,获取M个句子中每两个句子的关联度。
具体地,在一种可能的实施方式中,根据每个句子属于待生成摘要的文本的摘要的概率,获取M个句子中每两个句子的关联度,包括:
对于M个句子中的每两个句子,根据两个句子各自包括的词语的总数,第一词频,第二词频,第一概率以及第二概率获取两个句子间的关联度;其中,该两个句子包括第一句子和第二句子,第一词频为第一词语相对于第一句子的词频,第二词频为第一词语相对于第二句子的词频,第一概率为该第一句子属于该文本的摘要的概率,第二概率为该第二句子属于该文本的摘要的概率,第一词语为同时存在于该两个句子中的词语。
其中,第一词语为同时存在于两个句子中的词语。
可通过如下公式一得到M个句子中的每两个句子的关联度:
Figure GDA0001789514830000111
其中,H为句子i和句子j中相同的词语的个数,句子i和句子j中相同的词语可称为第一词语,fki为的第一词语h相对于句子i的词频,fkj为第一词语h相对于句子j的词频,|si|为句子i中包括的词语的个数,|sj|为句子j中包括的词语的个数;Gi为步骤S101中得到的句子i属于待生成摘要的文本的摘要的概率,Gj为步骤S101中得到的句子j属于待生成摘要的文本的摘要的概率;h=1,……H,H为整数。
在另一种可能的实施方式中,根据每个句子属于待生成摘要的文本的摘要的概率,获取M个句子中每两个句子的关联度,包括:
对于M个句子中的每两个句子,根据两个句子各自的句子向量,第一概率以及第二概率获取两个句子间的关联度;其中,该两个句子包括第一句子和第二句子,第一概率为第一句子属于该文本的摘要的概率,第二概率为第二句子属于该文本的摘要的概率。
可通过如下公式二得到M个句子中的每两个句子的关联度:
Figure GDA0001789514830000121
其中,wij为句子i和句子j的关联度,Gi为步骤S101中得到的句子i属于所述文本的摘要的概率,Gj为为步骤S101中得到的句子j属于所述文本中的摘要的概率,Ai为句子i的句子向量,Aj为句子j的句子向量,||Ai||句子i的句子向量的模,||Aj||句子j的句子向量的模。
其中,在该种实施方式中,需要获取M个句子中的每个句子的句子向量,句子向量的获取方法可参照现有技术中的方法,本实施例中不再赘述。
在得到M个句子中每两个句子的关联度后,根据M个句子中每两个句子的关联度,获取每个句子的得分,每个句子的得分用于指示每个句子在待生成摘要的文本中的重要程度。
具体地,根据M个句子中每两个句子的关联度,获取每个句子的得分,包括:
根据M个句子中每两个句子的关联度,采用基于图模型的排序算法(TextRank),获取每个句子的得分。
可通过如下公式三获取每个句子的得分:
Figure GDA0001789514830000122
其中,WS(Vi)表示句子i的得分,d是阻尼系数,一般设置为0.85,WS(Vj)表示上次迭代过程得到的句子j的得分,wij为句子i和句子j的关联度,
Figure GDA0001789514830000123
为与句子j相似的k个句子与句子j的关联度之和,句子j为M个句子中除了句子i的句子。
公式二表示一个迭代的过程,使用幂迭代法不断迭代传播各个句子的得分,直到收敛。每个句子的得分用于指示句子的重要性。
可以理解的是,在采用基于图模型的排序算法(TextRank)时,获取每个句子的得分时,句子i和句子j的关联度是指TextRank网络中句子i这一节点和句子j这一节点之间的无向有权边的权值。
对于步骤S103、在得到M个句子的得分后,生成文本的摘要,即摘要包括M个句子中得分位于前L的L个句子。
本实施例中在获取M个句子中每两个句子的关联度时,引入了两个句子属于摘要的概率;由于句子属于摘要的概率是基于机器学习算法得到的,机器学习算法需要基于语料库获取大量训练样本训练得到机器学习模型,也就是说获取句子属于摘要的概率考虑了文本语料库的全局历史信息,因此将两个句子属于摘要的概率引入到两个句子的关联度计算时,即考虑了待生成摘要的文本的全局信息,又考虑了文本语料库的全局历史信息,提高了生成的摘要的准确度。
同时,在获取M个句子中每两个句子的关联度时,引入了两个句子属于摘要的概率,相当于引入先验知识,提高了公式二的收敛速度,即图模型的收敛速度。
本实施例的生成文本的摘要的方法包括:对于文本包括的M个句子中的每个句子,根据句子的N个特征和该句子的特征标签,并根据该句子的特征标签,获取该句子属于该文本的摘要的概率,M和N为正整数;根据每个句子属于该文本的摘要的概率,获取M个句子中每两个句子的关联度,并根据M个句子中每两个句子的关联度,获取每个句子的得分,每个句子的得分表示每个句子在该文本中的重要程度;生成文本的摘要,该文本的摘要包括M个句子中得分位于前L的L个句子,L为正整数,L≤M。本实施例的生成文本的摘要的方法提高了生成的摘要的准确度。
图2为本申请实施例提供的生成文本的摘要的装置的结构示意图一,如图2所示,本实施例的装置可以包括:第一获取模块11、第二获取模块12和生成模块13,其中,第一获取模块11,用于对于文本包括的M个句子中的每个句子,根据句子的N个特征和所述句子得到所述句子的特征标签,并根据所述句子的特征标签,获取所述句子属于所述文本的摘要的概率,M和N为正整数;
第二获取模块12,用于根据每个句子属于所述文本的摘要的概率,获取所述M个句子中每两个句子的关联度,并根据所述M个句子中每两个句子的关联度,获取每个句子的得分,所述得分表示句子在所述文本中的重要程度;
生成模块13,用于生成所述文本的摘要,所述摘要包括所述M个句子中得分位于前L的L个句子,L为正整数,L≤M。
本实施例的装置,可以用于执行上述所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
在一种可能的设计中,所述第一获取模块11,具体用于:
对于每个句子,根据所述句子的特征标签和机器学习模型,采用机器学习算法,得到所述句子属于所述文本的摘要的概率;
其中,所述机器学习模型为采用所述机器学习算法,基于多个训练样本得到的,每个训练样本包括其它文本的一个句子的特征标签。
可选地,所述机器学习算法为朴素贝叶斯算法,所述机器学习模型为朴素贝叶斯模型;或者,
所述机器学习算法为神经网络算法,所述机器学习模型为神经网络模型。
在一种可能的设计中,所述第二获取模块,还用于对于所述M个句子中的每个句子,获取所述句子包括的至少一个词语,所述至少一个词语中不包括停用词;
所述第二获取模块12,具体用于:
对于M个句子中的每两个句子,根据两个句子各自包括的词语的总数,第一词频,第二词频,第一概率以及第二概率获取两个句子间的关联度;其中,所述两个句子包括第一句子和第二句子,所述第一词频为第一词语相对于第一句子的词频,所述第二词频为第一词语相对于第二句子的词频,所述第一概率为所述第一句子属于所述文本的摘要的概率,所述第二概率为所述第二句子属于所述文本的摘要的概率,所述第一词语为同时存在于所述两个句子中的词语。
在一种可能的设计中,所述第二获取模块12,还用于:获取M个句子中每个句子的句子向量;
所述第二获取模块12,具体用于:
对于M个句子中的每两个句子,根据所述两个句子各自的句子向量,第一概率以及第二概率获取所述两个句子间的关联度;
其中,所述两个句子包括第一句子和第二句子,所述第一概率为所述第一句子属于所述文本的摘要的概率,所述第二概率为所述第二句子属于所述文本的摘要的概率。
在一种可能的设计中,所述第二获取模块,具体用于:
根据所述M个句子中每两个句子的关联度,采用基于图模型的排序算法,获取每个句子的得分。
在一种可能的设计中,所述第二获取模块12具体用于,通过如下公式获取两个句子间的关联度:
Figure GDA0001789514830000151
其中,wij为句子i和句子j的关联度,H为第一词语的个数,第一词语为句子i和句子j中相同的词语,fhi为第一词语h相对于句子i的词频,fhj为第一词语h相对于句子j的词频,|si|为句子i中包括的词语的个数,|sj|为句子j中包括的词语的个数;Gi为句子i属于所述文本的摘要的概率,Gj为句子j属于所述文本中的摘要的概率;h=1,……H,H为整数。
在一种可能的设计中,所述第二获取模块12具体用于,通过如下公式获取两个句子间的关联度:
Figure GDA0001789514830000152
其中,wij为句子i和句子j的关联度,Gi为句子i属于所述文本的摘要的概率,Gj为句子j属于所述文本中的摘要的概率,Ai为句子i的句子向量,Aj为句子j的句子向量,||Ai||句子i的句子向量的模,||Aj||句子j的句子向量的模。
在一种可能的设计中,所述第二获取模块12具体用于,通过如下公式获取句子的得分:
Figure GDA0001789514830000153
其中,WS(Vi)表示句子i的得分,d是阻尼系数,WS(Vj)表示上次迭代过程得到的句子j的得分,wij为句子i和句子j的关联度,
Figure GDA0001789514830000161
为与句子j相似的k个句子与句子j的关联度之和,句子j为所述M个句子中除了句子i的句子。
本实施例的装置,可以用于执行上述所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图3本申请实施例提供的生成文本的摘要的装置的结构示意图二,如图3所示,本实施例的装置在图2所示装置结构的基础上,进一步地,还可以包括:判断模块14和裁剪模块15;
判断模块14,用于判断所述文本包括的单词数是否小于预设阈值;
第二获取模块12还用于若所述文本包括的单词数小于预设阈值,则获取所述文本包括的所有句子;去除所述文本包括的所有句子中的无效句子,得到所述文本包括的M个句子;所述无效句子为包括网页链接的句子、包括广告的句子、包括网页代码的句子中的至少一项;
裁剪模块15,用于若所述文本包括的单词数大于或等于预设阈值,则对所述文本进行裁剪,得到裁剪后的文本;
第二获取模块12,还用于获取所述裁剪后的文本包括的所有句子;去除裁剪后的文本包括的所有句子中的无效句子,得到所述文本包括的M个句子;所述无效句子为包括网页链接的句子、包括广告的句子、包括网页代码的句子中的至少一项。
本实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
在一种可能的设计中,所述裁剪后的文本包括所述文本的第一段,最后一段,其余各段的第一句和最后一句。
本实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本申请实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,在所述计算机程序被处理器执行时,执行上述方法实施例中的方法。
图4为本申请实施例提供的生成文本的摘要的装置的结构示意图三,本申请生成文本的摘要的装置,包括处理器21、存储器22和通信总线23,其中,通信总线23用于各元器件之间的连接;
存储器,用于存储程序;
处理器,用于执行所述存储器存储的所述程序,当所述程序被执行时,所述处理器用于执行上述方法实施例中的方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (17)

1.一种生成文本的摘要的方法,其特征在于,包括:
对于文本包括的M个句子中的每个句子,根据句子的N个特征和所述句子得到所述句子的特征标签,并根据所述句子的特征标签,获取所述句子属于所述文本的摘要的概率,M和N为正整数;
根据每个句子属于所述文本的摘要的概率,获取所述M个句子中每两个句子的关联度,并根据所述M个句子中每两个句子的关联度,获取每个句子的得分,所述得分表示句子在所述文本中的重要程度;
生成所述文本的摘要,所述摘要包括所述M个句子中得分位于前L的L个句子,L为正整数,L≤M;
所述根据每个句子属于文本的摘要的概率,获取所述M个句子中每两个句子的关联度,包括:
对于M个句子中的每两个句子,根据所述两个句子各自包括的词语的总数,第一词频,第二词频,第一概率以及第二概率获取所述两个句子间的关联度;其中,所述两个句子包括第一句子和第二句子,所述第一词频为第一词语相对于所述第一句子的词频,所述第二词频为第一词语相对于所述第二句子的词频,所述第一概率为所述第一句子属于所述文本的摘要的概率,所述第二概率为所述第二句子属于所述文本的摘要的概率,所述第一词语为同时存在于所述两个句子中的词语;或者,
对于M个句子中的每两个句子,根据所述两个句子各自的句子向量,第一概率以及第二概率,获取所述两个句子间的关联度;其中,所述两个句子包括第一句子和第二句子,所述第一概率为所述第一句子属于所述文本的摘要的概率,所述第二概率为所述第二句子属于所述文本的摘要的概率。
2.根据权利要求1所述的方法,其特征在于,所述根据所述句子的特征标签,获取所述句子属于所述文本的摘要的概率,包括:
对于每个句子,根据所述句子的特征标签和机器学习模型,采用机器学习算法,得到所述句子属于所述文本的摘要的概率;
其中,所述机器学习模型为采用所述机器学习算法,基于多个训练样本得到的,每个训练样本包括其它文本的一个句子的特征标签。
3.根据权利要求2所述的方法,其特征在于,所述机器学习算法为朴素贝叶斯算法,所述机器学习模型为朴素贝叶斯模型;或者,
所述机器学习算法为神经网络算法,所述机器学习模型为神经网络模型。
4.根据权利要求1~3任一所述的方法,其特征在于,在所述对于M个句子中的每两个句子,根据所述两个句子各自包括的词语的总数,第一词频,第二词频,第一概率以及第二概率获取所述两个句子间的关联度之前,还包括:
对于所述M个句子中的每个句子,获取所述句子包括的至少一个词语,所述至少一个词语中不包括停用词。
5.根据权利要求1~3任一所述的方法,其特征在于,在所述对于M个句子中的每两个句子,根据所述两个句子各自的句子向量,第一概率以及第二概率,获取所述两个句子间的关联度之前,还包括:
获取M个句子中每个句子的句子向量。
6.根据权利要求1~3任一所述的方法,其特征在于,所述根据所述M个句子中每两个句子的关联度,获取每个句子的得分,包括:
根据所述M个句子中每两个句子的关联度,采用基于图模型的排序算法,获取每个句子的得分。
7.根据权利要求4所述的方法,其特征在于,所述根据所述两个句子各自包括的词语的总数,第一词频,第二词频,第一概率以及第二概率获取所述两个句子间的关联度,包括:
通过如下公式获取两个句子间的关联度:
Figure FDA0004141509810000021
其中,wij为句子i和句子j的关联度,H为第一词语的个数,第一词语为句子i和句子j中相同的词语,fhi为第一词语h相对于句子i的词频,fhj为第一词语h相对于句子j的词频,|si|为句子i中包括的词语的个数,|sj|为句子j中包括的词语的个数;Gi为句子i属于所述文本的摘要的概率,Gj为句子j属于所述文本中的摘要的概率;h=1,……H,H为整数。
8.根据权利要求5所述的方法,其特征在于,对于M个句子中的每两个句子,根据所述两个句子各自的句子向量,第一概率以及第二概率获取所述两个句子间的关联度,包括:
Figure FDA0004141509810000031
其中,wij为句子i和句子j的关联度,Gi为句子i属于所述文本的摘要的概率,Gj为句子j属于所述文本中的摘要的概率,Ai为句子i的句子向量,Aj为句子j的句子向量,||Ai||句子i的句子向量的模,||Aj||句子j的句子向量的模。
9.根据权利要求6所述的方法,其特征在于,所述根据所述M个句子中每两个句子的关联度,采用基于图模型的排序算法,获取每个句子的得分,包括:
通过如下公式获取句子的得分:
Figure FDA0004141509810000032
其中,WS(Vi)表示句子i的得分,d是阻尼系数,WS(Vj)表示上次迭代过
Figure FDA0004141509810000033
的句子;Vj∈In(Vi)表示句子j和句子i都属于所述M个句子中的句子。
10.根据权利要求1~3任一所述的方法,其特征在于,在所述对于文本包括的M个句子中的每个句子,根据句子的N个特征和句子得到句子的特征标签之前,还包括:
判断所述文本包括的单词数是否小于预设阈值;
若是,则获取所述文本包括的所有句子;
去除所述文本包括的所有句子中的无效句子,得到所述文本包括的M个句子;所述无效句子为包括网页链接的句子、包括广告的句子、包括网页代码的句子中的至少一项;
若所述文本包括的单词数大于或等于预设阈值,则对所述文本进行裁剪,得到裁剪后的文本;
获取所述裁剪后的文本包括的所有句子;
去除裁剪后的文本包括的所有句子中的无效句子,得到所述文本包括的M个句子;所述无效句子为包括网页链接的句子、包括广告的句子、包括网页代码的句子中的至少一项。
11.根据权利要求10所述的方法,其特征在于,所述裁剪后的文本包括所述文本的第一段,最后一段,其余各段的第一句和最后一句。
12.一种生成文本的摘要的装置,其特征在于,包括:
第一获取模块,用于对于文本包括的M个句子中的每个句子,根据句子的N个特征和所述句子得到所述句子的特征标签,并根据所述句子的特征标签,获取所述句子属于所述文本的摘要的概率,M和N为正整数;
第二获取模块,用于根据每个句子属于所述文本的摘要的概率,获取所述M个句子中每两个句子的关联度,并根据所述M个句子中每两个句子的关联度,获取每个句子的得分,所述得分表示句子在所述文本中的重要程度;
生成模块,用于生成所述文本的摘要,所述摘要包括所述M个句子中得分位于前L的L个句子,L为正整数,L≤M;
所述第二获取模块,具体用于:
对于M个句子中的每两个句子,根据所述两个句子各自包括的词语的总数,第一词频,第二词频,第一概率以及第二概率获取所述两个句子间的关联度;其中,所述两个句子包括第一句子和第二句子,所述第一词频为第一词语相对于所述第一句子的词频,所述第二词频为第一词语相对于所述第二句子的词频,所述第一概率为所述第一句子属于所述文本的摘要的概率,所述第二概率为所述第二句子属于所述文本的摘要的概率,所述第一词语为同时存在于所述两个句子中的词语;或者,
对于M个句子中的每两个句子,根据所述两个句子各自的句子向量,第一概率以及第二概率获取所述两个句子间的关联度;其中,所述两个句子包括第一句子和第二句子,所述第一概率为所述第一句子属于所述文本的摘要的概率,所述第二概率为所述第二句子属于所述文本的摘要的概率。
13.根据权利要求12所述的装置,其特征在于,所述第一获取模块,具体用于:
对于每个句子,根据所述句子的特征标签和机器学习模型,采用机器学习算法,得到所述句子属于所述文本的摘要的概率;
其中,所述机器学习模型为采用所述机器学习算法,基于多个训练样本得到的,每个训练样本包括其它文本的一个句子的特征标签。
14.根据权利要求12或13所述的装置,其特征在于,所述第二获取模块,还用于对于所述M个句子中的每个句子,获取所述句子包括的至少一个词语,所述至少一个词语中不包括停用词。
15.根据权利要求12或13所述的装置,其特征在于,所述第二获取模块,还用于:
获取M个句子中每个句子的句子向量。
16.一种计算机可读存储介质,其特征在于,计算机可读存储介质上存储有计算机程序,在所述计算机程序被处理器执行时,执行权利要求1至11中任一项所述的方法。
17.一种生成文本的摘要的装置,其特征在于,包括处理器和存储器,其中,
存储器,用于存储程序;
处理器,用于执行所述存储器存储的所述程序,当所述程序被执行时,所述处理器用于执行权利要求1至11中任一所述的方法。
CN201810623713.1A 2018-06-15 2018-06-15 生成文本的摘要的方法和装置 Active CN110609997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810623713.1A CN110609997B (zh) 2018-06-15 2018-06-15 生成文本的摘要的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810623713.1A CN110609997B (zh) 2018-06-15 2018-06-15 生成文本的摘要的方法和装置

Publications (2)

Publication Number Publication Date
CN110609997A CN110609997A (zh) 2019-12-24
CN110609997B true CN110609997B (zh) 2023-05-23

Family

ID=68888614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810623713.1A Active CN110609997B (zh) 2018-06-15 2018-06-15 生成文本的摘要的方法和装置

Country Status (1)

Country Link
CN (1) CN110609997B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737989A (zh) * 2020-06-24 2020-10-02 深圳前海微众银行股份有限公司 一种意图识别方法、装置、设备及存储介质
CN113535942B (zh) * 2021-07-21 2022-08-19 北京海泰方圆科技股份有限公司 一种文本摘要生成方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005038282A (ja) * 2003-07-17 2005-02-10 Tama Tlo Kk データ処理方法及びデータ処理装置
CN104216875A (zh) * 2014-09-26 2014-12-17 中国科学院自动化研究所 基于非监督关键二元词串提取的微博文本自动摘要方法
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN105005563A (zh) * 2014-04-15 2015-10-28 腾讯科技(深圳)有限公司 一种摘要生成方法及装置
CN105243152A (zh) * 2015-10-26 2016-01-13 同济大学 一种基于图模型的自动文摘方法
CN107832414A (zh) * 2017-11-07 2018-03-23 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005038282A (ja) * 2003-07-17 2005-02-10 Tama Tlo Kk データ処理方法及びデータ処理装置
CN105005563A (zh) * 2014-04-15 2015-10-28 腾讯科技(深圳)有限公司 一种摘要生成方法及装置
CN104216875A (zh) * 2014-09-26 2014-12-17 中国科学院自动化研究所 基于非监督关键二元词串提取的微博文本自动摘要方法
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN105243152A (zh) * 2015-10-26 2016-01-13 同济大学 一种基于图模型的自动文摘方法
CN107832414A (zh) * 2017-11-07 2018-03-23 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Abstractive Text Summarization based on Improved Semantic Graph Approach;Atif Khan 等;《International Journal of Parallel Programming》;20180228;全文 *
基于句子评分的多文档摘要提取;张世博 等;《山西大学学报(自然科学版)》;20151231;全文 *

Also Published As

Publication number Publication date
CN110609997A (zh) 2019-12-24

Similar Documents

Publication Publication Date Title
US11403680B2 (en) Method, apparatus for evaluating review, device and storage medium
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
CN109508414B (zh) 一种同义词挖掘方法及装置
WO2017090051A1 (en) A method for text classification and feature selection using class vectors and the system thereof
CN109657053B (zh) 多文本摘要生成方法、装置、服务器及存储介质
Hamdan et al. Experiments with DBpedia, WordNet and SentiWordNet as resources for sentiment analysis in micro-blogging
CN107908698B (zh) 一种主题网络爬虫方法、电子设备、存储介质、系统
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
CN105760363B (zh) 文本文件的词义消歧方法及装置
CN111930929A (zh) 一种文章标题生成方法、装置及计算设备
CN109948140B (zh) 一种词向量嵌入方法及装置
WO2018056423A1 (ja) シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
US20170371956A1 (en) System and method for precise domain question and answer generation for use as ground truth
Zhang et al. Multilingual sentence categorization and novelty mining
US11227183B1 (en) Section segmentation based information retrieval with entity expansion
CN113836938A (zh) 文本相似度的计算方法及装置、存储介质、电子装置
CN110609997B (zh) 生成文本的摘要的方法和装置
Santoso et al. Hybrid conditional random fields and k-means for named entity recognition on indonesian news documents
Wang et al. Using convolutional neural networks to extract keywords and keyphrases: A case study for foodborne illnesses
Gero et al. Word centrality constrained representation for keyphrase extraction
Zheng et al. Multi-dimensional sentiment analysis for large-scale E-commerce reviews
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
JP5523929B2 (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant