CN107608972B - 一种多文本快速摘要方法 - Google Patents
一种多文本快速摘要方法 Download PDFInfo
- Publication number
- CN107608972B CN107608972B CN201711000127.3A CN201711000127A CN107608972B CN 107608972 B CN107608972 B CN 107608972B CN 201711000127 A CN201711000127 A CN 201711000127A CN 107608972 B CN107608972 B CN 107608972B
- Authority
- CN
- China
- Prior art keywords
- node
- degree
- importance
- sentences
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012821 model calculation Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000013077 scoring method Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 19
- 238000000605 extraction Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种多文本快速摘要方法,建立基于语句间潜在关联的模型,多篇文档中的语句被该模型建模,模型依据语句间的关联度打分并获得语句的重要度,根据重要度高的语句形成最终的摘要内容。本发明提供的多文本快速摘要方法,将多文本中的每个语句作为一个节点并进行单独分析,利用本发明所提出的语句贡献度打分方法,经过若干轮迭代打分,确定重要度较高的语句,再根据高重要度语句快速生成最终的摘要内容,兼顾了文本主题的多样性和摘要语句的通顺性,加快了多文本摘要的生成速度,工作效率高,应用前景广阔。
Description
技术领域
本发明涉及计算机应用技术领域,具体涉及一种多文本快速摘要方法。
背景技术
随着互联网的快速发展,以文本形式呈现的在线信息,如门户网站新闻、微博和微信等,其信息量在近年有巨大的增长。面对如此巨量的文本信息,人们需要一个简便的方法用来快速浏览这些信息,在这方面,计算机辅助文本摘要方法可以帮助人们快速地产生各类文本的摘要条目,在人们在线浏览时,其可以帮助人们通过摘要来辨别是否需要继续浏览新闻全文,从而加快浏览速度。
传统的文本摘要方法将文本视为一个没有任何结构的“词袋”,并使用向量空间模型VSM(Vector Space Model)来对“词袋”建模,这一类方法从统计的角度计算词的频率并评价词的重要性,其不但产生了大量的计算,拖慢摘要产生的速度,另一方面,由于其忽略了文章语句之间的结构关系,影响到了文本摘要的质量。
本发明针对当前社会对于快速文本摘要算法的强烈需求,针对传统摘要方法存在的质量平和速度慢等缺点,公开了一种多文本快速摘要方法,可以广泛应用于互联网领域,有利于提升人们获取信息的效率。
发明内容
为解决现有技术的问题,本发明提供一种多文本快速摘要方法,建立基于语句间潜在关联的模型,多篇文档中的语句将被该模型建模,模型依据语句间的关联度打分,使得重要的语句获得更高的分数,根据高重要度语句生成最终的摘要内容,辅助人们从多文本中快速获取重要信息,提高提取摘要的工作效率。
为实现上述目的,本发明采用的技术方案为:
一种多文本快速摘要方法,建立基于语句间潜在关联的模型,多篇文档中的语句被该模型建模,模型依据语句间的边的权重和语句的贡献度计算获得重要度高的语句并形成最终的摘要内容,包括以下步骤:
步骤一、建立语料库,建立基于语句间潜在关联的模型,多篇文档中的语句被该模型建模;
步骤二、给定若干个语句,步骤一建模得到的模型对给定的每个语句进行相同的重要度赋值并作为初始值,一个语句为一个节点,通过模型计算获得每两个节点之间的边的权重及两个节点对与其相连的边的贡献度;
步骤三、模型对步骤二的边的权重和两个节点的贡献度进行处理,边的权重被按比例划分成两份,较大的一份被赋予贡献度大的节点的重要度上,较小的部分被赋予另外一个节点,随后根据得到的重要度赋值返回步骤二计算边的权重再完成步骤三,经过若干个循环得到重要度高的语句并生成摘要内容。
进一步的,步骤一中,所述模型包括T元素、V元素、F元素、E元素、W元素和S元素,分别被定义为:
T={ti|ti是语料库中的一个词),其中,T是一个字典,是词的集合,其中囊括语料库中的所有词汇,同时去除重复的词;
V={vj|vj={tk}},语料库中的每一个语句被表示为一个节点vj,每一个节点vj是有一个tk的集合组成;
E={eij|eij是节点vi与vj之间的一条边,vi,vj∈V},eij为连接节点vi与节点vj的边,不具有方向性,eij=eji,节点vi与节点vj分别为语料库中的第i个语句和第j个语句;
W={wij|wij是eij的权重,是关联度的度量值,eij∈E},wij为连接节点vi和节点vj的边eij的权重,关联度是距离度量的一个相反度量,由具体的距离度量函数加上适当取反来测量;
S={si|si是节点vi的重要度度量,vi∈V},重要度si度量节点对与其相连的边的权重的贡献度,贡献度越高的节点,其重要度越高,对应的语句在语料库中越重要。
进一步的,所述权重wij在向量空间中的距离度量采用余弦相似度并采用如下公式定义:
公式一定义了节点vi与节点vj之间的余弦相似度,其最大值为1,最小值为0,wij=wji。
进一步的,所述节点的重要度通过迭代式的计算产生,包括如下步骤:
步骤一、拆分连接节点vi和节点vj的边eij的权重wij,计算节点vi和节点vj的贡献度;
步骤二、总和步骤一中所有节点vi对于与其相连的边eij的贡献度,根据贡献度计算获得重要度,进而根据高重要度语句生成摘要内容。
进一步的,所述重要度si采用如下公式进行计算:
进一步的,所述节点的贡献度通过如下公式进行计算:
其中,ci为节点vi的贡献度,tk表示语料库中的词,若节点vi和节点vj有共同项,则权重wij不为0,公式二将wij分为两部分,较大的一份被赋予贡献度大的节点vi的重要度上,较小的部分被赋予另外一个节点vj的重要度上,其中被分配给节点vi,当fki部分越大时,即词tk在节点vi中出现的次数越多,分配给节点vi的权重越大,节点vi的贡献度越大,则对应语句的重要度越大,获得的重要度分值越高,生成包括该语句的摘要的可能性越大。
与现有技术相比,本发明具有以下优点:
本发明公开了多文本快速摘要方法,建立基于语句间潜在关联的模型,多篇文档中的语句被该模型建模,模型依据语句间的关联度打分,根据重要度高的语句形成最终的摘要内容。本发明提供的多文本快速摘要方法,将多文本中的每个语句作为一个节点并进行单独分析,利用本发明所提出的语句贡献度打分方法,经过若干轮迭代打分,确定重要度较高的语句,并快速形成最终的文本摘要,兼顾了文本主题的多样性和摘要语句的通顺性,加快了多文本摘要的生成速度,工作效率高,应用前景广阔。
附图说明
图1是本发明的节点vi与节点vj的边的权重示意图;
图2是本发明实施例1的边的权重示意图。
具体实施方式
下面结合具体实施例对本发明作更进一步的说明。
如图1-2所示,一种多文本快速摘要方法,基于语句间潜在关联的模型,多篇文档中的语句将被该模型建模,通过模型对语句间的关联度进行打分,重要度高的语句获得更高的分数,根据得到的重要度高的语句生成最终的摘要内容。
步骤一、建立语料库,语料库中包含文档中的所有语句,建立基于语句间潜在关联的模型,多篇文档中的语句将被该模型建模;
步骤二、给定若干个语句,步骤一建模得到的模型将每个语句看成一个节点,同时对给定的每个语句进行相同的重要度赋值并将其作为初始值,每两个节点之间,语句的潜在关联被计算并赋值,该值作为这两个节点间的一条边的权重,对于每一条边的权重,模型将做进一步的细分,判断与这一条边相连的两个节点分别对这一条边贡献了多少权重,进而获取这条边的两个节点分别对这条边贡献的权重数,贡献度越高的节点,其重要度越高,对应的语句在语料库中越重要,生成摘要的可能性越大;
步骤三、模型对步骤二的边的权重和两个节点对与其相连的边的权重的贡献度进行处理得到对应节点的重要度,重要度与贡献度的计算方法被定义为抽象函数,在使用具体文本语料库时,可以根据语料库的特性进行具体定义,从而获得更广泛的适用性,根据贡献度大的语句重要度更高的理论,边的权重被按比例划分成两份,较大的一份被赋予贡献度大的节点的重要度上,较小的部分被赋予另外一个节点的重要度上,随后再按照新的重要度赋值返回步骤二重新计算得到边的权重再按照步骤三对边的权重进行分配,经过若干个循环,重要的语句将会获得较高的重要度分值,进而根据重要度高的语句生成摘要内容。
步骤一建模得到的模型包括T元素、V元素、F元素、E元素、W元素和S元素,分别被定义为:
T={ti|ti是语料库中的一个词},T是一个字典,是一个词的集合,其中囊括语料库中的所有词汇,同时去除重复的词;
V={vj|vj={tk}},语料库中的每一个语句被表示为一个节点vj,每一个vj是有一个tk的集合组成;
E={eij|eij是节点vi与vj之间的一条边,vi,vj∈V},eij为连接节点vi与节点vj的边,由于此边不具有方向性,所以eij=eji,节点vi与节点vj分别为语料库中的第i个语句和第j个语句;
W={wij|wij是eij的权重,是关联度的度量值,eij∈E},wij为连接节点vi和节点vj的边eij的权重,关联度为与节点相连的边的权重,关联度是距离的一个相反度量,其可以由具体的距离度量函数加上适当取反来测量,距离度量函数包括曼哈顿距离和欧氏距离等,在模型定义中,关联度函数可以先采用抽象函数,在具体应用于具体语料库时,再采用根据语料库特征确定的具体距离度量作为替换,在信息提取研究领域,使用余弦相似度作为权重wij在向量空间中的距离度量,使用模型的标记,其可被表示为:
公式一定义了节点vi与节点vj之间的余弦相似度,其最大值为1,最小值为0,因模型是无向图,所以wij=wji:
S={si|si是节点vi的重要度度量,vi∈V}重要度si度量节点对于关联度(与其相连的边的权重)的贡献度,贡献度越高的节点,其重要度越高,对应的语句在语料库中也越重要。
节点vi的重要度si通过迭代式的计算产生,具体步骤如下:
1)拆分连接节点vi和节点vj的边eij的权重wij,计算获取节点vi的贡献度ci;
2)总和所有节点vi对于与其相连的边的贡献度,进而通过如下公式二和公式三得到节点vi的重要度si,进而根据高重要度语句生成摘要内容;
其中,节点vi的贡献度ci的计算方法被定义为抽象函数,在具体应用中,可使用合理的具体函数替换,在迭代过程中,重要度si通过如下公式二计算得到:
模型针对一般文本的贡献度ci的计算方法采用如下公式三:
其中,ci为节点vi的贡献度,tk表示语料库中的词,若节点vi和节点vj有共同项,则权重wij不为0,公式三将权重wij分为两部分,较大的一份被赋予贡献度大的节点vi的重要度上,较小的部分被赋予另外一个节点vj的重要度上,其中,被分配给节点vi,当fki部分越大时,即词tk在节点vi中出现的次数越多,分配给节点vi的权重越大,节点vi的贡献度越大,则对应语句的重要度越大,获得的重要度分值越高,生成包含该语句的摘要的可能性越大。
实施例1
如图1-2所示,一种多文本快速摘要方法,基于语句间潜在关联的模型,多篇文档中的语句将被该模型建模,通过模型对语句间的关联度进行打分,重要度高的语句获得更高的分数,根据得到的重要度高的语句生成最终的摘要内容。
步骤一、建立语料库,语料库中包含文档中的所有语句,建立基于语句间潜在关联的模型,多篇文档中的语句将被该模型建模;
步骤二、给定n个语句,步骤一建模得到的模型将每个语句看成一个节点,同时对给定的每个语句进行相同的重要度赋值并将其作为初始值,每两个节点之间,语句的潜在关联被计算并赋值,该值作为这两个节点间的一条边的权重,对于每一条边的权重,模型将做进一步的细分,判断与这一条边相连的两个节点分别对这一条边贡献了多少权重,进而获取这条边的两个节点分别对这条边贡献的权重数,贡献度越高的节点,其重要度越高,对应的语句在语料库中越重要,生成摘要的可能性越大;
步骤三、模型对步骤二的边的权重和两个节点对与其相连的边的权重的贡献度进行处理得到对应节点的重要度,重要度与贡献度的计算方法被定义为抽象函数,在使用具体文本语料库时,可以根据语料库的特性进行具体定义,从而获得更广泛的适用性,根据贡献度大的语句重要度更高的理论,边的权重被按比例划分成两份,较大的一份被赋予贡献度大的节点的重要度上,较小的部分被赋予另外一个节点的重要度上,随后再按照新的重要度赋值返回步骤二重新计算得到边的权重再按照步骤三对边的权重进行分配,经过若干个循环,重要的语句将会获得较高的重要度分值,进而根据重要度高的语句生成摘要内容。
步骤一建模得到的模型包括T元素、V元素、F元素、E元素、W元素和S元素,分别被定义为:
T={ti|ti是语料库中的一个词},T是一个字典,是一个词的集合,其中囊括语料库中的所有词汇,同时去除重复的词;
V={vj|vj={tk}},语料库中的每一个语句被表示为一个节点vj,每一个vj是有一个tk的集合组成;
E={eij|eij是节点vi与vj之间的一条边,vi,vj∈V},eij为连接节点vi与节点vj的边,由于此边不具有方向性,所以eij=eji,节点vi与节点vj分别为语料库中的第i个语句和第j个语句;
W={wij|wij是eij的权重,是关联度的度量值,eij∈E},wij为连接节点vi和节点vj的边eij的权重,关联度为与节点相连的边的权重,关联度是距离的一个相反度量,其可以由具体的距离度量函数加上适当取反来测量,距离度量函数包括曼哈顿距离和欧氏距离等,在模型定义中,关联度函数可以先采用抽象函数,在具体应用于具体语料库时,再采用根据语料库特征确定的具体距离度量作为替换,在信息提取研究领域,使用余弦相似度作为权重wij在向量空间中的距离度量,使用模型的标记,其可被表示为:
公式一定义了节点vi与节点vj之间的余弦相似度,其最大值为1,最小值为0,因模型是无向图,所以wij=wji:
S={si|si是节点vi的重要度度量,vi∈V),重要度si度量节点对于关联度(与其相连的边的权重)的贡献度,贡献度越高的节点,其重要度越高,对应的语句在语料库中也越重要。
节点vi的重要度si通过迭代式的计算产生,具体步骤如下:
1)拆分连接节点vi和节点vj的边eij的权重wij,计算获取节点vi的贡献度Ci;
节点vi与n-1个节点之间的边的权重进行逐一计算并得到对应的权重wi1、wi2。。。。。。直至win,如图2所示,再按照步骤1)对得到的这些权重分别进行对应的拆分,获得节点vi相较于n-1个节点的贡献度;
2)总和步骤1)中所有节点vi对于与其相连的边的贡献度,进而通过如下公式二和公式三得到节点vi的重要度si,进而根据高重要度语句生成摘要内容;
其中,节点vi的贡献度ci的计算方法被定义为抽象函数,在具体应用中,可使用合理的具体函数替换,在迭代过程中,重要度si通过如下公式二计算得到:
模型针对一般文本的贡献度ci的计算方法采用如下公式三:
其中,ci为节点vi的贡献度,tk表示语料库中的词,若节点vi和节点vj有共同项,则权重wij不为0,公式三将权重wij分为两部分,较大的一份被赋予贡献度大的节点vi的重要度上,较小的部分被赋予另外一个节点vj的重要度上,其中,被分配给节点vi,当fki部分越大时,即词tk在节点vi中出现的次数越多,分配给节点vi的权重越大,节点vi的贡献度越大,则对应语句的重要度越大,获得的重要度分值越高,生成包含该语句的摘要的可能性越大。
上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围。
Claims (4)
1.一种多文本快速摘要方法,其特征在于,建立基于语句间潜在关联的模型,多篇文档中的语句被该模型建模,模型依据语句间的关联度打分,得到重要度高的语句并形成摘要内容,包括以下步骤:
步骤一、建立语料库,建立基于语句间潜在关联的模型,多篇文档中的语句被该模型建模;
步骤二、给定若干个语句,步骤一建模得到的模型对给定的每个语句进行相同的重要度赋值并作为初始值,一个语句为一个节点,通过模型计算获得两个节点之间的边的权重及两个节点对与其相连的边的贡献度;
步骤三、模型对步骤二的边的权重和两个节点的贡献度进行处理得到节点的重要度,边的权重被按比例划分成两份,较大的一份被赋予贡献度大的节点的重要度上,较小的部分被赋予另外一个节点,随后根据新的重要度赋值返回步骤二重新计算边的权重再完成步骤三,经过若干个循环得到重要度高的语句并生成摘要内容;
步骤一中,所述模型包括T元素、V元素、F元素、E元素、W元素和S元素,分别被定义为:
T={ti|ti是语料库中的一个词},其中,T是一个字典,是词的集合,其中囊括语料库中的所有词汇,同时去除重复的词;
V={vj|vj={tk}},语料库中的每一个语句被表示为一个节点vj,每一个节点vj是有一个tk的集合组成;
E={eij|eij是节点vi与vj之间的一条边,vi,vj∈V},eij为连接节点vi与节点vj的边,不具有方向性,eij=eji,节点vi与节点vj分别为语料库中的第i个语句和第j个语句;
W={wij|wij是eij的权重,是关联度的度量值,eij∈E},wij为连接节点vi和节点vj的边eij的权重,关联度是距离度量的一个相反度量,由距离度量函数加上适当取反来测量;
S={si|si是节点vi的重要度度量,vi∈V},重要度si度量节点vi对与其相连的边的权重的贡献度;
所述节点的重要度通过迭代式的计算产生,包括如下步骤:
步骤一、拆分连接节点vi和节点vj的边eij的权重wij,计算节点vi的贡献度;
步骤二、总和步骤一中所有节点vi对于与其相连的边eij的贡献度,根据贡献度计算获得重要度,再根据高重要度语句生成摘要内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711000127.3A CN107608972B (zh) | 2017-10-24 | 2017-10-24 | 一种多文本快速摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711000127.3A CN107608972B (zh) | 2017-10-24 | 2017-10-24 | 一种多文本快速摘要方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107608972A CN107608972A (zh) | 2018-01-19 |
CN107608972B true CN107608972B (zh) | 2020-07-24 |
Family
ID=61079664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711000127.3A Expired - Fee Related CN107608972B (zh) | 2017-10-24 | 2017-10-24 | 一种多文本快速摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107608972B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380328B (zh) * | 2020-11-11 | 2024-02-06 | 广州知图科技有限公司 | 一种安全应急响应机器人交互方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101231634B (zh) * | 2007-12-29 | 2011-05-04 | 中国科学院计算技术研究所 | 一种多文档自动文摘方法 |
CN101393545A (zh) * | 2008-11-06 | 2009-03-25 | 新百丽鞋业(深圳)有限公司 | 一种利用关联模型实现自动摘要的方法 |
CN103020156B (zh) * | 2012-11-23 | 2016-02-03 | 小米科技有限责任公司 | 一种针对网页的处理方法、装置和设备 |
US9576249B2 (en) * | 2013-03-18 | 2017-02-21 | Educational Testing Service | System and method for automated scoring of a summary-writing task |
CN103885935B (zh) * | 2014-03-12 | 2016-06-29 | 浙江大学 | 基于图书阅读行为的图书章节摘要生成方法 |
-
2017
- 2017-10-24 CN CN201711000127.3A patent/CN107608972B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN107608972A (zh) | 2018-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nguyen et al. | Effective attention networks for aspect-level sentiment classification | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN103049501B (zh) | 基于互信息和条件随机场模型的中文领域术语识别方法 | |
Khuc et al. | Towards building large-scale distributed systems for twitter sentiment analysis | |
CN111680094B (zh) | 文本结构化方法、装置、系统和非易失性存储介质 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
WO2020062770A1 (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
Wen et al. | Research on keyword extraction based on word2vec weighted textrank | |
Yang | Research and realization of internet public opinion analysis based on improved TF-IDF algorithm | |
CN108681557B (zh) | 基于自扩充表示和相似双向约束的短文本主题发现方法及系统 | |
Liu et al. | ProtDec-LTR3. 0: protein remote homology detection by incorporating profile-based features into learning to rank | |
CN111241294A (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
CN106294350A (zh) | 一种文本聚合方法及装置 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN103049470A (zh) | 基于情感相关度的观点检索方法 | |
CN105843799B (zh) | 一种基于多源异构信息图模型的学术论文标签推荐方法 | |
CN113011194B (zh) | 融合关键词特征和多粒度语义特征的文本相似度计算方法 | |
CN109635081B (zh) | 一种基于词频幂律分布特性的文本关键词权重计算方法 | |
CN108710611A (zh) | 一种基于词网络和词向量的短文本主题模型生成方法 | |
CN108182176A (zh) | 增强btm主题模型主题词语义相关性和主题凝聚度方法 | |
CN112633000A (zh) | 一种文本中实体的关联方法、装置、电子设备及存储介质 | |
CN113033204A (zh) | 信息实体抽取方法、装置、电子设备和存储介质 | |
CN108133014B (zh) | 基于句法分析和聚类的三元组生成方法、装置及用户终端 | |
CN107451116B (zh) | 一种移动应用内生大数据统计分析方法 | |
CN104217026B (zh) | 一种基于图模型的中文微博客倾向性检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200724 |