CN110728144B

CN110728144B - 一种基于上下文语义感知的抽取式文档自动摘要方法

Info

Publication number: CN110728144B
Application number: CN201910946636.8A
Authority: CN
Inventors: 熊才权; 沈力; 王壮; 周磊; 陈曦
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2019-10-06
Filing date: 2019-10-06
Publication date: 2023-04-07
Anticipated expiration: 2039-10-06
Also published as: CN110728144A

Abstract

本发明公开一种基于上下文语义感知的抽取式文档自动摘要方法，该方法主要解决传统的算法缺乏对于句子在不同的语境中的辨识度的问题。本发明首先用LDA主题模型计算文档中的主题概率分布，进而确定每一个句子与主题词的相似度。然后用CNN模型提取句子的语义特征，进而计算每一个句子与特征的相似度，然后最后把每一个句子的主题相似度和特征相似度的值相加，得到最终的句子得分，按得分排名取合适数量的语句作为摘要。该方法引入了主题模型和深度学习模型，确定了一种主题摘要方法，能够更加精确的分析其不同语境中的句子含义，也为其他的文档自动摘要方法提供了一种计算参考方法。

Description

一种基于上下文语义感知的抽取式文档自动摘要方法

技术领域

本发明属于自然语言处理领域，涉及一种基于上下文语义感知的抽取式文档自动摘要方法，是将LDA主题模型与深度学习的方法运用到自动文本摘要中，解决目前文档自动摘要缺乏对于语义信息理解的问题。

背景技术

随着现代互联网技术的持续发展，每天所产生的数据量都是十分爆炸的，如何从海量的数据中提取有效的信息已经成为迫切需求，自动文本摘要正是利用计算机对大量数据内容进行精炼，生成简洁、明了的摘要来代替整个文档内容的一项技术。根据算法类型的不同，主流的技术分为传统的基于词频统计的算法和基于中心性的算法。

其中，传统的基于词频统计的算法主要有TF-IDF和基于词汇链的方法，其本质是利用词语在文档中出现的次数来判断其所在的句子的重要程度，从而生成摘要，但是传统算法存在缺乏词语在不同语境中的辨识度，从而导致摘要的效果不是很理想。基于中心性的算法包括LexRank、TextRank等，该类算法主要是将词或句子作为图的节点，词或句子之间的相似度作为边，利用PageRank对该无向加权图进行递归计算一直到收敛。该类算法计算量比较复杂，运行效率较低，不利于工业大规模推广。

因此，现有技术中亟需一种高速有效，且对传统算法有参考意义的文档自动摘要方法。LDA是一种基于贝叶斯理论的概率生成模型，利用Gibbs抽样的方法将文档转化为“文档-主题-词语”的三层模型来表征潜在的主题信息，CNN卷积神经网络是深度学习里的一种提取特征的算法，基于此，本发明提出一种基于上下文语义感知的抽取式文档自动摘要方法，在更深层次的语义环境中寻找上下文之间的内在联系，从而改善摘要的质量。

发明内容

本发明的目的是：为了解决在文档自动摘要中缺乏对于上下文语义关系的理解，从而导致摘要的结果单一、片面，从而提出一种基于上下文语义感知的抽取式文档自动摘要方法。

本发明首先用LDA主题模型计算文档中的主题概率分布，进而确定每一个句子与主题词的相似度。然后用CNN模型提取句子的语义特征，进而计算每一个句子与特征的相似度，然后最后把每一个句子的主题相似度和特征相似度的值相加，得到最终的句子得分，按得分排名取合适数量的语句作为摘要。该方法引入了主题模型和深度学习模型，确定了一种主题摘要方法，能够更加精确的分析其不同语境中的句子含义，也为其他的文档自动摘要方法提供了一种计算参考方法。

为了达到上述目的，本发明所采用的技术方案是：一种基于上下文语义感知的抽取式文档自动摘要方法，其特征在于：抽取式文档自动摘要是以句子在文档中的重要程度来打分，本方法采用LDA主题模型与CNN卷积神经网络来提取文档中的深层次的语义信息并作为句子评分的依据，最终形成摘要，所述方法包含如下步骤：

步骤1：对所给的初始文档进行预处理，具体步骤包括：

步骤1.1：对初始的文档进行分词、分句；

步骤1.2：根据步骤1.1所得到分词的结果，去除语气助词、副词、介词、连词这些自身并无明确意义的停用词；

步骤1.3：指定初始文档的主题数K，每个主题下的词的数量为V；

步骤1.4：指定超参数向量

的值，其中

的值为

范围中的随机值、

的值为

中的随机值，

为K维向量，

为V维向量；

步骤2：根据步骤1.2中得到的预处理后的文档和步骤1.3中得到的主题数K、词数V以及步骤1.4中得到的超参数

带入公式(1)，得到初始文档主题以及其概率分布：

其中，z_i表示经过步骤1预处理后的文档

中的第i个词对应的主题，m下标为文档编号，k下标为主题编号，0<k≤K，t下标为主题词编号，0<t≤V，

表示去除下标为i的词，

表示第m篇经过步骤1处理后文档中第k个主题所产生的词的个数，

表示第k个主题中产生的词t的个数；

步骤3：计算初始文档中的每一个句子与主题的相似度，具体步骤包括：

步骤3.1：将步骤1.1中得到的分句的结果与步骤2中所得到的主题利用Bert模型转化为1*768维的向量，形式化描述为：Sentence＝(x₁,x₂,…,x₇₆₈)，Topic＝(y₁,y₂,…y₇₆₈)；

步骤3.2：将步骤3.1中得到的句子向量与主题向量用公式(2)计算相似度：

其中，p为步骤1.1中分句后句子的数量，K为步骤1.3中所得的主题的数量；

步骤4：在文档的特征提取阶段，把文档的细粒度划分为句子级别和词语级别，然后使用预训练好的CNN模型对其进行卷积、最大池化，得到其第一级特征，卷积的结果作为第二层的输入，接着对其进行卷积、最大池化，得到其第二级特征，最后通过包含1024个神经元的全连接层，得到最终包含初始文档语义信息的特征向量；步骤4的特征提取过程，具体步骤包括：

步骤4.1：定义文档中的句子序列表示为：C_s＝{S₁,S₂,…,S_p}，其中p为句子的数量，定义文档中的词语序列表示为：C_w＝{W₁,W₂…W_q}，其中q为分词后的词语数量，根据公式(3)分别对其进行基于文档细粒度的卷积操作：

其中，W_s,W_w分为C_s,C_w的卷积核，为2*768向量，b_s,b_w分别为C_s,C_w的偏置项，为2维的向量，其值在神经网络的预训练中得到，f(·)为tan(·)是激活函数；

步骤4.2：根据步骤4.1得到的结果，为了提升模型的泛化能力，防止过拟合，对其结果根据公式(4)进行最大池化操作：

其中，x_i,x_n为Con_s,Con_w中的每个神经元，

为得到卷积的第一级特征；

步骤4.3：对

重复步骤4.1，4.2得到卷积的第二级特征

步骤4.4：将第二级特征

作为全连接层的输入，根据公式(5)得到最终的包含初始文档的上下文语义信息的特征向量：

其中W为全连接层的权重，b为偏置值；

步骤5：根据公式(2)，计算每一个句子与特征向量Feature的相似度，结合主题相似度，按相似度得分排序，取文档句子数量的20％的语句作为文档的摘要；具体步骤包括：

步骤5.1：将步骤4.4中得到的特征向量Feature与步骤3.1中得到的句子向量利用公式(2)计算每一个句子与上下文语义特征的相似度；

步骤5.2：将步骤3.2中得到的句子与主题的相似度与步骤5.1中得到的句子与上下文语义的特征相似度利用公式(6)计算最终的每一个句子得分：

步骤5.3：将每一个句子按步骤5.2中所得到的得分排序，按照得分的从高到低，取初始文档的句子总量的20％作为摘要。

与现有的文档自动摘要方法对比，本发明的有益效果是：

1.本方法利用LDA主题模型深入分析文档的主题关系，得出概率主题分布，为自动摘要提供主题关系分析。

2.本方法可以直接从数据中学习得到的特征，无需人工手工标记。

3.本方法将原始的CNN改进为基于文档细粒度的特征提取方法，同时使用第一级特征与第二级特征来从低级特征到高级特征分析文档的上下文语义信息，并经过多次仿真实验证明了本发明的可用性和有效性，能够有效的改善目前文档摘要中缺乏语义信息的问题。

附图说明

图1是LDA模型的结构图。

图2是本发明的一种基于上下文语义感知的抽取式文档自动摘要方法流程图。

具体实施方式

为了更好地理解本发明，下面结合实例进一步阐明本发明的内容，但本发明的内容不仅仅局限于下面的实例。本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样在本申请所列权利要求书限定范围之内。

本发明提出了一种基于上下文语义感知的抽取式文档自动摘要方法，方法主要引入了LDA模型来分析文档的主题概率，LDA模型的图形如图1所示，然后用CNN深度学习神经网络来分析深层次的语义特征，基于上下文语义感知的抽取式文档自动摘要方法如图2所示。

本发明主要是利用LDA主题模型以及深度神经网络来确定文档的语义特征，具体实现步骤细化如下：

步骤1：对所给的初始文档进行预处理，具体步骤包括：

步骤1.1：对初始的文档进行分词、分句；

步骤1.4：指定超参数向量

的值，其中

的值为

范围中的随机值、

的值为

中的随机值，

为K维向量，

为V维向量；

带入公式(1)，得到初始文档主题以及其概率分布：

其中，z_i表示经过步骤1预处理后的文档

表示去除下标为i的词，

表示第k个主题中产生的词t的个数；

其中，x_i,x_n为Con_s,Con_w中的每个神经元，

为得到卷积的第一级特征；

步骤4.3：对

重复步骤4.1，4.2得到卷积的第二级特征

步骤4.4：将第二级特征

其中W为全连接层的权重，b为偏置值；

实施例

步骤1：选定两篇短文档：

“9月6日，在德国柏林的IFA2019大会上，华为正式发布麒麟990 5G芯片。相较而言，麒麟990芯片的主要竞争对手中，骁龙865尚未发布，表现如何有待观察。”

“5G芯片是全球首款旗舰5G SoC，也是业内最小的5G手机芯片方案。对于广大用户来说，最直观表现是速度更快、影像更美，但更重要的是，它的AI强劲算力将为更多生活场景赋予智慧，相信在今年这个5G商用元年会给大家带来最佳的应用体验。”

指定文档的主题数为2，主题词数为3，设定超参数

经过分词、分句、去停用词得到结果如下：

文档1：德国，柏林，IFA2019，大会，华为，正式，发布，麒麟，990，5G，芯片，相，而言，麒麟，990，芯片，主要，竞争对手，骁龙，865，尚未，发布，表现，有待，观察。

文档2：5G，芯片，全球，首款，旗舰，5G，SoC，业内，最小，5G，手机芯片，方案，对于，用户，直观，表现，速度，快，影像，更美，AI，强劲，算力，更多，生活，场景，赋予，智慧，5G，商用，元年，带来，最佳，体验。

表1文档分句

	文档1	文档2
			句子1	9月6日	5G芯片是全球首款旗舰5G SoC
句子2	在德国柏林的IFA2019大会上	也是业内最小的5G手机芯片方案
			句子3	华为正式发布麒麟990 5G芯片	对于广大用户来说
句子4	相较而言	最直观表现是速度更快、影像更美
			句子5	麒麟990芯片的主要竞争对手中	但更重要的是
句子6	骁龙865尚未发布	它的AI强劲算力将为更多生活场景赋予智慧
			句子7	表现如何有待观察	相信在今年这个5G商用元年会给大家带来最佳的应用体验

步骤2：根据步骤(1)中所得

K＝2、V＝3带入公式(1)得到文档的主题：

表2文档主题概率

主题词1

概率

主题词2

概率

主题词3

概率

主题1

芯片

0.042

990

0.042

发布

0.042

主题2

5G

0.060

表现

0.020

更美

0.020

步骤3：将步骤1中得到的主题与分句后的每一个句子根据Bert模型分别转化为1*768维的向量，根据公式2计算文档中的每一个句子的向量与主题的向量的相似度得到的结果如下：

表3句子与主题的相似度

	句子1	句子2	句子3	句子4	句子5	句子6	句子7
								文档1	291.845	297.524	309.248	263.979	300.797	295.856	290.251
文档2	277.260	284.996	309.098	289.204	293.365	303.775	295.590

步骤4：根据公式3和预训练好的CNN模型对文本句子进行第一级和第二级卷积池化提取其语义特征，最终得到一个1*768维的包含上下文语义的特征向量，并对步骤2中所得到的初始文档中的每个句子向量和特征向量根据步骤3中的公式2作相似度比较，得到的结果如下：

表4句子与CNN特征相似度

	句子1	句子2	句子3	句子4	句子5	句子6	句子7
								文档1	712.944	706.102	704.971	708.670	709.249	707.448	707.472
文档2	707.837	702.316	710.876	704.087	701.015	712.373	697.708

步骤5：根据步骤3中所得到的句子与主题相似度和步骤4中所得到的基于上下文语义的文本特征相似度的得分值根据步骤5.2中的公式(6)得到最终的初始文档中每个句子的得分：

表5最终句子得分值

	内容	得分值
			句子1	9月6日	1004.78
句子2	在德国柏林的IFA2019大会上	1003.626
			句子3	华为正式发布麒麟990 5G芯片	1014.2199
句子4	相较而言	972.649
			句子5	麒麟990芯片的主要竞争对手中	1010.046
句子6	骁龙865尚未发布	1003.304
			句子7	表现如何有待观察	997.723
句子8	5G芯片是全球首款旗舰5G SoC	985.097
			句子9	也是业内最小的5G手机芯片方案	987.312
句子10	对于广大用户来说	1019.974
			句子11	最直观表现是速度更快、影像更美	993.219
句子12	但更重要的是	994.38
			句子13	它的AI强劲算力将为更多生活场景赋予智慧	1016.148
句子14	相信在今年这个5G商用元年会给大家带来最佳的应用体验	993.298

根据初始文档的长度，选取3个句子作为摘要，则最终的摘要结果如下所示：

“华为正式发布麒麟990 5G芯片，对于广大用户来说，它的AI强劲算力将为更多生活场景赋予智慧。”

最后应当说明的是，以上内容仅用以说明本发明的技术方案，而非对本发明保护范围的限制，本领域的普通技术人员对本发明的技术方案进行的简单修改或者等同替换，均不脱离本发明技术方案的实质和范围。