CN108197111A

CN108197111A - 一种基于融合语义聚类的文本自动摘要方法

Info

Publication number: CN108197111A
Application number: CN201810020999.4A
Authority: CN
Inventors: 史景伦; 洪冬梅; 王桂鸿; 张福伟
Original assignee: South China University of Technology SCUT
Current assignee: Southern Theater Command General Hospital of PLA
Priority date: 2018-01-10
Filing date: 2018-01-10
Publication date: 2018-06-22
Anticipated expiration: 2038-01-10
Also published as: CN108197111B

Abstract

本发明公开了一种基于融合语义聚类的文本自动摘要方法，包括：文本预处理步骤，对原始文档进行预处理，并统计关键词在文本中的词频信息；权重计算步骤，融合局部权重，全局权重和引入相关权重来确定关键词在句子中的贡献度；语义分析步骤，将文本矩阵进行奇异值分解，得到语义分析模型，以此计算每个句子的语义向量；聚类步骤，对计算的句子语义向量在语义空间中通过聚类算法得到K个句子簇；句子选择步骤，在每一个句子簇中计算句子权重，根据排名来挑选前n个句子组成摘要，并去除冗余。本发明简单实用，对文本进行特征表示，融入上下文的语义联系，更充分的显示句子之间和词语之间的共现关系，生成的摘要更能契合文本的主题思想。

Description

一种基于融合语义聚类的文本自动摘要方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于融合语义聚类的文本自动摘要方法。

背景技术

随着计算机技术和互联网的发展，信息的传播方式发生了很大变化。网络成为人们获取资源的重要渠道。但另一方面，互联网上文档数据内容呈现出指数增长趋势，使得如何有效解决信息过载和人们快速阅读之间的矛盾显得十分必要。自动文本摘要技术为这一实现提供了可能。

自动文本摘要技术通过计算机利用一系列文本处理技术对冗长的文档进行分析处理，提取文档主要中心思想，生成一段简洁概括性的摘要，帮助用户定位到自己想要的内容。

自动文本摘要技术是自然语言处理领域的研究热点，根据摘要内容生成方式，分为抽取式摘要和生成式摘要。在实际应用场景中，基于规则和统计的文本摘要生成已经存在大量的研究和实验。通常先将文本进行分词，去除停用词等预处理步骤，利用TF-IDF算法构建文本矩阵，计算句子得分，再根据得分挑选作为摘要的句子。但是这样的方法停留在字面上，没有利用上下文的语义关系，生成的摘要缺乏关联性。而目前对于生成式摘要的研究主要集中在引入了深度学习甚至强化学习的方法，但是由于目前相关技术还不够成熟，导致生成的摘要有语法错误，可读性和连贯性差的问题，不能满足用户需求。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于融合语义聚类的文本自动摘要方法，在文本矩阵权重计算过程中考虑上下文联系，加入语义信息，利用LSA语义分析模型进行句子选择，使得生成的摘要更加符合文本主题思想。

本发明的目的可以通过采取如下技术方案达到：

一种基于融合语义聚类的文本自动摘要方法，所述的文本自动摘要方法包括：

文本预处理步骤，将原始文档的内容按句子进行分词，去除停用词，并统计每个关键词的词频信息，即在文档中出现的次数；

权重计算步骤，通过局部权重，全局权重和相关权重来计算关键词项在句子中的贡献度，构成文本矩阵A；

语义分析步骤，利用LSA语义分析模型对文本矩阵A进行奇异值分解，并利用语义模型来计算每一个句子的语义向量；

聚类步骤，将计算出的语义向量通过K-means聚类算法进行聚类，得到K个语义空间的句子簇；

句子选择步骤，在句子簇内分别计算句子节点的权重，根据权重排名抽取前n个句子组成摘要。

进一步地，所述的权重计算步骤包括局部权重计算、全局权重计算和相关权重计算，其中，所述的局部权重计算包括：

1)根据关键词在句子中出出现与否进行二值运算，即出现为1，否则为0；

2)统计出现的关键词的词频n_ij，即该关键词j在相应句子i中的出现次数，其中，0≤j＜M,0≤i＜N，M和N分别为关键词和文本句子总数；

3)对高频词进行权重弱化，采用对数公式：L_ij＝log(1+n_ij)，其中，n_ij为词频，L_ij为权重弱化后的局部权重值，0≤j＜M,0≤i＜N，M和N分别为关键词和文本句子总数；

所述的全局权重计算包括：

以句子为单位，借鉴逆文本频率来表征：其中，n为文本中所有的句子总数，n_j为包含关键词j的句子数目，0≤j＜M,0≤i＜N，M和N分别为关键词和文本句子总数，G_ij表示关键词j在句子i的全局权重；

所述的相关权重计算包括：

1)根据局部权重和全局权重计算出关键词j在句子i中的初步权重，公式为其中，L_ij和G_ij分别为局部权重和全局权重，0≤j＜M,0≤i＜N，M和N分别为关键词和文本句子总数；

2)根据所得初步权重得到句子表示向量q_j＝(w_j1,w_j2,…,w_jk)，根据余弦相似度分别计算与之左右相邻的句子的相似度，根据公式其中，q_i和q_j是相邻的句子对，0≤i,j＜N，N为句子总数；

3)将相似度代入公式计算关键词j在句子i中的最终相关权重：R_ij＝λw_i-1,j+μw_i+1,j，其中λ和μ是与句子i左右相邻的两个句子的相似度，w_i-1,j和w_i+1,j分别是与句子i左相邻和右相邻的句子，若为第一句和最后一句则为特殊情况，分别取λ＝0和μ＝0。

进一步地，所述的文本矩阵A中最终权重计算公式为a_ij＝L_ij*G_ij+R_ij，其中，L_ij和G_ij分别为局部权重和全局权重，R_ij为相关权重，a_ij表示关键词j在句子i中的权重值。

进一步地，所述的语义分析步骤包括：

对文本矩阵A进行奇异值分解后，取最大的前K个奇异值，得到最佳近似矩阵和语义分析模型A_K＝U_KΣ_KV_K ^T，其中，U_K和V_K都是正交矩阵，Σ_K是对角矩阵。

进一步地，所述的语义分析步骤还包括：

以句子为单位，计算每一个句子的语义向量：Q＝Σ_K ^-1U_Kq^T，其中q是文本经过预处理后的关键词权重组成的句子表示向量，Σ_K ^-1是上述对角矩阵的逆矩阵，U_K是正交矩阵。

进一步地，所述的聚类步骤包括：

1)设定聚类的K1值，随机生成K1个聚类中心；

2)对于文本矩阵A中的每个句子S计算其到聚类中心的距离，划分到合适的簇；

3)重新计算聚类中心，重复2)直到收敛，最终获得K1个类别的句子簇。

进一步地，所述的聚类步骤中计算句子S到聚类中心距离采用欧式距离法进行计算。

进一步地，所述的聚类步骤中聚类依据是句子与聚类中心的语义向量的相似度。

进一步地，所述的句子选择步骤中在句子簇内分别计算句子节点的权重的公式为：

其中，WS(V_i)是一个句子节点V_i的权重，WS(V_j)是上一次迭代的值，这里以句子i作为无向图的节点V_i；α_ji和α_jk是句子相似度，In(V_i)和Out(V_j)在这里都是除了句子节点V_i以外的所有句子集合，d为阻尼系数，取值0到1，一般取0.85。

进一步地，所述的句子选择步骤中在进行句子选择时，若句子之间相似度超过一定阈值则进行舍弃，以此来去除冗余。

本发明相对于现有技术具有如下的优点及效果：

本发明通过在句子权重计算中加入上下文语义相关信息，更好的体现文本的语义结构，利用LSA语义分析模型，在语义空间计算句子相似度进行聚类，更加充分的表达了文本中词语与句子间的共现关系，最后用textrank算法进行句子选择，并过滤掉相似度过高的句子，有效去除冗余信息，该方法既更合理充分的理解文本语义，又能通过抽取式方法使生成的摘要有较高的可读性和连贯性。

附图说明

图1是本发明中基于融合语义聚类的文本自动摘要方法的流程图；

图2是本发明中的权重计算流程图；

图3是本发明中的算法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，本实施例公开的基于融合语义聚类的文本自动摘要方法包括：文本预处理步骤，权重计算步骤，语义分析步骤，聚类步骤，句子选择步骤。其中：

文本预处理步骤，是对已获得的原始文档内容进行分词，并去除停用词，减少文本噪声，降低与文本主题无关的词汇的影响。原始文档可以来自互联网上文档数据的爬取，特别的，若包含图片和视频其他信息应进行过滤。分词并得到关键词后，统计每一个关键词在文档中出现的次数即词频信息。

权重计算步骤，是将文本表示成一个文本矩阵A。根据已经建立的关键词库，以每个句子为单位，计算关键词在所在句子中的权重。文本矩阵的行向量代表一个词，列向量代表一个句子。权重计算由三部分构成，局部权重计算、全局权重计算和相关权重计算。

其中，局部权重计算包括：

1)关键词若出现在该句子则为1，否则为0；

2)关键词在句子中的词频信息n_ij，关键词j在相应句子i中的出现次数,其中，0≤j＜M,0≤i＜N，M和N分别为关键词和文本句子总数；

3)若为高频词，则进行权重弱化：L_ij＝log(1+n_ij)，其中，n_ij为词频，L_ij为权重弱化后的局部权重值，0≤j＜M,0≤i＜N，M和N分别为关键词和文本句子总数，高频词的定义根据具体的文本中词汇量来设置。比如，文本词汇量为800，出现超过1/5的定义为高频词。

全局权重计算以句子为单位，借鉴逆文本频率来表征：其中，n为文本中所有的句子总数，n_j为包含关键词j的句子数目，0≤j＜M,0≤i＜N，M和N分别为关键词和文本句子总数。特别的，未在句子中出现的关键词设置为1，作为对比。

Claims

1.一种基于融合语义聚类的文本自动摘要方法，其特征在于，所述的文本自动摘要方法包括：

2.根据权利要求1所述的一种基于融合语义聚类的文本自动摘要方法，其特征在于，所述的权重计算步骤包括局部权重计算、全局权重计算和相关权重计算，其中，所述的局部权重计算包括：

2)统计出现的关键词的词频n_ij，即该关键词j在相应句子i中的出现次数,其中，0≤j＜M,0≤i＜N，M和N分别为关键词和文本句子总数；

所述的全局权重计算包括：

所述的相关权重计算包括：

1)根据局部权重和全局权重计算出关键词j在句子i中的初步权重，公式为w_ij＝L_ij*G_ij，其中，L_ij和G_ij分别为局部权重和全局权重，0≤j＜M,0≤i＜N，M和N分别为关键词和文本句子总数；

3)将相似度代入公式计算关键词j在句子i中的最终相关权重：R_ij＝λw_i-1,j+μw_i+1,j，其中λ和μ是与句子i左右相邻的两个句子的相似度，w_i-1,j和w_i+1,j分别是与句子i左相邻和右相邻的句子，若为第一句和最后一句则为特殊情况，分别取λ＝0和_μ＝0。

3.根据权利要求2所述的一种基于融合语义聚类的文本自动摘要方法，其特征在于，其特征在于，所述的文本矩阵A中最终权重计算公式为a_ij＝L_ij*G_ij+R_ij，其中，L_ij和G_ij分别为局部权重和全局权重，R_ij为相关权重，a_ij表示关键词j在句子i中的权重值。

4.根据权利要求1所述的一种基于融合语义聚类的文本自动摘要方法，其特征在于，所述的语义分析步骤包括：

5.根据权利要求1所述的一种基于融合语义聚类的文本自动摘要方法，其特征在于，所述的语义分析步骤还包括：

6.根据权利要求1所述的一种基于融合语义聚类的文本自动摘要方法，其特征在于，所述的聚类步骤包括：

1)设定聚类的K1值，随机生成K1个聚类中心；

7.根据权利要求6所述的一种基于融合语义聚类的文本自动摘要方法，其特征在于，所述的聚类步骤中计算句子S到聚类中心距离采用欧式距离法进行计算。

8.根据权利要求6所述的一种基于融合语义聚类的文本自动摘要方法，其特征在于，所述的聚类步骤中聚类依据是句子与聚类中心的语义向量的相似度。

9.根据权利要求1所述的一种基于融合语义聚类的文本自动摘要方法，其特征在于，所述的句子选择步骤中在句子簇内分别计算句子节点的权重的公式为：

其中，WS(V_i)是一个句子节点V_i的权重，WS(V_j)是上一次迭代的值，这里以句子i作为无向图的节点V_i；α_ji和α_jk是句子相似度，In(V_i)和Out(V_j)在这里都是除了句子节点V_i以外的所有句子集合，d为阻尼系数，取值0到1。

10.根据权利要求9所述的一种基于融合语义聚类的文本自动摘要方法，其特征在于，所述的句子选择步骤中在进行句子选择时，若句子之间相似度超过一定阈值则进行舍弃，以此来去除冗余。