CN111125349A

CN111125349A - 基于词频和语义的图模型文本摘要生成方法

Info

Publication number: CN111125349A
Application number: CN201911301631.6A
Authority: CN
Inventors: 王青松; 马腾; 张衡; 张鑫琪; 王军; 接磊; 刘庆楠; 王雪彤; 祝慷骏
Original assignee: Liaoning University
Current assignee: Liaoning University
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-05-08

Abstract

一种基于词频和语义的图模型文本摘要生成方法。其步骤如下：1)将文本中的句子进行分词，并进行词性标注。2)对词项进行过滤，只保留特定词性的词项。3)利用Word2Vec模型和BM25算法训练词向量，形成特征词向量集，进而表示句子，构建句子‑词文本矩阵。4)通过文本矩阵，构建文本无向图模型。5)利用TextRank算法进行句子结点权值的迭代计算，直至收敛，选取TOP‑K句子生成文本摘要。6)实验结果表明，相比传统鉴于文本单一词频特征和基于文本语义特征的文本自动摘要方法，本文方法在最佳调节因子组合下，取得了更高的Rouge值，证明本文方法有效整合了文本词频和语义特征，进而通过基于上下文信息的TextRank算法提高了摘要生成的准确率。

Description

基于词频和语义的图模型文本摘要生成方法

技术领域

本发明涉及一种文本摘要生成方法，尤其是一种基于词频和语义的图模型文本摘要生成方法。

背景技术

文本摘要生成常用BM25算法或传统神经网络算法来评价搜索词和文档之间相关性，然而用在文本摘要生成的文本相似度的选择阶段会凸显出如下问题，使文本的相似度在性能上有欠缺。

1.传统神经网络算法需要语料库大，训练时间长，生成摘要较慢，应用性差。采用浅层神经网络，对词的维度进行压缩，可以缩短训练时间，生成摘要的速度更快。

2.以前有监督的算法，需要训练语料库，进行人工标注语料等，不实用；相对于监督学习，无监督学习使用的是没有标签的数据。机器会主动学习数据的特征，并将它们分为若干类别，相当于形成未知的标签。以前有监督的算法需要的语料库较大时，训练时间长，生成摘要较慢，应用性差。无监督自动文摘无需训练语料库，也不需要学习过程，可以直接使用。

3.基于机器学习的摘要生成方法通过训练语料库能充分获得词和句子的语义信息，但此类方法过于依赖包含多目标词的语料库，且只适用于处理短文本，过长的文本输入序列会导致学习框架无法准确的获取句子的语义信息，会导致编码器端无法准确的提取文本的语义信息，产生长距离依赖问题，导致模型无法收敛，进而影响到摘要生成的准确度。

发明内容

为了解决上述存在的技术问题，本发明提供了一种基于词频和语义的图模型文本摘要生成方法，通过在预处理阶段对文本进行处理，将文本分割成句子，对每个句子进行分词，进行词性标注。对词项进行过滤，首先是停用词过滤；其次是词性过滤，只保留特定词性的词项，例如名词、动词、形容词等。利用Word2Vec模型和BM25算法生成词向量，进而生成句子向量，构建句子-词文本矩阵。通过文本矩阵，构建文本的无向图模型。利用BM25算法和Word2Vec算法相结合得到的特征词向量通过进而得到句子间的相似度，作为图模型中相应边的权重。利用TextRank算法实现句子结点权值的迭代计算，直至收敛，选取TOP-K句子作为文本摘要，其中K＝文本句子数*10％。

为了实现上述目的，本发明创造采用的技术方案为：基于词频和语义的图模型文本摘要生成方法，其特征在于，其步骤为：

1)分词：将每个句子进行分词并进行词性标注；

2)过滤：进行停用词过滤、低频词过滤和词性过滤；

3)词向量训练：

3.1)采用BM25算法，利用词频的信息表现一个词的词向量的词频信息；

3.2)通过Word2Vec模型，利用语义信息来表示一个词的词向量的语义信息；

3.3)利用两个调节因子α和β，调整两个算法得到的特征词向量的权值比重，然后进行相加得到最后的特征词向量，最后用特征词向量集表示文本的每一个句子，构建文本矩阵；

4)构建文本无向图模型：通过步骤3.3)中的文本矩阵，以句子作为图的结点，以句子间的相似关系作为结点之间的边，利用余弦定理得到句子间的相似度作为图模型中对应边的权重，构建文本无向图模型；

5)摘要生成：利用TextRank算法对句子结点权值进行迭代计算，直至收敛，选取TOP-K句子作为文本摘要。

所述的步骤3.1)中具体方法为：

1)BM25算法的公式如下：

其中，Q为查询语句，q_i为对Q的分词；d为整篇文档；

Wi为判断一个词与一个文档的相关性的权重；公式如下：

其中，N为文本中所有的句子数量，n(q_i)为包含了q_i的句子数量；

R(q_i，d)为词q_i与文档d的相关性得分；

其中：k₁，k₂，b为调节因子，k₁＝2，b＝0.75；f_i为在d中的出现频率；qf_i为在Q中的出现频率；dl为文档d的长度；avgdl为文档中句子的平均长度；通过参数b调整文档长度对相关性影响的大小，b越大，词的长度对相关性得分的影响越大，反之越小；

BM25算法的相关性得分公式可总结为：

所述的步骤3.2)中，具体方法为：

3.2.1)首先，对中文语料库要进行分词处理；

3.2.2)将每一个词进行one-hot编码得到预处理后的语料库，将每个词的one-hot编码作为Word2Vec的输入；

3.2.3)通过Word2Vec训练词向量，其中，训练模型使用的是CBOW模型；

得分Score_word2vec：

公式⑹中h_i表示取到的词，dis表示对取得的词与所有词之间的内积，m表示该句子中的所有词的数量，Wordm表示该句子中所有的词，将词h_i与其他词的内积加权求平均值作为句子的得分；

内积公式dis为：

其中，a_i和b_i分别为两个词通过Word2Vec模型得到的词向量。

所述的步骤3.3)中，使用得分Score_sim确定每个句子的重要程度；

Score_sim＝αScore(Q,d)+βScore_word2vec ⑻

所述的步骤4)中，具体方法为：

构建无向加权网络图：G＝(V,E,W)，以句子为结点V，以句子间的相似关系作为结点间的边，句子间的相似度为边E的权重W；

对于句子相似度的计算，采用的是余弦定理，将建立好的图模型带入经典的TextRank算法进行递归计算，最终得到每个句子的TextRank得分，排序后，根据提取率输出TOP-K个句子组成摘要，其中K＝文本句子数*10％；

余弦定理公式：

其中，x_i和y_i分别为通过两个算法结合得到的特征词向量。

结点V_i的迭代公式：

其中，W_ij表示结点V_i和结点V_j间边的权重，用结点V_i和结点V_j的相似度表示；W_ji In(V_i)表示指向结点V_i的所有结点集合，Out(V_j)表示结点V_j指向的所有结点集合；d为阻尼系数，0≤d≤1，表示图中的某一结点跳转到其他任意结点的概率，d取值0.85。

所述的步骤5)中，具体方法为：

当文本经TextRank算法处理完之后，得到句子迭代之后的权值，系统将以键值对<权值，句子>作为结点构造红黑树，当对红黑树进行结点的插入或删除操作时，通过左旋或右旋操作，实现红黑树自身的重建，然后本通过系统方法，强行实现红黑树结点权值的逆序排列，然后选取TOP-K个权值所对应的句子作为文本摘要，其中K＝文本句子数*10％。

本发明采用上述方法，优点如下：

1)在分词系统中进一步添加了用户字典功能，用户词典的分词的优先级高于核心词典，把用户词典中的单元词合并到粗分结果中，并将用户词语收集到构造词典中。通过对构造词典索引模式，完成对细分结果的优化，最后对照构造词典对分词结果进行词性标注。实现了数字、人名、地名、机构名等实体名识别功能，并且提高了特定领域分词的针对性。

2)BM25算法在得到词向量时只考虑词在文档中出现的频率，表现出词的词频信息，而Word2Vec表现语义信息，是对BM25算法的一种很好的补充，采用两种算法结合的方式得到词的词向量。

3)BM25算法很大程度上利用了处理文本中词项的词频信息，考虑到词与文档的相关性以及文档的长度，较大程度上利用了文档所表露的信息。

4)Word2Vec模型以搜狗和维基百科为语料库训练词向量，考虑到了文本之外的语义对处理文本的影响，并且将词向量融于处理文本词序当中。采用Word2Vec浅层神经网络，解决了传统的神经网络模型训练时间过长和训练的维数过大的问题，对词的维度进行压缩，能够节省时间，较快的算出句子之间的相似度。

附图说明

图1：TextRank计算结果示例图。

图2：长文本数据集中不同参数组合的实验结果。

图3：短文本数据集中不同参数组合的实验结果。

图4：长文本数据集下各方法的评价指标得分结果。

图5：短文本数据集下各方法的评价指标得分结果。

图6：系统流程图。

图7：文本预处理模块流程图。

图8：摘要生成模块流程图。

具体实施方式

1.分词：首先将每个句子进行分词，进行词性标注，使用的是自然语言处理包Hanlp中的标准分词器。利用最短路径分词原理(最短路径求解采用Viterbi算法)和HMM(隐马尔可夫模型)，实现文本的分词及词性标注。其中还实现了数字、人名、地名、机构名等实体名的识别，并且为了提高特定领域分词的针对性，在分词模块中进一步添加了用户字典功能。

2.对词项进行过滤：去停用词，对文本进行降噪处理，系统以句子为单位对词项进行过滤，首先是停用词过滤、低频词过滤，其次是词性过滤。

3.词向量训练：BM25算法是利用词频的信息来表示一个词的词向量，而Word2Vec模型是利用语义信息来表示词向量。利用BM25算法得到基于词频信息的词向量，利用Word2Vec模型得到基于语义信息的词向量。利用两个调节因子α和β调整两个算法得到的特征词向量的权值比重(α和β的取值是根据摘要生成的准确率实验所得)，然后进行相加得到最后的特征词向量，最后用特征词向量集表示文本的每一个句子，构建句子-词文本矩阵。

4.构建文本无向图模型：通过文本矩阵，构建文本无向图模型，以句子作为图的结点，以句子间的相似关系作为结点之间的边，利用余弦定理得到句子间的相似度，作为图模型中对应边的权重。

5.摘要生成：利用TextRank算法实现句子结点权值的迭代计算，直至收敛，选取TOP-K句子作为文本摘要，其中K＝文本句子数*10％。

相应算法的详细说明：

1)BM25算法的公式如下：

其中，Q表示查询语句，q_i为对Q的分词，简单的来说就是将分词之后的句子作为Q,每个词看成q_i；d表示整篇文档；W_i表示词q_i的权重。R(q_i，d)表示词与文档d的相关性得分。

W_i的定义：判断一个词与一个文档的相关性的权重，方法有多种，较常用的是IDF。这里以IDF为例，公式如下：

N为文本中所有的句子数量，n(q_i)为包含了q_i的句子数量。由公式⑵可以看出，包含q_i的句子越多则q_i的权重越低。

R(q_i，d)的定义：词q_i与文档d的相关性得分。BM25中相关性得分的一般定义形式：

k₁，k₂，b为调节因子，通常根据经验设置，一般k₁＝2，b＝0.75；f_i为在d中的出现频率，qf_i为在Q中的出现频率。dl为文档d的长度，avgdl为文档中句子的平均长度。从K的定义中可以看到，参数b的作用是调整文档长度对相关性影响的大小。b越大，拿到词的长度对相关性得分的影响越大，反之越小。综上，BM25算法的相关性得分公式可总结为：

2)Word2Vec模型：是用一个浅层的神经网络把one-hot形式的稀疏词向量映射称为一个n维(n一般为几百)的稠密向量的过程。one-hot，就是用一个很长的向量来表示一个词，向量的长度为词典的大小，向量的分量只有一个1，其他全为0，1的位置对应该词在词典中的位置。例如：

'中国'表示为[00010000000......]

'美国'表示为[00000000100......]

利用Word2Vec计算词向量的过程。首先，对中文语料库要进行分词处理，其次将每一个词进行one-hot编码得到预处理后的语料库，将每个词的one-hot编码作为Word2Vec的输入。最后通过Word2Vec训练词向量，其中，训练模型使用的是CBOW模型。

CBOW模型是已知当前词的上下文，来预测当前词，它包括三层：输入层，投影层，输出层，选择一个损失函数，来度量训练样本计算出的输出和真实的训练样本输出之间的损失，来进行梯度下降从而不断更新矩阵，一直迭代到规定的最小值。假设得到的概率分布已经达到了设定的迭代次数，那么现在训练出来的矩阵，由任何一个词的one-hot乘以这个矩阵都将得到自己的词向量，再根据词的词向量计算句子的得分Score_word2vec。

Score_word2vec的定义：

公式⑹中h_i表示取到的词，dis表示对取得的词与所有词之间的内积，m表示该句子中的所有词的数量，Wordm表示该句子中所有的词，将词h_i与其他词的内积加权求平均值作为句子的得分。

内积公式dis为：

其中，a_i和b_i分别为两个词通过Word2Vec模型得到的词向量。

3)BM25算法与Word2Vec模型结合：BM25算法是利用词频的信息来表示一个词的词向量，而Word2Vec模型是利用语义信息来表示词向量。利用BM25算法得到基于词频信息的词向量，利用Word2Vec模型得到基于语义信息的词向量。BM25算法只表现词的词频信息，而Word2Vec模型表现词的语义信息，是对BM25算法的一种很好的补充。利用两个调节因子α和β调整两个算法得到的特征词向量的权值比重(α和β的取值是根据摘要生成的准确率实验所得)，然后进行相加得到最后的特征词向量，最后用特征词向量集表示文本的每一个句子，构建句子-词文本矩阵，用得分Score_sim确定每个句子的重要程度。

Score_sim公式的定义：

Score_sim＝αScore(Q,d)+βScore_word2vec ⑻

4)构建无向加权网络图：G＝(V,E,W)，以句子为结点V，以句子间的相似关系作为结点间的边，句子间的相似度为边E的权重W。对于句子相似度的计算，采用的是余弦定理，将建立好的图模型带入经典的TextRank算法进行递归计算，最终得到每个句子的TextRank得分，排序后，根据提取率输出TOP-K个句子组成摘要，其中K＝文本句子数*10％。

余弦定理公式：

其中，x_i和y_i分别为通过两个算法结合得到的特征词向量。

结点V_i的迭代公式：

其中，W_ij表示结点V_i和V_j结点间边的权重，用结点V_i和结点V_j的相似度表示；W_ji In(V_i)表示指向结点V_i的所有结点集合，Out(V_j)表示结点V_j指向的所有结点集合；d为阻尼系数(0≤d≤1)，表示图中的某一结点跳转到其他任意结点的概率，d取值0.85。

此外，在使用TextRank算法时要注意两点：首先，初始值设定，一般让所有结点初始得分为1；其次，收敛判定，一般收敛阈值为0.0001，即图中任意一结点的误差率小于0.0001时，达到收敛，停止迭代，本系统设置为0.001。

例如一篇由10个句子组成的文本，其计算结果可以由图1直观的展现出来。其中，结点的编号为句子的编号，结点旁的数字表示该结点的评分。由图1可以看出编号为7，9，10的三句评分最高，因此可以将这三句选作这篇文本的摘要。

5)TOP-K生成自动文摘：当文本经TextRank算法处理完之后，得到句子迭代之后的权值，系统将以键值对<权值，句子>作为结点构造红黑树，当对红黑树进行结点的插入或删除操作时，通过左旋或右旋操作，实现红黑树自身的重建，然后本通过系统方法，强行实现红黑树结点权值的逆序排列，然后选取TOP-K个权值所对应的句子作为文本摘要，其中K＝文本句子数*10％。

6.算法的评价标准

实验采用长文本和短文本两种数据集，长文本数据集为从北大中文核心期刊上整理的交通、教育、经济、军事、体育、艺术、政治等八类主题论文，每类三篇文本，共24篇，每篇文档平均包含7000个词，约350个句子，相应的摘要平均包含200个词，约10个句子。短文本数据集为从新浪和网易新闻网页上收集的40篇新闻，每篇新闻平均包含450个词，约30个句子，通过中科院开源的NLP处理平台生成相应摘要作为标准摘要，平均包含150个词，约3个句子。

实验环境为Intel Core i7-5500U，2.40GHz、内存为8GB、Windows7professional。使用JAVA语言在Eclipse平台上对算法进行测试。

实验摘要质量的评价方法采用自动摘要领域使用最广泛的Rouge指标，Rouge基于摘要中n元词(n-gram)的共现信息来评价摘要，是一种面向n元词召回率评价方法。基本思想是将系统自动生成的自动摘要与标准摘要对比，通过统计两者之间重叠的基本单元(n元语法、词序列和词对)的数目来评价摘要的质量。本文采用Rouge-1,Rouge-2两种评价指标来评价。ROUGE-N定义公式为：

式中，n表示n-gram的长度，{ReferenceSummaries}事先获得的人工标准摘要，Countmatch(gramn)表示候选摘要和标准摘要中同时出现n-gram的个数，Count(gramn)则表示标准摘要中出现的n-gram个数。

6.1调节因子加权系数的确定

为了合理评估自动文摘的质量，本文采取上述的Rouge-1,Rouge-2两种评价指标作为衡量标准，计算特征词的词频权重、外不语义权重两个权重影响因子的加权系数。综合句子之间权重影响因子的加权系数α,β，本文取α,β以0.1的间距改变(增大或减小，保证α+β＝1)，经过大量实验，计算不同加权系数组合下的Rouge-1,Rouge-2值，选取了一部分有代表的实验数据如表1所示。

表1不同比例组合下的加权系数值

针对、选取的10组参数组合，分别计算两种数据集下每篇测试文本的自动摘要Rouge指标，并取其均值，实验结果如图2、图3所示。

实验结果表明，当α＝0.6,β＝0.4时，本文方法在长文本数据集和短文本数据集上摘要评价指标平均值达到最高，表明通过Word2vec实现对文本外部语义的补充起到了良好的效果。通过图2和图3中指标值的变化趋势和组别临界值指标值对比可知，长文本中，文本的词频特征占的比重比外部语义特征占的比重大，而短文本中，外部语义特征占的比重比词频特征小，其原因在于：长文本中，文本具有较长的长度，表达出了丰富的语义信息，其词频特征能比较准确的体现其文本信息。而在短文本中，由于文本长度比较短，所以词频特征所表示的语义信息比较欠缺。通过引入外部语义，实现对文本信息的补充，进而提高了文本摘要生成的准确率。

6.2摘要评估

通过6.1的实验，得到了一组最佳的的调节因子组合，为了验证本文方法的有效性，在最佳系数组合下，将本文提出的基于词频特征和外部语义图模型的自动摘要方法分别与TextRank方法、基于词频-逆文档率(TF-IDF)方法和基于外部语义Word2vec方法进行实验对比，结果如图4所示。

通过图4和图5的实验结果对比可知，本文方法对长文本和短文本都表现出良好的处理能力，Rouge-1,Rouge-2评价指标都取得了较好的得分结果。由于TF-IDF方法过于依赖文本的词频特征，而且短文本中词频信息语义表表示不足，导致摘要生成质量相对较低。基于外部语义的Word2vec方法在短文本处理中，补充了短文本的外部语义，其效果明显高于基于词频的TF-IDF方法，但在长文中未考虑文本上下文信息之间的联系，不能有效捕获文本的语义信息，进而影响了摘要生成的准确率。TextRank方法虽然考虑了文本的上下文信息，但未考虑文本的词频和语义特征，其性能相比本文方法明显较差。本文方法从文本的词频特征和语义特征角度出发，首先通过BM25算法和Word2vec模型分别计算特征词的词频权重和语义权重，然后通过系数α,β的最佳组合调节词频权值和语义权值的比重，最后通过TextRank算法捕捉文本的上下文信息，实验表明，本文方法在处理长文本和短文本上，摘要生成的质量均高于其它方法，表明了本文方法的优越性。

7.实现步骤

1)分词：首先将每个句子进行分词，进行词性标注，使用的是自然语言处理包Hanlp中的标准分词器。利用最短路径分词原理(最短路径求解采用Viterbi算法)和HMM(隐马尔可夫模型)，实现文本的分词及词性标注。其中还实现了数字、人名、地名、机构名等实体名的识别，并且为了提高特定领域分词的针对性，在分词模块中进一步添加了用户字典功能。

2)对词项进行过滤：去停用词，去停用词，对文本进行降噪处理，系统以句子为单位对词项进行过滤，首先是停用词过滤、低频词过滤，其次是词性(名词、动词、副词、形容词)过滤。

3)词向量训练：BM25算法是利用词频的信息来表示一个词的词向量，而Word2Vec模型是利用语义信息来表示词向量。利用BM25算法得到基于词频信息的词向量，利用Word2Vec模型得到基于语义信息的词向量。利用两个调节因子α和β调整两个算法得到的特征词向量的权值比重(α和β的取值是根据摘要生成的准确率实验所得)，然后进行相加得到最后的特征词向量，最后用特征词向量集表示文本的每一个句子，构建句子-词文本矩阵。

4)构建文本无向图模型：通过文本矩阵，构建文本无向图模型，以句子作为图的结点，以句子间的相似关系作为结点之间的边，利用余弦定理得到句子间的相似度，作为图模型中对应边的权重。

5)摘要生成：利用TextRank算法实现句子结点权值的迭代计算，直至收敛，选取TOP-K句子作为文本摘要，其中K＝文本句子数*10％。

相应算法的详细说明：

1)BM25算法的公式如下：

'中国'表示为[00010000000......]

'美国'表示为[00000000100......]

Score_word2vec的定义：

内积公式dis为：

其中，a_i和b_i分别为两个词通过Word2Vec模型得到的词向量。

Score_sim公式的定义：

Score_sim＝αScore(Q,d)+βScore_word2vec ⑻

余弦定理公式：

其中，x_i和y_i分别为通过两个算法结合得到的特征词向量。

结点V_i的迭代公式：

其中，W_ij表示结点V_i和结点V_j间边的权重，用结点V_i和结点V_j的相似度表示；W_ji In(V_i)表示指向结点V_i的所有结点集合，Out(V_j)表示结点V_j指向的所有结点集合；d为阻尼系数(0≤d≤1)，表示图中的某一结点跳转到其他任意结点的概率，d取值0.85。