CN112464664B

CN112464664B - 一种多模型融合中文词汇复述抽取方法

Info

Publication number: CN112464664B
Application number: CN202011461021.5A
Authority: CN
Inventors: 黄剑平; 丰仕琦
Original assignee: Hangzhou Normal University
Current assignee: Hangzhou Normal University
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2024-04-30
Anticipated expiration: 2040-12-11
Also published as: CN112464664A

Abstract

本发明公开了一种多模型融合中文词汇复述抽取方法，该方法首先通过文本预处理将原始语料集整理成中文词表集，然后基于“枢轴法”获取对应的候选中文复述词表，并且使用Word2vec训练得到每个词汇的词向量，最后在引入负采样机制的基础上分别利用余弦相似度模型、前馈神经网络模型和卷积神经网络模型计算两个词向量的模型得分，并进行一定参数的加权求和，最终获得候选中文复述词表中每个复述词汇的最终得分，如果最终得分大于指定的阈值，则判断这组复述对是合理的，从而抽取最佳的复述词汇集合。

Description

一种多模型融合中文词汇复述抽取方法

技术领域

本发明涉及复述词汇抽取技术领域，具体涉及一种多模型融合中文词汇复述抽取方法。

背景技术

复述是指以不同的表达形式展现相同语义的一种方法，可用于将用户输入的词汇或句子改写成多个语义相同但表达形式不同的词句。据此可以用来生成同义语料，并扩大语料库规模。复述相关研究主要包括复述词汇的抽取和复述句的生成。

其中，关于复述词汇的抽取，主要方法包括基于类义词典的复述词汇抽取、基于单语平行语料的复述词汇抽取以及基于“枢轴法”的复述词汇抽取，分述如下：

(1)基于类义词典的复述词汇抽取方法主要是根据语义检索类义词典，找到语义相近的单词，从而抽取一组复述词汇。其中类义词典是指利用语义将词语分类汇总的词典。由于类义词典需要大量的人工标注，限制了词典的大小，因此该方法会在一定程度上限制复述词汇的规模。

(2)基于单语平行语料的复述词汇抽取方法是通过训练基于上下文信息的复述分类模型，来识别候选复述词汇组是否合理，从而抽取复述词汇。其中，单语平行语料是指单一语种下不同形式的翻译语料集。该方法同样受限于语料资源的规模，同时，简单地利用上下文信息进行筛选过滤导致误判率较高。

(3)基于“枢轴法”的复述词汇抽取方法，目前主要是通过“枢轴法”获得一组同义词汇，然后通过模型进行筛选判别，抽取最合适的同义词作为原词的最佳复述词汇。“枢轴法”是指当两个词汇的外文翻译集合存在交集时，认定该组词汇互为复述词汇。目前该方法主要使用单一模型对同义词汇进行筛选判别，不能有效过滤掉错误的复述词汇，导致获取的复述词汇质量较差。

发明内容

针对上述技术问题，本发明提供了一种多模型融合中文词汇复述抽取方法，该方法首先通过文本预处理将原始语料集整理成可使用的中文词表集，然后通过“枢轴法”获取其对应的候选中文复述词表，并且使用Word2vec训练得到每个词的词向量，最后引入负采样机制，随机生成相同数量级的无关词词对参与模型的训练，分别利用余弦相似度模型(COS模型)、前馈神经网络模型(FNN模型)和卷积神经网络模型(CNN模型)计算两个词向量的模型得分，并进行一定参数的加权求和，最终获得候选中文复述词表中每个复述词汇的最终得分，根据得分判断复述词汇抽取的效果，得到最佳复述词汇集合。

一种多模型融合中文词汇复述抽取方法，包括步骤：

(A)选择由中文词汇组成的中文词表集，采用“枢轴法”获取其对应的候选中文复述词表；引入负采样机制，随机生成和所述候选中文复述词表中复述词汇同等数量级的无关词汇；

(B)将所述中文词汇、复述词汇和无关词汇分别用Word2vec训练得到各自的词向量；将所得的三类词向量作为训练数据，采用基于pytorch框架的COS模型、FNN模型和CNN模型分别进行正负样本模型训练，得到COS模型分类器、FNN模型分类器以及CNN模型分类器，用于计算互为复述的两个词汇之间的模型得分；

(C)分别利用训练好的COS模型分类器、FNN模型分类器和CNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的COS模型得分、FNN模型得分和CNN模型得分，将所得COS模型得分、FNN模型得分和CNN模型得分按照一定的权重参数进行加权求和，作为该词汇对中的复述词汇的最终得分；

(D)按步骤(C)方法遍历一个中文词汇对应的所有复述词汇，选取所述最终得分不低于设定阈值的复述词汇作为该中文词汇对应的最佳复述词汇集合。

作为优选，步骤(A)中，通过抽取原始语料中的文本内容，对其进行分句处理，并且根据长度进行过滤，然后对每个分句进行分词处理并获取词表集，最后基于词频和汉字编码筛选过滤词表，得到所述由中文词汇组成的中文词表集。

步骤(B)中，以复述词汇为正样本，无关词汇为负样本；因为候选复述词表中的词汇和中文词表中的词汇是基于枢轴法对应的，所以为了更好的拟合词语之间的复述关系，选取的时候是根据中文词汇加复述词汇加随机抽取一个无关词汇进行训练；就是一个中文词汇加对应的复述词汇和无关词汇作为模型训练的数据，三个词向量作为训练数据。

作为优选，步骤(C)中，按照公式(1.1)利用训练好的COS模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的COS模型得分：

其中，F_n和F_m分别表示所述词汇对中的两个词汇n和m所对应的词向量，S_cos为F_n和F_m的余弦相似度，表示两个词汇n和m的语义相似度，即COS模型得分。

作为优选，步骤(C)中，所述利用训练好的FNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的FNN模型得分的具体步骤包括：对FNN模型进行降维操作，利用tanh函数进行连续三层的线性层降维，最后获得一个一维向量，计算过程如下式(1.2)所示：

其中，X＝[W,C_i,F]，W代表所述词汇对中的中文词汇的词向量，C_i代表所述词汇对中的复述词汇的词向量，F代表所述词汇对的特征向量，向量X由W、C_i和F横向拼接得到，l₁～l₃分别代表对应线性层的输出，W₁～W₃分别代表对应线性层的权重，b₁～b₄代表偏差项，最后的FNN模型得分S_fnn通过Sigmoid函数得到，是一个(0,1)的实数。

本发明中所述特征向量是本领域公知的概念，代表词向量的一个特征的向量，即代表某个词汇的特征，该特征以向量表示。上述特征向量F为所述词汇对中两个词汇的特征向量组成的一个特征向量。

作为优选，步骤(C)中，所述利用训练好的CNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的CNN模型得分的具体步骤包括：将所述词汇对中的中文词汇的词向量W和复述词汇的词向量C_i通过竖向维度进行拼接，即CNN模型通过计算得到平均池化层和卷积层的结果，然后将上述结果与所述词汇对的特征向量F进行横向拼接，即Y，使用tanh函数进行连续两层的线性层降维，最后计算Sigmoid函数，得到最终的CNN模型得分S_cnn，是一个(0,1)的实数，具体计算过程如下式(1.3)所示：

其中，[W:C_i]表示向量拼接conv2表示卷积操作，avgpooling表示平均池化操作，w₁～w₃分别代表对应线性层的权重，B₁～B₃代表偏差项，L₁、L₂分别代表对应线性层的输出。

作为优选，所述最终得分S的计算公式如下式(1.4)、(1.5)所示：

S＝αS_fnn+βS_cnn+γS_cos (1.4)，

α+β+γ＝1 (1.5)，

其中，α、β以及γ分别代表S_fnn、S_cnn以及S_cos的权重参数。

本发明与现有技术相比，主要优点包括：

(1)通过融合多模型的方法在效果上要明显优于单一模型，并且能够很好地进行特征的学习，具有更强的鲁棒性。

(2)引入负采样机制能够让模型更好的拟合两个词之间的复述关系，然后通过多模型机制能够更好的对复述词汇进行筛选过滤。

附图说明

图1为实施例的多模型融合中文词汇复述抽取方法示意图；

图2为实施例的多模型融合中文词汇复述抽取方法中涉及到的文本预处理步骤示意图；

图3为实施例的多模型融合中文词汇复述抽取方法中涉及到的FNN模型示意图；

图4为实施例的多模型融合中文词汇复述抽取方法中涉及到的CNN模型示意图。

具体实施方式

下面结合附图及具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的操作方法，通常按照常规条件，或按照制造厂商所建议的条件。

本实施例的多模型融合中文词汇复述抽取方法如图1所示，具体地，包括步骤：

(A)首先抽取原始语料集中的文本内容，其次对文本进行分句处理，根据长度进行句子过滤，将较长较短的句子剔除，将句子长度限定在[3,100]个汉字的区间，然后使用哈工大LTP平台进行分词处理并获取词表集，最后基于词频和汉字编码筛选过滤词表，采用基本汉字编码进行文本预处理，该编码是Unicode编码，包含一共20976个基本汉字，去除词频小于等于3和不包含基本汉字的词，获得最终的中文词表集，具体步骤如图2所示。紧接着，通过调用有道词典相关接口，对中文词表集采用“枢轴法”获取对应的大概61万条候选中文复述词表，部分复述结果如下表1所示。其中，本实施例采用的“枢轴法”认为两个词是否为复述词汇取决于它们的外文翻译集合是否有交集。

表1

引入负采样机制，随机生成和所述候选中文复述词表中复述词汇同等数量的无关词汇，这是考虑到直接使用这些数据会使复述词汇对的数据分布拟合较差，因此通过随机生成和候选中文复述词表中数量相同的无关词汇参与模型训练，可以让模型更好的拟合两个词之间的复述关系。

以复述词汇词向量为正样本，无关词汇词向量为负样本；因为候选复述词表中的词汇和中文词表中的词汇是基于枢轴法对应的，所以为了更好的拟合词语之间的复述关系，选取的时候是根据中文词汇加复述词汇加随机抽取一个无关词汇进行训练；就是一个中文词汇加对应的复述词汇和无关词汇作为模型训练的数据，三个词向量作为训练数据。

(C)分别利用训练好的COS模型分类器、FNN模型分类器和CNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的COS模型得分、FNN模型得分和CNN模型得分，将所得COS模型得分、FNN模型得分和CNN模型得分按照一定的权重参数进行加权求和，作为该词汇对中的复述词汇的最终得分。

按照公式(1.1)利用训练好的COS模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的COS模型得分：

FNN模型结构如图3所示，所述利用训练好的FNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的FNN模型得分的具体步骤包括：对FNN模型进行降维操作，利用tanh函数进行连续三层的线性层降维，最后获得一个一维向量，计算过程如下式(1.2)所示：

CNN模型结构如图4所示，所述利用训练好的CNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的CNN模型得分的具体步骤包括：将所述词汇对中的中文词汇的词向量W和复述词汇的词向量C_i通过竖向维度进行拼接，即CNN模型通过计算得到平均池化层和卷积层的结果，然后将上述结果与所述词汇对的特征向量F进行横向拼接，即Y，使用激活函数tanh函数进行连续两层的线性层降维，最后计算Sigmoid函数，得到最终的CNN模型得分S_cnn，是一个(0,1)的实数，具体计算过程如下式(1.3)所示：

最终得分S的计算公式如下式(1.4)、(1.5)所示：

S＝αS_fnn+βS_cnn+γS_cos (1.4)，

α+β+γ＝1 (1.5)，

其中，α、β以及γ分别代表S_fnn、S_cnn以及S_cos的权重参数。

通过实验对比，结合正负样本的占比以及模型复杂度的考虑，本实施例设置参数如下：α＝0.15,β＝0.15以及γ＝0.7。

表2展示了不同模型融合方法的试验结果。

表2

表2中，top200指按照对应的模型融合方法最终获取的复述词汇集中得分前200的词条，random200表示中文词表集、候选中文复述词表中随机抽取的200个词汇对。词条就是指一组词汇对，包括中文词和复述词，不包括无关词。一个中文词对应一组复述词，从一组复述词中抽取一个复述词和该中文词组成一个词条。

评价指标Precision的计算方法如下式(1.6)所示：

其中，item指的是中文词汇。

排序模型指标值MRR的计算公式如下式(1.7)所示：

其中，将能够产生复述词汇的词语统称为“主词”，|N|表示主词个数，这里为200，word_i表示第i个主词，i代表某一个复述结果中第一个正确的复述词汇的下标(从1开始)，当不存在对应正确的复述词汇时，令

从表2结果可知，将三模型融合的方法在效果上要明显优于两模型融合，并且能够很好地进行特征的学习，具有更强的鲁棒性。进一步地，本发明在上述三个模型融合的基础上加入了负采样机制，通过实验发现Precision和MRR值都有了显著提升，在top200的测试数据中，MRR值甚至达到了0.993。本发明引入负采样机制能够更好的拟合两个词之间的复述关系，本发明进行多模型融合的同时引入负采样机制能够更好的实现对复述词汇的过滤筛选。

此外应理解，在阅读了本发明的上述描述内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种多模型融合中文词汇复述抽取方法，其特征在于，包括步骤：

其中，F_n和F_m分别表示所述词汇对中的两个词汇n和m所对应的词向量，S_cos为F_n和F_m的余弦相似度，表示两个词汇n和m的语义相似度，即COS模型得分；

所述利用训练好的FNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的FNN模型得分的具体步骤包括：对FNN模型进行降维操作，利用tanh函数进行连续三层的线性层降维，最后获得一个一维向量，计算过程如下式(1.2)所示：

其中，X＝[W,C_i,F]，W代表所述词汇对中的中文词汇的词向量，C_i代表所述词汇对中的复述词汇的词向量，F代表所述词汇对的特征向量，向量X由W、C_i和F横向拼接得到，l₁～l₃分别代表对应线性层的输出，W₁～W₃分别代表对应线性层的权重，b₁～b₄代表偏差项，最后的FNN模型得分S_fnn通过Sigmoid函数得到，是一个(0,1)的实数；

所述利用训练好的CNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的CNN模型得分的具体步骤包括：将所述词汇对中的中文词汇的词向量W和复述词汇的词向量C_i通过竖向维度进行拼接，即CNN模型通过计算得到平均池化层和卷积层的结果，然后将上述结果与所述词汇对的特征向量F进行横向拼接，即Y，使用tanh函数进行连续两层的线性层降维，最后计算Sigmoid函数，得到最终的CNN模型得分S_cnn，是一个(0,1)的实数，具体计算过程如下式(1.3)所示：

其中，[W:C_i]表示向量拼接conv2表示卷积操作，avgpooling表示平均池化操作，w₁～w₃分别代表对应线性层的权重，B₁～B₃代表偏差项，L₁、L₂分别代表对应线性层的输出；

2.根据权利要求1所述的多模型融合中文词汇复述抽取方法，其特征在于，步骤(A)中，通过抽取原始语料中的文本内容，对其进行分句处理，并且根据长度进行过滤，然后对每个分句进行分词处理并获取词表集，最后基于词频和汉字编码筛选过滤词表，得到所述由中文词汇组成的中文词表集。

3.根据权利要求1所述的多模型融合中文词汇复述抽取方法，其特征在于，所述最终得分S的计算公式如下式(1.4)、(1.5)所示：

S＝αS_fnn+βS_cnn+γS_cos(1.4)，

α+β+γ＝1(1.5)，其中，α、β以及γ分别代表S_fnn、S_cnn以及S_cos的权重参数。