CN110457444A

CN110457444A - 一种基于深度文本匹配的同义句转换方法

Info

Publication number: CN110457444A
Application number: CN201910748614.0A
Authority: CN
Inventors: 汝佩哲; 李锐; 于治楼
Original assignee: Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Current assignee: Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2019-11-15

Abstract

本发明公开了一种基于深度文本匹配的同义句转换方法，其实现过程为：首先获取任意两段文本，分析这两段文本的字词，通过字词在结构上匹配短句，然后再通过短句，应用到比短句长的句式，归纳匹配信息，生成匹配度，最后将匹配度最高的两段文本输出为同义句。该一种基于深度文本匹配的同义句转换方法与现有技术相比，以基于深度学习的文本匹配模型为基础，对输入句式进行语义交互，然后根据匹配程度输出最优同义句式；本方法与现有的同义句转换方法相比，更节省人力物力，所需人工提取特征的代价较小，并且更易发觉隐含在大量数据中的含义不明显的特征。

Description

一种基于深度文本匹配的同义句转换方法

技术领域

本发明涉及深度学习技术领域，具体地说是一种实用性强、基于深度文本匹配的同义句转换方法。

背景技术

同义句(synonymic sentences)亦称“同义异构句”。句法结构不同而命题意义相同的一组句子。如“老张批评了小王”、“老张把小王批评了”、“小王被老张批评了”，这三个句子就是同义句。同义句之间可以互相转换而命题意义不变；如果转换前后命题意义不同，则不是同义句。同义句在语义学中也称释义句，运用句法释义的手段可以来确立某些类型形式结构之间的转换关系。

同义句转换属于自然语言的处理任务中的一种，可以抽象成文本匹配的问题。也就是说同义句转换可以归结为两个同义词句的匹配。如何根据同义词句匹配所需关注的特性，利用最合适的模型，找到最优的匹配方式是处理这个文本匹配任务的最大难点。句式文本同义匹配不是简单的同义词叠加组合，而需要层次化的方式逐步匹配组合，从字到词，从词到短语，在从短语到完整的句子。其中，字词的语义往往是多元的，结合语境才能得到最准确的语义。并且短语匹配的顺序和连词的使用，往往会对匹配程度产生较大的影响。这些都是处理同义句转换中的难点。

传统的同义句转换方法主要基于人工提取特征，问题的焦点在于如何设置合适的文本匹配算法来学习到最优的匹配模型。

由于传统方法需要人工定义和抽取特征，需要花费大量人力物力成本才能提取倒少量有效的特征。传统模型很难发掘出那些含义不明显的特征，模型泛化能力不强。

现有技术中，深度学习的方法，是一种非人工的，是自动化地从原始数据中提取特征的。深度文本匹配模型结合了向量的应用，通过运算向量之间的距离更准确地描述了不同字词间的语义关系。深度学习模型自身的层次化，序列化的特性，使之能更准确自然地展现自然语言中不容忽视的层次结构和组合操作；随着科技的发展，高性能计算的能力和大数据的优势使得深度学习模型可以依托神经网络的灵活结构，直接地学习既定的的一般化的语言规律。还可以发现，刻画出非一般化的语言现象，进而提升匹配的精度。

基于这种情况，如何采用深度学习方法替换人工方法，实现同义句转换成为未来亟需解决的问题。

发明内容

本发明的技术任务是针对以上不足之处，提供一种实用性强、基于深度文本匹配的同义句转换方法。

一种基于深度文本匹配的同义句转换方法，其实现过程为：首先获取任意两段文本，分析这两段文本的字词，通过字词在结构上匹配短句，然后再通过短句，应用到比短句长的句式，归纳匹配信息，生成匹配度，最后将匹配度最高的两段文本输出为同义句。

上述匹配度是通过在训练数据集上自动学习匹配深度学习网络模型获取的,即首先去获取一训练数据集，该训练数据集的一部分数据用于训练，一部分数据用于测试，训练完成后，用训练出的模型去判断一对句子的匹配度，判断已有句子库中所有句子与给定句子的匹配度，匹配度最高的句子即为该句子的同义句。

所述训练数据集的获取过程为：将同义句集合作为训练样本，然后通过将同义句文本转化为词向量、句子向量，利用python中numpy函数库实现全连接神经网络，再以同义句为正例，其他句子为反例进行训练，得到训练数据集。

通过将同义句文本转化为词向量、句子向量的过程为：获取文本的句子，通过python中gensim包下的Word2Vec函数将句子的每个单词转化为词向量，再输入一个参数a，对一个句子所有词向量加权平均获得句子向量。

所述a为一个极小值，α∈{10^-i：1＜i＜5}。

将单词转化为词向量的具体过程为：

首先定义表示文本样本s中的单词序列，其中n表示句子的长度，x_i表示句子中的单词；

将文本中的每个单词x_i通过Word2Vec方法得到词向量w_i的一个映射。

获得句子向量的具体过程为：

对文本中所有词向量w_i进行加权平均得到文本S的句子向量p；每个词向量的权重表示为其中a为参数，p(w)为词w出现的频率；

基于得到的句子向量，模型连接上3层全连接来表达整个句子的主题向量，这里的模型是指深度学习网络模型，该深度学习网络模型最底层为输入层，向上连接三层全连接层。

以同义句为正例，其他句子为反例进行训练是指：训练数据集以同义句集合作为训练数据，以输入句子的同义句作为正样本，其他句子里随机抽取一定量作为负样本，这里的一定量是指正负样本比值为1:4～6，然后正负样本组成一组，通过Softmax函数计算每个句子和输入句子的匹配概率。

获得匹配概率后，还需最大化所有正例的匹配概率的似然函数，即：

公式中L是指损失函数，训练目的为最小化损失函数，最大化P(d⁺|s)，即最大化句子合集中正样本句子与s的匹配概率，其中P代表匹配概率，P(d|s)代表s与句子d匹配概率，我们要最大化P(d⁺|s)；

e为数学中自然常数；d′∈D代表句子库中的其他句子；r是Softmax函数的平滑参数，f(s，d)表示一个输入句子与其他句子d之间的匹配度，D表示所有句子的合集，d⁺代表正样本，也就是输入句子的同义句。

本发明的一种基于深度文本匹配的同义句转换方法，具有以下优点：

本发明提供的基于深度文本匹配的同义句转换方法与现有技术相比，以基于深度学习的文本匹配模型为基础，对输入句式进行语义交互，然后根据匹配程度输出最优同义句式；本方法与现有的同义句转换方法相比，更节省人力物力，所需人工提取特征的代价较小，并且更易发觉隐含在大量数据中的含义不明显的特征；智能化程度高，需要花费的人力物力较少，特征选择过程相对短；模型更精确，主题更明朗，能数字化语义相近程度；对隐含的，含义不明显的特征更敏感，使得在有些特殊情况下能展现更高的性能，实用性强，适用范围广泛，易于推广。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图1为本发明方法具体实例网络框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

同义句转化是当前自然语言处理的一个热门领域。当需引用文献时，掌握同义句转换技巧是非常重要的，准确完整地转述所需引用文献常常是写好各类论文的关键。然而，想要掌握同义句转换技巧是非常难的，尤其在需引用外文文献时，想准确完整地转述引用文献更是难上加难。因此，一个高效并且准确的同义句转换方法至关重要。

本发明提供一种基于深度文本匹配的同义句转换方法，其实现过程为：首先获取任意两段文本，分析这两段文本的字词，通过字词在结构上匹配短句，然后再通过短句，应用到比短句长的句式，归纳匹配信息，生成匹配度，最后将匹配度最高的两段文本输出为同义句。

通过数学符号对可以对文本匹配问题进行形式化。其中s₁∈S₁,s₂∈S₂为两段文本，如一个句子与其同义句，r⁽ⁱ⁾∈R表示对象的匹配程度。文本匹配的目标是在训练数据集上自动学习匹配模型f：S₁×S₂→R,使对测试数据集S_test上任意输入s₁∈S₁,s₂∈S₂，能够预测出其匹配度r，最后通过排序匹配度得到结果。

整体的匹配思路可以归结为，从字词出发，然后从结构上匹配不同的短语，进而再应用到更长的句式中来归纳匹配信息，使之有层次地得到两段文本的匹配度。

S_train中S1，S2是指一系列同义句的合集，R是句子间匹配度的合集，比如：

S1＝{你吃过午饭了吗，今天天气很好，我喜欢吃米饭和馒头，…}；

S2＝{你午饭吃了吗，今天天气真不错，我喜欢吃馒头和米饭，…}。

s1,s2分别代表S1，S2中的一句话，相当于机器学习中的特征，比如：

r是s1和s2的匹配度，相当于机器学习中的标签，比如：

r¹＝0.9；

r²＝0.9；

r³＝1.0；

r⁴＝…

S_test是一个跟S_train一样的合集，比如S_test可以是S_train中取出的1/10的数据。用S_train中9/10的数据去训练，用剩下1/10的数据去做test验证。

训练完成以后，用训练出的模型去判断S_test中一对句子的匹配度，去跟这一对句子真实的匹配度去比较来判断模型好坏。

应用时，给定一个句子，判断已有句子库中所有句子与给定句子的匹配度，匹配度最高的句子即为该句子的同义句。

可分解为以下步骤：

第一步，准备同义句集合作为训练样本。

第二步，利用python中gensim包下的Word2Vec函数将句子的每个单词转化为词向量。

第三步，输入参数a，对一个句子所有词向量加权平均获得句子向量。

第四步，利用python中numpy函数库实现全连接神经网络。

第五步，以同义句为正例，其他句子为反例进行训练。

第六步，输入测试句，输出其最大匹配度句子为同义句。

进一步的，可对上述步骤具体分解：

步骤一：定义表示文本样本s中的单词序列，其中n表示句子的长度，x_i表示句子中的单词。

步骤二：将文本中的每个单词x_i通过Word2Vec方法得到词向量w_i的一个映射。

步骤三：对文本中所有词向量w_i进行加权平均得到文本s的句子向量p。每个词向量的权重表示为其中a为参数，p(w)为词w出现的频率。

a为一个极小值，α∈{10^-i：1＜i＜5}，经常取值α＝10^-3。

步骤四：基于得到的句子向量，模型连接上3层全连接来表达整个句子的主题向量，模型指深度学习网络模型，模型最底层为“输入层(input layer)”，向上连接三层“全连接层(fully connected layer)”。

步骤五：以大量同义句集合作为训练数据，以输入句子的同义句作为正样本，其他句子里随机抽取一定量作为负样本，负样本一般随机抽取5个，即正负样本比值1:5。然后正负样本组成一组，通过Softmax函数计算每个句子和输入句子的匹配概率。

步骤六：最大化所有正例的匹配概率的似然函数：

公式中L是指损失函数(loss function)，训练目的即为最小化损失函数，本例中也就是最大化P(d⁺|s)；

P代表匹配概率，P(d|s)代表s与句子d匹配概率，我们要最大化P(d⁺|s)，即最大化句子合集中正样本句子与s的匹配概率。

e为数学中自然常数，约为2.71828；

e^rf(s，d)为e的r×f(s，d)次方；

d′∈D代表句子库中的其他句子；

代表一个句子d的e^rf(s，d)比上其他句子的e^rf(s，d′)之和。

r是Softmax函数的平滑参数，f(s，d)表示一个输入句子与其他句子d之间的匹配度，D表示所有句子的合集，d⁺代表正样本，也就是输入句子的同义句。

为进一步方便理解，本发明提供的附图1为其网络结构示例图，其中输入s为给定的句子，d1，d2，d3…为句子库中的句子；每个句子通过步骤一，二，三转换为500维的句子向量；再向上链接三个全连接层，输出64维的句子主题向量；通过主题向量计算句子间的匹配概率。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于深度文本匹配的同义句转换方法，其特征在于，其实现过程为：首先获取任意两段文本，分析这两段文本的字词，通过字词在结构上匹配短句，然后再通过短句，应用到比短句长的句式，归纳匹配信息，生成匹配度，最后将匹配度最高的两段文本输出为同义句。

2.根据权利要求1所述的一种基于深度文本匹配的同义句转换方法，其特征在于，上述匹配度是通过在训练数据集上自动学习匹配深度学习网络模型获取的,即首先去获取一训练数据集，该训练数据集的一部分数据用于训练，一部分数据用于测试，训练完成后，用训练出的模型去判断一对句子的匹配度，判断已有句子库中所有句子与给定句子的匹配度，匹配度最高的句子即为该句子的同义句。

3.根据权利要求2所述的一种基于深度文本匹配的同义句转换方法，其特征在于，所述训练数据集的获取过程为：将同义句集合作为训练样本，然后通过将同义句文本转化为词向量、句子向量，利用python中numpy函数库实现全连接神经网络，再以同义句为正例，其他句子为反例进行训练，得到训练数据集。

4.根据权利要求3所述的一种基于深度文本匹配的同义句转换方法，其特征在于，通过将同义句文本转化为词向量、句子向量的过程为：获取文本的句子，通过python中gensim包下的Word2Vec函数将句子的每个单词转化为词向量，再输入一个参数a，对一个句子所有词向量加权平均获得句子向量。

5.根据权利要求4所述的一种基于深度文本匹配的同义句转换方法，其特征在于，所述a为一个极小值，α∈{10^-i：1＜i＜5}。

6.根据权利要求5所述的一种基于深度文本匹配的同义句转换方法，其特征在于，将单词转化为词向量的具体过程为：

7.根据权利要求6所述的一种基于深度文本匹配的同义句转换方法，其特征在于，获得句子向量的具体过程为：

基于得到的句子向量，模型连接上3层全连接来表达整个句子的主题向量。

8.根据权利要求7所述的一种基于深度文本匹配的同义句转换方法，其特征在于，所述模型是指深度学习网络模型，该深度学习网络模型最底层为输入层，向上连接三层全连接层。

9.根据权利要求3-8任一所述的一种基于深度文本匹配的同义句转换方法，其特征在于，以同义句为正例，其他句子为反例进行训练是指：训练数据集以同义句集合作为训练数据，以输入句子的同义句作为正样本，其他句子里随机抽取一定量作为负样本，这里的一定量是指正负样本比值为1:4～6，然后正负样本组成一组，通过Softmax函数计算每个句子和输入句子的匹配概率。

10.根据权利要求9所述的一种基于深度文本匹配的同义句转换方法，其特征在于，获得匹配概率后，还需最大化所有正例的匹配概率的似然函数，即：