CN112163431A

CN112163431A - 一种基于泛条件随机场的中文缺失代词补全方法

Info

Publication number: CN112163431A
Application number: CN202011118541.6A
Authority: CN
Inventors: 杨婧璇; 李思; 徐雅静; 高升; 郭军; 许珂瑞
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-01-01

Abstract

本发明公开了一种中文缺失代词补全方法，属于信息处理领域，该方法的特征包括：顺序拼接输入文本前后句子构建输入文本上下文词向量矩阵；Transformer编码器自注意力机制建模形成输入文本上下文词语层面语义信息矩阵；构建输入文本词向量矩阵；Transformer解码器自注意力机制建模形成输入文本词语层面语义信息矩阵；Transformer解码器交互式注意力机制从输入文本上下文词语层面语义信息矩阵中推理总结出缺失代词所指语义信息向量矩阵；将缺失代词所指语义信息向量矩阵输入多层感知器得到缺失代词概率分布；根据已制定好的规则为已经预测出的标签序列构建泛条件随机场图模型；通过最大化整个对话片段标签序列得分优化补全整个对话片段的缺失代词；预测输入文本各词语前缺失代词类型。

Description

一种基于泛条件随机场的中文缺失代词补全方法

技术领域

本发明涉及信息处理领域，特别涉及一种基于泛条件随机场的中文缺失代词补全方法。

背景技术

现有研究表明，英文表述中对于明确代词的使用率超过92％，然而在中文对话中只有64％，这表明了中文是一种倾向于省略代词的语言，这种现象在非正式对话体裁中出现尤其显著。缺失代词补全在翻译任务里，即将一种倾向于省略代词的语言(如：中文)翻译成为明确代词语言(如：英文)的过程中，可以避免造成严重的语义混淆问题。因此中文对话中的缺失代词补全是一项非常值得研究的任务。

传统的缺失代词补全问题利用了特征工程的方法，将语义、语法、先行词等信息作为特征，利用有监督的序列标注模型预测每一个输入文本的词语前缺失代词的类型。然而特征工程的方法十分依赖人工设计的特征，对于每一类特征的依赖程度也随着数据不同而变化，需要专家花销大量人工时间来对特征工程进行构建。基于深度学习的方法通过从缺失代词词语周围小范围窗口及大范围上下文语句中总结缺失代词所指语义信息，通过多层感知器预测缺失代词概率分布。然而这些基于深度学习的方法没有考虑相邻句间句首缺失代词间转移关系，这些转移关系与两句话的逻辑关系紧密相关，对于提高缺失代词补全任务的表现起到很重要的作用。本发明为了解决上述问题，采用了深度学习网络与泛条件随机场结合的方法，首先通过Transformer结构中的自注意力机制对输入缺失代词文本及其上下文做语义信息编码，并利用交互式注意力机制从上下文中推理并总结出缺失代词所指语义信息，通过多层感知器预测缺失代词概率分布。然后根据预先制定好的图模型构建规则为预测出的对话中缺失代词标签序列构建泛条件随机场图模型，最大化整个对话片段中的缺失代词序列根据转移关系的得分，同时输出整个对话片段中补全的缺失代词类型的序列。实验证明本发明在中文缺失代词补全任务上有非常好的效果。

发明内容

为了解决现有的技术问题，本发明提供了一种基于泛条件随机场中文缺失代词补全方法。方案如下：

步骤一，我们将输入文本上下文中的每一个词语都映射为词向量，将文本参数化，将上下文转词语化为一个词向量矩阵。

步骤二，我们使用Transformer结构编码器中的自注意力机制对输入文本上下文词向量矩阵进行处理，得到上下文各词语相关的语义信息矩阵。

步骤三，我们对缺失代词输入文本的每一个词语都映射为词向量，将文本参数化，将输入文本转化为输入文本词向量矩阵。

步骤四，我们使用Transformer结构解码器中的自注意力机制首先对输入文本词向量矩阵进行处理得到输入文本词语层面语义信息矩阵。

步骤五，我们利用Transformer结构解码器中的交互式注意力机制从上下文语义信息矩阵中推理出描述缺失代词所指的词语并总结出缺失代词所指语义信息。

步骤六，我们将从上下文中总结出的缺失代词所指语义信息输入多层感知器预测输入文本中缺失代词概率分布。

步骤七，我们根据预先定义好的构图规则对输入对话片段中预测出的补全缺失代词序列构建泛条件随机场图模型。

步骤八，我们通过建模整个对话片段标签序列间转移关系全局最大化整个对话片段补全代词序列得分。

步骤九，我们根据优化后的整个补全标签序列，得到输入文本各词语前缺失代词类型。

附图说明

图1是本发明提供的中文缺失代词补全方法的网络结构图；

图2是Transformer模型编码器和解码器部分内部结构图。

具体实施方式

接下来将对本发明的实施方案做更详细的描述。

图1是本发明提供的中文缺失代词补全方法的网络结构图，其中包括：

步骤S1:顺序拼接输入文本前后句子构建输入文本上下文词向量矩阵；

步骤S2:Transformer编码器自注意力机制建模形成输入文本上下文词语层面语义信息矩阵；

步骤S3:构建输入文本词向量矩阵；

步骤S4:Transformer解码器自注意力机制建模形成输入文本词语层面语义信息矩阵；

步骤S5:Transformer解码器交互式注意力机制从输入文本上下文词语层面语义信息矩阵中推理总结出缺失代词所指语义信息向量矩阵；

步骤S6:通过多层感知器根据缺失代词所指语义信息向量矩阵得到缺失代词概率分布；

步骤S7:根据已制定好的规则为已经预测出的标签序列构建泛条件随机场图模型；

步骤S8:通过最大化整个对话片段标签序列得分优化补全整个对话片段的缺失代词；

步骤S9:预测输入文本各词语缺失代词类型。

下面将对每个步骤进行具体的说明：

步骤S1:顺序拼接输入文本前后句子构建输入文本上下文词向量矩阵。本发明根据自然语言处理原理以及已有工作经验，将输入文本前5个句子及后2个句子，共7句话顺序拼接后作为输入文本上下文。建立词语到词向量编号的映射表，通过映射，将输入文本的各个词语映射为相应的词语编号。建立词向量矩阵，即建立词语到对应词向量的映射矩阵，词向量矩阵中每一行代表对应词的词向量，行号表示词向量的编号。通过词向量矩阵，将之前表示输入文本的词语编号映射为相应的词向量，通过列连接各个词向量形成输入文本矩阵。假设训练词库中词语数量为N，那么词向量矩阵大小为N*d，其中d表示词向量的维度。

本发明将输入文本上下文的词语通过编号矩阵和词向量矩阵的两次映射，得到每个词语对应的语义向量表示，将语义向量与相同维度的位置向量表示、说话人向量表示相加后得到每个词语对应的词向量。将每个句子中词语对应的词向量顺序连接形成本句话的输入文本词向量矩阵X。

X＝x₁∞x₂∞……∞x_s-1∞x_s

其中，x_i表示输入文本中第i个词的词向量，s表示输入文本的长度，即输入文本中词语个数，“∞”表示向量的列连接。将每句话的输入文本词向量矩阵顺序连接形成输入文本上下文词向量矩阵C。

C＝X₁∞X₂∞……∞X_m-1∞X_m

其中m表示C中句子的数量。

步骤S2:Transformer编码器自注意力机制建模形成输入文本上下文词语层面语义信息矩阵。自然语言文本数据是一种时序型数据，即每一个输入词语都依赖于上下文的语义信息，如何更好地编码基于上下文的词语语义信息对于完成下游自然语言处理应用来说至关重要。在机器翻译领域提出的Transformer结构由于采用强大的自注意力机制编码语义信息，可以很好地实现神经网络对于文本信息的记忆作用，位置向量的使用不仅可以使得此结构充分考虑文本中词语的序列属性，而且相隔较远词语通过注意力机制的直接相连可以克服循环神经网络中需要根据时序信息将词语序列展开的问题，解决了循环神经网络时间时间复杂度较高的问题，因此Transformer的编码器解码器结构在文本处理领域中需要语义信息编码的任务中取得了很好的效果。本发明在获得输入文本上下文词向量矩阵的基础上，利用Transformer结构的编码器获取对话片段上下文中每个词在此对话语境中的语义信息，得到输入文本上下文语义信息矩阵。

Transformer编码器由一个编码块的循环处理得到，图2是编码器的内部结构示意图，每一个编码块时刻n的矩阵状态可表示为：

其中，FNN和SelfATT分别表示每一个编码块中的前馈神经网络和自注意力机制，H⁽⁰⁾和H^(l)分别表示编码器第0层的输入和第l层的输出。

和

分别表示输入文本上下文语义信息经过前馈神经网络后关于query，key和value的语义信息变体。Transformer编码器第l个编码块的输出H^(l)即为此编码器输出的输入文本上下文语义信息矩阵。

步骤S3:构建输入文本词向量矩阵。本发明接下来为输入缺失代词文本构建词向量矩阵，输入文本向量化的方式参考输入文本上下文向量化，将输入文本中的词语通过编号矩阵和词向量矩阵的两次映射，得到词向量连接而成的输入文本词向量矩阵X。

X＝x₁∞x₂∞……∞x_s-1∞x_s

其中，x_i表示输入文本中第i个词的词向量，s表示输入文本的长度，即输入文本中词语个数，“∞”表示向量的列连接。

步骤S4:Transformer解码器自注意力机制建模形成输入文本词语层面语义信息矩阵。类似于步骤S2中编码器利用自注意力机制对输入文本上下文语义信息的编码，Transformer结构中的解码器部分也可以利用自注意力机制对输入的缺失代词文本中每个词进行语义背景信息编码，具体可参见步骤S2。每个解码块中通过自注意力机制编码后的输入文本词语层面语义信息矩阵

可用于后续推理总结缺失代词所指语义信息以及缺失代词类型补全。

步骤S5:Transformer解码器交互式注意力机制从输入文本上下文词语层面语义信息矩阵中推理总结出缺失代词所指语义信息向量矩阵。Transformer结构解码器中的交互式注意力机制可以在构建起编码器和解码器中语义信息交互的桥梁，本发明基于交互式注意力机制的语义推理作用，利用解码器编码出的输入文本每个词语语义信息计算与输入文本上下文文本中每个词语的相关性权重，权重大的词语为推理出的描述缺失代词所指的词语。根据计算出的上下文中每个词语的权重总结出缺失代词所指语义含义。

其中，FFN、InterATT和SelfATT分别是前馈神经网络、交互式注意力机制和自注意力机制；

和

分别是Transformer解码器部分的输入和输出，即输入文本词向量矩阵和从上下文中推理总结出的输入文本中缺失代词所指语义信息向量矩阵。

步骤S6:将推理总结出的缺失代词所指语义信息向量矩阵通过多层感知器得到补全的缺失代词概率分布。本发明将步骤S5中总结出的输入文本中缺失代词所指语义信息向量矩阵

输入多层感知器中，在整个输入文本层面，将各个缺失代词所指语义特征表示通过多层感知器网络处理，计算得到输入文本各词语的缺失代词的概率分布。

其中MLP为多层感知器，其组成包含前馈神经网络以及激活函数，激活函数为了是的多层感知器可以实现反向传播的算法，本发明使用的激活函数为Relu函数，此激活函数的优点在于可以解决梯度消失问题并且训练速度很快。“W”为权重矩阵，b为偏置,softmax函数为机器学习中非常重要的概率函数，通过softmax函数使得预测出的缺失代词分布概率P(y_n|x_n,C)的范围限制在[0,1]之间，负无穷到0的区间概率趋向于0，0到正无穷的区间概率趋向于1。同时softmax函数加入了e幂函数使得概率两极化，从而得到输入文本中补出的缺失代词类别概率分布并使得区分度加大。

步骤S7:根据已制定好的规则为已经预测出的标签序列构建泛条件随机场图模型。根据中文对话中代词使用规律以及省略规律，我们利用步骤S6中预测出的输入文本缺失代词概率分布构建二维条件随机场图模型。具体步骤为：

①我们首先将一个复合对话语句根据标点符号分割为几个单独的简单句，通过构建横向线性链连接同一个简单句中每个词语来建模句内标签间转移依存关系；同时由于句首代词间依存关系与两句话间对话逻辑关系紧密相关，我们构建一条竖向线性链连接几个简单句举手词语来建模相邻语句句首缺失代词间关系。

②我们对步骤①中得到的图模型进行进一步精细地微调，使得所构建的图模型更符合对话片段中代词间关系。具体来说，如果一个被切割后的简单句句首是一种未被省略的预定义好的中文代词的一种，那么这个明确的中文代词类型要被建模到图模型中用来代替此位置处被预测出的缺失代词概率分布；如果被切割后的简单句句首是一个语气词(例如：嗯，哈哈)，那么这个句首的词要被跳过，代替被连到图模型中的是这个语气词后第一个非标点符号的词语被预测出的缺失代词概率分布。

由此我们根据预测出的缺失代词概率分布构建好了用来全局优化整个对话片段中每个词之前缺失代词类型的条件随机场图模型

步骤S8:通过最大化整个对话片段标签序列得分优化补全整个对话片段的缺失代词。

利用步骤S6中预测出的缺失代词概率分布P(y_n|x_n,C)以及步骤S8中构建好的建模整个对话片段中缺失代词标签间转移关系的二维条件随机场图模型

本发明通过最大化整个对话片段中补全的缺失代词类别标签之和得分来预测整个对话片段中被省略的代词。整个对话片段预测出的缺失代词标签得分之和为：

其中，A⁽¹⁾和A⁽²⁾分别是二维条件随机场中横链和竖链的转移矩阵，A_i,j表示转移矩阵中由标签i转移到标签j的转移得分。节点Ti的定义为：

其中，

是句首未缺省代词的观测标签；s_hi为对话片段中每个简单句的总体得分。因此，本发明需要优化的整体目标函数为：

Y^*＝argmax p(Y|X)

其中，

包含模型预测出的对话片段X所有可能补出的缺失标签序列。

步骤S9:预测输入文本各词语缺失代词类型。通过最大化整个对话片段中预测出的补全缺失代词序列得分，在整个对话层面对各个词语的概率进行预测，缺失代词概率分布最大的类别被认为是最后可能的缺失代词类型，得到整个对话片段中预测出的缺失代词类别。

以上结合附图对所提出的基于泛条件随机场的中文缺失代词补全方法及各步骤的具体实施方式进行了阐述，通过以上实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用平台的方式来实现。

依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

以上所述的本发明实施方式，并不构成对发明保护范围的限定。任何在本发明精神和原则之内所做的修改、等同替换和改进等，均应在本发明的保护范围之内。

Claims

1.一种基于泛条件随机场的中文缺失代词补全方法，其特征在于，所述方法包含以下结构和步骤：

(1)顺序拼接输入文本前5个句子及后2个句子作为输入文本上下文，对上下文词语进行映射，构建输入文本上下文词向量矩阵，利用Transformer结构编码器中的自注意力机制编码捕获各个上下文词语在对话片段中的语义信息，得到输入文本上下文语义信息矩阵；

(2)对缺失代词输入文本进行分词，将已分词的输入文本数值化为各个词语对应词向量连接而成的输入文本词向量矩阵，利用Transformer结构解码器部分的自注意力机制捕获输入文本各个词语对应输入文本语义信息矩阵；

(3)Transformer解码器交互式注意力机制从输入文本上下文词语层面语义信息矩阵中推理总结出缺失代词所指语义信息向量矩阵：对步骤(2)得到的输入文本矩阵和步骤(1)得到的输入文本上下文语义信息矩阵进行交互式注意力机制处理，推理得到上下文中描述缺失代词所指的词语并总结出缺失代词所指语义信息；

(4)通过多层感知器根据缺失代词所指语义信息向量矩阵得到缺失代词概率分布：将步骤(3)中得到的缺失代词所指语义信息输入多层感知器，预测得出输入文本中每个词语前的缺失代词概率分布；

(5)根据已制定好的规则为已经预测出的标签序列构建泛条件随机场图模型：根据已经制定好的规则为已经预测出的代词标签序列构建泛条件随机场图模型，建立句内相邻标签间转移关系及相邻句首代词间转移关系；

(6)通过最大化整个对话片段标签序列得分优化补全整个对话片段的缺失代词：最优化步骤(5)中得到的对话片段中基于转移关系的补全代词标签序列，取得分最高的标签序列为整个片段中最优标签序列，得到输入文本各词语前缺失代词类型。

2.如权利要求1所述的方法，其特征在于，所属步骤(1)具体包括：

(1.1)将输入文本之前5个句子及之后2个句子顺序拼接形成上下文文本并分词；

(1.2)初始化词语到词向量编号的映射索引及词向量矩阵；

(1.2)通过索引将上下文词语映射为相应词向量编号；

(1.3)通过各个上下文文本词语对应的词语编号取得词向量矩阵中对应的词向量；

(1.4)将取得的词向量进行连接，得到各个词语的词向量连接而成的上下文词向量矩阵；

(1.5)初始化Transformer编码器自注意力机制参数；

(1.6)将上下文文本词向量矩阵通过编码器自注意力机制进行处理，得到上下文各个词语相关的上下文语义信息矩阵。

3.如权利要求1所述的方法，其特征在于，所属步骤(2)具体包括：

(2.1)将输入文本分词获得各个独立词语；

(2.2)通过索引将词语映射为相应词向量编号；

(2.3)通过各个输入文本词语对应的词语编号取得词向量矩阵中对应的词向量；

(2.4)将取得的词向量进行连接，得到各个词语的词向量连接而成的输入文本词向量矩阵；

(2.5)初始化Transformer解码器自注意力机制参数；

(2.6)将输入文本词向量矩阵通过Transformer解码器自注意力机制进行处理，得到输入文本语义信息矩阵。

4.如权利要求1所述的方法，其特征在于，所属步骤(3)具体包括：

(3.1)利用步骤(2)得到的输入文本语义信息矩阵从步骤(1)中得到的上下文语义信息矩阵中通过交互式注意力机制计算上下文中每个词是描述缺失代词所指的相似度权重，推理出描述缺失代词所指的词语；

(3.2)将计算出的相似度权重数值归一化，通过权重与语义信息相乘总结出缺失代词所指语义信息。

5.如权利要求1所述的方法，其特征在于，所属步骤(4)具体包括：

将步骤(3)中得到的缺失代词所指语义信息输入多层感知器，通过分类器预测得出输入文本中每个词语前的缺失代词概率分布。

6.如权利要求1所述的方法，其特征在于，所属步骤(5)具体包括：

(5.1)将对话中复合句按照标点符号切割为各个简单句；

(5.2)在同一个简单句内部构建线性链条件随机场建模句内相邻标签间转移关系；

(5.3)根据概率统计得出的规律将相邻句首缺失代词相连建模句间标签间转移关系。

7.如权利要求1所述的方法，其特征在于，所属步骤(6)具体包括：

(6.1)根据条件随机场目标函数训练方式最大化步骤(5)中构建好的对话片段中预测出的基于转移的标签序列得分之和；

(6.2)取所有标签序列排列情况中得分最高的一个序列为补全的最优标签序列。