CN111859910B

CN111859910B - 一种用于语义角色识别的融合位置信息的词特征表示方法

Info

Publication number: CN111859910B
Application number: CN202010682847.8A
Authority: CN
Inventors: 曹学飞; 李济洪; 王瑞波; 王钰; 石隽峰; 牛倩
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2022-03-18
Anticipated expiration: 2040-07-15
Also published as: CN111859910A

Abstract

本发明属于自然语言处理领域，具体涉及一种用于语义角色识别的融合位置信息的词特征表示方法。本发明主要解决的技术问题是在进行语义角色识别时，如何将当前词与目标词的相对位置信息融入当前词的词特征表示中，该技术方案俩个关键步骤为(1)使用一个大的语料，根据词的左右的不同的上下文窗口统计共现次数，进而学习到可以蕴含词与词之间相对位置信息的词向量矩阵

和

(2)在进行语义角色标注时，基于当前要标注的词和目标词的相对位置分别使用

或

中的词向量来设置词特征。本发明可以得到更高的F₁值，且F₁值的方差更小，语义角色识别的结果更加稳定。

Description

一种用于语义角色识别的融合位置信息的词特征表示方法

技术领域

本发明属于自然语言处理领域，具体涉及一种用于语义角色识别的融合位置信息的词特征表示方法。

背景技术

随着深度学习的兴起，自然语言处理的研究受到了越来越多研究者的关注。目前，自然语言处理的难点在于语义分析，语义分析可分为词汇级、句子级以及篇章级三个层次。词汇级的语义分析主要包括词义的消歧和词的表示学习两个方面。词义消歧是根据多义词在文本中的上下文环境来确定它的一个义项，词的表示和学习是近几年才开展的热门研究领域，目前主流的词表示方式是采用词向量的方法，其基本思想是将词映射成低维实值的向量，这样词与词之间的语义计算可通过计算向量空间中对应向量之间的距离来实现。句子级的语义分析重点是在句子的句法结构和句中实词词义的基础上，推导出能反映该条句子意义的某种形式化的表示。篇章语义分析研究篇章中的子句、句子或语段之间的层次结构和语义关系。近年来，研究者关注更多的是句子级的语义分析，重点是分析句子中的目标词(谓词)和相关论元(语义角色)之间的语义关系，如施事(发出动作的人或事物)、受事(受动作支配的人或事物)等。语义角色标注是句子级语义分析的一种具体实现方式，它指的是标注出句中受目标词所支配的语义角色。

语义角色标注这一任务通常的做法是分为语义角色识别和语义角色分类两个步骤进行，其中，语义角色识别确定句子中的哪些成分可以构成目标词所支配的语义角色，即对一条句子，在给定目标词的前提下，从句子中自动识别出目标词所支配的语义角色。语义角色分类则对识别出的角色进行分类并标注类别。目前语义角色标注的难点在于语义角色识别。而语义角色识别这一问题的解决方法一般是转换为序列标注问题来处理，即为语义角色包含的每一个词赋予一个标签用以标记该词在一个语义角色中的位置。例如采用IOB2标记集合，该标记集合用B表示一个语义角色中的第一个词；I表示一个语义角色的中间词或结束词；O表示不属于任何一个语义角色的其它词。以例句“公司购买大量工业原料。”为例进行说明，句中的目标词是“购买”，语义角色为“公司”和“大量工业原料”，通过IOB2标注后的形式为：

公司/B购买/O大量/B工业/I原料/I。/O

基于上述标注，可以重构并识别出句中的语义角色。因此，引入序列标记集合，语义角色识别问题可转化为序列标注问题，进而可以形式化描述如下：对于一条句子S＝W₁W₂...W_m，W_i表示句子S中的第i个词，给定句子中的目标词W_t，使用序列标记集合IOB2对句子中的每个词标记一个合适的标签t_i，t_i∈{B,I,O}表示句子S中第i个词对应的语义角色的边界标签。这样可以得到一个标记序列T＝t₁t₂...t_m，从而将语义角色识别任务转化为如式(3)所示的一个序列优化问题：

T^*＝argmaxP(T|S,W_t) (3)

T^*是一个可以还原出语义角色信息的最优序列。对于该优化问题，目前主流的做法是使用神经网络的方法，例如图1所示的即为一种常见的基于神经网络的语义角色识别模型。该模型结构包含三部分，输入层，网络层和输出层。在输入层，将一条句子看做以词为基本单位的一个序列送入模型，经过BiLSTM(双向长短期记忆)神经网络层的训练学习，在输出层使用CRF(条件随机场)输出一个带有B、I、O标记的标记序列。基于输出的标记序列，重构句子中的语义角色进而完成语义角色的自动识别。

神经网络在处理序列问题时，一般以词为单位进行输入。由于词都是离散的符号标记，在使用神经网络时，需要将每一个词映射为一个低维实值向量(也称为词向量)输入，用这种低维实值向量表示词这一特征，因此称作词特征的表示。通常，词向量这种词特征的表示，可以采用随机向量，也可以是由某种表示学习方法，如SGNS(SGNS是目前一种常用的词向量学习方法，详细描述见文献：Tomas Mikolov,Kai Chen,and JeffreyDean.Effificient estimation of word representation in vector space.CoRR,abs/1301.3781,2013)经过训练学习得到。此外，为了在输入时能够丰富输入的词的信息，除该词的词特征外，还会设置一些其它的特征和词特征一起输入，例如，该词的词性特征、句子中的目标词的词特征、该词相对目标词的位置特征(该词在目标词的左边还是右边)等。将这些特征也映射为低维实值向量，然后将所有特征的词向量首尾拼接起来作为该词最终的表示。

词向量的学习的基本思路是利用大规模文本语料中词与其上下文词(即某个词周围的一些其它词)的某种关联度量(如词和上下文词二者的共同出现次数)的统计信息学习得到，这种方法得到的词向量在一定程度上蕴含了词的句法和语义信息，非常适合作为词的特征表示。在语义角色识别中，词的位置特征，指的是该词在目标词的左边还是右边，这一特征对语义角色识别模型的性能有很大的影响。但是这种位置信息无法利用通用的词向量的方法直接学习得到，目前主要是用随机向量来表示。例如，对于例句

“公司购买大量工业原料。”

句中的目标词是“购买”，语义角色识别任务需要为句中每一个词标注一个BIO标签，当对“公司”进行标注时，首先将该词映射为一个低维向量，作为该词的词特征。由于该词在目标词的左边，再将这一位置信息映射为一个低维的随机向量，然后再将这两个向量拼接起来(也可以继续拼接该词的词性映射后的低维向量等)输入模型。但是，使用随机向量的表示方法去表示词的位置信息这一特征，会导致语义角色识别结果的方差较大，使得最终得到的语义角色识别模型并不稳定。因此，如何在语义角色识别模型的输入端更好的表示位置特征就是本发明所要解决的一个问题。

本发明首先得到一种可以蕴含词与词之间相对位置信息的词向量，使用这一词向量作为词特征的表示。具体方法为：选取一个合适的语料，以词为单位遍历该语料，分别基于当前遍历到的词的左窗口(左边的若干个词)和右窗口(右边的若干个词)统计出当前词和左右不同窗口内上下文词的共同出现(共现)次数，然后使用当前词和上下文词对应的词向量的內积去拟合它们的共现次数，通过随机梯度下降的方法学习得到当前词的词向量、左窗口内上下文词的词向量和右窗口内上下文词的词向量。由于上述方法统计得到的共现次数一定程度上可以体现词与词之间相对位置搭配的分布，因此通过左、右窗口内不同的上下文信息学习到的上下文词的词向量蕴含了词与词之间相对的位置关系，从而实现了将位置信息融入到词的向量表示中，也就是使用该方法学习到的上下文词的词向量作为词特征时可以融合词与词之间相对的位置信息。

当对一个句子进行语义角色识别时，如果当前要标注的词出现在句子中给定目标词的左边，将其看作目标词左侧窗口内的上下文词，此时使用基于左窗口学习到的上下文词的词向量作为该词的词特征；如果当前要标注的词出现在句子中给定目标词的右边，将其看作目标词右侧窗口内的上下文词，此时使用基于右窗口学习到的上下文词的词向量作为该词的词特征。本发明使用这种词特征的表示方式可以将位置信息融入到当前要标注的词的词向量中，即将位置特征融入到了词特征中，一方面简化了语义角色识别模型的输入信息(即不再需要单独的位置特征)，另一方面也可以提升语义角色识别模型的性能。

发明内容

本发明提供了一种适用于语义角色识别的可以融入位置信息的词特征的表示方法，主要解决的技术问题是在进行语义角色识别时，如何将当前词与目标词的相对位置信息融入当前词的词特征表示中。

在介绍具体的方案前，先引入本发明涉及到的一些概念：

语料：以自然语言文本形式收集到的语言实例集，用符号C表示。一般可以形式化为：C＝S₁,S₂,...,S_m，S_i＝W₁W₂...W_n表示语料中的第i条句子，W_j表示句子S_i中的第j个词。

词表：在语料中出现的不同词的全部集合，记为V＝{W₁,W₂,...,W_k}。本发明所提到的词表中的词按照其在语料中出现的次数由大到小排序。|V|表示词表的大小，即词表中所有词的个数。

窗口：对于语料中的某个词W_i，将W_i-LW_i-L+1...W_i+L-1W_i+L构成的序列(不包含W_i)定义为词W_i的大小为2L的对称窗口，W_i-LW_i-L+1...W_i-1构成的序列定义为词Wi的大小为L的左窗口，W_i+1...W_i+L-1W_i+L构成的序列定义为词W_i的大小为L的右窗口。

上下文词：出现在词W窗口内的其它词定义为词W的上下文词。

共现：在语料中，如果词W_j出现在词W_i的窗口内，即定义这两个词共现。

共现矩阵：一个|V|*|V|大小的矩阵，记为X。矩阵X中的元素X_ij表示词W_i和词W_j在语料中的共现次数，本发明中的共现次数的计算采用一种加权的方式，即如果词W_i和窗口内的上下文词W_j的距离为5，则它们的共现次数为1/5，这种加权的处理方式一定程度上也可以捕获词与词之间的相对距离的远近关系，进而更好的描述它们的相对位置信息。|X|表示矩阵X中所有非零的元素的个数。

词向量：词W_i的d(d可以取50、100、200等)维实值向量。词表V中所有词的词向量构成|V|*d大小的矩阵，矩阵中的第i行的d维向量对应词表中第i个词的词向量。

基于上述概念，本发明的技术方案如下：

一种用于语义角色识别的融合位置信息的词特征表示方法，包括以下步骤：

步骤1，根据给定的语料C，生成词表V，其中，词表V是语料C中出现的不同词的全部集合；

步骤2，设定一个固定的上下文窗口大小，以词为单位依次遍历语料C，统计当前遍历到的词与其左侧窗口内上下文词共现的次数，得到基于左窗口的词-词共现矩阵X^(L)；统计当前遍历到的词与其右窗口内上下文词共现的次数，得到基于右窗口的词-词共现矩阵X^(R)；

步骤3，最小化式(1)和式(2)所示的目标函数分别学习当前词与其左窗口内上下文词、右窗口内上下文词的词向量：

在式(1)中，

表示基于左窗口统计到的词-词共现矩阵X^(L)中当前词i和上下文词j的共现次数，U^(L)和

分别表示基于左窗口学习到的当前词和左窗口内上下文词的词向量构成的矩阵，

表示U^(L)矩阵的第i行，即当前词i的词向量，

表示

矩阵的第j行，即左窗口内上下文词j的词向量；在式(2)中，

表示基于右窗口统计到的词-词共现矩阵X^(R)中当前词i和上下文词j的共现次数，U^(R)和

分别表示基于右窗口学习到的当前词和右窗口内上下文词的词向量构成的矩阵，

表示U^(R)矩阵的第i行，即当前词i的词向量，

表示

矩阵的第j行，即右窗口内上下文词j的词向量；

式(1)和式(2)本质上是使用语料中统计得到的当前词和上下文词的共现次数的对数去拟合它们二者词向量的內积，换句话说，是将共现矩阵分解为当前词的词向量矩阵和上下文词的词向量矩阵，分解的具体方法可采用随机梯度下降算法。由于当前词和上下文词都来自于同一个词表V，因此，上述方法实际上是将词表中的每个词映射到两个不同的向量空间，对于式(1)，当某个词作为当前词来使用时对应的词向量矩阵为U^(L)，当某个词作为左窗口内的上下文词来使用时对应的词向量矩阵为

类似的，对于式(2)，当某个词作为当前词来使用时对应的词向量矩阵为U^(R)，当某个词作为右窗口内的上下文词来使用时对应的词向量矩阵为

步骤4，令U^(T)＝(U^(L)+U^(R))/2作为最终的当前词的词向量，

和

不变；

步骤5，当对一条句子进行语义角色识别时，如果当前要标注的词W_i出现在句子中目标词W_t的左边，将当前要标注的词W_i看作目标词W_t左侧窗口内的上下文词，此时用

矩阵中的第i行的词向量作为当前要标注的词W_i的词特征；如果当前要标注的词W_j出现在句子中目标词W_t的右边时，将当前要标注的词W_j看作目标词W_t右侧窗口内的上下文词，此时用矩阵

的第j行的词向量作为当前要标注的词W_j的词特征；对句子中的目标词W_t，使用U^(T)中第t行的词向量作为W_t的词特征；

步骤6，将步骤5得到的词特征拼接其它特征作为当前要标注的词的最终表示，送入基于神经网络的语义角色识别模型(如图1所示)进行语义角色识别，其它特征为该词的词性特征、句子中的目标词的词特征、该词相对目标词的位置特征。

基于上述描述可知，本技术方案主要包括两个关键步骤：

第一，使用一个大的语料，根据词的左右的不同的上下文窗口统计共现次数，进而学习到可以蕴含词与词之间相对位置信息的词向量矩阵

和

第二，在进行语义角色标注时，基于当前要标注的词和目标词的相对位置分别使用

或

中的词向量来设置词特征。

语义角色识别正确指的是在测试集上语义角色的边界识别正确，通常采用F₁值来评价模型的性能。F₁值的定义如下：

其中，P是精确率(Precision)，R是召回率(Recall)，它们的定义分别是：

P＝正确标注为语义角色的个数/自动标注为语义角色总数

R＝正确标注为语义角色的个数/测试集中语义角色总数

与现有技术相比本发明具有以下优点：

本发明给出的技术方案的优点是在进行语义角色识别时，可以得到更高的F₁值，且F₁值的方差更小，即语义角色识别的结果更加稳定。具体的对比参见下面的实例。

附图说明

图1为基于神经网络的语义角色识别模型。

具体实施方式

步骤1，使用公开的中文维基百科语料(以下简称语料C)，统计出语料C中出现的词并生成词表V；

步骤2，设置一个固定的上下文窗口值L＝5，以词为单位依次遍历语料C，统计当前遍历到的词与其左侧窗口内5个词共现的次数，得到基于左窗口的词-词共现矩阵X^(L)；统计当前遍历到的词与其右窗口内5个词共现的次数，得到基于右窗口的词-词共现矩阵X^(R)；

步骤3，基于式(1)和式(2)学习得到U^(L)、U^(R)、

和

并计算得到U^(T)，矩阵中每个词向量为100维。

步骤4，基于同一个语料C和词表V，使用SGNS方法学习到词表V中所有词的词向量矩阵U^(SGNS)，矩阵中每个词向量为100维；

步骤5，使用汉语框架语义知识库作为语义角色标注任务的语料，选取其中6692条例句，进行3×2交叉验证实验。3×2交叉验证的具体做法是先将实验语料(6692条例句)切分成大小相同的4份，然后任取其中的两份作为训练集，剩下的两份作为测试集，这样不同的组合共有3组，共可以进行3组2折交叉验证，得到6个实验结果。以6个实验的F₁值的平均值作为最终的实验结果。

步骤6，使用图1所示的模型进行语义角色识别实验，在输入端为每个词配置4个特征，分别是当前词、当前词的位置信息、目标词和当前词的词性。即最终每个词输入模型时，需将这四个特征的对应向量拼接，再送入模型。实验设置如下：

表1：实验设置

表1中的第一个配置，即实验1是通常的处理方式。采用一个词向量学习方法，如SGNS学习到所有词的词向量，当进行语义角色标注时，句子中的任一个词，都是从一个统一的词向量矩阵U^(SGNS)中查找该词对应的词向量。位置信息为左和右两种取值，映射为两个随机10维的向量，根据要标注的例句中的词相对目标词的位置选择一个随机向量。当前词词性特征表示该词是名词还是动词等，实验中定义了21中不同词性，每种词性都映射为一个20维的随机向量。

表1中的第二个配置，即实验2是采用本发明的方案。使用本发明的技术方案可最终学习得到

和U^(T)三种不同的词向量矩阵，对于例句：

“公司购买大量工业原料。”

在进行语义角色标注时，当要处理的词是“公司”时，由于该词在目标词“购买”的左边，从

中查找该词的词向量作为该词特征；当要处理的词是“大量”、“工业”或“原料”时，由于该词在目标词的右边，从

中查找该词的词向量作为该词特征；当要处理的词是“购买”时，从U^(T)中查找该词的词向量作为该词特征，此种方案下不再需要单独设置位置特征。

步骤7，对上述两种设置分别进行语义角色标注实验，采用3×2交叉验证方式并计算每种设置下6个实验结果的均值和方差，结果见表2：

表2：实验结果

	F<sub>1</sub>值的均值	F<sub>1</sub>值的方差
			实验1	77.72％	0.0008
实验2	78.63％	0.0001

实验结果显示，采用本发明的技术方案实施的实验2，其F₁值的均值提高了0.91个百分点，并且方差更小，说明采用本发明的技术方案不仅可以提高模型性能，而且结果更稳定。

此外，我们也计算了两种实验设置下F₁值的置信区间，见表3：

表3：显著性水平0.05下的置信区间

	实验1	实验2
			F<sub>1</sub>值	[77.3％,78.2％]	[78.2％,79.1％]

表3结果显示两种配置下的F₁在置信区间上没有重叠，说明了本发明的技术方案得到的F₁值相较通常的方法有显著性的提升。