CN110334213A

CN110334213A - 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法

Info

Publication number: CN110334213A
Application number: CN201910613118.4A
Authority: CN
Inventors: 高盛祥; 寇梦珂; 余正涛; 黄于欣; 王吉地; 王振晗; 郭军军
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-10-15
Anticipated expiration: 2039-07-09
Also published as: CN110334213B

Abstract

本发明涉及基于双向交叉注意力机制的汉越新闻事件时序关系识别方法，属于自然语言处理技术领域。本发明利用双向循环神经网络捕获句子语义信息，通过注意力机制增强事件语义信息中的触发词语义信息，通过交叉注意力机制获得时序逻辑语义信息，将三部分语义信息嵌入为事件编码，最后将事件编码与事件间规则特征融合输入至分类层，输出事件时序关系，进而实现事件时序关系识别。本发明目前事件时序关系识别需要大量人力设计基于时间轴的模板，句中的隐含语义信息难以获取，并且不同语言文本很难表示在同一特征空间下等问题，以及解决了获取跨语言新闻事件时序关系较为困难问题。

Description

基于双向交叉注意力机制的汉越新闻事件时序关系识别方法

技术领域

本发明涉及基于双向交叉注意力机制的汉越新闻事件时序关系识别方法，属于自然语言处理技术领域。

背景技术

事件时序关系识别是当前自然语言处理研究的热点问题。中越两国共同关注的问题日益增多，相关新闻报道也随之增多，识别汉越双语新闻事件时序关系可得到双语新闻事件之间的时序逻辑关系，有助于相关部门把握两个国家的事态动态与导向，并做出正确的应对措施。目前事件时序关系识别需要大量人力设计基于时间轴模板，句中的隐含语义信息难以获取，并且不同语言文本很难表示在同一特征空间下，获取跨语言新闻事件时序关系比较困难。因此，利用人工智能技术自动判定汉越双语新闻事件之间的时序关系具有重要意义。

发明内容

本发明提供了基于双向交叉注意力机制的汉越新闻事件时序关系识别方法，以用于解决目前事件时序关系识别需要大量人力设计基于时间轴的模板，句中的隐含语义信息难以获取，并且不同语言文本很难表示在同一特征空间下等问题，以及解决了获取跨语言新闻事件时序关系较为困难问题。

本发明的技术方案是：基于双向交叉注意力机制的汉越新闻事件时序关系识别方法，所述基于双向交叉注意力机制的汉越新闻事件时序关系识别方法的具体步骤如下：

Step1、收集用于汉越双语新闻事件时序关系识别的新闻文本，分别针对汉语新闻网站(百度、新华网、人民网)和越南语新闻网站(越南新闻社、越南经济时报、越南之门)进行爬取，选取爬去新闻文本中的500篇汉越新闻文本进行实验研究，对新闻文本进行去重与筛选；

作为本发明的优选方案，所述Step1中，使用Scrapy作为爬取工具，模仿用户操作，为汉语、越南语新闻网站定制不同的模板，根据页面数据元素的XPath路径制定模板获取详细数据，获取新闻标题、新闻时间、新闻正文等数据。

此优选方案设计是本发明的重要组成部分，主要为本发明收集语料过程，为本发明识别事件时序关系提供了数据支撑。

Step2、对汉越新闻文本进行分词，词性标注等预处理，定制汉越双语新闻事件时序关系识别的标注体系，标记双语新闻文本，将标记好的双语新闻语料按照8：1： 1的比例分配训练语料、测试语料和验证语料；

Step3、获取汉越双语词向量，融合句中汉越双语词向量、位置向量作为双向交叉注意力循环神经网络输入；

Step4、采用双向交叉注意力循环神经网络，获取双语新闻的事件编码，训练新闻事件时序关系识别模型。

Step5、对需要识别的汉越双语新闻事件句进行编码，之后将提取到事件编码以及事件间规则特征作为分类模型的输入向量，利用softmax分类器获得最终的结果。

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.1、本发明中事件由触发词和参数组成，触发词能清楚的表达一类事件发生，通常是单个动词或者名词，参数描述事件发生的时间、地点、人物等信息；定制的汉越双语新闻事件时序关系识别的标注体系采用了XML的可扩展标记语言组织文本，分别针对触发词、参数、事件类型、时序关系类型对收集到的汉越双语新闻文本进行标记；

Step2.2、利用组对规则对标记过的新闻事件句进行组对，组对规则如下：

1)将每个话题下的双语新闻文本提取出的事件放入对应话题下的事件集合 D_i＝{e₁,e₂,…,e_n}中，i＝1,2,…,10，n为事件总数；

2)将D_i中事件进行两两组对，构成事件对<e_j,e_k>(j,k＝1,2,…n)，其中e_j,e_k分别为汉语事件句，越南语事件句；

3)将事件对贴上对应标签E<e_j,e_k,y>，y∈{0,1,2}，y表示两事件之间的三种时序关系类型，其中0表示间断前后关系，1表示连续前后关系，2表示并列关系；

4)将事件对放入事件对集合中；

根据组对规则组对，可得到实验数据中间断前后事件对共10862对，连续前后事件对共6013对，并列事件对共3125对，共计20000对。

此优选方案设计是本发明的重要组成部分，主要为本发明提供语料预处理过程，为后续工作提供模型训练时所需训练语料和为模型测试时提供测试语料；并且为本发明识别事件时序关系提供了支撑和挖掘的对象。(结合其它步骤，它是一个数据输入，后面都会用得到)

Step2.3、再将实验数据分为训练语料、测试语料和验证语料。

作为本发明的优选方案，所述步骤Step2中：将事件时序关系分为三种类型，分别为“间断前后”、“连续前后”和“并列”关系；根据双语的语言特点以及事件时序关系的需求，定制汉越双语新闻事件时序关系识别的标注体系。

作为本发明的优选方案，所述步骤Step3的具体步骤：

Step3.1、将Skip-gram语言模型扩展到汉越双语环境下，采用skip-gram扩展模型的方法预测目标词在汉语中的上下文信息，同时预测目标词在越南语中对齐词的上下文信息，从而得到汉越双语词向量；

Step3.2、词在句中的不同位置有不同的语义信息，将每个位置编号，每个编号对应一个向量，通过位置向量和汉越双语词向量的结合，为每个词引入一定的位置信息，注意力机制即可以分辨出不同位置的词；

Step3.3、将汉越双语词向量和位置向量的拼接作为双向交叉注意力循环神经网络的输入。

模型输入如图2所示，X^C＝{x₁,x₂,x₃,…x_n}和X^V＝{x₁,x₂,x₃,…,x_m}分别是是长度为n的汉语句子和和长度为m的越南语句子，其x_j是句子中的第j个词。其中上标C代表中文，上标V代表越南语。

此优选方案设计是本发明的重要组成部分，主要为本发明提供向量编码的过程，结合双语词向量，并对每个词的位置进行编码有助于语义结构信息的获取，进而提升模型的性能。

作为本发明的优选方案，本发明利用双向循环神经网络捕获句子语义信息，通过注意力机制增强事件语义信息中的触发词语义信息，通过交叉注意力机制获得时序逻辑语义信息，将三部分语义信息嵌入为事件编码；其中：

所述步骤Step4采用双向交叉注意力循环神经网络，获取双语新闻的事件编码的具体步骤为：

Step4.1、将编码层的汉语事件句和越南语事件句分别输入到BiLSTM中，可分别得到汉语事件句和越南语事件句的上下文隐含语义信息。

Step4.2、结合汉语句子的触发词建立汉语句子的注意力机制，从而得到增强当前汉语触发词的汉语事件语义特征；

结合越南语句子的触发词建立越南语句子的注意力机制，从而得到增强当前越南语触发词的越南语事件语义特征；

Step4.3、以触发词为事件句的核心，在汉越双语事件对中，针对触发词建立交叉注意力机制；分别结合越南语句子的触发词针对汉语句子建立注意力机制，结合汉语句子的触发词针对越南语句子建立注意力机制，为当前句子融入了时序逻辑语义信息；

Step4.4、结合得到的三部分语义信息嵌入为事件编码。

作为本发明的优选方案，所述双向交叉注意力循环神经网络包括编码层和双向交叉注意力层；双向交叉注意力层包括BiLSTM、注意力机制、交叉注意力机制三部分；依次使用这三部分，获得包含时序逻辑信息的深层语义信息；

所述BiLSTM：

将汉语越南语的句编码分别输入到BiLSTM中，分别得到两句子的上下文隐含语义信息H＝{h₁,h₂,h₃,…,h_n}，H∈R^d*n，d为词的维度，n为当前句子长度；

所述注意力机制：

结合触发词x_i在当前事件句中建立注意力机制，其中，i为当前事件句的第i个词；编码汉语句子部分，结合汉语句子的触发词建立汉语句子的注意力机制，从而得到增强当前汉语触发词的汉语事件语义特征，表达式如下：

α＝softmax(W_KK) (2)

r＝αH^c (3)

其中，X^*c＝{x_i,x_i,x_i,…,x_i}为汉语事件句的触发词矩阵(X^*c∈R^d*n)，W_XH(W_XH∈R^2d*2d)为X^*c和H^c结合的权重矩阵；α＝{α₁,α₂,α₃,…,α_n}为注意力机制的权重向量 (α∈Rⁿ)，W_K(W_K∈R^2d)为K的权重矩阵；r(r∈R^d)为给定事件触发词时对应事件句的权重向量；是注意力机制获取的中文事件语义特征向量；H^c为汉语事件句的隐向量矩阵(H^c∈R^d*n)；K为汉语事件句语义特征；越南语事件句的计算与汉语类似，需将触发词换成越南语事件中的触发词；

所述交叉注意力机制：

结合越南语句子的触发词建立汉语语句的交叉注意力机制，得到增强越南语触发词的包含时序逻辑关系的汉语事件语义特征，表达式如下：

α＝softmax(W_KK) (6)

r＝αH^c (7)

其中为越南语事件句的触发词矩阵(X^*v∈R^d*n)，W_XH(W_XH∈R^2d*2d)为X^*v和H^c结合的权重向量；α＝{α₁,α₂,α₃,…,α_n}为注意力机制的权重向量(α∈Rⁿ)，W_K (W_K∈R^2d)为K的权重矩阵；r(r∈R^d)为给定事件触发词时对应汉语事件句的权重向量；是交叉注意力机制挖掘出包含时序逻辑关系的汉语事件语义特征向量；H^c为汉语事件句的隐向量矩阵(H^c∈R^d*n)；K为汉语事件句语义特征；越南语事件句的计算与汉语类似，需将触发词换成汉语事件句中的触发词。

最后，将注意力机制得到得的语义信息和交叉注意力机制得到得语义信息相融合，作为事件句的事件语义信息用于最后的分类。

此优选方案设计提出双向交叉注意力层由三部分组成，BiLSTM可以从正反两个方向提取信息，不仅解决了长距离依赖问题，更加有效的挖掘事件句的隐含语义信息。由于注意力机制添加了触发词在当前事件的权重，而交叉注意力可以捕获到两事件句之间的时序逻辑关系。在事件时序关系识别任务中，时序逻辑关系的准确获取具有重要的作用，同时采用这两种注意力机制，使得汉越双语事件时序关系识别任务达到了最佳的效果。

作为本发明的优选方案，所述步骤Step5的具体步骤为：将提取到的事件编码与事件间规则特征融合输入至分类层，采用softmax分类器对汉越双语新闻事件对之间的时序关系进行分类，从而实现汉越双语新闻事件时序关系的自动识别，输出时序关系类别。

作为本发明的优选方案，通过对汉语、越南语的语言特点以及事件间时序关系特征的研究，抽取了6项事件间规则特征，所述事件间规则特征包括：

1)事件触发词词性：若事件触发词的词性相同，则特征值取1，否则特征值取0；

2)触发词的语义角色：若触发词的语义角色相同，则特征值取1，否则特征值为 0；

3)事件类型：若事件类型相同则特征为1，否则为0；

4)事件子类型：若事件子类型相同则特征为1，否则特征为0；

5)事件极性：描述的事件是肯定的事件还是否定的事件；当事件对的极性相同则特征为1，否则为0；

6)事件时态：描述的事件发生的时态是过去、现在、还是将来；三种时态的特征值分别为0、1、2。

作为本发明的优选方案，融合事件句的事件语义特征和6项事件间规则特征，并采用softmax分类器对汉越双语新闻事件对之间的时序关系进行分类。

y＝softmax(W[g^cg^vu]+b) (9)

g^c和g^v分别为汉语和越南语事件句的事件语义特征，u为事件间规则特征, W∈R^(2d ^+s)*t(s为抽取的事件规则特征个数，t为分类个数)为最终softmax层输入变量的权重矩阵，y为模型输出的时序关系。

此优选方案设计抽取的6项事件间规则特征具有一定的约束作用，有助于更好的识别事件时序关系。

本发明的有益效果是：

1、本发明的基于双向交叉注意力循环神经网络模型的汉越双语新闻事件时序关系识别方法，利用双语词向量来表征汉越双语新闻文本，将汉语越南语的词都映射到同一语义空间中，在这个空间中语义相近的词向量距离相近，语义相关性低的词向量相隔较远；

2、本发明的基于双向交叉注意力循环神经网络模型的汉越双语新闻事件时序关系识别方法，使用BiLSTM来挖掘事件句的上下文隐含语义信息，采用结合触发词的注意力机制得到事件句的增强语义特征；采用结合不同语言触发词的交叉注意力机制得到增强前后事件信息的事件语义特征；拼接三部分的语义特征作为当前句子的语义信息；

3、本发明的基于双向交叉注意力循环神经网络模型的汉越双语新闻事件时序关系识别方法，结合双语特点和事件间时序关系的特征，提出6类事件间规则特征并与事件语义特征融合，并通过softmax层进行分类；

4、本发明的基于双向交叉注意力循环神经网络模型的汉越双语新闻事件时序关系识别方法，解决了跨语言事件时序识别任务。

附图说明

图1为本发明提出的汉越双语新闻事件时序关系识别流程图；

图2为本发明提出的双向交叉注意力循环神经网络模型图。

具体实施方式

实施例1：如图1-2所示，基于双向交叉注意力机制的汉越新闻事件时序关系识别方法，具体步骤如下：

作为本发明的优选方案，所述步骤Step2的具体步骤为：

4)将事件对放入事件对集合中；

Step2.3、再将实验数据分为训练语料、测试语料和验证语料。

作为本发明的优选方案，所述步骤Step3的具体步骤：

Step4.4、结合得到的三部分语义信息嵌入为事件编码。

所述BiLSTM：

所述注意力机制：

α＝softmax(W_KK) (2)

r＝αH^c (3)

其中，X^*c＝{x_i,x_i,x_i,…,x_i}为汉语事件句的触发词矩阵(X^*c∈R^d*n)， W_XH(W_XH∈R^2d*2d)为X^*c和H^c结合的权重矩阵；α＝{α₁,α₂,α₃,…,α_n}为注意力机制的权重向量(α∈Rⁿ)，W_K(W_K∈R^2d)为K的权重矩阵；r(r∈R^d)为给定事件触发词时对应事件句的权重向量；是注意力机制获取的中文事件语义特征向量； H^c为汉语事件句的隐向量矩阵(H^c∈R^d*n)；K为汉语事件句语义特征；越南语事件句的计算与汉语类似，需将触发词换成越南语事件中的触发词；

所述交叉注意力机制：

α＝softmax(W_KK) (6)

r＝αH^c (7)

3)事件类型：若事件类型相同则特征为1，否则为0；

4)事件子类型：若事件子类型相同则特征为1，否则特征为0；

y＝softmax(W[g^cg^vu]+b) (9)

Step6、分别对模型编码层、卷积层进行实验探究，证明模型设置的合理性与高效性，又将该模型与现有模型进行对比，证明本方法在汉越双语事件识别上具有较好效果。

实验采用准确率(P)、召回率(R)、和F值(F)作为评价指标进行对比实验。

其中A为正确识别事件类型的数量，B为错误识别事件类型的数量，C为正确未识别事件类型的数量。

为了探究位置信息是否能获取到额外的语义信息，从而提高模型的性能。本实验将编码层不添加位置向量的模型与编码层添加位置向量的模型进行对比，模型其他部分相同，实验结果如表1所示。

表1：位置向量对模型的影响实验结果

是否添加位置向量	P(％)	R(％)	F
				不添加位置向量	83.16	80.15	81.54
添加位置向量	87.32	84.07	85.98

由实验结果可知，结合位置向量和词向量，给每个词都引入语义结构信息有助于提升模型的性能。

RNN、LSTM和BiLSTM均为循环神经网络，其能够在输入和输出序列之间的映射过程中利用上下文相关信息，为对比他们的性能，将双向交叉注意力层的 Bi-LSTM替换成RNN，LSTM进行对比，模型其他部分相同，实验结果如表2所示。

表2：三种模型对比实验结果

模型	P(％)	R(％)	F
				RNN	76.21	76.33	77.92
LSTM	79.98	80.13	80.01
				BiLSTM	87.32	84.07	85.98

由实验结果可知，LSTM模型在汉越双语事件时序关系识别性能上优于RNN模型，BiLSTM模型又优于LSTM模型。RNN能够存取的历史信息范围很有限，使得隐含层的输入对于网络输出的影响随着网络环路的不断递归而衰退，LSTM正可以解决长距离依赖问题，更加有效的挖掘事件句的隐含语义信息。事实上，同时上下文信息可以更好的理解语义信息，Bi-LSTM模型可以从正反两个方向提取信息，因此文本模型采用Bi-LSTM获取事件句的语义信息。

为探索交叉注意力机制在汉越双语事件时序关系识别任务中的有效性，将只采用注意力机制的模型和只采用交叉注意力机制的模型进行比较，实验结果如表3所示。

表3：交叉注意力机制对模型的影响实验结果

模型	P(％)	R(％)	F
				注意力机制	85.12	82.43	83.26
交叉注意力机制	86.04	83.51	84.19
				BLCATT	87.32	84.07	85.98

由实验可知，仅使用交叉注意力机制的模型优于仅使用注意力机制的模型，由于注意力机制添加了触发词在当前事件的权重，而交叉注意力可以捕获到两事件句之间的时序逻辑关系。在事件时序关系识别任务中，时序逻辑关系的准确获有更重要的作用。同时采用注意力机制和交叉注意力机制，使得汉越双语事件时序关系识别任务达到了最佳的效果

交叉注意力机制在时序关系识别中起到主要作用，事件间规则特征起到约束作用。为探究事件间大部分的时序关系是由交叉注意力获取，实验结果如表4所示：

表4：交叉注意力机制和事件间规则特征对模型的影响实验结果

由实验可知，只采用交叉注意力机制的模型效果优于只使用事件间规则特征的模型，说明大部分的事件间的时序关系由交叉注意力捕获，事件间规则特征起到了辅助作用，因此同时使用这两部分获取时序关系。

从以上数据可以看出，利用双语词向量和位置向量来表征汉越双语新闻文本，通过BiLSTM、注意力机制、交叉注意力机制得到事件编码，将事件编码与6类事件间规则特征融合输入至分类层，进而实现汉越双语新闻事件时序关系识别。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于双向交叉注意力机制的汉越新闻事件时序关系识别方法，其特征在于：所述基于双向交叉注意力机制的汉越新闻事件时序关系识别方法的具体步骤如下：

Step1、收集用于汉越双语新闻事件时序关系识别的新闻文本，对新闻文本进行去重与筛选；

Step2、定制汉越双语新闻事件时序关系识别的标注体系，标记双语新闻文本，将标记好的双语新闻语料进行组对后再分为训练语料、测试语料和验证语料；

2.根据权利要求1所述的基于双向交叉注意力机制的汉越新闻事件时序关系识别方法，其特征在于：所述Step1中，使用Scrapy作为爬取工具，模仿用户操作，为汉语、越南语新闻网站定制不同的模板，根据页面数据元素的XPath路径制定模板获取详细数据，获取新闻标题、新闻时间、新闻正文数据。

3.根据权利要求1所述的基于双向交叉注意力机制的汉越新闻事件时序关系识别方法，其特征在于：所述步骤Step2的具体步骤为：

Step2.1、定制的汉越双语新闻事件时序关系识别的标注体系采用了XML的可扩展标记语言组织文本，分别针对触发词、参数、事件类型、时序关系类型对收集到的汉越双语新闻文本进行标记；

1)将每个话题下的双语新闻文本提取出的事件放入对应话题下的事件集合D_i＝{e₁,e₂,…,e_n}中，i＝1,2,…,10，n为事件总数；

4)将事件对放入事件对集合中；

Step2.3、再将实验数据分为训练语料、测试语料和验证语料。

4.根据权利要求3所述的基于双向交叉注意力机制的汉越新闻事件时序关系识别方法，其特征在于：所述步骤Step2中：将事件时序关系分为三种类型，分别为“间断前后”、“连续前后”和“并列”关系；根据双语的语言特点以及事件时序关系的需求，定制汉越双语新闻事件时序关系识别的标注体系。

5.根据权利要求1所述的基于双向交叉注意力机制的汉越新闻事件时序关系识别方法，其特征在于：所述步骤Step3的具体步骤：

Step3.1、采用skip-gram扩展模型的方法预测目标词在汉语中的上下文信息，同时预测目标词在越南语中对齐词的上下文信息，从而得到汉越双语词向量；

6.根据权利要求1所述的基于双向交叉注意力机制的汉越新闻事件时序关系识别方法，其特征在于：所述步骤Step4采用双向交叉注意力循环神经网络，获取双语新闻的事件编码的具体步骤为：

Step4.4、结合得到的三部分语义信息嵌入为事件编码。

7.根据权利要求1所述的基于双向交叉注意力机制的汉越新闻事件时序关系识别方法，其特征在于：所述步骤Step5的具体步骤为：将提取到的事件编码与事件间规则特征融合输入至分类层，采用softmax分类器对汉越双语新闻事件对之间的时序关系进行分类，从而实现汉越双语新闻事件时序关系的自动识别，输出时序关系类别。

8.根据权利要求1或7所述的基于双向交叉注意力机制的汉越新闻事件时序关系识别方法，其特征在于：所述事件间规则特征包括：

2)触发词的语义角色：若触发词的语义角色相同，则特征值取1，否则特征值为0；

3)事件类型：若事件类型相同则特征为1，否则为0；

4)事件子类型：若事件子类型相同则特征为1，否则特征为0；