CN112668319A

CN112668319A - 基于中文信息和越南语句法指导的越南语新闻事件检测方法

Info

Publication number: CN112668319A
Application number: CN202011500549.9A
Authority: CN
Inventors: 张亚飞; 陈龙; 郭军军; 余正涛
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-16
Anticipated expiration: 2040-12-18
Also published as: CN112668319B

Abstract

本发明涉及基于中文信息和越南语句法指导的越南语新闻事件检测方法，属于自然语言处理技术领域。本发明首先在双语信息融合模块使越南语语句能获取到中文语义信息。然后根据越南语句法依存关系，利用句法图卷积增强信息之间的关联，以解决多事件歧义问题。最后利用事件类型感知网络来提取基于中文事件类型的越南语句子表征，以完成对越南语的事件检测。本发明事件检测需要识别新闻中的事件信息并对其进行分类，目前针对越南语新闻事件标注数据的稀缺以及事件类型歧义问题，根据多语言一致性特点，使用丰富的中文标记数据可以解决越南语数据稀缺及事件类型歧义问题。

Description

基于中文信息和越南语句法指导的越南语新闻事件检测方法

技术领域

本发明涉及基于中文信息和越南语句法指导的越南语新闻事件检测方法，属于自然语言处理技术领域。

背景技术

事件检测是从非结构化的文本中识别出事件信息并对其进行分类。中越两国共同关注的问题日益增多，相关新闻报道也随之增多，检测越南新闻中所报道的中越相关新闻中的事件，有助于相关部门把握越南的事态动态与导向，并做出正确的应对措施。当前基于深度学习的事件检测模型都依赖足够数量的标注数据且仅关注触发词等特定信息，而越南语新闻事件标注数据的稀缺以及触发词引起的事件歧义问题为越南语事件检测带来了极大的挑战。受多语言一致性思想的启发，使用丰富的中文标记数据对于解决越南语标记数据缺失及事件类型歧义问题具有重要意义。

发明内容

本发明提供了基于中文信息和越南语句法指导的越南语新闻事件检测方法，以用于解决目前越南语新闻事件标注数据的稀缺以及触发词引起的事件类型歧义问题。

本发明的技术方案是：基于中文信息和越南语句法指导的越南语新闻事件检测方法，所述基于中文信息和越南语句法指导的越南语新闻事件检测方法的具体步骤如下：

Step1、收集用于中越双语相关新闻事件检测的新闻文本，先爬取越南语新闻网站(越南新闻社、越南经济时报、越南之门)，然后针对越南语爬取到的新闻主题对应爬取中文新闻网站(百度、新华网、人民网)，其中共爬取813篇越南语新闻文本和4065篇中文新闻文本。最后对新闻文本进行去重与筛选；

作为本发明的优选方案，所述Step1中，使用Scrapy作为爬取工具，模仿用户操作，为中文、越南语新闻网站定制不同的模板，根据页面数据元素的XPath路径制定模板获取详细数据，获取新闻标题、新闻时间、新闻正文等数据。

此优选方案设计是本发明的重要组成部分，主要为本发明收集语料过程，为本发明识别事件类型提供了数据支撑。

Step2、对中越新闻文本进行分词，实体标注等预处理，标注中越双语新闻文本中的事件类型以及中文触发词，将标记好的越南语新闻语料按照8：1：1的比例分配训练语料、测试语料和验证语料；

Step3、采用由共享编码器网络和交叉注意力网络两个网络模块融合双语信息。

Step4、使用句法图卷积将越南语向量表示与越南语依存句法信息进行联合学习，得到融合依存句法信息的向量表示。

Step5、最后通过事件检测器中的事件类型感知网络实现基于中文事件类型信息的越南语语义表示，进而完成越南语新闻事件检测。

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.1、本发明中事件由触发词和参数组成，触发词能清楚的表达一类事件发生，通常是单个动词或者名词，参数描述事件发生的时间、地点、人物等信息；定制的中越双语相关新闻事件。标记出中文触发词及中越新闻文本中的事件类型。

Step2.2、利用ACE2005数据集的格式定义为7种事件类型，其中共有25089条新闻句；

Step2.3、再将实验数据分为训练语料、测试语料和验证语料。

作为本发明的优选方案，所述步骤Step2中：将事件类型分为七种类型，分别为“

(访问)”、“

(会见)”和“

xúc(合作)”、“

kinh

(经济)”、“Thay

(换届)”、“Giao

(贸易)”、“

xung

(冲突)”关系。

作为本发明的优选方案，所述步骤Step3包括：

首先通过编码器对中文语句进行编码并获取到中文编码隐层向量表示和中文句子级向量表示；

然后越南语与中文句子级向量融合，再通过共享编码器策略获取越南语隐层向量和越南语句子级向量；

最后在交叉注意力网络中将获得中文隐层向量与越南语隐层向量进行联合学习，得到融合中文词级信息的越南语向量表示。

作为本发明的优选方案，所述步骤Step4包括：

采用越南语开源依存句法分析工具来构建依存句法关系，用来对关键信息的有效聚合；

通过句法依存关系表示的快捷弧能增强信息之间的依赖关系。

作为本发明的优选方案，所述步骤Step3的具体步骤：

Step3.1、首先通过GRU网络读取输入的汉语词向量c_i与实体向量

所构成的

获得中文语句隐层

在阅读了中文语句子输入后，可获得句子级向量表示

由于中-越语句所表达的是同一事件，因此有相同或相似的语义成分。通过中文语义信息的融入，可使越南语能关注到更多事件信息。因此，越南语词向量v_j和实体向量

所构成

再与中文句子级向量

构成

通过共享编码器得到越南语隐层

和越南语句子级向量

Step3.2、在中文和越南语之间使用交叉注意力网络，该网络允许越南语词级隐层状态通过关注中文词级隐层状态来表示，进而使越南语进一步学习到中文事件信息。

由共享编码器策略得到越南语

通过中文每一个特征表示

的加权值来表示越南语第i个词的特征表示

注意力权重α_i,j是通过相应的匹配分数m_j,i上计算softmax函数而获得的。其中匹配分数又是基于特征向量

和

的双线性乘积来计算的：

其中，W∈R^n×n和b∈R是课训练的注意力参数。通过交叉注意力网络，将中文语句放在越南语语句的上下文嵌入中，可以进一步使越南语关注到中文事件信息。

此优选方案设计是本发明的重要组成部分，主要为本发明提供向量编码的过程，使用编码器对中越双语语句进行向量化表示，在此基础上，提出共享编码器策略，然后通过交叉注意力网络获得最终的越南语向量表示。双语信息融合是根据编码获得中文句子级向量表征与越南语词级向量表征融合，以产生融入中文语义信息的越南语词级向量表征。

作为本发明的优选方案，所述步骤Step4的具体步骤为：

Step4.1、采用越南语开源依存句法分析工具来构建依存句法关系。同时考虑无向图ζ＝(γ,ε)作为句子W的句法分析树，其中γ＝v₁,v₂……v_n(|γ|＝n)和ε分别是节点集和边集。在γ中，每个v_i是表示w_i在W的节点，每个边(v_i,v_j)∈ε是来自单词w_i到单词w_j的有向句法弧，类型标签为K(w_i,w_j)。此外，为了让信息朝相反的方向流动，还添加了带有类型标签K′(w_i,w_j)的反向边(v_j,v_i)。此外，还添加了所有的自循环，即任何v_i∈γ的(v_i,v_i)。所以最终得到标签K(w_i,w_j)的三种类型表示为：

Step4.2、通过依存关系中边的类型标签构建邻接矩阵，应用经过公式3表示的越南语词级表征

作为网络的输入，初始化网络第一层的节点表示

在句法图卷积网络模块的第k层，可以通过以下方法计算节点v∈γ的图卷积向量

其中K(u,v)表示边(u,v)的类型标签所构建的邻接矩阵；

和

分别是某个类型标签K(u,v)的权值矩阵和偏差；N(v)是v的邻域集，包括v(由于自循环)；f是非线性激活函数。

此优选方案设计可以将关键信息得到有效的聚合，句法图卷积模块被设计用来捕获句法依存之间的关系，通过句法依存关系表示的快捷弧可以增强信息之间的依赖关系。

作为本发明的优选方案，所述步骤Step5的具体步骤为：通过事件检测器中的事件类型感知网络实现基于中文事件类型信息的越南语语义表示，以完成越南语新闻事件检测。

作为本发明的优选方案，通过中文和越南语相关新闻报道可以将事件类型分为七类。

作为本发明的优选方案，引入事件感知网络，根据汉语语句所标记的目标事件类型得到嵌入向量t₁对句法图卷积得到的越南语隐藏状态

进行打分，以此感知是否触发此事件。在下面的等式中，特别是通过注意来计算第k-h个隐状态的分数，以使目标事件类型的触发词比其他词获得更高的分数：

最后，可得经过分数评估之后越南语句子表示s_att：

其中α＝[α¹,α²,α³……αⁿ]是注意力的矢量，

是越南语语句向量矩阵。

根据所得越南语句子的表示，最终输出O连接到两个组件：v_att和v_global。一方面，v_att是由s_att和t₁点积计算所得，它被设计用来捕捉越南语本地特征。另一方面，越南语通过共享编码器策略得到越南语句子向量表示

因此

是捕捉越南语句子的整体特征信息。最后，O是被定义v_att和v_global的加权和：

O＝σ(λ·v_att+(1-λ)v_global) (12)

这里σ是Sigmoid函数，λ∈[0,1]是一个用于权衡v_att和v_global的超参数。

此优选方案设计对隐藏的触发器进行更好的建模，有助于更好的识别事件类型。

本发明的有益效果是：

1、本发明的基于中文信息和越南语句法指导的越南语新闻事件检测方法，利用多语言一致性，设计了中越双语信息融合网络与事件类型感知网络，以实现基于中文信息指导的越南语语义表示；

2、本发明的基于中文信息和越南语句法指导的越南语新闻事件检测方法，利用越南语句法依存关系，通过句法图卷积网络提取越南语句法特征并将其融入越南语语句中，消除事件歧义；

3、本发明的基于中文信息和越南语句法指导的越南语新闻事件检测方法，通过事件类型感知网络提取基于中文事件类型信息的越南语语义表征，以实现在中文信息和越南语句法信息指导下的越南语新闻事件检测；

4、本发明的基于中文信息和越南语句法指导的越南语新闻事件检测方法，解决了越南语新闻事件标注数据的稀缺以及触发词引起的事件类型歧义问题。

附图说明

图1为本发明提出的基于中文信息和越南语句法指导的越南语新闻事件检测流程图；

图2为本发明提出的基于中文信息和越南语句法指导的越南语新闻事件检测模型图；

图3为本发明提出的基于中文信息和越南语句法指导的越南语新闻事件检测方法中的交叉注意力网络图；

图4为本发明提出的基于中文信息和越南语句法指导的越南语新闻事件检测方法中的句法图卷积模块图；

图5为本发明提出的基于中文信息和越南语句法指导的越南语新闻事件检测方法中的事件检测器模块图；

图6为本发明提出的基于中文信息和越南语句法指导的越南语新闻事件检测方法中的事件类型分布直方图。

具体实施方式

实施例1：如图1-6所示，基于中文信息和越南语句法指导的越南语新闻事件检测方法，具体步骤如下：

Step1、收集用于中越双语相关新闻事件检测的新闻文本，对新闻文本进行去重与筛选；

Step2、制定中越双语新闻事件类型及中文触发词的标注体系，将标记好的越南语新闻语料分为训练语料、测试语料和验证语料；

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1、收集用于中越双语新闻文本，先爬取越南语新闻网站(越南新闻社、越南经济时报、越南之门)，然后针对越南语爬取到的新闻主题对应爬取中文新闻网站(百度、新华网、人民网)，其中共爬取813篇越南语新闻文本和4065篇中文新闻文本。最后对新闻文本进行去重与筛选；

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.3、再将实验数据分为训练语料、测试语料和验证语料。

(访问)”、“

(会见)”和“

xúc(合作)”、“

kinh

(经济)”、“Thay

(换届)”、“Giao

(贸易)”、“

xung

(冲突)”关系。

作为本发明的优选方案，所述步骤Step3包括：

作为本发明的优选方案，所述步骤Step4包括：

作为本发明的优选方案，所述步骤Step3的具体步骤：

Step3.1、首先通过GRU网络读取输入的汉语词向量c_i与实体向量

所构成的

获得中文语句隐层

在阅读了中文语句子输入后，可获得句子级向量表示

所构成

再与中文句子级向量

构成

通过共享编码器得到越南语隐层

和越南语句子级向量

由共享编码器策略得到越南语

通过中文每一个特征表示

的加权值来表示越南语第i个词的特征表示

和

的双线性乘积来计算的：

作为本发明的优选方案，所述步骤Step4的具体步骤为：

Step4.1、采用越南语开源依存句法分析工具来构建依存句法关系。同时考虑无向图ζ＝(γ，ε)作为句子W的句法分析树，其中γ＝v₁，v₂......v_n(|γ|＝n)和ε分别是节点集和边集。在γ中，每个v_i是表示w_i在W的节点，每个边(v_i，v_j)∈ε是来自单词w_i到单词w_j的有向句法弧，类型标签为K(w_i，w_j)。此外，为了让信息朝相反的方向流动，我们还添加了带有类型标签K′(w_i，w_j)的反向边(v_j，v_i)。此外，我们还添加了所有的自循环，即任何v_i∈γ的(v_i，v_i)。所以最终得到标签K(w_i，w_j)的三种类型表示为：

作为网络的输入，初始化网络第一层的节点表示

在句法图卷积网络模块的第k层，我们可以通过以下方法计算节点v∈γ的图卷积向量

其中K(u，v)表示边(u，v)的类型标签所构建的邻接矩阵；

和

分别是某个类型标签K(u，v)的权值矩阵和偏差；N(v)是v的邻域集，包括v(由于自循环)；f是非线性激活函数。

作为本发明的优选方案，所述步骤Step5的具体步骤为：通过事件检测器中的事件类型感知网络实现基于中文事件类型信息的越南语语义表示，以完成越南语新闻事件检测。通过中文和越南语相关新闻报道可以将事件类型分为七类。

最后，可得经过分数评估之后越南语句子表示s_att：

其中α＝[α¹,α²,α³……αⁿ]是注意力的矢量，

是越南语语句向量矩阵。

因此

O＝σ(λ·v_att+(1-λ)v_global) (12)

Step6、通过对训练数据的分析可知：

(1)在训练数据中，负性样本多于正性样本。在本方法中，每个训练样本是一个<(越南语语句，中文语句)，事件类型t>，标签是1或者0是根据所给汉越句子是否传达了t类型事件。

(2)正性样本比负性样本信息更丰富。一对正样本<(越南语语句，中文语句)，事件类型t>意思是越南语句子和汉语句子传递的事件类型t，而负样本对意味着不传递任何t类型的事件。由于以上的原因，我们设计了一个偏压损失函数来增强正样本的影响。

给出所有(假设T)训练实例(x⁽ⁱ⁾,y⁽ⁱ⁾)，损失函数定义如下：

其中x是由汉越双语句子和一个目标事件类型组成的一对，y∈{0,1}，θ是我们模型的参数，δ>0是L2规范化项的权重。1+y⁽ⁱ⁾·β是偏差项，当为负样本的时候y⁽ⁱ⁾＝0，当为正样本的时候y⁽ⁱ⁾＝1，β≥0。

通过使用一种简单的优化技术，即随机梯度下降(SGD)来训练该模型，该优化技术使用Adadelta规则对小批量打乱进行训练。正则化由L2实现。

举个例子,对于x，模型给它分配了一个标签

根据下式：

这里的x是一对<(C,V),t>，o(x)是模型对于x的输出，

是最终的预测结果。

Step7、结合本文模型分别做了参数对比试验和消融实验，证明模型设置的合理性与高效性，又将该模型与现有模型进行对比，证明本方法在越南语事件检测上具有较好效果。

实验采用准确率(P)、召回率(R)、和F值(F)作为评价指标进行对比实验。

Precision(P)：正确预测的事件在总预测事件中所占的比例。

Recall(R)：正确预测的事件在真实事件中所占的比例。

为验证文本模型是否能提升事件检测的效果，在越南语新闻数据集上将本文模型与基线方法(TBNNAM)作对比，同时与CNN、LSTM进行比较来进行实验。

TBNNAM：该方法是不需要触发词等信息，利用标注的事件类型与句子实现事件检测。

CNN：通过CNN对依存句法信息进行特征提取与融入。

LSTM：通过LSTM编码器对语句的信息进行编码。

实验结果如表1所示：

表1不同模型性能对比

通过对比实验可知，本文模型的F₁值均超过其他基线模型。对比TBNNAM基线模型，本发明模型通过中文语义信息的融入，更好利用中文标注的事件类型信息，从而更好的辅助越南语事件检测，从而达到较好的效果。本模型通过对比实验看出，使用GCN进行越南语依存关系提取和融入可以捕捉到CNN未能捕捉到事件句的关键信息。对比使用共享LSTM编码器，共享GRU编码器策略可以更好的提升模型性能。

为验证本模型的嵌入向量维度、句法图卷积层数及其句法图卷积噪声对性能的影响，实验结果分别如表2、表3、表4所示：

表2 Embedding维度实验结果

通过对比实验可知，当嵌入维度为100和200维度时，此时模型性能都所下降。此时由于嵌入维度比较低，其语意信息表达能力不足，从而影响模型性能。当嵌入维度比较高的时候，此时会模型出现过拟合趋势，从而使模型性能开始下降。所以综上所述，最后模型嵌入选定为300维为最优。

表3 SGCN层数实验结果

句法图卷积层数实验如表3所示，随着层数的增加，模型性能有所上升。因为层数的增加，使得越南语依存句法特征得到了深层次的提取，从而使模型关注更多信息之间的关联，进一步提升模型的性能。但是随着网络层数增加到三层，此时模型开始下降，由于句法依存关系本身存在一定噪声，随着层数的增加，噪声数据也进一步叠加，从而影响模型性能。

表4 SGCN噪声实验结果

句法图卷积模块噪声实验如表4所示，随着句法图卷积模块中加入噪声数据(以0.02、0.04、0.06和0.08的概率生成随机噪声数据)，模型性能出现波动，但是总体正在下降。通过数据分析，随着噪声的干扰，模型误判了少量事件句为非事件句，同时也将事件句误判错误，因此造成模型的R值都出现不同程度的下降，从而使模型的总体性能在下降。

为验证本模型的中文语义信息、句法图卷积模块、以及交叉注意力机制的有效性，如表5所示(特表说明“(-)”表示未使用该网络结构)：

表5消融实验结果

消融实验结果如表5所示，本文模型的P、R、F₁值均超过其他基线模型。当我们未融入中文语义信息时，模型P、R、F₁均有所下降，因此可以证明中文语义信息的融入，可以使模型更好的辅助越南语进行事件检测，这对模型检测越南语事件的性能提升是非常重要的，也是我们模型中必不可少的一环。同时对比交叉注意力机制，由于没有进行对中文语句深层次信息融合，模型性能也有所下降，说明交叉注意力机制对于模型提升也有帮助。当我们未使用句法图卷积模块时，模型的P、R、F₁均在下降，因此可以证明句法图卷积模块可以有效的对句子深层次的特征进行提取和融入，可以更好的辅助模型对越南语事件信息的准确识别。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。