CN112668319B - 基于中文信息和越南语句法指导的越南语新闻事件检测方法 - Google Patents

基于中文信息和越南语句法指导的越南语新闻事件检测方法 Download PDF

Info

Publication number
CN112668319B
CN112668319B CN202011500549.9A CN202011500549A CN112668319B CN 112668319 B CN112668319 B CN 112668319B CN 202011500549 A CN202011500549 A CN 202011500549A CN 112668319 B CN112668319 B CN 112668319B
Authority
CN
China
Prior art keywords
vietnamese
chinese
event
news
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011500549.9A
Other languages
English (en)
Other versions
CN112668319A (zh
Inventor
张亚飞
陈龙
郭军军
余正涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202011500549.9A priority Critical patent/CN112668319B/zh
Publication of CN112668319A publication Critical patent/CN112668319A/zh
Application granted granted Critical
Publication of CN112668319B publication Critical patent/CN112668319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及基于中文信息和越南语句法指导的越南语新闻事件检测方法,属于自然语言处理技术领域。本发明首先在双语信息融合模块使越南语语句能获取到中文语义信息。然后根据越南语句法依存关系,利用句法图卷积增强信息之间的关联,以解决多事件歧义问题。最后利用事件类型感知网络来提取基于中文事件类型的越南语句子表征,以完成对越南语的事件检测。本发明事件检测需要识别新闻中的事件信息并对其进行分类,目前针对越南语新闻事件标注数据的稀缺以及事件类型歧义问题,根据多语言一致性特点,使用丰富的中文标记数据可以解决越南语数据稀缺及事件类型歧义问题。

Description

基于中文信息和越南语句法指导的越南语新闻事件检测方法
技术领域
本发明涉及基于中文信息和越南语句法指导的越南语新闻事件检测方法,属于自然语言处理技术领域。
背景技术
事件检测是从非结构化的文本中识别出事件信息并对其进行分类。中越两国共同关注的问题日益增多,相关新闻报道也随之增多,检测越南新闻中所报道的中越相关新闻中的事件,有助于相关部门把握越南的事态动态与导向,并做出正确的应对措施。当前基于深度学习的事件检测模型都依赖足够数量的标注数据且仅关注触发词等特定信息,而越南语新闻事件标注数据的稀缺以及触发词引起的事件歧义问题为越南语事件检测带来了极大的挑战。受多语言一致性思想的启发,使用丰富的中文标记数据对于解决越南语标记数据缺失及事件类型歧义问题具有重要意义。
发明内容
本发明提供了基于中文信息和越南语句法指导的越南语新闻事件检测方法,以用于解决目前越南语新闻事件标注数据的稀缺以及触发词引起的事件类型歧义问题。
本发明的技术方案是:基于中文信息和越南语句法指导的越南语新闻事件检测方法,所述基于中文信息和越南语句法指导的越南语新闻事件检测方法的具体步骤如下:
Step1、收集用于中越双语相关新闻事件检测的新闻文本,先爬取越南语新闻网站(越南新闻社、越南经济时报、越南之门),然后针对越南语爬取到的新闻主题对应爬取中文新闻网站(百度、新华网、人民网),其中共爬取813篇越南语新闻文本和4065篇中文新闻文本。最后对新闻文本进行去重与筛选;
作为本发明的优选方案,所述Step1中,使用Scrapy作为爬取工具,模仿用户操作,为中文、越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取新闻标题、新闻时间、新闻正文等数据。
此优选方案设计是本发明的重要组成部分,主要为本发明收集语料过程,为本发明识别事件类型提供了数据支撑。
Step2、对中越新闻文本进行分词,实体标注等预处理,标注中越双语新闻文本中的事件类型以及中文触发词,将标记好的越南语新闻语料按照8:1:1的比例分配训练语料、测试语料和验证语料;
Step3、采用由共享编码器网络和交叉注意力网络两个网络模块融合双语信息。
Step4、使用句法图卷积将越南语向量表示与越南语依存句法信息进行联合学习,得到融合依存句法信息的向量表示。
Step5、最后通过事件检测器中的事件类型感知网络实现基于中文事件类型信息的越南语语义表示,进而完成越南语新闻事件检测。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、本发明中事件由触发词和参数组成,触发词能清楚的表达一类事件发生,通常是单个动词或者名词,参数描述事件发生的时间、地点、人物等信息;定制的中越双语相关新闻事件。标记出中文触发词及中越新闻文本中的事件类型。
Step2.2、利用ACE2005数据集的格式定义为7种事件类型,其中共有25089条新闻句;
Step2.3、再将实验数据分为训练语料、测试语料和验证语料。
作为本发明的优选方案,所述步骤Step2中:将事件类型分为七种类型,分别为“
Figure BDA00028434906100000211
(访问)”、“
Figure BDA0002843490610000029
(会见)”和“
Figure BDA0002843490610000022
xúc(合作)”、“
Figure BDA0002843490610000023
kinh
Figure BDA0002843490610000024
(经济)”、“Thay
Figure BDA0002843490610000025
(换届)”、“Giao
Figure BDA0002843490610000027
(贸易)”、“
Figure BDA0002843490610000028
xung
Figure BDA0002843490610000026
(冲突)”关系。
作为本发明的优选方案,所述步骤Step3包括:
首先通过编码器对中文语句进行编码并获取到中文编码隐层向量表示和中文句子级向量表示;
然后越南语与中文句子级向量融合,再通过共享编码器策略获取越南语隐层向量和越南语句子级向量;
最后在交叉注意力网络中将获得中文隐层向量与越南语隐层向量进行联合学习,得到融合中文词级信息的越南语向量表示。
作为本发明的优选方案,所述步骤Step4包括:
采用越南语开源依存句法分析工具来构建依存句法关系,用来对关键信息的有效聚合;
通过句法依存关系表示的快捷弧能增强信息之间的依赖关系。
作为本发明的优选方案,所述步骤Step3的具体步骤:
Step3.1、首先通过GRU网络读取输入的汉语词向量ci与实体向量
Figure BDA00028434906100000210
所构成的
Figure BDA0002843490610000031
获得中文语句隐层
Figure BDA0002843490610000032
Figure BDA0002843490610000033
在阅读了中文语句子输入后,可获得句子级向量表示
Figure BDA0002843490610000034
Figure BDA0002843490610000035
由于中-越语句所表达的是同一事件,因此有相同或相似的语义成分。通过中文语义信息的融入,可使越南语能关注到更多事件信息。因此,越南语词向量vj和实体向量
Figure BDA0002843490610000036
所构成
Figure BDA0002843490610000037
再与中文句子级向量
Figure BDA0002843490610000038
构成
Figure BDA0002843490610000039
通过共享编码器得到越南语隐层
Figure BDA00028434906100000310
和越南语句子级向量
Figure BDA00028434906100000311
Figure BDA00028434906100000312
Figure BDA00028434906100000313
Step3.2、在中文和越南语之间使用交叉注意力网络,该网络允许越南语词级隐层状态通过关注中文词级隐层状态来表示,进而使越南语进一步学习到中文事件信息。
由共享编码器策略得到越南语
Figure BDA00028434906100000314
通过中文每一个特征表示
Figure BDA00028434906100000315
的加权值来表示越南语第i个词的特征表示
Figure BDA00028434906100000316
Figure BDA00028434906100000317
注意力权重αi,j是通过相应的匹配分数mj,i上计算softmax函数而获得的。其中匹配分数又是基于特征向量
Figure BDA00028434906100000318
Figure BDA00028434906100000319
的双线性乘积来计算的:
Figure BDA00028434906100000320
Figure BDA00028434906100000321
其中,W∈Rn×n和b∈R是课训练的注意力参数。通过交叉注意力网络,将中文语句放在越南语语句的上下文嵌入中,可以进一步使越南语关注到中文事件信息。
此优选方案设计是本发明的重要组成部分,主要为本发明提供向量编码的过程,使用编码器对中越双语语句进行向量化表示,在此基础上,提出共享编码器策略,然后通过交叉注意力网络获得最终的越南语向量表示。双语信息融合是根据编码获得中文句子级向量表征与越南语词级向量表征融合,以产生融入中文语义信息的越南语词级向量表征。
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、采用越南语开源依存句法分析工具来构建依存句法关系。同时考虑无向图ζ=(γ,ε)作为句子W的句法分析树,其中γ=v1,v2……vn(|γ|=n)和ε分别是节点集和边集。在γ中,每个vi是表示wi在W的节点,每个边(vi,vj)∈ε是来自单词wi到单词wj的有向句法弧,类型标签为K(wi,wj)。此外,为了让信息朝相反的方向流动,还添加了带有类型标签K′(wi,wj)的反向边(vj,vi)。此外,还添加了所有的自循环,即任何vi∈γ的(vi,vi)。所以最终得到标签K(wi,wj)的三种类型表示为:
Figure BDA0002843490610000041
Step4.2、通过依存关系中边的类型标签构建邻接矩阵,应用经过公式3表示的越南语词级表征
Figure BDA0002843490610000042
作为网络的输入,初始化网络第一层的节点表示
Figure BDA0002843490610000043
在句法图卷积网络模块的第k层,可以通过以下方法计算节点v∈γ的图卷积向量
Figure BDA0002843490610000044
Figure BDA0002843490610000045
其中K(u,v)表示边(u,v)的类型标签所构建的邻接矩阵;
Figure BDA0002843490610000046
Figure BDA0002843490610000047
分别是某个类型标签K(u,v)的权值矩阵和偏差;N(v)是v的邻域集,包括v(由于自循环);f是非线性激活函数。
此优选方案设计可以将关键信息得到有效的聚合,句法图卷积模块被设计用来捕获句法依存之间的关系,通过句法依存关系表示的快捷弧可以增强信息之间的依赖关系。
作为本发明的优选方案,所述步骤Step5的具体步骤为:通过事件检测器中的事件类型感知网络实现基于中文事件类型信息的越南语语义表示,以完成越南语新闻事件检测。
作为本发明的优选方案,通过中文和越南语相关新闻报道可以将事件类型分为七类。
作为本发明的优选方案,引入事件感知网络,根据汉语语句所标记的目标事件类型得到嵌入向量t1对句法图卷积得到的越南语隐藏状态
Figure BDA0002843490610000048
进行打分,以此感知是否触发此事件。在下面的等式中,特别是通过注意来计算第k-h个隐状态的分数,以使目标事件类型的触发词比其他词获得更高的分数:
Figure BDA0002843490610000051
最后,可得经过分数评估之后越南语句子表示satt
Figure BDA0002843490610000052
其中α=[α123……αn]是注意力的矢量,
Figure BDA0002843490610000053
是越南语语句向量矩阵。
根据所得越南语句子的表示,最终输出O连接到两个组件:vatt和vglobal。一方面,vatt是由satt和t1点积计算所得,它被设计用来捕捉越南语本地特征。另一方面,越南语通过共享编码器策略得到越南语句子向量表示
Figure BDA0002843490610000054
因此
Figure BDA0002843490610000055
是捕捉越南语句子的整体特征信息。最后,O是被定义vatt和vglobal的加权和:
O=σ(λ·vatt+(1-λ)vglobal) (12)
这里σ是Sigmoid函数,λ∈[0,1]是一个用于权衡vatt和vglobal的超参数。
此优选方案设计对隐藏的触发器进行更好的建模,有助于更好的识别事件类型。
本发明的有益效果是:
1、本发明的基于中文信息和越南语句法指导的越南语新闻事件检测方法,利用多语言一致性,设计了中越双语信息融合网络与事件类型感知网络,以实现基于中文信息指导的越南语语义表示;
2、本发明的基于中文信息和越南语句法指导的越南语新闻事件检测方法,利用越南语句法依存关系,通过句法图卷积网络提取越南语句法特征并将其融入越南语语句中,消除事件歧义;
3、本发明的基于中文信息和越南语句法指导的越南语新闻事件检测方法,通过事件类型感知网络提取基于中文事件类型信息的越南语语义表征,以实现在中文信息和越南语句法信息指导下的越南语新闻事件检测;
4、本发明的基于中文信息和越南语句法指导的越南语新闻事件检测方法,解决了越南语新闻事件标注数据的稀缺以及触发词引起的事件类型歧义问题。
附图说明
图1为本发明提出的基于中文信息和越南语句法指导的越南语新闻事件检测流程图;
图2为本发明提出的基于中文信息和越南语句法指导的越南语新闻事件检测模型图;
图3为本发明提出的基于中文信息和越南语句法指导的越南语新闻事件检测方法中的交叉注意力网络图;
图4为本发明提出的基于中文信息和越南语句法指导的越南语新闻事件检测方法中的句法图卷积模块图;
图5为本发明提出的基于中文信息和越南语句法指导的越南语新闻事件检测方法中的事件检测器模块图;
图6为本发明提出的基于中文信息和越南语句法指导的越南语新闻事件检测方法中的事件类型分布直方图。
具体实施方式
实施例1:如图1-6所示,基于中文信息和越南语句法指导的越南语新闻事件检测方法,具体步骤如下:
Step1、收集用于中越双语相关新闻事件检测的新闻文本,对新闻文本进行去重与筛选;
Step2、制定中越双语新闻事件类型及中文触发词的标注体系,将标记好的越南语新闻语料分为训练语料、测试语料和验证语料;
Step3、采用由共享编码器网络和交叉注意力网络两个网络模块融合双语信息。
Step4、使用句法图卷积将越南语向量表示与越南语依存句法信息进行联合学习,得到融合依存句法信息的向量表示。
Step5、最后通过事件检测器中的事件类型感知网络实现基于中文事件类型信息的越南语语义表示,进而完成越南语新闻事件检测。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1、收集用于中越双语新闻文本,先爬取越南语新闻网站(越南新闻社、越南经济时报、越南之门),然后针对越南语爬取到的新闻主题对应爬取中文新闻网站(百度、新华网、人民网),其中共爬取813篇越南语新闻文本和4065篇中文新闻文本。最后对新闻文本进行去重与筛选;
作为本发明的优选方案,所述Step1中,使用Scrapy作为爬取工具,模仿用户操作,为中文、越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取新闻标题、新闻时间、新闻正文等数据。
此优选方案设计是本发明的重要组成部分,主要为本发明收集语料过程,为本发明识别事件类型提供了数据支撑。
Step2、对中越新闻文本进行分词,实体标注等预处理,标注中越双语新闻文本中的事件类型以及中文触发词,将标记好的越南语新闻语料按照8:1:1的比例分配训练语料、测试语料和验证语料;
Step3、采用由共享编码器网络和交叉注意力网络两个网络模块融合双语信息。
Step4、使用句法图卷积将越南语向量表示与越南语依存句法信息进行联合学习,得到融合依存句法信息的向量表示。
Step5、最后通过事件检测器中的事件类型感知网络实现基于中文事件类型信息的越南语语义表示,进而完成越南语新闻事件检测。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、本发明中事件由触发词和参数组成,触发词能清楚的表达一类事件发生,通常是单个动词或者名词,参数描述事件发生的时间、地点、人物等信息;定制的中越双语相关新闻事件。标记出中文触发词及中越新闻文本中的事件类型。
Step2.2、利用ACE2005数据集的格式定义为7种事件类型,其中共有25089条新闻句;
Step2.3、再将实验数据分为训练语料、测试语料和验证语料。
作为本发明的优选方案,所述步骤Step2中:将事件类型分为七种类型,分别为“
Figure BDA0002843490610000079
(访问)”、“
Figure BDA0002843490610000072
(会见)”和“
Figure BDA0002843490610000073
xúc(合作)”、“
Figure BDA0002843490610000074
kinh
Figure BDA0002843490610000075
(经济)”、“Thay
Figure BDA0002843490610000076
(换届)”、“Giao
Figure BDA00028434906100000710
(贸易)”、“
Figure BDA0002843490610000077
xung
Figure BDA0002843490610000078
(冲突)”关系。
作为本发明的优选方案,所述步骤Step3包括:
首先通过编码器对中文语句进行编码并获取到中文编码隐层向量表示和中文句子级向量表示;
然后越南语与中文句子级向量融合,再通过共享编码器策略获取越南语隐层向量和越南语句子级向量;
最后在交叉注意力网络中将获得中文隐层向量与越南语隐层向量进行联合学习,得到融合中文词级信息的越南语向量表示。
作为本发明的优选方案,所述步骤Step4包括:
采用越南语开源依存句法分析工具来构建依存句法关系,用来对关键信息的有效聚合;
通过句法依存关系表示的快捷弧能增强信息之间的依赖关系。
作为本发明的优选方案,所述步骤Step3的具体步骤:
Step3.1、首先通过GRU网络读取输入的汉语词向量ci与实体向量
Figure BDA0002843490610000081
所构成的
Figure BDA0002843490610000082
获得中文语句隐层
Figure BDA0002843490610000083
Figure BDA0002843490610000084
在阅读了中文语句子输入后,可获得句子级向量表示
Figure BDA0002843490610000085
Figure BDA0002843490610000086
由于中-越语句所表达的是同一事件,因此有相同或相似的语义成分。通过中文语义信息的融入,可使越南语能关注到更多事件信息。因此,越南语词向量vj和实体向量
Figure BDA0002843490610000087
所构成
Figure BDA0002843490610000088
再与中文句子级向量
Figure BDA0002843490610000089
构成
Figure BDA00028434906100000810
通过共享编码器得到越南语隐层
Figure BDA00028434906100000811
和越南语句子级向量
Figure BDA00028434906100000812
Figure BDA00028434906100000813
Figure BDA00028434906100000814
Step3.2、在中文和越南语之间使用交叉注意力网络,该网络允许越南语词级隐层状态通过关注中文词级隐层状态来表示,进而使越南语进一步学习到中文事件信息。
由共享编码器策略得到越南语
Figure BDA00028434906100000815
通过中文每一个特征表示
Figure BDA00028434906100000816
的加权值来表示越南语第i个词的特征表示
Figure BDA00028434906100000817
Figure BDA00028434906100000818
注意力权重αi,j是通过相应的匹配分数mj,i上计算softmax函数而获得的。其中匹配分数又是基于特征向量
Figure BDA00028434906100000819
Figure BDA00028434906100000820
的双线性乘积来计算的:
Figure BDA00028434906100000821
Figure BDA00028434906100000822
其中,W∈Rn×n和b∈R是课训练的注意力参数。通过交叉注意力网络,将中文语句放在越南语语句的上下文嵌入中,可以进一步使越南语关注到中文事件信息。
此优选方案设计是本发明的重要组成部分,主要为本发明提供向量编码的过程,使用编码器对中越双语语句进行向量化表示,在此基础上,提出共享编码器策略,然后通过交叉注意力网络获得最终的越南语向量表示。双语信息融合是根据编码获得中文句子级向量表征与越南语词级向量表征融合,以产生融入中文语义信息的越南语词级向量表征。
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、采用越南语开源依存句法分析工具来构建依存句法关系。同时考虑无向图ζ=(γ,ε)作为句子W的句法分析树,其中γ=v1,v2......vn(|γ|=n)和ε分别是节点集和边集。在γ中,每个vi是表示wi在W的节点,每个边(vi,vj)∈ε是来自单词wi到单词wj的有向句法弧,类型标签为K(wi,wj)。此外,为了让信息朝相反的方向流动,我们还添加了带有类型标签K′(wi,wj)的反向边(vj,vi)。此外,我们还添加了所有的自循环,即任何vi∈γ的(vi,vi)。所以最终得到标签K(wi,wj)的三种类型表示为:
Figure BDA0002843490610000091
Step4.2、通过依存关系中边的类型标签构建邻接矩阵,应用经过公式3表示的越南语词级表征
Figure BDA0002843490610000092
作为网络的输入,初始化网络第一层的节点表示
Figure BDA0002843490610000093
在句法图卷积网络模块的第k层,我们可以通过以下方法计算节点v∈γ的图卷积向量
Figure BDA0002843490610000094
Figure BDA0002843490610000095
其中K(u,v)表示边(u,v)的类型标签所构建的邻接矩阵;
Figure BDA0002843490610000096
Figure BDA0002843490610000097
分别是某个类型标签K(u,v)的权值矩阵和偏差;N(v)是v的邻域集,包括v(由于自循环);f是非线性激活函数。
此优选方案设计可以将关键信息得到有效的聚合,句法图卷积模块被设计用来捕获句法依存之间的关系,通过句法依存关系表示的快捷弧可以增强信息之间的依赖关系。
作为本发明的优选方案,所述步骤Step5的具体步骤为:通过事件检测器中的事件类型感知网络实现基于中文事件类型信息的越南语语义表示,以完成越南语新闻事件检测。通过中文和越南语相关新闻报道可以将事件类型分为七类。
作为本发明的优选方案,引入事件感知网络,根据汉语语句所标记的目标事件类型得到嵌入向量t1对句法图卷积得到的越南语隐藏状态
Figure BDA0002843490610000101
进行打分,以此感知是否触发此事件。在下面的等式中,特别是通过注意来计算第k-h个隐状态的分数,以使目标事件类型的触发词比其他词获得更高的分数:
Figure BDA0002843490610000102
最后,可得经过分数评估之后越南语句子表示satt
Figure BDA0002843490610000103
其中α=[α123……αn]是注意力的矢量,
Figure BDA0002843490610000104
是越南语语句向量矩阵。
根据所得越南语句子的表示,最终输出O连接到两个组件:vatt和vglobal。一方面,vatt是由satt和t1点积计算所得,它被设计用来捕捉越南语本地特征。另一方面,越南语通过共享编码器策略得到越南语句子向量表示
Figure BDA0002843490610000105
因此
Figure BDA0002843490610000106
是捕捉越南语句子的整体特征信息。最后,O是被定义vatt和vglobal的加权和:
O=σ(λ·vatt+(1-λ)vglobal) (12)
这里σ是Sigmoid函数,λ∈[0,1]是一个用于权衡vatt和vglobal的超参数。
Step6、通过对训练数据的分析可知:
(1)在训练数据中,负性样本多于正性样本。在本方法中,每个训练样本是一个<(越南语语句,中文语句),事件类型t>,标签是1或者0是根据所给汉越句子是否传达了t类型事件。
(2)正性样本比负性样本信息更丰富。一对正样本<(越南语语句,中文语句),事件类型t>意思是越南语句子和汉语句子传递的事件类型t,而负样本对意味着不传递任何t类型的事件。由于以上的原因,我们设计了一个偏压损失函数来增强正样本的影响。
给出所有(假设T)训练实例(x(i),y(i)),损失函数定义如下:
Figure BDA0002843490610000111
其中x是由汉越双语句子和一个目标事件类型组成的一对,y∈{0,1},θ是我们模型的参数,δ>0是L2规范化项的权重。1+y(i)·β是偏差项,当为负样本的时候y(i)=0,当为正样本的时候y(i)=1,β≥0。
通过使用一种简单的优化技术,即随机梯度下降(SGD)来训练该模型,该优化技术使用Adadelta规则对小批量打乱进行训练。正则化由L2实现。
举个例子,对于x,模型给它分配了一个标签
Figure BDA0002843490610000112
根据下式:
Figure BDA0002843490610000113
这里的x是一对<(C,V),t>,o(x)是模型对于x的输出,
Figure BDA0002843490610000114
是最终的预测结果。
Step7、结合本文模型分别做了参数对比试验和消融实验,证明模型设置的合理性与高效性,又将该模型与现有模型进行对比,证明本方法在越南语事件检测上具有较好效果。
实验采用准确率(P)、召回率(R)、和F值(F)作为评价指标进行对比实验。
Precision(P):正确预测的事件在总预测事件中所占的比例。
Recall(R):正确预测的事件在真实事件中所占的比例。
Figure BDA0002843490610000115
为验证文本模型是否能提升事件检测的效果,在越南语新闻数据集上将本文模型与基线方法(TBNNAM)作对比,同时与CNN、LSTM进行比较来进行实验。
TBNNAM:该方法是不需要触发词等信息,利用标注的事件类型与句子实现事件检测。
CNN:通过CNN对依存句法信息进行特征提取与融入。
LSTM:通过LSTM编码器对语句的信息进行编码。
实验结果如表1所示:
表1不同模型性能对比
Figure BDA0002843490610000116
Figure BDA0002843490610000121
通过对比实验可知,本文模型的F1值均超过其他基线模型。对比TBNNAM基线模型,本发明模型通过中文语义信息的融入,更好利用中文标注的事件类型信息,从而更好的辅助越南语事件检测,从而达到较好的效果。本模型通过对比实验看出,使用GCN进行越南语依存关系提取和融入可以捕捉到CNN未能捕捉到事件句的关键信息。对比使用共享LSTM编码器,共享GRU编码器策略可以更好的提升模型性能。
为验证本模型的嵌入向量维度、句法图卷积层数及其句法图卷积噪声对性能的影响,实验结果分别如表2、表3、表4所示:
表2 Embedding维度实验结果
Figure BDA0002843490610000122
通过对比实验可知,当嵌入维度为100和200维度时,此时模型性能都所下降。此时由于嵌入维度比较低,其语意信息表达能力不足,从而影响模型性能。当嵌入维度比较高的时候,此时会模型出现过拟合趋势,从而使模型性能开始下降。所以综上所述,最后模型嵌入选定为300维为最优。
表3 SGCN层数实验结果
Figure BDA0002843490610000123
句法图卷积层数实验如表3所示,随着层数的增加,模型性能有所上升。因为层数的增加,使得越南语依存句法特征得到了深层次的提取,从而使模型关注更多信息之间的关联,进一步提升模型的性能。但是随着网络层数增加到三层,此时模型开始下降,由于句法依存关系本身存在一定噪声,随着层数的增加,噪声数据也进一步叠加,从而影响模型性能。
表4 SGCN噪声实验结果
Figure BDA0002843490610000131
句法图卷积模块噪声实验如表4所示,随着句法图卷积模块中加入噪声数据(以0.02、0.04、0.06和0.08的概率生成随机噪声数据),模型性能出现波动,但是总体正在下降。通过数据分析,随着噪声的干扰,模型误判了少量事件句为非事件句,同时也将事件句误判错误,因此造成模型的R值都出现不同程度的下降,从而使模型的总体性能在下降。
为验证本模型的中文语义信息、句法图卷积模块、以及交叉注意力机制的有效性,如表5所示(特表说明“(-)”表示未使用该网络结构):
表5消融实验结果
Figure BDA0002843490610000132
消融实验结果如表5所示,本文模型的P、R、F1值均超过其他基线模型。当我们未融入中文语义信息时,模型P、R、F1均有所下降,因此可以证明中文语义信息的融入,可以使模型更好的辅助越南语进行事件检测,这对模型检测越南语事件的性能提升是非常重要的,也是我们模型中必不可少的一环。同时对比交叉注意力机制,由于没有进行对中文语句深层次信息融合,模型性能也有所下降,说明交叉注意力机制对于模型提升也有帮助。当我们未使用句法图卷积模块时,模型的P、R、F1均在下降,因此可以证明句法图卷积模块可以有效的对句子深层次的特征进行提取和融入,可以更好的辅助模型对越南语事件信息的准确识别。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (4)

1.基于中文信息和越南语句法指导的越南语新闻事件检测方法,其特征在于:所述基于中文信息和越南语句法指导的越南语新闻事件检测方法的具体步骤如下:
Step1、收集用于中越双语相关新闻事件检测的新闻文本,对新闻文本进行去重与筛选;
Step2、制定中越双语新闻事件类型及中文触发词的标注体系,将标记好的越南语新闻语料分为训练语料、测试语料和验证语料;
Step3、采用由共享编码器网络和交叉注意力网络两个网络模块融合双语信息;
Step4、使用句法图卷积将越南语向量表示与越南语依存句法信息进行联合学习,得到融合依存句法信息的向量表示;
Step5、最后通过事件检测器中的事件类型感知网络实现基于中文事件类型信息的越南语语义表示,进而完成越南语新闻事件检测;
所述步骤Step3包括:
首先通过编码器对中文语句进行编码并获取到中文隐层向量表示和中文句子级向量表示;
然后越南语与中文句子级向量融合,再通过共享编码器策略获取越南语隐层向量和越南语句子级向量;
最后在交叉注意力网络中将获得中文隐层向量与越南语隐层向量进行联合学习,得到融合中文词级信息的越南语向量表示;
所述步骤Step4的具体步骤为:
Step4.1、采用越南语开源依存句法分析工具来构建依存句法关系,同时考虑无向图ζ=(γ,ε)作为句子W的句法分析树,其中γ=v1,v2……vn(|γ|=n)和ε分别是节点集和边集;在γ中,每个vi是表示wi在W的节点,每个边(vi,vj)∈ε是来自单词wi到单词wj的有向句法弧,类型标签为K(wi,wj);此外,为了让信息朝相反的方向流动,还添加了带有类型标签K′(wi,wj)的反向边(vj,vi);此外,还添加了所有的自循环,即任何vi∈γ的(vi,vi);
Step4.2、通过依存关系中边的类型标签构建邻接矩阵,融合中文词级信息的越南语向量表示
Figure FDA0003458146780000011
作为网络的输入,初始化网络第一层的节点表示
Figure FDA0003458146780000012
在句法图卷积网络模块的第k+2层,通过以下方法计算节点v∈γ的图卷积向量
Figure FDA0003458146780000021
Figure FDA0003458146780000022
其中K(u,v)表示边(u,v)的类型标签所构建的邻接矩阵;
Figure FDA0003458146780000023
Figure FDA0003458146780000024
分别是某个类型标签K(u,v)的权值矩阵和偏差;N(v)是v的邻域集,包括v;f是非线性激活函数;
所述事件类型感知网络中,根据汉语语句所标记的目标事件类型得到嵌入向量t1对句法图卷积得到的越南语隐藏状态
Figure FDA0003458146780000025
进行打分,以此感知是否触发此事件;在下面的等式式(1)中,特别是通过注意来计算第k个隐状态的分数,以使目标事件类型的触发词比其他词获得更高的分数:
Figure FDA0003458146780000026
最后,可得经过分数评估之后越南语句子表示satt
Figure FDA0003458146780000027
其中α=[α123……αn]是注意力的矢量,
Figure FDA0003458146780000028
是越南语语句向量矩阵;
根据所得越南语句子的表示,最终输出O连接到两个组件:vatt和vglobal;一方面,vatt是由satt和t1点积计算所得,它被设计用来捕捉越南语本地特征;另一方面,越南语通过共享编码器策略得到越南语句子级向量
Figure FDA0003458146780000029
因此
Figure FDA00034581467800000210
是捕捉越南语句子的整体特征信息;最后,O是被定义vatt和vglobal的加权和:
O=σ(λ·vatt+(1-λ)vglobal)
这里σ是Sigmoid函数,λ∈[0,1]是一个用于权衡vatt和vglobal的超参数。
2.根据权利要求1所述的基于中文信息和越南语句法指导的越南语新闻事件检测方法,其特征在于:所述Step1中,使用Scrapy作为爬取工具,模仿用户操作,为中文、越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取新闻标题、新闻时间、新闻正文数据。
3.根据权利要求1所述的基于中文信息和越南语句法指导的越南语新闻事件检测方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、参考ACE的事件标注体系标记出中文新闻文本中的触发词和事件类型、越南语新闻文本中的事件类型,将事件类型分为七种类型,分别为“
Figure FDA00034581467800000211
-访问”、“
Figure FDA0003458146780000031
-会见”和“
Figure FDA0003458146780000032
xúc-合作”、“
Figure FDA0003458146780000033
kinh
Figure FDA0003458146780000034
-经济”、“Thay
Figure FDA0003458146780000035
-换届”、“Giao
Figure FDA0003458146780000036
-贸易”、“
Figure FDA0003458146780000037
xung
Figure FDA0003458146780000038
-冲突”关系;
Step2.2、再将标记好的越南语新闻语料分为训练语料、测试语料和验证语料。
4.根据权利要求1所述的基于中文信息和越南语句法指导的越南语新闻事件检测方法,其特征在于:所述步骤Step4包括:
采用越南语开源依存句法分析工具来构建依存句法关系,用来对关键信息的有效聚合;
通过句法依存关系表示的快捷弧能增强信息之间的依赖关系。
CN202011500549.9A 2020-12-18 2020-12-18 基于中文信息和越南语句法指导的越南语新闻事件检测方法 Active CN112668319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011500549.9A CN112668319B (zh) 2020-12-18 2020-12-18 基于中文信息和越南语句法指导的越南语新闻事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011500549.9A CN112668319B (zh) 2020-12-18 2020-12-18 基于中文信息和越南语句法指导的越南语新闻事件检测方法

Publications (2)

Publication Number Publication Date
CN112668319A CN112668319A (zh) 2021-04-16
CN112668319B true CN112668319B (zh) 2022-03-25

Family

ID=75405157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011500549.9A Active CN112668319B (zh) 2020-12-18 2020-12-18 基于中文信息和越南语句法指导的越南语新闻事件检测方法

Country Status (1)

Country Link
CN (1) CN112668319B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076759A (zh) * 2021-04-25 2021-07-06 昆明理工大学 基于答案类别和句法指导的案情阅读理解方法
CN113239142B (zh) * 2021-04-26 2022-09-23 昆明理工大学 融合句法信息的无触发词事件检测方法
CN113626577B (zh) * 2021-07-01 2022-11-01 昆明理工大学 基于阅读理解的汉越跨语言新闻事件要素抽取方法
CN113449110B (zh) * 2021-08-30 2021-12-07 华南师范大学 情感分类方法、装置、存储介质及计算机设备
CN113901229B (zh) * 2021-09-15 2022-09-27 昆明理工大学 基于句法图卷积的汉越双语新闻事件因果关系抽取方法
CN115034202A (zh) * 2022-04-13 2022-09-09 天津大学 基于增强方式融合语法信息的深度学习文本匹配方法
CN114925168B (zh) * 2022-05-24 2024-08-09 昆明理工大学 基于生成对抗网络的越南语新闻事件共指关系识别方法
CN116719910A (zh) * 2023-08-08 2023-09-08 山东正云信息科技有限公司 一种基于人工智能技术的文本查询方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461004A (zh) * 2020-03-31 2020-07-28 北京邮电大学 基于图注意力神经网络的事件检测方法、装置和电子设备
CN112001185A (zh) * 2020-08-26 2020-11-27 重庆理工大学 一种结合中文句法和图卷积神经网络的情感分类方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831236B (zh) * 2012-09-03 2015-02-04 苏州大学 中文事件触发词的扩展方法及系统
DK179049B1 (en) * 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
CN109948166B (zh) * 2019-03-25 2021-03-02 腾讯科技(深圳)有限公司 文本翻译方法、装置、存储介质和计算机设备
CN110377738A (zh) * 2019-07-15 2019-10-25 昆明理工大学 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461004A (zh) * 2020-03-31 2020-07-28 北京邮电大学 基于图注意力神经网络的事件检测方法、装置和电子设备
CN112001185A (zh) * 2020-08-26 2020-11-27 重庆理工大学 一种结合中文句法和图卷积神经网络的情感分类方法

Also Published As

Publication number Publication date
CN112668319A (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN112668319B (zh) 基于中文信息和越南语句法指导的越南语新闻事件检测方法
Jung Semantic vector learning for natural language understanding
Nguyen et al. Distinguishing antonyms and synonyms in a pattern-based neural network
Asghar et al. Creating sentiment lexicon for sentiment analysis in Urdu: The case of a resource‐poor language
CN108108433A (zh) 一种基于规则和数据网络融合的情感分析方法
Krasnowska-Kieraś et al. Empirical linguistic study of sentence embeddings
Wang et al. Sentiment classification of online reviews: using sentence-based language model
Kausar et al. ProSOUL: a framework to identify propaganda from online Urdu content
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN112580330B (zh) 基于中文触发词指导的越南语新闻事件检测方法
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN110489624B (zh) 基于句子特征向量的汉越伪平行句对抽取的方法
Ashna et al. Lexicon based sentiment analysis system for malayalam language
CN110502759A (zh) 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
Hong et al. Learning distributed event representations with a multi-task approach
Badaro et al. A link prediction approach for accurately mapping a large-scale Arabic lexical resource to English WordNet
Nelatoori et al. Toxic comment classification and rationale extraction in code-mixed text leveraging co-attentive multi-task learning
Sharma et al. Bits2020@ Dravidian-CodeMix-FIRE2020: Sub-Word Level Sentiment Analysis of Dravidian Code Mixed Data.
Israel et al. Detecting and correcting learner Korean particle omission errors
Mathew et al. Paraphrase identification of Malayalam sentences-an experience
Shekhar et al. Computational intelligence for temporal expression retrieval in code-mixed text
Jawad et al. RUSAS: Roman Urdu Sentiment Analysis System.
Milošević et al. From web crawled text to project descriptions: automatic summarizing of social innovation projects
Sun et al. Informed graph convolution networks for multilingual short text understanding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant