CN112668319B - 基于中文信息和越南语句法指导的越南语新闻事件检测方法 - Google Patents
基于中文信息和越南语句法指导的越南语新闻事件检测方法 Download PDFInfo
- Publication number
- CN112668319B CN112668319B CN202011500549.9A CN202011500549A CN112668319B CN 112668319 B CN112668319 B CN 112668319B CN 202011500549 A CN202011500549 A CN 202011500549A CN 112668319 B CN112668319 B CN 112668319B
- Authority
- CN
- China
- Prior art keywords
- vietnamese
- chinese
- event
- news
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及基于中文信息和越南语句法指导的越南语新闻事件检测方法,属于自然语言处理技术领域。本发明首先在双语信息融合模块使越南语语句能获取到中文语义信息。然后根据越南语句法依存关系,利用句法图卷积增强信息之间的关联,以解决多事件歧义问题。最后利用事件类型感知网络来提取基于中文事件类型的越南语句子表征,以完成对越南语的事件检测。本发明事件检测需要识别新闻中的事件信息并对其进行分类,目前针对越南语新闻事件标注数据的稀缺以及事件类型歧义问题,根据多语言一致性特点,使用丰富的中文标记数据可以解决越南语数据稀缺及事件类型歧义问题。
Description
技术领域
本发明涉及基于中文信息和越南语句法指导的越南语新闻事件检测方法,属于自然语言处理技术领域。
背景技术
事件检测是从非结构化的文本中识别出事件信息并对其进行分类。中越两国共同关注的问题日益增多,相关新闻报道也随之增多,检测越南新闻中所报道的中越相关新闻中的事件,有助于相关部门把握越南的事态动态与导向,并做出正确的应对措施。当前基于深度学习的事件检测模型都依赖足够数量的标注数据且仅关注触发词等特定信息,而越南语新闻事件标注数据的稀缺以及触发词引起的事件歧义问题为越南语事件检测带来了极大的挑战。受多语言一致性思想的启发,使用丰富的中文标记数据对于解决越南语标记数据缺失及事件类型歧义问题具有重要意义。
发明内容
本发明提供了基于中文信息和越南语句法指导的越南语新闻事件检测方法,以用于解决目前越南语新闻事件标注数据的稀缺以及触发词引起的事件类型歧义问题。
本发明的技术方案是:基于中文信息和越南语句法指导的越南语新闻事件检测方法,所述基于中文信息和越南语句法指导的越南语新闻事件检测方法的具体步骤如下:
Step1、收集用于中越双语相关新闻事件检测的新闻文本,先爬取越南语新闻网站(越南新闻社、越南经济时报、越南之门),然后针对越南语爬取到的新闻主题对应爬取中文新闻网站(百度、新华网、人民网),其中共爬取813篇越南语新闻文本和4065篇中文新闻文本。最后对新闻文本进行去重与筛选;
作为本发明的优选方案,所述Step1中,使用Scrapy作为爬取工具,模仿用户操作,为中文、越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取新闻标题、新闻时间、新闻正文等数据。
此优选方案设计是本发明的重要组成部分,主要为本发明收集语料过程,为本发明识别事件类型提供了数据支撑。
Step2、对中越新闻文本进行分词,实体标注等预处理,标注中越双语新闻文本中的事件类型以及中文触发词,将标记好的越南语新闻语料按照8:1:1的比例分配训练语料、测试语料和验证语料;
Step3、采用由共享编码器网络和交叉注意力网络两个网络模块融合双语信息。
Step4、使用句法图卷积将越南语向量表示与越南语依存句法信息进行联合学习,得到融合依存句法信息的向量表示。
Step5、最后通过事件检测器中的事件类型感知网络实现基于中文事件类型信息的越南语语义表示,进而完成越南语新闻事件检测。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、本发明中事件由触发词和参数组成,触发词能清楚的表达一类事件发生,通常是单个动词或者名词,参数描述事件发生的时间、地点、人物等信息;定制的中越双语相关新闻事件。标记出中文触发词及中越新闻文本中的事件类型。
Step2.2、利用ACE2005数据集的格式定义为7种事件类型,其中共有25089条新闻句;
Step2.3、再将实验数据分为训练语料、测试语料和验证语料。
作为本发明的优选方案,所述步骤Step2中:将事件类型分为七种类型,分别为“(访问)”、“(会见)”和“xúc(合作)”、“kinh (经济)”、“Thay(换届)”、“Giao(贸易)”、“xung(冲突)”关系。
作为本发明的优选方案,所述步骤Step3包括:
首先通过编码器对中文语句进行编码并获取到中文编码隐层向量表示和中文句子级向量表示;
然后越南语与中文句子级向量融合,再通过共享编码器策略获取越南语隐层向量和越南语句子级向量;
最后在交叉注意力网络中将获得中文隐层向量与越南语隐层向量进行联合学习,得到融合中文词级信息的越南语向量表示。
作为本发明的优选方案,所述步骤Step4包括:
采用越南语开源依存句法分析工具来构建依存句法关系,用来对关键信息的有效聚合;
通过句法依存关系表示的快捷弧能增强信息之间的依赖关系。
作为本发明的优选方案,所述步骤Step3的具体步骤:
由于中-越语句所表达的是同一事件,因此有相同或相似的语义成分。通过中文语义信息的融入,可使越南语能关注到更多事件信息。因此,越南语词向量vj和实体向量所构成再与中文句子级向量构成通过共享编码器得到越南语隐层和越南语句子级向量
Step3.2、在中文和越南语之间使用交叉注意力网络,该网络允许越南语词级隐层状态通过关注中文词级隐层状态来表示,进而使越南语进一步学习到中文事件信息。
其中,W∈Rn×n和b∈R是课训练的注意力参数。通过交叉注意力网络,将中文语句放在越南语语句的上下文嵌入中,可以进一步使越南语关注到中文事件信息。
此优选方案设计是本发明的重要组成部分,主要为本发明提供向量编码的过程,使用编码器对中越双语语句进行向量化表示,在此基础上,提出共享编码器策略,然后通过交叉注意力网络获得最终的越南语向量表示。双语信息融合是根据编码获得中文句子级向量表征与越南语词级向量表征融合,以产生融入中文语义信息的越南语词级向量表征。
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、采用越南语开源依存句法分析工具来构建依存句法关系。同时考虑无向图ζ=(γ,ε)作为句子W的句法分析树,其中γ=v1,v2……vn(|γ|=n)和ε分别是节点集和边集。在γ中,每个vi是表示wi在W的节点,每个边(vi,vj)∈ε是来自单词wi到单词wj的有向句法弧,类型标签为K(wi,wj)。此外,为了让信息朝相反的方向流动,还添加了带有类型标签K′(wi,wj)的反向边(vj,vi)。此外,还添加了所有的自循环,即任何vi∈γ的(vi,vi)。所以最终得到标签K(wi,wj)的三种类型表示为:
Step4.2、通过依存关系中边的类型标签构建邻接矩阵,应用经过公式3表示的越南语词级表征作为网络的输入,初始化网络第一层的节点表示在句法图卷积网络模块的第k层,可以通过以下方法计算节点v∈γ的图卷积向量
此优选方案设计可以将关键信息得到有效的聚合,句法图卷积模块被设计用来捕获句法依存之间的关系,通过句法依存关系表示的快捷弧可以增强信息之间的依赖关系。
作为本发明的优选方案,所述步骤Step5的具体步骤为:通过事件检测器中的事件类型感知网络实现基于中文事件类型信息的越南语语义表示,以完成越南语新闻事件检测。
作为本发明的优选方案,通过中文和越南语相关新闻报道可以将事件类型分为七类。
作为本发明的优选方案,引入事件感知网络,根据汉语语句所标记的目标事件类型得到嵌入向量t1对句法图卷积得到的越南语隐藏状态进行打分,以此感知是否触发此事件。在下面的等式中,特别是通过注意来计算第k-h个隐状态的分数,以使目标事件类型的触发词比其他词获得更高的分数:
最后,可得经过分数评估之后越南语句子表示satt:
根据所得越南语句子的表示,最终输出O连接到两个组件:vatt和vglobal。一方面,vatt是由satt和t1点积计算所得,它被设计用来捕捉越南语本地特征。另一方面,越南语通过共享编码器策略得到越南语句子向量表示因此是捕捉越南语句子的整体特征信息。最后,O是被定义vatt和vglobal的加权和:
O=σ(λ·vatt+(1-λ)vglobal) (12)
这里σ是Sigmoid函数,λ∈[0,1]是一个用于权衡vatt和vglobal的超参数。
此优选方案设计对隐藏的触发器进行更好的建模,有助于更好的识别事件类型。
本发明的有益效果是:
1、本发明的基于中文信息和越南语句法指导的越南语新闻事件检测方法,利用多语言一致性,设计了中越双语信息融合网络与事件类型感知网络,以实现基于中文信息指导的越南语语义表示;
2、本发明的基于中文信息和越南语句法指导的越南语新闻事件检测方法,利用越南语句法依存关系,通过句法图卷积网络提取越南语句法特征并将其融入越南语语句中,消除事件歧义;
3、本发明的基于中文信息和越南语句法指导的越南语新闻事件检测方法,通过事件类型感知网络提取基于中文事件类型信息的越南语语义表征,以实现在中文信息和越南语句法信息指导下的越南语新闻事件检测;
4、本发明的基于中文信息和越南语句法指导的越南语新闻事件检测方法,解决了越南语新闻事件标注数据的稀缺以及触发词引起的事件类型歧义问题。
附图说明
图1为本发明提出的基于中文信息和越南语句法指导的越南语新闻事件检测流程图;
图2为本发明提出的基于中文信息和越南语句法指导的越南语新闻事件检测模型图;
图3为本发明提出的基于中文信息和越南语句法指导的越南语新闻事件检测方法中的交叉注意力网络图;
图4为本发明提出的基于中文信息和越南语句法指导的越南语新闻事件检测方法中的句法图卷积模块图;
图5为本发明提出的基于中文信息和越南语句法指导的越南语新闻事件检测方法中的事件检测器模块图;
图6为本发明提出的基于中文信息和越南语句法指导的越南语新闻事件检测方法中的事件类型分布直方图。
具体实施方式
实施例1:如图1-6所示,基于中文信息和越南语句法指导的越南语新闻事件检测方法,具体步骤如下:
Step1、收集用于中越双语相关新闻事件检测的新闻文本,对新闻文本进行去重与筛选;
Step2、制定中越双语新闻事件类型及中文触发词的标注体系,将标记好的越南语新闻语料分为训练语料、测试语料和验证语料;
Step3、采用由共享编码器网络和交叉注意力网络两个网络模块融合双语信息。
Step4、使用句法图卷积将越南语向量表示与越南语依存句法信息进行联合学习,得到融合依存句法信息的向量表示。
Step5、最后通过事件检测器中的事件类型感知网络实现基于中文事件类型信息的越南语语义表示,进而完成越南语新闻事件检测。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1、收集用于中越双语新闻文本,先爬取越南语新闻网站(越南新闻社、越南经济时报、越南之门),然后针对越南语爬取到的新闻主题对应爬取中文新闻网站(百度、新华网、人民网),其中共爬取813篇越南语新闻文本和4065篇中文新闻文本。最后对新闻文本进行去重与筛选;
作为本发明的优选方案,所述Step1中,使用Scrapy作为爬取工具,模仿用户操作,为中文、越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取新闻标题、新闻时间、新闻正文等数据。
此优选方案设计是本发明的重要组成部分,主要为本发明收集语料过程,为本发明识别事件类型提供了数据支撑。
Step2、对中越新闻文本进行分词,实体标注等预处理,标注中越双语新闻文本中的事件类型以及中文触发词,将标记好的越南语新闻语料按照8:1:1的比例分配训练语料、测试语料和验证语料;
Step3、采用由共享编码器网络和交叉注意力网络两个网络模块融合双语信息。
Step4、使用句法图卷积将越南语向量表示与越南语依存句法信息进行联合学习,得到融合依存句法信息的向量表示。
Step5、最后通过事件检测器中的事件类型感知网络实现基于中文事件类型信息的越南语语义表示,进而完成越南语新闻事件检测。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、本发明中事件由触发词和参数组成,触发词能清楚的表达一类事件发生,通常是单个动词或者名词,参数描述事件发生的时间、地点、人物等信息;定制的中越双语相关新闻事件。标记出中文触发词及中越新闻文本中的事件类型。
Step2.2、利用ACE2005数据集的格式定义为7种事件类型,其中共有25089条新闻句;
Step2.3、再将实验数据分为训练语料、测试语料和验证语料。
作为本发明的优选方案,所述步骤Step2中:将事件类型分为七种类型,分别为“(访问)”、“(会见)”和“xúc(合作)”、“kinh(经济)”、“Thay(换届)”、“Giao (贸易)”、“xung(冲突)”关系。
作为本发明的优选方案,所述步骤Step3包括:
首先通过编码器对中文语句进行编码并获取到中文编码隐层向量表示和中文句子级向量表示;
然后越南语与中文句子级向量融合,再通过共享编码器策略获取越南语隐层向量和越南语句子级向量;
最后在交叉注意力网络中将获得中文隐层向量与越南语隐层向量进行联合学习,得到融合中文词级信息的越南语向量表示。
作为本发明的优选方案,所述步骤Step4包括:
采用越南语开源依存句法分析工具来构建依存句法关系,用来对关键信息的有效聚合;
通过句法依存关系表示的快捷弧能增强信息之间的依赖关系。
作为本发明的优选方案,所述步骤Step3的具体步骤:
由于中-越语句所表达的是同一事件,因此有相同或相似的语义成分。通过中文语义信息的融入,可使越南语能关注到更多事件信息。因此,越南语词向量vj和实体向量所构成再与中文句子级向量构成通过共享编码器得到越南语隐层和越南语句子级向量
Step3.2、在中文和越南语之间使用交叉注意力网络,该网络允许越南语词级隐层状态通过关注中文词级隐层状态来表示,进而使越南语进一步学习到中文事件信息。
其中,W∈Rn×n和b∈R是课训练的注意力参数。通过交叉注意力网络,将中文语句放在越南语语句的上下文嵌入中,可以进一步使越南语关注到中文事件信息。
此优选方案设计是本发明的重要组成部分,主要为本发明提供向量编码的过程,使用编码器对中越双语语句进行向量化表示,在此基础上,提出共享编码器策略,然后通过交叉注意力网络获得最终的越南语向量表示。双语信息融合是根据编码获得中文句子级向量表征与越南语词级向量表征融合,以产生融入中文语义信息的越南语词级向量表征。
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、采用越南语开源依存句法分析工具来构建依存句法关系。同时考虑无向图ζ=(γ,ε)作为句子W的句法分析树,其中γ=v1,v2......vn(|γ|=n)和ε分别是节点集和边集。在γ中,每个vi是表示wi在W的节点,每个边(vi,vj)∈ε是来自单词wi到单词wj的有向句法弧,类型标签为K(wi,wj)。此外,为了让信息朝相反的方向流动,我们还添加了带有类型标签K′(wi,wj)的反向边(vj,vi)。此外,我们还添加了所有的自循环,即任何vi∈γ的(vi,vi)。所以最终得到标签K(wi,wj)的三种类型表示为:
Step4.2、通过依存关系中边的类型标签构建邻接矩阵,应用经过公式3表示的越南语词级表征作为网络的输入,初始化网络第一层的节点表示在句法图卷积网络模块的第k层,我们可以通过以下方法计算节点v∈γ的图卷积向量
此优选方案设计可以将关键信息得到有效的聚合,句法图卷积模块被设计用来捕获句法依存之间的关系,通过句法依存关系表示的快捷弧可以增强信息之间的依赖关系。
作为本发明的优选方案,所述步骤Step5的具体步骤为:通过事件检测器中的事件类型感知网络实现基于中文事件类型信息的越南语语义表示,以完成越南语新闻事件检测。通过中文和越南语相关新闻报道可以将事件类型分为七类。
作为本发明的优选方案,引入事件感知网络,根据汉语语句所标记的目标事件类型得到嵌入向量t1对句法图卷积得到的越南语隐藏状态进行打分,以此感知是否触发此事件。在下面的等式中,特别是通过注意来计算第k-h个隐状态的分数,以使目标事件类型的触发词比其他词获得更高的分数:
最后,可得经过分数评估之后越南语句子表示satt:
根据所得越南语句子的表示,最终输出O连接到两个组件:vatt和vglobal。一方面,vatt是由satt和t1点积计算所得,它被设计用来捕捉越南语本地特征。另一方面,越南语通过共享编码器策略得到越南语句子向量表示因此是捕捉越南语句子的整体特征信息。最后,O是被定义vatt和vglobal的加权和:
O=σ(λ·vatt+(1-λ)vglobal) (12)
这里σ是Sigmoid函数,λ∈[0,1]是一个用于权衡vatt和vglobal的超参数。
Step6、通过对训练数据的分析可知:
(1)在训练数据中,负性样本多于正性样本。在本方法中,每个训练样本是一个<(越南语语句,中文语句),事件类型t>,标签是1或者0是根据所给汉越句子是否传达了t类型事件。
(2)正性样本比负性样本信息更丰富。一对正样本<(越南语语句,中文语句),事件类型t>意思是越南语句子和汉语句子传递的事件类型t,而负样本对意味着不传递任何t类型的事件。由于以上的原因,我们设计了一个偏压损失函数来增强正样本的影响。
给出所有(假设T)训练实例(x(i),y(i)),损失函数定义如下:
其中x是由汉越双语句子和一个目标事件类型组成的一对,y∈{0,1},θ是我们模型的参数,δ>0是L2规范化项的权重。1+y(i)·β是偏差项,当为负样本的时候y(i)=0,当为正样本的时候y(i)=1,β≥0。
通过使用一种简单的优化技术,即随机梯度下降(SGD)来训练该模型,该优化技术使用Adadelta规则对小批量打乱进行训练。正则化由L2实现。
Step7、结合本文模型分别做了参数对比试验和消融实验,证明模型设置的合理性与高效性,又将该模型与现有模型进行对比,证明本方法在越南语事件检测上具有较好效果。
实验采用准确率(P)、召回率(R)、和F值(F)作为评价指标进行对比实验。
Precision(P):正确预测的事件在总预测事件中所占的比例。
Recall(R):正确预测的事件在真实事件中所占的比例。
为验证文本模型是否能提升事件检测的效果,在越南语新闻数据集上将本文模型与基线方法(TBNNAM)作对比,同时与CNN、LSTM进行比较来进行实验。
TBNNAM:该方法是不需要触发词等信息,利用标注的事件类型与句子实现事件检测。
CNN:通过CNN对依存句法信息进行特征提取与融入。
LSTM:通过LSTM编码器对语句的信息进行编码。
实验结果如表1所示:
表1不同模型性能对比
通过对比实验可知,本文模型的F1值均超过其他基线模型。对比TBNNAM基线模型,本发明模型通过中文语义信息的融入,更好利用中文标注的事件类型信息,从而更好的辅助越南语事件检测,从而达到较好的效果。本模型通过对比实验看出,使用GCN进行越南语依存关系提取和融入可以捕捉到CNN未能捕捉到事件句的关键信息。对比使用共享LSTM编码器,共享GRU编码器策略可以更好的提升模型性能。
为验证本模型的嵌入向量维度、句法图卷积层数及其句法图卷积噪声对性能的影响,实验结果分别如表2、表3、表4所示:
表2 Embedding维度实验结果
通过对比实验可知,当嵌入维度为100和200维度时,此时模型性能都所下降。此时由于嵌入维度比较低,其语意信息表达能力不足,从而影响模型性能。当嵌入维度比较高的时候,此时会模型出现过拟合趋势,从而使模型性能开始下降。所以综上所述,最后模型嵌入选定为300维为最优。
表3 SGCN层数实验结果
句法图卷积层数实验如表3所示,随着层数的增加,模型性能有所上升。因为层数的增加,使得越南语依存句法特征得到了深层次的提取,从而使模型关注更多信息之间的关联,进一步提升模型的性能。但是随着网络层数增加到三层,此时模型开始下降,由于句法依存关系本身存在一定噪声,随着层数的增加,噪声数据也进一步叠加,从而影响模型性能。
表4 SGCN噪声实验结果
句法图卷积模块噪声实验如表4所示,随着句法图卷积模块中加入噪声数据(以0.02、0.04、0.06和0.08的概率生成随机噪声数据),模型性能出现波动,但是总体正在下降。通过数据分析,随着噪声的干扰,模型误判了少量事件句为非事件句,同时也将事件句误判错误,因此造成模型的R值都出现不同程度的下降,从而使模型的总体性能在下降。
为验证本模型的中文语义信息、句法图卷积模块、以及交叉注意力机制的有效性,如表5所示(特表说明“(-)”表示未使用该网络结构):
表5消融实验结果
消融实验结果如表5所示,本文模型的P、R、F1值均超过其他基线模型。当我们未融入中文语义信息时,模型P、R、F1均有所下降,因此可以证明中文语义信息的融入,可以使模型更好的辅助越南语进行事件检测,这对模型检测越南语事件的性能提升是非常重要的,也是我们模型中必不可少的一环。同时对比交叉注意力机制,由于没有进行对中文语句深层次信息融合,模型性能也有所下降,说明交叉注意力机制对于模型提升也有帮助。当我们未使用句法图卷积模块时,模型的P、R、F1均在下降,因此可以证明句法图卷积模块可以有效的对句子深层次的特征进行提取和融入,可以更好的辅助模型对越南语事件信息的准确识别。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (4)
1.基于中文信息和越南语句法指导的越南语新闻事件检测方法,其特征在于:所述基于中文信息和越南语句法指导的越南语新闻事件检测方法的具体步骤如下:
Step1、收集用于中越双语相关新闻事件检测的新闻文本,对新闻文本进行去重与筛选;
Step2、制定中越双语新闻事件类型及中文触发词的标注体系,将标记好的越南语新闻语料分为训练语料、测试语料和验证语料;
Step3、采用由共享编码器网络和交叉注意力网络两个网络模块融合双语信息;
Step4、使用句法图卷积将越南语向量表示与越南语依存句法信息进行联合学习,得到融合依存句法信息的向量表示;
Step5、最后通过事件检测器中的事件类型感知网络实现基于中文事件类型信息的越南语语义表示,进而完成越南语新闻事件检测;
所述步骤Step3包括:
首先通过编码器对中文语句进行编码并获取到中文隐层向量表示和中文句子级向量表示;
然后越南语与中文句子级向量融合,再通过共享编码器策略获取越南语隐层向量和越南语句子级向量;
最后在交叉注意力网络中将获得中文隐层向量与越南语隐层向量进行联合学习,得到融合中文词级信息的越南语向量表示;
所述步骤Step4的具体步骤为:
Step4.1、采用越南语开源依存句法分析工具来构建依存句法关系,同时考虑无向图ζ=(γ,ε)作为句子W的句法分析树,其中γ=v1,v2……vn(|γ|=n)和ε分别是节点集和边集;在γ中,每个vi是表示wi在W的节点,每个边(vi,vj)∈ε是来自单词wi到单词wj的有向句法弧,类型标签为K(wi,wj);此外,为了让信息朝相反的方向流动,还添加了带有类型标签K′(wi,wj)的反向边(vj,vi);此外,还添加了所有的自循环,即任何vi∈γ的(vi,vi);
Step4.2、通过依存关系中边的类型标签构建邻接矩阵,融合中文词级信息的越南语向量表示作为网络的输入,初始化网络第一层的节点表示在句法图卷积网络模块的第k+2层,通过以下方法计算节点v∈γ的图卷积向量
所述事件类型感知网络中,根据汉语语句所标记的目标事件类型得到嵌入向量t1对句法图卷积得到的越南语隐藏状态进行打分,以此感知是否触发此事件;在下面的等式式(1)中,特别是通过注意来计算第k个隐状态的分数,以使目标事件类型的触发词比其他词获得更高的分数:
根据所得越南语句子的表示,最终输出O连接到两个组件:vatt和vglobal;一方面,vatt是由satt和t1点积计算所得,它被设计用来捕捉越南语本地特征;另一方面,越南语通过共享编码器策略得到越南语句子级向量因此是捕捉越南语句子的整体特征信息;最后,O是被定义vatt和vglobal的加权和:
O=σ(λ·vatt+(1-λ)vglobal)
这里σ是Sigmoid函数,λ∈[0,1]是一个用于权衡vatt和vglobal的超参数。
2.根据权利要求1所述的基于中文信息和越南语句法指导的越南语新闻事件检测方法,其特征在于:所述Step1中,使用Scrapy作为爬取工具,模仿用户操作,为中文、越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取新闻标题、新闻时间、新闻正文数据。
4.根据权利要求1所述的基于中文信息和越南语句法指导的越南语新闻事件检测方法,其特征在于:所述步骤Step4包括:
采用越南语开源依存句法分析工具来构建依存句法关系,用来对关键信息的有效聚合;
通过句法依存关系表示的快捷弧能增强信息之间的依赖关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011500549.9A CN112668319B (zh) | 2020-12-18 | 2020-12-18 | 基于中文信息和越南语句法指导的越南语新闻事件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011500549.9A CN112668319B (zh) | 2020-12-18 | 2020-12-18 | 基于中文信息和越南语句法指导的越南语新闻事件检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112668319A CN112668319A (zh) | 2021-04-16 |
CN112668319B true CN112668319B (zh) | 2022-03-25 |
Family
ID=75405157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011500549.9A Active CN112668319B (zh) | 2020-12-18 | 2020-12-18 | 基于中文信息和越南语句法指导的越南语新闻事件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112668319B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076759A (zh) * | 2021-04-25 | 2021-07-06 | 昆明理工大学 | 基于答案类别和句法指导的案情阅读理解方法 |
CN113239142B (zh) * | 2021-04-26 | 2022-09-23 | 昆明理工大学 | 融合句法信息的无触发词事件检测方法 |
CN113626577B (zh) * | 2021-07-01 | 2022-11-01 | 昆明理工大学 | 基于阅读理解的汉越跨语言新闻事件要素抽取方法 |
CN113449110B (zh) * | 2021-08-30 | 2021-12-07 | 华南师范大学 | 情感分类方法、装置、存储介质及计算机设备 |
CN113901229B (zh) * | 2021-09-15 | 2022-09-27 | 昆明理工大学 | 基于句法图卷积的汉越双语新闻事件因果关系抽取方法 |
CN115034202A (zh) * | 2022-04-13 | 2022-09-09 | 天津大学 | 基于增强方式融合语法信息的深度学习文本匹配方法 |
CN114925168B (zh) * | 2022-05-24 | 2024-08-09 | 昆明理工大学 | 基于生成对抗网络的越南语新闻事件共指关系识别方法 |
CN116719910A (zh) * | 2023-08-08 | 2023-09-08 | 山东正云信息科技有限公司 | 一种基于人工智能技术的文本查询方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461004A (zh) * | 2020-03-31 | 2020-07-28 | 北京邮电大学 | 基于图注意力神经网络的事件检测方法、装置和电子设备 |
CN112001185A (zh) * | 2020-08-26 | 2020-11-27 | 重庆理工大学 | 一种结合中文句法和图卷积神经网络的情感分类方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831236B (zh) * | 2012-09-03 | 2015-02-04 | 苏州大学 | 中文事件触发词的扩展方法及系统 |
DK179049B1 (en) * | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
CN109948166B (zh) * | 2019-03-25 | 2021-03-02 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、存储介质和计算机设备 |
CN110377738A (zh) * | 2019-07-15 | 2019-10-25 | 昆明理工大学 | 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法 |
-
2020
- 2020-12-18 CN CN202011500549.9A patent/CN112668319B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461004A (zh) * | 2020-03-31 | 2020-07-28 | 北京邮电大学 | 基于图注意力神经网络的事件检测方法、装置和电子设备 |
CN112001185A (zh) * | 2020-08-26 | 2020-11-27 | 重庆理工大学 | 一种结合中文句法和图卷积神经网络的情感分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112668319A (zh) | 2021-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112668319B (zh) | 基于中文信息和越南语句法指导的越南语新闻事件检测方法 | |
Jung | Semantic vector learning for natural language understanding | |
Nguyen et al. | Distinguishing antonyms and synonyms in a pattern-based neural network | |
Asghar et al. | Creating sentiment lexicon for sentiment analysis in Urdu: The case of a resource‐poor language | |
CN108108433A (zh) | 一种基于规则和数据网络融合的情感分析方法 | |
Krasnowska-Kieraś et al. | Empirical linguistic study of sentence embeddings | |
Wang et al. | Sentiment classification of online reviews: using sentence-based language model | |
Kausar et al. | ProSOUL: a framework to identify propaganda from online Urdu content | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN112580330B (zh) | 基于中文触发词指导的越南语新闻事件检测方法 | |
CN112818698A (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN111581943A (zh) | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 | |
CN110489624B (zh) | 基于句子特征向量的汉越伪平行句对抽取的方法 | |
Ashna et al. | Lexicon based sentiment analysis system for malayalam language | |
CN110502759A (zh) | 融入分类词典的汉越混合网络神经机器翻译集外词处理方法 | |
Hong et al. | Learning distributed event representations with a multi-task approach | |
Badaro et al. | A link prediction approach for accurately mapping a large-scale Arabic lexical resource to English WordNet | |
Nelatoori et al. | Toxic comment classification and rationale extraction in code-mixed text leveraging co-attentive multi-task learning | |
Sharma et al. | Bits2020@ Dravidian-CodeMix-FIRE2020: Sub-Word Level Sentiment Analysis of Dravidian Code Mixed Data. | |
Israel et al. | Detecting and correcting learner Korean particle omission errors | |
Mathew et al. | Paraphrase identification of Malayalam sentences-an experience | |
Shekhar et al. | Computational intelligence for temporal expression retrieval in code-mixed text | |
Jawad et al. | RUSAS: Roman Urdu Sentiment Analysis System. | |
Milošević et al. | From web crawled text to project descriptions: automatic summarizing of social innovation projects | |
Sun et al. | Informed graph convolution networks for multilingual short text understanding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |