CN110334213A - 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法 - Google Patents
基于双向交叉注意力机制的汉越新闻事件时序关系识别方法 Download PDFInfo
- Publication number
- CN110334213A CN110334213A CN201910613118.4A CN201910613118A CN110334213A CN 110334213 A CN110334213 A CN 110334213A CN 201910613118 A CN201910613118 A CN 201910613118A CN 110334213 A CN110334213 A CN 110334213A
- Authority
- CN
- China
- Prior art keywords
- event
- chinese
- sentence
- bilingual
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 88
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 63
- 230000000306 recurrent effect Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 11
- 230000002708 enhancing effect Effects 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 8
- 239000000463 material Substances 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- PXUQTDZNOHRWLI-OXUVVOBNSA-O malvidin 3-O-beta-D-glucoside Chemical compound COC1=C(O)C(OC)=CC(C=2C(=CC=3C(O)=CC(O)=CC=3[O+]=2)O[C@H]2[C@@H]([C@@H](O)[C@H](O)[C@@H](CO)O2)O)=C1 PXUQTDZNOHRWLI-OXUVVOBNSA-O 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 9
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 14
- 230000002123 temporal effect Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000009412 basement excavation Methods 0.000 description 3
- 210000004218 nerve net Anatomy 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于双向交叉注意力机制的汉越新闻事件时序关系识别方法,属于自然语言处理技术领域。本发明利用双向循环神经网络捕获句子语义信息,通过注意力机制增强事件语义信息中的触发词语义信息,通过交叉注意力机制获得时序逻辑语义信息,将三部分语义信息嵌入为事件编码,最后将事件编码与事件间规则特征融合输入至分类层,输出事件时序关系,进而实现事件时序关系识别。本发明目前事件时序关系识别需要大量人力设计基于时间轴的模板,句中的隐含语义信息难以获取,并且不同语言文本很难表示在同一特征空间下等问题,以及解决了获取跨语言新闻事件时序关系较为困难问题。
Description
技术领域
本发明涉及基于双向交叉注意力机制的汉越新闻事件时序关系识别方法,属于自然语言处理技术领域。
背景技术
事件时序关系识别是当前自然语言处理研究的热点问题。中越两国共同关注的问题日益增多,相关新闻报道也随之增多,识别汉越双语新闻事件时序关系可得到双语新闻事件之间的时序逻辑关系,有助于相关部门把握两个国家的事态动态与导向,并做出正确的应对措施。目前事件时序关系识别需要大量人力设计基于时间轴模板,句中的隐含语义信息难以获取,并且不同语言文本很难表示在同一特征空间下,获取跨语言新闻事件时序关系比较困难。因此,利用人工智能技术自动判定汉越双语新闻事件之间的时序关系具有重要意义。
发明内容
本发明提供了基于双向交叉注意力机制的汉越新闻事件时序关系识别方法,以用于解决目前事件时序关系识别需要大量人力设计基于时间轴的模板,句中的隐含语义信息难以获取,并且不同语言文本很难表示在同一特征空间下等问题,以及解决了获取跨语言新闻事件时序关系较为困难问题。
本发明的技术方案是:基于双向交叉注意力机制的汉越新闻事件时序关系识别方法,所述基于双向交叉注意力机制的汉越新闻事件时序关系识别方法的具体步骤如下:
Step1、收集用于汉越双语新闻事件时序关系识别的新闻文本,分别针对汉语新闻网站(百度、新华网、人民网)和越南语新闻网站(越南新闻社、越南经济时报、越南之门)进行爬取,选取爬去新闻文本中的500篇汉越新闻文本进行实验研究,对新闻文本进行去重与筛选;
作为本发明的优选方案,所述Step1中,使用Scrapy作为爬取工具,模仿用户操作,为汉语、越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取新闻标题、新闻时间、新闻正文等数据。
此优选方案设计是本发明的重要组成部分,主要为本发明收集语料过程,为本发明识别事件时序关系提供了数据支撑。
Step2、对汉越新闻文本进行分词,词性标注等预处理,定制汉越双语新闻事件时序关系识别的标注体系,标记双语新闻文本,将标记好的双语新闻语料按照8:1: 1的比例分配训练语料、测试语料和验证语料;
Step3、获取汉越双语词向量,融合句中汉越双语词向量、位置向量作为双向交叉注意力循环神经网络输入;
Step4、采用双向交叉注意力循环神经网络,获取双语新闻的事件编码,训练新闻事件时序关系识别模型。
Step5、对需要识别的汉越双语新闻事件句进行编码,之后将提取到事件编码以及事件间规则特征作为分类模型的输入向量,利用softmax分类器获得最终的结果。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、本发明中事件由触发词和参数组成,触发词能清楚的表达一类事件发生,通常是单个动词或者名词,参数描述事件发生的时间、地点、人物等信息;定制的汉越双语新闻事件时序关系识别的标注体系采用了XML的可扩展标记语言组织文本,分别针对触发词、参数、事件类型、时序关系类型对收集到的汉越双语新闻文本进行标记;
Step2.2、利用组对规则对标记过的新闻事件句进行组对,组对规则如下:
1)将每个话题下的双语新闻文本提取出的事件放入对应话题下的事件集合 Di={e1,e2,…,en}中,i=1,2,…,10,n为事件总数;
2)将Di中事件进行两两组对,构成事件对<ej,ek>(j,k=1,2,…n),其中ej,ek分别为汉语事件句,越南语事件句;
3)将事件对贴上对应标签E<ej,ek,y>,y∈{0,1,2},y表示两事件之间的三种时序关系类型,其中0表示间断前后关系,1表示连续前后关系,2表示并列关系;
4)将事件对放入事件对集合中;
根据组对规则组对,可得到实验数据中间断前后事件对共10862对,连续前后事件对共6013对,并列事件对共3125对,共计20000对。
此优选方案设计是本发明的重要组成部分,主要为本发明提供语料预处理过程,为后续工作提供模型训练时所需训练语料和为模型测试时提供测试语料;并且为本发明识别事件时序关系提供了支撑和挖掘的对象。(结合其它步骤,它是一个数据输入,后面都会用得到)
Step2.3、再将实验数据分为训练语料、测试语料和验证语料。
作为本发明的优选方案,所述步骤Step2中:将事件时序关系分为三种类型,分别为“间断前后”、“连续前后”和“并列”关系;根据双语的语言特点以及事件时序关系的需求,定制汉越双语新闻事件时序关系识别的标注体系。
作为本发明的优选方案,所述步骤Step3的具体步骤:
Step3.1、将Skip-gram语言模型扩展到汉越双语环境下,采用skip-gram扩展模型的方法预测目标词在汉语中的上下文信息,同时预测目标词在越南语中对齐词的上下文信息,从而得到汉越双语词向量;
Step3.2、词在句中的不同位置有不同的语义信息,将每个位置编号,每个编号对应一个向量,通过位置向量和汉越双语词向量的结合,为每个词引入一定的位置信息,注意力机制即可以分辨出不同位置的词;
Step3.3、将汉越双语词向量和位置向量的拼接作为双向交叉注意力循环神经网络的输入。
模型输入如图2所示,XC={x1,x2,x3,…xn}和XV={x1,x2,x3,…,xm}分别是是长度为n的汉语句子和和长度为m的越南语句子,其xj是句子中的第j个词。其中上标C代表中文,上标V代表越南语。
此优选方案设计是本发明的重要组成部分,主要为本发明提供向量编码的过程,结合双语词向量,并对每个词的位置进行编码有助于语义结构信息的获取,进而提升模型的性能。
作为本发明的优选方案,本发明利用双向循环神经网络捕获句子语义信息,通过注意力机制增强事件语义信息中的触发词语义信息,通过交叉注意力机制获得时序逻辑语义信息,将三部分语义信息嵌入为事件编码;其中:
所述步骤Step4采用双向交叉注意力循环神经网络,获取双语新闻的事件编码的具体步骤为:
Step4.1、将编码层的汉语事件句和越南语事件句分别输入到BiLSTM中,可分别得到汉语事件句和越南语事件句的上下文隐含语义信息。
Step4.2、结合汉语句子的触发词建立汉语句子的注意力机制,从而得到增强当前汉语触发词的汉语事件语义特征;
结合越南语句子的触发词建立越南语句子的注意力机制,从而得到增强当前越南语触发词的越南语事件语义特征;
Step4.3、以触发词为事件句的核心,在汉越双语事件对中,针对触发词建立交叉注意力机制;分别结合越南语句子的触发词针对汉语句子建立注意力机制,结合汉语句子的触发词针对越南语句子建立注意力机制,为当前句子融入了时序逻辑语义信息;
Step4.4、结合得到的三部分语义信息嵌入为事件编码。
作为本发明的优选方案,所述双向交叉注意力循环神经网络包括编码层和双向交叉注意力层;双向交叉注意力层包括BiLSTM、注意力机制、交叉注意力机制三部分;依次使用这三部分,获得包含时序逻辑信息的深层语义信息;
所述BiLSTM:
将汉语越南语的句编码分别输入到BiLSTM中,分别得到两句子的上下文隐含语义信息H={h1,h2,h3,…,hn},H∈Rd*n,d为词的维度,n为当前句子长度;
所述注意力机制:
结合触发词xi在当前事件句中建立注意力机制,其中,i为当前事件句的第i个词;编码汉语句子部分,结合汉语句子的触发词建立汉语句子的注意力机制,从而得到增强当前汉语触发词的汉语事件语义特征,表达式如下:
α=softmax(WKK) (2)
r=αHc (3)
其中,X*c={xi,xi,xi,…,xi}为汉语事件句的触发词矩阵(X*c∈Rd*n),WXH(WXH∈R2d*2d)为X*c和Hc结合的权重矩阵;α={α1,α2,α3,…,αn}为注意力机制的权重向量 (α∈Rn),WK(WK∈R2d)为K的权重矩阵;r(r∈Rd)为给定事件触发词时对应事件句的权重向量;是注意力机制获取的中文事件语义特征向量;Hc为汉语事件句的隐向量矩阵(Hc∈Rd*n);K为汉语事件句语义特征;越南语事件句的计算与汉语类似,需将触发词换成越南语事件中的触发词;
所述交叉注意力机制:
结合越南语句子的触发词建立汉语语句的交叉注意力机制,得到增强越南语触发词的包含时序逻辑关系的汉语事件语义特征,表达式如下:
α=softmax(WKK) (6)
r=αHc (7)
其中为越南语事件句的触发词矩阵(X*v∈Rd*n),WXH(WXH∈R2d*2d)为X*v和Hc结合的权重向量;α={α1,α2,α3,…,αn}为注意力机制的权重向量(α∈Rn),WK (WK∈R2d)为K的权重矩阵;r(r∈Rd)为给定事件触发词时对应汉语事件句的权重向量;是交叉注意力机制挖掘出包含时序逻辑关系的汉语事件语义特征向量;Hc为汉语事件句的隐向量矩阵(Hc∈Rd*n);K为汉语事件句语义特征;越南语事件句的计算与汉语类似,需将触发词换成汉语事件句中的触发词。
最后,将注意力机制得到得的语义信息和交叉注意力机制得到得语义信息相融合,作为事件句的事件语义信息用于最后的分类。
此优选方案设计提出双向交叉注意力层由三部分组成,BiLSTM可以从正反两个方向提取信息,不仅解决了长距离依赖问题,更加有效的挖掘事件句的隐含语义信息。由于注意力机制添加了触发词在当前事件的权重,而交叉注意力可以捕获到两事件句之间的时序逻辑关系。在事件时序关系识别任务中,时序逻辑关系的准确获取具有重要的作用,同时采用这两种注意力机制,使得汉越双语事件时序关系识别任务达到了最佳的效果。
作为本发明的优选方案,所述步骤Step5的具体步骤为:将提取到的事件编码与事件间规则特征融合输入至分类层,采用softmax分类器对汉越双语新闻事件对之间的时序关系进行分类,从而实现汉越双语新闻事件时序关系的自动识别,输出时序关系类别。
作为本发明的优选方案,通过对汉语、越南语的语言特点以及事件间时序关系特征的研究,抽取了6项事件间规则特征,所述事件间规则特征包括:
1)事件触发词词性:若事件触发词的词性相同,则特征值取1,否则特征值取0;
2)触发词的语义角色:若触发词的语义角色相同,则特征值取1,否则特征值为 0;
3)事件类型:若事件类型相同则特征为1,否则为0;
4)事件子类型:若事件子类型相同则特征为1,否则特征为0;
5)事件极性:描述的事件是肯定的事件还是否定的事件;当事件对的极性相同则特征为1,否则为0;
6)事件时态:描述的事件发生的时态是过去、现在、还是将来;三种时态的特征值分别为0、1、2。
作为本发明的优选方案,融合事件句的事件语义特征和6项事件间规则特征,并采用softmax分类器对汉越双语新闻事件对之间的时序关系进行分类。
y=softmax(W[gcgvu]+b) (9)
gc和gv分别为汉语和越南语事件句的事件语义特征,u为事件间规则特征, W∈R(2d +s)*t(s为抽取的事件规则特征个数,t为分类个数)为最终softmax层输入变量的权重矩阵,y为模型输出的时序关系。
此优选方案设计抽取的6项事件间规则特征具有一定的约束作用,有助于更好的识别事件时序关系。
本发明的有益效果是:
1、本发明的基于双向交叉注意力循环神经网络模型的汉越双语新闻事件时序关系识别方法,利用双语词向量来表征汉越双语新闻文本,将汉语越南语的词都映射到同一语义空间中,在这个空间中语义相近的词向量距离相近,语义相关性低的词向量相隔较远;
2、本发明的基于双向交叉注意力循环神经网络模型的汉越双语新闻事件时序关系识别方法,使用BiLSTM来挖掘事件句的上下文隐含语义信息,采用结合触发词的注意力机制得到事件句的增强语义特征;采用结合不同语言触发词的交叉注意力机制得到增强前后事件信息的事件语义特征;拼接三部分的语义特征作为当前句子的语义信息;
3、本发明的基于双向交叉注意力循环神经网络模型的汉越双语新闻事件时序关系识别方法,结合双语特点和事件间时序关系的特征,提出6类事件间规则特征并与事件语义特征融合,并通过softmax层进行分类;
4、本发明的基于双向交叉注意力循环神经网络模型的汉越双语新闻事件时序关系识别方法,解决了跨语言事件时序识别任务。
附图说明
图1为本发明提出的汉越双语新闻事件时序关系识别流程图;
图2为本发明提出的双向交叉注意力循环神经网络模型图。
具体实施方式
实施例1:如图1-2所示,基于双向交叉注意力机制的汉越新闻事件时序关系识别方法,具体步骤如下:
Step1、收集用于汉越双语新闻事件时序关系识别的新闻文本,分别针对汉语新闻网站(百度、新华网、人民网)和越南语新闻网站(越南新闻社、越南经济时报、越南之门)进行爬取,选取爬去新闻文本中的500篇汉越新闻文本进行实验研究,对新闻文本进行去重与筛选;
作为本发明的优选方案,所述Step1中,使用Scrapy作为爬取工具,模仿用户操作,为汉语、越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取新闻标题、新闻时间、新闻正文等数据。
Step2、对汉越新闻文本进行分词,词性标注等预处理,定制汉越双语新闻事件时序关系识别的标注体系,标记双语新闻文本,将标记好的双语新闻语料按照8:1: 1的比例分配训练语料、测试语料和验证语料;
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、本发明中事件由触发词和参数组成,触发词能清楚的表达一类事件发生,通常是单个动词或者名词,参数描述事件发生的时间、地点、人物等信息;定制的汉越双语新闻事件时序关系识别的标注体系采用了XML的可扩展标记语言组织文本,分别针对触发词、参数、事件类型、时序关系类型对收集到的汉越双语新闻文本进行标记;
Step2.2、利用组对规则对标记过的新闻事件句进行组对,组对规则如下:
1)将每个话题下的双语新闻文本提取出的事件放入对应话题下的事件集合 Di={e1,e2,…,en}中,i=1,2,…,10,n为事件总数;
2)将Di中事件进行两两组对,构成事件对<ej,ek>(j,k=1,2,…n),其中ej,ek分别为汉语事件句,越南语事件句;
3)将事件对贴上对应标签E<ej,ek,y>,y∈{0,1,2},y表示两事件之间的三种时序关系类型,其中0表示间断前后关系,1表示连续前后关系,2表示并列关系;
4)将事件对放入事件对集合中;
根据组对规则组对,可得到实验数据中间断前后事件对共10862对,连续前后事件对共6013对,并列事件对共3125对,共计20000对。
Step2.3、再将实验数据分为训练语料、测试语料和验证语料。
作为本发明的优选方案,所述步骤Step2中:将事件时序关系分为三种类型,分别为“间断前后”、“连续前后”和“并列”关系;根据双语的语言特点以及事件时序关系的需求,定制汉越双语新闻事件时序关系识别的标注体系。
Step3、获取汉越双语词向量,融合句中汉越双语词向量、位置向量作为双向交叉注意力循环神经网络输入;
作为本发明的优选方案,所述步骤Step3的具体步骤:
Step3.1、将Skip-gram语言模型扩展到汉越双语环境下,采用skip-gram扩展模型的方法预测目标词在汉语中的上下文信息,同时预测目标词在越南语中对齐词的上下文信息,从而得到汉越双语词向量;
Step3.2、词在句中的不同位置有不同的语义信息,将每个位置编号,每个编号对应一个向量,通过位置向量和汉越双语词向量的结合,为每个词引入一定的位置信息,注意力机制即可以分辨出不同位置的词;
Step3.3、将汉越双语词向量和位置向量的拼接作为双向交叉注意力循环神经网络的输入。
模型输入如图2所示,XC={x1,x2,x3,…xn}和XV={x1,x2,x3,…,xm}分别是是长度为n的汉语句子和和长度为m的越南语句子,其xj是句子中的第j个词。其中上标C代表中文,上标V代表越南语。
Step4、采用双向交叉注意力循环神经网络,获取双语新闻的事件编码,训练新闻事件时序关系识别模型。
作为本发明的优选方案,本发明利用双向循环神经网络捕获句子语义信息,通过注意力机制增强事件语义信息中的触发词语义信息,通过交叉注意力机制获得时序逻辑语义信息,将三部分语义信息嵌入为事件编码;其中:
所述步骤Step4采用双向交叉注意力循环神经网络,获取双语新闻的事件编码的具体步骤为:
Step4.1、将编码层的汉语事件句和越南语事件句分别输入到BiLSTM中,可分别得到汉语事件句和越南语事件句的上下文隐含语义信息。
Step4.2、结合汉语句子的触发词建立汉语句子的注意力机制,从而得到增强当前汉语触发词的汉语事件语义特征;
结合越南语句子的触发词建立越南语句子的注意力机制,从而得到增强当前越南语触发词的越南语事件语义特征;
Step4.3、以触发词为事件句的核心,在汉越双语事件对中,针对触发词建立交叉注意力机制;分别结合越南语句子的触发词针对汉语句子建立注意力机制,结合汉语句子的触发词针对越南语句子建立注意力机制,为当前句子融入了时序逻辑语义信息;
Step4.4、结合得到的三部分语义信息嵌入为事件编码。
作为本发明的优选方案,所述双向交叉注意力循环神经网络包括编码层和双向交叉注意力层;双向交叉注意力层包括BiLSTM、注意力机制、交叉注意力机制三部分;依次使用这三部分,获得包含时序逻辑信息的深层语义信息;
所述BiLSTM:
将汉语越南语的句编码分别输入到BiLSTM中,分别得到两句子的上下文隐含语义信息H={h1,h2,h3,…,hn},H∈Rd*n,d为词的维度,n为当前句子长度;
所述注意力机制:
结合触发词xi在当前事件句中建立注意力机制,其中,i为当前事件句的第i个词;编码汉语句子部分,结合汉语句子的触发词建立汉语句子的注意力机制,从而得到增强当前汉语触发词的汉语事件语义特征,表达式如下:
α=softmax(WKK) (2)
r=αHc (3)
其中,X*c={xi,xi,xi,…,xi}为汉语事件句的触发词矩阵(X*c∈Rd*n), WXH(WXH∈R2d*2d)为X*c和Hc结合的权重矩阵;α={α1,α2,α3,…,αn}为注意力机制的权重向量(α∈Rn),WK(WK∈R2d)为K的权重矩阵;r(r∈Rd)为给定事件触发词时对应事件句的权重向量;是注意力机制获取的中文事件语义特征向量; Hc为汉语事件句的隐向量矩阵(Hc∈Rd*n);K为汉语事件句语义特征;越南语事件句的计算与汉语类似,需将触发词换成越南语事件中的触发词;
所述交叉注意力机制:
结合越南语句子的触发词建立汉语语句的交叉注意力机制,得到增强越南语触发词的包含时序逻辑关系的汉语事件语义特征,表达式如下:
α=softmax(WKK) (6)
r=αHc (7)
其中为越南语事件句的触发词矩阵(X*v∈Rd*n),WXH(WXH∈R2d*2d)为X*v和Hc结合的权重向量;α={α1,α2,α3,…,αn}为注意力机制的权重向量(α∈Rn),WK (WK∈R2d)为K的权重矩阵;r(r∈Rd)为给定事件触发词时对应汉语事件句的权重向量;是交叉注意力机制挖掘出包含时序逻辑关系的汉语事件语义特征向量;Hc为汉语事件句的隐向量矩阵(Hc∈Rd*n);K为汉语事件句语义特征;越南语事件句的计算与汉语类似,需将触发词换成汉语事件句中的触发词。
最后,将注意力机制得到得的语义信息和交叉注意力机制得到得语义信息相融合,作为事件句的事件语义信息用于最后的分类。
此优选方案设计提出双向交叉注意力层由三部分组成,BiLSTM可以从正反两个方向提取信息,不仅解决了长距离依赖问题,更加有效的挖掘事件句的隐含语义信息。由于注意力机制添加了触发词在当前事件的权重,而交叉注意力可以捕获到两事件句之间的时序逻辑关系。在事件时序关系识别任务中,时序逻辑关系的准确获取具有重要的作用,同时采用这两种注意力机制,使得汉越双语事件时序关系识别任务达到了最佳的效果。
Step5、对需要识别的汉越双语新闻事件句进行编码,之后将提取到事件编码以及事件间规则特征作为分类模型的输入向量,利用softmax分类器获得最终的结果。
作为本发明的优选方案,所述步骤Step5的具体步骤为:将提取到的事件编码与事件间规则特征融合输入至分类层,采用softmax分类器对汉越双语新闻事件对之间的时序关系进行分类,从而实现汉越双语新闻事件时序关系的自动识别,输出时序关系类别。
作为本发明的优选方案,通过对汉语、越南语的语言特点以及事件间时序关系特征的研究,抽取了6项事件间规则特征,所述事件间规则特征包括:
1)事件触发词词性:若事件触发词的词性相同,则特征值取1,否则特征值取0;
2)触发词的语义角色:若触发词的语义角色相同,则特征值取1,否则特征值为 0;
3)事件类型:若事件类型相同则特征为1,否则为0;
4)事件子类型:若事件子类型相同则特征为1,否则特征为0;
5)事件极性:描述的事件是肯定的事件还是否定的事件;当事件对的极性相同则特征为1,否则为0;
6)事件时态:描述的事件发生的时态是过去、现在、还是将来;三种时态的特征值分别为0、1、2。
作为本发明的优选方案,融合事件句的事件语义特征和6项事件间规则特征,并采用softmax分类器对汉越双语新闻事件对之间的时序关系进行分类。
y=softmax(W[gcgvu]+b) (9)
gc和gv分别为汉语和越南语事件句的事件语义特征,u为事件间规则特征, W∈R(2d +s)*t(s为抽取的事件规则特征个数,t为分类个数)为最终softmax层输入变量的权重矩阵,y为模型输出的时序关系。
Step6、分别对模型编码层、卷积层进行实验探究,证明模型设置的合理性与高效性,又将该模型与现有模型进行对比,证明本方法在汉越双语事件识别上具有较好效果。
实验采用准确率(P)、召回率(R)、和F值(F)作为评价指标进行对比实验。
其中A为正确识别事件类型的数量,B为错误识别事件类型的数量,C为正确未识别事件类型的数量。
为了探究位置信息是否能获取到额外的语义信息,从而提高模型的性能。本实验将编码层不添加位置向量的模型与编码层添加位置向量的模型进行对比,模型其他部分相同,实验结果如表1所示。
表1:位置向量对模型的影响实验结果
是否添加位置向量 | P(%) | R(%) | F |
不添加位置向量 | 83.16 | 80.15 | 81.54 |
添加位置向量 | 87.32 | 84.07 | 85.98 |
由实验结果可知,结合位置向量和词向量,给每个词都引入语义结构信息有助于提升模型的性能。
RNN、LSTM和BiLSTM均为循环神经网络,其能够在输入和输出序列之间的映射过程中利用上下文相关信息,为对比他们的性能,将双向交叉注意力层的 Bi-LSTM替换成RNN,LSTM进行对比,模型其他部分相同,实验结果如表2所示。
表2:三种模型对比实验结果
模型 | P(%) | R(%) | F |
RNN | 76.21 | 76.33 | 77.92 |
LSTM | 79.98 | 80.13 | 80.01 |
BiLSTM | 87.32 | 84.07 | 85.98 |
由实验结果可知,LSTM模型在汉越双语事件时序关系识别性能上优于RNN模型,BiLSTM模型又优于LSTM模型。RNN能够存取的历史信息范围很有限,使得隐含层的输入对于网络输出的影响随着网络环路的不断递归而衰退,LSTM正可以解决长距离依赖问题,更加有效的挖掘事件句的隐含语义信息。事实上,同时上下文信息可以更好的理解语义信息,Bi-LSTM模型可以从正反两个方向提取信息,因此文本模型采用Bi-LSTM获取事件句的语义信息。
为探索交叉注意力机制在汉越双语事件时序关系识别任务中的有效性,将只采用注意力机制的模型和只采用交叉注意力机制的模型进行比较,实验结果如表3所示。
表3:交叉注意力机制对模型的影响实验结果
模型 | P(%) | R(%) | F |
注意力机制 | 85.12 | 82.43 | 83.26 |
交叉注意力机制 | 86.04 | 83.51 | 84.19 |
BLCATT | 87.32 | 84.07 | 85.98 |
由实验可知,仅使用交叉注意力机制的模型优于仅使用注意力机制的模型,由于注意力机制添加了触发词在当前事件的权重,而交叉注意力可以捕获到两事件句之间的时序逻辑关系。在事件时序关系识别任务中,时序逻辑关系的准确获有更重要的作用。同时采用注意力机制和交叉注意力机制,使得汉越双语事件时序关系识别任务达到了最佳的效果
交叉注意力机制在时序关系识别中起到主要作用,事件间规则特征起到约束作用。为探究事件间大部分的时序关系是由交叉注意力获取,实验结果如表4所示:
表4:交叉注意力机制和事件间规则特征对模型的影响实验结果
由实验可知,只采用交叉注意力机制的模型效果优于只使用事件间规则特征的模型,说明大部分的事件间的时序关系由交叉注意力捕获,事件间规则特征起到了辅助作用,因此同时使用这两部分获取时序关系。
从以上数据可以看出,利用双语词向量和位置向量来表征汉越双语新闻文本,通过BiLSTM、注意力机制、交叉注意力机制得到事件编码,将事件编码与6类事件间规则特征融合输入至分类层,进而实现汉越双语新闻事件时序关系识别。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (8)
1.基于双向交叉注意力机制的汉越新闻事件时序关系识别方法,其特征在于:所述基于双向交叉注意力机制的汉越新闻事件时序关系识别方法的具体步骤如下:
Step1、收集用于汉越双语新闻事件时序关系识别的新闻文本,对新闻文本进行去重与筛选;
Step2、定制汉越双语新闻事件时序关系识别的标注体系,标记双语新闻文本,将标记好的双语新闻语料进行组对后再分为训练语料、测试语料和验证语料;
Step3、获取汉越双语词向量,融合句中汉越双语词向量、位置向量作为双向交叉注意力循环神经网络输入;
Step4、采用双向交叉注意力循环神经网络,获取双语新闻的事件编码,训练新闻事件时序关系识别模型。
Step5、对需要识别的汉越双语新闻事件句进行编码,之后将提取到事件编码以及事件间规则特征作为分类模型的输入向量,利用softmax分类器获得最终的结果。
2.根据权利要求1所述的基于双向交叉注意力机制的汉越新闻事件时序关系识别方法,其特征在于:所述Step1中,使用Scrapy作为爬取工具,模仿用户操作,为汉语、越南语新闻网站定制不同的模板,根据页面数据元素的XPath路径制定模板获取详细数据,获取新闻标题、新闻时间、新闻正文数据。
3.根据权利要求1所述的基于双向交叉注意力机制的汉越新闻事件时序关系识别方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、定制的汉越双语新闻事件时序关系识别的标注体系采用了XML的可扩展标记语言组织文本,分别针对触发词、参数、事件类型、时序关系类型对收集到的汉越双语新闻文本进行标记;
Step2.2、利用组对规则对标记过的新闻事件句进行组对,组对规则如下:
1)将每个话题下的双语新闻文本提取出的事件放入对应话题下的事件集合Di={e1,e2,…,en}中,i=1,2,…,10,n为事件总数;
2)将Di中事件进行两两组对,构成事件对<ej,ek>(j,k=1,2,…n),其中ej,ek分别为汉语事件句,越南语事件句;
3)将事件对贴上对应标签E<ej,ek,y>,y∈{0,1,2},y表示两事件之间的三种时序关系类型,其中0表示间断前后关系,1表示连续前后关系,2表示并列关系;
4)将事件对放入事件对集合中;
Step2.3、再将实验数据分为训练语料、测试语料和验证语料。
4.根据权利要求3所述的基于双向交叉注意力机制的汉越新闻事件时序关系识别方法,其特征在于:所述步骤Step2中:将事件时序关系分为三种类型,分别为“间断前后”、“连续前后”和“并列”关系;根据双语的语言特点以及事件时序关系的需求,定制汉越双语新闻事件时序关系识别的标注体系。
5.根据权利要求1所述的基于双向交叉注意力机制的汉越新闻事件时序关系识别方法,其特征在于:所述步骤Step3的具体步骤:
Step3.1、采用skip-gram扩展模型的方法预测目标词在汉语中的上下文信息,同时预测目标词在越南语中对齐词的上下文信息,从而得到汉越双语词向量;
Step3.2、词在句中的不同位置有不同的语义信息,将每个位置编号,每个编号对应一个向量,通过位置向量和汉越双语词向量的结合,为每个词引入一定的位置信息,注意力机制即可以分辨出不同位置的词;
Step3.3、将汉越双语词向量和位置向量的拼接作为双向交叉注意力循环神经网络的输入。
6.根据权利要求1所述的基于双向交叉注意力机制的汉越新闻事件时序关系识别方法,其特征在于:所述步骤Step4采用双向交叉注意力循环神经网络,获取双语新闻的事件编码的具体步骤为:
Step4.1、将编码层的汉语事件句和越南语事件句分别输入到BiLSTM中,可分别得到汉语事件句和越南语事件句的上下文隐含语义信息。
Step4.2、结合汉语句子的触发词建立汉语句子的注意力机制,从而得到增强当前汉语触发词的汉语事件语义特征;
结合越南语句子的触发词建立越南语句子的注意力机制,从而得到增强当前越南语触发词的越南语事件语义特征;
Step4.3、以触发词为事件句的核心,在汉越双语事件对中,针对触发词建立交叉注意力机制;分别结合越南语句子的触发词针对汉语句子建立注意力机制,结合汉语句子的触发词针对越南语句子建立注意力机制,为当前句子融入了时序逻辑语义信息;
Step4.4、结合得到的三部分语义信息嵌入为事件编码。
7.根据权利要求1所述的基于双向交叉注意力机制的汉越新闻事件时序关系识别方法,其特征在于:所述步骤Step5的具体步骤为:将提取到的事件编码与事件间规则特征融合输入至分类层,采用softmax分类器对汉越双语新闻事件对之间的时序关系进行分类,从而实现汉越双语新闻事件时序关系的自动识别,输出时序关系类别。
8.根据权利要求1或7所述的基于双向交叉注意力机制的汉越新闻事件时序关系识别方法,其特征在于:所述事件间规则特征包括:
1)事件触发词词性:若事件触发词的词性相同,则特征值取1,否则特征值取0;
2)触发词的语义角色:若触发词的语义角色相同,则特征值取1,否则特征值为0;
3)事件类型:若事件类型相同则特征为1,否则为0;
4)事件子类型:若事件子类型相同则特征为1,否则特征为0;
5)事件极性:描述的事件是肯定的事件还是否定的事件;当事件对的极性相同则特征为1,否则为0;
6)事件时态:描述的事件发生的时态是过去、现在、还是将来;三种时态的特征值分别为0、1、2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910613118.4A CN110334213B (zh) | 2019-07-09 | 2019-07-09 | 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910613118.4A CN110334213B (zh) | 2019-07-09 | 2019-07-09 | 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110334213A true CN110334213A (zh) | 2019-10-15 |
CN110334213B CN110334213B (zh) | 2021-05-11 |
Family
ID=68143394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910613118.4A Active CN110334213B (zh) | 2019-07-09 | 2019-07-09 | 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334213B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709230A (zh) * | 2020-04-30 | 2020-09-25 | 昆明理工大学 | 基于词性软模板注意力机制的短文本自动摘要方法 |
CN112241456A (zh) * | 2020-12-18 | 2021-01-19 | 成都晓多科技有限公司 | 基于关系网络与注意力机制的假新闻预测方法 |
CN112329891A (zh) * | 2020-11-27 | 2021-02-05 | 浙江大学 | 双向注意力和判案逻辑结合的辅助判案方法、装置、介质 |
CN112541356A (zh) * | 2020-12-21 | 2021-03-23 | 山东师范大学 | 一种生物医学命名实体识别的方法和系统 |
CN112561718A (zh) * | 2020-11-16 | 2021-03-26 | 昆明理工大学 | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 |
CN112580330A (zh) * | 2020-10-16 | 2021-03-30 | 昆明理工大学 | 基于中文触发词指导的越南语新闻事件检测方法 |
CN112766033A (zh) * | 2020-11-27 | 2021-05-07 | 天津大学 | 一种基于多视角相机估计场景下行人共同关注目标的方法 |
CN112906609A (zh) * | 2021-03-05 | 2021-06-04 | 清华大学 | 基于双路交叉注意力网络的视频重要区域预测方法和装置 |
CN113239142A (zh) * | 2021-04-26 | 2021-08-10 | 昆明理工大学 | 融合句法信息的无触发词事件检测方法 |
CN113901229A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 基于句法图卷积的汉越双语新闻事件因果关系抽取方法 |
WO2024045225A1 (zh) * | 2022-09-02 | 2024-03-07 | 深圳计算科学研究院 | 基于时序图规则的事件预测的方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8442828B2 (en) * | 2005-12-02 | 2013-05-14 | Microsoft Corporation | Conditional model for natural language understanding |
CN107239445A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络的新闻事件抽取的方法及系统 |
CN109145286A (zh) * | 2018-07-02 | 2019-01-04 | 昆明理工大学 | 基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法 |
CN109359293A (zh) * | 2018-09-13 | 2019-02-19 | 内蒙古大学 | 基于神经网络的蒙古文命名实体识别方法及其识别系统 |
US20190065988A1 (en) * | 2017-08-30 | 2019-02-28 | International Business Machines Corporation | Machine learning for time series using semantic and time series data |
CN109710919A (zh) * | 2018-11-27 | 2019-05-03 | 杭州电子科技大学 | 一种融合注意力机制的神经网络事件抽取方法 |
-
2019
- 2019-07-09 CN CN201910613118.4A patent/CN110334213B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8442828B2 (en) * | 2005-12-02 | 2013-05-14 | Microsoft Corporation | Conditional model for natural language understanding |
CN107239445A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络的新闻事件抽取的方法及系统 |
US20190065988A1 (en) * | 2017-08-30 | 2019-02-28 | International Business Machines Corporation | Machine learning for time series using semantic and time series data |
CN109145286A (zh) * | 2018-07-02 | 2019-01-04 | 昆明理工大学 | 基于BiLSTM-CRF神经网络模型并融合越南语语言特征的名词短语识别方法 |
CN109359293A (zh) * | 2018-09-13 | 2019-02-19 | 内蒙古大学 | 基于神经网络的蒙古文命名实体识别方法及其识别系统 |
CN109710919A (zh) * | 2018-11-27 | 2019-05-03 | 杭州电子科技大学 | 一种融合注意力机制的神经网络事件抽取方法 |
Non-Patent Citations (1)
Title |
---|
丁硙 等: "基于跨事件理论的新闻事件时序关系识别方法", 《计算机工程》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709230B (zh) * | 2020-04-30 | 2023-04-07 | 昆明理工大学 | 基于词性软模板注意力机制的短文本自动摘要方法 |
CN111709230A (zh) * | 2020-04-30 | 2020-09-25 | 昆明理工大学 | 基于词性软模板注意力机制的短文本自动摘要方法 |
CN112580330A (zh) * | 2020-10-16 | 2021-03-30 | 昆明理工大学 | 基于中文触发词指导的越南语新闻事件检测方法 |
CN112580330B (zh) * | 2020-10-16 | 2023-09-12 | 昆明理工大学 | 基于中文触发词指导的越南语新闻事件检测方法 |
CN112561718A (zh) * | 2020-11-16 | 2021-03-26 | 昆明理工大学 | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 |
CN112766033B (zh) * | 2020-11-27 | 2022-07-15 | 天津大学 | 一种基于多视角相机估计场景下行人共同关注目标的方法 |
CN112766033A (zh) * | 2020-11-27 | 2021-05-07 | 天津大学 | 一种基于多视角相机估计场景下行人共同关注目标的方法 |
CN112329891B (zh) * | 2020-11-27 | 2022-05-31 | 浙江大学 | 双向注意力和判案逻辑结合的辅助判案方法、装置、介质 |
CN112329891A (zh) * | 2020-11-27 | 2021-02-05 | 浙江大学 | 双向注意力和判案逻辑结合的辅助判案方法、装置、介质 |
CN112241456A (zh) * | 2020-12-18 | 2021-01-19 | 成都晓多科技有限公司 | 基于关系网络与注意力机制的假新闻预测方法 |
CN112541356A (zh) * | 2020-12-21 | 2021-03-23 | 山东师范大学 | 一种生物医学命名实体识别的方法和系统 |
CN112906609A (zh) * | 2021-03-05 | 2021-06-04 | 清华大学 | 基于双路交叉注意力网络的视频重要区域预测方法和装置 |
CN112906609B (zh) * | 2021-03-05 | 2022-06-07 | 清华大学 | 基于双路交叉注意力网络的视频重要区域预测方法和装置 |
CN113239142A (zh) * | 2021-04-26 | 2021-08-10 | 昆明理工大学 | 融合句法信息的无触发词事件检测方法 |
CN113239142B (zh) * | 2021-04-26 | 2022-09-23 | 昆明理工大学 | 融合句法信息的无触发词事件检测方法 |
CN113901229A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 基于句法图卷积的汉越双语新闻事件因果关系抽取方法 |
CN113901229B (zh) * | 2021-09-15 | 2022-09-27 | 昆明理工大学 | 基于句法图卷积的汉越双语新闻事件因果关系抽取方法 |
WO2024045225A1 (zh) * | 2022-09-02 | 2024-03-07 | 深圳计算科学研究院 | 基于时序图规则的事件预测的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110334213B (zh) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334213A (zh) | 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法 | |
CN105677873B (zh) | 基于领域知识模型的文本情报关联聚类汇集处理方法 | |
CN109684440A (zh) | 基于层级标注的地址相似度度量方法 | |
CN104820629B (zh) | 一种智能的舆情突发事件应急处理系统及方法 | |
CN110334212A (zh) | 一种基于机器学习的领域性审计知识图谱构建方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN103778215B (zh) | 一种基于情感分析和隐马尔科夫模型融合的股市预测方法 | |
CN109635109A (zh) | 基于lstm并结合词性及多注意力机制的句子分类方法 | |
CN110362817A (zh) | 一种面向产品属性的观点倾向性分析方法及系统 | |
CN110489541A (zh) | 基于案件要素及BiGRU的涉案舆情新闻文本摘要方法 | |
CN104573028A (zh) | 实现智能问答的方法和系统 | |
CN110347836A (zh) | 融入观点句特征的汉越双语新闻情感分类方法 | |
CN110263235A (zh) | 信息推送对象更新方法、装置和计算机设备 | |
CN110287482B (zh) | 半自动化分词语料标注训练装置 | |
CN105868187B (zh) | 多译本平行语料库的构建方法 | |
CN110442723A (zh) | 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法 | |
CN109375948A (zh) | 一种智能功能点识别的软件计价方法 | |
CN114492441A (zh) | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 | |
CN110110116A (zh) | 一种整合深度卷积网络和语义分析的商标图像检索方法 | |
CN104899430A (zh) | 一种基于多源实例迁移学习的恐怖行为预测方法 | |
CN112580330A (zh) | 基于中文触发词指导的越南语新闻事件检测方法 | |
CN115311465A (zh) | 一种基于双注意力模型的图像描述方法 | |
Qu et al. | Knowledge-driven recognition methodology for electricity safety hazard scenarios | |
Yao et al. | A novel data-driven multi-energy load forecasting model | |
CN106202299A (zh) | 一种基于残疾人特征的残疾人权威用户推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |