CN113468884A - 一种中文事件触发词抽取方法及装置 - Google Patents

一种中文事件触发词抽取方法及装置 Download PDF

Info

Publication number
CN113468884A
CN113468884A CN202110647875.0A CN202110647875A CN113468884A CN 113468884 A CN113468884 A CN 113468884A CN 202110647875 A CN202110647875 A CN 202110647875A CN 113468884 A CN113468884 A CN 113468884A
Authority
CN
China
Prior art keywords
node
attention network
nodes
type
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110647875.0A
Other languages
English (en)
Other versions
CN113468884B (zh
Inventor
杨昊
赵刚
王兴芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN202110647875.0A priority Critical patent/CN113468884B/zh
Publication of CN113468884A publication Critical patent/CN113468884A/zh
Application granted granted Critical
Publication of CN113468884B publication Critical patent/CN113468884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种中文事件触发词抽取方法及装置。所述方法包括:对输入文本进行预处理;初始向量化;利用异构注意力网络,有侧重地捕捉与当前节点同一类型邻居节点的特征,有侧重地捕捉与当前节点不同类型邻居节点的特征;将类型注意力网络的输出输入到一个条件随机场,输出标注序列,实现触发词的抽取。本发明利用全分词和依存句法分析相结合,通过融入单词的义原信息,将单词的多个语义信息融合至字符之中,解决了触发词抽取任务中的歧义分词问题及中文词语语义歧义性的问题。本发明利用包括节点注意力网络和类型注意力网络的异构图注意力网络,能够有侧重地捕捉异构图中邻居节点的特征,提高了中文事件触发词的抽取的准确度。

Description

一种中文事件触发词抽取方法及装置
技术领域
本发明属于自然语言处理技术领域,具体涉及一种中文事件触发词抽取方法及装置。
背景技术
事件抽取作为信息抽取的一部分,在舆情分析、自动问答、知识推理等方面具有现实意义。事件抽取是指要求人们用人工或者自动的方法,从半结构化、非结构化数据中,识别出与目标相关的触发词。触发词作为事件的核心词,决定着事件的类型,故事件触发词的抽取作为事件抽取的子任务,具备深入研究的现实意义。现有中文的事件触发词抽取面临着歧义分词和词语语义歧义两大问题。现有的中文事件触发词抽取技术主要分为三种:一是利用传统的机器学习方法,其存在问题是在特征提取时过度依赖NLP工具,并且仅能捕获语句内的显示特征;二是利用CNN、RNN等神经网络及其各种改良的方法,其存在问题是依据固定分词,不能很好地解决歧义分词和词语语义歧义的问题;三是利用图卷积网络、图注意力网络等图神经网络的方法,其存在问题是多是仅利用字构建同构图结构或利用字与分词结果构建异构图结构,再利用图卷积网络或图注意力网络等方法,完成中文事件触发词的抽取,其并不能解决词语语义歧义的问题。
综上,现有中文触发词抽取技术由于特征捕获不完全和歧义问题均在一定程度上影响了字符的表征,进而影响了中文事件触发词的抽取效果。
发明内容
为了解决现有技术中存在的上述问题,本发明提供一种中文事件触发词抽取方法及装置。
为了实现上述目的,本发明采用以下技术方案。
第一方面,本发明提供一种中文事件触发词抽取方法,包括以下步骤:
对输入文本进行全分词、依存句法分析,提取依存句法分析中未出现的单词的所有义原;
对提取的字符、单词、义原进行初始向量化,利用双向长短期记忆网络BiLSTM对每个句子中的字符进行训练,得到每个字符能够记忆其句中前后字符特征的向量表征;
将BiLSTM的输出输入到节点注意力网络,有侧重地捕捉与当前节点同一类型邻居节点的特征,将节点注意力网络的输出输入到类型注意力网络,有侧重地捕捉与当前节点不同类型邻居节点的特征;节点类型包括字符节点、单词节点和义原节点;
将类型注意力网络的输出输入到一个条件随机场,输出标注序列,实现触发词的抽取。
进一步地,节点注意力网络的输出为:
Figure BDA0003109930340000021
Figure BDA0003109930340000022
eij=LeakyReLU(vτ[Wτhi,Wτhj])
式中,
Figure BDA0003109930340000023
为节点注意力网络第i个节点的输出向量,σ、LeakyReLU为激励函数,Nτ,i表示与第i个节点即当前节点相邻的τ类型节点的集合,Wτ为τ类型节点的维度变换矩阵,aij为第j个节点输入向量hj的权重,eij为第i个节点与第j个节点的相似度,vτ为τ类型节点的权重矩阵,hi为第i个节点输入向量。
更进一步地,类型注意力网络的输出为:
Figure BDA0003109930340000024
Figure BDA0003109930340000031
Figure BDA0003109930340000032
式中,hi′为类型注意力网络第i个节点的输出向量,βi,τ
Figure BDA0003109930340000033
的权重,mi,τ为τ类型节点对输出向量的贡献程度,Ci为第i个节点邻居节点类型的集合,|Ci|为Ci的元素个数,q为注意力向量,tanh为激励函数,W、b分别为权重和偏置矩阵。
进一步地,对包括节点注意力网络和类型注意力网络的异构图注意力网络进行训练时,基于mask attention机制依次实现以下4个步骤的网络特征传播:
VC→VW
Figure BDA0003109930340000034
VW→VS
Figure BDA0003109930340000035
VS→VW
Figure BDA0003109930340000036
VW→VC
Figure BDA0003109930340000037
其中,Vc、Vw、Vs分别为字符节点,单词节点和义原节点;HGAT表示异构图注意力网络,GAT表示节点注意力网络,Hc、Hw、Hs分别为字符节点、单词节点和义原节点的矩阵表示,其上标为更新次数,初始矩阵为
Figure BDA0003109930340000038
网络特征传播采用端到端的训练方法,每一步传播过程采用残差连接方式解决梯度消失问题,即
Figure BDA0003109930340000039
其中,h′、hi分别为当前传播步骤的输出和输入,
Figure BDA00031099303400000310
为下一传播步骤的输入。
进一步地,条件随机场的损失函数为:
Loss=-log10(p(Y|X))
Figure BDA00031099303400000311
Figure BDA00031099303400000312
Figure BDA00031099303400000313
式中,Loss为损失函数,X={x1,x2…,xn}、Y={y1,y2…,yn}分别为输入和输出序列,p(Y|X)为X序列被标记为Y序列的概率,S(X,Y)为得分函数,
Figure BDA0003109930340000041
为标注集合,Y′为任意一个标注,
Figure BDA0003109930340000042
为初始转移得分,
Figure BDA0003109930340000043
为结尾转移得分,
Figure BDA0003109930340000044
为由yi-1转移到yi的得分,
Figure BDA0003109930340000045
为xi标记为yi的得分,Ws、bs分别为权重和偏置矩阵。
第二方面,本发明提供一种中文事件触发词抽取装置,包括:
预处理模块,用于对输入文本进行全分词、依存句法分析,提取依存句法分析中未出现的单词的所有义原;
初始化模块,用于对提取的字符、单词、义原进行初始向量化,利用双向长短期记忆网络BiLSTM对每个句子中的字符进行训练,得到每个字符能够记忆其句中前后字符特征的向量表征;
异构注意力模块,用于将BiLSTM的输出输入到节点注意力网络,有侧重地捕捉与当前节点同一类型邻居节点的特征,将节点注意力网络的输出输入到类型注意力网络,有侧重地捕捉与当前节点不同类型邻居节点的特征;节点类型包括字符节点、单词节点和义原节点;
触发词抽取模块,用于将类型注意力网络的输出输入到一个条件随机场,输出标注序列,实现触发词的抽取。
进一步地,节点注意力网络的输出为:
Figure BDA0003109930340000046
Figure BDA0003109930340000047
eij=LeakyReLU(vτ[Wτhi,Wτhj])
式中,
Figure BDA0003109930340000048
为节点注意力网络第i个节点的输出向量,σ、LeakyReLU为激励函数,Nτ,i表示与第i个节点即当前节点相邻的τ类型节点的集合,Wτ为τ类型节点的维度变换矩阵,aij为第j个节点输入向量hj的权重,eij为第i个节点与第j个节点的相似度,vτ为τ类型节点的权重矩阵,hi为第i个节点输入向量。
更进一步地,类型注意力网络的输出为:
Figure BDA0003109930340000051
Figure BDA0003109930340000052
Figure BDA0003109930340000053
式中,hi′为类型注意力网络第i个节点的输出向量,βi,τ
Figure BDA0003109930340000054
的权重,mi,τ为τ类型节点对输出向量的贡献程度,Ci为第i个节点邻居节点类型的集合,|Ci|为Ci的元素个数,q为注意力向量,tanh为激励函数,W、b分别为权重和偏置矩阵。
进一步地,对包括节点注意力网络和类型注意力网络的异构图注意力网络进行训练时,基于mask attention机制依次实现以下4个步骤的网络特征传播:
VC→VW
Figure BDA0003109930340000055
VW→VS
Figure BDA0003109930340000056
VS→VW
Figure BDA0003109930340000057
VW→VC
Figure BDA0003109930340000058
其中,Vc、Vw、Vs分别为字符节点,单词节点和义原节点;HGAT表示异构图注意力网络,GAT表示节点注意力网络,Hc、Hw、Hs分别为字符节点、单词节点和义原节点的矩阵表示,其上标为更新次数,初始矩阵为
Figure BDA0003109930340000059
网络特征传播采用端到端的训练方法,每一步传播过程采用残差连接方式解决梯度消失问题,即
Figure BDA00031099303400000510
其中,h′、hi分别为当前传播步骤的输出和输入,
Figure BDA00031099303400000511
为下一传播步骤的输入。
进一步地,条件随机场的损失函数为:
Loss=-log10(p(Y|X))
Figure BDA00031099303400000512
Figure BDA00031099303400000513
Figure BDA0003109930340000061
式中,Loss为损失函数,X={x1,x2...,xn}、Y={y1,y2...,yn}分别为输入和输出序列,p(Y|X)为X序列被标记为Y序列的概率,S(X,Y)为得分函数,
Figure BDA0003109930340000062
为标注集合,Y′为任意一个标注,
Figure BDA0003109930340000063
为初始转移得分,
Figure BDA0003109930340000064
为结尾转移得分,
Figure BDA0003109930340000065
为由yi-1转移到yi的得分,
Figure BDA0003109930340000066
为xi标记为yi的得分,Ws、bs分别为权重和偏置矩阵。
与现有技术相比,本发明具有以下有益效果。
本发明利用全分词和依存句法分析相结合,解决了触发词抽取任务中的歧义分词问题。本发明通过融入单词的义原信息,将单词的多个语义信息融合至字符之中,使字符捕获了更为全面的语义信息,解决了中文词语语义歧义性的问题。本发明利用包括节点注意力网络和类型注意力网络的异构图注意力网络,有侧重地捕捉了异构图中邻居节点的特征,提高了中文事件触发词抽取的准确度。
附图说明
图1为本发明的实施例一种中文事件触发词抽取方法的流程图。
图2为义原信息、全分词信息、依存句法信息融合结构图。
图3为触发词抽取流程示意图。
图4为本发明的实施例一种中文事件触发词抽取装置的方框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明白,以下结合附图及具体实施方式对本发明作进一步说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种中文事件触发词抽取方法的流程图,包括以下步骤:
步骤101,对输入文本进行全分词、依存句法分析,提取依存句法分析中未出现的单词的所有义原;
步骤102,对提取的字符、单词、义原进行初始向量化,利用双向长短期记忆网络BiLSTM对每个句子中的字符进行训练,得到每个字符能够记忆其句中前后字符特征的向量表征;
步骤103,将BiLSTM的输出输入到节点注意力网络,有侧重地捕捉与当前节点同一类型邻居节点的特征,将节点注意力网络的输出输入到类型注意力网络,有侧重地捕捉与当前节点不同类型邻居节点的特征;节点类型包括字符节点、单词节点和义原节点;
步骤104,将类型注意力网络的输出输入到一个条件随机场,输出标注序列,实现触发词的抽取。
本实施例给出一种中文事件触发词抽取方法,为便于理解技术方案,先给出几个相关概念的含义。
触发词:事件的核心词,能够判断事件类型。
义原:语义的基本单位,词语的不同语义都可以用不同义原来表示,其本质仍是单词。如:顶点一词具有两个义原:一是界限;二是位置。
依存句法:对句内依存关系进行识别,形成依存句法树。如:“小王买电脑”,其依存句法树为小王←买→电脑,其中小王←买为主谓关系(SBV);买→电脑为动宾关系(VOB)。
本实施例中,步骤101主要用于对输入文本进行预处理,包括全分词、依存句法分析、提取义原等。可利用jieba分词软件进行全分词;利用哈工大LTP进行依存句法分析;利用OpenHowNet实现义原提取。将义原信息、全分词信息、依存句法信息融入图结构中,形成义原增强和依存句法增强的异构图,如图2所示。图2中包含五种类型边:字符(中文的单个汉字)与字符之间的连边;单词(中文的词语)与字符之间的连边;单词与单词之间的连边;单词与义原之间的连边;义原与义原之间的连边。
本实施例中,步骤102主要用于得到每个字符的前后文语义表征。首先,采用最为常用的word2vec方式对字符、单词、义原进行初始向量化;然后,利用BiLSTM对每个句子中的字符进行训练,使每个字符能够记忆其句中前后字符特征,获得更为准确的表征。BiLSTM的处理过程表示如下:
Figure BDA0003109930340000081
Figure BDA0003109930340000082
Figure BDA0003109930340000083
其中,
Figure BDA0003109930340000084
Figure BDA0003109930340000085
分别表示句中字符在第j个隐层状态两个方向的向量,vj为字符的传入向量,hj为由
Figure BDA0003109930340000086
Figure BDA0003109930340000087
拼接而成表征字符经过BiLSTM的输出。最后将字符、单词、义原的初始向量传入异构图注意力网络之中。
本实施例中,步骤103主要用于利用异构图注意力网络有侧重地捕捉字符、单词和义原的特征。注意力网络是在计算机能力有限的情况下,借鉴人脑的注意力机制,只关心一些关键的信息输入进行处理,来提高神经网络的效率。注意力机制的计算可分为两步:一是在所有输入信息上计算注意力分布;二是根据注意力分布计算输入信息的加权求和。加权系数或权重即注意力分布,表示输入向量与询问向量的相关程度。本实施例的异构图注意力网络包括针对同一类型节点的节点注意力网络和针对不同类型节点的类型注意力网络。先利用节点注意力网络有侧重地捕捉目标节点同一类型邻居节点的特征;再利用类型注意力网络,为目标节点的不同邻居节点类型赋予不同权重,有侧重地捕捉目标节点不同类型邻居节点的特征,完成对目标节点的准确表征。
本实施例中,步骤104主要用于实现触发词的抽取。本实施例将字符节点经异构注意力网络获得的准确表征,输入条件随机场(CRF)得到输出标注序列,完成事件触发词的抽取。条件随机场就是对给定的输出标识序列Y和观察序列X,通过定义条件概率p(Y|X)来描述模型,常用于序列标注、数据分割等自然语言处理任务。本实施例采用字符级BIO标注。BIO标注是将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。如图3的最右端,C1~C6的标注均为“O”,表示不是触发词(Others),C7(击)的标注为“B-攻击”,表示攻击类型触发词的开始(Begin),C8(毙)的标注为“B-死亡”表示死亡类型触发词的开始,攻击和死亡分别表示触发词的类型。
作为一可选实施例,节点注意力网络的输出为:
Figure BDA0003109930340000091
Figure BDA0003109930340000092
eij=LeakyReLU(vτ[Wτhi,Wτhj])
式中,
Figure BDA0003109930340000093
为节点注意力网络第i个节点的输出向量,σ、LeakyReLU为激励函数,Nτ,i表示与第i个节点即当前节点相邻的τ类型节点的集合,Wτ为τ类型节点的维度变换矩阵,aij为第j个节点输入向量hj的权重,eij为第i个节点与第j个节点的相似度,vτ为τ类型节点的权重矩阵,hi为第i个节点输入向量。
本实施例给出了节点注意力网络输出的具体表达式。节点注意力网络通过有侧重地捕捉当前节点同类型邻居节点特征,获得对当前节点更为准确的表征。上面的公式是注意力机制的通用计算公式,这里不进行过多说明。节点注意力网络是针对同一类型的节点(字符、单词或义原)进行的有侧重的特征提取。如图3所示,W3代表单词“嫌疑人”,其上方矩形内的W1、W5分别代表单词“贩毒”、“击毙”,是W3相邻的单词类型节点。下方矩形内的C3、C4、C5分别代表字符“嫌”、“疑”、“人”,是与W3相邻的字符类型的节点。单词节点W1、W5和字符节点C3、C4、C5分别输入到一个节点注意网络进行有侧重的特征捕捉。
作为一可选实施例,类型注意力网络的输出为:
Figure BDA0003109930340000094
Figure BDA0003109930340000095
Figure BDA0003109930340000101
式中,hi′为类型注意力网络第i个节点的输出向量,βi,τ
Figure BDA0003109930340000102
的权重,mi,τ为τ类型节点对输出向量的贡献程度,Ci为第i个节点邻居节点类型的集合,|Ci|为Ci的元素个数,q为注意力向量,tanh为激励函数,W、b分别为权重和偏置矩阵。
本实施例给出了类型注意力网络输出的具体表达式。类型注意力网络是在节点注意力网络之上,给当前节点的不同邻居节点类型赋予不同的权重,有侧重地捕捉不同类型邻居节点的特征,完成对当前节点更为准确的表征。类型注意力网络以节点注意力网络的输出为输入进行注意力计算,如图3所示,两个节点注意力网络的输出W3′、W3″输入到类型注意力网络后输出W3*。上面公式中的Ci表示第i个节点邻居节点类型的集合,|Ci|表示Ci的元素个数,即节点类型数量。如图2所示,如字符节点“嫌”周围包含字符和单词两种节点类型,此时|Ci|=2;义原节点“怀疑”周围包含义原一种节点类型,此时|Ci|=1。
作为一可选实施例,对包括节点注意力网络和类型注意力网络的异构图注意力网络进行训练时,基于mask attention机制依次实现以下4个步骤的网络特征传播:
VC→VW
Figure BDA0003109930340000103
VW→VS
Figure BDA0003109930340000104
VS→VW
Figure BDA0003109930340000105
VW→VC
Figure BDA0003109930340000106
其中,Vc、Vw、Vs分别为字符节点,单词节点和义原节点;HGAT表示异构图注意力网络,GAT表示节点注意力网络,Hc、Hw、Hs分别为字符节点、单词节点和义原节点的矩阵表示,其上标为更新次数,初始矩阵为
Figure BDA0003109930340000107
网络特征传播采用端到端的训练方法,每一步传播过程采用残差连接方式解决梯度消失问题,即
Figure BDA0003109930340000108
其中,h′、hi分别为当前传播步骤的输出和输入,
Figure BDA0003109930340000109
为下一传播步骤的输入。
本实施例给出了异构图注意力网络训练进行特征传播的一种技术方案。本实施例基于mask attention机制依次实现从字符到单词VC→VW、从单词到义原VW→VS、从义原到单词VS→VW、从单词到字符VW→VC的4个步骤的网络特征传播。mask attention机制是指通过设计mask矩阵完成对一部分的遮挡,从而实现注意力机制。本实施例中具体指利用mask矩阵在训练过程中遮挡住邻接矩阵中不相关的边,如进行VC→VW层训练时,遮挡住图结构中单词与义原、字符与字符之间的边。上面的第三个表达式中,GAT表示节点注意力网络,这是因为其输入只包含义原一种类型的节点;其它几个表达式的HGAT均表示表示异构图注意力网络,这是因为它们的输入都包含两种不同类型的节点,所以需要进行节点注意力计算和类型注意力计算。
作为一可选实施例,条件随机场的损失函数为:
Loss=-log10(p(Y|X))
Figure BDA0003109930340000111
Figure BDA0003109930340000112
Figure BDA0003109930340000113
式中,Loss为损失函数,X={x1,x2...,xn}、Y={y1,y2...,yn}分别为输入和输出序列,p(Y|X)为X序列被标记为Y序列的概率,S(X,Y)为得分函数,
Figure BDA0003109930340000114
为标注集合,Y′为任意一个标注,
Figure BDA0003109930340000115
为初始转移得分,
Figure BDA0003109930340000116
为结尾转移得分,
Figure BDA0003109930340000117
为由yi-1转移到yi的得分,
Figure BDA0003109930340000118
为xi标记为yi的得分,Ws、bs分别为权重和偏置矩阵。
本实施例给出了条件随机场损失函数的具体表达式。损失函数是用来评价模型的预测值和真实值不一样程度的。损失函数越好,通常模型的性能越好。不同的模型用的损失函数一般也不一样。损失函数分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和实际结果的差别;结构风险损失函数是指经验风险损失函数加上正则项。常见的损失函数有0-1损失函数、绝对值损失函数、对数损失函数和平方损失函数等。其中对数损失函数的优点是能非常好地表征概率分布,逻辑回归等很多应用场景的损失函数均采用对数损失函数。本实施例的条件随机场损失函数就是采用对数损失函数,其大小等于X序列被标记为Y序列的概率p(Y|X)的对数的绝对值,具体计算方法见上面的公式。
图3为本发明实施例一种中文事件触发词抽取装置的组成示意图,所述装置包括:
预处理模块11,用于对输入文本进行全分词、依存句法分析,提取依存句法分析中未出现的单词的所有义原;
初始化模块12,用于对提取的字符、单词、义原进行初始向量化,利用双向长短期记忆网络BiLSTM对每个句子中的字符进行训练,得到每个字符能够记忆其句中前后字符特征的向量表征;
异构注意力模块13,用于将BiLSTM的输出输入到节点注意力网络,有侧重地捕捉与当前节点同一类型邻居节点的特征,将节点注意力网络的输出输入到类型注意力网络,有侧重地捕捉与当前节点不同类型邻居节点的特征;节点类型包括字符节点、单词节点和义原节点;
触发词抽取模块14,用于将类型注意力网络的输出输入到一个条件随机场,输出标注序列,实现触发词的抽取。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。后面的实施例也是如此,均不再展开说明。
作为一可选实施例,节点注意力网络的输出为:
Figure BDA0003109930340000121
Figure BDA0003109930340000122
eij=LeakyReLU(vτ[Wτhi,Wτhj])
式中,
Figure BDA0003109930340000123
为节点注意力网络第i个节点的输出向量,σ、LeakyReLU为激励函数,Nτ,i表示与第i个节点即当前节点相邻的τ类型节点的集合,Wτ为τ类型节点的维度变换矩阵,aij为第j个节点输入向量hj的权重,eij为第i个节点与第j个节点的相似度,vτ为τ类型节点的权重矩阵,hi为第i个节点输入向量。
作为一可选实施例,类型注意力网络的输出为:
Figure BDA0003109930340000131
Figure BDA0003109930340000132
Figure BDA0003109930340000133
式中,hi′为类型注意力网络第i个节点的输出向量,βi,τ
Figure BDA0003109930340000134
的权重,mi,τ为τ类型节点对输出向量的贡献程度,Ci为第i个节点邻居节点类型的集合,|Ci|为Ci的元素个数,q为注意力向量,tanh为激励函数,W、b分别为权重和偏置矩阵。
作为一可选实施例,对包括节点注意力网络和类型注意力网络的异构图注意力网络进行训练时,基于mask attention机制依次实现以下4个步骤的网络特征传播:
VC→VW
Figure BDA0003109930340000135
VW→VS
Figure BDA0003109930340000136
VS→VW
Figure BDA0003109930340000137
VW→VC
Figure BDA0003109930340000138
其中,Vc、Vw、Vs分别为字符节点,单词节点和义原节点;HGAT表示异构图注意力网络,GAT表示节点注意力网络,Hc、Hw、Hs分别为字符节点、单词节点和义原节点的矩阵表示,其上标为更新次数,初始矩阵为
Figure BDA0003109930340000139
网络特征传播采用端到端的训练方法,每一步传播过程采用残差连接方式解决梯度消失问题,即
Figure BDA00031099303400001310
其中,h′、hi分别为当前传播步骤的输出和输入,
Figure BDA00031099303400001311
为下一传播步骤的输入。
作为一可选实施例,条件随机场的损失函数为:
Loss=-log10(p(Y|X))
Figure BDA0003109930340000141
Figure BDA0003109930340000142
Figure BDA0003109930340000143
式中,Loss为损失函数,X={x1,x2...,xn}、Y={y1,y2...,yn}分别为输入和输出序列,p(Y|X)为X序列被标记为Y序列的概率,S(X,Y)为得分函数,
Figure BDA0003109930340000144
为标注集合,Y′为任意一个标注,
Figure BDA0003109930340000145
为初始转移得分,
Figure BDA0003109930340000146
为结尾转移得分,
Figure BDA0003109930340000147
为由yi-1转移到yi的得分,
Figure BDA0003109930340000148
为xi标记为yi的得分,Ws、bs分别为权重和偏置矩阵。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种中文事件触发词抽取方法,其特征在于,包括以下步骤:
对输入文本进行全分词、依存句法分析,提取依存句法分析中未出现的单词的所有义原;
对提取的字符、单词、义原进行初始向量化,利用双向长短期记忆网络BiLSTM对每个句子中的字符进行训练,得到每个字符能够记忆其句中前后字符特征的向量表征;
将BiLSTM的输出输入到节点注意力网络,有侧重地捕捉与当前节点同一类型邻居节点的特征,将节点注意力网络的输出输入到类型注意力网络,有侧重地捕捉与当前节点不同类型邻居节点的特征;节点类型包括字符节点、单词节点和义原节点;
将类型注意力网络的输出输入到一个条件随机场,输出标注序列,实现触发词的抽取。
2.根据权利要求1所述的中文事件触发词抽取方法,其特征在于,节点注意力网络的输出为:
Figure FDA0003109930330000011
Figure FDA0003109930330000012
eij=LeakyReLU(vτ[Wτhi,Wτhj])
式中,
Figure FDA0003109930330000013
为节点注意力网络第i个节点的输出向量,σ、LeakyReLU为激励函数,Nτ,i表示与第i个节点即当前节点相邻的τ类型节点的集合,Wτ为τ类型节点的维度变换矩阵,aij为第j个节点输入向量hj的权重,eij为第i个节点与第j个节点的相似度,vτ为τ类型节点的权重矩阵,hi为第i个节点输入向量。
3.根据权利要求2所述的中文事件触发词抽取方法,其特征在于,类型注意力网络的输出为:
Figure FDA0003109930330000021
Figure FDA0003109930330000022
Figure FDA0003109930330000023
式中,hi′为类型注意力网络第i个节点的输出向量,βi,τ
Figure FDA0003109930330000024
的权重,mi,τ为τ类型节点对输出向量的贡献程度,Ci为第i个节点邻居节点类型的集合,|Ci|为Ci的元素个数,q为注意力向量,tanh为激励函数,W、b分别为权重和偏置矩阵。
4.根据权利要求1所述的中文事件触发词抽取方法,其特征在于,对包括节点注意力网络和类型注意力网络的异构图注意力网络进行训练时,基于mask attention机制依次实现以下4个步骤的网络特征传播:
Figure FDA0003109930330000025
Figure FDA0003109930330000026
Figure FDA0003109930330000027
Figure FDA0003109930330000028
其中,Vc、Vw、Vs分别为字符节点,单词节点和义原节点;HGAT表示异构图注意力网络,GAT表示节点注意力网络,Hc、Hw、Hs分别为字符节点、单词节点和义原节点的矩阵表示,其上标为更新次数,初始矩阵为
Figure FDA0003109930330000029
网络特征传播采用端到端的训练方法,每一步传播过程采用残差连接方式解决梯度消失问题,即
Figure FDA00031099303300000210
其中,h′、hi分别为当前传播步骤的输出和输入,
Figure FDA00031099303300000211
为下一传播步骤的输入。
5.根据权利要求1所述的中文事件触发词抽取方法,其特征在于,条件随机场的损失函数为:
Loss=-log10(p(Y|X))
Figure FDA00031099303300000212
Figure FDA0003109930330000031
Pi,yi=Wsxi+bs
式中,Loss为损失函数,X={x1,x2...,xn}、Y={y1,y2...,yn}分别为输入和输出序列,p(Y|X)为X序列被标记为Y序列的概率,S(X,Y)为得分函数,
Figure FDA0003109930330000032
为标注集合,Y′为任意一个标注,
Figure FDA0003109930330000033
为初始转移得分,
Figure FDA0003109930330000034
为结尾转移得分,
Figure FDA0003109930330000035
为由yi-1转移到yi的得分,
Figure FDA0003109930330000036
为xi标记为yi的得分,Ws、bs分别为权重和偏置矩阵。
6.一种中文事件触发词抽取装置,其特征在于,包括:
预处理模块,用于对输入文本进行全分词、依存句法分析,提取依存句法分析中未出现的单词的所有义原;
初始化模块,用于对提取的字符、单词、义原进行初始向量化,利用双向长短期记忆网络BiLSTM对每个句子中的字符进行训练,得到每个字符能够记忆其句中前后字符特征的向量表征;
异构注意力模块,用于将BiLSTM的输出输入到节点注意力网络,有侧重地捕捉与当前节点同一类型邻居节点的特征,将节点注意力网络的输出输入到类型注意力网络,有侧重地捕捉与当前节点不同类型邻居节点的特征;节点类型包括字符节点、单词节点和义原节点;
触发词抽取模块,用于将类型注意力网络的输出输入到一个条件随机场,输出标注序列,实现触发词的抽取。
7.根据权利要求6所述的中文事件触发词抽取装置,其特征在于,节点注意力网络的输出为:
Figure FDA0003109930330000037
Figure FDA0003109930330000038
eij=LeakyReLU(vτ[Wτhi,Wτhj])
式中,
Figure FDA0003109930330000039
为节点注意力网络第i个节点的输出向量,σ、LeakyReLU为激励函数,Nτ,i表示与第i个节点即当前节点相邻的τ类型节点的集合,Wτ为τ类型节点的维度变换矩阵,aij为第j个节点输入向量hj的权重,eij为第i个节点与第j个节点的相似度,vτ为τ类型节点的权重矩阵,hi为第i个节点输入向量。
8.根据权利要求7所述的中文事件触发词抽取装置,其特征在于,类型注意力网络的输出为:
Figure FDA0003109930330000041
Figure FDA0003109930330000042
Figure FDA0003109930330000043
式中,hi′为类型注意力网络第i个节点的输出向量,βi,τ
Figure FDA0003109930330000044
的权重,mi,τ为τ类型节点对输出向量的贡献程度,Ci为第i个节点邻居节点类型的集合,|Ci|为Ci的元素个数,q为注意力向量,tanh为激励函数,W、b分别为权重和偏置矩阵。
9.根据权利要求6所述的中文事件触发词抽取装置,其特征在于,对包括节点注意力网络和类型注意力网络的异构图注意力网络进行训练时,基于mask attention机制依次实现以下4个步骤的网络特征传播:
Figure FDA0003109930330000045
Figure FDA0003109930330000046
Figure FDA0003109930330000047
Figure FDA0003109930330000048
其中,Vc、Vw、Vs分别为字符节点,单词节点和义原节点;HGAT表示异构图注意力网络,GAT表示节点注意力网络,Hc、Hw、Hs分别为字符节点、单词节点和义原节点的矩阵表示,其上标为更新次数,初始矩阵为
Figure FDA0003109930330000049
网络特征传播采用端到端的训练方法,每一步传播过程采用残差连接方式解决梯度消失问题,即
Figure FDA00031099303300000410
其中,h′、hi分别为当前传播步骤的输出和输入,
Figure FDA00031099303300000411
为下一传播步骤的输入。
10.根据权利要求6所述的中文事件触发词抽取装置,其特征在于,条件随机场的损失函数为:
Loss=-log10(p(Y|X))
Figure FDA0003109930330000051
Figure FDA0003109930330000052
Figure FDA0003109930330000058
式中,Loss为损失函数,X={x1,x2...,xn}、Y={y1,y2...,yn}分别为输入和输出序列,p(Y|X)为X序列被标记为Y序列的概率,S(X,Y)为得分函数,
Figure FDA0003109930330000053
为标注集合,Y′为任意一个标注,
Figure FDA0003109930330000054
为初始转移得分,
Figure FDA0003109930330000055
为结尾转移得分,
Figure FDA0003109930330000056
为由yi-1转移到yi的得分,
Figure FDA0003109930330000057
为xi标记为yi的得分,Ws、bs分别为权重和偏置矩阵。
CN202110647875.0A 2021-06-10 2021-06-10 一种中文事件触发词抽取方法及装置 Active CN113468884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110647875.0A CN113468884B (zh) 2021-06-10 2021-06-10 一种中文事件触发词抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110647875.0A CN113468884B (zh) 2021-06-10 2021-06-10 一种中文事件触发词抽取方法及装置

Publications (2)

Publication Number Publication Date
CN113468884A true CN113468884A (zh) 2021-10-01
CN113468884B CN113468884B (zh) 2023-06-16

Family

ID=77869580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110647875.0A Active CN113468884B (zh) 2021-06-10 2021-06-10 一种中文事件触发词抽取方法及装置

Country Status (1)

Country Link
CN (1) CN113468884B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116386895A (zh) * 2023-04-06 2023-07-04 之江实验室 基于异构图神经网络的流行病舆情实体识别方法与装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080270384A1 (en) * 2007-04-28 2008-10-30 Raymond Lee Shu Tak System and method for intelligent ontology based knowledge search engine
CN102831236A (zh) * 2012-09-03 2012-12-19 苏州大学 中文事件触发词的扩展方法及系统
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN108897989A (zh) * 2018-06-06 2018-11-27 大连理工大学 一种基于候选事件元素注意力机制的生物事件抽取方法
CN110134925A (zh) * 2019-05-15 2019-08-16 北京信息科技大学 一种中文专利文本相似度计算方法
CN111209749A (zh) * 2020-01-02 2020-05-29 湖北大学 一种将深度学习应用于中文分词的方法
US20200311196A1 (en) * 2019-03-26 2020-10-01 Tencent America LLC Automatic lexical sememe prediction system using lexical dictionaries
CN111914067A (zh) * 2020-08-19 2020-11-10 苏州思必驰信息科技有限公司 中文文本匹配方法及系统
CN112163416A (zh) * 2020-10-09 2021-01-01 北京理工大学 一种融合句法和实体关系图卷积网络的事件联合抽取方法
CN112464673A (zh) * 2020-12-09 2021-03-09 哈尔滨工程大学 融合义原信息的语言含义理解方法
CN112579794A (zh) * 2020-12-25 2021-03-30 清华大学 一种为中英文单词对预测义原树的方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080270384A1 (en) * 2007-04-28 2008-10-30 Raymond Lee Shu Tak System and method for intelligent ontology based knowledge search engine
CN102831236A (zh) * 2012-09-03 2012-12-19 苏州大学 中文事件触发词的扩展方法及系统
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN108897989A (zh) * 2018-06-06 2018-11-27 大连理工大学 一种基于候选事件元素注意力机制的生物事件抽取方法
US20200311196A1 (en) * 2019-03-26 2020-10-01 Tencent America LLC Automatic lexical sememe prediction system using lexical dictionaries
CN110134925A (zh) * 2019-05-15 2019-08-16 北京信息科技大学 一种中文专利文本相似度计算方法
CN111209749A (zh) * 2020-01-02 2020-05-29 湖北大学 一种将深度学习应用于中文分词的方法
CN111914067A (zh) * 2020-08-19 2020-11-10 苏州思必驰信息科技有限公司 中文文本匹配方法及系统
CN112163416A (zh) * 2020-10-09 2021-01-01 北京理工大学 一种融合句法和实体关系图卷积网络的事件联合抽取方法
CN112464673A (zh) * 2020-12-09 2021-03-09 哈尔滨工程大学 融合义原信息的语言含义理解方法
CN112579794A (zh) * 2020-12-25 2021-03-30 清华大学 一种为中英文单词对预测义原树的方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
DONGFENG CAI: "A Statistical Approach to Semantic Analysis for Chinese Terms", 《2014 IEEE INTERNATIONAL CONFERENCE ON SEMANTIC COMPUTING》, pages 248 - 249 *
万齐智: "基于句法语义依存分析的中文金融事件抽取", 《计算机学报》, vol. 44, no. 03, pages 508 - 530 *
余辉: "基于深度学习的中文临床指南事件抽取研究", 《中国优秀硕士学位论文全文数据库》, no. 5, pages 054 - 20 *
吴文涛: "基于表示学习的事件抽取方法研究", 《中国优秀硕士学位论文全文数据库》, no. 04, pages 138 - 564 *
申越: "基于神经网络的文本语义相似性判别方法研究", 《中国优秀硕士学位论文全文数据库》, no. 3, pages 138 - 914 *
闫强: "原相似度的关键词抽取方法", 《数据分析与知识发现》, vol. 5, no. 4, pages 80 - 89 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116386895A (zh) * 2023-04-06 2023-07-04 之江实验室 基于异构图神经网络的流行病舆情实体识别方法与装置
CN116386895B (zh) * 2023-04-06 2023-11-28 之江实验室 基于异构图神经网络的流行病舆情实体识别方法与装置

Also Published As

Publication number Publication date
CN113468884B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN113641586B (zh) 软件源代码缺陷检测方法、系统、电子设备及储存介质
CN111783474B (zh) 一种评论文本观点信息处理方法、装置及存储介质
US20200012953A1 (en) Method and apparatus for generating model
CN110347894A (zh) 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN109918560A (zh) 一种基于搜索引擎的问答方法和装置
CN110232122A (zh) 一种基于文本纠错与神经网络的中文问句分类方法
CN106796600A (zh) 相关项目的计算机实现的标识
Cai et al. Intelligent question answering in restricted domains using deep learning and question pair matching
CN108874896B (zh) 一种基于神经网络和幽默特征的幽默识别方法
CN113704460B (zh) 一种文本分类方法、装置、电子设备和存储介质
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN104391969B (zh) 确定用户查询语句句法结构的方法及装置
Xiong et al. DGI: recognition of textual entailment via dynamic gate matching
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN112183881A (zh) 一种基于社交网络的舆情事件预测方法、设备及存储介质
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN116402066A (zh) 多网络特征融合的属性级文本情感联合抽取方法及系统
CN112507124A (zh) 一种基于图模型的篇章级别事件因果关系抽取方法
CN112948505A (zh) 一种实体关系分类的模型构建方法、设备及存储介质
CN115775349A (zh) 基于多模态融合的假新闻检测方法和装置
CN114417823A (zh) 一种基于句法和图卷积网络的方面级情感分析方法及装置
Lhasiw et al. A bidirectional LSTM model for classifying Chatbot messages
CN113779249A (zh) 跨领域文本情感分类方法、装置、存储介质以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant