CN113468884A - 一种中文事件触发词抽取方法及装置 - Google Patents
一种中文事件触发词抽取方法及装置 Download PDFInfo
- Publication number
- CN113468884A CN113468884A CN202110647875.0A CN202110647875A CN113468884A CN 113468884 A CN113468884 A CN 113468884A CN 202110647875 A CN202110647875 A CN 202110647875A CN 113468884 A CN113468884 A CN 113468884A
- Authority
- CN
- China
- Prior art keywords
- node
- attention network
- nodes
- type
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种中文事件触发词抽取方法及装置。所述方法包括:对输入文本进行预处理;初始向量化;利用异构注意力网络,有侧重地捕捉与当前节点同一类型邻居节点的特征,有侧重地捕捉与当前节点不同类型邻居节点的特征;将类型注意力网络的输出输入到一个条件随机场,输出标注序列,实现触发词的抽取。本发明利用全分词和依存句法分析相结合,通过融入单词的义原信息,将单词的多个语义信息融合至字符之中,解决了触发词抽取任务中的歧义分词问题及中文词语语义歧义性的问题。本发明利用包括节点注意力网络和类型注意力网络的异构图注意力网络,能够有侧重地捕捉异构图中邻居节点的特征,提高了中文事件触发词的抽取的准确度。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种中文事件触发词抽取方法及装置。
背景技术
事件抽取作为信息抽取的一部分,在舆情分析、自动问答、知识推理等方面具有现实意义。事件抽取是指要求人们用人工或者自动的方法,从半结构化、非结构化数据中,识别出与目标相关的触发词。触发词作为事件的核心词,决定着事件的类型,故事件触发词的抽取作为事件抽取的子任务,具备深入研究的现实意义。现有中文的事件触发词抽取面临着歧义分词和词语语义歧义两大问题。现有的中文事件触发词抽取技术主要分为三种:一是利用传统的机器学习方法,其存在问题是在特征提取时过度依赖NLP工具,并且仅能捕获语句内的显示特征;二是利用CNN、RNN等神经网络及其各种改良的方法,其存在问题是依据固定分词,不能很好地解决歧义分词和词语语义歧义的问题;三是利用图卷积网络、图注意力网络等图神经网络的方法,其存在问题是多是仅利用字构建同构图结构或利用字与分词结果构建异构图结构,再利用图卷积网络或图注意力网络等方法,完成中文事件触发词的抽取,其并不能解决词语语义歧义的问题。
综上,现有中文触发词抽取技术由于特征捕获不完全和歧义问题均在一定程度上影响了字符的表征,进而影响了中文事件触发词的抽取效果。
发明内容
为了解决现有技术中存在的上述问题,本发明提供一种中文事件触发词抽取方法及装置。
为了实现上述目的,本发明采用以下技术方案。
第一方面,本发明提供一种中文事件触发词抽取方法,包括以下步骤:
对输入文本进行全分词、依存句法分析,提取依存句法分析中未出现的单词的所有义原;
对提取的字符、单词、义原进行初始向量化,利用双向长短期记忆网络BiLSTM对每个句子中的字符进行训练,得到每个字符能够记忆其句中前后字符特征的向量表征;
将BiLSTM的输出输入到节点注意力网络,有侧重地捕捉与当前节点同一类型邻居节点的特征,将节点注意力网络的输出输入到类型注意力网络,有侧重地捕捉与当前节点不同类型邻居节点的特征;节点类型包括字符节点、单词节点和义原节点;
将类型注意力网络的输出输入到一个条件随机场,输出标注序列,实现触发词的抽取。
进一步地,节点注意力网络的输出为:
eij=LeakyReLU(vτ[Wτhi,Wτhj])
式中,为节点注意力网络第i个节点的输出向量,σ、LeakyReLU为激励函数,Nτ,i表示与第i个节点即当前节点相邻的τ类型节点的集合,Wτ为τ类型节点的维度变换矩阵,aij为第j个节点输入向量hj的权重,eij为第i个节点与第j个节点的相似度,vτ为τ类型节点的权重矩阵,hi为第i个节点输入向量。
更进一步地,类型注意力网络的输出为:
式中,hi′为类型注意力网络第i个节点的输出向量,βi,τ为的权重,mi,τ为τ类型节点对输出向量的贡献程度,Ci为第i个节点邻居节点类型的集合,|Ci|为Ci的元素个数,q为注意力向量,tanh为激励函数,W、b分别为权重和偏置矩阵。
进一步地,对包括节点注意力网络和类型注意力网络的异构图注意力网络进行训练时,基于mask attention机制依次实现以下4个步骤的网络特征传播:
其中,Vc、Vw、Vs分别为字符节点,单词节点和义原节点;HGAT表示异构图注意力网络,GAT表示节点注意力网络,Hc、Hw、Hs分别为字符节点、单词节点和义原节点的矩阵表示,其上标为更新次数,初始矩阵为
进一步地,条件随机场的损失函数为:
Loss=-log10(p(Y|X))
式中,Loss为损失函数,X={x1,x2…,xn}、Y={y1,y2…,yn}分别为输入和输出序列,p(Y|X)为X序列被标记为Y序列的概率,S(X,Y)为得分函数,为标注集合,Y′为任意一个标注,为初始转移得分,为结尾转移得分,为由yi-1转移到yi的得分,为xi标记为yi的得分,Ws、bs分别为权重和偏置矩阵。
第二方面,本发明提供一种中文事件触发词抽取装置,包括:
预处理模块,用于对输入文本进行全分词、依存句法分析,提取依存句法分析中未出现的单词的所有义原;
初始化模块,用于对提取的字符、单词、义原进行初始向量化,利用双向长短期记忆网络BiLSTM对每个句子中的字符进行训练,得到每个字符能够记忆其句中前后字符特征的向量表征;
异构注意力模块,用于将BiLSTM的输出输入到节点注意力网络,有侧重地捕捉与当前节点同一类型邻居节点的特征,将节点注意力网络的输出输入到类型注意力网络,有侧重地捕捉与当前节点不同类型邻居节点的特征;节点类型包括字符节点、单词节点和义原节点;
触发词抽取模块,用于将类型注意力网络的输出输入到一个条件随机场,输出标注序列,实现触发词的抽取。
进一步地,节点注意力网络的输出为:
eij=LeakyReLU(vτ[Wτhi,Wτhj])
式中,为节点注意力网络第i个节点的输出向量,σ、LeakyReLU为激励函数,Nτ,i表示与第i个节点即当前节点相邻的τ类型节点的集合,Wτ为τ类型节点的维度变换矩阵,aij为第j个节点输入向量hj的权重,eij为第i个节点与第j个节点的相似度,vτ为τ类型节点的权重矩阵,hi为第i个节点输入向量。
更进一步地,类型注意力网络的输出为:
式中,hi′为类型注意力网络第i个节点的输出向量,βi,τ为的权重,mi,τ为τ类型节点对输出向量的贡献程度,Ci为第i个节点邻居节点类型的集合,|Ci|为Ci的元素个数,q为注意力向量,tanh为激励函数,W、b分别为权重和偏置矩阵。
进一步地,对包括节点注意力网络和类型注意力网络的异构图注意力网络进行训练时,基于mask attention机制依次实现以下4个步骤的网络特征传播:
其中,Vc、Vw、Vs分别为字符节点,单词节点和义原节点;HGAT表示异构图注意力网络,GAT表示节点注意力网络,Hc、Hw、Hs分别为字符节点、单词节点和义原节点的矩阵表示,其上标为更新次数,初始矩阵为
进一步地,条件随机场的损失函数为:
Loss=-log10(p(Y|X))
式中,Loss为损失函数,X={x1,x2...,xn}、Y={y1,y2...,yn}分别为输入和输出序列,p(Y|X)为X序列被标记为Y序列的概率,S(X,Y)为得分函数,为标注集合,Y′为任意一个标注,为初始转移得分,为结尾转移得分,为由yi-1转移到yi的得分,为xi标记为yi的得分,Ws、bs分别为权重和偏置矩阵。
与现有技术相比,本发明具有以下有益效果。
本发明利用全分词和依存句法分析相结合,解决了触发词抽取任务中的歧义分词问题。本发明通过融入单词的义原信息,将单词的多个语义信息融合至字符之中,使字符捕获了更为全面的语义信息,解决了中文词语语义歧义性的问题。本发明利用包括节点注意力网络和类型注意力网络的异构图注意力网络,有侧重地捕捉了异构图中邻居节点的特征,提高了中文事件触发词抽取的准确度。
附图说明
图1为本发明的实施例一种中文事件触发词抽取方法的流程图。
图2为义原信息、全分词信息、依存句法信息融合结构图。
图3为触发词抽取流程示意图。
图4为本发明的实施例一种中文事件触发词抽取装置的方框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明白,以下结合附图及具体实施方式对本发明作进一步说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种中文事件触发词抽取方法的流程图,包括以下步骤:
步骤101,对输入文本进行全分词、依存句法分析,提取依存句法分析中未出现的单词的所有义原;
步骤102,对提取的字符、单词、义原进行初始向量化,利用双向长短期记忆网络BiLSTM对每个句子中的字符进行训练,得到每个字符能够记忆其句中前后字符特征的向量表征;
步骤103,将BiLSTM的输出输入到节点注意力网络,有侧重地捕捉与当前节点同一类型邻居节点的特征,将节点注意力网络的输出输入到类型注意力网络,有侧重地捕捉与当前节点不同类型邻居节点的特征;节点类型包括字符节点、单词节点和义原节点;
步骤104,将类型注意力网络的输出输入到一个条件随机场,输出标注序列,实现触发词的抽取。
本实施例给出一种中文事件触发词抽取方法,为便于理解技术方案,先给出几个相关概念的含义。
触发词:事件的核心词,能够判断事件类型。
义原:语义的基本单位,词语的不同语义都可以用不同义原来表示,其本质仍是单词。如:顶点一词具有两个义原:一是界限;二是位置。
依存句法:对句内依存关系进行识别,形成依存句法树。如:“小王买电脑”,其依存句法树为小王←买→电脑,其中小王←买为主谓关系(SBV);买→电脑为动宾关系(VOB)。
本实施例中,步骤101主要用于对输入文本进行预处理,包括全分词、依存句法分析、提取义原等。可利用jieba分词软件进行全分词;利用哈工大LTP进行依存句法分析;利用OpenHowNet实现义原提取。将义原信息、全分词信息、依存句法信息融入图结构中,形成义原增强和依存句法增强的异构图,如图2所示。图2中包含五种类型边:字符(中文的单个汉字)与字符之间的连边;单词(中文的词语)与字符之间的连边;单词与单词之间的连边;单词与义原之间的连边;义原与义原之间的连边。
本实施例中,步骤102主要用于得到每个字符的前后文语义表征。首先,采用最为常用的word2vec方式对字符、单词、义原进行初始向量化;然后,利用BiLSTM对每个句子中的字符进行训练,使每个字符能够记忆其句中前后字符特征,获得更为准确的表征。BiLSTM的处理过程表示如下:
本实施例中,步骤103主要用于利用异构图注意力网络有侧重地捕捉字符、单词和义原的特征。注意力网络是在计算机能力有限的情况下,借鉴人脑的注意力机制,只关心一些关键的信息输入进行处理,来提高神经网络的效率。注意力机制的计算可分为两步:一是在所有输入信息上计算注意力分布;二是根据注意力分布计算输入信息的加权求和。加权系数或权重即注意力分布,表示输入向量与询问向量的相关程度。本实施例的异构图注意力网络包括针对同一类型节点的节点注意力网络和针对不同类型节点的类型注意力网络。先利用节点注意力网络有侧重地捕捉目标节点同一类型邻居节点的特征;再利用类型注意力网络,为目标节点的不同邻居节点类型赋予不同权重,有侧重地捕捉目标节点不同类型邻居节点的特征,完成对目标节点的准确表征。
本实施例中,步骤104主要用于实现触发词的抽取。本实施例将字符节点经异构注意力网络获得的准确表征,输入条件随机场(CRF)得到输出标注序列,完成事件触发词的抽取。条件随机场就是对给定的输出标识序列Y和观察序列X,通过定义条件概率p(Y|X)来描述模型,常用于序列标注、数据分割等自然语言处理任务。本实施例采用字符级BIO标注。BIO标注是将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。如图3的最右端,C1~C6的标注均为“O”,表示不是触发词(Others),C7(击)的标注为“B-攻击”,表示攻击类型触发词的开始(Begin),C8(毙)的标注为“B-死亡”表示死亡类型触发词的开始,攻击和死亡分别表示触发词的类型。
作为一可选实施例,节点注意力网络的输出为:
eij=LeakyReLU(vτ[Wτhi,Wτhj])
式中,为节点注意力网络第i个节点的输出向量,σ、LeakyReLU为激励函数,Nτ,i表示与第i个节点即当前节点相邻的τ类型节点的集合,Wτ为τ类型节点的维度变换矩阵,aij为第j个节点输入向量hj的权重,eij为第i个节点与第j个节点的相似度,vτ为τ类型节点的权重矩阵,hi为第i个节点输入向量。
本实施例给出了节点注意力网络输出的具体表达式。节点注意力网络通过有侧重地捕捉当前节点同类型邻居节点特征,获得对当前节点更为准确的表征。上面的公式是注意力机制的通用计算公式,这里不进行过多说明。节点注意力网络是针对同一类型的节点(字符、单词或义原)进行的有侧重的特征提取。如图3所示,W3代表单词“嫌疑人”,其上方矩形内的W1、W5分别代表单词“贩毒”、“击毙”,是W3相邻的单词类型节点。下方矩形内的C3、C4、C5分别代表字符“嫌”、“疑”、“人”,是与W3相邻的字符类型的节点。单词节点W1、W5和字符节点C3、C4、C5分别输入到一个节点注意网络进行有侧重的特征捕捉。
作为一可选实施例,类型注意力网络的输出为:
式中,hi′为类型注意力网络第i个节点的输出向量,βi,τ为的权重,mi,τ为τ类型节点对输出向量的贡献程度,Ci为第i个节点邻居节点类型的集合,|Ci|为Ci的元素个数,q为注意力向量,tanh为激励函数,W、b分别为权重和偏置矩阵。
本实施例给出了类型注意力网络输出的具体表达式。类型注意力网络是在节点注意力网络之上,给当前节点的不同邻居节点类型赋予不同的权重,有侧重地捕捉不同类型邻居节点的特征,完成对当前节点更为准确的表征。类型注意力网络以节点注意力网络的输出为输入进行注意力计算,如图3所示,两个节点注意力网络的输出W3′、W3″输入到类型注意力网络后输出W3*。上面公式中的Ci表示第i个节点邻居节点类型的集合,|Ci|表示Ci的元素个数,即节点类型数量。如图2所示,如字符节点“嫌”周围包含字符和单词两种节点类型,此时|Ci|=2;义原节点“怀疑”周围包含义原一种节点类型,此时|Ci|=1。
作为一可选实施例,对包括节点注意力网络和类型注意力网络的异构图注意力网络进行训练时,基于mask attention机制依次实现以下4个步骤的网络特征传播:
其中,Vc、Vw、Vs分别为字符节点,单词节点和义原节点;HGAT表示异构图注意力网络,GAT表示节点注意力网络,Hc、Hw、Hs分别为字符节点、单词节点和义原节点的矩阵表示,其上标为更新次数,初始矩阵为
本实施例给出了异构图注意力网络训练进行特征传播的一种技术方案。本实施例基于mask attention机制依次实现从字符到单词VC→VW、从单词到义原VW→VS、从义原到单词VS→VW、从单词到字符VW→VC的4个步骤的网络特征传播。mask attention机制是指通过设计mask矩阵完成对一部分的遮挡,从而实现注意力机制。本实施例中具体指利用mask矩阵在训练过程中遮挡住邻接矩阵中不相关的边,如进行VC→VW层训练时,遮挡住图结构中单词与义原、字符与字符之间的边。上面的第三个表达式中,GAT表示节点注意力网络,这是因为其输入只包含义原一种类型的节点;其它几个表达式的HGAT均表示表示异构图注意力网络,这是因为它们的输入都包含两种不同类型的节点,所以需要进行节点注意力计算和类型注意力计算。
作为一可选实施例,条件随机场的损失函数为:
Loss=-log10(p(Y|X))
式中,Loss为损失函数,X={x1,x2...,xn}、Y={y1,y2...,yn}分别为输入和输出序列,p(Y|X)为X序列被标记为Y序列的概率,S(X,Y)为得分函数,为标注集合,Y′为任意一个标注,为初始转移得分,为结尾转移得分,为由yi-1转移到yi的得分,为xi标记为yi的得分,Ws、bs分别为权重和偏置矩阵。
本实施例给出了条件随机场损失函数的具体表达式。损失函数是用来评价模型的预测值和真实值不一样程度的。损失函数越好,通常模型的性能越好。不同的模型用的损失函数一般也不一样。损失函数分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和实际结果的差别;结构风险损失函数是指经验风险损失函数加上正则项。常见的损失函数有0-1损失函数、绝对值损失函数、对数损失函数和平方损失函数等。其中对数损失函数的优点是能非常好地表征概率分布,逻辑回归等很多应用场景的损失函数均采用对数损失函数。本实施例的条件随机场损失函数就是采用对数损失函数,其大小等于X序列被标记为Y序列的概率p(Y|X)的对数的绝对值,具体计算方法见上面的公式。
图3为本发明实施例一种中文事件触发词抽取装置的组成示意图,所述装置包括:
预处理模块11,用于对输入文本进行全分词、依存句法分析,提取依存句法分析中未出现的单词的所有义原;
初始化模块12,用于对提取的字符、单词、义原进行初始向量化,利用双向长短期记忆网络BiLSTM对每个句子中的字符进行训练,得到每个字符能够记忆其句中前后字符特征的向量表征;
异构注意力模块13,用于将BiLSTM的输出输入到节点注意力网络,有侧重地捕捉与当前节点同一类型邻居节点的特征,将节点注意力网络的输出输入到类型注意力网络,有侧重地捕捉与当前节点不同类型邻居节点的特征;节点类型包括字符节点、单词节点和义原节点;
触发词抽取模块14,用于将类型注意力网络的输出输入到一个条件随机场,输出标注序列,实现触发词的抽取。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。后面的实施例也是如此,均不再展开说明。
作为一可选实施例,节点注意力网络的输出为:
eij=LeakyReLU(vτ[Wτhi,Wτhj])
式中,为节点注意力网络第i个节点的输出向量,σ、LeakyReLU为激励函数,Nτ,i表示与第i个节点即当前节点相邻的τ类型节点的集合,Wτ为τ类型节点的维度变换矩阵,aij为第j个节点输入向量hj的权重,eij为第i个节点与第j个节点的相似度,vτ为τ类型节点的权重矩阵,hi为第i个节点输入向量。
作为一可选实施例,类型注意力网络的输出为:
式中,hi′为类型注意力网络第i个节点的输出向量,βi,τ为的权重,mi,τ为τ类型节点对输出向量的贡献程度,Ci为第i个节点邻居节点类型的集合,|Ci|为Ci的元素个数,q为注意力向量,tanh为激励函数,W、b分别为权重和偏置矩阵。
作为一可选实施例,对包括节点注意力网络和类型注意力网络的异构图注意力网络进行训练时,基于mask attention机制依次实现以下4个步骤的网络特征传播:
其中,Vc、Vw、Vs分别为字符节点,单词节点和义原节点;HGAT表示异构图注意力网络,GAT表示节点注意力网络,Hc、Hw、Hs分别为字符节点、单词节点和义原节点的矩阵表示,其上标为更新次数,初始矩阵为
作为一可选实施例,条件随机场的损失函数为:
Loss=-log10(p(Y|X))
式中,Loss为损失函数,X={x1,x2...,xn}、Y={y1,y2...,yn}分别为输入和输出序列,p(Y|X)为X序列被标记为Y序列的概率,S(X,Y)为得分函数,为标注集合,Y′为任意一个标注,为初始转移得分,为结尾转移得分,为由yi-1转移到yi的得分,为xi标记为yi的得分,Ws、bs分别为权重和偏置矩阵。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种中文事件触发词抽取方法,其特征在于,包括以下步骤:
对输入文本进行全分词、依存句法分析,提取依存句法分析中未出现的单词的所有义原;
对提取的字符、单词、义原进行初始向量化,利用双向长短期记忆网络BiLSTM对每个句子中的字符进行训练,得到每个字符能够记忆其句中前后字符特征的向量表征;
将BiLSTM的输出输入到节点注意力网络,有侧重地捕捉与当前节点同一类型邻居节点的特征,将节点注意力网络的输出输入到类型注意力网络,有侧重地捕捉与当前节点不同类型邻居节点的特征;节点类型包括字符节点、单词节点和义原节点;
将类型注意力网络的输出输入到一个条件随机场,输出标注序列,实现触发词的抽取。
6.一种中文事件触发词抽取装置,其特征在于,包括:
预处理模块,用于对输入文本进行全分词、依存句法分析,提取依存句法分析中未出现的单词的所有义原;
初始化模块,用于对提取的字符、单词、义原进行初始向量化,利用双向长短期记忆网络BiLSTM对每个句子中的字符进行训练,得到每个字符能够记忆其句中前后字符特征的向量表征;
异构注意力模块,用于将BiLSTM的输出输入到节点注意力网络,有侧重地捕捉与当前节点同一类型邻居节点的特征,将节点注意力网络的输出输入到类型注意力网络,有侧重地捕捉与当前节点不同类型邻居节点的特征;节点类型包括字符节点、单词节点和义原节点;
触发词抽取模块,用于将类型注意力网络的输出输入到一个条件随机场,输出标注序列,实现触发词的抽取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110647875.0A CN113468884B (zh) | 2021-06-10 | 2021-06-10 | 一种中文事件触发词抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110647875.0A CN113468884B (zh) | 2021-06-10 | 2021-06-10 | 一种中文事件触发词抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113468884A true CN113468884A (zh) | 2021-10-01 |
CN113468884B CN113468884B (zh) | 2023-06-16 |
Family
ID=77869580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110647875.0A Active CN113468884B (zh) | 2021-06-10 | 2021-06-10 | 一种中文事件触发词抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468884B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116386895A (zh) * | 2023-04-06 | 2023-07-04 | 之江实验室 | 基于异构图神经网络的流行病舆情实体识别方法与装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080270384A1 (en) * | 2007-04-28 | 2008-10-30 | Raymond Lee Shu Tak | System and method for intelligent ontology based knowledge search engine |
CN102831236A (zh) * | 2012-09-03 | 2012-12-19 | 苏州大学 | 中文事件触发词的扩展方法及系统 |
CN108829801A (zh) * | 2018-06-06 | 2018-11-16 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
CN108897989A (zh) * | 2018-06-06 | 2018-11-27 | 大连理工大学 | 一种基于候选事件元素注意力机制的生物事件抽取方法 |
CN110134925A (zh) * | 2019-05-15 | 2019-08-16 | 北京信息科技大学 | 一种中文专利文本相似度计算方法 |
CN111209749A (zh) * | 2020-01-02 | 2020-05-29 | 湖北大学 | 一种将深度学习应用于中文分词的方法 |
US20200311196A1 (en) * | 2019-03-26 | 2020-10-01 | Tencent America LLC | Automatic lexical sememe prediction system using lexical dictionaries |
CN111914067A (zh) * | 2020-08-19 | 2020-11-10 | 苏州思必驰信息科技有限公司 | 中文文本匹配方法及系统 |
CN112163416A (zh) * | 2020-10-09 | 2021-01-01 | 北京理工大学 | 一种融合句法和实体关系图卷积网络的事件联合抽取方法 |
CN112464673A (zh) * | 2020-12-09 | 2021-03-09 | 哈尔滨工程大学 | 融合义原信息的语言含义理解方法 |
CN112579794A (zh) * | 2020-12-25 | 2021-03-30 | 清华大学 | 一种为中英文单词对预测义原树的方法及系统 |
-
2021
- 2021-06-10 CN CN202110647875.0A patent/CN113468884B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080270384A1 (en) * | 2007-04-28 | 2008-10-30 | Raymond Lee Shu Tak | System and method for intelligent ontology based knowledge search engine |
CN102831236A (zh) * | 2012-09-03 | 2012-12-19 | 苏州大学 | 中文事件触发词的扩展方法及系统 |
CN108829801A (zh) * | 2018-06-06 | 2018-11-16 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
CN108897989A (zh) * | 2018-06-06 | 2018-11-27 | 大连理工大学 | 一种基于候选事件元素注意力机制的生物事件抽取方法 |
US20200311196A1 (en) * | 2019-03-26 | 2020-10-01 | Tencent America LLC | Automatic lexical sememe prediction system using lexical dictionaries |
CN110134925A (zh) * | 2019-05-15 | 2019-08-16 | 北京信息科技大学 | 一种中文专利文本相似度计算方法 |
CN111209749A (zh) * | 2020-01-02 | 2020-05-29 | 湖北大学 | 一种将深度学习应用于中文分词的方法 |
CN111914067A (zh) * | 2020-08-19 | 2020-11-10 | 苏州思必驰信息科技有限公司 | 中文文本匹配方法及系统 |
CN112163416A (zh) * | 2020-10-09 | 2021-01-01 | 北京理工大学 | 一种融合句法和实体关系图卷积网络的事件联合抽取方法 |
CN112464673A (zh) * | 2020-12-09 | 2021-03-09 | 哈尔滨工程大学 | 融合义原信息的语言含义理解方法 |
CN112579794A (zh) * | 2020-12-25 | 2021-03-30 | 清华大学 | 一种为中英文单词对预测义原树的方法及系统 |
Non-Patent Citations (6)
Title |
---|
DONGFENG CAI: "A Statistical Approach to Semantic Analysis for Chinese Terms", 《2014 IEEE INTERNATIONAL CONFERENCE ON SEMANTIC COMPUTING》, pages 248 - 249 * |
万齐智: "基于句法语义依存分析的中文金融事件抽取", 《计算机学报》, vol. 44, no. 03, pages 508 - 530 * |
余辉: "基于深度学习的中文临床指南事件抽取研究", 《中国优秀硕士学位论文全文数据库》, no. 5, pages 054 - 20 * |
吴文涛: "基于表示学习的事件抽取方法研究", 《中国优秀硕士学位论文全文数据库》, no. 04, pages 138 - 564 * |
申越: "基于神经网络的文本语义相似性判别方法研究", 《中国优秀硕士学位论文全文数据库》, no. 3, pages 138 - 914 * |
闫强: "原相似度的关键词抽取方法", 《数据分析与知识发现》, vol. 5, no. 4, pages 80 - 89 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116386895A (zh) * | 2023-04-06 | 2023-07-04 | 之江实验室 | 基于异构图神经网络的流行病舆情实体识别方法与装置 |
CN116386895B (zh) * | 2023-04-06 | 2023-11-28 | 之江实验室 | 基于异构图神经网络的流行病舆情实体识别方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113468884B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106980683B (zh) | 基于深度学习的博客文本摘要生成方法 | |
CN113641586B (zh) | 软件源代码缺陷检测方法、系统、电子设备及储存介质 | |
CN111783474B (zh) | 一种评论文本观点信息处理方法、装置及存储介质 | |
US20200012953A1 (en) | Method and apparatus for generating model | |
CN110347894A (zh) | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN109918560A (zh) | 一种基于搜索引擎的问答方法和装置 | |
CN110232122A (zh) | 一种基于文本纠错与神经网络的中文问句分类方法 | |
CN106796600A (zh) | 相关项目的计算机实现的标识 | |
Cai et al. | Intelligent question answering in restricted domains using deep learning and question pair matching | |
CN108874896B (zh) | 一种基于神经网络和幽默特征的幽默识别方法 | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN111966812A (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN104391969B (zh) | 确定用户查询语句句法结构的方法及装置 | |
Xiong et al. | DGI: recognition of textual entailment via dynamic gate matching | |
CN111967267B (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN112183881A (zh) | 一种基于社交网络的舆情事件预测方法、设备及存储介质 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN116402066A (zh) | 多网络特征融合的属性级文本情感联合抽取方法及系统 | |
CN112507124A (zh) | 一种基于图模型的篇章级别事件因果关系抽取方法 | |
CN112948505A (zh) | 一种实体关系分类的模型构建方法、设备及存储介质 | |
CN115775349A (zh) | 基于多模态融合的假新闻检测方法和装置 | |
CN114417823A (zh) | 一种基于句法和图卷积网络的方面级情感分析方法及装置 | |
Lhasiw et al. | A bidirectional LSTM model for classifying Chatbot messages | |
CN113779249A (zh) | 跨领域文本情感分类方法、装置、存储介质以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |