CN107122416B - 一种中文事件抽取方法 - Google Patents

一种中文事件抽取方法 Download PDF

Info

Publication number
CN107122416B
CN107122416B CN201710209305.7A CN201710209305A CN107122416B CN 107122416 B CN107122416 B CN 107122416B CN 201710209305 A CN201710209305 A CN 201710209305A CN 107122416 B CN107122416 B CN 107122416B
Authority
CN
China
Prior art keywords
word
event
vector
chinese text
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710209305.7A
Other languages
English (en)
Other versions
CN107122416A (zh
Inventor
曾颖
杨宏辉
冯岩松
贾爱霞
赵东岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201710209305.7A priority Critical patent/CN107122416B/zh
Publication of CN107122416A publication Critical patent/CN107122416A/zh
Application granted granted Critical
Publication of CN107122416B publication Critical patent/CN107122416B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种中文事件抽取方法。本方法为:1)对待抽取的中文文本进行实体识别,将识别出来的实体作为事件元素的候选词;对该中文文本逐字进行标注,然后根据标注结果,结合标注模式,识别该中文文本中的事件触发词以及该中文文本所描述的事件类型;2)将该中文文本、事件元素的候选词、事件触发词以及事件类型输入到分类模型中,判断每一所述候选词是否为真实的事件元素;3)根据上述得到的事件元素、事件触发词及事件类型,得到完整的事件结构,完成事件抽取。本发明解决了中文事件抽取中事件触发词和文本中的词语不完全匹配的问题,并提高了中文事件抽取的准确性。

Description

一种中文事件抽取方法
技术领域
本发明主要涉及自然语言处理领域,特别涉及一种利用神经网络和条件随机场进行中文事件抽取的方法,属于信息抽取技术领域。
背景技术
随着互联网的普及和发展,网络中的信息规模呈爆炸式地增长,如何从海量自然语言文档中及时准确地找到需要的信息变得日益迫切。信息抽取技术(InformationExtraction,IE)从松散、无结构的普通文本中抽取指定类型的实体、关系、事件等事实信息,并输出结构化的数据。其中,事件抽取(Event Extraction)是信息抽取研究中最具挑战性的任务之一,其主要研究如何从非结构化自然语言文本中抽取出事件的基本信息,例如事件的类型,事件的参与者,发生时间和地点等,并以结构化的形式呈现出来。
事件抽取技术具有广阔的应用场景和重要的现实意义。例如,根据用户感兴趣的话题推送相关事件的周边报道可以提高个性化新闻系统的表现。除了互联网领域,事件抽取还可以辅助其他领域研究。在医疗领域,利用事件抽取器可以从语料库中提取类似蛋白质分子行为的生物学事件;在金融领域,利用事件抽取技术实时监测突发经济新闻,如公司的兼并和收购,股票交易,分红等,帮助决策者迅速应对市场变化。
一些信息抽取领域的国际评测会议,如信息理解研讨会(Message Understandingfor Comprehension,MUC)、自动内容抽取评测(Automatic ContentExtraction,ACE)、文本分析会议(TextAhalysis Conference,TAC)等,针对事件抽取提出了一系列的理论,并推出了一些实用的系统框架。其中,自动内容抽取评测会议是事件抽取领域最有影响的评测会议,目前大多数的研究都是围绕该会议提出的事件抽取框架展开的。ACE 2005会议定义了8种事件类别及33种子类别,35种角色。ACE还为每种事件类别制定了唯一的模板,主要包括事件的参与者和能反应事件特征的属性,部分事件类型及其模板如表1所示。
表1 ACE 2005任务定义的事件模板
Figure BDA0001260625620000011
Figure BDA0001260625620000021
在ACE事件抽取框架中,一个事件由一个事件触发词(trigger)、一种事件类型和若干事件元素组成。其中,事件触发词是指文本中最能体现事件发生的词语,事件元素包含了事件的属性和参与者。根据上述定义,事件抽取任务可以分成两个子任务,分别是:事件触发词及类型的识别,和事件元素的识别。例如,对文本“Intel在中国成立了研究中心”进行事件抽取,第一步应该将“成立”识别成触发词,其触发了一个“成立机构”类型的事件;第二步应该将“Intel”、“中国”和“研究中心”识别成事件元素,其角色分别为“设立方”、“地点”和“被成立机构”。
主流的ACE事件抽取技术可以分别两大类:基于特征抽取的传统方法和基于神经网络的方法。基于特征抽取的传统方法把每个子任务都看成一个词分类问题,利用自然语言处理工具提取候选词及其上下文的词义特征和句法特征,并构建特征向量,作为分类器的输入。接下来,在训练阶段,通过传统机器学习方法,例如最大熵模型、支持向量机模型等,学习各种特征的权重以最优化目标函数,并得出分类器。最后,在测试阶段,将测试文本中的每个词视为一个候选触发词(或事件元素),分类器的分类结果就是最终的识别结果。基于神经网络的方法同样将每个子任务视为词分类问题,但是通过神经网络自动学习和表征与事件抽取相关的特征。相比于基于特征抽取的方法,基于神经网络的方法的优势在于:(1)不需要花费大量的时间去精心设计和实验验证人工设计的特征;(2)不需要借助其他自然语言处理工具(词性标注器、命名实体识别器、句法分析器等),避免了误差传递。
但是,现有的基于神经网络的方法都没有考虑到中文自然语言处理的特性,因而无法处理事件触发词和文本中的词语不完全匹配的特殊情况。例如,“击毙”一词中“击”和“毙”分别触发了“攻击”和“死亡”两个事件;“凶杀案”一词中“凶杀”是“死亡”事件的触发词。如果将事件触发词的识别任务直接视为词分类问题(即判断“击毙”和“凶杀案”是否为事件触发词),无法正确识别以上触发词。因此,现有的事件抽取技术中存在着缺陷,不能满足中文事件抽取的需求。
发明内容
本发明提供一种利用神经网络和条件随机场进行事件抽取的方法,同时解决了中文事件抽取中事件触发词和文本中的词语不完全匹配的问题,并提高了中文事件抽取的准确性。
第一方面,本发明提供一种解决事件触发词和文本中的词语不完全匹配问题的方案。将事件抽取的第一个子任务,即事件触发词及类型的识别,转化为字序列标注问题,即对句子中的每个字,而非词进行分类标注。
第二方面,本发明提供一种基于神经网络和条件随机场的事件抽取系统。其步骤包括:
(1)使用LSTM-CNN-CRF模型进行事件触发词及类型的识别;
(2)事件元素候选词的筛选;
(3)使用LSTM-CNN模型事件元素的识别。
其中,LSTM-CNN-CRF神经网络模型的结构如下:
(1)神经网络的输入层:文本中每个字的字向量;
(2)利用双向长短期记忆神经网络(Bidirectional Long Short-Term MemoryNetwork,B-LSTM)记忆历史输入信息的能力,得到表征每个字上下文环境的特征向量;
(3)利用卷积神经网络(Convolutional Neural Network,CNN)捕获局部特征的能力,抽取字附近的语义特征向量;
(4)神经网络的输出层:对文本中每个字,将B-LSTM网络得到的表征其上下文环境的特征向量和CNN网络输出表征其语义特征的向量拼接起来,并通过一个全连接层得到输出矩阵;
(5)使用条件随机场(Conditional Random Field, CRF)模型对神经网络的输出矩阵进行解码,获得全局最优标注序列。
LSTM-CNN神经网络模型的结构如下:
(1)神经网络的输入层:文本中每个字的字向量;
(2)利用B-LSTM网络得到表征句子信息的特征向量;
(3)利用CNN网络抽取句子的语义特征向量;
(4)神经网络的输出层:将两类网络得到的特征向量拼接起来,并通过一个Softmax回归层(Softmax regression)得到分类结果。
本发明的技术方案为:
一种中文事件抽取方法,其步骤为:
1)对待抽取的中文文本进行实体识别,将识别出来的实体作为事件元素的候选词;对该中文文本逐字进行标注,然后根据标注结果,结合标注模式,识别该中文文本中的事件触发词以及该中文文本所描述的事件类型;
2)将该中文文本、事件元素的候选词、事件触发词以及事件类型输入到分类模型中,判断每一所述候选词是否为真实的事件元素;
3)根据上述得到的事件元素、事件触发词及事件类型,得到完整的事件结构,完成事件抽取。
进一步的,识别该中文文本中的事件触发词以及该中文文本所描述的事件类型的方法为:
21)将该中文文本中每个字的字向量输入双向长短期记忆神经网络,训练得到表征每个字上下文信息的特征向量ht
22)利用卷积神经网络抽取每个字附近的语义特征向量ct
23)将该中文文本中每个字wt对应的特征向量ht和语义特征向量ct拼接起来,并通过一个全连接网络层,得到一特征向量ot;然后将该中文文本中各字的特征向量ot组合得到一输出矩阵;
24)使用条件随机场模型对该输出矩阵进行解码,获得全局最优标注序列;
25)结合标注模式和标注序列,事件触发词及其事件类型。
进一步的,得到所述特征向量ht的方法为:
31)设该中文文本长为n,wt是其中第t个字,且其对应的字向量为xt
32)将该句子X中的字向量逐个输入到单层长短期记忆网络中,得到每个字wt的前文特征
向量
Figure BDA0001260625620000041
33)将该句子X中的字向量逆向输入到另一个长短期记忆网络网络中,得到每个字wt的后文特征向量
Figure BDA0001260625620000042
34)将每个字wt的前文特征向量
Figure BDA0001260625620000043
后文特征向量
Figure BDA0001260625620000044
拼接起来,即
Figure BDA0001260625620000045
作为字wt的上下文特征向量ht
进一步的,得到所述语义特征向量ct的方法为:
41)设该中文文本长为n,wt是其中第t个字,且其对应的上下文矩阵由其前后k个字的字向量拼接而成,该上下文矩阵的每一行表示一个字向量;利用卷积神经网络对每个字的上下文矩阵进行卷积操作和最大池化操作,得到对应字wt的特征向量
Figure BDA0001260625620000046
42)对于每一字wt,变化其对应的上下文窗口大小ki,得到不同长度上下文的语义特征向量
Figure BDA0001260625620000047
43)将得到的各ki对应的特征向量
Figure BDA0001260625620000048
拼接起来得到字wt附近的语义特征向量ct
进一步的,使用word2vec模型得到该中文文本每个字的字向量。
进一步的,判断每一所述候选词是否为真实的事件元素的方法为:
61)设该中文文本长为n,wt是其中第t个字;将该中文文本中每一字wt在事件元素的候选词、候选词的实体类型、事件触发词以及事件类型的取值与该字wt的字向量zt拼接,作为字wt的输入向量xt
62)将该中文文本中各字的输入向量xt依次输入双向长短期记忆神经网络,将正向长短期记忆神经网络最后时刻的输出向量
Figure BDA0001260625620000051
和反向长短期记忆神经网络最后时刻的输出向量
Figure BDA0001260625620000052
拼接起来作为表征该中文文本的特征向量
Figure BDA0001260625620000053
63)将该中文文本中各字的输入向量{x1,x2...xn}拼接而成一个大小为n×|xt|的句子矩阵,其中|xt|表示输入向量的长度;矩阵的每一行表示文本中一个字的输入向量,通过卷积神经网络对该句子矩阵进行卷积操作和最大池化操作,得到表征该中文文本的语义信息的特征向量c;
64)将得到的所述特征向量h、特征向量c拼接并输入双向长短期记忆神经网络的全连接层,得到每一候选词的类别,根据候选词的类别确定该候选词是否为真实的事件元素。
进一步的,使用BIO模式标注该中文文本中的每个字。
本发明的有益效果:
本发明在进行事件抽取时,将事件触发词及类型的识别和事件元素的识别分别视为字序列标注任务和词分类任务。此外,本发明结合神经网络和条件随机场的特性,提出基于神经网络和条件随机场进行事件抽取的模型。本发明能提高中文事件抽取的准确性,同时克服了基于特征抽取的传统机器学习方法对人工设计的特征的依赖,和其他基于神经网络的方法无法处理和分词结果不完全匹配的触发词的不足。
附图说明
图1为本发明实施例中基于神经网络和条件随机场的中文事件抽取方法的框架图示;
图2为本发明实施例中用于事件触发词和事件类型识别基于神经网络和条件随机场的LSTM-CNN-CRF模型具体图示;
图3为本发明实施例中基于神经网络和条件随机场的LSTM-CNN-CRF模型中CNN模块的具体图示;
图4为本发明实施例中用于事件元素识别的LSTM-CNN模型具体图示。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行详细地描述,应说明的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实例是基于ACE 2005这一中文事件评测任务,本领域技术人员应该清楚地明白,在具体实施过程中也可以采用其他类似的,基于预定义的模板开展事件抽取的语料库,例如TAC-KBP 2016中文事件评测数据集。
图1是本发明实施例基于神经网络和条件随机场的事件抽取方法的框架图示,本发明基于神经网络和条件随机场的事件抽取方法包括:
1)事件触发词及类型的识别:将待抽取的中文文本,逐字输入LSTM-CNN-CRF序列标注模型中,并根据标注结果,结合标注模式,找到文本中的事件触发词,得出文本所描述的事件类型。
2)事件元素候选词的筛选:对待抽取的未标注中文文本进行实体识别,识别出来的实体作为事件元素的候选词。
3)事件元素的识别:将待抽取的未标注中文文本、文本中的事件触发词、文本所描述的事件类型以及文本中的每一个事件元素候选词,输入到LSTM-CNN分类模型中,判断该候选词是否为真实的事件元素,并判断其所扮演的角色。
整合上述步骤抽取的事件触发词、事件类型、事件元素得到完整的事件结构,完成事件抽取。
本发明实施例基于神经网络和条件随机场的事件抽取方法的具体模型和实施步骤如图2、图3和图4所示,其中图2的LSTM-CNN-CRF模型用于事件触发词及类别的识别(即步骤101),图3为LSTM-CNN-CRF模型中卷积神经网络的具体实现,图4的LSTM-CNN模型用于事件元素的识别(即步骤103):
步骤101:事件触发词及类型的识别。
本发明使用BIO模式标注文本中的每个字。B-type表示当前字是触发词的第一个字,且触发词触发的事件类型为type;I-type表示当前字位于触发词中,且触发词触发的事件类型为type;O表示当前字不在任何触发词中。例如,输入文本“Intel在中国成立了研究中心”的标注结果如下:
Intel/O在/O中/O国/O成/B-成立机构立/I-成立机构了/O研/O究/O中/O心/O。/O
则该文本中“成”字和“立”字分别位于触发词的首部和中间,即该文本中的事件触发词为“成立”,且其触发的事件类型type为“成立机构”。
步骤1011:初始化字向量。本实施例使用word2vec模型在大型中文新闻语料上学习得到字向量。
步骤1012:利用双向长短期记忆神经网络(Bidirectional Long Short-TermMemory Network,B-LSTM)得到表征每个字上下文信息的特征向量ht
给定一条长为n的句子X=(w1,w2,..wt,...,wn),其中wt是句子中的第t个字,且其对应的字向量为xt(1≤t≤n)。
将句子中的字向量逐个输入到单层长短期记忆网络中,得到每个字wt的前文特征向量
Figure BDA0001260625620000071
本实施例中LSTM网络对输入的字向量xt进行如下计算:
Figure BDA0001260625620000072
Figure BDA0001260625620000073
Figure BDA0001260625620000074
Figure BDA0001260625620000075
Figure BDA0001260625620000076
Figure BDA0001260625620000077
其中σ为sigmoid函数,
Figure BDA0001260625620000078
为逐点乘法,W*和b*为神经网络的参数。
采用相似的形式,将句子再逆向输入到另一个长短期记忆网络网络中,计算得字wt的后文特征向量
Figure BDA0001260625620000079
第一个LSTM网络称为前向LSTM神经网络(forward LSTM),第二个LSTM网络称为反向LSTM神经网络(backward LSTM)。这两个网络的W*和b*参数含义和训练方式相同,但是各网络的神经单元之间不共享参数,因此参数的取值不同。对输入的字向量xt,前向LSTM网络和后向LSTM网络分别通过自己的W*和b*参数计算输出向量
Figure BDA00012606256200000710
Figure BDA00012606256200000711
并将两个网络的输出拼接起来,即
Figure BDA00012606256200000712
作为字wt的上下文特征向量。
步骤1013:利用卷积神经网络(Convolutional Neural Network,CNN)抽取每个字附近的语义特征向量ct
给定一条长为n的句子X=(w1,w2,...,wn),其中wt是句子中的第t个字,且其对应的上下文矩阵由其前后k个字的字向量拼接而成,即xt-k:t+k=[xt-k;...;xt;...;xt+k](1≤t≤n),矩阵的每一行表示一个字向量。每个字的上下文矩阵xt-k:t+k通过卷积神经网络的卷积操作和最大池化操作(max-pooling),得到特征向量
Figure BDA00012606256200000713
变化上下文窗口的大小,即k={k1,...,k2},得到不同长度上下文的语义特征向量
Figure BDA00012606256200000714
将所有ki对应的特征向量
Figure BDA00012606256200000715
拼接起来得到字wt附近的语义特征向量ct。本实施例中使用的k为2和3,即
Figure BDA00012606256200000716
步骤1014:对一条输入文本中每个字wt,将长短期记忆神经网络层的输出ht和卷积神经网络层的输出ct拼接起来,并通过一个全连接网络层,得到最终的d维特征向量ot,d表示标签的种数。
将所有字的特征向量组合得到神经网络模型的输出矩阵
Figure BDA0001260625620000081
其中θ为神经网络的参数,
Figure BDA0001260625620000082
为输入的句子,矩阵简写作fθ,大小为n×d。矩阵的第t个列向量为字wt的特征向量ot,矩阵中的元素[fθ]i,t表示第t个字wt的标签为i的得分。
步骤1015:使用条件随机场(ConditionalRandom Field,CRF)模型对神经网络的输出矩阵进行解码,获得全局最优标注序列。
CRF层的参数为一个状态转移矩阵A。[A]i,j表示任一时刻,从标签i转移到标签j的得分。因此,LSTM-CNN-CRF网络的参数
Figure BDA0001260625620000083
给定句子
Figure BDA0001260625620000084
其标注序列为
Figure BDA0001260625620000085
的得分为
Figure BDA0001260625620000086
使用维特比算法(Viterbi)解码求得得分最高的标注序列
Figure BDA0001260625620000087
作为步骤101的输出结果。根据BIO模式的定义,根据标注序列,即可得到事件触发词及其事件类型。
步骤102:事件元素候选词的筛选。
本实施例使用ACE 2005的中文事件抽取数据集,该数据集已标注了文本中的实体,因此在该步骤中可以省略实体识别。对于没有预先进行实体识别的语料,需要使用额外的实体识别工具进行实体识别。例如,文本“Intel在中国成立了研究中心”的实体有:
{Intel:机构实体,中国:国家实体,研究中心:机构实体}
步骤103:事件元素的识别。
根据步骤101的输出结果(文本中的触发词和描述事件的类型),以及步骤102的输出结果(文本中的候选事件元素),通过LSTM-CNN模型对候选事件元素进行分类,如果候选事件元素没有参与事件,则其类别为“NONE”,否则为在事件中扮演的角色。需要注意的是,不同于上述步骤101中的事件触发词识别任务,本发明将事件元素的识别任务依然看作分类任务,而不是序列标注任务。
本实施例中,触发词trigger=“成立”,事件类型eventType=“成立机构”,候选的事件元素有entityList={Intel:机构实体,中国:国家实体,研究中心:机构实体}。对entityList中的每一个候选事件元素,分别将其实体类型和触发词、事件类型作为特征输入到LSTM-CNN模型中,分类结果如表2所示。
表2实施例关于事件元素识别的输入输出
Figure BDA0001260625620000091
步骤1031:将当前字wt与事件元素的候选词、候选词的实体类型、事件触发词及事件类型的关系的取值通过查哈希表(look-up table)的方法转换成特征向量,并与该字的字向量zt拼接起来,作为字wt的输入向量xt
本实施例中,字wt特征向量所表征的输入信息包括:
(1)inEntity:当前字wt是否在事件元素的候选词中,取值为False或True;
(2)entityType:当前字wt所在事件元素的候选词的实体类型,如果当前字不在实体中,则取值为“NONE”;
(3)inTrigger:当前字wt是否在事件触发词中,取值为False或True;
(4)triggerType:当前字wt所在的触发词的事件类型,如果当前字不在触发词中,则取值为“NONE”。
将上述信息分别通过各自的look-up table(哈希表将输入信息的取值转成向量,因为有4类输入信息,关于每类信息都有一个哈希表,也就是4个哈希表)转化成特征向量,xinEntity、xentityType、xinTrigger和xtriggerType,再拼上当前字wt的字向量zt,得到神经网络的输入向量xt,即
xt=[xinEntity,xentityType,xinTrigger,xtriggerType,zt]
步骤1032:利用双向长短期记忆神经网络得到表征文本信息的特征向量h。
本实施例中LSTM单元内部的计算公式和步骤1012一样。将正向LSTM网络最后时刻的输出向量
Figure BDA0001260625620000092
和反向LSTM网络最后时刻的输出向量
Figure BDA0001260625620000093
拼接起来作为文本的特征向量
Figure BDA0001260625620000094
步骤1033:利用卷积神经网络得到表征文本语义信息的特征向量c。
给定一条长为n的句子X=(w1,w2,...,wn),将句子里所有字的输入向量{x1,x2...xn}拼接而成一个大小为n×|xt|的句子矩阵,其中|xt|表示输入向量的长度,即x1:n=[x1;...;xt;...;xn],矩阵的每一行表示文本中一个字的输入向量。将句子矩阵x1:n通过卷积神经网络的卷积操作和最大池化操作(max-pooling),得到特征向量c。
步骤1034:将双向LSTM网络和CNN网络输出的文本的特征向量h和c拼接起来,传入全连接层,得到每一候选词的类别,根据候选词的类别确定该候选词是否为真实的事件元素。
通过上述三个步骤之后,整理第一步和第三步的输出结果,可以得到最终的事件结构。以下举例说明本发明基于神经网络和条件随机场模型进行中文事件抽取的性能。
实验使用ACE 2005数据集作为训练和测试语料,该数据集包含633篇标注文本。因为该语料库没有标准的测试集和训练集的划分,为了获得更准确的实验评价,本发明采用五折交叉验证:将整个语料库等分成五份,依次选择一份做测试集,剩下的四份,随机选择一份做验证集,其余三份做训练集。实验从以下三个方面评价事件抽取模型:
(1)事件触发词的识别:一个触发词是否被正确标注
(2)事件类别的识别:一个事件的类别被正确识别当且仅当事件的触发词被正确识别,且该触发词触发的事件类型被正确识别;
(3)事件元素的识别:事件的一个候选元素被正确识别当且仅当其对应的事件的触发词、事件的类别被正确识别,且改候选元素被正确识别成事件中的角色。
本发明使用正确率(P)、召回率(R)和F1值来衡量这三个方面的表现。现有方法和本发明所描述的方法的测试结果对比如表3:
表3实验结果
Figure BDA0001260625620000101
表3中前三行是已有方法的结果,最后两行是本发明的结果(在五份测试集上的实验结果的平均值),其中Baseline在事件触发词和类别的识别中采用的是LSTM-CNN模型对词进行分类;LSTM-CNN-CRF是本发明的完整实现。Char-MEMM和Rich-L模型都是基于特征抽取的传统机器学习方法;HNN模型是基于神经网络的事件检测方法。需要说明的是,Char-MEMM和HNN模型在实验过程中使用的是随机划分的数据集。在本发明的实验过程中发现,随机抽取不同的文章组成测试集,得到的结果差异非常大,因此采用交叉验证评价模型更加严谨。虽然本发明的实验结果无法直接和此模型进行比较,但是本发明在三份测试集上的表现超过了HNN。从实验结果可以看出,本发明的效果要明显好于基于特征抽取的传统模型,同时在部分数据上,也能超越现有的基于神经网络的模型。同时,将事件触发词和类别的识别这一子任务转换成子序列标注任务,效果要好于将其转化成词分类任务的方法,说明本发明能有效解决中文事件触发词识别时,文本中触发词和分词结果不完全匹配的问题。
综上所述,本发明实施例中,以ACE 2005评测数据集为例,通过基于神经网络和条件随机场的模型抽取出事件的结构化信息,实现了准确有效的事件抽取。此外,在识别事件的触发词和类型的子任务中,为了解决触发词和文本分词结果不能完全匹配的问题,将文本看作字序列并对其进行标注,弥补了现有方法的不足,从而提高了事件抽取任务整体的表现。
最后,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。假如对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.一种基于神经网络和条件随机场的中文事件抽取方法,其步骤为:
1)对待抽取的中文文本进行实体识别,将识别出来的实体作为事件元素的候选词;对该中文文本逐字进行标注,然后根据标注结果,结合标注模式,采用LSTM-CNN-CRF模型识别该中文文本中的事件触发词以及该中文文本所描述的事件类型;其中,
11)将该中文文本中每个字的字向量输入双向长短期记忆神经网络,训练得到表征每个字上下文信息的特征向量;
12)利用卷积神经网络抽取每个字附近的语义特征向量;
13)将该中文文本中每个字对应的特征向量和语义特征向量拼接起来,并通过一个全连接网络层,得到一特征向量;然后将该中文文本中各字的特征向量组合得到一输出矩阵;其中该中文文本中第t个字wt对应的特征向量为ht、语义特征向量为ct,特征向量ht与语义特征向量ct拼接起来,并通过一个全连接网络层,得到一特征向量ot
14)使用条件随机场模型对该输出矩阵进行解码,获得全局最优标注序列;
15)结合标注模式和标注序列,得到候选词的事件触发词及其事件类型;
2)将该中文文本、事件元素的候选词、事件触发词以及事件类型输入到分类模型中,判断每一所述候选词是否为真实的事件元素;其中判断每一所述候选词是否为真实的事件元素的方法为:21)设该中文文本长为n,将该中文文本中wt在事件元素的候选词、候选词的实体类型、事件触发词以及事件类型的取值与该字wt的字向量zt拼接,作为字wt的输入向量xt,t=1~n;22)将该中文文本中各字的输入向量依次输入双向长短期记忆神经网络,将正向长短期记忆神经网络最后时刻的输出向量
Figure FDA0002976335180000011
和反向长短期记忆神经网络最后时刻的输出向量
Figure FDA0002976335180000012
拼接起来作为表征该中文文本的特征向量
Figure FDA0002976335180000013
23)将该中文文本中各字的输入向量{x1,x2…xn}拼接而成一个大小为n×|xt|的句子矩阵,其中|xt|表示输入向量的长度;矩阵的每一行表示文本中一个字的输入向量,通过卷积神经网络对该句子矩阵进行卷积操作和最大池化操作,得到表征该中文文本的语义信息的特征向量c;24)将得到的所述特征向量h、特征向量c拼接并输入双向长短期记忆神经网络的全连接层,得到每一候选词的类别,根据候选词的类别确定该候选词是否为真实的事件元素;
3)根据步骤24)得到的候选词的事件元素、步骤15)得到的候选词的事件触发词及事件类型,得到完整的事件结构,完成事件抽取。
2.如权利要求1所述的方法,其特征在于,得到所述特征向量ht的方法为:
31)将该中文文本中的一个句子X中wt对应的字向量输入到单层长短期记忆网络中,得到wt的前文特征向量
Figure FDA0002976335180000021
33)将该句子X中wt对应的字向量逆向输入到另一个长短期记忆网络中,得到wt的后文特征向量
Figure FDA0002976335180000022
34)将前文特征向量
Figure FDA0002976335180000023
后文特征向量
Figure FDA0002976335180000024
拼接起来,即
Figure FDA0002976335180000025
作为字wt的上下文特征向量ht
3.如权利要求1所述的方法,其特征在于,得到所述语义特征向量ct的方法为:
41)设wt对应的上下文矩阵由其前后k个字的字向量拼接而成,该上下文矩阵的每一行表示一个字向量;利用卷积神经网络对每个字的上下文矩阵进行卷积操作和最大池化操作,得到对应字wt的特征向量
Figure FDA0002976335180000026
42)对于字wt,变化其对应的上下文窗口大小ki,得到不同长度上下文的语义特征向量
Figure FDA0002976335180000027
43)将得到的各ki对应的特征向量
Figure FDA0002976335180000028
并接起来得到字wt附近的语义特征向量ct
4.如权利要求1所述的方法,其特征在于,使用word2vec模型得到该中文文本每个字的字向量。
5.如权利要求1~4任一所述的方法,其特征在于,使用BIO模式标注该中文文本中的每个字。
CN201710209305.7A 2017-03-31 2017-03-31 一种中文事件抽取方法 Active CN107122416B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710209305.7A CN107122416B (zh) 2017-03-31 2017-03-31 一种中文事件抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710209305.7A CN107122416B (zh) 2017-03-31 2017-03-31 一种中文事件抽取方法

Publications (2)

Publication Number Publication Date
CN107122416A CN107122416A (zh) 2017-09-01
CN107122416B true CN107122416B (zh) 2021-07-06

Family

ID=59724910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710209305.7A Active CN107122416B (zh) 2017-03-31 2017-03-31 一种中文事件抽取方法

Country Status (1)

Country Link
CN (1) CN107122416B (zh)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832765A (zh) * 2017-09-13 2018-03-23 百度在线网络技术(北京)有限公司 对包括文字内容和图像内容的图片识别
KR102424540B1 (ko) * 2017-10-16 2022-07-25 삼성전자주식회사 문장 생성 모델의 업데이트 방법 및 문장 생성 장치
CN107797989A (zh) * 2017-10-16 2018-03-13 平安科技(深圳)有限公司 企业名称识别方法、电子设备及计算机可读存储介质
CN107773982B (zh) * 2017-10-20 2021-08-13 科大讯飞股份有限公司 游戏语音交互方法及装置
CN107797993A (zh) * 2017-11-13 2018-03-13 成都蓝景信息技术有限公司 一种基于序列标注的事件抽取方法
CN107894978B (zh) * 2017-11-14 2021-04-09 鼎富智能科技有限公司 时间词的抽取方法及装置
CN109871843B (zh) * 2017-12-01 2022-04-08 北京搜狗科技发展有限公司 字符识别方法和装置、用于字符识别的装置
CN107977361B (zh) * 2017-12-06 2021-05-18 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN108021557A (zh) * 2017-12-25 2018-05-11 北京牡丹电子集团有限责任公司数字电视技术中心 基于深度学习的不规则实体识别方法
EP3732590A4 (en) * 2017-12-29 2021-09-29 Robert Bosch GmbH SYSTEM AND PROCEDURE FOR DOMAIN AND LANGUAGE INDEPENDENT DEFINITION EXTRACTION USING DEEP NEURAL NETWORKS
CN109582954A (zh) * 2018-01-24 2019-04-05 广州数知科技有限公司 用于输出信息的方法和装置
CN110309256A (zh) * 2018-03-09 2019-10-08 北京国双科技有限公司 一种文本中事件数据的获取方法及装置
CN108304387B (zh) * 2018-03-09 2021-06-15 联想(北京)有限公司 文本中噪音词的识别方法、装置、服务器组及存储介质
CN110309273A (zh) * 2018-03-09 2019-10-08 北京国双科技有限公司 问答方法和装置
CN108446355B (zh) * 2018-03-12 2022-05-20 深圳证券信息有限公司 投融资事件要素抽取方法、装置及设备
US11055557B2 (en) * 2018-04-05 2021-07-06 Walmart Apollo, Llc Automated extraction of product attributes from images
CN108776656A (zh) * 2018-06-05 2018-11-09 南京农业大学 基于条件随机场的食品安全事件实体抽取方法
CN108829801B (zh) * 2018-06-06 2020-11-20 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN108829681B (zh) * 2018-06-28 2022-11-11 鼎富智能科技有限公司 一种命名实体提取方法及装置
CN109243616A (zh) * 2018-06-29 2019-01-18 东华大学 基于深度学习的乳腺电子病历联合关系抽取与结构化系统
CN109213831A (zh) * 2018-08-14 2019-01-15 阿里巴巴集团控股有限公司 事件检测方法和装置、计算设备及存储介质
CN109582949B (zh) * 2018-09-14 2022-11-22 创新先进技术有限公司 事件元素抽取方法、装置、计算设备及存储介质
CN109446335B (zh) * 2018-09-18 2024-05-03 平安科技(深圳)有限公司 新闻主体判定的方法、装置、计算机设备和存储介质
CN109299470B (zh) * 2018-11-01 2024-02-09 成都数联铭品科技有限公司 文本公告中触发词的抽取方法及系统
CN111180076B (zh) * 2018-11-13 2023-09-05 零氪科技(北京)有限公司 一种基于多层语义分析的医疗信息提取方法
CN109635280A (zh) * 2018-11-22 2019-04-16 园宝科技(武汉)有限公司 一种基于标注的事件抽取方法
CN109543187B (zh) * 2018-11-23 2021-09-17 中山大学 电子病历特征的生成方法、装置及存储介质
CN109558591A (zh) * 2018-11-28 2019-04-02 中国科学院软件研究所 中文事件检测方法及装置
CN109670174B (zh) * 2018-12-14 2022-12-16 腾讯科技(深圳)有限公司 一种事件识别模型的训练方法和装置
CN109815481B (zh) * 2018-12-17 2023-05-26 北京百度网讯科技有限公司 对文本进行事件抽取的方法、装置、设备和计算机存储介质
CN111368542A (zh) * 2018-12-26 2020-07-03 北京大学 一种基于递归神经网络的文本语言关联抽取方法和系统
CN111476838A (zh) * 2019-01-23 2020-07-31 华为技术有限公司 图像分析方法以及系统
CN110135457B (zh) * 2019-04-11 2021-04-06 中国科学院计算技术研究所 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN110444261B (zh) * 2019-07-11 2023-02-03 新华三大数据技术有限公司 序列标注网络训练方法、电子病历处理方法及相关装置
CN110457682B (zh) * 2019-07-11 2022-08-09 新华三大数据技术有限公司 电子病历词性标注方法、模型训练方法及相关装置
CN110348018A (zh) * 2019-07-16 2019-10-18 苏州大学 使用局部学习完成简易事件抽取的方法
CN110609896B (zh) * 2019-07-19 2022-03-22 中国人民解放军国防科技大学 基于二次解码的军事想定文本事件信息抽取方法及装置
CN110598203B (zh) * 2019-07-19 2023-08-01 中国人民解放军国防科技大学 一种结合词典的军事想定文书实体信息抽取方法及装置
CN110704890A (zh) * 2019-08-12 2020-01-17 上海大学 一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法
CN110674303B (zh) * 2019-09-30 2022-03-01 北京明略软件系统有限公司 事件语句处理方法、装置、计算机设备和可读存储介质
CN113111170A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型接处警文本轨迹地信息提取方法和装置
CN111382228B (zh) * 2020-03-17 2023-06-06 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111382575A (zh) * 2020-03-19 2020-07-07 电子科技大学 一种基于联合标注和实体语义信息的事件抽取方法
CN111429913B (zh) * 2020-03-26 2023-03-31 厦门快商通科技股份有限公司 一种数字串语音识别方法、身份验证装置及计算机可读存储介质
CN111460831B (zh) * 2020-03-27 2024-04-19 科大讯飞股份有限公司 事件确定方法、相关设备及可读存储介质
CN111522915A (zh) * 2020-04-20 2020-08-11 北大方正集团有限公司 中文事件的抽取方法、装置、设备及存储介质
CN111611802B (zh) * 2020-05-21 2021-08-31 苏州大学 多领域实体识别方法
CN111625584A (zh) * 2020-05-22 2020-09-04 中国航天科工集团第二研究院 一种基于事件抽取与规则引擎的盗窃事件赃物归属方法
CN111859968A (zh) * 2020-06-15 2020-10-30 深圳航天科创实业有限公司 一种文本结构化方法、文本结构化装置及终端设备
CN111967268B (zh) * 2020-06-30 2024-03-19 北京百度网讯科技有限公司 文本中的事件抽取方法、装置、电子设备和存储介质
CN112000792A (zh) * 2020-08-26 2020-11-27 北京百度网讯科技有限公司 自然灾害事件的抽取方法、装置、设备以及存储介质
CN112084381A (zh) * 2020-09-11 2020-12-15 广东电网有限责任公司 一种事件抽取方法、系统、存储介质以及设备
CN112580346B (zh) * 2020-11-17 2022-05-06 深圳追一科技有限公司 事件抽取方法、装置、计算机设备和存储介质
CN112541341A (zh) * 2020-12-18 2021-03-23 广东电网有限责任公司 一种文本事件元素提取方法
CN115151903A (zh) * 2020-12-25 2022-10-04 京东方科技集团股份有限公司 文本抽取方法及装置、计算机可读存储介质以及电子设备
CN112613305B (zh) * 2020-12-27 2024-04-09 北京工业大学 基于循环神经网络的中文事件抽取方法
CN112766903B (zh) * 2021-01-18 2024-02-06 阿斯利康投资(中国)有限公司 识别不良事件的方法、装置、设备及介质
CN113160997A (zh) * 2021-03-01 2021-07-23 中电云脑(天津)科技有限公司 肿瘤检验报告的处理方法、模型训练方法及相关装置
CN113779987A (zh) * 2021-08-23 2021-12-10 科大国创云网科技有限公司 一种基于自注意力增强语义的事件共指消岐方法及系统
CN113886524A (zh) * 2021-09-26 2022-01-04 四川大学 一种基于短文本的网络安全威胁事件抽取方法
CN114328687B (zh) * 2021-12-23 2023-04-07 北京百度网讯科技有限公司 事件抽取模型训练方法及装置、事件抽取方法及装置
CN114861629B (zh) * 2022-04-29 2023-04-04 电子科技大学 一种文本风格的自动化评判方法
CN114757189B (zh) * 2022-06-13 2022-10-18 粤港澳大湾区数字经济研究院(福田) 事件抽取方法、装置、智能终端及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及系统
CN102831236A (zh) * 2012-09-03 2012-12-19 苏州大学 中文事件触发词的扩展方法及系统
CN104331480A (zh) * 2014-11-07 2015-02-04 苏州大学 一种中文事件触发词的抽取系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574067B (zh) * 2014-10-31 2020-01-21 株式会社东芝 项目推荐装置以及项目推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及系统
CN102831236A (zh) * 2012-09-03 2012-12-19 苏州大学 中文事件触发词的扩展方法及系统
CN104331480A (zh) * 2014-11-07 2015-02-04 苏州大学 一种中文事件触发词的抽取系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
End-to-endSequenceLabelingviaBi-directionalLSTM-CNNs-CRF;XuezheMa等;《researchgate》;20160331;第2-12页 *
中文事件抽取与缺失角色填充的研究;侯立斌;《中国优秀硕士学位论文全文数据库信息科技辑》;20130331;I138-1780页 *
基于循环神经网络的互联网短文本情感要素抽取;张英、郑秋生;《中原工学院学报》;20161225;第82-86页 *

Also Published As

Publication number Publication date
CN107122416A (zh) 2017-09-01

Similar Documents

Publication Publication Date Title
CN107122416B (zh) 一种中文事件抽取方法
CN110119786B (zh) 文本话题分类方法及装置
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN111914558A (zh) 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN108121702B (zh) 数学主观题评阅方法及系统
WO2021047341A1 (zh) 文本分类方法、电子设备及计算机可读存储介质
CN110825867B (zh) 相似文本推荐方法、装置、电子设备和存储介质
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
CN108052504B (zh) 数学主观题解答结果的结构分析方法及系统
WO2019232893A1 (zh) 文本的情感分析方法、装置、计算机设备和存储介质
CN111353306B (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN113626573B (zh) 一种销售会话异议及应对提取方法及系统
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN114328934B (zh) 一种基于注意力机制的多标签文本分类方法及系统
CN111091002A (zh) 一种中文命名实体的识别方法
CN114298021A (zh) 基于情感值选择评论的谣言检测方法
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN110334204B (zh) 一种基于用户记录的习题相似度计算推荐方法
CN112597299A (zh) 文本的实体分类方法、装置、终端设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant