CN110135457B - 基于自编码器融合文档信息的事件触发词抽取方法及系统 - Google Patents

基于自编码器融合文档信息的事件触发词抽取方法及系统 Download PDF

Info

Publication number
CN110135457B
CN110135457B CN201910288771.8A CN201910288771A CN110135457B CN 110135457 B CN110135457 B CN 110135457B CN 201910288771 A CN201910288771 A CN 201910288771A CN 110135457 B CN110135457 B CN 110135457B
Authority
CN
China
Prior art keywords
word
encoder
document
recognized
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910288771.8A
Other languages
English (en)
Other versions
CN110135457A (zh
Inventor
程学旗
靳小龙
席鹏弼
郭嘉丰
赵越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201910288771.8A priority Critical patent/CN110135457B/zh
Publication of CN110135457A publication Critical patent/CN110135457A/zh
Application granted granted Critical
Publication of CN110135457B publication Critical patent/CN110135457B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于自编码器融合文档信息的事件触发词抽取方法,包括:以未标注自由文本语料生成训练集,训练GRU模型以构建该自编码器;对训练语料进行预处理和标签标注,提取待识别词;以该自编码器获取该待识别词在其所在文档内的文档向量,作为该待识别词的全局特征;以该待识别词的词向量和实体类型分布式表达,作为该待识别词的局部特征;将该全局特征和该局部特征进行向量拼接,获得该待识别词的上下文特征;将该上下文特征输入Bi‑GRU模型进行多分类,以识别该待识别词是否为事件触发词及该待识别词的对应事件类型。

Description

基于自编码器融合文档信息的事件触发词抽取方法及系统
技术领域
本发明属于互联网技术领域,具体涉及一种可用于知识图谱的事件触发词抽取方法。
背景技术
事件抽取任务旨在从非结构化的自由文本中抽取出结构化的事件信息,其中事件是由事件触发词、事件类型、事件论元和事件元素的角色组成的。触发词是能够触动事件发生且决定事件类型的最重要特征词,进而针对不同的事件类型,定义了不同的事件参与元素。因此事件抽取任务主要包括对事件触发词的抽取和对事件参与元素的识别,而触发词抽取作为其中的基础步骤,其识别性能直接影响事件抽取系统的准确性。
现有的触发词抽取方法大多以句子为单位进行句内词或词组的多分类,主要分为以下几个步骤,首先对输入的句子进行分词,接着对每一个词抽取局部的上下文特征,通常使用基于自然语言处理工具的构造特征和基于神经网络生成的表示特征,最后选取多元分类器判断当前词是否为触发词或其所属事件类别。中国国家发明“一种事件触发词识别方法及装置”(公布号:CN104598510A),以原始语料中提取的训练语料,对条件随机场模型进行训练,并利用目标条件随机场模型对待测语料进行事件触发词的识别。中国国家发明“一种事件触发词识别方法及系统”(公布号:CN104778163A),利用最大熵识别模型对所述测试样本中的事件触发词进行识别,得到识别结果。中国国家发明“一种事件触发词识别方法及装置”(公布号:CN105138520A),是通过预先建立的二元分类器,对从原始语料及其翻译语料所确定的双语特征进行候选词进行分类,以确定当前候选词是否为事件触发词。中国国家发明“一种基于特征自动学习的生物医学事件触发词识别方法”(公布号:CN105512209A),通过构建事件触发词词典和候选触发词实例,以卷积神经网络模型学习特征并进行神经网络模型训练,最终进行事件触发词分类。中国国家发明“一种基于文档级别注意力机制的事件触发词抽取方法”(公布号:CN108829801A),使用PubMed数据库语料进行词向量训练,构建样本的分布式表示方式,构造基于BiLSTM-Attention的特征表示方式,使用CRF学习、获取当前文档序列的最优序列标注结果,完成事件触发词的抽取。中国国家发明“基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法”(公布号:CN108846017A),进行Word Embedding的字级别语义特征表示,构建注意力权重的Bi-GRU字级别的句子特征编码模型,搭建基于注意力权重的Bi-GRU句子级别特征编码模型,使用分层Softmax实现端到端分类实现。
然而在一篇文档中,仅凭单个句子的上下文信息难以区分多义词的事件类型歧义,如“leave”既可以表示离开也可以表示离职,需要借助全局的语境和文档中关联的事件加以判断。因此引入篇章级别的特征进行全局上下文信息的约束是很有必要,但是传统的上下文特征并不足以表示文档的全局信息,构造特征中的依存关系不能有效分析长距离的依赖关系,表示特征中的词向量不能针对性地获取当前词所在的篇章信息。另一方面,由于事件结构繁多复杂,现有普遍使用的事件标注数据集规模很小,如通用新闻论坛领域的ACE2005数据集中仅包含599个英文文档、生物医学领域的MLEE(Multi-level EventExtraction)数据集中仅包含262个文档。在使用神经网络模型时,数据稀疏的问题很有可能导致模型抽取的触发词不全且不准的问题。有方法提出借助训练词向量的方法使用大量的未标注文本数据,引入外部的领域信息,但是词向量只关注了词的语义层面,不能有效捕捉句子层面和文档层面的上下文信息。
发明内容
针对现有技术中存在的问题,本发明利用篇章信息并增加标注数据,提出了一种基于自编码器融合文档信息的事件触发词抽取方法,利用自编码器语言模型抽取待识别词的局部上下文特征,并融合两类特征输入Bi-GRU模型进行事件类型的多分类,完成对句子中触发词的抽取。
具体来说,该方法包括:以未标注自由文本语料生成训练集,训练GRU模型以构建自编码器;对训练语料进行预处理和标签标注,提取待识别词;以该自编码器获取该待识别词在其所在文档的文档向量,作为该待识别词的全局特征;以该待识别词的词向量和实体类型分布式表达,作为该待识别词的局部特征;将该全局特征和该局部特征进行向量拼接,获得该待识别词的上下文特征;将该上下文特征输入Bi-GRU模型进行多分类,以判断该待识别词是否为事件触发词及该待识别词的对应事件类型。
本发明所述的事件触发词抽取方法,其中通过对该未标注自由文本语料进行预处理以生成该训练集,预处理的过程包括:对该未标注自由文本语料进行过滤错误文段、将大写字母转换为小写字母、去除停用词,以及进行词形还原和缩略词还原,得到文档d,以构建该训练集;对文档d中的词进行统计,以构建语料词表。
本发明所述的事件触发词抽取方法,其中该自编码器包括编码器和解码器,其中该编码器为堆叠三层的GRU模型,该解码器为一层的GRU模型。
本发明所述的事件触发词抽取方法,其中训练GRU模型的过程包括:对该文档d进行分词,获取该文档d的第i个词wi的词向量Ei,以及词wi在文档d中的第一下标indexi;将该词向量Ei输入到该自编码器的编码器GRUthree_layer_encoder,得到该文档d的文档向量hd,其中hd=GRUthree_layer_encoder(E1,E2,...,E|d|);将该文档向量hd输入到该自编码器的解码器GRUdecoder,输出词wi的隐层向量q'i,以及词wi在该语料词表中的第二下标index'i,其中[q'1,q'2,...,q'|d|]=GRUdecoder(hd),index'i=argmax Softmax(q'i),i=1,2,...,|d|;获取该第一下标indexi与该第二下标index'i的交叉熵分类误差,通过误差反传方法训练该自编码器。
本发明还提出一种基于自编码器融合文档信息的事件触发词抽取系统,包括:自编码器构建模块,用于以未标注自由文本语料生成训练集,训练GRU模型以构建自编码器;训练语料提取模块,用于对训练语料进行预处理和标签标注,提取待识别词;上下文特征获取模块,用于获取该待识别词的上下文特征,其中以该自编码器获取该待识别词在其所在文档的文档向量,作为该待识别词的全局特征;以该待识别词的词向量和实体类型分布式表达,作为该待识别词的局部特征;将该全局特征和该局部特征进行向量拼接,获得该待识别词的上下文特征;事件触发词提取模块,用于将该上下文特征输入Bi-GRU模型进行多分类,以判断该待识别词是否为事件触发词及该待识别词的对应事件类型。
本发明所述的事件触发词抽取系统,其中该自编码器构建模块包括预处理模块,用于通过对该未标注自由文本语料进行预处理以生成该训练集,该预处理模块具体包括:预料处理模块,用于对该未标注自由文本语料进行过滤错误文段、将大写字母转换为小写字母、去除停用词,以及进行词形还原和缩略词还原,得到文档d,以构建该训练集;词表构建模块,用于对文档d中的词进行统计,以构建语料词表。
本发明所述的事件触发词抽取系统,其中该自编码器包括编码器和解码器,其中该编码器为堆叠三层的GRU模型,该解码器为一层的GRU模型。
本发明所述的事件触发词抽取系统,其中该自编码器构建模块还包括:GRU模型训练模块,用于训练GRU模型以构建该自编码器,具体包括:第一下标获取模块,用于对该文档d进行分词,获取该文档d的第i个词wi的词向量Ei,以及词wi在文档d中的第一下标indexi;文档向量获取模块,用于将该词向量Ei输入到该自编码器的编码器GRUthree_layer_encoder,得到该文档d的文档向量hd,其中hd=GRUthree_layer_encoder(E1,E2,...,E|d|);第二下标获取模块,用于将该文档向量hd输入到该自编码器的解码器GRUdecoder,输出词wi的隐层向量q'i,以及词wi在该语料词表中的第二下标index'i,其中[q'1,q'2,...,q'|d|]=GRUdecoder(hd),index'i=argmax Softmax(q'i),i=1,2,...,|d|;自编码器训练模块,用于获取第一下标indexi与第二下标index'i的交叉熵分类误差,通过误差反传训练该自编码器。
本发明还提出一种可读存储介质,存储有可执行指令,该可执行指令用于执行如前述的基于自编码器融合文档信息的事件触发词抽取方法。
本发明还提出一种数据处理装置,包括如前述的可读存储介质,该数据处理装置调取并执行该可读存储介质中的可执行指令,以进行基于自编码器融合文档信息的事件触发词抽取操作。
本发明的基于自编码器融合文档信息的事件触发词抽取方法具有以下优点:一是充分利用大规模的未标注语料得到能还原文档语序和语义的自编码器语言模型,取得蕴含待识别词所在文档语境的分布式表达;二是引入文档级的特征表示,提高触发词抽取效果;三是自编码器语言模型预训练完成后,事件触发词抽取的流程是端到端的,避免了人工干预;四是事件触发词抽取的整体性能有所提高,尤其是在缺乏训练数据的场景中,本发明在ACE 2005语料的测试集上取得了71%的F1值。
附图说明
图1是本发明的事件触发词抽取方法整体框架图。
图2是本发明的事件触发词抽取方法流程图。
图3是本发明的事件触发词抽取方法的自编码器语言模型预训练流程图。
图4是本发明的事件触发词抽取方法的自编码器语言模型结构示意图。
图5是本发明的事件触发词抽取方法的上下文特征提取流程图。
图6是本发明的事件触发词抽取方法的事件触发词抽取过程示意图。
图7是本发明的事件触发词抽取系统的数据处理装置示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
为了克服现有技术中存在的不足,本发明提供了一种基于自编码器融合文档信息的事件触发词抽取方法。该方法利用大规模未标注的自由文本数据预训练文档级的自编码器语言模型,使得模型能够有效学习长文本的语序和语义信息,并通过训练完成的语言模型学习待识别句子所在的文档表示作为全局上下文特征,然后抽取待识别词的局部上下文特征,最后融合两类特征输入Bi-GRU模型进行事件类型的多分类,完成对句子中触发词的抽取。
本发明提出的事件触发词抽取方法包括以下步骤:
1)未标注语料预处理,使用的未标注语料选自Wiki英文自由文本,过滤网页标签,根据空格等标点符号进行分词,并进行词形还原和去除停用词,比如the,达到清洗文本消除噪音的效果,最后构造训练集;
2)使用Wiki语料进行自编码器预训练,将堆叠三层的GRU模型作为编码器进行特征提取,使用另一个GRU模型作为解码器,将提取到的特征解码为输入文本词,计算其与输入词的分类误差进行训练,以得到能建模文档语义信息的编码器模型;
3)持久化存储训练完成的自编码器模型参数,包括词向量、编码器模型参数和解码器模型参数,用于提取待识别句子所在文档的分布式表达;
4)训练语料预处理,使用的训练语料选自ACE 2005,提取出原始文档和标注文档中标注的事件触发词及事件类型、句中出现的实体词及其实体类型,对原始文档进行分词等操作,对事件触发词和实体标注进行BIO标签标注;
5)提取待识别词的上下文特征,包括全局特征和局部特征。其中全局特征为待识别句子前后的文档分布式表达,通过预训练的自编码器的编码器模型提取,局部特征为待识别词的词向量和实体类型分布式表达。将两部分特征直接进行向量拼接;
6)使用Bi-GRU模型抽取事件触发词,将5)中提取得到的特征按照语序依次输入模型,拼接待识别词的正向和反向的隐层表示,经过Softmax分类层进行多分类,识别其事件类型。
本发明通过篇章信息并增加标注数据,利用自编码器语言模型抽取待识别词的局部上下文特征,并融合两类特征输入Bi-GRU模型进行事件类型的多分类,完成对句子中触发词的抽取。
具体来说,本发明的基于自编码器融合文档信息的事件触发词抽取方法包括:通过对未标注自由文本语料进行预处理以生成训练集,预处理的过程包括:对未标注自由文本语料进行过滤网络标签、将大写字母转换为小写字母、去除停用词,以及进行词形还原和缩略词还原,得到文档d,以构建训练集,对文档d中的词进行统计,以构建语料词表;训练GRU模型以构建自编码器,自编码器包括编码器和解码器,其中编码器为堆叠三层的GRU模型,解码器为一层的GRU模型;对训练语料进行预处理和标签标注,提取待识别词;以自编码器获取待识别词在其所在文档的文档向量,作为待识别词的全局特征;以待识别词的词向量和实体类型分布式表达,作为待识别词的局部特征;将全局特征和局部特征进行向量拼接,获得待识别词的上下文特征;将待识别词的上下文特征输入Bi-GRU模型进行多分类,以判断待识别词是否为事件触发词及该待识别词的对应事件类型。
其中训练GRU模型的过程包括:对该文档d进行分词,获取该文档d的第i个词wi的词向量Ei,以及词wi在文档d中的第一下标indexi;将该词向量Ei输入到该自编码器的编码器GRUthree_layer_encoder,得到该文档d的文档向量hd,其中hd=GRUthree_layer_encoder(E1,E2,...,E|d|);将该文档向量hd输入到该自编码器的解码器GRUdecoder,输出词wi的隐层向量q'i,以及词wi在该语料词表中的第二下标index'i,其中[q'1,q'2,...,q'|d|]=GRUdecoder(hd),index'i=argmax Softmax(q'i),i=1,2,...,|d|;获取该第一下标indexi与该第二下标index'i的交叉熵分类误差,通过误差反传方法训练该自编码器。
图1是本发明的事件触发词抽取方法整体框架图。如图1所示,本发明的事件触发词抽取方法主要包括自编码器语言模型预训练、训练文本预处理、上下文特征提取和事件触发词抽取四个部分。自编码器语言模型预训练是通过大规模未标注的文本语料训练编码器和解码器模型,使得编码器能得到蕴含文档上下文语境的向量表达,解码器能根据该向量表达重构原始文档的词与词序。训练文本预处理主要是转换事件触发词的标注格式为BIO模式,使其能处理触发词为词组的情况,如“take over”。上下文特征提取包括全局的文档分布式表达特征和局部的词分布式表达及实体类型分布式表达特征,通过约束语境减少带歧义触发词的分类错误率。事件触发词抽取部分是通过神经网络模型,输入提取得到的上下文特征,对待识别词进行多分类,从而得到事件类型。
图2是本发明的事件触发词抽取方法流程图。如图2所示,本发明的事件触发词抽取方法包括:
步骤S1、获取未标注自由文本语料并进行预处理,输入自编码器语言模型中进行预训练,并持久化存储训练完成的自编码器的模型参数,本发明的未标注自由文本语料采用了大规模的Wiki文本数据集。
步骤S2、对训练文本进行预处理,对训练文本中的原始文档进行分词等操作,对事件触发词表示的事件类型和实体类型进行BIO标签标注,本发明的训练文本采用了ACE2005训练数据集。
步骤S3、针对训练文本中的待抽取文档中每个句子中的候选词(待识别词)提取全局特征和局部特征,并将全局特征和局部特征进行向量拼接,生成候选词的上下文特征作为事件抽取模型的输入。
步骤S4、以句子为单位将候选词的上下文特征表示依次输入事件抽取模型,于本发明的实施例中,事件抽取模型采用Bi-GRU模型,通过事件抽取模型得到每个候选词的正向和反向的隐层表示,最后将隐层表示输入Softmax分类层进行多分类,完成事件触发词的抽取。
具体地,步骤S1包括多个子步骤:
自编码器语言模型的预训练主要包含三个步骤,图3是本发明的事件触发词抽取方法的自编码器语言模型预训练流程图。如图3所示:
步骤S101、预处理大规模的未标注自由文本语料。首先清洗文本,利用正则表达式去除Wiki文本中明显错误的片段,比如网页标签等,同时将文本均转化为小写。然后根据空格等标点符号进行分词并去除停用词(stop words)。为了减少存储空间和词表体量而避免信息损失,构建停用词表,自动过滤掉一些高频出现在大部分句子中的单词,如the、a等。之后进行词形还原和缩略词还原等特殊处理,并统计出未标注自由文本语料的语料词表。英文中的单词具有不同的形式,比如jumping和jumps都是jump的变体,词形还原就是为了将单词从不同的时态、派生形式还原。缩略词还原是指将英文中的简写词组还原,比如I'm变为Iam。最后随机抽取词长为100的文段(文档d)构造训练集。考虑到RNN类模型长时依赖的问题,文段若过长易导致较久之前的内容被模型遗忘,所以于本发明的实施例中,限制文段长度为100。
步骤S102、通常引入外部数据用于学习词语的分布式表达,虽然这样能捕捉到词语的语义内容,但是损失了句子的语序信息从而不能表达完整的篇章信息。因此本发明使用大规模的未标注自由文本语料训练自编码器语言模型,其中自编码器的编码器选择堆叠三层的GRU模型进行文档级长句的分布式表达提取,解码器选择GRU模型。如果解码器能将提取到的分布式表达按照一定顺序解码为输入文本的词语,那么可以认为编码器提取的文档分布式表达蕴含了整个文档的语义信息,从而可将该编码器用于提取待识别词语所在文档的分布式表达。
图4是本发明的事件触发词抽取方法的自编码器语言模型结构示意图。自编码器语言模型如图4所示,具体训练步骤如下:
(i)在词层面对文档d进行编码,输入文档d的分词结果,并随机初始化每个词w的词向量E,由此得到第i个词wi的分布式表达(词向量)Ei,以及词wi在文档d中的真实下标(第一下标)indexi
(ii)将词向量Ei输入到自编码器语言模型的编码器中,由此得到文档的向量分布式表达(文档向量)hd
hd=GRUthree_layer_encoder(E1,E2,...,E|d|,) (1)
于本发明的实施例中,编码器采用堆叠三层的GRU模型(GRUthree_layer_encoder);
(iii)将文档向量表达hd输入自编码器语言模型的解码器中,经过解析得到文档d中第i个词的表示q'i,并连接Softmax分类层,根据概率最大原则预测文档d中第i个词wi在语料词表中的预测下标(第二下标)index'i
[q'1,q'2,...,q'|d'|]=GRUdecoder(hd) (2)
index'i=argmaxSoftmax(q'i),i=1,2,...,|d| (3)
于本发明的实施例中,解码器采用一层的GRU模型;
(iiii)计算词wi在语料词表中的第二下标index'i与词wi在文档d中的第一下标indexi的交叉熵分类误差,通过误差反传训练自编码器模型。
步骤S103、持久化存储训练完成的自编码器的模型参数,包括词向量、编码器的模型参数和解码器的模型参数,用于提取待识别句子所在文档的分布式表达。
进一步地,步骤S2包括:
同样地,针对带事件标注的训练语料d'进行预处理,主要包括分词、去除停用词、词形还原和标签转换。前三个步骤与自编码器语言模型中的预处理类似,第四步标签转换是为了使模型能预测多个词的事件触发词,采用BIO模式进行标注。因为大多数事件触发词都是能描述事件或动作发生的动词,其中不乏动词词组,尤其在英文中同一动词搭配不同介词可能蕴含截然不同的语义。BIO标签模式中包含三种类别的标记,分别是B(Begin),表示该词为目标词组的起始;I(In),表示该词为目标词组非起始的其他词语;O(Other),表示该词并非目标词组。在实际标注中,如果触发词仅由单个词构成,则仅标注“B-事件类型”;如果由两个或两个以上的词构成,比如“takeover”,则标注“take”为“B-事件类型”,标注“over”为“I-事件类型”;对其他的非触发词词直接标注为“O”。
更进一步地,步骤S3具体包括多个子步骤:
针对训练语料d'中的待抽取文档中每个句子中的候选词w'(待识别词)提取全局特征和局部特征,并将全局特征和局部特征进行向量拼接,生成候选词的上下文特征作为事件抽取模型的输入。
图5是本发明的事件触发词抽取方法的上下文特征提取流程图。提取带事件标注的训练语料d'中的特征,特征提取的流程如图5所示,具体步骤如下:
步骤S301、全局特征是针对训练语料d'中待抽取句子向前向后取词长为100的文档段落,依次输入步骤S1中预训练完成的自编码器语言模型的编码器中,生成2个分布式表达用于描述待抽取句子中文档的上下文语境。实验中生成了2个300维的特征向量,将其拼接作为文档的分布式表达。
步骤S302、局部特征主要包括候选词的词向量和候选词的实体类型分布式表达。词向量是一种分布式表达,将词表示成一个定长的连续的稠密向量,相比于One-hot表示方法,不仅能表示词之间的相似关系,包含词语的语义信息,而且特征维度比较小,所需存储空间少。实验中采用Google预训练的300维词向量初始化。
词的实体类型分布式表达是对该词信息的信息补充,其中实体是指文档中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。实体类型分布式表达是对个类别随机生成一个向量,该向量在训练过程中不断修正。实验中采用150维的实体类型向量。
步骤S303、将每个候选词的词向量和实体类型分布式表达直接拼接,再拼接文档的文档向量,得到候选词的上下文特征。
最后,步骤S4包括:
将事件触发词的抽取看做是多分类任务,使用可建模连续时序数据的Bi-GRU模型,考虑到英语句型的灵活性,词的语义表达不仅与前面的词有关,也与之后的词有关,因此使用了双向的循环神经网络模型进行编码。图6是本发明的事件触发词抽取方法的事件触发词抽取过程示意图。如图6所示。
针对训练语料d'中句子si(i=1,2,...,|d'|),经过S3后提取出每个词w'ij(j=1,2,...,|si|)的上下文特征向量tij,输入Bi-GRU模型(GRUevent)中,将正向隐层表示
Figure GDA0002859774060000101
和反向隐层表示
Figure GDA0002859774060000102
拼接为隐层表示rij
Figure GDA0002859774060000103
将隐层表示rij输入Softmax分类层进行多分类,识别其事件类型eij
eij=argmaxSoftmax(rij),i=1,2,...,|d|,j=1,2,...,|si| (5)
未标注的文本数据集Wiki中包含了374209个文档,训练集包含337945篇,验证集包含36264篇。训练数据集ACE2005中包含了599个文档,标注的事件类型分为8个大类,细分为33个小类。
图7是本发明的事件触发词抽取系统的数据处理装置示意图。如图7所示,本发明实施例还提供一种可读存储介质,以及一种数据处理装置。本发明的可读存储介质存储有计可执行指令,可执行指令被数据处理装置的处理器执行时,实现上述基于自编码器融合文档信息的事件触发词抽取方法。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成,所述程序可以存储于可读存储介质中,如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。
与已有技术相比,本发明方法具有以下优点:一是充分利用大规模的未标注语料得到能还原文档语序和语义的自编码器语言模型,取得蕴含待识别词所在文档语境的分布式表达;二是引入文档级的特征表示,提高触发词抽取效果;三是自编码器语言模型预训练完成后,事件触发词抽取的流程是端到端的,避免了人工干预。本发明在ACE 2005语料的测试集上取得了71%的F1值。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于自编码器融合文档信息的事件触发词抽取方法,其特征在于,包括:
以未标注自由文本语料生成训练集,训练GRU模型以构建自编码器;
对训练语料进行预处理和标签标注,提取待识别词;
以该自编码器获取该待识别词在其所在文档的文档向量,作为该待识别词的全局特征;以该待识别词的词向量和实体类型分布式表达,作为该待识别词的局部特征;将该全局特征和该局部特征进行向量拼接,获得该待识别词的上下文特征;
将该上下文特征输入Bi-GRU模型进行多分类,以判断该待识别词是否为事件触发词及该待识别词的对应事件类型。
2.如权利要求1所述的事件触发词抽取方法,其特征在于,通过对该未标注自由文本语料进行预处理以生成该训练集,预处理的过程包括:
对该未标注自由文本语料进行过滤错误文段、将大写字母转换为小写字母、去除停用词,以及进行词形还原和缩略词还原,得到文档d,以构建该训练集;
对文档d中的词进行统计,以构建语料词表。
3.如权利要求2所述的事件触发词抽取方法,其特征在于,该自编码器包括编码器和解码器,其中该编码器为堆叠三层的GRU模型,该解码器为一层的GRU模型。
4.如权利要求3所述的事件触发词抽取方法,其特征在于,训练GRU模型的过程包括:
对该文档d进行分词,获取该文档d的第i个词wi的词向量Ei,以及词wi在文档d中的第一下标indexi
将该词向量Ei输入到该自编码器的编码器GRUthree_layer_encoder,得到该文档d的文档向量hd,其中hd=GRUthree_layer_encoder(E1,E2,...,E|d|);
将该文档向量hd输入到该自编码器的解码器GRUdecoder,输出词wi的隐层向量q'i,以及词wi在该语料词表中的第二下标index'i,其中[q'1,q'2,...,q'|d|]=GRUdecoder(hd),index'i=argmax Softmax(q'i),i=1,2,...,|d|;
获取该第一下标indexi与该第二下标index'i的交叉熵分类误差,通过误差反传方法训练该自编码器。
5.一种基于自编码器融合文档信息的事件触发词抽取系统,其特征在于,包括:
自编码器构建模块,用于以未标注自由文本语料生成训练集,训练GRU模型以构建自编码器;
训练文本预处理模块,用于对训练语料进行预处理和标签标注,提取待识别词;
上下文特征提取模块,用于获取该待识别词的上下文特征,其中以该自编码器获取该待识别词在其所在文档的文档向量,作为该待识别词的全局特征;以该待识别词的词向量和实体类型分布式表达,作为该待识别词的局部特征;将该全局特征和该局部特征进行向量拼接,获得该待识别词的上下文特征;
事件触发词抽取模块,用于将该上下文特征输入Bi-GRU模型进行多分类,以判断该待识别词是否为事件触发词及该待识别词的对应事件类型。
6.如权利要求5所述的事件触发词抽取系统,其特征在于,该自编码器构建模块包括预处理模块,用于通过对该未标注自由文本语料进行预处理以生成该训练集,该预处理模块包括:
语料处理模块,用于对该未标注自由文本语料进行过滤错误文段、将大写字母转换为小写字母、去除停用词,以及进行词形还原和缩略词还原,得到文档d,以构建该训练集;
词表构建模块,用于对文档d中的词进行统计,以构建语料词表。
7.如权利要求6所述的事件触发词抽取系统,其特征在于,该自编码器包括编码器和解码器,其中该编码器为堆叠三层的GRU模型,该解码器为一层的GRU模型。
8.如权利要求7所述的事件触发词抽取系统,其特征在于,该自编码器构建模块还包括:
GRU模型训练模块,用于训练GRU模型以构建该自编码器,具体包括:
第一下标获取模块,用于对该文档d进行分词,获取该文档d的第i个词wi的词向量Ei,以及词wi在文档d中的第一下标indexi
文档向量获取模块,用于将该词向量Ei输入到该自编码器的编码器GRUthree_layer_encoder,得到该文档d的文档向量hd,其中hd=GRUthree_layer_encoder(E1,E2,...,E|d|);
第二下标获取模块,用于将该文档向量hd输入到该自编码器的解码器GRUdecoder,输出词wi的隐层向量q'i,以及词wi在该语料词表中的第二下标index'i,其中[q'1,q'2,...,q'|d|]=GRUdecoder(hd),index'i=argmax Softmax(q'i),i=1,2,...,|d|;
自编码器训练模块,用于获取第一下标indexi与第二下标index'i的交叉熵分类误差,通过误差反传训练该自编码器。
9.一种可读存储介质,存储有可执行指令,该可执行指令用于执行如权利要求1~4任一项所述的基于自编码器融合文档信息的事件触发词抽取方法。
10.一种数据处理装置,包括如权利要求9所述的可读存储介质,该数据处理装置调取并执行该可读存储介质中的可执行指令,以进行基于自编码器融合文档信息的事件触发词抽取操作。
CN201910288771.8A 2019-04-11 2019-04-11 基于自编码器融合文档信息的事件触发词抽取方法及系统 Active CN110135457B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910288771.8A CN110135457B (zh) 2019-04-11 2019-04-11 基于自编码器融合文档信息的事件触发词抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910288771.8A CN110135457B (zh) 2019-04-11 2019-04-11 基于自编码器融合文档信息的事件触发词抽取方法及系统

Publications (2)

Publication Number Publication Date
CN110135457A CN110135457A (zh) 2019-08-16
CN110135457B true CN110135457B (zh) 2021-04-06

Family

ID=67569778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910288771.8A Active CN110135457B (zh) 2019-04-11 2019-04-11 基于自编码器融合文档信息的事件触发词抽取方法及系统

Country Status (1)

Country Link
CN (1) CN110135457B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889412B (zh) * 2019-11-01 2023-04-07 泰康保险集团股份有限公司 体检报告中的医学长文定位与分类方法及装置
CN111177367B (zh) * 2019-11-11 2023-06-23 腾讯科技(深圳)有限公司 案件分类方法、分类模型训练方法及相关产品
CN111079384B (zh) * 2019-11-18 2023-05-02 佰聆数据股份有限公司 一种用于智能质检服务禁语的识别方法及系统
CN111159017A (zh) * 2019-12-17 2020-05-15 北京中科晶上超媒体信息技术有限公司 一种基于槽填充的测试用例生成方法
CN111222305B (zh) * 2019-12-17 2024-03-22 共道网络科技有限公司 一种信息结构化方法和装置
CN111339311A (zh) * 2019-12-30 2020-06-26 智慧神州(北京)科技有限公司 基于生成式网络抽取结构化事件的方法、装置与处理器
CN111460830B (zh) * 2020-03-11 2022-04-12 北京交通大学 一种司法文本中经济事件的抽取方法及系统
CN111325020B (zh) * 2020-03-20 2023-03-31 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备
CN111475617B (zh) * 2020-03-30 2023-04-18 招商局金融科技有限公司 事件主体抽取方法、装置及存储介质
CN111507098B (zh) * 2020-04-17 2023-03-21 腾讯科技(深圳)有限公司 多义词识别方法、装置、电子设备及计算机可读存储介质
CN111597224B (zh) * 2020-04-17 2023-09-15 北京百度网讯科技有限公司 结构化信息的生成方法、装置、电子设备和存储介质
CN111709021B (zh) * 2020-04-22 2023-04-07 中国科学院信息工程研究所 一种基于海量告警的攻击事件识别方法及电子装置
CN113569128A (zh) * 2020-04-29 2021-10-29 北京金山云网络技术有限公司 数据检索方法、装置及电子设备
CN111897908B (zh) * 2020-05-12 2023-05-02 中国科学院计算技术研究所 融合依存信息和预训练语言模型的事件抽取方法及系统
CN111737416B (zh) * 2020-06-29 2022-08-19 重庆紫光华山智安科技有限公司 案件处理模型的训练方法、案件文本处理方法及相关装置
CN111783394B (zh) * 2020-08-11 2024-03-08 深圳市北科瑞声科技股份有限公司 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN113722417B (zh) * 2020-08-20 2023-06-16 广东电网有限责任公司清远供电局 电力系统违章管理方法、装置及电力设备
CN112069819A (zh) * 2020-09-10 2020-12-11 杭州中奥科技有限公司 模型训练方法、模型训练装置和事件抽取方法
CN112149386A (zh) * 2020-09-25 2020-12-29 杭州中软安人网络通信股份有限公司 一种事件抽取方法、存储介质及服务器
CN112308119B (zh) * 2020-10-15 2021-11-05 中国医学科学院北京协和医院 一种肾小球肾炎的免疫荧光分类方法及装置
CN112580330B (zh) * 2020-10-16 2023-09-12 昆明理工大学 基于中文触发词指导的越南语新闻事件检测方法
CN112528676B (zh) * 2020-12-18 2022-07-08 南开大学 文档级别的事件论元抽取方法
CN112749278B (zh) * 2020-12-30 2022-10-18 华南理工大学 一种建筑工程变更指令的分类方法
CN112817561B (zh) * 2021-02-02 2023-08-18 山东省计算中心(国家超级计算济南中心) 软件需求文档的事务类功能点结构化抽取方法及系统
CN114912452A (zh) * 2021-02-07 2022-08-16 阿里巴巴集团控股有限公司 一种实体识别、信息抽取的方法和装置
CN112836017B (zh) * 2021-02-09 2022-07-26 天津大学 一种基于分层主题驱动的自注意力机制的事件检测方法
CN113111649B (zh) * 2021-04-13 2024-02-20 科大讯飞股份有限公司 事件抽取方法、系统以及设备
CN113591483A (zh) * 2021-04-27 2021-11-02 重庆邮电大学 一种基于序列标注的文档级事件论元抽取方法
CN113505200B (zh) * 2021-07-15 2023-11-24 河海大学 一种结合文档关键信息的句子级中文事件检测的方法
CN113673248B (zh) * 2021-08-23 2022-02-01 中国人民解放军32801部队 试验鉴定小样本文本的命名实体识别方法
CN113901815B (zh) * 2021-10-15 2023-05-05 华能澜沧江水电股份有限公司 基于大坝运行日志的应急工况事件检测方法
CN114004231A (zh) * 2021-10-27 2022-02-01 浙江诺诺网络科技有限公司 一种中文专词抽取方法、系统、电子设备及存储介质
CN114936559B (zh) * 2022-01-05 2023-04-07 华能贵诚信托有限公司 一种基于多模型融合的多级事件抽取方法和抽取系统
CN114462412B (zh) * 2022-02-14 2023-05-12 平安科技(深圳)有限公司 实体识别方法、装置、电子设备及存储介质
CN114548101B (zh) * 2022-04-25 2022-08-02 北京大学 基于可回溯序列生成方法的事件检测方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408093A (zh) * 2014-11-14 2015-03-11 中国科学院计算技术研究所 一种新闻事件要素抽取方法与装置
CN106599032A (zh) * 2016-10-27 2017-04-26 浙江大学 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN109325228A (zh) * 2018-09-19 2019-02-12 苏州大学 英文事件触发词抽取方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10089364B2 (en) * 2014-10-31 2018-10-02 Kabushiki Kaisha Toshiba Item recommendation device, item recommendation method, and computer program product
CN105512209B (zh) * 2015-11-28 2018-06-19 大连理工大学 一种基于特征自动学习的生物医学事件触发词识别方法
US11132541B2 (en) * 2017-09-29 2021-09-28 The Mitre Corporation Systems and method for generating event timelines using human language technology

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408093A (zh) * 2014-11-14 2015-03-11 中国科学院计算技术研究所 一种新闻事件要素抽取方法与装置
CN106599032A (zh) * 2016-10-27 2017-04-26 浙江大学 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN109325228A (zh) * 2018-09-19 2019-02-12 苏州大学 英文事件触发词抽取方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Document Embedding Enhanced Event Detection with Hierarchical and Supervised Attention;Zhao,Yue 等;《PROCEEDINGS OF THE 56TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》;20181231;全文 *
Event Recognition Based on Deep Learning in Chinese Texts;Zhang,Yajun 等;《PLOS ONE》;20160808;全文 *
深度学习与多元特征相结合的事件检测与摘要研究;赵玉坤;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190131;全文 *

Also Published As

Publication number Publication date
CN110135457A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN110135457B (zh) 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN109299273B (zh) 基于改进seq2seq模型的多源多标签文本分类方法及其系统
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN110866401A (zh) 基于注意力机制的中文电子病历命名实体识别方法及系统
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN114580382A (zh) 文本纠错方法以及装置
CN112307208A (zh) 长文本的分类方法、终端及计算机存储介质
CN111401084A (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN110472548B (zh) 一种基于语法分类器的视频连续手语识别方法及系统
CN113076720B (zh) 长文本的分段方法及装置、存储介质、电子装置
CN111930939A (zh) 一种文本检测的方法及装置
CN116127952A (zh) 一种多粒度中文文本纠错方法和装置
CN116127953A (zh) 一种基于对比学习的中文拼写纠错方法、装置和介质
CN112612871A (zh) 一种基于序列生成模型的多事件检测方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
González-Gallardo et al. Sentence boundary detection for French with subword-level information vectors and convolutional neural networks
CN115168541A (zh) 基于框架语义映射和类型感知的篇章事件抽取方法及系统
CN111858894A (zh) 语义缺失的识别方法及装置、电子设备、存储介质
Fu et al. RepSum: Unsupervised dialogue summarization based on replacement strategy
CN111340006A (zh) 一种手语识别方法及系统
CN112634878B (zh) 语音识别后处理方法和系统及相关设备
Todorov et al. Transfer learning for historical corpora: An assessment on post-OCR correction and named entity recognition
CN112069816A (zh) 中文标点符号添加方法和系统及设备
CN116702765A (zh) 一种事件抽取方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant