CN112580346B - 事件抽取方法、装置、计算机设备和存储介质 - Google Patents

事件抽取方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112580346B
CN112580346B CN202011285003.6A CN202011285003A CN112580346B CN 112580346 B CN112580346 B CN 112580346B CN 202011285003 A CN202011285003 A CN 202011285003A CN 112580346 B CN112580346 B CN 112580346B
Authority
CN
China
Prior art keywords
target
event type
event
argument
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011285003.6A
Other languages
English (en)
Other versions
CN112580346A (zh
Inventor
赵正锐
刘进步
费加磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhuiyi Technology Co Ltd
Original Assignee
Shenzhen Zhuiyi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhuiyi Technology Co Ltd filed Critical Shenzhen Zhuiyi Technology Co Ltd
Priority to CN202011285003.6A priority Critical patent/CN112580346B/zh
Publication of CN112580346A publication Critical patent/CN112580346A/zh
Application granted granted Critical
Publication of CN112580346B publication Critical patent/CN112580346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种事件抽取方法、装置、计算机设备和存储介质。所述方法包括:获取待进行事件抽取的目标文本;将所述目标文本输入到事件抽取联合模型中进行处理,得到所述目标文本中,各个目标分词分别对应的事件类型识别概率以及论元角色识别概率;根据所述论元角色识别概率识别得到所述目标分词对应的目标论元角色;根据所述事件类型识别概率识别得到初始事件类型集合;从所述初始事件类型集合中筛选得到与所述目标论元角色匹配的目标事件类型,以根据所述目标论元角色以及所述目标事件类型得到所述目标文本对应的事件抽取结果。采用本方法能够提高事件抽取准确度。

Description

事件抽取方法、装置、计算机设备和存储介质
技术领域
本申请涉及信息处理技术领域,特别是涉及一种事件抽取方法、装置、计 算机设备和存储介质。
背景技术
随着科学技术的发展,在很多情况下都需要对文本进行信息提取,以确定 文本所包含的信息。例如可以对文本进行事件抽取(Event extraction),事件抽取 技术可以通过识别特定类型的事件,并进行相关信息的确定和抽取,得到结构 化的事件信息。
传统技术中,在进行事件抽取时,一般是先进行触发词抽取以及事件类型 识别任务,然后再进行论元抽取以及论元角色识别任务,然而经常存在事件抽 取准确度低的情况。
发明内容
基于此,有必要针对上述技术问题,提供一种能够事件抽取方法、装置、 计算机设备和存储介质。
一种事件抽取方法,所述方法包括:获取待进行事件抽取的目标文本;将 所述目标文本输入到事件抽取联合模型中进行处理,得到所述目标文本中,各 个目标分词分别对应的事件类型识别概率以及论元角色识别概率;根据所述论 元角色识别概率识别得到所述目标分词对应的目标论元角色;根据所述事件类 型识别概率识别得到初始事件类型集合;从所述初始事件类型集合中筛选得到 与所述目标论元角色匹配的目标事件类型,以根据所述目标论元角色以及所述 目标事件类型得到所述目标文本对应的事件抽取结果。
在一些实施例中,所述事件抽取联合模型包括文本编码模型、事件类型识 别模型以及论元角色识别模型,所述将所述目标文本输入到事件抽取联合模型 中进行处理,得到所述目标文本中,各个目标分词分别对应的事件类型识别概 率以及论元角色识别概率包括:将所述目标文本输入到所述文本编码模型中, 所述文本编码模型对所述目标文本对应的各个目标分词进行编码,得到各个所 述目标分词分别对应的分词编码向量;将所述目标分词分别对应的分词编码向 量输入到所述事件类型识别模型中,得到各个所述目标分词分别对应的事件类 型识别概率;将所述目标分词对应的分词编码向量输入到所述论元角色识别模 型中,得到各个所述目标分词分别对应的论元角色识别概率。
在一些实施例中,所述论元角色识别概率包括所述目标分词为候选论元角 色的头指针的概率以及为所述候选论元角色的尾指针的概率,所述方法还包括: 若所述目标分词为所述候选论元角色的头指针的概率大于第一阈值,则确定所 述目标分词为所述候选论元角色的头指针;若所述目标分词为所述候选论元角 色的尾指针的概率大于第二阈值,则确定所述目标分词为所述候选论元角色的 尾指针;根据所述候选论元角色的头指针以及所述候选论元角色的尾指针确定 目标论元片段。
在一些实施例中,所述事件类型识别概率包括所述目标分词为候选事件类 型的头指针的概率以及为所述候选事件类型的尾指针的概率,所述根据所述事 件类型识别概率识别得到初始事件类型集合包括:根据所述目标分词为候选事 件类型的头指针的概率,获取所述目标论元片段的起始点对应的头指针所对应 的头事件类型集合;根据所述目标分词为所述候选事件类型的尾指针的概率, 获取所述目标论元片段的终止点对应的尾指针所对应的尾事件类型集合;根据 所述头事件类型集合以及尾事件类型集合确定所述目标论元片段对应的初始事 件类型集合。
在一些实施例中,所述根据所述目标分词为候选事件类型的头指针的概率, 获取所述目标论元片段的起始点对应的头指针所对应的头事件类型集合包括: 若所述目标分词为候选事件类型的头指针的概率大于第三阈值,则确定所述目 标分词为所述候选事件类型的头指针;确定与所述目标论元片段的起始点的距 离小于第一距离的目标分词,作为第一邻近分词;将以所述第一邻近分词为头 指针的候选事件类型作为头事件类型,得到头事件类型集合。
在一些实施例中,所述根据所述目标分词为候选事件类型的尾指针的概率, 获取所述目标论元片段的终止点对应的尾指针所对应的尾事件类型集合包括: 若所述目标分词为候选事件类型的尾指针的概率大于第四阈值,则确定所述目 标分词为所述候选事件类型的尾指针;确定与所述目标论元片段的终止点的距 离小于第二距离的目标分词,作为第二邻近分词;将以所述第二邻近分词为尾 指针的候选事件类型作为尾事件类型,得到尾事件类型集合。
在一些实施例中,所述根据所述头事件类型集合以及尾事件类型集合确定 所述目标论元片段对应的初始事件类型集合包括:将所述头事件类型集合中的 事件类型与所述尾事件类型集合中的事件类型进行对比;将对比一致的事件类 型作为初始事件类型,得到所述目标论元片段对应的初始事件类型集合。
在一些实施例中,所述从所述初始事件类型集合中筛选得到与所述目标论 元角色匹配的目标事件类型包括:获取预设的事件类型与论元角色的匹配关系; 根据所述事件类型与论元角色的匹配关系,将所述初始事件类型集合中,与所 述目标论元角色匹配的事件类型作为目标事件类型。
一种事件抽取装置,所述装置包括:目标文本获取模块,用于获取待进行 事件抽取的目标文本;处理模块,用于将所述目标文本输入到事件抽取联合模 型中进行处理,得到所述目标文本中,各个目标分词分别对应的事件类型识别 概率以及论元角色识别概率;论元角色得到模块,用于根据所述论元角色识别 概率识别得到所述目标分词对应的目标论元角色;初始事件类型集合得到模块, 用于根据所述事件类型识别概率识别得到初始事件类型集合;事件抽取结果得 到模块,用于从所述初始事件类型集合中筛选得到与所述目标论元角色匹配的 目标事件类型,以根据所述目标论元角色以及所述目标事件类型得到所述目标 文本对应的事件抽取结果。
在一些实施例中,所述事件抽取联合模型包括文本编码模型、事件类型识 别模型以及论元角色识别模型,所述处理模块包括:分词编码向量得到单元, 用于将所述目标文本输入到所述文本编码模型中,所述文本编码模型对所述目 标文本对应的各个目标分词进行编码,得到各个所述目标分词分别对应的分词 编码向量;事件类型识别概率得到单元,用于将所述目标分词分别对应的分词 编码向量输入到所述事件类型识别模型中,得到各个所述目标分词分别对应的 事件类型识别概率;论元角色识别概率得到单元,用于将所述目标分词对应的 分词编码向量输入到所述论元角色识别模型中,得到各个所述目标分词分别对 应的论元角色识别概率。
在一些实施例中,所述论元角色识别概率包括所述目标分词为候选论元角 色的头指针的概率以及为所述候选论元角色的尾指针的概率,所述装置还包括: 头指针确定模块,用于若所述目标分词为所述候选论元角色的头指针的概率大 于第一阈值,则确定所述目标分词为所述候选论元角色的头指针;尾指针确定 模块,用于若所述目标分词为所述候选论元角色的尾指针的概率大于第二阈值, 则确定所述目标分词为所述候选论元角色的尾指针;目标论元片段确定模块, 用于根据所述候选论元角色的头指针以及所述候选论元角色的尾指针确定目标 论元片段。
在一些实施例中,所述事件类型识别概率包括所述目标分词为候选事件类 型的头指针的概率以及为所述候选事件类型的尾指针的概率,所述初始事件类 型集合得到模块包括:头事件类型集合获取单元,用于根据所述目标分词为候 选事件类型的头指针的概率,获取所述目标论元片段的起始点对应的头指针所 对应的头事件类型集合;尾事件类型集合获取单元,用于根据所述目标分词为 所述候选事件类型的尾指针的概率,获取所述目标论元片段的终止点对应的尾 指针所对应的尾事件类型集合;初始事件类型集合确定单元,用于根据所述头 事件类型集合以及尾事件类型集合确定所述目标论元片段对应的初始事件类型 集合。
在一些实施例中,所述头事件类型集合获取单元用于:若所述目标分词为 候选事件类型的头指针的概率大于第三阈值,则确定所述目标分词为所述候选 事件类型的头指针;确定与所述目标论元片段的起始点的距离小于第一距离的 目标分词,作为第一邻近分词;将以所述第一邻近分词为头指针的候选事件类 型作为头事件类型,得到头事件类型集合。
在一些实施例中,所述尾事件类型集合获取单元用于:若所述目标分词为 候选事件类型的尾指针的概率大于第四阈值,则确定所述目标分词为所述候选 事件类型的尾指针;确定与所述目标论元片段的终止点的距离小于第二距离的 目标分词,作为第二邻近分词;将以所述第二邻近分词为尾指针的候选事件类 型作为尾事件类型,得到尾事件类型集合。
在一些实施例中,所述初始事件类型集合确定单元用于:将所述头事件类 型集合中的事件类型与所述尾事件类型集合中的事件类型进行对比;将对比一 致的事件类型作为初始事件类型,得到所述目标论元片段对应的初始事件类型 集合。
在一些实施例中,所述事件抽取结果得到模块用于:获取预设的事件类型 与论元角色的匹配关系;根据所述事件类型与论元角色的匹配关系,将所述初 始事件类型集合中,与所述目标论元角色匹配的事件类型作为目标事件类型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序, 所述处理器执行所述计算机程序时实现以下步骤:获取待进行事件抽取的目标 文本;将所述目标文本输入到事件抽取联合模型中进行处理,得到所述目标文 本中,各个目标分词分别对应的事件类型识别概率以及论元角色识别概率;根 据所述论元角色识别概率识别得到所述目标分词对应的目标论元角色;根据所 述事件类型识别概率识别得到初始事件类型集合;从所述初始事件类型集合中 筛选得到与所述目标论元角色匹配的目标事件类型,以根据所述目标论元角色 以及所述目标事件类型得到所述目标文本对应的事件抽取结果。
在一些实施例中,所述事件抽取联合模型包括文本编码模型、事件类型识 别模型以及论元角色识别模型,所述将所述目标文本输入到事件抽取联合模型 中进行处理,得到所述目标文本中,各个目标分词分别对应的事件类型识别概 率以及论元角色识别概率包括:将所述目标文本输入到所述文本编码模型中, 所述文本编码模型对所述目标文本对应的各个目标分词进行编码,得到各个所 述目标分词分别对应的分词编码向量;将所述目标分词分别对应的分词编码向 量输入到所述事件类型识别模型中,得到各个所述目标分词分别对应的事件类 型识别概率;将所述目标分词对应的分词编码向量输入到所述论元角色识别模 型中,得到各个所述目标分词分别对应的论元角色识别概率。
在一些实施例中,所述论元角色识别概率包括所述目标分词为候选论元角 色的头指针的概率以及为所述候选论元角色的尾指针的概率,所述计算机程序 还使得所述处理器执行以下步骤:若所述目标分词为所述候选论元角色的头指 针的概率大于第一阈值,则确定所述目标分词为所述候选论元角色的头指针; 若所述目标分词为所述候选论元角色的尾指针的概率大于第二阈值,则确定所 述目标分词为所述候选论元角色的尾指针;根据所述候选论元角色的头指针以 及所述候选论元角色的尾指针确定目标论元片段。
在一些实施例中,所述事件类型识别概率包括所述目标分词为候选事件类 型的头指针的概率以及为所述候选事件类型的尾指针的概率,所述根据所述事 件类型识别概率识别得到初始事件类型集合包括:根据所述目标分词为候选事 件类型的头指针的概率,获取所述目标论元片段的起始点对应的头指针所对应 的头事件类型集合;根据所述目标分词为所述候选事件类型的尾指针的概率, 获取所述目标论元片段的终止点对应的尾指针所对应的尾事件类型集合;根据 所述头事件类型集合以及尾事件类型集合确定所述目标论元片段对应的初始事 件类型集合。
在一些实施例中,所述根据所述目标分词为候选事件类型的头指针的概率, 获取所述目标论元片段的起始点对应的头指针所对应的头事件类型集合包括: 若所述目标分词为候选事件类型的头指针的概率大于第三阈值,则确定所述目 标分词为所述候选事件类型的头指针;确定与所述目标论元片段的起始点的距 离小于第一距离的目标分词,作为第一邻近分词;将以所述第一邻近分词为头 指针的候选事件类型作为头事件类型,得到头事件类型集合。
在一些实施例中,所述根据所述目标分词为候选事件类型的尾指针的概率, 获取所述目标论元片段的终止点对应的尾指针所对应的尾事件类型集合包括: 若所述目标分词为候选事件类型的尾指针的概率大于第四阈值,则确定所述目 标分词为所述候选事件类型的尾指针;确定与所述目标论元片段的终止点的距 离小于第二距离的目标分词,作为第二邻近分词;将以所述第二邻近分词为尾 指针的候选事件类型作为尾事件类型,得到尾事件类型集合。
在一些实施例中,所述根据所述头事件类型集合以及尾事件类型集合确定 所述目标论元片段对应的初始事件类型集合包括:将所述头事件类型集合中的 事件类型与所述尾事件类型集合中的事件类型进行对比;将对比一致的事件类 型作为初始事件类型,得到所述目标论元片段对应的初始事件类型集合。
在一些实施例中,所述从所述初始事件类型集合中筛选得到与所述目标论 元角色匹配的目标事件类型包括:获取预设的事件类型与论元角色的匹配关系; 根据所述事件类型与论元角色的匹配关系,将所述初始事件类型集合中,与所 述目标论元角色匹配的事件类型作为目标事件类型。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处 理器执行时实现以下步骤:获取待进行事件抽取的目标文本;将所述目标文本 输入到事件抽取联合模型中进行处理,得到所述目标文本中,各个目标分词分 别对应的事件类型识别概率以及论元角色识别概率;根据所述论元角色识别概 率识别得到所述目标分词对应的目标论元角色;根据所述事件类型识别概率识 别得到初始事件类型集合;从所述初始事件类型集合中筛选得到与所述目标论 元角色匹配的目标事件类型,以根据所述目标论元角色以及所述目标事件类型 得到所述目标文本对应的事件抽取结果。
在一些实施例中,所述事件抽取联合模型包括文本编码模型、事件类型识 别模型以及论元角色识别模型,所述将所述目标文本输入到事件抽取联合模型 中进行处理,得到所述目标文本中,各个目标分词分别对应的事件类型识别概 率以及论元角色识别概率包括:将所述目标文本输入到所述文本编码模型中, 所述文本编码模型对所述目标文本对应的各个目标分词进行编码,得到各个所 述目标分词分别对应的分词编码向量;将所述目标分词分别对应的分词编码向 量输入到所述事件类型识别模型中,得到各个所述目标分词分别对应的事件类 型识别概率;将所述目标分词对应的分词编码向量输入到所述论元角色识别模 型中,得到各个所述目标分词分别对应的论元角色识别概率。
在一些实施例中,所述论元角色识别概率包括所述目标分词为候选论元角 色的头指针的概率以及为所述候选论元角色的尾指针的概率,所述计算机程序 还使得所述处理器执行以下步骤:若所述目标分词为所述候选论元角色的头指 针的概率大于第一阈值,则确定所述目标分词为所述候选论元角色的头指针; 若所述目标分词为所述候选论元角色的尾指针的概率大于第二阈值,则确定所 述目标分词为所述候选论元角色的尾指针;根据所述候选论元角色的头指针以 及所述候选论元角色的尾指针确定目标论元片段。
在一些实施例中,所述事件类型识别概率包括所述目标分词为候选事件类 型的头指针的概率以及为所述候选事件类型的尾指针的概率,所述根据所述事 件类型识别概率识别得到初始事件类型集合包括:根据所述目标分词为候选事 件类型的头指针的概率,获取所述目标论元片段的起始点对应的头指针所对应 的头事件类型集合;根据所述目标分词为所述候选事件类型的尾指针的概率, 获取所述目标论元片段的终止点对应的尾指针所对应的尾事件类型集合;根据 所述头事件类型集合以及尾事件类型集合确定所述目标论元片段对应的初始事 件类型集合。
在一些实施例中,所述根据所述目标分词为候选事件类型的头指针的概率, 获取所述目标论元片段的起始点对应的头指针所对应的头事件类型集合包括: 若所述目标分词为候选事件类型的头指针的概率大于第三阈值,则确定所述目 标分词为所述候选事件类型的头指针;确定与所述目标论元片段的起始点的距 离小于第一距离的目标分词,作为第一邻近分词;将以所述第一邻近分词为头 指针的候选事件类型作为头事件类型,得到头事件类型集合。
在一些实施例中,所述根据所述目标分词为候选事件类型的尾指针的概率, 获取所述目标论元片段的终止点对应的尾指针所对应的尾事件类型集合包括: 若所述目标分词为候选事件类型的尾指针的概率大于第四阈值,则确定所述目 标分词为所述候选事件类型的尾指针;确定与所述目标论元片段的终止点的距 离小于第二距离的目标分词,作为第二邻近分词;将以所述第二邻近分词为尾 指针的候选事件类型作为尾事件类型,得到尾事件类型集合。
在一些实施例中,所述根据所述头事件类型集合以及尾事件类型集合确定 所述目标论元片段对应的初始事件类型集合包括:将所述头事件类型集合中的 事件类型与所述尾事件类型集合中的事件类型进行对比;将对比一致的事件类 型作为初始事件类型,得到所述目标论元片段对应的初始事件类型集合。
在一些实施例中,所述从所述初始事件类型集合中筛选得到与所述目标论 元角色匹配的目标事件类型包括:获取预设的事件类型与论元角色的匹配关系; 根据所述事件类型与论元角色的匹配关系,将所述初始事件类型集合中,与所 述目标论元角色匹配的事件类型作为目标事件类型。
上述事件抽取方法、装置、计算机设备和存储介质,由于可以基于事件抽 取联合模型得到目标文本中各个目标分词分别对应的事件类型识别概率以及论 元角色识别概率,再基于论元角色识别概率识别得到所述目标分词对应的目标 论元角色,因此可以准确得到对应的论元角色,而且事件类型识别概率以及论 元角色识别概率是联合得到的,在确定目标分词对应的目标论元角色时,结合 目标论元角色从基于事件类型识别概率识别得到初始事件类型集合中获取得到 目标事件类型,能够提高得到目标事件类型的准确度,因此提高了事件抽取结 果的准确度。
附图说明
图1为一个实施例中事件抽取方法的应用环境图;
图2为一个实施例中事件抽取方法的流程示意图;
图3为一个实施例中事件将目标文本输入到事件抽取联合模型中进行处理, 得到目标文本中,各个目标分词分别对应的事件类型识别概率以及论元角色识 别概率的流程示意图;
图4为一个实施例中根据事件类型识别概率识别得到初始事件类型集合的 流程示意图;
图5A为一个实施例中得到事件类型识别模型的识别原理示意图;
图5B为一个实施例中得到论元角色识别模型的识别原理示意图;
图6为一个实施例中事件抽取装置的结构框图;
图7为一个实施例中事件处理模块的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅 用以解释本申请,并不用于限定本申请。
本申请提供的事件抽取方法,可以应用于如图1所示的应用环境中。其中, 终端102通过网络与服务器104进行通信。终端102可以接收用户的文本编辑 操作,得到目标文本,终端102将目标文本上传至服务器104,服务器104执行 本申请实施例提供的事件抽取方法,得到事件抽取结果。服务器可以基于事件 抽取结果构建知识库。其中,终端102可以但不限于是各种个人计算机、笔记 本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的 服务器或者是多个服务器组成的服务器集群来实现。
在一些实施例中,得到事件抽取结果后,可以将事件抽取结果的各个信息 对应存储,例如可以建立知识图谱,当接收到搜索请求时,可以根据搜索请求 中的搜索词在知识图谱中进行搜索,得到搜索结果,将搜索结果返回至搜索请 求对应的终端。
在一个实施例中,如图2所示,提供了一种事件抽取方法,以该方法应用 于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,获取待进行事件抽取的目标文本。
其中,事件可以是指某个时间,一个或多个动作在一定地域范围内的发生 或是状态的变化。事件抽取可以从包含有事件信息的非结构化文本中,将事件 触发词与事件论元以结构化的形式呈现出来。事件抽取主要包括事件检测与分 类(又称事件识别)和事件论元角色抽取(又称事件元素识别)两个任务。对于事件 的检测与分类,可以预先给定待抽取的候选事件类型,例如候选的事件类型可 以包括攻击事件、诉讼事件以及会议事件。事件论元(Event argument)是事件的 各个要素,可以包括实体描述、时间表达式和属性值。一类事件中的所包括的 角色是预先定义好的,而在具体的事件实例中事件论元会有所不同。事件论元 角色抽取即是检测出事件的论元,并分配其在事件中的相应角色。例如,攻击 事件的事件论元角色(role)可以为攻击者或者被攻击者。目标文本可以是中文 文本。
例如,假设定义“袭击”事件为候选事件类型之一,针对自然语言文本“A 在B地点发生的袭击事件中受伤”,事件抽取的任务可以是识别出触发词“袭 击”,表示表达的事件类型为“袭击”,并且识别出事件论元“A”在此袭击事 件中充当的角色为“受害者”、“B地点”在此袭击事件中充当的角色为“地点”。
具体地,服务器响应于事件抽取指令,获取目标文本。例如,服务器可以 接收对某个新闻网站上的新闻进行事件抽取的指令,获取该新闻网站上新闻的 标题或者新闻的摘要,作为待进行事件抽取的文本。
步骤S204,将目标文本输入到事件抽取联合模型中进行处理,得到目标文 本中,各个目标分词分别对应的事件类型识别概率以及论元角色识别概率。
其中,事件抽取联合模型是用于进行事件抽取的模型,事件抽取联合模型 可以是神经网络模型。事件抽取联合模型可以包括编码模型以及解码模型,解 码模型可以进一步包括事件类型识别模型以及论元角色识别模型。编码模型用 于对文本进行编码,得到编码向量,事件类型识别模型以及论元角色识别模型 分别获取编码得到的向量进行解码。
目标分词是指对目标文本进行分词所得到的词,分词是将连续的字序列按 照一定的规范重新组合成词序列的过程,分词的方法可以是基于字符串匹配的 分词方法、基于理解的分词方法或者基于统计的分词方法的至少一个,例如, 假设目标文本为“A在B地点发生的袭击事件中受伤”,则分词后所得的词序 列可以表示为“A/在/B地点/发生/的/袭击事件/中/受伤/”,其中的“A”以及“在” 等为目标分词。
具体地,服务器可以将目标文本输入到事件抽取联合模型中,事件抽取联 合模型基于编码模型,融合目标文本中的上下文信息,对目标文本中的各个目 标分词进行编码,得到每个目标分词分别对应的分词编码向量。服务器将目标 分词分别对应的分词编码向量组成的分词编码向量序列输入到事件类型识别模 型中,得到各个目标分词分别对应的事件类型识别概率。服务器将目标分词分 别对应的分词编码向量组成的分词编码向量序列输入到论元角色识别模型中, 得到各个目标分词分别对应的论元角色识别概率。例如,可以得到目标分词C 为各个候选的论元角色的概率以及目标分词C为各个候选的事件类型的概率。
步骤S206,根据论元角色识别概率识别得到目标分词对应的目标论元角色。
具体地,可以将所对应的论元角色识别概率最大的论元角色作为目标分词 对应的目标论元角色,也可以是将所对应的论元角色识别概率大于预设概率阈 值的论元角色作为目标分词对应的目标论元角色。例如候选的论元角色可以有 多个,可以得到目标分词分别属于各个候选的论元角色的概率,将所对应的论 元角色识别概率大于预设概率阈值的候选论元角色作为目标分词对应的目标论 元角色。举个例子,假设候选的论元角色有3个:J1、J2以及J3,得到目标分 词C为候选论元角色J1的概率为0.05,目标分词C为候选论元角色J2的概率 为0.15,目标分词C为候选论元角色J3的概率为0.8,概率阈值为0.7,由于候选论元角色J3的概率0.8大于概率阈值0.7,故可以得到目标分词C的目标论元 角色为J3。
步骤S208,根据事件类型识别概率识别得到初始事件类型集合。
具体地,初始事件类型是初步筛选得到的事件类型。服务器可以根据事件 类型识别概率选取多个初始事件类型,组成事件类型集合,多个是指至少两个。 服务器可以是将满足筛选条件的事件类型作为目标分词对应的初始事件类型。 筛选条件包括事件类型识别概率大于预设概率阈值,或者事件类型识别概率的 排序在预设排序之前的事件类型的至少一个,事件类型识别概率是按照从大到 小的顺序排序的。例如,假设有8个候选事件类型,则可以获取事件类型识别 概率中概率在前5的事件类型,作为初步筛选得到的事件类型。
步骤S210,从初始事件类型集合中筛选得到与目标论元角色匹配的目标事 件类型,以根据目标论元角色以及目标事件类型得到目标文本对应的事件抽取 结果。
具体地,由于已经得到目标论元角色,因此服务器可以获取与目标论元角 色匹配的类型,作为目标事件类型。事件抽取结果可以包括目标论元角色以及 目标事件类型。
在一些实施例中,服务器可以获取预设的事件类型与论元角色的匹配关系; 根据事件类型与论元角色的匹配关系,将初始事件类型集合中,与目标论元角 色匹配的事件类型作为目标事件类型。
具体地,可以预先设置各个候选的事件类型与候选的论元角色的匹配关系。 例如设置攻击事件类型所对应的论元角色包括攻击者与受害者。因此,得到目 标论元角色时,可以将初始事件类型集合中,与目标论元角色匹配的事件类型 作为目标事件类型。例如,假设得到目标论元角色为攻击者,而初始事件类型 集合中包括攻击事件以及诉讼事件,则攻击者所匹配的事件类型为攻击事件, 即目标事件类型为攻击事件。
上述事件抽取方法中,由于可以基于事件抽取联合模型得到目标文本中各 个目标分词分别对应的事件类型识别概率以及论元角色识别概率,再基于论元 角色识别概率识别得到目标分词对应的目标论元角色,因此可以准确得到对应 的论元角色,而且事件类型识别概率以及论元角色识别概率是联合得到的,在 确定目标分词对应的目标论元角色时,结合目标论元角色从基于事件类型识别 概率识别得到初始事件类型集合中获取得到目标事件类型,能够提高得到目标 事件类型的准确度,因此提高了事件抽取结果的准确度。
在一个实施例中,如图3所示,事件抽取联合模型包括文本编码模型、事 件类型识别模型以及论元角色识别模型,步骤S204即将目标文本输入到事件抽 取联合模型中进行处理,得到目标文本中,各个目标分词分别对应的事件类型 识别概率以及论元角色识别概率包括:
步骤S302,将目标文本输入到文本编码模型中,文本编码模型对目标文本 对应的各个目标分词进行编码,得到各个目标分词分别对应的分词编码向量。
文本编码模型用于对文本进行编码,可以是预训练BERT(Bidirectional EncoderRepresentations from Transformers)编码模型。例如可以采用针对中文优 化的开源预训练模型Roberta-WWM-ext-large。该模型在BERT基础上发展改进 而来,引入了整词掩码(Whole Word Masking),避免了中文语境中词汇固定搭配 降低掩码语言模型的学习难度。同时加入了更长的语料,并删除了下句预测(Next Sentence Prediction)训练任务。
文本编码模型对目标文本对应的各个目标分词进行编码,得到各个目标分 词分别对应的分词编码向量。例如输入的中文句子包括N个分词(x0,x1,…xN), 编码模型从(x0,x1,…xN)中抽取特征,输出包含上下文信息的表达 (x′0,x′1,…x′N),以便于后续下游任务的使用。举个实际的例子,假设一个目 标文本中有10个目标分词,则可以输出10个目标分词中每个目标分词分别对 应的编码向量,即输出10个分词编码向量。
步骤S304,将目标分词分别对应的分词编码向量输入到事件类型识别模型 中,得到各个目标分词分别对应的事件类型识别概率。
具体地,服务器可以按照目标分词的顺序,将目标分词分别对应的分词编 码向量组成分词编码向量序列,输入到事件类型识别模型中,得到每个目标分 词属于每个事件类型的概率,即事件类型识别概率。
步骤S306,将目标分词对应的分词编码向量输入到论元角色识别模型中, 得到各个目标分词分别对应的论元角色识别概率。
具体地,服务器可以按照目标分词的顺序,将目标分词分别对应的分词编 码向量组成分词编码向量序列,输入到论元角色识别模型中,得到每个目标分 词属于每个论元角色的概率,即论元角色识别概率。
本申请实施例中,论元角色识别模型与事件类型识别模型是共享文本编码 模型的。并分别基于文本编码向量得到各自所要得到的概率,因此可以反映出 子任务的关联性,相互提升子任务的效果。这样可以避免分阶段进行,导致上 游的错误会传递到下游任务,导致错误传播,而且不能反映出子任务的相关性 的情况。即本申请实施例中的模型是基于联合框架的事件抽取模型,把事件类 型也当作事件论元的标签,同一事件论元对应论元角色和事件类型两级标签, 采用联合抽取模型同时得到论元角色和事件类型
在一些实施例中,文本编码模型、事件类型识别模型以及论元角色识别模 型是联合训练得到的。在模型训练时,可以基于论元角色识别模型所对应的损 失值对论元角色识别模型的模型参数进行调整,基于事件类型识别模型所对应 的损失值对事件类型识别模型的模型参数进行调整。在调整文本编码模型中, 可以根据论元角色识别模型所对应的损失值计算得到第一参数下降梯度,以及 根据事件类型识别模型所对应的损失值计算得到的第二参数下降梯度,将第一 参数下降梯度以及第二参数下降梯度的和,作为文本编码模型的模型参数的下 降梯度,根据该下降梯度对文本编码模型的模型参数进行调整,使得文本模型 的参数是朝着使事件类型识别模型的识别准确度以及论元角色识别模型的识别准确度提高的方向调整的,提高了文本编码模型编码得到的向量的准确度。
在一些实施例中,可以采用公式(1)计算模型损失值。
Figure BDA0002782034720000151
其中公式5中γ为超参数,
Figure BDA0002782034720000152
Figure BDA0002782034720000153
分别代表负例和正例的概率,K为正例样 本数,L为负例样本数,m是正例相似度和负例相似度之间的距离,Luni表示模 型损失值。
在一些实施例中,可以采用Circle Loss计算模型损失值,Circle Loss损 失函数提供了一个统一的视角将传统的Triplet Loss、CE Loss(sigmoid cross entropy loss)以及其他变种统一了起来。Triplet Loss是深度学习中的一种 损失函数,用于训练差异性较小的样本,如人脸等,Feed数据包括锚(Anchor) 示例、正(Positive)示例、负(Negative)示例,通过优化锚示例与正示例 的距离小于锚示例与负示例的距离,实现样本的相似性计算。Circle Loss优化 目标从构建一个分开空间的超平面,进一步推至更大的类间距离和更小的更内 距离,在正样本和负样本概率构建的空间上形成一个类似圆形分布,其中Lcircle表示模型损失值,公式2中γ为超参数,
Figure BDA0002782034720000154
Figure BDA0002782034720000155
分别代表负例和正例的概率,K 为正例样本数,L为负例样本数,m是正例相似度和负例相似度之间的距离,
Figure BDA0002782034720000156
以及
Figure BDA0002782034720000157
可以是预设的权重系数。
Figure BDA0002782034720000158
Circle Loss主要是区分正例相似度和负例相似度之间的差值,让一个样本 属于它自己类的概率尽量大,可以不关注正负样本的分布,采用Circle Loss也 可以缓解样本不均衡的问题。
在一些实施例中,论元角色识别概率包括目标分词为候选论元角色的头指 针的概率以及为候选论元角色的尾指针的概率,事件抽取方法还包括:若目标 分词为候选论元角色的头指针的概率大于第一阈值,则确定目标分词为候选论 元角色的头指针;若目标分词为候选论元角色的尾指针的概率大于第二阈值, 则确定目标分词为候选论元角色的尾指针;根据候选论元角色的头指针以及候 选论元角色的尾指针确定目标论元片段。
其中,论元角色识别模型是基于机器阅读理解(Machine ReadingComprehension,MRC)的指针网络(Pointer Network),对论元角色分别行二分类 输出头指针的概率和尾指针的概率,第一阈值和第二阈值可以根据需要设置, 例如可以是0.8。对于候选论元角色,如果目标分词为该论元角色的头指针的概 率大于第一阈值,则该目标分词为该候选论元角色的头指针,对于候选论元角 色,如果目标分词为该论元角色的尾指针的概率大于第二阈值,则该目标分词 为该候选论元角色的尾指针。当一个候选论元角色对应有头指针以及为尾指针 时,则可以将从头指针到尾指针之间的文本为该候选论元角色的论元片段,同 时该候选论元角色为该目标文本中存在的论元角色,即为目标论元角色。可以 理解,对于一个候选论元角色,如果不存在大于第一阈值的目标分词或者不存 在大于第二阈值的目标分词,则可以确认该候选论元角色不是目标文本中存在 的论元角色。
在一些实施例中,如图4所示,事件类型识别概率包括目标分词为候选事 件类型的头指针的概率以及为候选事件类型的尾指针的概率,根据事件类型识 别概率识别得到初始事件类型集合包括:
步骤S402,根据目标分词为候选事件类型的头指针的概率,获取目标论元 片段的起始点对应的头指针所对应的头事件类型集合。
其中,事件类型识别模型是基于机器阅读理解(Machine ReadingComprehension,MRC)的指针网络(Pointer Network),对事件类型行二分类输出 头指针的概率和尾指针的概率。头事件类型集合包括该头指针所对应的头事件, 可以为一个或多个。例如可以将目标分词为候选事件类型的头指针的概率中, 概率大于第三阈值的候选事件类型加入到头事件类型集合中。目标论元片段的 起始点是该目标论元片段的第一个分词,起始点对应的头指针所对应的头事件 类型集合,可以是与该起始点的距离小于第一距离的分词为头指针时,所对应 的候选事件类型。
在一些实施例中,根据目标分词为候选事件类型的头指针的概率,获取目 标论元片段的起始点对应的头指针所对应的头事件类型集合包括:若目标分词 为候选事件类型的头指针的概率大于第三阈值,则确定目标分词为候选事件类 型的头指针;确定与目标论元片段的起始点的距离小于第一距离的目标分词, 作为第一邻近分词;将以第一邻近分词为头指针的候选事件类型作为头事件类 型,得到头事件类型集合。
其中,第三阈值可以根据需要设置,例如可以是0.8。对于一个目标分词C, 如果该分词为A候选事件类型的尾指针的概率为0.9,则确定该目标分词为A 候选事件类型的概率大于第三阈值,确定该目标分词C为A候选事件类型的头 指针。
第一距离可以根据需要设置,例如可以是间隔两个分词。举个例子,对于 目标文本“A/在/B地点/发生/的/袭击事件/中/受伤/”,假设起始点是“发生”, 第一距离是2个分词。则第一邻近分词包括“B地点”、“发生”以及“的”。 如果“B地点”为某个候选事件类型的头指针,则将该候选事件类型加入到头事 件类型集合中。
步骤S404,根据目标分词为候选事件类型的尾指针的概率,获取目标论元 片段的终止点对应的尾指针所对应的尾事件类型集合。
尾事件类型集合包括尾指针所对应的事件类型,可以为一个或多个。例如 可以将目标分词为候选事件类型的尾指针的概率中,概率大于第四阈值的候选 事件类型加入到尾事件类型集合中。目标论元片段的终止点是该目标论元片段 的最后一个分词,终止点对应的尾指针所对应的尾事件类型集合,可以是与该 终止点的距离小于第二距离的分词为尾指针时,所对应的候选事件类型。
在一些实施例中,根据目标分词为候选事件类型的尾指针的概率,获取目 标论元片段的终止点对应的尾指针所对应的尾事件类型集合包括:若目标分词 为候选事件类型的尾指针的概率大于第四阈值,则确定目标分词为候选事件类 型的尾指针;确定与目标论元片段的终止点的距离小于第二距离的目标分词, 作为第二邻近分词;将以第二邻近分词为尾指针的候选事件类型作为尾事件类 型,得到尾事件类型集合。
其中,第四阈值可以根据需要设置,例如可以是0.8。对于一个目标分词C, 如果该分词为G候选事件类型的尾指针的概率为0.9,则确定该目标分词为A 候选事件类型的概率大于第四阈值,确定该目标分词C为G候选事件类型的尾 指针。
第二距离可以根据需要设置,例如可以是间隔三个分词。举个例子,对应 “A/在/B地点/发生/的/袭击事件/中/受伤/”,假设终止点是“受伤”,第一距离 是2个分词。则第二邻近分词包括“袭击事件”、“中”以及“受伤”。
如果“袭击事件”为某个候选事件类型的尾指针,则将该候选事件类型加入到 尾事件类型集合中。
步骤S406,根据头事件类型集合以及尾事件类型集合确定目标论元片段对 应的初始事件类型集合。
具体地,可以将头事件类型集合中的事件类型与尾事件类型集合中的事件 类型进行对比;将对比一致的事件类型作为初始事件类型,得到目标论元片段 对应的初始事件类型集合。例如假设头事件类型集合中包括三个候选事件类型: a1、a2以及a3,尾事件类型集合中包括三个候选事件类型:a1、a3以及a4,则 通过对比,可以确定头事件类型集合与尾事件类型集合中相同的候选事件类型 包括a1以及a3,则初始事件类型集合包括a1以及a3。
在一些实施例中,对于一个文本,可以获取论元角色识别模型输出的头指 针和尾指针的数量,选取数量多的来确定论元角色和论元片段。例如,如果头 指针的数量多于尾指针的数量,选取头指针作为论元片段的起始点,同时可以 确定论元角色。论元片段的结束点选取位于起始点之后的尾指针,进而确定了 论元片段。然后,对于事件类型识别模型,可以先找到距离论元片段起始点相 隔两个分词内的头指针,获取这些头指针对应的候选事件类型,确定事件类型 集合一,再找到论元片段结束点相隔两个分词内的尾指针,获取尾指针对应的 候选事件类型,确定事件类型集合二,取这两个集合的交集作为此论元片段的 初始事件类型集合。然后根据预定义的事件类型及对应的论元角色,过滤掉候 选事件类型集合中与论元角色不匹配的事件类型。最终可以确定论元片段对应 的论元角色和事件类型。
本申请实施例中,通过对事件类型和事件论元分别进行二分类输出头指针 和尾指针,解决了论元角色重叠问题,同时能够进行多片段以及多类别抽取。 例如,可以基于机器阅读理解(MRC)的指针网络实现从分词(Token)特征到 论元片段、事件类型以及论元角色的映射。对于每一个Token,它的每种事件类 型以及论元角色都会分别对应头尾两个输出结果,表示该Token是否为论元对 应的该事件类型的起始点和结束点,以及论元角色的起始点和结束点。这样的 输出层方案可以很方便的处理论元角色以及事件类型之间嵌套情况。例如事件 类型识别概率以及论元角色识别概率可以用公式(3)至(6)计算得到,
Figure BDA0002782034720000191
Figure BDA0002782034720000192
Figure BDA0002782034720000193
Figure BDA0002782034720000194
其中x′i为Token的特征表示,t为事件类型,r为论元角色,s为论元片段 的起始点,e为论元片段的结束点,σ为sigmoid函数。
Figure BDA0002782034720000195
表示第i个Token,属 于第j个事件类型且为头指针的概率,
Figure BDA0002782034720000196
表示第i个Token,属于第j个事件类 型且为尾指针的概率,
Figure BDA0002782034720000197
表示第i个Token,属于第j个论元角色且为头指针的 概率,
Figure BDA0002782034720000198
表示第i个Token,属于第j个论元角色且为尾指针的概率。其中概率 的范围为[0,1],当此值大于某一个阈值时,例如0.8时,重新赋值为1,否则为 0。
Figure BDA0002782034720000199
赋值后值为1,表示该目标分词为第j个事件类型的头指针。
Figure BDA00027820347200001910
赋值后 值为1,表示该目标分词为第j个事件类型的尾指针。
Figure BDA00027820347200001911
赋值后值为1,表示该目标分词为第j个论元角色的头指针,
Figure BDA00027820347200001912
赋值后值为1,表示该目标分词为第j 个论元角色的尾指针。
例如,对于目标文本“8月21日,在瑞士巴塞尔举行世界羽毛球锦标赛”, 则得到的结果可以如图5A以及图5B所示。其中“Shared Bert”表示事件类型识 别模型以及论元角色识别模型共享文本编码模型,Role Extractor表示论元角色 识别模型,Event TypeExtractor表示事件类型识别模型。
本申请实施例提供的事件抽取结果可以应用于知识库构建、智能风控、智 能投研、舆情监控等人工智能领域。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示, 但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的 说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执 行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段, 这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执 行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤 或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种事件抽取装置,包括:目标文 本获取模块602、处理模块604、论元角色得到模块606、初始事件类型集合得 到模块608和事件抽取结果得到模块610,其中:
目标文本获取模块602,用于获取待进行事件抽取的目标文本;
处理模块604,用于将目标文本输入到事件抽取联合模型中进行处理,得到 目标文本中,各个目标分词分别对应的事件类型识别概率以及论元角色识别概 率;
论元角色得到模块606,用于根据论元角色识别概率识别得到目标分词对应 的目标论元角色;
初始事件类型集合得到模块608,用于根据事件类型识别概率识别得到初始 事件类型集合;
事件抽取结果得到模块610,用于从初始事件类型集合中筛选得到与目标论 元角色匹配的目标事件类型,以根据目标论元角色以及目标事件类型得到目标 文本对应的事件抽取结果。
在一些实施例中,如图7所示,事件抽取联合模型包括文本编码模型、事 件类型识别模型以及论元角色识别模型,处理模块604包括:
分词编码向量得到单元702,用于将目标文本输入到文本编码模型中,文本 编码模型对目标文本对应的各个目标分词进行编码,得到各个目标分词分别对 应的分词编码向量;
事件类型识别概率得到单元704,用于将目标分词分别对应的分词编码向量 输入到事件类型识别模型中,得到各个目标分词分别对应的事件类型识别概率;
论元角色识别概率得到单元706,用于将目标分词对应的分词编码向量输入 到论元角色识别模型中,得到各个目标分词分别对应的论元角色识别概率。
在一些实施例中,论元角色识别概率包括目标分词为候选论元角色的头指 针的概率以及为候选论元角色的尾指针的概率,装置还包括:头指针确定模块, 用于若目标分词为候选论元角色的头指针的概率大于第一阈值,则确定目标分 词为候选论元角色的头指针;尾指针确定模块,用于若目标分词为候选论元角 色的尾指针的概率大于第二阈值,则确定目标分词为候选论元角色的尾指针; 目标论元片段确定模块,用于根据候选论元角色的头指针以及候选论元角色的 尾指针确定目标论元片段。
在一些实施例中,事件类型识别概率包括目标分词为候选事件类型的头指 针的概率以及为候选事件类型的尾指针的概率,初始事件类型集合得到模块包 括:头事件类型集合获取单元,用于根据目标分词为候选事件类型的头指针的 概率,获取目标论元片段的起始点对应的头指针所对应的头事件类型集合;尾 事件类型集合获取单元,用于根据目标分词为候选事件类型的尾指针的概率, 获取目标论元片段的终止点对应的尾指针所对应的尾事件类型集合;初始事件 类型集合确定单元,用于根据头事件类型集合以及尾事件类型集合确定目标论 元片段对应的初始事件类型集合。
在一些实施例中,头事件类型集合获取单元用于:若目标分词为候选事件 类型的头指针的概率大于第三阈值,则确定目标分词为候选事件类型的头指针; 确定与目标论元片段的起始点的距离小于第一距离的目标分词,作为第一邻近 分词;将以第一邻近分词为头指针的候选事件类型作为头事件类型,得到头事 件类型集合。
在一些实施例中,尾事件类型集合获取单元用于:若目标分词为候选事件 类型的尾指针的概率大于第四阈值,则确定目标分词为候选事件类型的尾指针; 确定与目标论元片段的终止点的距离小于第二距离的目标分词,作为第二邻近 分词;将以第二邻近分词为尾指针的候选事件类型作为尾事件类型,得到尾事 件类型集合。
在一些实施例中,初始事件类型集合确定单元用于:将头事件类型集合中 的事件类型与尾事件类型集合中的事件类型进行对比;将对比一致的事件类型 作为初始事件类型,得到目标论元片段对应的初始事件类型集合。
在一些实施例中,事件抽取结果得到模块用于:获取预设的事件类型与论 元角色的匹配关系;根据事件类型与论元角色的匹配关系,将初始事件类型集 合中,与目标论元角色匹配的事件类型作为目标事件类型。
关于事件抽取装置的具体限定可以参见上文中对于事件抽取方法的限定, 在此不再赘述。上述事件抽取装置中的各个模块可全部或部分通过软件、硬件 及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处 理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调 用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器, 其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、 存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。 该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介 质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中 的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储事 件抽取数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。 该计算机程序被处理器执行时以实现一种事件抽取方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关 的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定, 具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件, 或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器 中存储有计算机程序,该处理器执行计算机程序时实现上述事件抽取方法的步 骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程 序,计算机程序被处理器执行时实现上述事件抽取方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于 一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述 各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、 存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的 至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、 磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM) 或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述 实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特 征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的 普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改 进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权 利要求为准。

Claims (11)

1.一种事件抽取方法,其特征在于,所述方法包括:
获取待进行事件抽取的目标文本;
将所述目标文本输入到事件抽取联合模型中进行处理,得到所述目标文本中,各个目标分词分别对应的事件类型识别概率以及论元角色识别概率;
根据所述论元角色识别概率识别得到所述目标分词对应的目标论元角色;
根据所述事件类型识别概率识别得到初始事件类型集合;
从所述初始事件类型集合中筛选得到与所述目标论元角色匹配的目标事件类型,以根据所述目标论元角色以及所述目标事件类型得到所述目标文本对应的事件抽取结果。
2.根据权利要求1所述的方法,其特征在于,所述事件抽取联合模型包括文本编码模型、事件类型识别模型以及论元角色识别模型,所述将所述目标文本输入到事件抽取联合模型中进行处理,得到所述目标文本中,各个目标分词分别对应的事件类型识别概率以及论元角色识别概率包括:
将所述目标文本输入到所述文本编码模型中,所述文本编码模型对所述目标文本对应的各个目标分词进行编码,得到各个所述目标分词分别对应的分词编码向量;
将所述目标分词分别对应的分词编码向量输入到所述事件类型识别模型中,得到各个所述目标分词分别对应的事件类型识别概率;
将所述目标分词对应的分词编码向量输入到所述论元角色识别模型中,得到各个所述目标分词分别对应的论元角色识别概率。
3.根据权利要求1所述的方法,其特征在于,所述论元角色识别概率包括所述目标分词为候选论元角色的头指针的概率以及为所述候选论元角色的尾指针的概率,所述方法还包括:
若所述目标分词为所述候选论元角色的头指针的概率大于第一阈值,则确定所述目标分词为所述候选论元角色的头指针;
若所述目标分词为所述候选论元角色的尾指针的概率大于第二阈值,则确定所述目标分词为所述候选论元角色的尾指针;
根据所述候选论元角色的头指针以及所述候选论元角色的尾指针确定目标论元片段。
4.根据权利要求3所述的方法,其特征在于,所述事件类型识别概率包括所述目标分词为候选事件类型的头指针的概率以及为所述候选事件类型的尾指针的概率,所述根据所述事件类型识别概率识别得到初始事件类型集合包括:
根据所述目标分词为候选事件类型的头指针的概率,获取所述目标论元片段的起始点对应的头指针所对应的头事件类型集合;
根据所述目标分词为所述候选事件类型的尾指针的概率,获取所述目标论元片段的终止点对应的尾指针所对应的尾事件类型集合;
根据所述头事件类型集合以及所述尾事件类型集合确定所述目标论元片段对应的初始事件类型集合。
5.根据权利要求4所述的方法,其特征在于,所述根据所述目标分词为候选事件类型的头指针的概率,获取所述目标论元片段的起始点对应的头指针所对应的头事件类型集合包括:
若所述目标分词为候选事件类型的头指针的概率大于第三阈值,则确定所述目标分词为所述候选事件类型的头指针;
确定与所述目标论元片段的起始点的距离小于第一距离的目标分词,作为第一邻近分词;
将以所述第一邻近分词为头指针的候选事件类型作为头事件类型,得到头事件类型集合。
6.根据权利要求4所述的方法,其特征在于,所述根据所述目标分词为候选事件类型的尾指针的概率,获取所述目标论元片段的终止点对应的尾指针所对应的尾事件类型集合包括:
若所述目标分词为候选事件类型的尾指针的概率大于第四阈值,则确定所述目标分词为所述候选事件类型的尾指针;
确定与所述目标论元片段的终止点的距离小于第二距离的目标分词,作为第二邻近分词;
将以所述第二邻近分词为尾指针的候选事件类型作为尾事件类型,得到尾事件类型集合。
7.根据权利要求4所述的方法,其特征在于,所述根据所述头事件类型集合以及尾事件类型集合确定所述目标论元片段对应的初始事件类型集合包括:
将所述头事件类型集合中的事件类型与所述尾事件类型集合中的事件类型进行对比;
将对比一致的事件类型作为初始事件类型,得到所述目标论元片段对应的初始事件类型集合。
8.根据权利要求1所述的方法,其特征在于,所述从所述初始事件类型集合中筛选得到与所述目标论元角色匹配的目标事件类型包括:
获取预设的事件类型与论元角色的匹配关系;
根据所述事件类型与论元角色的匹配关系,将所述初始事件类型集合中,与所述目标论元角色匹配的事件类型作为目标事件类型。
9.一种事件抽取装置,其特征在于,所述装置包括:
目标文本获取模块,用于获取待进行事件抽取的目标文本;
处理模块,用于将所述目标文本输入到事件抽取联合模型中进行处理,得到所述目标文本中,各个目标分词分别对应的事件类型识别概率以及论元角色识别概率;
论元角色得到模块,用于根据所述论元角色识别概率识别得到所述目标分词对应的目标论元角色;
初始事件类型集合得到模块,用于根据所述事件类型识别概率识别得到初始事件类型集合;
事件抽取结果得到模块,用于从所述初始事件类型集合中筛选得到与所述目标论元角色匹配的目标事件类型,以根据所述目标论元角色以及所述目标事件类型得到所述目标文本对应的事件抽取结果。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN202011285003.6A 2020-11-17 2020-11-17 事件抽取方法、装置、计算机设备和存储介质 Active CN112580346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011285003.6A CN112580346B (zh) 2020-11-17 2020-11-17 事件抽取方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011285003.6A CN112580346B (zh) 2020-11-17 2020-11-17 事件抽取方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112580346A CN112580346A (zh) 2021-03-30
CN112580346B true CN112580346B (zh) 2022-05-06

Family

ID=75122712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011285003.6A Active CN112580346B (zh) 2020-11-17 2020-11-17 事件抽取方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112580346B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704476B (zh) * 2021-09-02 2022-03-04 中科雨辰科技有限公司 目标事件抽取数据处理系统
CN113722461B (zh) * 2021-09-02 2022-05-06 中科雨辰科技有限公司 目标事件抽取数据处理系统
CN113722462B (zh) * 2021-09-02 2022-03-04 中科雨辰科技有限公司 目标论元信息抽取数据处理系统
CN113901793A (zh) * 2021-12-08 2022-01-07 北京来也网络科技有限公司 结合rpa和ai的事件抽取方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530281A (zh) * 2013-10-15 2014-01-22 苏州大学 一种论元抽取方法和系统
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
JP2019046304A (ja) * 2017-09-05 2019-03-22 株式会社国際電気通信基礎技術研究所 イベント系列抽出装置、イベント系列抽出方法およびイベント抽出プログラム
CN109582949A (zh) * 2018-09-14 2019-04-05 阿里巴巴集团控股有限公司 事件元素抽取方法、装置、计算设备及存储介质
CN110008445A (zh) * 2019-03-08 2019-07-12 阿里巴巴集团控股有限公司 事件抽取方法及装置、电子设备
CN111428504A (zh) * 2020-03-17 2020-07-17 北京明略软件系统有限公司 一种事件抽取方法和装置
CN111488726A (zh) * 2020-03-31 2020-08-04 成都数之联科技有限公司 基于指针网络的非结构文本抽取多任务联合训练方法
CN111522915A (zh) * 2020-04-20 2020-08-11 北大方正集团有限公司 中文事件的抽取方法、装置、设备及存储介质
CN111581345A (zh) * 2020-04-26 2020-08-25 上海明略人工智能(集团)有限公司 一种文档级别的事件抽取方法和装置
CN111881258A (zh) * 2020-07-28 2020-11-03 广东工业大学 一种自学习事件抽取方法及其应用

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1531458B1 (en) * 2003-11-12 2008-04-16 Sony Deutschland GmbH Apparatus and method for automatic extraction of important events in audio signals
US20090235280A1 (en) * 2008-03-12 2009-09-17 Xerox Corporation Event extraction system for electronic messages

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530281A (zh) * 2013-10-15 2014-01-22 苏州大学 一种论元抽取方法和系统
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
JP2019046304A (ja) * 2017-09-05 2019-03-22 株式会社国際電気通信基礎技術研究所 イベント系列抽出装置、イベント系列抽出方法およびイベント抽出プログラム
CN109582949A (zh) * 2018-09-14 2019-04-05 阿里巴巴集团控股有限公司 事件元素抽取方法、装置、计算设备及存储介质
CN110008445A (zh) * 2019-03-08 2019-07-12 阿里巴巴集团控股有限公司 事件抽取方法及装置、电子设备
CN111428504A (zh) * 2020-03-17 2020-07-17 北京明略软件系统有限公司 一种事件抽取方法和装置
CN111488726A (zh) * 2020-03-31 2020-08-04 成都数之联科技有限公司 基于指针网络的非结构文本抽取多任务联合训练方法
CN111522915A (zh) * 2020-04-20 2020-08-11 北大方正集团有限公司 中文事件的抽取方法、装置、设备及存储介质
CN111581345A (zh) * 2020-04-26 2020-08-25 上海明略人工智能(集团)有限公司 一种文档级别的事件抽取方法和装置
CN111881258A (zh) * 2020-07-28 2020-11-03 广东工业大学 一种自学习事件抽取方法及其应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Entity, Relation, and Event Extraction with Contextualized Span Representations;DavidWaddeny et.al;《arXiv:1909.03546v2 [cs.CL]》;20190910;第1-9页 *
基于语义的中文事件触发词抽取联合模型;李培峰等;《软件学报》;20160228;第27卷(第2期);第280-294页 *

Also Published As

Publication number Publication date
CN112580346A (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN112580346B (zh) 事件抽取方法、装置、计算机设备和存储介质
US10380236B1 (en) Machine learning system for annotating unstructured text
WO2021027533A1 (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN109978060B (zh) 一种自然语言要素抽取模型的训练方法及装置
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
US20230244704A1 (en) Sequenced data processing method and device, and text processing method and device
CN113094578B (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
US20210390370A1 (en) Data processing method and apparatus, storage medium and electronic device
CN111444349A (zh) 信息抽取方法、装置、计算机设备和存储介质
CN112347223B (zh) 文档检索方法、设备及计算机可读存储介质
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN112766319A (zh) 对话意图识别模型训练方法、装置、计算机设备及介质
CN112000809A (zh) 一种文本类别的增量学习方法及装置、可读存储介质
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN116304748A (zh) 一种文本相似度计算方法、系统、设备及介质
CN115312033A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
CN111898339B (zh) 基于约束解码的古诗生成方法、装置、设备及介质
US20210044864A1 (en) Method and apparatus for identifying video content based on biometric features of characters
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
WO2021160822A1 (en) A method for linking a cve with at least one synthetic cpe
CN113822018A (zh) 实体关系联合抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant