CN114492377B - 一种事件角色的标注方法和计算机设备、计算机可读存储介质 - Google Patents

一种事件角色的标注方法和计算机设备、计算机可读存储介质 Download PDF

Info

Publication number
CN114492377B
CN114492377B CN202111654758.3A CN202111654758A CN114492377B CN 114492377 B CN114492377 B CN 114492377B CN 202111654758 A CN202111654758 A CN 202111654758A CN 114492377 B CN114492377 B CN 114492377B
Authority
CN
China
Prior art keywords
event
character
argument
role
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111654758.3A
Other languages
English (en)
Other versions
CN114492377A (zh
Inventor
夏振涛
谈辉
李艳
朱立烨
石雁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yozosoft Co ltd
Original Assignee
Yozosoft Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yozosoft Co ltd filed Critical Yozosoft Co ltd
Priority to CN202111654758.3A priority Critical patent/CN114492377B/zh
Publication of CN114492377A publication Critical patent/CN114492377A/zh
Priority to PCT/CN2022/097169 priority patent/WO2023123867A1/zh
Application granted granted Critical
Publication of CN114492377B publication Critical patent/CN114492377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种事件角色的标注方法,其包括如下步骤:S1,字符编码:将句子中的各个字符进行切分编码,作为模型的输入部分;S2,特征抽取:使用双向LSTM编码,将其转换为向量码,得到句子中每个字符的特征表示;S3,事件、论元、角色预测得分:使用多层感知机MLP网络确定事件、论元以及角色,分别计算其MLP得分;S4,优化概率:对模型进行训练,优化句子中事件‑论元‑角色三元组的概率。本发明具有提高事件提取的准确性和效率等优点。

Description

一种事件角色的标注方法和计算机设备、计算机可读存储 介质
技术领域
本发明涉及计算机技术领域,具体涉及一种事件角色标注模型的标注方法。
背景技术
事件角色标注任务是标注出句子中的事件(句子中的事件可能是单事件也可能是多事件)、涉及该事件的论元、以及论元在该事件中扮演的角色。在NLP领域中,和该想法相似的任务是事件抽取。在事件抽取过程中,一个事件往往被更形式化的定义为包含了事件触发词(表示事件的核心词)、事件类型、事件论元(事件的参与者)和事件论元角色(事件论元在事件中充当的角色),因此事件抽取任务就是识别出上述事件要素并进行结构化组织。
在给定的事件角色标注数据集中,未经过分词,使用斯坦福分词器对数据分词后,发现数据集中存在891条分词错误,例如句子“转租了一间餐饮店,在办营业执照时,但在注消税务证时有笔房屋使用税,请问一下这段由他还是我出?”,其中一个实体为“税务证”,分词后为“转租/了/一/间/餐饮店/,/在/办/营业/执照/时/,/但/在/注消/税务/证时/有笔/房屋/使用税/,/请/问/一下/这段/由/他/还是/我/出/?”,可以发现,实体“税务证”中字符“证”分到了“证时”,这样就不能在句子中搜索到实体“税务证”。
因此,有必要提供一种新的技术方案。
发明内容
为解决现有技术中存在的技术问题,本发明公开了一种事件角色的标注方法,具体技术方案如下所述:
本发明提供一种事件角色的标注方法,包括如下步骤:
S1,字符编码:将句子中的各个字符进行切分编码,作为模型的输入部分;
S2,特征抽取:使用双向LSTM(Long short-term memory)编码,将其转换为向量码,得到句子中每个字符的特征表示;
S3,事件、论元、角色预测得分:使用多层感知机MLP网络确定事件、论元以及角色,分别计算其MLP得分;
S4,优化概率:对模型进行训练,优化句子中事件-论元-角色三元组的概率。
进一步地,S1中,给定句子S=c0,c1,c2,…,cn,c0是在句子首部增加的一个虚根节点,用于预测事件。
进一步地,S1中,模型的输入部分包括字符嵌入char embedding和BERTembedding,其可表示为
其中字符嵌入char embedding用word2vec模型得到,BERT embedding用BERT模型得到。
进一步地,S2中,取BiLSTM输出向量的第一个位置作为事件特征表示对于所有候选论元,通过在相应论元span内对BiLSTM输出采用均值运算来表示特征角色特征表示是事件特征表示/>和论文特征/>的拼接。
进一步地,事件、论元以及角色的MLP得分分别为:
进一步地,基于span的模型目标是预测事件-论元-角色其中P是候选事件集合,A={(ci,…,cj)|1≤i≤j≤n}是候选论元,R是候选论元角色集合,模型的优化目标是优化句子中事件-论元-角色三元组的概率,即
其中,是事件-论元-角色三元组的得分。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1,字符编码:将句子中的各个字符进行切分编码,作为模型的输入部分;
S2,特征抽取:使用双向LSTM编码,将其转换为向量码,得到句子中每个字符的特征表示;
S3,事件、论元、角色预测得分:使用多层感知机MLP网络确定事件、论元以及角色,分别计算其MLP得分;
S4,优化概率:对模型进行训练,优化句子中事件-论元-角色三元组的概率。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
S1,字符编码:将句子中的各个字符进行切分编码,作为模型的输入部分;
S2,特征抽取:使用双向LSTM编码,将其转换为向量码,得到句子中每个字符的特征表示;
S3,事件、论元、角色预测得分:使用多层感知机MLP网络确定事件、论元以及角色,分别计算其MLP得分;
S4,优化概率:对模型进行训练,优化句子中事件-论元-角色三元组的概率。
本发明具有以下有益效果:
1、本发明提供的事件角色的标注方法,使用基于span的方法,事件角色标注模型以字符作为输入,论元基于span预测,span为连续的字符串。
2、本发明提供的事件角色的标注方法,能够提高事件提取的准确性和效率。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明事件角色的标注方法的流程图。
具体实施方式
为进一步阐述本发明所采用的技术手段和达到的技术效果,以下结合实施例做详细说明。
本发明提供了一种事件角色的标注方法,参考图1,其包括如下步骤:
S1,字符编码:将句子中的各个字符进行切分编码,作为模型的输入部分;
S2,特征抽取:使用双向LSTM编码,将其转换为向量码,得到句子中每个字符的特征表示;
S3,事件、论元、角色预测得分:使用多层感知机MLP网络确定事件、论元以及角色,分别计算其MLP得分;
S4,优化概率:对模型进行训练,优化句子中事件-论元-角色三元组的概率。
S1中,给定句子S=c0,c1,c2,…,cn,c0是在句子首部增加的一个虚根节点,用于预测事件。模型的输入部分包括字符嵌入char embedding和BERT embedding,其可表示为
其中字符嵌入char embedding用word2vec模型得到,BERT embedding用BERT模型得到。
S2中,取BiLSTM输出向量的第一个位置作为事件特征表示对于所有候选论元,通过在相应论元span内对BiLSTM输出采用均值运算来表示特征角色特征表示是事件特征表示/>和论文特征/>的拼接。
S3中,事件、论元以及角色的MLP得分分别为:
S4中,基于span的模型目标是预测事件-论元-角色其中P是候选事件集合,A={(ci,…,cj)|1≤i≤j≤n}是候选论元,R是候选论元角色集合,模型的优化目标是优化句子中事件-论元-角色三元组的概率,即
其中,是事件-论元-角色三元组的得分。
在一个实施例中,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法实施例中的步骤。
在一个实施例中,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法实施例中的步骤。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改和变型。

Claims (5)

1.一种事件角色的标注方法,其特征在于,包括如下步骤:
S1,字符编码:将句子中的各个字符进行切分编码,作为模型的输入部分;
S2,特征抽取:使用双向LSTM编码,将其转换为向量码,得到句子中每个字符的特征表示;
S3,事件、论元、角色预测得分:使用多层感知机MLP网络确定事件、论元以及角色,分别计算其MLP得分;
S4,优化概率:对模型进行训练,优化句子中事件-论元-角色三元组的概率,
S2中,取BiLSTM输出向量的第一个位置作为事件特征表示对于所有候选论元,通过在相应论元span内对BiLSTM输出采用均值运算来表示特征角色特征表示是事件特征表示/>和论元特征/>的拼接,
事件、论元以及角色的MLP得分分别为:
基于span的模型目标是预测事件-论元-角色其中P是候选事件集合,A=B(c),…,cj,|1≤i≤j≤n}是候选论元集合,R是候选论元角色集合,模型的优化目标是优化句子中事件-论元-角色三元组的概率,即
其中,是事件-论元-角色三元组的得分。
2.根据权利要求1所述的事件角色的标注方法,其特征在于,S1中,给定句子S=c0,c1,c2,…,c3,c0是在句子首部增加的一个虚根节点,用于预测事件。
3.根据权利要求1所述的事件角色的标注方法,其特征在于,S1中,模型的输入部分包括字符嵌入char embedding和BERT embedding,其表示为
其中字符嵌入char embedding用word2vec模型得到,BERT embedding用BERT模型得到。
4.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至3中任一项所述方法的步骤。
CN202111654758.3A 2021-12-30 2021-12-30 一种事件角色的标注方法和计算机设备、计算机可读存储介质 Active CN114492377B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111654758.3A CN114492377B (zh) 2021-12-30 2021-12-30 一种事件角色的标注方法和计算机设备、计算机可读存储介质
PCT/CN2022/097169 WO2023123867A1 (zh) 2021-12-30 2022-06-06 一种事件角色的标注方法和计算机设备、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111654758.3A CN114492377B (zh) 2021-12-30 2021-12-30 一种事件角色的标注方法和计算机设备、计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN114492377A CN114492377A (zh) 2022-05-13
CN114492377B true CN114492377B (zh) 2024-04-16

Family

ID=81507801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111654758.3A Active CN114492377B (zh) 2021-12-30 2021-12-30 一种事件角色的标注方法和计算机设备、计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN114492377B (zh)
WO (1) WO2023123867A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492377B (zh) * 2021-12-30 2024-04-16 永中软件股份有限公司 一种事件角色的标注方法和计算机设备、计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020001373A1 (zh) * 2018-06-26 2020-01-02 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
CN112528676A (zh) * 2020-12-18 2021-03-19 南开大学 文档级别的事件论元抽取方法
CN113407660A (zh) * 2021-08-16 2021-09-17 中国科学院自动化研究所 非结构化文本事件抽取方法
KR20210124938A (ko) * 2020-11-26 2021-10-15 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이벤트 추출 방법, 장치, 전자 기기 및 저장 매체

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11132541B2 (en) * 2017-09-29 2021-09-28 The Mitre Corporation Systems and method for generating event timelines using human language technology
CN110134757B (zh) * 2019-04-19 2020-04-07 杭州电子科技大学 一种基于多头注意力机制的事件论元角色抽取方法
US11687385B2 (en) * 2020-05-21 2023-06-27 International Business Machines Corporation Unsupervised event extraction
CN112163416B (zh) * 2020-10-09 2021-11-02 北京理工大学 一种融合句法和实体关系图卷积网络的事件联合抽取方法
CN112632225B (zh) * 2020-12-29 2022-08-30 天津汇智星源信息技术有限公司 基于案事件知识图谱的语义搜索方法、装置和电子设备
CN112765980B (zh) * 2021-02-01 2023-05-12 广州市刑事科学技术研究所 一种面向警情笔录的事件论元角色抽取方法和装置
CN113591483A (zh) * 2021-04-27 2021-11-02 重庆邮电大学 一种基于序列标注的文档级事件论元抽取方法
CN113239694B (zh) * 2021-06-04 2022-06-14 北京理工大学 一种基于论元短语的论元角色识别的方法
CN114492377B (zh) * 2021-12-30 2024-04-16 永中软件股份有限公司 一种事件角色的标注方法和计算机设备、计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020001373A1 (zh) * 2018-06-26 2020-01-02 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
KR20210124938A (ko) * 2020-11-26 2021-10-15 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이벤트 추출 방법, 장치, 전자 기기 및 저장 매체
CN112528676A (zh) * 2020-12-18 2021-03-19 南开大学 文档级别的事件论元抽取方法
CN113407660A (zh) * 2021-08-16 2021-09-17 中国科学院自动化研究所 非结构化文本事件抽取方法

Also Published As

Publication number Publication date
CN114492377A (zh) 2022-05-13
WO2023123867A1 (zh) 2023-07-06

Similar Documents

Publication Publication Date Title
CN111309915B (zh) 联合学习的自然语言训练方法、系统、设备及存储介质
CN110232183B (zh) 关键词提取模型训练方法、关键词提取方法、装置及存储介质
CN110032641B (zh) 计算机执行的、利用神经网络进行事件抽取的方法及装置
CN112036162B (zh) 文本纠错的适配方法、装置、电子设备及存储介质
CN111666427A (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN107112009B (zh) 用于生成混淆网络的方法、系统和计算机可读存储设备
CN113987169A (zh) 基于语义块的文本摘要生成方法、装置、设备及存储介质
CN110678882A (zh) 使用机器学习从电子文档选择回答跨距
CN113761219A (zh) 基于知识图谱的检索方法、装置、电子设备及存储介质
CN111737974A (zh) 一种语句的语义抽象化表示方法及装置
CN114492377B (zh) 一种事件角色的标注方法和计算机设备、计算机可读存储介质
CN111611802A (zh) 多领域实体识别方法
CN113326367B (zh) 基于端到端文本生成的任务型对话方法和系统
CN114528387A (zh) 基于对话流自举的深度学习对话策略模型构建方法和系统
CN113360683A (zh) 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN110717316B (zh) 字幕对话流的主题分割方法及装置
CN112183062A (zh) 一种基于交替解码的口语理解方法、电子设备和存储介质
CN111814496A (zh) 文本处理方法、装置、设备及存储介质
US20230139642A1 (en) Method and apparatus for extracting skill label
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
US20220215182A1 (en) Information processing apparatus, information learning apparatus, information processing method, information learning method and program
CN112183095A (zh) 一种事件抽取方法和装置
US11887620B2 (en) Language model score calculation apparatus, language model generation apparatus, methods therefor, program, and recording medium
CN114358736A (zh) 客服工单生成方法、装置、存储介质和电子设备
CN112966513A (zh) 用于实体链接的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant