CN114492377A - 一种事件角色的标注方法和计算机设备、计算机可读存储介质 - Google Patents

一种事件角色的标注方法和计算机设备、计算机可读存储介质 Download PDF

Info

Publication number
CN114492377A
CN114492377A CN202111654758.3A CN202111654758A CN114492377A CN 114492377 A CN114492377 A CN 114492377A CN 202111654758 A CN202111654758 A CN 202111654758A CN 114492377 A CN114492377 A CN 114492377A
Authority
CN
China
Prior art keywords
event
argument
role
sentence
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111654758.3A
Other languages
English (en)
Other versions
CN114492377B (zh
Inventor
夏振涛
谈辉
李艳
朱立烨
石雁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yozosoft Co ltd
Original Assignee
Yozosoft Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yozosoft Co ltd filed Critical Yozosoft Co ltd
Priority to CN202111654758.3A priority Critical patent/CN114492377B/zh
Publication of CN114492377A publication Critical patent/CN114492377A/zh
Priority to PCT/CN2022/097169 priority patent/WO2023123867A1/zh
Application granted granted Critical
Publication of CN114492377B publication Critical patent/CN114492377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种事件角色的标注方法,其包括如下步骤:S1,字符编码:将句子中的各个字符进行切分编码,作为模型的输入部分;S2,特征抽取:使用双向LSTM编码,将其转换为向量码,得到句子中每个字符的特征表示;S3,事件、论元、角色预测得分:使用多层感知机MLP网络确定事件、论元以及角色,分别计算其MLP得分;S4,优化概率:对模型进行训练,优化句子中事件‑论元‑角色三元组的概率。本发明具有提高事件提取的准确性和效率等优点。

Description

一种事件角色的标注方法和计算机设备、计算机可读存储 介质
技术领域
本发明涉及计算机技术领域,具体涉及一种事件角色标注模型的标注方法。
背景技术
事件角色标注任务是标注出句子中的事件(句子中的事件可能是单事件也可能是多事件)、涉及该事件的论元、以及论元在该事件中扮演的角色。在NLP领域中,和该想法相似的任务是事件抽取。在事件抽取过程中,一个事件往往被更形式化的定义为包含了事件触发词(表示事件的核心词)、事件类型、事件论元(事件的参与者)和事件论元角色(事件论元在事件中充当的角色),因此事件抽取任务就是识别出上述事件要素并进行结构化组织。
在给定的事件角色标注数据集中,未经过分词,使用斯坦福分词器对数据分词后,发现数据集中存在891条分词错误,例如句子“转租了一间餐饮店,在办营业执照时,但在注消税务证时有笔房屋使用税,请问一下这段由他还是我出?”,其中一个实体为“税务证”,分词后为“转租/了/一/间/餐饮店/,/在/办/营业/执照/时/,/但/在/注消/税务/证时/有笔/房屋/使用税/,/请/问/一下/这段/由/他/还是/我/出/?”,可以发现,实体“税务证”中字符“证”分到了“证时”,这样就不能在句子中搜索到实体“税务证”。
因此,有必要提供一种新的技术方案。
发明内容
为解决现有技术中存在的技术问题,本发明公开了一种事件角色的标注方法,具体技术方案如下所述:
本发明提供一种事件角色的标注方法,包括如下步骤:
S1,字符编码:将句子中的各个字符进行切分编码,作为模型的输入部分;
S2,特征抽取:使用双向LSTM(Long short-term memory)编码,将其转换为向量码,得到句子中每个字符的特征表示;
S3,事件、论元、角色预测得分:使用多层感知机MLP网络确定事件、论元以及角色,分别计算其MLP得分;
S4,优化概率:对模型进行训练,优化句子中事件-论元-角色三元组的概率。
进一步地,S1中,给定句子S=c0,c1,c2,…,cn,c0是在句子首部增加的一个虚根节点,用于预测事件。
进一步地,S1中,模型的输入部分包括字符嵌入char embedding和BERTembedding,其可表示为
Figure BDA0003447986380000021
其中字符嵌入char embedding用word2vec模型得到,BERT embedding用BERT模型得到。
进一步地,S2中,取BiLSTM输出向量的第一个位置作为事件特征表示
Figure BDA0003447986380000022
对于所有候选论元,通过在相应论元span内对BiLSTM输出采用均值运算来表示特征
Figure BDA0003447986380000023
角色特征表示是事件特征表示
Figure BDA0003447986380000024
和论文特征
Figure BDA0003447986380000025
的拼接。
进一步地,事件、论元以及角色的MLP得分分别为:
Figure BDA0003447986380000026
Figure BDA0003447986380000027
Figure BDA0003447986380000028
进一步地,基于span的模型目标是预测事件-论元-角色
Figure BDA0003447986380000029
其中P是候选事件集合,A={(ci,…,cj)|1≤i≤j≤n}是候选论元,R是候选论元角色集合,模型的优化目标是优化句子中事件-论元-角色三元组的概率,即
Figure BDA00034479863800000210
其中,
Figure BDA00034479863800000211
是事件-论元-角色三元组的得分。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1,字符编码:将句子中的各个字符进行切分编码,作为模型的输入部分;
S2,特征抽取:使用双向LSTM编码,将其转换为向量码,得到句子中每个字符的特征表示;
S3,事件、论元、角色预测得分:使用多层感知机MLP网络确定事件、论元以及角色,分别计算其MLP得分;
S4,优化概率:对模型进行训练,优化句子中事件-论元-角色三元组的概率。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
S1,字符编码:将句子中的各个字符进行切分编码,作为模型的输入部分;
S2,特征抽取:使用双向LSTM编码,将其转换为向量码,得到句子中每个字符的特征表示;
S3,事件、论元、角色预测得分:使用多层感知机MLP网络确定事件、论元以及角色,分别计算其MLP得分;
S4,优化概率:对模型进行训练,优化句子中事件-论元-角色三元组的概率。
本发明具有以下有益效果:
1、本发明提供的事件角色的标注方法,使用基于span的方法,事件角色标注模型以字符作为输入,论元基于span预测,span为连续的字符串。
2、本发明提供的事件角色的标注方法,能够提高事件提取的准确性和效率。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明事件角色的标注方法的流程图。
具体实施方式
为进一步阐述本发明所采用的技术手段和达到的技术效果,以下结合实施例做详细说明。
本发明提供了一种事件角色的标注方法,参考图1,其包括如下步骤:
S1,字符编码:将句子中的各个字符进行切分编码,作为模型的输入部分;
S2,特征抽取:使用双向LSTM编码,将其转换为向量码,得到句子中每个字符的特征表示;
S3,事件、论元、角色预测得分:使用多层感知机MLP网络确定事件、论元以及角色,分别计算其MLP得分;
S4,优化概率:对模型进行训练,优化句子中事件-论元-角色三元组的概率。
S1中,给定句子S=c0,c1,c2,…,cn,c0是在句子首部增加的一个虚根节点,用于预测事件。模型的输入部分包括字符嵌入char embedding和BERT embedding,其可表示为
Figure BDA0003447986380000041
其中字符嵌入char embedding用word2vec模型得到,BERT embedding用BERT模型得到。
S2中,取BiLSTM输出向量的第一个位置作为事件特征表示
Figure BDA0003447986380000042
对于所有候选论元,通过在相应论元span内对BiLSTM输出采用均值运算来表示特征
Figure BDA0003447986380000043
角色特征表示是事件特征表示
Figure BDA0003447986380000044
和论文特征
Figure BDA0003447986380000045
的拼接。
S3中,事件、论元以及角色的MLP得分分别为:
Figure BDA0003447986380000046
Figure BDA0003447986380000047
Figure BDA0003447986380000048
S4中,基于span的模型目标是预测事件-论元-角色
Figure BDA0003447986380000049
其中P是候选事件集合,A={(ci,…,cj)|1≤i≤j≤n}是候选论元,R是候选论元角色集合,模型的优化目标是优化句子中事件-论元-角色三元组的概率,即
Figure BDA00034479863800000410
其中,
Figure BDA00034479863800000411
是事件-论元-角色三元组的得分。
在一个实施例中,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法实施例中的步骤。
在一个实施例中,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法实施例中的步骤。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改和变型。

Claims (8)

1.一种事件角色的标注方法,其特征在于,包括如下步骤:
S1,字符编码:将句子中的各个字符进行切分编码,作为模型的输入部分;
S2,特征抽取:使用双向LSTM(Long short-term memory)编码,将其转换为向量码,得到句子中每个字符的特征表示;
S3,事件、论元、角色预测得分:使用多层感知机MLP网络确定事件、论元以及角色,分别计算其MLP得分;
S4,优化概率:对模型进行训练,优化句子中事件-论元-角色三元组的概率。
2.根据权利要求1所述的事件角色的标注方法,其特征在于,S1中,给定句子S=c0,c1,c2,…,cn,c0是在句子首部增加的一个虚根节点,用于预测事件。
3.根据权利要求1所述的事件角色的标注方法,其特征在于,S1中,模型的输入部分包括字符嵌入char embedding和BERT embedding,其可表示为
Figure FDA0003447986370000011
其中字符嵌入char embedding用word2vec模型得到,BERT embedding用BERT模型得到。
4.根据权利要求1所述的事件角色的标注方法,其特征在于,S2中,取BiLSTM输出向量的第一个位置作为事件特征表示
Figure FDA0003447986370000012
对于所有候选论元,通过在相应论元span内对BiLSTM输出采用均值运算来表示特征
Figure FDA0003447986370000013
Figure FDA0003447986370000014
角色特征表示是事件特征表示
Figure FDA0003447986370000015
和论文特征
Figure FDA0003447986370000016
的拼接。
5.根据权利要求4所述的事件角色的标注方法,其特征在于,事件、论元以及角色的MLP得分分别为:
Figure FDA0003447986370000017
Figure FDA0003447986370000018
Figure FDA0003447986370000019
6.根据权利要求5所述的事件角色的标注方法,其特征在于,基于span的模型目标是预测事件-论元-角色
Figure FDA0003447986370000021
其中P是候选事件集合,A={(ci,…,cj)|1≤i≤j≤n}是候选论元,R是候选论元角色集合,模型的优化目标是优化句子中事件-论元-角色三元组的概率,即
Figure FDA0003447986370000022
其中,
Figure FDA0003447986370000023
是事件-论元-角色三元组的得分。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
CN202111654758.3A 2021-12-30 2021-12-30 一种事件角色的标注方法和计算机设备、计算机可读存储介质 Active CN114492377B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111654758.3A CN114492377B (zh) 2021-12-30 2021-12-30 一种事件角色的标注方法和计算机设备、计算机可读存储介质
PCT/CN2022/097169 WO2023123867A1 (zh) 2021-12-30 2022-06-06 一种事件角色的标注方法和计算机设备、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111654758.3A CN114492377B (zh) 2021-12-30 2021-12-30 一种事件角色的标注方法和计算机设备、计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN114492377A true CN114492377A (zh) 2022-05-13
CN114492377B CN114492377B (zh) 2024-04-16

Family

ID=81507801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111654758.3A Active CN114492377B (zh) 2021-12-30 2021-12-30 一种事件角色的标注方法和计算机设备、计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN114492377B (zh)
WO (1) WO2023123867A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023123867A1 (zh) * 2021-12-30 2023-07-06 永中软件股份有限公司 一种事件角色的标注方法和计算机设备、计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020001373A1 (zh) * 2018-06-26 2020-01-02 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
CN112528676A (zh) * 2020-12-18 2021-03-19 南开大学 文档级别的事件论元抽取方法
CN113407660A (zh) * 2021-08-16 2021-09-17 中国科学院自动化研究所 非结构化文本事件抽取方法
KR20210124938A (ko) * 2020-11-26 2021-10-15 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이벤트 추출 방법, 장치, 전자 기기 및 저장 매체

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11132541B2 (en) * 2017-09-29 2021-09-28 The Mitre Corporation Systems and method for generating event timelines using human language technology
CN110134757B (zh) * 2019-04-19 2020-04-07 杭州电子科技大学 一种基于多头注意力机制的事件论元角色抽取方法
US11687385B2 (en) * 2020-05-21 2023-06-27 International Business Machines Corporation Unsupervised event extraction
CN112163416B (zh) * 2020-10-09 2021-11-02 北京理工大学 一种融合句法和实体关系图卷积网络的事件联合抽取方法
CN112632225B (zh) * 2020-12-29 2022-08-30 天津汇智星源信息技术有限公司 基于案事件知识图谱的语义搜索方法、装置和电子设备
CN112765980B (zh) * 2021-02-01 2023-05-12 广州市刑事科学技术研究所 一种面向警情笔录的事件论元角色抽取方法和装置
CN113591483A (zh) * 2021-04-27 2021-11-02 重庆邮电大学 一种基于序列标注的文档级事件论元抽取方法
CN113239694B (zh) * 2021-06-04 2022-06-14 北京理工大学 一种基于论元短语的论元角色识别的方法
CN114492377B (zh) * 2021-12-30 2024-04-16 永中软件股份有限公司 一种事件角色的标注方法和计算机设备、计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020001373A1 (zh) * 2018-06-26 2020-01-02 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
KR20210124938A (ko) * 2020-11-26 2021-10-15 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이벤트 추출 방법, 장치, 전자 기기 및 저장 매체
CN112528676A (zh) * 2020-12-18 2021-03-19 南开大学 文档级别的事件论元抽取方法
CN113407660A (zh) * 2021-08-16 2021-09-17 中国科学院自动化研究所 非结构化文本事件抽取方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023123867A1 (zh) * 2021-12-30 2023-07-06 永中软件股份有限公司 一种事件角色的标注方法和计算机设备、计算机可读存储介质

Also Published As

Publication number Publication date
CN114492377B (zh) 2024-04-16
WO2023123867A1 (zh) 2023-07-06

Similar Documents

Publication Publication Date Title
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN111666427B (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN112069302A (zh) 会话意图识别模型的训练方法、会话意图识别方法及装置
CN112036162A (zh) 文本纠错的适配方法、装置、电子设备及存储介质
WO2022116445A1 (zh) 文本纠错模型建立方法、装置、介质及电子设备
CN112380863A (zh) 一种基于多头自注意力机制的序列标注方法
JP7430820B2 (ja) ソートモデルのトレーニング方法及び装置、電子機器、コンピュータ可読記憶媒体、コンピュータプログラム
CN112232024A (zh) 一种基于多标注数据的依存句法分析模型训练方法及装置
CN113987169A (zh) 基于语义块的文本摘要生成方法、装置、设备及存储介质
JP2021033995A (ja) テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体
CN113239157B (zh) 对话模型的训练方法、装置、设备和存储介质
WO2022105121A1 (zh) 一种应用于bert模型的蒸馏方法、装置、设备及存储介质
WO2024099037A1 (zh) 数据处理、实体链接方法、装置和计算机设备
CN115906815B (zh) 一种用于修改一种或多种类型错误句子的纠错方法及装置
CN116432611A (zh) 文稿写作辅助方法、系统、终端及存储介质
CN114492377A (zh) 一种事件角色的标注方法和计算机设备、计算机可读存储介质
CN115019142A (zh) 基于融合特征的图像标题生成方法、系统、电子设备
CN114528387A (zh) 基于对话流自举的深度学习对话策略模型构建方法和系统
CN113360683A (zh) 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN117236340A (zh) 问答方法、装置、设备和介质
CN111814496A (zh) 文本处理方法、装置、设备及存储介质
CN112214994A (zh) 基于多级词典的分词方法、装置、设备及可读存储介质
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN115270792A (zh) 一种医疗实体识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant