CN114492377B - 一种事件角色的标注方法和计算机设备、计算机可读存储介质 - Google Patents
一种事件角色的标注方法和计算机设备、计算机可读存储介质 Download PDFInfo
- Publication number
- CN114492377B CN114492377B CN202111654758.3A CN202111654758A CN114492377B CN 114492377 B CN114492377 B CN 114492377B CN 202111654758 A CN202111654758 A CN 202111654758A CN 114492377 B CN114492377 B CN 114492377B
- Authority
- CN
- China
- Prior art keywords
- event
- character
- argument
- role
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims abstract description 10
- 238000004590 computer program Methods 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种事件角色的标注方法,其包括如下步骤:S1,字符编码:将句子中的各个字符进行切分编码,作为模型的输入部分;S2,特征抽取:使用双向LSTM编码,将其转换为向量码,得到句子中每个字符的特征表示;S3,事件、论元、角色预测得分:使用多层感知机MLP网络确定事件、论元以及角色,分别计算其MLP得分;S4,优化概率:对模型进行训练,优化句子中事件‑论元‑角色三元组的概率。本发明具有提高事件提取的准确性和效率等优点。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种事件角色标注模型的标注方法。
背景技术
事件角色标注任务是标注出句子中的事件(句子中的事件可能是单事件也可能是多事件)、涉及该事件的论元、以及论元在该事件中扮演的角色。在NLP领域中,和该想法相似的任务是事件抽取。在事件抽取过程中,一个事件往往被更形式化的定义为包含了事件触发词(表示事件的核心词)、事件类型、事件论元(事件的参与者)和事件论元角色(事件论元在事件中充当的角色),因此事件抽取任务就是识别出上述事件要素并进行结构化组织。
在给定的事件角色标注数据集中,未经过分词,使用斯坦福分词器对数据分词后,发现数据集中存在891条分词错误,例如句子“转租了一间餐饮店,在办营业执照时,但在注消税务证时有笔房屋使用税,请问一下这段由他还是我出?”,其中一个实体为“税务证”,分词后为“转租/了/一/间/餐饮店/,/在/办/营业/执照/时/,/但/在/注消/税务/证时/有笔/房屋/使用税/,/请/问/一下/这段/由/他/还是/我/出/?”,可以发现,实体“税务证”中字符“证”分到了“证时”,这样就不能在句子中搜索到实体“税务证”。
因此,有必要提供一种新的技术方案。
发明内容
为解决现有技术中存在的技术问题,本发明公开了一种事件角色的标注方法,具体技术方案如下所述:
本发明提供一种事件角色的标注方法,包括如下步骤:
S1,字符编码:将句子中的各个字符进行切分编码,作为模型的输入部分;
S2,特征抽取:使用双向LSTM(Long short-term memory)编码,将其转换为向量码,得到句子中每个字符的特征表示;
S3,事件、论元、角色预测得分:使用多层感知机MLP网络确定事件、论元以及角色,分别计算其MLP得分;
S4,优化概率:对模型进行训练,优化句子中事件-论元-角色三元组的概率。
进一步地,S1中,给定句子S=c0,c1,c2,…,cn,c0是在句子首部增加的一个虚根节点,用于预测事件。
进一步地,S1中,模型的输入部分包括字符嵌入char embedding和BERTembedding,其可表示为
其中字符嵌入char embedding用word2vec模型得到,BERT embedding用BERT模型得到。
进一步地,S2中,取BiLSTM输出向量的第一个位置作为事件特征表示对于所有候选论元,通过在相应论元span内对BiLSTM输出采用均值运算来表示特征角色特征表示是事件特征表示/>和论文特征/>的拼接。
进一步地,事件、论元以及角色的MLP得分分别为:
进一步地,基于span的模型目标是预测事件-论元-角色其中P是候选事件集合,A={(ci,…,cj)|1≤i≤j≤n}是候选论元,R是候选论元角色集合,模型的优化目标是优化句子中事件-论元-角色三元组的概率,即
其中,是事件-论元-角色三元组的得分。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1,字符编码:将句子中的各个字符进行切分编码,作为模型的输入部分;
S2,特征抽取:使用双向LSTM编码,将其转换为向量码,得到句子中每个字符的特征表示;
S3,事件、论元、角色预测得分:使用多层感知机MLP网络确定事件、论元以及角色,分别计算其MLP得分;
S4,优化概率:对模型进行训练,优化句子中事件-论元-角色三元组的概率。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
S1,字符编码:将句子中的各个字符进行切分编码,作为模型的输入部分;
S2,特征抽取:使用双向LSTM编码,将其转换为向量码,得到句子中每个字符的特征表示;
S3,事件、论元、角色预测得分:使用多层感知机MLP网络确定事件、论元以及角色,分别计算其MLP得分;
S4,优化概率:对模型进行训练,优化句子中事件-论元-角色三元组的概率。
本发明具有以下有益效果:
1、本发明提供的事件角色的标注方法,使用基于span的方法,事件角色标注模型以字符作为输入,论元基于span预测,span为连续的字符串。
2、本发明提供的事件角色的标注方法,能够提高事件提取的准确性和效率。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明事件角色的标注方法的流程图。
具体实施方式
为进一步阐述本发明所采用的技术手段和达到的技术效果,以下结合实施例做详细说明。
本发明提供了一种事件角色的标注方法,参考图1,其包括如下步骤:
S1,字符编码:将句子中的各个字符进行切分编码,作为模型的输入部分;
S2,特征抽取:使用双向LSTM编码,将其转换为向量码,得到句子中每个字符的特征表示;
S3,事件、论元、角色预测得分:使用多层感知机MLP网络确定事件、论元以及角色,分别计算其MLP得分;
S4,优化概率:对模型进行训练,优化句子中事件-论元-角色三元组的概率。
S1中,给定句子S=c0,c1,c2,…,cn,c0是在句子首部增加的一个虚根节点,用于预测事件。模型的输入部分包括字符嵌入char embedding和BERT embedding,其可表示为
其中字符嵌入char embedding用word2vec模型得到,BERT embedding用BERT模型得到。
S2中,取BiLSTM输出向量的第一个位置作为事件特征表示对于所有候选论元,通过在相应论元span内对BiLSTM输出采用均值运算来表示特征角色特征表示是事件特征表示/>和论文特征/>的拼接。
S3中,事件、论元以及角色的MLP得分分别为:
S4中,基于span的模型目标是预测事件-论元-角色其中P是候选事件集合,A={(ci,…,cj)|1≤i≤j≤n}是候选论元,R是候选论元角色集合,模型的优化目标是优化句子中事件-论元-角色三元组的概率,即
其中,是事件-论元-角色三元组的得分。
在一个实施例中,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法实施例中的步骤。
在一个实施例中,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法实施例中的步骤。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改和变型。
Claims (5)
1.一种事件角色的标注方法,其特征在于,包括如下步骤:
S1,字符编码:将句子中的各个字符进行切分编码,作为模型的输入部分;
S2,特征抽取:使用双向LSTM编码,将其转换为向量码,得到句子中每个字符的特征表示;
S3,事件、论元、角色预测得分:使用多层感知机MLP网络确定事件、论元以及角色,分别计算其MLP得分;
S4,优化概率:对模型进行训练,优化句子中事件-论元-角色三元组的概率,
S2中,取BiLSTM输出向量的第一个位置作为事件特征表示对于所有候选论元,通过在相应论元span内对BiLSTM输出采用均值运算来表示特征角色特征表示是事件特征表示/>和论元特征/>的拼接,
事件、论元以及角色的MLP得分分别为:
基于span的模型目标是预测事件-论元-角色其中P是候选事件集合,A=B(c),…,cj,|1≤i≤j≤n}是候选论元集合,R是候选论元角色集合,模型的优化目标是优化句子中事件-论元-角色三元组的概率,即
其中,是事件-论元-角色三元组的得分。
2.根据权利要求1所述的事件角色的标注方法,其特征在于,S1中,给定句子S=c0,c1,c2,…,c3,c0是在句子首部增加的一个虚根节点,用于预测事件。
3.根据权利要求1所述的事件角色的标注方法,其特征在于,S1中,模型的输入部分包括字符嵌入char embedding和BERT embedding,其表示为
其中字符嵌入char embedding用word2vec模型得到,BERT embedding用BERT模型得到。
4.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至3中任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111654758.3A CN114492377B (zh) | 2021-12-30 | 2021-12-30 | 一种事件角色的标注方法和计算机设备、计算机可读存储介质 |
PCT/CN2022/097169 WO2023123867A1 (zh) | 2021-12-30 | 2022-06-06 | 一种事件角色的标注方法和计算机设备、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111654758.3A CN114492377B (zh) | 2021-12-30 | 2021-12-30 | 一种事件角色的标注方法和计算机设备、计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114492377A CN114492377A (zh) | 2022-05-13 |
CN114492377B true CN114492377B (zh) | 2024-04-16 |
Family
ID=81507801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111654758.3A Active CN114492377B (zh) | 2021-12-30 | 2021-12-30 | 一种事件角色的标注方法和计算机设备、计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114492377B (zh) |
WO (1) | WO2023123867A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114492377B (zh) * | 2021-12-30 | 2024-04-16 | 永中软件股份有限公司 | 一种事件角色的标注方法和计算机设备、计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020001373A1 (zh) * | 2018-06-26 | 2020-01-02 | 杭州海康威视数字技术股份有限公司 | 一种本体构建方法及装置 |
CN112528676A (zh) * | 2020-12-18 | 2021-03-19 | 南开大学 | 文档级别的事件论元抽取方法 |
CN113407660A (zh) * | 2021-08-16 | 2021-09-17 | 中国科学院自动化研究所 | 非结构化文本事件抽取方法 |
KR20210124938A (ko) * | 2020-11-26 | 2021-10-15 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 이벤트 추출 방법, 장치, 전자 기기 및 저장 매체 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11132541B2 (en) * | 2017-09-29 | 2021-09-28 | The Mitre Corporation | Systems and method for generating event timelines using human language technology |
CN110134757B (zh) * | 2019-04-19 | 2020-04-07 | 杭州电子科技大学 | 一种基于多头注意力机制的事件论元角色抽取方法 |
US11687385B2 (en) * | 2020-05-21 | 2023-06-27 | International Business Machines Corporation | Unsupervised event extraction |
CN112163416B (zh) * | 2020-10-09 | 2021-11-02 | 北京理工大学 | 一种融合句法和实体关系图卷积网络的事件联合抽取方法 |
CN112632225B (zh) * | 2020-12-29 | 2022-08-30 | 天津汇智星源信息技术有限公司 | 基于案事件知识图谱的语义搜索方法、装置和电子设备 |
CN112765980B (zh) * | 2021-02-01 | 2023-05-12 | 广州市刑事科学技术研究所 | 一种面向警情笔录的事件论元角色抽取方法和装置 |
CN113591483A (zh) * | 2021-04-27 | 2021-11-02 | 重庆邮电大学 | 一种基于序列标注的文档级事件论元抽取方法 |
CN113239694B (zh) * | 2021-06-04 | 2022-06-14 | 北京理工大学 | 一种基于论元短语的论元角色识别的方法 |
CN114492377B (zh) * | 2021-12-30 | 2024-04-16 | 永中软件股份有限公司 | 一种事件角色的标注方法和计算机设备、计算机可读存储介质 |
-
2021
- 2021-12-30 CN CN202111654758.3A patent/CN114492377B/zh active Active
-
2022
- 2022-06-06 WO PCT/CN2022/097169 patent/WO2023123867A1/zh unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020001373A1 (zh) * | 2018-06-26 | 2020-01-02 | 杭州海康威视数字技术股份有限公司 | 一种本体构建方法及装置 |
KR20210124938A (ko) * | 2020-11-26 | 2021-10-15 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 이벤트 추출 방법, 장치, 전자 기기 및 저장 매체 |
CN112528676A (zh) * | 2020-12-18 | 2021-03-19 | 南开大学 | 文档级别的事件论元抽取方法 |
CN113407660A (zh) * | 2021-08-16 | 2021-09-17 | 中国科学院自动化研究所 | 非结构化文本事件抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114492377A (zh) | 2022-05-13 |
WO2023123867A1 (zh) | 2023-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111309915B (zh) | 联合学习的自然语言训练方法、系统、设备及存储介质 | |
CN110232183B (zh) | 关键词提取模型训练方法、关键词提取方法、装置及存储介质 | |
CN110032641B (zh) | 计算机执行的、利用神经网络进行事件抽取的方法及装置 | |
CN112036162B (zh) | 文本纠错的适配方法、装置、电子设备及存储介质 | |
CN111666427A (zh) | 一种实体关系联合抽取方法、装置、设备及介质 | |
CN107112009B (zh) | 用于生成混淆网络的方法、系统和计算机可读存储设备 | |
CN113987169A (zh) | 基于语义块的文本摘要生成方法、装置、设备及存储介质 | |
CN110678882A (zh) | 使用机器学习从电子文档选择回答跨距 | |
CN113761219A (zh) | 基于知识图谱的检索方法、装置、电子设备及存储介质 | |
CN111737974A (zh) | 一种语句的语义抽象化表示方法及装置 | |
CN114492377B (zh) | 一种事件角色的标注方法和计算机设备、计算机可读存储介质 | |
CN111611802A (zh) | 多领域实体识别方法 | |
CN113326367B (zh) | 基于端到端文本生成的任务型对话方法和系统 | |
CN114528387A (zh) | 基于对话流自举的深度学习对话策略模型构建方法和系统 | |
CN113360683A (zh) | 训练跨模态检索模型的方法以及跨模态检索方法和装置 | |
CN110717316B (zh) | 字幕对话流的主题分割方法及装置 | |
CN112183062A (zh) | 一种基于交替解码的口语理解方法、电子设备和存储介质 | |
CN111814496A (zh) | 文本处理方法、装置、设备及存储介质 | |
US20230139642A1 (en) | Method and apparatus for extracting skill label | |
CN116362242A (zh) | 一种小样本槽值提取方法、装置、设备及存储介质 | |
US20220215182A1 (en) | Information processing apparatus, information learning apparatus, information processing method, information learning method and program | |
CN112183095A (zh) | 一种事件抽取方法和装置 | |
US11887620B2 (en) | Language model score calculation apparatus, language model generation apparatus, methods therefor, program, and recording medium | |
CN114358736A (zh) | 客服工单生成方法、装置、存储介质和电子设备 | |
CN112966513A (zh) | 用于实体链接的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |