CN114586038A - 事件抽取和抽取模型训练的方法和装置、设备、介质 - Google Patents
事件抽取和抽取模型训练的方法和装置、设备、介质 Download PDFInfo
- Publication number
- CN114586038A CN114586038A CN202080002135.5A CN202080002135A CN114586038A CN 114586038 A CN114586038 A CN 114586038A CN 202080002135 A CN202080002135 A CN 202080002135A CN 114586038 A CN114586038 A CN 114586038A
- Authority
- CN
- China
- Prior art keywords
- event
- character
- role
- characters
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 118
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 title claims description 62
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000015654 memory Effects 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 21
- 230000002457 bidirectional effect Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 238000012512 characterization method Methods 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 16
- 230000006870 function Effects 0.000 description 13
- 238000012360 testing method Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 12
- 238000003860 storage Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000004927 fusion Effects 0.000 description 7
- 238000002790 cross-validation Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 230000009977 dual effect Effects 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000013604 expression vector Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000003094 perturbing effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本公开提供的事件抽取的方法包括:用预设的抽取模型处理对象文本,确定对象文本的事件信息;其中,所述事件信息包括事件元素,以及所述事件元素对应的事件类型和角色;所述抽取模型包括分类层、输出层;所述分类层配置为确定所述对象文本的字符的字符属性;所述字符属性包括字符是否为每个事件类型和每个角色的事件元素的起始字符,以及字符是否为每个事件类型和每个角色的事件元素的终止字符;所述输出层配置为根据所述字符的字符属性确定事件元素,以及确定所述事件元素对应的事件类型和角色。
Description
PCT国内申请,说明书已公开。
Claims (19)
- PCT国内申请,权利要求书已公开。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2020/118374 WO2022061877A1 (zh) | 2020-09-28 | 2020-09-28 | 事件抽取和抽取模型训练的方法和装置、设备、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114586038A true CN114586038A (zh) | 2022-06-03 |
CN114586038B CN114586038B (zh) | 2024-08-27 |
Family
ID=80846135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080002135.5A Active CN114586038B (zh) | 2020-09-28 | 2020-09-28 | 事件抽取和抽取模型训练的方法和装置、设备、介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220318506A1 (zh) |
CN (1) | CN114586038B (zh) |
WO (1) | WO2022061877A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116629387A (zh) * | 2023-07-24 | 2023-08-22 | 湖南视觉伟业智能科技有限公司 | 一种用于训练缺失条件下的文本处理方法及处理系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114996414B (zh) * | 2022-08-05 | 2022-09-30 | 中科雨辰科技有限公司 | 一种确定相似事件的数据处理系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN110765265A (zh) * | 2019-09-06 | 2020-02-07 | 平安科技(深圳)有限公司 | 信息分类抽取方法、装置、计算机设备和存储介质 |
CN111488726A (zh) * | 2020-03-31 | 2020-08-04 | 成都数之联科技有限公司 | 基于指针网络的非结构文本抽取多任务联合训练方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5678896B2 (ja) * | 2010-01-18 | 2015-03-04 | 日本電気株式会社 | 要求抽出システム、要求抽出方法および要求抽出プログラム |
DK179049B1 (en) * | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
CN108334492B (zh) * | 2017-12-05 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 文本分词、即时消息处理方法和装置 |
CN109918658B (zh) * | 2019-02-28 | 2023-04-07 | 云孚科技(北京)有限公司 | 一种从文本中获取目标词汇的方法及系统 |
CN111241832B (zh) * | 2020-01-15 | 2023-08-15 | 北京百度网讯科技有限公司 | 核心实体标注方法、装置及电子设备 |
CN111368551B (zh) * | 2020-02-14 | 2023-12-05 | 京东科技控股股份有限公司 | 一种确定事件主体的方法和装置 |
CN111177326B (zh) * | 2020-04-10 | 2020-08-04 | 深圳壹账通智能科技有限公司 | 基于精标注文本的关键信息抽取方法、装置及存储介质 |
-
2020
- 2020-09-28 CN CN202080002135.5A patent/CN114586038B/zh active Active
- 2020-09-28 WO PCT/CN2020/118374 patent/WO2022061877A1/zh active Application Filing
- 2020-09-28 US US17/419,836 patent/US20220318506A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN110765265A (zh) * | 2019-09-06 | 2020-02-07 | 平安科技(深圳)有限公司 | 信息分类抽取方法、装置、计算机设备和存储介质 |
CN111488726A (zh) * | 2020-03-31 | 2020-08-04 | 成都数之联科技有限公司 | 基于指针网络的非结构文本抽取多任务联合训练方法 |
Non-Patent Citations (3)
Title |
---|
ZHIGANG KAN ET AL: "Event Arguments Extraction via Dilate Gated Convolutional Neural Network With Enhanced Local Features", IEEE ACCESS, vol. 8, 23 June 2020 (2020-06-23), pages 123483, XP011799376, DOI: 10.1109/ACCESS.2020.3004378 * |
深擎科技: "结合指针网络的注意力机制(PAN模型)实现金融领域事件抽取", Retrieved from the Internet <URL:https://baijiahao.baidu.com/s?id=1642933065001528188&wfr=spider&for=pc> * |
王炳乾 等: "基于BERT的多层标签指针网络事件抽取模型——2020语言与智能技术竞赛事件抽取任务系统报告", 中文信息学报, vol. 35, no. 7, 15 July 2021 (2021-07-15), pages 81 - 88 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116629387A (zh) * | 2023-07-24 | 2023-08-22 | 湖南视觉伟业智能科技有限公司 | 一种用于训练缺失条件下的文本处理方法及处理系统 |
CN116629387B (zh) * | 2023-07-24 | 2023-10-27 | 湖南视觉伟业智能科技有限公司 | 一种用于训练缺失条件下的文本处理方法及处理系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2022061877A1 (zh) | 2022-03-31 |
US20220318506A1 (en) | 2022-10-06 |
CN114586038B (zh) | 2024-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108376151B (zh) | 问题分类方法、装置、计算机设备和存储介质 | |
CN109858039B (zh) | 一种文本信息识别方法及识别装置 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN112711652B (zh) | 术语标准化方法及装置 | |
CN113836269B (zh) | 一种基于问答式系统的篇章级核心事件抽取方法 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
TWI734085B (zh) | 使用意圖偵測集成學習之對話系統及其方法 | |
CN112131876A (zh) | 一种基于相似度确定标准问题的方法及系统 | |
CN114282527A (zh) | 多语言文本检测与纠错方法、系统、电子设备及存储介质 | |
CN113033438A (zh) | 一种面向模态非完全对齐的数据特征学习方法 | |
CN114586038B (zh) | 事件抽取和抽取模型训练的方法和装置、设备、介质 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN113704393A (zh) | 关键词提取方法、装置、设备及介质 | |
CN113095072B (zh) | 文本处理方法及装置 | |
CN115470338A (zh) | 一种基于多路召回的多场景智能问答方法和系统 | |
CN111914553A (zh) | 一种基于机器学习的金融信息负面主体判定的方法 | |
CN113312918B (zh) | 融合部首向量的分词和胶囊网络法律命名实体识别方法 | |
CN117972434A (zh) | 文本处理模型的训练方法、装置、设备、介质和程序产品 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN116910251A (zh) | 基于bert模型的文本分类方法、装置、设备及介质 | |
CN111680136A (zh) | 一种口语语义匹配的方法及装置 | |
CN116779177A (zh) | 一种基于去偏见混合标签学习的内分泌疾病分类方法 | |
CN114595329B (zh) | 一种原型网络的少样本事件抽取系统及方法 | |
CN116244429A (zh) | 社交关系引导的多级特征交互融合的微博情感分析方法 | |
US11977853B2 (en) | Aggregating and identifying new sign language signs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |