CN112765980B - 一种面向警情笔录的事件论元角色抽取方法和装置 - Google Patents
一种面向警情笔录的事件论元角色抽取方法和装置 Download PDFInfo
- Publication number
- CN112765980B CN112765980B CN202110138766.6A CN202110138766A CN112765980B CN 112765980 B CN112765980 B CN 112765980B CN 202110138766 A CN202110138766 A CN 202110138766A CN 112765980 B CN112765980 B CN 112765980B
- Authority
- CN
- China
- Prior art keywords
- event
- sentence information
- argument character
- training
- role
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 86
- 238000002372 labelling Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000012216 screening Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 68
- 238000004590 computer program Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 14
- 239000002574 poison Substances 0.000 claims description 8
- 231100000614 poison Toxicity 0.000 claims description 8
- 208000027418 Wounds and injury Diseases 0.000 claims description 3
- 230000006378 damage Effects 0.000 claims description 3
- 208000014674 injury Diseases 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 235000013365 dairy product Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Computer Security & Cryptography (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Development Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种面向警情笔录的事件论元角色抽取方法、装置、计算机设备和存储介质。所述方法包括:从警情笔录数据中筛选出包含警情的原始句子信息,对原始句子信息进行事件类型标注得到事件类型标注信息,根据事件类型标注信息生成多个“问题‑原文”含有问题的警情数据句子;通过预先训练好的事件论元角色抽取模型,用序列化标注的方式计算出每个字符最有可能的论元角色标签;综合多个含有问题的警情数据句子得到事件的全部论元角色。本发明所提出的方法应用于警情笔录数据,可以提高从警情笔录数据中提取论元角色的准确性和提取效率。
Description
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种面向警情笔录的事件论元角色抽取方法、装置、计算机设备和存储介质。
背景技术
在公安业务中,110接警平台每天会生成大量报警信息、出警处置信息等文本数据;各基层派出所也会不断产生不同案由类型的笔录信息、现场勘验笔录等文本数据。事件抽取能从非结构化文本中自动抽取到相关数据,如事件发生的时间、地点、任务等,从而实现信息的结构化、标准化。事件论元角色抽取是事件抽取的关键环节。论元角色包括:事件发生的时间、地点,事件涉及到的扮演不同角色的人,事件涉及的物品等。
传统方法论元角色的抽取通常基于句法依存分析对论元角色进行抽取,这种方法往往依赖于输入文本的规范性、句法依存分析的可靠性以及事件的触发词。而警情数据呈现短句化、省略语、模糊化、口语化的特点,使用传统的句法依存分析,效果差;此外警情数据中触发词的出现不遵循一个事件一个触发词的规则,使用传统方法会抽取不到事件或者重复抽取同一事件。
因此,现有技术存在适应性差、效果不佳的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高警情笔录数据论元角色抽取效果的面向警情笔录的事件论元角色抽取方法、装置、计算机设备和存储介质。
一种面向警情笔录的事件论元角色抽取方法,所述方法包括:
色抽取方法,其特征在于,所述方法包括:
获取警情笔录数据,从所述警情笔录数据中筛选出包含警情的原始句子信息,对所述原始句子信息进行事件类型标注得到事件类型标注信息;所述事件类型为一个或多个;每个所述事件类型对应不同的事件论元角色问题;
根据所述事件类型标注信息,按照预定义的规则生成对应的事件论元角色问题;所述事件论元角色问题为一个或多个;
由一条所述原始句子信息和一个所述事件论元角色问题,组成一个含问题的句子信息,将所述含问题的句子信息输入到预先训练好的事件论元角色抽取模型中,得到所述含问题的句子信息对应的事件论元角色标签序列,根据所述事件论元角色标签序列得到所述含问题的句子信息对应的论元角色;所述事件论元角色抽取模型包括预训练语言模型BERT层、BiLSTM层和条件随机场层。
在其中一个实施例中,训练所述事件论元角色抽取模型的步骤包括:
由警情笔录数据中筛选出包含警情的原始句子信息构成第一训练数据集,并对所述原始句子信息进行事件类型标注得到事件类型标注信息;
根据所述事件类型标注信息,生成对应的事件论元角色问题,根据所述原始句子信息和所述事件论元角色信息得到含问题的句子信息,根据所述含问题的句子信息得到第二训练数据集;
将所述第二训练数据集输入到事件论元角色抽取模型中,对所述事件论元角色抽取模型进行训练,对所述事件论元角色抽取模型输出的第一事件论元角色标签序列与专家预先标注的第二事件论元角色标签序列进行损失计算,当损失不再随着训练轮数的增加而减小时,完成所述事件论元角色抽取模型的训练,得到训练好的事件论元角色抽取模型。
在其中一个实施例中,还包括:在将所述第二训练数据集输入到事件论元角色抽取模型中,对所述事件论元角色抽取模型进行训练,对所述事件论元角色抽取模型输出的第一事件论元角色标签序列与人工预先标注的第二事件论元角色标签序列进行损失计算,当损失不再随着训练轮数的增加而减小时,完成所述事件论元角色抽取模型的训练,得到训练好的事件论元角色抽取模型之前,通过专家对所述第二训练数据集中含问题的句子信息,采用BIEO的方式标注出所述事件论元角色问题的答案。
在其中一个实施例中,还包括:将所述含问题的句子信息输入到预训练语言模型BERT中,得到所述含问题的句子信息的向量化表示信息;
将所述向量化表示信息输入到BiLSTM层,得到所述含问题的句子信息的状态分数矩阵;
将所述状态分数矩阵输入到条件随机场层,由条件随机场层计算出得分最高并且符合BIEO标注规则的句子论元角色标签序列。
在其中一个实施例中,还包括:获取警情笔录数据;
保留所述警情笔录数据中实体元素比例达到预设比例的语句;
通过句号或分号切割所述语句,得到包含警情的原始句子信息。
在其中一个实施例中,所述事件类型包括:盗窃事件、资金流出事件、资金流入事件、伤人事件、见义勇为事件、吸毒事件、贩毒事件、购买毒品事件、持有毒品事件。
在其中一个实施例中,所述论元角色包括:事件发生的时间、事件发生的地点、事件涉及到的扮演不同角色的人和事件涉及的物品。
一种面向警情笔录的事件论元角色抽取装置,所述装置包括:
事件类型标注模块,用于获取警情笔录数据,从所述警情笔录数据中筛选出包含警情的原始句子信息,对所述原始句子信息进行事件类型标注得到事件类型标注信息;所述事件类型为一个或多个;每个所述事件类型对应不同的事件论元角色问题;
事件论元角色问题确定模块,用于根据所述事件类型标注信息,按照预定义的规则生成对应的事件论元角色问题;所述事件论元角色问题为一个或多个;
论元角色确定模块,用于由一条所述原始句子信息和一个所述事件论元角色问题,组成一个含问题的句子信息,将所述含问题的句子信息输入到预先训练好的事件论元角色抽取模型中,得到所述含问题的句子信息对应的事件论元角色标签序列,根据所述事件论元角色标签序列得到所述含问题的句子信息对应的论元角色。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取警情笔录数据,从所述警情笔录数据中筛选出包含警情的原始句子信息,对所述原始句子信息进行事件类型标注得到事件类型标注信息;所述事件类型为一个或多个;每个所述事件类型对应不同的事件论元角色问题;
根据所述事件类型标注信息,按照预定义的规则生成对应的事件论元角色问题;所述事件论元角色问题为一个或多个;
由一条所述原始句子信息和一个所述事件论元角色问题,组成一个含问题的句子信息,将所述含问题的句子信息输入到预先训练好的事件论元角色抽取模型中,得到所述含问题的句子信息对应的事件论元角色标签序列,根据所述事件论元角色标签序列得到所述含问题的句子信息对应的论元角色;所述事件论元角色抽取模型包括预训练语言模型BERT层、BiLSTM层和条件随机场层。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取警情笔录数据,从所述警情笔录数据中筛选出包含警情的原始句子信息,对所述原始句子信息进行事件类型标注得到事件类型标注信息;所述事件类型为一个或多个;每个所述事件类型对应不同的事件论元角色问题;
根据所述事件类型标注信息,按照预定义的规则生成对应的事件论元角色问题;所述事件论元角色问题为一个或多个;
由一条所述原始句子信息和一个所述事件论元角色问题,组成一个含问题的句子信息,将所述含问题的句子信息输入到预先训练好的事件论元角色抽取模型中,得到所述含问题的句子信息对应的事件论元角色标签序列,根据所述事件论元角色标签序列得到所述含问题的句子信息对应的论元角色;所述事件论元角色抽取模型包括预训练语言模型BERT层、BiLSTM层和条件随机场层。
上述面向警情笔录的事件论元角色抽取方法、装置、计算机设备和存储介质,从警情笔录数据中筛选出包含警情的原始句子信息,对原始句子信息进行事件类型标注得到事件类型标注信息,根据事件类型标注信息生成多个“问题-原文”含有问题的警情数据句子;通过预先训练好的事件论元角色抽取模型,用序列化标注的方式计算出每个字符最有可能的论元角色标签;综合多个含有问题的警情数据句子得到事件的全部论元角色。本发明所提出的方法应用于警情笔录数据,可以提高从警情笔录数据中提取论元角色的准确性和提取效率。
附图说明
图1为一个实施例中面向警情笔录的事件论元角色抽取方法的流程示意图;
图2为一个实施例中事件论元角色抽取模型框架图;
图3为一个实施例中面向警情笔录的事件论元角色抽取装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的面向警情笔录的事件论元角色抽取方法,可以应用于如下应用环境中。从警情笔录数据中筛选出包含警情的原始句子信息,对原始句子信息进行事件类型标注得到事件类型标注信息,根据事件类型标注信息生成多个“问题-原文”含有问题的警情数据句子;通过预先训练好的事件论元角色抽取模型,用序列化标注的方式计算出每个字符最有可能的论元角色标签;综合多个含有问题的警情数据句子得到事件的全部论元角色。
在一个实施例中,如图1所示,提供了一种面向警情笔录的事件论元角色抽取方法,包括以下步骤:
步骤102,获取警情笔录数据,从警情笔录数据中筛选出包含警情的原始句子信息,对原始句子信息进行事件类型标注得到事件类型标注信息。
大量收集警情案件处理过程的原始警情笔录数据,以句子为单位,筛选出语义丰富的句子。预定义T种事件类型,由专业人员给句子标注事件类型。事件类型为一个或多个,每个事件类型对应不同的事件论元角色问题。
步骤104,根据事件类型标注信息,按照预定义的规则生成对应的事件论元角色问题。
事件论元角色问题为一个或多个。例如资金流出事件的论元角色有:时间、地点、流出资金额、流出资金账号、流出资金方式,转出资金的人,收到资金的人,那么对应的事件论元角色问题就有7个。
论元角色问题生成规则如下:
人物类:生成的事件论元角色问题格式为:“谁是XXX?”,如见义勇为事件中,关于见义勇为者的问题是“谁是见义勇为者?”。
其他类:生成的事件论元角色问题格式为:“XX事件中的YY是?”,“XX”表示事件类型,“YY”表示论元角色。比如资金流出事件中,关于时间的问题是“资金流出事件中的时间是?”。
步骤106,由一条原始句子信息和一个事件论元角色问题,组成一个含问题的句子信息,将含问题的句子信息输入到预先训练好的事件论元角色抽取模型中,得到含问题的句子信息对应的事件论元角色标签序列,根据事件论元角色标签序列得到含问题的句子信息对应的论元角色。
事件论元角色抽取模型包括预训练语言模型BERT层、BiLSTM层和条件随机场层。
把每个论元角色的问题和句子拼接成含有问题的句子信息,如图2所示的实例中,原始句子信息为:“小明在公交车上救人了”,这是一个见义勇为事件,见义勇为事件中的针对见义勇为者的事件论元角色问题为“谁是见义勇为者?”,将原始句子信息和事件论元角色问题组合,得到含问题的句子信息为:“谁是见义勇为者?小明在公交车上救人了。”得到含问题的句子信息对应的事件论元角色标签序列如图2所示,事件论元角色抽取模型使用BIEO的方法把含问题的句子信息的答案“小明”标注了出来。另一个实例中,原始句子信息为:“第四笔是2018年7月份消费了9184美元”,这是一个资金流出事件,资金流出事件中的转出时间的事件论元角色问题为“找到资金流出事件中的时间?”,将原始句子信息和事件论元角色问题组合,得到含问题的句子信息为:“找到资金流出事件中的时间?第四笔是2018年7月份消费了9184美元。”得到问题的答案为“2018年7月”。
上述面向警情笔录的事件论元角色抽取方法中,从警情笔录数据中筛选出包含警情的原始句子信息,对原始句子信息进行事件类型标注得到事件类型标注信息,根据事件类型标注信息生成多个“问题-原文”含有问题的警情数据句子;通过预先训练好的事件论元角色抽取模型,用序列化标注的方式计算出每个字符最有可能的论元角色标签;综合多个含有问题的警情数据句子得到事件的全部论元角色。本发明所提出的方法应用于警情笔录数据,可以提高从警情笔录数据中提取论元角色的准确性和提取效率。
在其中一个实施例中,训练事件论元角色抽取模型的步骤包括:
由警情笔录数据中筛选出包含警情的原始句子信息构成第一训练数据集,并对原始句子信息进行事件类型标注得到事件类型标注信息;根据事件类型标注信息,生成对应的事件论元角色问题,根据原始句子信息和事件论元角色信息得到含问题的句子信息,根据含问题的句子信息得到第二训练数据集;将第二训练数据集输入到事件论元角色抽取模型中,对事件论元角色抽取模型进行训练,对事件论元角色抽取模型输出的第一事件论元角色标签序列与专家预先标注的第二事件论元角色标签序列进行损失计算,当损失不再随着训练轮数的增加而减小时,完成事件论元角色抽取模型的训练,得到训练好的事件论元角色抽取模型。
大量收集警情案件处理过程的原始警情笔录数据,以句子为单位,从原始警情笔录数据中筛选出语义丰富的句子构成训练数据集S={s1,s2,···,sn},即第一训练数据集,其中si表示第i个句子,n表示句子总数。若数据集S中某个句子si的事件类型为t,生成事件类型t对应的事件论元角色问题Q={qt1,qt2,···qtm},qi代表事件类型t的第i个事件论元角色产生的问题,tm由事件类型t决定,不同的事件类型有不用数量的事件论元角色。将Q中的问题和警情数据句子si拼接在一起,得到tm个含有问题的句子集合J={jt1,jt2,···jtm},即第二训练数据集。由专家采用BIEO的标注方式对每个句子j标注出事件论元角色问题的答案,专家所标注的标签序列为第二事件论元角色标签序列,将第二训练数据集中的句子输入要训练的事件论元角色抽取模型中得到的标签序列为第一事件论元角色标签序列。计算预测的第一事件论元角色标签序列和人工标注的第二事件论元角色标签序列之间的损失,保存损失最小的模型作为训练好的模型。
在其中一个实施例中,还包括:在将第二训练数据集输入到事件论元角色抽取模型中,对事件论元角色抽取模型进行训练,对事件论元角色抽取模型输出的第一事件论元角色标签序列与人工预先标注的第二事件论元角色标签序列进行损失计算,当损失不再随着训练轮数的增加而减小时,完成事件论元角色抽取模型的训练,得到训练好的事件论元角色抽取模型之前,通过专家对第二训练数据集中含问题的句子信息,采用BIEO的方式标注出事件论元角色问题的答案。
在其中一个实施例中,还包括:将含问题的句子信息输入到预训练语言模型BERT中,得到含问题的句子信息的向量化表示信息;将向量化表示信息输入到BiLSTM层,得到含问题的句子信息的状态分数矩阵;将状态分数矩阵输入到条件随机场层,由条件随机场层计算出得分最高并且符合BIEO标注规则的句子论元角色标签序列。
输入数据通过预训练语言模型BERT模型转化为矩阵,经过双向长短期记忆人工神经网络BiLSTM和条件随机场CRF的计算,输出结果会在原文对应的标记数组中标出。
具体地,采用BERT预训练模型把文本转化为矩阵。含有问题的警情句子通过BERT预训练语言模型,每个字符都根据上下文和BERT模型转化为768维的向量。句子的每个字符的向量组成一个n*768维的矩阵E,矩阵E参与下一步的计算。矩阵E输入到BiLSTM层,计算每个字符对于每个事件论元角色标签的状态分数,得到n*K维状态分数。用CRF计算出符合BIEO标注规则并且整体得分最高的事件论元角色标签序列。
在其中一个实施例中,还包括:获取警情笔录数据;保留警情笔录数据中实体元素比例达到预设比例的语句;通过句号或分号切割语句,得到包含警情的原始句子信息。
在其中一个实施例中,事件类型包括:盗窃事件、资金流出事件、资金流入事件、伤人事件、见义勇为事件、吸毒事件、贩毒事件、购买毒品事件、持有毒品事件等。
在其中一个实施例中,论元角色包括:事件发生的时间、事件发生的地点、事件涉及到的扮演不同角色的人和事件涉及的物品。
在一个具体实施例中,对警情文件中的全部警情数据句子进行事件论元角色抽取,即完成全部警情文件的事件抽取。从警情笔录数据中筛选的句子信息为:"2019年5月10日20时12分至2019年5月10日22时44分期间,我先后通过自己的支付宝(扣工商银行卡的钱)扫描对方支付宝信息提供的二维码转了25笔合计32924.4元人民币。我操作上述金额转账时我的位置都是在:广州市天河区黄埔大道西暨南大学。",标注的事件类型:“钱财转出事件”。
事件论元角色抽取模型输出的所有论元角色为:
转出钱的人:我;
收到钱的人:对方;
金额:32924.4元;
地点:广州市天河区黄埔大道西暨南大学。
时间:2019年5月10日20时12分至2019年5月10日22时44分。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种面向警情笔录的事件论元角色抽取装置,包括:事件类型标注模块302、事件论元角色问题确定模块304和论元角色确定模块306,其中:
事件类型标注模块302,用于获取警情笔录数据,从警情笔录数据中筛选出包含警情的原始句子信息,对原始句子信息进行事件类型标注得到事件类型标注信息;事件类型为一个或多个,每个事件类型对应不同的事件论元角色问题;
事件论元角色问题确定模块304,用于根据事件类型标注信息,按照预定义的规则生成对应的事件论元角色问题;事件论元角色问题为一个或多个;
论元角色确定模块306,用于由一条原始句子信息和一个事件论元角色问题,组成一个含问题的句子信息,将含问题的句子信息输入到预先训练好的事件论元角色抽取模型中,得到含问题的句子信息对应的事件论元角色标签序列,根据事件论元角色标签序列得到含问题的句子信息对应的论元角色。
论元角色确定模块306还用于由警情笔录数据中筛选出包含警情的原始句子信息构成第一训练数据集,并对原始句子信息进行事件类型标注得到事件类型标注信息;根据事件类型标注信息,生成对应的事件论元角色问题,根据原始句子信息和事件论元角色信息得到含问题的句子信息,根据含问题的句子信息得到第二训练数据集;将第二训练数据集输入到事件论元角色抽取模型中,对事件论元角色抽取模型进行训练,对事件论元角色抽取模型输出的第一事件论元角色标签序列与专家预先标注的第二事件论元角色标签序列进行损失计算,当损失不再随着训练轮数的增加而减小时,完成事件论元角色抽取模型的训练,得到训练好的事件论元角色抽取模型。
论元角色确定模块306还用于通过专家对第二训练数据集中含问题的句子信息,采用BIEO的方式标注出事件论元角色问题的答案。
论元角色确定模块306还用于将含问题的句子信息输入到预训练语言模型BERT中,得到含问题的句子信息的向量化表示信息;将向量化表示信息输入到BiLSTM层,得到含问题的句子信息的状态分数矩阵;将状态分数矩阵输入到条件随机场层,由条件随机场层计算出得分最高并且符合BIEO标注规则的句子论元角色标签序列。
事件类型标注模块302还用于获取警情笔录数据;保留警情笔录数据中实体元素比例达到预设比例的语句;通过句号或分号切割语句,得到包含警情的原始句子信息。
关于面向警情笔录的事件论元角色抽取装置的具体限定可以参见上文中对于面向警情笔录的事件论元角色抽取方法的限定,在此不再赘述。上述面向警情笔录的事件论元角色抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种面向警情笔录的事件论元角色抽取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种面向警情笔录的事件论元角色抽取方法,其特征在于,所述方法包括:
获取警情笔录数据,从所述警情笔录数据中筛选出包含警情的原始句子信息,对所述原始句子信息进行事件类型标注得到事件类型标注信息;所述事件类型为一个或多个;每个所述事件类型对应不同的事件论元角色问题;
根据所述事件类型标注信息,按照预定义的规则生成对应的事件论元角色问题;所述事件论元角色问题为一个或多个;
由一条所述原始句子信息和一个所述事件论元角色问题,组成一个含问题的句子信息,将所述含问题的句子信息输入到预训练语言模型BERT中,得到所述含问题的句子信息的向量化表示信息,将所述向量化表示信息输入到BiLSTM层,得到所述含问题的句子信息的状态分数矩阵,将所述状态分数矩阵输入到条件随机场层,由条件随机场层计算出得分最高并且符合BIEO标注规则的句子论元角色标签序列,根据所述事件论元角色标签序列得到所述含问题的句子信息对应的论元角色;所述事件论元角色标签序列符合BIEO标注规则;所述事件论元角色抽取模型包括预训练语言模型BERT层、BiLSTM层和条件随机场层;其中,训练所述事件论元角色抽取模型的步骤包括:
由警情笔录数据中筛选出包含警情的原始句子信息构成第一训练数据集,并对所述原始句子信息进行事件类型标注得到事件类型标注信息;
根据所述事件类型标注信息,生成对应的事件论元角色问题,根据所述原始句子信息和所述事件论元角色信息得到含问题的句子信息,根据所述含问题的句子信息得到第二训练数据集;
将所述第二训练数据集输入到事件论元角色抽取模型中,对所述事件论元角色抽取模型进行训练,对所述事件论元角色抽取模型输出的第一事件论元角色标签序列与专家预先标注的第二事件论元角色标签序列进行损失计算,当损失不再随着训练轮数的增加而减小时,完成所述事件论元角色抽取模型的训练,得到训练好的事件论元角色抽取模型。
2.根据权利要求1所述的方法,其特征在于,在将所述第二训练数据集输入到事件论元角色抽取模型中,对所述事件论元角色抽取模型进行训练,对所述事件论元角色抽取模型输出的第一事件论元角色标签序列与人工预先标注的第二事件论元角色标签序列进行损失计算,当损失不再随着训练轮数的增加而减小时,完成所述事件论元角色抽取模型的训练,得到训练好的事件论元角色抽取模型之前,包括:
通过专家对所述第二训练数据集中含问题的句子信息,采用BIEO的方式标注出所述事件论元角色问题的答案。
3.根据权利要求1所述的方法,其特征在于,所述获取警情笔录数据,从所述警情笔录数据中筛选出包含警情的原始句子信息,包括:
获取警情笔录数据;
保留所述警情笔录数据中实体元素比例达到预设比例的语句;
通过句号或分号切割所述语句,得到包含警情的原始句子信息。
4.根据权利要求1所述的方法,其特征在于,所述事件类型包括:盗窃事件、资金流出事件、资金流入事件、伤人事件、见义勇为事件、吸毒事件、贩毒事件、购买毒品事件、持有毒品事件。
5.根据权利要求1所述的方法,其特征在于,所述论元角色包括:事件发生的时间、事件发生的地点、事件涉及到的扮演不同角色的人和事件涉及的物品。
6.一种面向警情笔录的事件论元角色抽取装置,其特征在于,所述装置包括:
事件类型标注模块,用于获取警情笔录数据,从所述警情笔录数据中筛选出包含警情的原始句子信息,对所述原始句子信息进行事件类型标注得到事件类型标注信息;所述事件类型为一个或多个;每个所述事件类型对应不同的事件论元角色问题;
事件论元角色问题确定模块,用于根据所述事件类型标注信息,按照预定义的规则生成对应的事件论元角色问题;所述事件论元角色问题为一个或多个;
论元角色确定模块,用于由一条所述原始句子信息和一个所述事件论元角色问题,组成一个含问题的句子信息,将所述含问题的句子信息输入到预训练语言模型BERT中,得到所述含问题的句子信息的向量化表示信息,将所述向量化表示信息输入到BiLSTM层,得到所述含问题的句子信息的状态分数矩阵,将所述状态分数矩阵输入到条件随机场层,由条件随机场层计算出得分最高并且符合BIEO标注规则的句子论元角色标签序列,根据所述事件论元角色标签序列得到所述含问题的句子信息对应的论元角色;所述事件论元角色标签序列符合BIEO标注规则;所述事件论元角色抽取模型包括预训练语言模型BERT层、BiLSTM层和条件随机场层;其中,训练所述事件论元角色抽取模型的步骤包括:
由警情笔录数据中筛选出包含警情的原始句子信息构成第一训练数据集,并对所述原始句子信息进行事件类型标注得到事件类型标注信息;
根据所述事件类型标注信息,生成对应的事件论元角色问题,根据所述原始句子信息和所述事件论元角色信息得到含问题的句子信息,根据所述含问题的句子信息得到第二训练数据集;
将所述第二训练数据集输入到事件论元角色抽取模型中,对所述事件论元角色抽取模型进行训练,对所述事件论元角色抽取模型输出的第一事件论元角色标签序列与专家预先标注的第二事件论元角色标签序列进行损失计算,当损失不再随着训练轮数的增加而减小时,完成所述事件论元角色抽取模型的训练,得到训练好的事件论元角色抽取模型。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110138766.6A CN112765980B (zh) | 2021-02-01 | 2021-02-01 | 一种面向警情笔录的事件论元角色抽取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110138766.6A CN112765980B (zh) | 2021-02-01 | 2021-02-01 | 一种面向警情笔录的事件论元角色抽取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112765980A CN112765980A (zh) | 2021-05-07 |
CN112765980B true CN112765980B (zh) | 2023-05-12 |
Family
ID=75704511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110138766.6A Active CN112765980B (zh) | 2021-02-01 | 2021-02-01 | 一种面向警情笔录的事件论元角色抽取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765980B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420559A (zh) * | 2021-06-22 | 2021-09-21 | 苏州智汇谷科技服务有限公司 | 一种警情信息分层要素识别方法和计算机 |
CN113468889A (zh) * | 2021-06-29 | 2021-10-01 | 上海犀语科技有限公司 | 一种基于bert预训练模型信息提取的方法和装置 |
CN114492377B (zh) * | 2021-12-30 | 2024-04-16 | 永中软件股份有限公司 | 一种事件角色的标注方法和计算机设备、计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134757A (zh) * | 2019-04-19 | 2019-08-16 | 杭州电子科技大学 | 一种基于多头注意力机制的事件论元角色抽取方法 |
WO2020001373A1 (zh) * | 2018-06-26 | 2020-01-02 | 杭州海康威视数字技术股份有限公司 | 一种本体构建方法及装置 |
CN111414482A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN111581346A (zh) * | 2020-04-26 | 2020-08-25 | 上海明略人工智能(集团)有限公司 | 一种事件抽取方法和装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11164087B2 (en) * | 2016-05-20 | 2021-11-02 | Disney Enterprises, Inc. | Systems and methods for determining semantic roles of arguments in sentences |
CN111382228B (zh) * | 2020-03-17 | 2023-06-06 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN111507107A (zh) * | 2020-04-15 | 2020-08-07 | 长沙理工大学 | 一种基于序列到序列的警情笔录事件抽取方法 |
CN112000792A (zh) * | 2020-08-26 | 2020-11-27 | 北京百度网讯科技有限公司 | 自然灾害事件的抽取方法、装置、设备以及存储介质 |
CN112069825B (zh) * | 2020-11-12 | 2021-01-15 | 湖南数定智能科技有限公司 | 面向警情笔录数据的实体关系联合抽取方法 |
-
2021
- 2021-02-01 CN CN202110138766.6A patent/CN112765980B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020001373A1 (zh) * | 2018-06-26 | 2020-01-02 | 杭州海康威视数字技术股份有限公司 | 一种本体构建方法及装置 |
CN110134757A (zh) * | 2019-04-19 | 2019-08-16 | 杭州电子科技大学 | 一种基于多头注意力机制的事件论元角色抽取方法 |
CN111414482A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN111581346A (zh) * | 2020-04-26 | 2020-08-25 | 上海明略人工智能(集团)有限公司 | 一种事件抽取方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112765980A (zh) | 2021-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112765980B (zh) | 一种面向警情笔录的事件论元角色抽取方法和装置 | |
CN112613501A (zh) | 信息审核分类模型的构建方法和信息审核方法 | |
CN111222305A (zh) | 一种信息结构化方法和装置 | |
CN110751286A (zh) | 神经网络模型的训练方法和训练系统 | |
CN112288279A (zh) | 基于自然语言处理和线性回归的业务风险评估方法和装置 | |
US11663406B2 (en) | Methods and systems for automated detection of personal information using neural networks | |
US20230178199A1 (en) | Method and system of using hierarchical vectorisation for representation of healthcare data | |
CN113590824B (zh) | 因果事理图谱的构建方法、装置及相关设备 | |
CN113821622B (zh) | 基于人工智能的答案检索方法、装置、电子设备及介质 | |
CN112988963B (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN112541329A (zh) | 简历创建方法、装置、电子设备 | |
CN113435762A (zh) | 一种企业风险识别方法、装置及设备 | |
CN113807973A (zh) | 文本纠错方法、装置、电子设备及计算机可读存储介质 | |
CN115510188A (zh) | 文本关键词关联方法、装置、设备及存储介质 | |
CN116453125A (zh) | 基于人工智能的数据录入方法、装置、设备及存储介质 | |
CN115525750A (zh) | 机器人话术检测可视化方法、装置、电子设备及存储介质 | |
Wickett | Critical data modeling and the basic representation model | |
AU2023203409B2 (en) | Generalizable key-value set extraction from documents using machine learning models | |
El-Mawla et al. | Smart Attendance System Using QR-Code, Finger Print and Face Recognition | |
CN115081447A (zh) | 软件开发的需求文档构建方法、装置、设备及存储介质 | |
CN115358817A (zh) | 基于社交数据的智能产品推荐方法、装置、设备及介质 | |
Bijleveld et al. | Latent Markov modelling of recidivism data | |
CN113806540A (zh) | 文本打标签方法、装置、电子设备及存储介质 | |
CN113706207A (zh) | 基于语义解析的订单成交率分析方法、装置、设备及介质 | |
CN113468309B (zh) | 文本中的答案抽取方法以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |