CN113779227B - 案情事实抽取方法及系统及装置及介质 - Google Patents

案情事实抽取方法及系统及装置及介质 Download PDF

Info

Publication number
CN113779227B
CN113779227B CN202111341769.6A CN202111341769A CN113779227B CN 113779227 B CN113779227 B CN 113779227B CN 202111341769 A CN202111341769 A CN 202111341769A CN 113779227 B CN113779227 B CN 113779227B
Authority
CN
China
Prior art keywords
argument
input sequence
model
obtaining
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111341769.6A
Other languages
English (en)
Other versions
CN113779227A (zh
Inventor
翁洋
任恩芝
潘舸众
谷依韩
李鑫
王竹
刘沛琦
宋凌波
其他发明人请求不公开姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Shuzhilian Technology Co Ltd
Original Assignee
Chengdu Shuzhilian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Shuzhilian Technology Co Ltd filed Critical Chengdu Shuzhilian Technology Co Ltd
Priority to CN202111341769.6A priority Critical patent/CN113779227B/zh
Publication of CN113779227A publication Critical patent/CN113779227A/zh
Application granted granted Critical
Publication of CN113779227B publication Critical patent/CN113779227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)
  • Probability & Statistics with Applications (AREA)
  • Technology Law (AREA)
  • Human Computer Interaction (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了案情事实抽取方法及系统及装置及介质,涉及人工智能领域,包括:获得第一训练集,构建第一分类模型,利用第一训练集训练第一分类模型获得触发词识别模型;利用第二训练集训练第一概率预测模型和第二概率预测模型获得论元起点预测模型;获得待处理裁判文书,将待处理裁判文书输入触发词识别模型,获得触发词识别结果;将待处理裁判文书输入论元起点预测模型模型,获得论元的起始位置;基于起始位置获得相应的论元字段;基于触发词识别结果和论元字段获得待处理裁判文书的案情事实,本方法能够实现在从裁判文书中自动抽取案情事实。

Description

案情事实抽取方法及系统及装置及介质
技术领域
本发明涉及人工智能领域,具体地,涉及案情事实抽取方法系统及装置及介质。
背景技术
事件抽取是信息抽取中一项长期研究及具有挑战性的任务,目的是从非结构化文本中抽取结构化信息—“正在发生的事情”以及所涉及的人/物。目前的事件抽取方法都是基于神经网络模型抽取的密集特征和预训练语言模型的上下文表示,它们严重依赖实体识别,通常需要采用多步骤来进行事件论元抽取,这种方式在模型设计、训练时间上耗费大量工作,效率很低;同时会忽略不同论元角色间的语义相似性,对于训练集很小/没有案例的论元角色来说,这些方法会影响系统性能,导致事件抽取不准确,前期实体识别的准确性会很大程度上影响事件抽取的性能。现有的实体识别方法应用到法律领域效果一般(比如别准确率、召回率、精确度低等),并且法律领域内的文本信息存在严重的语义相似性,语义相似性越高,分类任务的难度越大,对实体识别和关系抽取的模型性能影响越大;也缺乏标准标注数据集,缺乏标注数据即缺乏训练集,因此只能考虑非监督学习/半监督学习。
发明内容
本发明的目的是实现在裁判文书中自动抽取案情事实。
为实现上述目的,本发明提供了案情事实抽取方法,所述方法包括:
获得用于触发词检测的第一输入序列,对所述第一输入序列进行实例化处理获得第二输入序列;
使用预训练语言表示模型获得所述第二输入序列中每个单词的上下文表示,基于所述第二输入序列中每个单词的上下文表示获得第三输入序列;
基于第一论元矩阵和所述第三输入序列获得第一训练集;
构建第一分类模型,利用所述第一训练集训练所述第一分类模型获得触发词识别模型;
获得用于论元范围抽取的第四输入序列,对所述第四输入序列进行实例化处理获得第五输入序列;
使用所述预训练语言表示模型获得所述第五输入序列中每个单词的上下文表示,基于所述第五输入序列中每个单词的上下文表示获得第六输入序列;
基于开始论元矩阵、结尾论元矩阵和所述第六输入序列获得第二训练集;
构建第一概率预测模型,所述第一概率预测模型用于预测单词被选为论元起点的概率,构建第二概率预测模型,所述第二概率预测模型用于预测单词被选为论元结尾的概率,利用所述第二训练集训练所述第一概率预测模型和所述第二概率预测模型获得论元起点预测模型;
获得待处理裁判文书,将所述待处理裁判文书输入所述触发词识别模型,获得触发词识别结果;将所述待处理裁判文书输入所述论元起点预测模型模型,获得论元的起始位置;基于所述起始位置获得相应的论元字段;基于所述触发词识别结果和所述论元字段获得所述待处理裁判文书的案情事实。
其中,本发明的目标在于抽取法律裁判文书案情事实部分的事件。本发明主要分为两个部分:第一部分是利用预先设定的触发词问题模板,识别裁判文书中的触发词;第二部分是利用预先设定的论元抽取模板识别案件论元。通过将两部分内容进行结合获得裁判文书的案情事实。
其中,实例化处理指的是将中文单词变成向量,计算机可以识别的实例,便于进行计算机处理,最终实现机器自动处理。
优选的,本方法中对所述第一输入序列或所述第四输入序列进行实例化处理包括:
使用预设模型将所述第一输入序列或所述第四输入序列中的单词转换为向量表示为:
Figure 100002_DEST_PATH_IMAGE001
其中,
Figure 100002_DEST_PATH_IMAGE002
表示特殊分类标记,
Figure 100002_DEST_PATH_IMAGE003
表示分离的标记。
优选的,本方法中所述预训练语言表示模型为BERTTr模型。BERTTr模型相较于原来的 RNN、LSTM 可以做到并发执行,同时提取词在句子中的关系特征,并且能在多个不同层次提取关系特征,进而更全面反映句子语义。相较于 word2vec,其又能根据句子上下文获取词义,从而避免歧义出现。
优选的,本方法中所述第一输入序列为
Figure 100002_DEST_PATH_IMAGE004
;所述第三输入序列为
Figure 100002_DEST_PATH_IMAGE005
Figure 100002_DEST_PATH_IMAGE006
Figure 100002_DEST_PATH_IMAGE007
分别对应相应的单词,
Figure 100002_DEST_PATH_IMAGE008
为分别对应相应向量化后的单词,N为单词的数量。
优选的,本方法中所述第一论元矩阵为
Figure 100002_DEST_PATH_IMAGE009
,H为转换器的隐藏大小,T为事件类型的数量加一,R为实数。
优选的,本方法中所述第一分类模型使用softmax识别触发词:
Figure 100002_DEST_PATH_IMAGE010
其中,
Figure 100002_DEST_PATH_IMAGE011
为每一类事件的概率。
优选的,本方法中最小化所述
Figure 115093DEST_PATH_IMAGE011
的对数似然损失来训练所述第一分类模型。
优选的,本方法中所述第四输入序列为
Figure 100002_DEST_PATH_IMAGE012
;所述第六输入序列为
Figure 100002_DEST_PATH_IMAGE013
Figure 100002_DEST_PATH_IMAGE014
Figure 100002_DEST_PATH_IMAGE015
分别为对应相应的论元,
Figure 100002_DEST_PATH_IMAGE016
分别对应相应向量化后的论元,M为单词的数量。
优选的,本方法中所述开始论元矩阵为
Figure 100002_DEST_PATH_IMAGE017
,所述结尾论元矩阵为
Figure 100002_DEST_PATH_IMAGE018
Figure 100002_DEST_PATH_IMAGE019
Figure 100002_DEST_PATH_IMAGE020
,H为转换器的隐藏大小,R为实数。
优选的,本方法中所述第一概率预测模型使用softmax预测单词
Figure 100002_DEST_PATH_IMAGE021
被选为论元起点的概率
Figure 100002_DEST_PATH_IMAGE022
,所述第二概率预测模型使用softmax预测单词
Figure 642021DEST_PATH_IMAGE021
被选为论元结尾的概率
Figure 100002_DEST_PATH_IMAGE023
Figure 100002_DEST_PATH_IMAGE024
优选的,本方法中最小化所述
Figure 438070DEST_PATH_IMAGE022
的对数似然损失与所述
Figure 98858DEST_PATH_IMAGE023
的对数似然损失之和来训练所述论元起点预测模型。
其中,为了将更多自然性和语义信息纳入问题,利用ACE事件注释准则中每个论元角色的描述来设计自然问题。
本发明还提供了案情事实抽取系统,所述系统包括:
第一实例化单元,用于获得用于触发词检测的第一输入序列,对所述第一输入序列进行实例化处理获得第二输入序列;
第一预训练语言表示模型处理单元,用于使用预训练语言表示模型获得所述第二输入序列中每个单词的上下文表示,基于所述第二输入序列中每个单词的上下文表示获得第三输入序列;
第一训练集获得单元,用于基于第一论元矩阵和所述第三输入序列获得第一训练集;
触发词识别模型获得单元,用于构建第一分类模型,利用所述第一训练集训练所述第一分类模型获得触发词识别模型;
第二实例化处理单元,用于获得用于论元范围抽取的第四输入序列,对所述第四输入序列进行实例化处理获得第五输入序列;
第二预训练语言表示模型处理单元,用于使用所述预训练语言表示模型获得所述第五输入序列中每个单词的上下文表示,基于所述第五输入序列中每个单词的上下文表示获得第六输入序列;
第二训练集获得单元,用于基于开始论元矩阵、结尾论元矩阵和所述第六输入序列获得第二训练集;
论元起点预测模型获得单元,构建第一概率预测模型,所述第一概率预测模型用于预测单词被选为论元起点的概率,构建第二概率预测模型,所述第二概率预测模型用于预测单词被选为论元结尾的概率,利用所述第二训练集训练所述第一概率预测模型和所述第二概率预测模型获得论元起点预测模型;
案情事实抽取单元,用于获得待处理裁判文书,将所述待处理裁判文书输入所述触发词识别模型,获得触发词识别结果;将所述待处理裁判文书输入所述论元起点预测模型模型,获得论元的起始位置;基于所述起始位置获得相应的论元字段;基于所述触发词识别结果和所述论元字段获得所述待处理裁判文书的案情事实。
本发明还提供了一种案情事实抽取装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述案情事实抽取方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述案情事实抽取方法的步骤。
本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明将案件事实的事件抽取任务表述为问答/机器阅读理解任务,在将裁判文书内容作为输入层输入模型以获取抽取信息之前,使用模板实例化输入语句,不需要实体注释,即本发明采用端到端模型进行事件论元抽取,不需要实体识别的任何预处理步骤,提高了效率。
本发明采用BERT+softmax结构获取各序列的上下文信息然后进行问答任务,能够学习不同模型中语义相似的论元角色从而进行事件论元的抽取,触发器和论元抽取的性能均优于现有方法,能够保障抽取的事件的准确性,同时本发明能够抽取司法领域未知角色的事件论元,应用到法律领域效果较佳,能够克服法律领域内的文本信息存在严重的语义相似性的缺陷。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,并不构成对本发明实施例的限定;
图1为案情事实抽取方法的流程示意图;
图2为案情事实抽取系统的组成示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
实施例一
请参考图1,图1为案情事实抽取方法的流程示意图,本发明实施例一提供了案情事实抽取方法,所述方法包括:
获得用于触发词检测的第一输入序列,对所述第一输入序列进行实例化处理获得第二输入序列;
使用预训练语言表示模型获得所述第二输入序列中每个单词的上下文表示,基于所述第二输入序列中每个单词的上下文表示获得第三输入序列;
基于第一论元矩阵和所述第三输入序列获得第一训练集;
构建第一分类模型,利用所述第一训练集训练所述第一分类模型获得触发词识别模型;
获得用于论元范围抽取的第四输入序列,对所述第四输入序列进行实例化处理获得第五输入序列;
使用所述预训练语言表示模型获得所述第五输入序列中每个单词的上下文表示,基于所述第五输入序列中每个单词的上下文表示获得第六输入序列;
基于开始论元矩阵、结尾论元矩阵和所述第六输入序列获得第二训练集;
构建第一概率预测模型,所述第一概率预测模型用于预测单词被选为论元起点的概率,构建第二概率预测模型,所述第二概率预测模型用于预测单词被选为论元结尾的概率,利用所述第二训练集训练所述第一概率预测模型和所述第二概率预测模型获得论元起点预测模型;
获得待处理裁判文书,将所述待处理裁判文书输入所述触发词识别模型,获得触发词识别结果;将所述待处理裁判文书输入所述论元起点预测模型模型,获得论元的起始位置;基于所述起始位置获得相应的论元字段;基于所述触发词识别结果和所述论元字段获得所述待处理裁判文书的案情事实。
本发明为了实现在人工智能推动下的司法改革中,面向海量裁判文书资源库,让机器通过技术抽取案件事件信息;实现机器自动检测与分类司法事件,为相似案例检索、类案精准推送、审判逻辑图谱构建等一系列司法应用奠定基础。
本发明的目标在于抽取法律裁判文书案情事实部分的事件。本发明主要分为两个大步骤:第一部分:利用预先设定的触发词问题模板,识别裁判文书中的触发词;第二部分:利用预先设定的论元抽取模板识别案件论元。
其中,案情事实是法律文书主体之一,主要包括事实要素、案件情节、因果关系、争执焦点、叙述事实、材料内容等。
其中,案件论元是一个实体,时间表达式,作为参与者的值和在案件中具有特定角色的属性。
其中,触发词最清楚的表达事件发生的主要词,一般指动词或名词。
其中,本发放中的第一部分任务和第二部分任务是两个是并行任务,触发词识别是任务的一部分,论元抽取也是任务的一部分,两个之间没有交集,但设置相似。
步骤A:利用预先设定的触发词问题模板(“触发是什么”,“触发器”,“动作”,“动词”),识别裁判文书中的触发词。由法学专业的专家学者根据案由对司法实务进行具体分析总结,然后进行触发词的预先定义。具体分为4步完成:
第一部分内容具体包括:
准备用于触发词检测的输入序列
Figure 100002_DEST_PATH_IMAGE025
,然后将输入序列实例化为
Figure 709968DEST_PATH_IMAGE001
,其中
Figure 891287DEST_PATH_IMAGE002
是特殊分类标记,
Figure 423899DEST_PATH_IMAGE003
是表示分离的标记,其中,
Figure DEST_PATH_IMAGE026
等指的是构成序列(句子)的单词。
使用BERTTr获得用于触发词检测的每个token的上下文表示:
Figure 685116DEST_PATH_IMAGE006
,其中,Token指的是词条,即
Figure 557257DEST_PATH_IMAGE026
等;
引入一个论元矩阵
Figure DEST_PATH_IMAGE027
,其中,R指实数,H是转换器的隐藏大小,T是事件类型的数量加一,使用softmax识别触发词:
Figure 160408DEST_PATH_IMAGE010
其中,
Figure 383579DEST_PATH_IMAGE011
指每一类事件的概率。
最小化
Figure 714066DEST_PATH_IMAGE011
的对数似然损失,以此来训练模板获得触发词识别结果。
在第二部分内容中本方法利用预先设定的论元抽取模板识别案件论元。本部分中设计了三个模板,分别是:
模板1:使用论元角色名称作为问题。其中,论元角色为论元与它所参与的事件之间的关系。
模板2:基于基本论元的问题,是在模板1的基础上进行了扩展。首先确定论元角色的类型(人、地点或其他),然后基于基本类型信息,确定要提问的“
Figure DEST_PATH_IMAGE028
”单词(谁代表人、代表地方是哪里以及其他什么)。其中,基本论元为仅包含人、地点或其他简单类型的事体。
模板3:基于注释准则的问题(注释即纳入更多语义信息并使问题更自然),在模板2的基础上增加了第一部分内容中获得的触发词。为了将更多自然性和语义信息纳入问题,利用ACE事件注释准则中每个论元角色的描述来设计自然问题,即
Figure DEST_PATH_IMAGE029
。其中,ACE ( Automatic Content Extraction)会议是含有事件抽取任务的评测会议,这个会议定义了事件抽取的基本任务构成。ACE定义中的事件由事件触发词(Event Trigger)和描述事件结构的论元(Argument)构成。事件触发词事件触发词(trigger)是能够触动事件发生的词,是决定事件类型最重要的特征词,决定了事件类别/子类别。论元用于填充事件模版,两者完整的描述了事件本身。
其中,第二部分内容具体包括:
准备用于论元范围抽取的输入序列
Figure DEST_PATH_IMAGE030
,然后将输入序列实例化为
Figure 519342DEST_PATH_IMAGE001
,标记含义与步骤A1中相同。其中,论元范围为预先定义哪些词可以被认为是论元,
Figure DEST_PATH_IMAGE031
为论元,
Figure DEST_PATH_IMAGE032
为向量化后的论元。
使用BERTArg获得用于论元抽取的每个词条的上下文表示:
Figure DEST_PATH_IMAGE033
通过上述处理将对输入的中文进行处理变成向量。
引入两个论元矩阵
Figure 558974DEST_PATH_IMAGE019
Figure 394074DEST_PATH_IMAGE020
,其中H含义与步骤A3中相同,使用softmax获取每个token被选为论元范围的start/end的概率:
Figure DEST_PATH_IMAGE034
其中,
Figure 403619DEST_PATH_IMAGE022
为开始概率,
Figure 388368DEST_PATH_IMAGE023
为结尾概率,
Figure 926797DEST_PATH_IMAGE017
为开始论元矩阵,
Figure 249193DEST_PATH_IMAGE018
为结尾论元矩阵。
最小化上一步骤中
Figure 593587DEST_PATH_IMAGE022
的对数似然损失与
Figure 560406DEST_PATH_IMAGE023
的对数似然损失之和,以预测出论元在原始文本序列中的起始位置,通过这个起始位置能够提取出相应的论元字段。
将获得论元字段与获得的触发词共同构成了事件。两个任务在一起实现案情事实事件抽取。
实施例二
请参考图2,图2为案情事实抽取系统的组成示意图,本发明实施例二提供了案情事实抽取系统,所述系统包括:
第一实例化单元,用于获得用于触发词检测的第一输入序列,对所述第一输入序列进行实例化处理获得第二输入序列;
第一预训练语言表示模型处理单元,用于使用预训练语言表示模型获得所述第二输入序列中每个单词的上下文表示,基于所述第二输入序列中每个单词的上下文表示获得第三输入序列;
第一训练集获得单元,用于基于第一论元矩阵和所述第三输入序列获得第一训练集;
触发词识别模型获得单元,用于构建第一分类模型,利用所述第一训练集训练所述第一分类模型获得触发词识别模型;
第二实例化处理单元,用于获得用于论元范围抽取的第四输入序列,对所述第四输入序列进行实例化处理获得第五输入序列;
第二预训练语言表示模型处理单元,用于使用所述预训练语言表示模型获得所述第五输入序列中每个单词的上下文表示,基于所述第五输入序列中每个单词的上下文表示获得第六输入序列;
第二训练集获得单元,用于基于开始论元矩阵、结尾论元矩阵和所述第六输入序列获得第二训练集;
论元起点预测模型获得单元,构建第一概率预测模型,所述第一概率预测模型用于预测单词被选为论元起点的概率,构建第二概率预测模型,所述第二概率预测模型用于预测单词被选为论元结尾的概率,利用所述第二训练集训练所述第一概率预测模型和所述第二概率预测模型获得论元起点预测模型;
案情事实抽取单元,用于获得待处理裁判文书,将所述待处理裁判文书输入所述触发词识别模型,获得触发词识别结果;将所述待处理裁判文书输入所述论元起点预测模型模型,获得论元的起始位置;基于所述起始位置获得相应的论元字段;基于所述触发词识别结果和所述论元字段获得所述待处理裁判文书的案情事实。
实施例三
本发明实施例三提供了一种案情事实抽取装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述案情事实抽取方法的步骤。
实施例四
本发明实施例四提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述案情事实抽取方法的步骤。
其中,所述处理器可以是中央处理器(CPU,Central Processing Unit),还可以是其他通用处理器、数字信号处理器(digital signal processor)、专用集成电路(Application Specific Integrated Circuit)、现成可编程门阵列(Fieldprogrammablegate array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的数据,实现发明中案情事实抽取装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等。此外,存储器可以包括高速随机存取存储器、还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡,安全数字卡,闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述案情事实抽取装置如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序可存储于一计算机可读存介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
本发明已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (14)

1.案情事实抽取方法,其特征在于,所述方法包括:
获得用于触发词检测的第一输入序列,对所述第一输入序列进行实例化处理获得第二输入序列;
使用预训练语言表示模型获得所述第二输入序列中每个单词的上下文表示,基于所述第二输入序列中每个单词的上下文表示获得第三输入序列;
基于第一论元矩阵和所述第三输入序列获得第一训练集;
构建第一分类模型,利用所述第一训练集训练所述第一分类模型获得触发词识别模型;
获得用于论元范围抽取的第四输入序列,对所述第四输入序列进行实例化处理获得第五输入序列;
使用所述预训练语言表示模型获得所述第五输入序列中每个单词的上下文表示,基于所述第五输入序列中每个单词的上下文表示获得第六输入序列;
基于开始论元矩阵、结尾论元矩阵和所述第六输入序列获得第二训练集;
构建第一概率预测模型,所述第一概率预测模型用于预测单词被选为论元起点的概率,构建第二概率预测模型,所述第二概率预测模型用于预测单词被选为论元结尾的概率,利用所述第二训练集训练所述第一概率预测模型和所述第二概率预测模型获得论元起点预测模型;
获得待处理裁判文书,将所述待处理裁判文书输入所述触发词识别模型,获得触发词识别结果;将所述待处理裁判文书输入所述论元起点预测模型,获得论元的起始位置;基于所述起始位置获得相应的论元字段;基于所述触发词识别结果和所述论元字段获得所述待处理裁判文书的案情事实。
2.根据权利要求1所述的案情事实抽取方法,其特征在于,对所述第一输入序列或所述第四输入序列进行实例化处理包括:
使用预设模型将所述第一输入序列或所述第四输入序列中的单词转换为向量表示为:
Figure DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE002
表示特殊分类标记,
Figure DEST_PATH_IMAGE003
表示分离的标记。
3.根据权利要求1所述的案情事实抽取方法,其特征在于,所述预训练语言表示模型为BERTTr模型。
4.根据权利要求3所述的案情事实抽取方法,其特征在于,所述第一输入序列为
Figure DEST_PATH_IMAGE004
;所述第三输入序列为
Figure DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
分别对应相应的单词,
Figure DEST_PATH_IMAGE008
为分别对应相应向量化后的单词,N为单词的数量。
5.根据权利要求4所述的案情事实抽取方法,其特征在于,所述第一论元矩阵为
Figure DEST_PATH_IMAGE009
,H为转换器的隐藏大小,T为事件类型的数量加一,R为实数。
6.根据权利要求5所述的案情事实抽取方法,其特征在于,所述第一分类模型使用softmax识别触发词:
Figure DEST_PATH_IMAGE010
其中,
Figure DEST_PATH_IMAGE011
为每一类事件的概率。
7.根据权利要求6所述的案情事实抽取方法,其特征在于,最小化所述
Figure DEST_PATH_IMAGE012
的对数似然损失来训练所述第一分类模型。
8.根据权利要求3所述的案情事实抽取方法,其特征在于,所述第四输入序列为
Figure DEST_PATH_IMAGE013
;所述第六输入序列为
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE016
分别为对应相应的论元,
Figure DEST_PATH_IMAGE017
分别对应相应向量化后的论元,M为单词的数量。
9.根据权利要求8所述的案情事实抽取方法,其特征在于,所述开始论元矩阵为
Figure DEST_PATH_IMAGE018
,所述结尾论元矩阵为
Figure DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
,H为转换器的隐藏大小,R为实数。
10.根据权利要求9所述的案情事实抽取方法,其特征在于,所述第一概率预测模型使用softmax预测单词
Figure DEST_PATH_IMAGE022
被选为论元起点的概率
Figure DEST_PATH_IMAGE023
,所述第二概率预测模型使用softmax预测单词
Figure 95379DEST_PATH_IMAGE022
被选为论元结尾的概率
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
11.根据权利要求10所述的案情事实抽取方法,其特征在于,最小化所述
Figure 809257DEST_PATH_IMAGE023
的对数似然损失与所述
Figure 995519DEST_PATH_IMAGE024
的对数似然损失之和来训练所述论元起点预测模型。
12.案情事实抽取系统,其特征在于,所述系统包括:
第一实例化单元,用于获得用于触发词检测的第一输入序列,对所述第一输入序列进行实例化处理获得第二输入序列;
第一预训练语言表示模型处理单元,用于使用预训练语言表示模型获得所述第二输入序列中每个单词的上下文表示,基于所述第二输入序列中每个单词的上下文表示获得第三输入序列;
第一训练集获得单元,用于基于第一论元矩阵和所述第三输入序列获得第一训练集;
触发词识别模型获得单元,用于构建第一分类模型,利用所述第一训练集训练所述第一分类模型获得触发词识别模型;
第二实例化处理单元,用于获得用于论元范围抽取的第四输入序列,对所述第四输入序列进行实例化处理获得第五输入序列;
第二预训练语言表示模型处理单元,用于使用所述预训练语言表示模型获得所述第五输入序列中每个单词的上下文表示,基于所述第五输入序列中每个单词的上下文表示获得第六输入序列;
第二训练集获得单元,用于基于开始论元矩阵、结尾论元矩阵和所述第六输入序列获得第二训练集;
论元起点预测模型获得单元,构建第一概率预测模型,所述第一概率预测模型用于预测单词被选为论元起点的概率,构建第二概率预测模型,所述第二概率预测模型用于预测单词被选为论元结尾的概率,利用所述第二训练集训练所述第一概率预测模型和所述第二概率预测模型获得论元起点预测模型;
案情事实抽取单元,用于获得待处理裁判文书,将所述待处理裁判文书输入所述触发词识别模型,获得触发词识别结果;将所述待处理裁判文书输入所述论元起点预测模型,获得论元的起始位置;基于所述起始位置获得相应的论元字段;基于所述触发词识别结果和所述论元字段获得所述待处理裁判文书的案情事实。
13.一种案情事实抽取装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-11中任意一个所述案情事实抽取方法的步骤。
14.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-11中任意一个所述案情事实抽取方法的步骤。
CN202111341769.6A 2021-11-12 2021-11-12 案情事实抽取方法及系统及装置及介质 Active CN113779227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111341769.6A CN113779227B (zh) 2021-11-12 2021-11-12 案情事实抽取方法及系统及装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111341769.6A CN113779227B (zh) 2021-11-12 2021-11-12 案情事实抽取方法及系统及装置及介质

Publications (2)

Publication Number Publication Date
CN113779227A CN113779227A (zh) 2021-12-10
CN113779227B true CN113779227B (zh) 2022-01-25

Family

ID=78873868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111341769.6A Active CN113779227B (zh) 2021-11-12 2021-11-12 案情事实抽取方法及系统及装置及介质

Country Status (1)

Country Link
CN (1) CN113779227B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114936563B (zh) * 2022-04-27 2023-07-25 苏州大学 一种事件抽取方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149386A (zh) * 2020-09-25 2020-12-29 杭州中软安人网络通信股份有限公司 一种事件抽取方法、存储介质及服务器
CN112817561A (zh) * 2021-02-02 2021-05-18 山东省计算中心(国家超级计算济南中心) 软件需求文档的事务类功能点结构化抽取方法及系统
CN113239694A (zh) * 2021-06-04 2021-08-10 北京理工大学 一种基于论元短语的论元角色识别的方法
CN113591483A (zh) * 2021-04-27 2021-11-02 重庆邮电大学 一种基于序列标注的文档级事件论元抽取方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331480B (zh) * 2014-11-07 2017-09-29 苏州大学 一种中文事件触发词的抽取系统及方法
CN111428504B (zh) * 2020-03-17 2023-04-28 北京明略软件系统有限公司 一种事件抽取方法和装置
CN111897908B (zh) * 2020-05-12 2023-05-02 中国科学院计算技术研究所 融合依存信息和预训练语言模型的事件抽取方法及系统
CN111723569A (zh) * 2020-05-21 2020-09-29 上海明略人工智能(集团)有限公司 一种事件抽取方法、装置和计算机可读存储介质
CN111797241B (zh) * 2020-06-17 2023-08-22 北京北大软件工程股份有限公司 基于强化学习的事件论元抽取方法及装置
CN111967268B (zh) * 2020-06-30 2024-03-19 北京百度网讯科技有限公司 文本中的事件抽取方法、装置、电子设备和存储介质
CN112116075B (zh) * 2020-09-18 2023-11-24 厦门安胜网络科技有限公司 事件提取模型生成方法和装置、文本事件提取方法和装置
CN112612885A (zh) * 2020-12-18 2021-04-06 成都三零凯天通信实业有限公司 一种基于bert类模型的阅读理解式新闻文本事件抽取方法
CN113255321B (zh) * 2021-06-10 2021-10-29 之江实验室 基于文章实体词依赖关系的金融领域篇章级事件抽取方法
CN113468889A (zh) * 2021-06-29 2021-10-01 上海犀语科技有限公司 一种基于bert预训练模型信息提取的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149386A (zh) * 2020-09-25 2020-12-29 杭州中软安人网络通信股份有限公司 一种事件抽取方法、存储介质及服务器
CN112817561A (zh) * 2021-02-02 2021-05-18 山东省计算中心(国家超级计算济南中心) 软件需求文档的事务类功能点结构化抽取方法及系统
CN113591483A (zh) * 2021-04-27 2021-11-02 重庆邮电大学 一种基于序列标注的文档级事件论元抽取方法
CN113239694A (zh) * 2021-06-04 2021-08-10 北京理工大学 一种基于论元短语的论元角色识别的方法

Also Published As

Publication number Publication date
CN113779227A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
Imtiaz et al. Duplicate questions pair detection using siamese malstm
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN112149421A (zh) 一种基于bert嵌入的软件编程领域实体识别方法
Shen et al. A hybrid model for quality assessment of Wikipedia articles
CN111738016A (zh) 多意图识别方法及相关设备
Zhang et al. One-shot learning for question-answering in gaokao history challenge
CN112148862B (zh) 一种问题意图识别方法、装置、存储介质及电子设备
CN116304748B (zh) 一种文本相似度计算方法、系统、设备及介质
CN113138920B (zh) 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置
CN113723105A (zh) 语义特征提取模型的训练方法、装置、设备及存储介质
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN113919366A (zh) 一种面向电力变压器知识问答的语义匹配方法和装置
CN113779227B (zh) 案情事实抽取方法及系统及装置及介质
Aksonov et al. Question-Answering Systems Development Based on Big Data Analysis
WO2023169301A1 (zh) 一种文本处理方法、装置及电子设备
CN112989001B (zh) 一种问答处理方法、装置、介质及电子设备
CN117501283A (zh) 文本到问答模型系统
Weng et al. A survey of artificial intelligence techniques on MOOC of legal education
Luo Automatic short answer grading using deep learning
CN112200268A (zh) 一种基于编码器-解码器框架的图像描述方法
Zhao et al. Multi-modal sarcasm generation: Dataset and solution
CN105808522A (zh) 一种语义联想的方法及装置
Ling et al. Sentence-level event detection without triggers via prompt learning and machine reading comprehension
CN116227598B (zh) 一种基于双阶段注意力机制的事件预测方法、设备及介质
Zhang Satellite Image Classification Based on Convolutional Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 610042 No. 270, floor 2, No. 8, Jinxiu street, Wuhou District, Chengdu, Sichuan

Patentee after: Chengdu shuzhilian Technology Co.,Ltd.

Address before: No.2, floor 4, building 1, Jule road crossing, Section 1, West 1st ring road, Wuhou District, Chengdu City, Sichuan Province 610041

Patentee before: CHENGDU SHUZHILIAN TECHNOLOGY Co.,Ltd.