CN113779227B - 案情事实抽取方法及系统及装置及介质 - Google Patents
案情事实抽取方法及系统及装置及介质 Download PDFInfo
- Publication number
- CN113779227B CN113779227B CN202111341769.6A CN202111341769A CN113779227B CN 113779227 B CN113779227 B CN 113779227B CN 202111341769 A CN202111341769 A CN 202111341769A CN 113779227 B CN113779227 B CN 113779227B
- Authority
- CN
- China
- Prior art keywords
- argument
- input sequence
- model
- obtaining
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services; Handling legal documents
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Tourism & Hospitality (AREA)
- Probability & Statistics with Applications (AREA)
- Technology Law (AREA)
- Human Computer Interaction (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了案情事实抽取方法及系统及装置及介质,涉及人工智能领域,包括:获得第一训练集,构建第一分类模型,利用第一训练集训练第一分类模型获得触发词识别模型;利用第二训练集训练第一概率预测模型和第二概率预测模型获得论元起点预测模型;获得待处理裁判文书,将待处理裁判文书输入触发词识别模型,获得触发词识别结果;将待处理裁判文书输入论元起点预测模型模型,获得论元的起始位置;基于起始位置获得相应的论元字段;基于触发词识别结果和论元字段获得待处理裁判文书的案情事实,本方法能够实现在从裁判文书中自动抽取案情事实。
Description
技术领域
本发明涉及人工智能领域,具体地,涉及案情事实抽取方法系统及装置及介质。
背景技术
事件抽取是信息抽取中一项长期研究及具有挑战性的任务,目的是从非结构化文本中抽取结构化信息—“正在发生的事情”以及所涉及的人/物。目前的事件抽取方法都是基于神经网络模型抽取的密集特征和预训练语言模型的上下文表示,它们严重依赖实体识别,通常需要采用多步骤来进行事件论元抽取,这种方式在模型设计、训练时间上耗费大量工作,效率很低;同时会忽略不同论元角色间的语义相似性,对于训练集很小/没有案例的论元角色来说,这些方法会影响系统性能,导致事件抽取不准确,前期实体识别的准确性会很大程度上影响事件抽取的性能。现有的实体识别方法应用到法律领域效果一般(比如别准确率、召回率、精确度低等),并且法律领域内的文本信息存在严重的语义相似性,语义相似性越高,分类任务的难度越大,对实体识别和关系抽取的模型性能影响越大;也缺乏标准标注数据集,缺乏标注数据即缺乏训练集,因此只能考虑非监督学习/半监督学习。
发明内容
本发明的目的是实现在裁判文书中自动抽取案情事实。
为实现上述目的,本发明提供了案情事实抽取方法,所述方法包括:
获得用于触发词检测的第一输入序列,对所述第一输入序列进行实例化处理获得第二输入序列;
使用预训练语言表示模型获得所述第二输入序列中每个单词的上下文表示,基于所述第二输入序列中每个单词的上下文表示获得第三输入序列;
基于第一论元矩阵和所述第三输入序列获得第一训练集;
构建第一分类模型,利用所述第一训练集训练所述第一分类模型获得触发词识别模型;
获得用于论元范围抽取的第四输入序列,对所述第四输入序列进行实例化处理获得第五输入序列;
使用所述预训练语言表示模型获得所述第五输入序列中每个单词的上下文表示,基于所述第五输入序列中每个单词的上下文表示获得第六输入序列;
基于开始论元矩阵、结尾论元矩阵和所述第六输入序列获得第二训练集;
构建第一概率预测模型,所述第一概率预测模型用于预测单词被选为论元起点的概率,构建第二概率预测模型,所述第二概率预测模型用于预测单词被选为论元结尾的概率,利用所述第二训练集训练所述第一概率预测模型和所述第二概率预测模型获得论元起点预测模型;
获得待处理裁判文书,将所述待处理裁判文书输入所述触发词识别模型,获得触发词识别结果;将所述待处理裁判文书输入所述论元起点预测模型模型,获得论元的起始位置;基于所述起始位置获得相应的论元字段;基于所述触发词识别结果和所述论元字段获得所述待处理裁判文书的案情事实。
其中,本发明的目标在于抽取法律裁判文书案情事实部分的事件。本发明主要分为两个部分:第一部分是利用预先设定的触发词问题模板,识别裁判文书中的触发词;第二部分是利用预先设定的论元抽取模板识别案件论元。通过将两部分内容进行结合获得裁判文书的案情事实。
其中,实例化处理指的是将中文单词变成向量,计算机可以识别的实例,便于进行计算机处理,最终实现机器自动处理。
优选的,本方法中对所述第一输入序列或所述第四输入序列进行实例化处理包括:
使用预设模型将所述第一输入序列或所述第四输入序列中的单词转换为向量表示为:
优选的,本方法中所述预训练语言表示模型为BERTTr模型。BERTTr模型相较于原来的 RNN、LSTM 可以做到并发执行,同时提取词在句子中的关系特征,并且能在多个不同层次提取关系特征,进而更全面反映句子语义。相较于 word2vec,其又能根据句子上下文获取词义,从而避免歧义出现。
优选的,本方法中所述第一分类模型使用softmax识别触发词:
其中,为了将更多自然性和语义信息纳入问题,利用ACE事件注释准则中每个论元角色的描述来设计自然问题。
本发明还提供了案情事实抽取系统,所述系统包括:
第一实例化单元,用于获得用于触发词检测的第一输入序列,对所述第一输入序列进行实例化处理获得第二输入序列;
第一预训练语言表示模型处理单元,用于使用预训练语言表示模型获得所述第二输入序列中每个单词的上下文表示,基于所述第二输入序列中每个单词的上下文表示获得第三输入序列;
第一训练集获得单元,用于基于第一论元矩阵和所述第三输入序列获得第一训练集;
触发词识别模型获得单元,用于构建第一分类模型,利用所述第一训练集训练所述第一分类模型获得触发词识别模型;
第二实例化处理单元,用于获得用于论元范围抽取的第四输入序列,对所述第四输入序列进行实例化处理获得第五输入序列;
第二预训练语言表示模型处理单元,用于使用所述预训练语言表示模型获得所述第五输入序列中每个单词的上下文表示,基于所述第五输入序列中每个单词的上下文表示获得第六输入序列;
第二训练集获得单元,用于基于开始论元矩阵、结尾论元矩阵和所述第六输入序列获得第二训练集;
论元起点预测模型获得单元,构建第一概率预测模型,所述第一概率预测模型用于预测单词被选为论元起点的概率,构建第二概率预测模型,所述第二概率预测模型用于预测单词被选为论元结尾的概率,利用所述第二训练集训练所述第一概率预测模型和所述第二概率预测模型获得论元起点预测模型;
案情事实抽取单元,用于获得待处理裁判文书,将所述待处理裁判文书输入所述触发词识别模型,获得触发词识别结果;将所述待处理裁判文书输入所述论元起点预测模型模型,获得论元的起始位置;基于所述起始位置获得相应的论元字段;基于所述触发词识别结果和所述论元字段获得所述待处理裁判文书的案情事实。
本发明还提供了一种案情事实抽取装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述案情事实抽取方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述案情事实抽取方法的步骤。
本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明将案件事实的事件抽取任务表述为问答/机器阅读理解任务,在将裁判文书内容作为输入层输入模型以获取抽取信息之前,使用模板实例化输入语句,不需要实体注释,即本发明采用端到端模型进行事件论元抽取,不需要实体识别的任何预处理步骤,提高了效率。
本发明采用BERT+softmax结构获取各序列的上下文信息然后进行问答任务,能够学习不同模型中语义相似的论元角色从而进行事件论元的抽取,触发器和论元抽取的性能均优于现有方法,能够保障抽取的事件的准确性,同时本发明能够抽取司法领域未知角色的事件论元,应用到法律领域效果较佳,能够克服法律领域内的文本信息存在严重的语义相似性的缺陷。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,并不构成对本发明实施例的限定;
图1为案情事实抽取方法的流程示意图;
图2为案情事实抽取系统的组成示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
实施例一
请参考图1,图1为案情事实抽取方法的流程示意图,本发明实施例一提供了案情事实抽取方法,所述方法包括:
获得用于触发词检测的第一输入序列,对所述第一输入序列进行实例化处理获得第二输入序列;
使用预训练语言表示模型获得所述第二输入序列中每个单词的上下文表示,基于所述第二输入序列中每个单词的上下文表示获得第三输入序列;
基于第一论元矩阵和所述第三输入序列获得第一训练集;
构建第一分类模型,利用所述第一训练集训练所述第一分类模型获得触发词识别模型;
获得用于论元范围抽取的第四输入序列,对所述第四输入序列进行实例化处理获得第五输入序列;
使用所述预训练语言表示模型获得所述第五输入序列中每个单词的上下文表示,基于所述第五输入序列中每个单词的上下文表示获得第六输入序列;
基于开始论元矩阵、结尾论元矩阵和所述第六输入序列获得第二训练集;
构建第一概率预测模型,所述第一概率预测模型用于预测单词被选为论元起点的概率,构建第二概率预测模型,所述第二概率预测模型用于预测单词被选为论元结尾的概率,利用所述第二训练集训练所述第一概率预测模型和所述第二概率预测模型获得论元起点预测模型;
获得待处理裁判文书,将所述待处理裁判文书输入所述触发词识别模型,获得触发词识别结果;将所述待处理裁判文书输入所述论元起点预测模型模型,获得论元的起始位置;基于所述起始位置获得相应的论元字段;基于所述触发词识别结果和所述论元字段获得所述待处理裁判文书的案情事实。
本发明为了实现在人工智能推动下的司法改革中,面向海量裁判文书资源库,让机器通过技术抽取案件事件信息;实现机器自动检测与分类司法事件,为相似案例检索、类案精准推送、审判逻辑图谱构建等一系列司法应用奠定基础。
本发明的目标在于抽取法律裁判文书案情事实部分的事件。本发明主要分为两个大步骤:第一部分:利用预先设定的触发词问题模板,识别裁判文书中的触发词;第二部分:利用预先设定的论元抽取模板识别案件论元。
其中,案情事实是法律文书主体之一,主要包括事实要素、案件情节、因果关系、争执焦点、叙述事实、材料内容等。
其中,案件论元是一个实体,时间表达式,作为参与者的值和在案件中具有特定角色的属性。
其中,触发词最清楚的表达事件发生的主要词,一般指动词或名词。
其中,本发放中的第一部分任务和第二部分任务是两个是并行任务,触发词识别是任务的一部分,论元抽取也是任务的一部分,两个之间没有交集,但设置相似。
步骤A:利用预先设定的触发词问题模板(“触发是什么”,“触发器”,“动作”,“动词”),识别裁判文书中的触发词。由法学专业的专家学者根据案由对司法实务进行具体分析总结,然后进行触发词的预先定义。具体分为4步完成:
第一部分内容具体包括:
使用BERTTr获得用于触发词检测的每个token的上下文表示:
在第二部分内容中本方法利用预先设定的论元抽取模板识别案件论元。本部分中设计了三个模板,分别是:
模板1:使用论元角色名称作为问题。其中,论元角色为论元与它所参与的事件之间的关系。
模板2:基于基本论元的问题,是在模板1的基础上进行了扩展。首先确定论元角色的类型(人、地点或其他),然后基于基本类型信息,确定要提问的“”单词(谁代表人、代表地方是哪里以及其他什么)。其中,基本论元为仅包含人、地点或其他简单类型的事体。
模板3:基于注释准则的问题(注释即纳入更多语义信息并使问题更自然),在模板2的基础上增加了第一部分内容中获得的触发词。为了将更多自然性和语义信息纳入问题,利用ACE事件注释准则中每个论元角色的描述来设计自然问题,即。其中,ACE ( Automatic Content Extraction)会议是含有事件抽取任务的评测会议,这个会议定义了事件抽取的基本任务构成。ACE定义中的事件由事件触发词(Event Trigger)和描述事件结构的论元(Argument)构成。事件触发词事件触发词(trigger)是能够触动事件发生的词,是决定事件类型最重要的特征词,决定了事件类别/子类别。论元用于填充事件模版,两者完整的描述了事件本身。
其中,第二部分内容具体包括:
使用BERTArg获得用于论元抽取的每个词条的上下文表示:
通过上述处理将对输入的中文进行处理变成向量。
将获得论元字段与获得的触发词共同构成了事件。两个任务在一起实现案情事实事件抽取。
实施例二
请参考图2,图2为案情事实抽取系统的组成示意图,本发明实施例二提供了案情事实抽取系统,所述系统包括:
第一实例化单元,用于获得用于触发词检测的第一输入序列,对所述第一输入序列进行实例化处理获得第二输入序列;
第一预训练语言表示模型处理单元,用于使用预训练语言表示模型获得所述第二输入序列中每个单词的上下文表示,基于所述第二输入序列中每个单词的上下文表示获得第三输入序列;
第一训练集获得单元,用于基于第一论元矩阵和所述第三输入序列获得第一训练集;
触发词识别模型获得单元,用于构建第一分类模型,利用所述第一训练集训练所述第一分类模型获得触发词识别模型;
第二实例化处理单元,用于获得用于论元范围抽取的第四输入序列,对所述第四输入序列进行实例化处理获得第五输入序列;
第二预训练语言表示模型处理单元,用于使用所述预训练语言表示模型获得所述第五输入序列中每个单词的上下文表示,基于所述第五输入序列中每个单词的上下文表示获得第六输入序列;
第二训练集获得单元,用于基于开始论元矩阵、结尾论元矩阵和所述第六输入序列获得第二训练集;
论元起点预测模型获得单元,构建第一概率预测模型,所述第一概率预测模型用于预测单词被选为论元起点的概率,构建第二概率预测模型,所述第二概率预测模型用于预测单词被选为论元结尾的概率,利用所述第二训练集训练所述第一概率预测模型和所述第二概率预测模型获得论元起点预测模型;
案情事实抽取单元,用于获得待处理裁判文书,将所述待处理裁判文书输入所述触发词识别模型,获得触发词识别结果;将所述待处理裁判文书输入所述论元起点预测模型模型,获得论元的起始位置;基于所述起始位置获得相应的论元字段;基于所述触发词识别结果和所述论元字段获得所述待处理裁判文书的案情事实。
实施例三
本发明实施例三提供了一种案情事实抽取装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述案情事实抽取方法的步骤。
实施例四
本发明实施例四提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述案情事实抽取方法的步骤。
其中,所述处理器可以是中央处理器(CPU,Central Processing Unit),还可以是其他通用处理器、数字信号处理器(digital signal processor)、专用集成电路(Application Specific Integrated Circuit)、现成可编程门阵列(Fieldprogrammablegate array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的数据,实现发明中案情事实抽取装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等。此外,存储器可以包括高速随机存取存储器、还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡,安全数字卡,闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述案情事实抽取装置如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序可存储于一计算机可读存介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
本发明已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (14)
1.案情事实抽取方法,其特征在于,所述方法包括:
获得用于触发词检测的第一输入序列,对所述第一输入序列进行实例化处理获得第二输入序列;
使用预训练语言表示模型获得所述第二输入序列中每个单词的上下文表示,基于所述第二输入序列中每个单词的上下文表示获得第三输入序列;
基于第一论元矩阵和所述第三输入序列获得第一训练集;
构建第一分类模型,利用所述第一训练集训练所述第一分类模型获得触发词识别模型;
获得用于论元范围抽取的第四输入序列,对所述第四输入序列进行实例化处理获得第五输入序列;
使用所述预训练语言表示模型获得所述第五输入序列中每个单词的上下文表示,基于所述第五输入序列中每个单词的上下文表示获得第六输入序列;
基于开始论元矩阵、结尾论元矩阵和所述第六输入序列获得第二训练集;
构建第一概率预测模型,所述第一概率预测模型用于预测单词被选为论元起点的概率,构建第二概率预测模型,所述第二概率预测模型用于预测单词被选为论元结尾的概率,利用所述第二训练集训练所述第一概率预测模型和所述第二概率预测模型获得论元起点预测模型;
获得待处理裁判文书,将所述待处理裁判文书输入所述触发词识别模型,获得触发词识别结果;将所述待处理裁判文书输入所述论元起点预测模型,获得论元的起始位置;基于所述起始位置获得相应的论元字段;基于所述触发词识别结果和所述论元字段获得所述待处理裁判文书的案情事实。
3.根据权利要求1所述的案情事实抽取方法,其特征在于,所述预训练语言表示模型为BERTTr模型。
12.案情事实抽取系统,其特征在于,所述系统包括:
第一实例化单元,用于获得用于触发词检测的第一输入序列,对所述第一输入序列进行实例化处理获得第二输入序列;
第一预训练语言表示模型处理单元,用于使用预训练语言表示模型获得所述第二输入序列中每个单词的上下文表示,基于所述第二输入序列中每个单词的上下文表示获得第三输入序列;
第一训练集获得单元,用于基于第一论元矩阵和所述第三输入序列获得第一训练集;
触发词识别模型获得单元,用于构建第一分类模型,利用所述第一训练集训练所述第一分类模型获得触发词识别模型;
第二实例化处理单元,用于获得用于论元范围抽取的第四输入序列,对所述第四输入序列进行实例化处理获得第五输入序列;
第二预训练语言表示模型处理单元,用于使用所述预训练语言表示模型获得所述第五输入序列中每个单词的上下文表示,基于所述第五输入序列中每个单词的上下文表示获得第六输入序列;
第二训练集获得单元,用于基于开始论元矩阵、结尾论元矩阵和所述第六输入序列获得第二训练集;
论元起点预测模型获得单元,构建第一概率预测模型,所述第一概率预测模型用于预测单词被选为论元起点的概率,构建第二概率预测模型,所述第二概率预测模型用于预测单词被选为论元结尾的概率,利用所述第二训练集训练所述第一概率预测模型和所述第二概率预测模型获得论元起点预测模型;
案情事实抽取单元,用于获得待处理裁判文书,将所述待处理裁判文书输入所述触发词识别模型,获得触发词识别结果;将所述待处理裁判文书输入所述论元起点预测模型,获得论元的起始位置;基于所述起始位置获得相应的论元字段;基于所述触发词识别结果和所述论元字段获得所述待处理裁判文书的案情事实。
13.一种案情事实抽取装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-11中任意一个所述案情事实抽取方法的步骤。
14.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-11中任意一个所述案情事实抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111341769.6A CN113779227B (zh) | 2021-11-12 | 2021-11-12 | 案情事实抽取方法及系统及装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111341769.6A CN113779227B (zh) | 2021-11-12 | 2021-11-12 | 案情事实抽取方法及系统及装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113779227A CN113779227A (zh) | 2021-12-10 |
CN113779227B true CN113779227B (zh) | 2022-01-25 |
Family
ID=78873868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111341769.6A Active CN113779227B (zh) | 2021-11-12 | 2021-11-12 | 案情事实抽取方法及系统及装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779227B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114936563B (zh) * | 2022-04-27 | 2023-07-25 | 苏州大学 | 一种事件抽取方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112149386A (zh) * | 2020-09-25 | 2020-12-29 | 杭州中软安人网络通信股份有限公司 | 一种事件抽取方法、存储介质及服务器 |
CN112817561A (zh) * | 2021-02-02 | 2021-05-18 | 山东省计算中心(国家超级计算济南中心) | 软件需求文档的事务类功能点结构化抽取方法及系统 |
CN113239694A (zh) * | 2021-06-04 | 2021-08-10 | 北京理工大学 | 一种基于论元短语的论元角色识别的方法 |
CN113591483A (zh) * | 2021-04-27 | 2021-11-02 | 重庆邮电大学 | 一种基于序列标注的文档级事件论元抽取方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331480B (zh) * | 2014-11-07 | 2017-09-29 | 苏州大学 | 一种中文事件触发词的抽取系统及方法 |
CN111428504B (zh) * | 2020-03-17 | 2023-04-28 | 北京明略软件系统有限公司 | 一种事件抽取方法和装置 |
CN111897908B (zh) * | 2020-05-12 | 2023-05-02 | 中国科学院计算技术研究所 | 融合依存信息和预训练语言模型的事件抽取方法及系统 |
CN111723569A (zh) * | 2020-05-21 | 2020-09-29 | 上海明略人工智能(集团)有限公司 | 一种事件抽取方法、装置和计算机可读存储介质 |
CN111797241B (zh) * | 2020-06-17 | 2023-08-22 | 北京北大软件工程股份有限公司 | 基于强化学习的事件论元抽取方法及装置 |
CN111967268B (zh) * | 2020-06-30 | 2024-03-19 | 北京百度网讯科技有限公司 | 文本中的事件抽取方法、装置、电子设备和存储介质 |
CN112116075B (zh) * | 2020-09-18 | 2023-11-24 | 厦门安胜网络科技有限公司 | 事件提取模型生成方法和装置、文本事件提取方法和装置 |
CN112612885A (zh) * | 2020-12-18 | 2021-04-06 | 成都三零凯天通信实业有限公司 | 一种基于bert类模型的阅读理解式新闻文本事件抽取方法 |
CN113255321B (zh) * | 2021-06-10 | 2021-10-29 | 之江实验室 | 基于文章实体词依赖关系的金融领域篇章级事件抽取方法 |
CN113468889A (zh) * | 2021-06-29 | 2021-10-01 | 上海犀语科技有限公司 | 一种基于bert预训练模型信息提取的方法和装置 |
-
2021
- 2021-11-12 CN CN202111341769.6A patent/CN113779227B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112149386A (zh) * | 2020-09-25 | 2020-12-29 | 杭州中软安人网络通信股份有限公司 | 一种事件抽取方法、存储介质及服务器 |
CN112817561A (zh) * | 2021-02-02 | 2021-05-18 | 山东省计算中心(国家超级计算济南中心) | 软件需求文档的事务类功能点结构化抽取方法及系统 |
CN113591483A (zh) * | 2021-04-27 | 2021-11-02 | 重庆邮电大学 | 一种基于序列标注的文档级事件论元抽取方法 |
CN113239694A (zh) * | 2021-06-04 | 2021-08-10 | 北京理工大学 | 一种基于论元短语的论元角色识别的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113779227A (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Imtiaz et al. | Duplicate questions pair detection using siamese malstm | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN112149421A (zh) | 一种基于bert嵌入的软件编程领域实体识别方法 | |
Shen et al. | A hybrid model for quality assessment of Wikipedia articles | |
CN111738016A (zh) | 多意图识别方法及相关设备 | |
Zhang et al. | One-shot learning for question-answering in gaokao history challenge | |
CN112148862B (zh) | 一种问题意图识别方法、装置、存储介质及电子设备 | |
CN116304748B (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
CN113138920B (zh) | 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置 | |
CN113723105A (zh) | 语义特征提取模型的训练方法、装置、设备及存储介质 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN113919366A (zh) | 一种面向电力变压器知识问答的语义匹配方法和装置 | |
CN113779227B (zh) | 案情事实抽取方法及系统及装置及介质 | |
Aksonov et al. | Question-Answering Systems Development Based on Big Data Analysis | |
WO2023169301A1 (zh) | 一种文本处理方法、装置及电子设备 | |
CN112989001B (zh) | 一种问答处理方法、装置、介质及电子设备 | |
CN117501283A (zh) | 文本到问答模型系统 | |
Weng et al. | A survey of artificial intelligence techniques on MOOC of legal education | |
Luo | Automatic short answer grading using deep learning | |
CN112200268A (zh) | 一种基于编码器-解码器框架的图像描述方法 | |
Zhao et al. | Multi-modal sarcasm generation: Dataset and solution | |
CN105808522A (zh) | 一种语义联想的方法及装置 | |
Ling et al. | Sentence-level event detection without triggers via prompt learning and machine reading comprehension | |
CN116227598B (zh) | 一种基于双阶段注意力机制的事件预测方法、设备及介质 | |
Zhang | Satellite Image Classification Based on Convolutional Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 610042 No. 270, floor 2, No. 8, Jinxiu street, Wuhou District, Chengdu, Sichuan Patentee after: Chengdu shuzhilian Technology Co.,Ltd. Address before: No.2, floor 4, building 1, Jule road crossing, Section 1, West 1st ring road, Wuhou District, Chengdu City, Sichuan Province 610041 Patentee before: CHENGDU SHUZHILIAN TECHNOLOGY Co.,Ltd. |