CN115391496B - 一种法律文书案例抽取方法、系统和存储介质 - Google Patents
一种法律文书案例抽取方法、系统和存储介质 Download PDFInfo
- Publication number
- CN115391496B CN115391496B CN202211337416.3A CN202211337416A CN115391496B CN 115391496 B CN115391496 B CN 115391496B CN 202211337416 A CN202211337416 A CN 202211337416A CN 115391496 B CN115391496 B CN 115391496B
- Authority
- CN
- China
- Prior art keywords
- legal document
- sentences
- sentence
- text
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 127
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 14
- 238000012805 post-processing Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 abstract description 11
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000009286 beneficial effect Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000002349 favourable effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Technology Law (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及法律文书案例抽取技术领域,特别涉及一种法律文书案例抽取方法、系统和存储介质,本发明的法律文书案例抽取方法包括以下步骤:获取待抽取法律文书文本;将待抽取法律文书文本划分成句;获取预测模型;通过预测模型预测出属于开头、其他、结尾类别的句子;将开头、其他、结尾类别的句子对应组合得到法律文书案例抽取结果。本发明通过预测模型给待抽取法律文书文本中的句子分类,然后再根据句子的类别对应组合得到案例抽取结果,可以从长文本中抽取出任意长度的案例信息文本,规避了预测模型的固定长度的输出文本字符限制,能够使用户获得更准确、丰富的信息。本发明还提供一种法律文书案例抽取系统与存储介质。
Description
技术领域
本发明涉及法律文书案例抽取技术领域,特别涉及一种法律文书案例抽取方法、系统和存储介质。
背景技术
目前,在案例抽取中采用的主流方法是使用自然语言处理的预训练模型如BERT抽取对应结构化文本,但有一个弊端是BERT相关模型仅支持小于固定长度(512字符)的文本的输入、小于固定长度(512字符)的文本的输出;并且,学术界多关注于对长文本的理解这一阶段,而下游任务的输出则是短文本(如open-domain的QA任务)或标签(如文档分类任务),针对上下文和答案都为长文本的情况,学术界研究成果较少,该问题也是自然语言处理领域的一大难题。然而,在真实业务中,尤其是对法律文书进行案例抽取时,待抽取的公告文本通常都会超过512字符长度,这往往会导致文本信息的丢失及抽取不准确;此外,抽取得到的短文本片段化,无法提供足够丰富的情报信息给用户,从而导致用户难以获取精准、丰富的案例信息。
发明内容
为了从长文本中抽取得到长文本结果,本发明提供了一种法律文书案例抽取方法、系统和存储介质。
本发明解决技术问题的方案是提供一种法律文书案例抽取方法,包括以下步骤:
获取待抽取法律文书文本;
基于标点符号将所述待抽取法律文书文本划分成句;
依次获取划分之后的一个句子作为当前句;
将当前句与所述当前句的前后句组合作为一个文本块以将待抽取法律文书划分成多个文本块;
训练及微调初始模型得到预测模型,具体为:从训练数据法律文书公告中提取出纯文本作为待抽取法律文书文本,将待抽取法律文书文本按标点符号划分成句,采用滑窗的方式对划分之后的句子进行组合使每三个句子形成一个小于512字符长度的样本,对属于案例的样本按“开头”、“其他”、“结尾”三个标签进行标注,将标注后的样本输入初始模型进行微调得到预测模型;
预测模型基于文本块中前后句的字符特征预测出各文本块中属于开头、其他、结尾类别的当前句;其中,前后句的字符特征为当前句前一句的最后一个字符的特征,或者当前句后一句的第一个字符的特征;
将开头、其他、结尾类别的当前句对应组合得到法律文书案例抽取结果。
优选地,所述文本块的长度小于512字符。
优选地,所述标点符号为句号字符。
优选地,所述初始模型为BERT类型的模型。
优选地,所述初始模型为Mengzi-BERT-Large模型、Mengzi-BERT-base模型、Mengzi-BERT-3B模型中的一种。
优选地,当前句与所述当前句的前后句采用滑窗方式组合为一个文本块。
本发明为解决上述技术问题还提供一种法律文书案例抽取系统,用于实现上述法律文书案例抽取方法,包括内容提取模块、数据预处理模块、预测模块以及后处理模块;所述数据预处理模块分别与所述内容提取模块以及所述预测模块信号连接,所述预测模块与所述后处理模块信号连接;其中,预测模块内设有预测模型,预测模型通过训练及微调初始模型获得,具体为:从训练数据法律文书公告中提取出纯文本作为待抽取法律文书文本,将待抽取法律文书文本按标点符号划分成句,采用滑窗的方式对划分之后的句子进行组合使每三个句子形成一个小于512字符长度的样本,对属于案例的样本按“开头”、“其他”、“结尾”三个标签进行标注,将标注后的样本输入初始模型进行微调得到预测模型;
所述内容提取模块用于获取待抽取法律文书文本;
所述数据预处理模块用于基于标点符号将所述待抽取法律文书文本划分成句;所述数据预处理模块包括组合模块,所述组合模块用于依次获取划分之后的一个句子作为当前句,并将当前句与所述当前句的前后句组合作为一个文本块以将待抽取法律文书划分成多个文本块;
所述预测模块基于当前句前一句的最后一个字符的特征,或者当前句后一句的第一个字符的特征给句子分类,识别出属于开头、其他、结尾类别的句子;
所述后处理模块用于将开头、其他、结尾类别的句子对应组合输出案例抽取结果。
本发明为解决上述技术问题还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述法律文书案例抽取方法。
与现有技术相比,本发明的一种法律文书案例抽取方法、系统和存储介质具有以下优点:
1、本发明的法律文书案例抽取方法,包括以下步骤:获取待抽取法律文书文本;将待抽取法律文书文本划分成句;获取预测模型;通过预测模型预测出属于开头、其他、结尾类别的句子;将开头、其他、结尾类别的句子对应组合得到法律文书案例抽取结果。本发明通过预测模型给待抽取法律文书文本中的句子分类,然后再根据句子的类别对应组合得到案例抽取结果,可以从长文本中抽取出任意长度的案例信息文本,即从长本文中抽取得到长文本结果,规避了预测模型的固定长度(512)的输出文本字符限制,能够使用户获得更准确、丰富的信息。
可以理解,在法律文书中,一篇法律文书中可能包括多个案例、内容较多,对于法律文书中的案例抽取,若抽取得到的是结构化文本,由于结构化文本包含的内容较少且信息片段化,不利于用户获取足够的信息,而采用本发明的法律文书案例抽取方法进行案例抽取,得到的抽取结果可以是包含一篇法律文书中所有案例的长文本,有利于用户获取连续、丰富的案例信息,更贴近用户的需求。此外,采用本发明的法律文书案例抽取方法可以高效、准确地抽取出法律文书中相同类型的案例,便于用户比较分析,为用户提供足够丰富的案例信息。
2、本发明的法律文书案例抽取方法中基于句号字符将待抽取法律文书文本划分成句,有利于保证每一个句子的内容完整,便于预测模型更好地理解语义信息,进而预测出文本块的类型。
3、本发明的法律文书案例抽取方法中预测模型为初始模型经过微调得到,因此,预测模型的性能更好,能够更准确地预测出句子的类型。
4、本发明的法律文书案例抽取方法中将当前句与当前句的前后句采用滑窗方式组合作为一个文本块,可以使每一个文本块的长度小于512字符,有利于规避预测模型的固定长度(512)的输入文本字符限制,满足预测模型的输入字符要求,保证信息不丢失、提高抽取准确率,另外,采用滑窗方式组合还有利于减少组合复杂度、提高抽取效率。
5、本发明的法律文书案例抽取方法中判断文本块中当前句属于开头、其他、结尾中的哪一个类别包括以下步骤:获取当前句的前后句的字符特征;基于前后句的字符特征判断当前句属于开头、其他、结尾中的哪一类别。可以理解,当前句的前后句的字符特征可以给预测模型提供较强的信息特征,辅助预测模型对当前句进行分类。
6、本发明还提供一种法律文书案例抽取系统,具有与上述法律文书案例抽取方法相同的有益效果,在此不做赘述。
7、本发明还提供一种存储介质,其上存储有计算机程序,该计算机程序被执行时实现上述法律文书案例抽取方法,具有与上述法律文书案例抽取方法相同的有益效果,在此不做赘述。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的一种法律文书案例抽取方法的步骤流程图。
图2是本发明第一实施例提供的一种法律文书案例抽取方法之步骤S4的流程图。
图3是本发明第一实施例提供的一种法律文书案例抽取方法之法律文书公告示例图一。
图4是本发明第一实施例提供的一种法律文书案例抽取方法之法律文书公告示例图二。
图5是本发明第一实施例提供的一种法律文书案例抽取方法之抽取结果示例图。
图6是本发明第一实施例提供的一种法律文书案例抽取方法的测试结果示例图。
图7是本发明第二实施例提供的一种法律文书案例抽取系统的框图。
附图标识说明:
1、法律文书案例抽取系统;
10、内容提取模块;20、数据预处理模块;30、预测模块;40、后处理模块。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明第一实施例提供的法律文书案例抽取方法主要用于对法律文书公告中的案例进行抽取,尤其是对金融领域的起诉公告进行案例抽取。在金融领域的起诉公告中,用户往往希望从这些案例中分析了解到相关公司、企业、集团等的诉讼信息,为用户后续投资、合作等提供足够的情报信息,提前规避风险。因此,若从公告中抽取得到的都是案例的结构化信息,用户将难以从这些结构化信息中获取足够的案例信息,从而导致用户无法获取到足够的情报信息。另外,若一篇公告中包括多个案例,抽取得到的结构化信息还会导致用户无法分辨这些结构化信息具体属于哪个案例,从而导致用户获取的信息混乱、不清楚。而本发明第一实施例提供的法律文书案例抽取方法可以将一篇公告中的所有案例完整地抽取出来,得到连续性的长文本,为用户提供足够的情报信息。
可以理解,由于金融领域的起诉公告一般具有一定的格式规则,因此本发明提供的法律文书案例抽取方法只要识别出公告中的某个案例的开头与结尾以及对应的中间过程内容就能够高效、准确地将公告中的案例完整地抽取出来,为用户提供丰富的案例信息。可以理解,除了金融领域的起诉公告外,其他具有相应格式规则的法律文书也能采用本发明第一实施例提供的法律文书案例抽取方法进行案例抽取。
请参阅图1,本发明第一实施例提供一种法律文书案例抽取方法,包括以下步骤:
S1、获取待抽取法律文书文本;
S2、将待抽取法律文书文本划分成句;
S3、获取预测模型;
S4、通过预测模型预测出属于开头、其他、结尾类别的句子;
S5、将开头、其他、结尾类别的句子对应组合得到法律文书案例抽取结果。
进一步地,步骤S2的具体步骤为:基于标点符号将待抽取法律文书文本划分成句。具体地,在本发明的实施例中基于句号字符将待抽取法律文书文本划分成若干个句子。可以理解,按照句号字符划分有利于确保划分之后的每个句子具有较为完整的信息,便于预测模型理解语义信息,提高抽取准确度。
可选地,在其他实施例中不排除采用其他标点符号划分待抽取法律文书文本的情况,如采用逗号字符、分号字符等,或者采用句号字符与其他标点符号结合的方式划分待抽取法律文书文本。
进一步地,步骤S3具体包括以下步骤:
S31、获取训练数据;
S32、对训练数据进行标注;
S33、获取初始模型;
S34、利用标注后的训练数据对初始模型进行微调得到预测模型。
具体地,在本发明第一实施例中,训练数据为1500份违规法律文书公告,在其他实施例中训练数据也可以视实际需求适当增加或减少。
具体地,对初始模型微调获取预测模型的大致流程如下:首先从训练数据违规法律文书公告中提取出纯文本作为待抽取法律文书文本;然后将待抽取法律文书文本按照句号字符划分成句,接着采用滑窗的方式对划分之后的句子进行组合使每三个句子形成一个样本。
示例性地,这里以分割之后的四个句子为例对采用滑窗的方式对划分之后的句子进行组合进行示例说明。按从前往后的顺序定义分割之后的四个句子分别零号句子、一号句子、二号句子、三号句子;组合之后,零号句子、一号句子、二号句子为第一样本,一号句子、二号句子、三号句子为第二样本……可以理解,对一篇法律文书公告中所有划分之后的句子都采用上述的方式滑窗组合得到若干个样本。
接下来,将所有划分之后的句子组合之后,对属于违规案例的样本按照“开头”、“其他”、“结尾”三个标签进行标注,其中,“开头”对应案例的开头句,“其他”对应案例的一个或多个过程句,“结尾”对应案例的结尾句。按照这样的方式对所有样本进行标注,然后将每个样本已有的标签转换成对每个样本的中间句的类别,即转换成每个样本的中间句是否是“开头”、“其他”、“结尾”中某一个类别。可以理解,上述第一样本中的一号句子,第二样本中的二号句子就是中间句,比如,若上述的第一样本的标签为“开头”,那么一号句子的类别就是“开头”。标注之后,使用所有标记后的样本对初始模型进行微调得到预测模型。
具体地,在本发明第一实施例中对初始模型微调时设定的参数为:
num_warmup_steps(预热步数)= 100;
learning_rate (学习率)= 1e-6;
batch_size(批量大小) = 16;
num_train_epochs(通过训练数据集的完整通过次数)=3。
进一步地,初始模型为BERT类型的预训练模型,在本发明的实施例中,初始模型为Mengzi-BERT-Large模型。在其他实施例中,也可以根据实际需求用其他模型替换Mengzi-BERT-Large模型,如为降低硬件资源的消耗,将Mengzi-BERT-Large模型更换为Mengzi-BERT-base模型;为获得更高的抽取准确度,将Mengzi-BERT-large模型更换为Mengzi-BERT-3B模型等。
请参阅图2,步骤S4的具体步骤包括:
S41、获取一个句子作为当前句;
S42、将当前句与当前句的前后句采用滑窗方式组合作为一个文本块;
S43、判断文本块中当前句属于开头、其他、结尾中的哪一个类别。
进一步地,步骤S43的具体步骤包括:
S431、获取当前句的前后句的字符特征;
S432、基于前后句的字符特征判断当前句属于开头、其他、结尾中的哪一类别。
可以理解,步骤S42将当前句与当前句的前后句采用滑窗方式组合作为一个文本块与对初始模型微调获取预测模型过程中的滑窗组合方式一致,在此不再赘述。可以理解,微调过程中的一个样本等同于步骤S42中的一个文本块,微调过程中样本中的中间句等同于文本块中的当前句。
可以理解,采用本发明第一实施例提供的滑窗组合方式组合成的文本块的长度基本上都小于512字符,符合预测模型的输入字符要求,可以避免信息丢失,提高预测模型预测句子类别的准确率。
进一步地,步骤S431中当前句的前后句的字符特征一般为当前句前一句的最后一个字符的特征,或者为当前句后一句的第一个字符的特征。示例性地,如果当前句是“开头”,那么一般来说前一句的结尾大概率会是一个“回车”字符;如果当前句是“结尾”,那么大概率下一句的开头是一个表达序号的字符,这些字符信息是强特征,因此,根据当前句前后句的字符特征可以帮助预测模型预测当前句的类别,提高预测模型的预测准确性。
可以理解,通过预测模型即可对法律文书中的案例进行分类,识别出属于“开头”、“其他”、“结尾”类别的句子。若一篇法律文书中包括多个案例,预测模型在预测时会预测出与案例数对应的“开头”类别数,以及与“开头”类别对应的“其他”类别与“结尾”类别,即一个案例对应一个开头句,一个或多个过程句与一个结尾句;因此,在组合时,一个开头句与对应的一个或多个过程句以及与一个结尾句组合得到法律文书案例抽取结果中的一个案例。具体地,步骤S5的具体步骤为对待抽取法律文书文本的每一个句子从前往后逐个扫描,每一个“开头”+N*“其他”+“结尾”(一般来说,N为大于等于1的整数)即可组合为一个案例;扫描完全文,将会得到M个违规案例文本(一般来说,M为大于等于1的整数)。可以理解,法律文书中有几个需要抽取的案例,抽取结果中就能对应抽取出几个案例。
可以理解,本发明第一实施例提供的法律文书案例抽取方法的抽取结果并不依赖于预测模型输出,而是基于句子类别进行组合的方式得到,因此,采用本发明第一实施例提供的法律文书案例抽取方法得到的抽取结果长度不受预测模型输出512字符的限制,可以得到任意长度的抽取结果,为用户提供丰富的案例信息。
请参阅图3至图5,示例性地,图3和图4是某法律文书公告的示例图,采用本发明第一实施例提供的法律文书案例抽取方法对图3和图4所示的法律文书公告中违规案例进行抽取得到的案例抽取结果如图5所示。具体地,采用本发明第一实施例的法律文书案例抽取方法对图3和图4所示的法律文书公告进行案例抽取的步骤大致如下:先提取出该示例法律文书公告中的纯文本得到待抽取法律文书文本,然后将待抽取法律文书文本划分成句并进行组合得到文本块,接着预测模型预测出属于开头、其他、结尾类别的句子。可以理解,在本示例中,预测模型的预测结果为:“1、案件 1 号、3 号基本情况”与“2、案件 2 号基本情况”为开头类别;“③继续履行拆迁义务以具备供地条件”与“②返还欠付的安置房代建成本进度款 *** 元及迟延给付前述资金的损失 *** 元”为结尾类别;“1、案件 1 号、3 号基本情况”与“③继续履行拆迁义务以具备供地条件”之间的内容以及“2、案件 2 号基本情况”与“②返还欠付的安置房代建成本进度款 *** 元及迟延给付前述资金的损失 *** 元”之间的内容均为“其他”类别;因为在该示例法律文书公告中有两个违规案例,因此预测模型预测出两个开头句以及对应的其他句与结尾句。最后再按顺序从前往后扫描待抽取法律文书文本,将对应的开头、其他、结尾类别的句子组合,就得到如图5所示的法律文书案例抽取结果。可以看出,图5所示的抽取结果是一个包括两个案例信息的长文本,减少了用户的阅读量,同时也能保证用户可以从抽取结果中了解到各个违规案例的前因后果,为用户的后续行动提供足够的信息支撑。因此,采用本发明第一实施例提供的法律文书案例抽取方法可以得到任意长度的抽取结果以包括完整的案例信息,可以抽取出一篇法律文书中的所有案例信息,便于用户获取准确、丰富的案例信息,更符合用户的需求。特别是在金融领域,用户需要对案例的前因后果有基本的了解,才能了解到相关公司、企业等的诉讼信息,才能为后续投资、合作等提前规避风险,因此,若案例抽取得到的是结构化文本将无法满足用户这一需求。而采用本发明第一实施例提供的法律文书案例抽取方法,得到的抽取结果是连续性的长文本,用户可以快速、准确地获取相关公司、企业等的诉讼情况,并且从抽取到的足够丰富的案例信息中进行风险分析,为后续投资、合作等提供足够的情报信息。
进一步地,请参阅图6,图6是本发明第一实施例提供的法律文书案例抽取方法在包括160份违规公告的测试数据集上的测试结果。从评测分数可以看出,本发明第一实施例提供的法律文书案例抽取方法在查全率接近81%时,准确率接近90%,抽取准确度高。具体地,评测分数计算公式如下:
准确率=完全匹配对的段落/总共预测的段落数;
查全率=完全匹配的段落/真实的答案段落数;
调和平均数=(2*准确率*查全率)/(准确率 +查全率)。
综上所述,采用本发明第一实施例提供的法律文书案例抽取方法规避了预测模型的固定长度(512)的文本字符限制,支持任意长度法律文书的原文本,输出任意长度抽取的案例信息文本,并且可以抽取出一篇法律文本中的全部案例信息,更符合用户的需求。此外,本发明第一实施例提供的法律文书案例抽取方法也具有较高的抽取准确度。
进一步地,请参阅图7,本发明第二实施例提供一种法律文书案例抽取系统1,包括内容提取模块10、数据预处理模块20、预测模块30以及后处理模块40;数据预处理模块20分别与内容提取模块10以及预测模块30信号连接,预测模块30与后处理模块40信号连接。
进一步地,内容提取模块10为PDF(可携带文档格式)内容提取模块,用于提取法律文书中的纯文本获取待抽取法律文书文本。数据预处理模块20用于将待抽取法律文书文本划分成句。预测模块30用于给句子分类,识别出属于开头、其他、结尾类别的句子。后处理模块40用于将开头、其他、结尾类别的句子对应组合输出法律文书的案例抽取结果。
进一步地,预测模块30内设有预测模型,并通过预测模型预测各句子的类别给句子分类。
进一步地,数据预处理模块20包括组合模块,组合模块用于将划分之后的句子组合形成文本块,即将一个句子与该句子的前一个句子以及后一个句子三个句子组合作为一个文本块。
示例性地,这里以法律文书案例抽取系统1对一篇违规公告法律文书进行违规案例抽取为例对法律文书案例抽取系统1的工作流程进行示例说明。法律文书案例抽取系统1的工作流程大致如下:输入pdf版本的违规公告,内容提取模块10提取出违规公告中的纯文本内容得到待抽取法律文书文本,然后数据预处理模块20将纯文本内容即待抽取法律文书文本划分成多个句子,并通过组合模块将划分之后的句子组合形成文本块,即三句话形成一个文本块;接下来,预测模块30内的预测模型判断文本块是“开头”、“其他”、“结尾”中的哪一个类别,进而给句子分类判断出文本块中位于中间的句子属于“开头”、“其他”、“结尾”中的哪一个类别;然后后处理模块40将属于“开头”、“其他”、“结尾”类别的句子对应组合得到违规公告中的全部违规案例,最后输出得到法律文书的案例抽取结果。
可以理解,内容提取模块10也可以为其他类型的内容提取模块,用于提取除pdf版本外的其他版本的公告文件。
可以理解,本发明第二实施例提供的法律文书案例抽取系统与本发明第一实施例提供的法律文书案例抽取方法有益效果相同,在此不做赘述。
进一步地,本发明第三实施例提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明第一实施例提供的法律文书案例抽取方法。本发明第三实施例提供的存储介质与本发明第一实施例提供的法律文书案例抽取方法有益效果相同,在此不做赘述。
可以理解地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在本发明的附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方案中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,在此基于涉及的功能而确定。需要特别注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
与现有技术相比,本发明的一种法律文书案例抽取方法、系统和存储介质具有以下优点:
1、本发明的法律文书案例抽取方法,包括以下步骤:获取待抽取法律文书文本;将待抽取法律文书文本划分成句;获取预测模型;通过预测模型预测出属于开头、其他、结尾类别的句子;将开头、其他、结尾类别的句子对应组合得到法律文书案例抽取结果。本发明通过预测模型给待抽取法律文书文本中的句子分类,然后再根据句子的类别对应组合得到案例抽取结果,可以从长文本中抽取出任意长度的案例信息文本,即从长本文中抽取得到长文本结果,规避了预测模型的固定长度(512)的输出文本字符限制,能够使用户获得更准确、丰富的信息。
可以理解,在法律文书中,一篇法律文书中可能包括多个案例、内容较多,对于法律文书中的案例抽取,若抽取得到的是结构化文本,由于结构化文本包含的内容较少且信息片段化,不利于用户获取足够的信息,而采用本发明的法律文书案例抽取方法进行案例抽取,得到的抽取结果可以是包含一篇法律文书中所有案例的长文本,有利于用户获取连续、丰富的案例信息,更贴近用户的需求。此外,采用本发明的案例抽取方法可以高效、准确地抽取出法律文书中相同类型的案例,便于用户比较分析,为用户提供足够丰富的案例信息。
2、本发明的法律文书案例抽取方法中基于句号字符将待抽取法律文书文本划分成句,有利于保证每一个句子的内容完整,便于预测模型更好地理解语义信息,进而预测出文本块的类型。
3、本发明的法律文书案例抽取方法中预测模型为初始模型经过微调得到,因此,预测模型的性能更好,能够更准确地预测出句子的类型。
4、本发明的法律文书案例抽取方法中将当前句与当前句的前后句采用滑窗方式组合作为一个文本块,可以使每一个文本块的长度小于512字符,有利于规避预测模型的固定长度(512)的输入文本字符限制,满足预测模型的输入字符要求,保证信息不丢失、提高抽取准确率,另外,采用滑窗方式组合还有利于减少组合复杂度、提高抽取效率。
5、本发明的法律文书案例抽取方法中判断文本块中当前句属于开头、其他、结尾中的哪一个类别包括以下步骤:获取当前句的前后句的字符特征;基于前后句的字符特征判断当前句属于开头、其他、结尾中的哪一类别。可以理解,当前句的前后句的字符特征可以给预测模型提供较强的信息特征,辅助预测模型对当前句进行分类。
6、本发明还提供一种法律文书案例抽取系统,具有与上述法律文书案例抽取方法相同的有益效果,在此不做赘述。
7、本发明还提供一种存储介质,其上存储有计算机程序,该计算机程序被执行时实现上述法律文书案例抽取方法,具有与上述法律文书案例抽取方法相同的有益效果,在此不做赘述。
以上对本发明实施例公开的一种法律文书案例抽取方法、系统和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制,凡在本发明的原则之内所作的任何修改,等同替换和改进等均应包含本发明的保护范围之内。
Claims (8)
1.一种法律文书案例抽取方法,其特征在于:包括以下步骤:
获取待抽取法律文书文本;
基于标点符号将所述待抽取法律文书文本划分成句;
依次获取划分之后的一个句子作为当前句;
将当前句与所述当前句的前后句组合作为一个文本块以将待抽取法律文书划分成多个文本块;
训练及微调初始模型得到预测模型,具体为:从训练数据法律文书公告中提取出纯文本作为待抽取法律文书文本,将待抽取法律文书文本按标点符号划分成句,采用滑窗的方式对划分之后的句子进行组合使每三个句子形成一个小于512字符长度的样本,对属于案例的样本按“开头”、“其他”、“结尾”三个标签进行标注,将标注后的样本输入初始模型进行微调得到预测模型;
预测模型基于文本块中前后句的字符特征预测出各文本块中属于开头、其他、结尾类别的当前句;其中,前后句的字符特征为当前句前一句的最后一个字符的特征,或者当前句后一句的第一个字符的特征;
将开头、其他、结尾类别的当前句对应组合得到法律文书案例抽取结果。
2.如权利要求1所述的法律文书案例抽取方法,其特征在于:所述文本块的长度小于512字符。
3.如权利要求1所述的法律文书案例抽取方法,其特征在于:所述标点符号为句号字符。
4.如权利要求1所述的法律文书案例抽取方法,其特征在于:所述初始模型为BERT类型的模型。
5.如权利要求1所述的法律文书案例抽取方法,其特征在于:所述初始模型为Mengzi-BERT-Large模型、Mengzi-BERT-base模型、Mengzi-BERT-3B模型中的一种。
6.如权利要求1所述的法律文书案例抽取方法,其特征在于:当前句与所述当前句的前后句采用滑窗方式组合为一个文本块。
7.一种法律文书案例抽取系统,用于实现如权利要求1-6任一项所述的法律文书案例抽取方法,其特征在于:包括内容提取模块、数据预处理模块、预测模块以及后处理模块;所述数据预处理模块分别与所述内容提取模块以及所述预测模块信号连接,所述预测模块与所述后处理模块信号连接;其中,预测模块内设有预测模型,预测模型通过训练及微调初始模型获得,具体为:从训练数据法律文书公告中提取出纯文本作为待抽取法律文书文本,将待抽取法律文书文本按标点符号划分成句,采用滑窗的方式对划分之后的句子进行组合使每三个句子形成一个小于512字符长度的样本,对属于案例的样本按“开头”、“其他”、“结尾”三个标签进行标注,将标注后的样本输入初始模型进行微调得到预测模型;
所述内容提取模块用于获取待抽取法律文书文本;
所述数据预处理模块用于基于标点符号将所述待抽取法律文书文本划分成句;所述数据预处理模块包括组合模块,所述组合模块用于依次获取划分之后的一个句子作为当前句,并将当前句与所述当前句的前后句组合作为一个文本块以将待抽取法律文书划分成多个文本块;
所述预测模块基于当前句前一句的最后一个字符的特征,或者当前句后一句的第一个字符的特征给句子分类,识别出属于开头、其他、结尾类别的句子;
所述后处理模块用于将开头、其他、结尾类别的句子对应组合输出案例抽取结果。
8.一种存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1-6任一项所述的法律文书案例抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211337416.3A CN115391496B (zh) | 2022-10-28 | 2022-10-28 | 一种法律文书案例抽取方法、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211337416.3A CN115391496B (zh) | 2022-10-28 | 2022-10-28 | 一种法律文书案例抽取方法、系统和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115391496A CN115391496A (zh) | 2022-11-25 |
CN115391496B true CN115391496B (zh) | 2023-03-31 |
Family
ID=84115101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211337416.3A Active CN115391496B (zh) | 2022-10-28 | 2022-10-28 | 一种法律文书案例抽取方法、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115391496B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160103823A1 (en) * | 2014-10-10 | 2016-04-14 | The Trustees Of Columbia University In The City Of New York | Machine Learning Extraction of Free-Form Textual Rules and Provisions From Legal Documents |
CN111104798B (zh) * | 2018-10-27 | 2023-04-21 | 北京智慧正安科技有限公司 | 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质 |
CN113553385B (zh) * | 2021-07-08 | 2023-08-25 | 北京计算机技术及应用研究所 | 一种司法文书中法律要素的关系抽取方法 |
CN114036933B (zh) * | 2022-01-10 | 2022-04-22 | 湖南工商大学 | 基于法律文书的信息抽取方法 |
CN114239536B (zh) * | 2022-02-22 | 2022-06-21 | 北京澜舟科技有限公司 | 一种事件抽取方法、系统及计算机可读存储介质 |
-
2022
- 2022-10-28 CN CN202211337416.3A patent/CN115391496B/zh active Active
Non-Patent Citations (5)
Title |
---|
AM-BRNN:一种基于深度学习的文本摘要自动抽取模型;沈华东等;《小型微型计算机系统》;20180615(第06期);全文 * |
一种中文法律审判文书的知识抽取方法;聂耀鑫等;《信息系统工程》;20200520(第05期);全文 * |
基于词语相关性的对话系统话题分割;何天文等;《计算机应用研究》;20180209(第04期);全文 * |
实体关系抽取方法研究综述;李冬梅等;《计算机研究与发展》;20200707(第07期);全文 * |
裁定文书中企业破产事件的自动化抽取;杨佳乐等;《华东师范大学学报(自然科学版)》;20200724(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115391496A (zh) | 2022-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222188B (zh) | 一种多任务学习的公司公告处理方法及服务端 | |
CN110580308B (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN111930792B (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
CN111783450B (zh) | 语料文本中的短语提取方法、装置、存储介质及电子设备 | |
CN113064964A (zh) | 文本分类方法、模型训练方法、装置、设备以及存储介质 | |
CN112214987B (zh) | 一种信息提取方法、提取装置、终端设备及可读存储介质 | |
CN116127020A (zh) | 生成式大语言模型训练方法以及基于模型的搜索方法 | |
CN112163072B (zh) | 基于多数据源的数据处理方法以及装置 | |
CN111753086A (zh) | 一种垃圾邮件识别方法和装置 | |
CN111723569A (zh) | 一种事件抽取方法、装置和计算机可读存储介质 | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
CN110503956B (zh) | 语音识别方法、装置、介质及电子设备 | |
CN109582788A (zh) | 垃圾评论训练、识别方法、装置、设备及可读存储介质 | |
CN113407610B (zh) | 信息抽取方法、装置、电子设备和可读存储介质 | |
CN111191445A (zh) | 广告文本分类方法及装置 | |
CN110750978A (zh) | 情感倾向分析方法、装置、电子设备及存储介质 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN110222139B (zh) | 道路实体数据去重方法、装置、计算设备和介质 | |
CN114970540A (zh) | 训练文本审核模型的方法和装置 | |
CN112669850A (zh) | 语音质量检测方法、装置、计算机设备及存储介质 | |
CN113096687A (zh) | 音视频处理方法、装置、计算机设备及存储介质 | |
CN113095082A (zh) | 一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质 | |
CN114036921A (zh) | 一种政策信息匹配方法和装置 | |
CN112711943A (zh) | 一种维吾尔文语种识别方法、装置及存储介质 | |
CN115391496B (zh) | 一种法律文书案例抽取方法、系统和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |