CN111444678B

CN111444678B - 一种基于机器阅读理解的起诉状信息抽取方法及系统

Info

Publication number: CN111444678B
Application number: CN202010550140.1A
Authority: CN
Inventors: 翁洋; 王竹; 李鑫; 其他发明人请求不公开姓名
Original assignee: Sichuan University; Chengdu Shuzhilian Technology Co Ltd
Current assignee: Sichuan University; Chengdu Shuzhilian Technology Co Ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-09-22
Anticipated expiration: 2040-06-16
Also published as: CN111444678A

Abstract

本发明公开了一种基于机器阅读理解的起诉状信息抽取方法及系统：标注起诉状样本集得到三元样本集；将训练集输入预训练模型得到起诉状向量序列X；将裁判文书样本集中每一个样本均嵌入成向量得到文书向量序列Y；聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z；将预训练模型的最终隐藏状态转换为答案跨度的概率，生成最终模型。本发明一种基于机器阅读理解的起诉状信息抽取方法及系统利用机器阅读理解技术自动提取起诉状中预设模板的相关信息内容，并保证信息提取精度。

Description

一种基于机器阅读理解的起诉状信息抽取方法及系统

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于机器阅读理解的起诉状信息抽取方法及系统。

背景技术

起诉状，是当事人因自身合法权益遭受侵害向人民法院提起诉讼请求的文书。现行一般采用OCR识别技术将起诉状扫描件中的诉讼请求转换为可编辑的文字，再辅助于人民法院后续的审判工作。利用OCR将图片信息转换为文本信息后，采用基于正则与序列标注的模式抽取起诉状中的信息，该方法无法解决词义不完全匹配，跨句识别，是否类等司法常见问题。

发明内容

本发明所要解决的技术问题是现有的起诉状信息化处理技术无法解决词义不完全匹配，跨句识别，是否类等司法常见问题，目的在于提供一种基于机器阅读理解的起诉状信息抽取方法及系统，解决上述问题。

本发明通过下述技术方案实现：

一种基于机器阅读理解的起诉状信息抽取方法，包括以下步骤：S1：标注起诉状样本集得到三元样本集；所述三元样本集中每个元素均为一个三元组；所述三元组包括文档、问题和答案；S2：从三元样本集中提取训练集，并将训练集输入预训练模型得到起诉状向量序列X；S3：利用篇章段落向量嵌入算法Doc2Vec将裁判文书样本集中每一个样本均嵌入成向量，得到文书向量序列Y；所述裁判文书样本集中样本的类型与所述起诉状样本集中样本的类型相同；S4：根据所述起诉状向量序列X中起诉状向量的个数选取文书向量序列Y中的文书向量，聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z；S5：将最终向量Z输入预训练模型，并将预训练模型的最终隐藏状态转换为答案跨度的概率，生成最终模型；S6：将需要抽取信息的起诉状输入最终模型抽取起诉状信息。

本发明应用时，为了满足人民法院围绕诉讼请求进行审判的需要，本发明以当事人向人民法院提交的起诉状为起点，实现起诉状中相关重要信息的识别。首先，处理起诉状样本集中的样本，需要从样本集中提取的信息是确定的，需要提取的信息一般是一个问题和问题对应的答案，在一个文档中会存在多个问题和与问题对应的答案，这里的文档是指起诉状样本集中的一个样本，最终形成一个三元样本集，该样本集中的每个元素都是一个由文档、问题、答案组成的三元组。

其次将三元样本集按比例划分为训练集、验证集和测试集，其中训练集用于训练，将训练集输入预训练模型得到起诉状向量序列X；同时，为了提高本发明训练结果的精度，本发明创造性的引入了裁判文书样本集，裁判文书存在大量的与起诉状匹配的问题和答案，且数据来源更加丰富，通过处理裁判文书样本集，可以提取出文书向量序列Y。

从文书向量序列Y中提取个数和起诉状向量序列X中数量相同的向量进行聚合，得到最终向量Z，用于进一步的训练预训练模型得到最终模型，这极大的提高了样本的丰富程度，从而提高模型精度。最终模型可用于起诉状的自动输入，根据事先设定好的问题模板，提取起诉状中的相关信息。

进一步的，步骤S1包括以下子步骤：归类处理需要提取的信息；将需要提取的信息的上下文篇章对应为文档，并根据需要提取的信息的类型在文档中设置问题和问题对应的答案；利用文档、问题和答案生成三元组。

进一步的，步骤S2包括以下子步骤：对三元样本集中每个元素中的问题添加第一标记；连接问题与问题对应的段落，并在问题和段落之间添加第二标记；将添加了第一标记和第二标记的元素通过token Embedding、segment embedding 和 positional embedding输入预训练模型；预训练模型根据第一标记和第二标记将token Embedding、segmentembedding 和 positional embedding的聚合向量表示为序列X。

进一步的，步骤S5包括以下子步骤：利用softmax函数将所述预训练模型的最终隐藏状态转换为答案跨度的概率。

进一步的，所述三元样本集还包括验证集和测试集；步骤S2还包括以下子步骤：将训练集输入预训练模型得到起诉状向量序列X时，利用验证集验证预训练模型的结果，利用测试集测试预训练模型的结果。

一种基于机器阅读理解的起诉状信息抽取系统，包括：样本集标注单元：用于标注起诉状样本集进得到三元样本集；所述三元样本集中每个元素均为一个三元组；所述三元组包括文档、问题和答案；模型训练单元：用于从三元样本集中提取训练集，并将训练集输入预训练模型得到起诉状向量序列X；文书向量序列生成单元：用于利用篇章段落向量嵌入算法Doc2Vec将裁判文书样本集中每一个样本均嵌入成向量，得到文书向量序列Y；裁判文书样本集中样本的类型与起诉状样本集中样本的类型相同；向量聚和单元：用于根据所述起诉状向量序列X中起诉状向量的个数选取文书向量序列Y中的文书向量，聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z；最终模型生成单元：用于将最终向量Z输入预训练模型，并将预训练模型的最终隐藏状态转换为答案跨度的概率，生成最终模型。信息抽取单元：用于将需要抽取信息的起诉状输入最终模型抽取信息。

进一步的，所述样本集标注单元归类处理需要提取的信息；将需要提取的信息的上下文篇章对应为文档，并根据需要提取的信息的类型在文档中设置问题和问题对应于的答案；利用文档、问题和答案生成三元组。

进一步的，模型训练单元对三元样本集中每个元素中的问题添加第一标记；连接问题与问题对应的段落，并在问题和段落之间添加第二标记；所述训练单元将添加了第一标记和第二标记的元素通过token Embedding、segment embedding 和 positionalembedding输入预训练模型；预训练模型根据第一标记和第二标记将token Embedding、segment embedding 和 positional embedding的聚合向量表示为序列X。

进一步的，所述最终模型生成单元通过softmax函数将所述预训练模型的最终隐藏状态转换为答案跨度的概率。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明一种基于机器阅读理解的起诉状信息抽取方法及系统利用机器阅读理解技术自动提取起诉状中预设模板的相关信息内容，并保证信息提取精度。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明机器阅读理解自动抽取起诉状信息流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例

如图1所示，本发明一种基于机器阅读理解的起诉状信息抽取方法，包括以下步骤：S1：标注起诉状样本集得到三元样本集；所述三元样本集中每个元素均为一个三元组；所述三元组包括文档、问题和答案；S2：从三元样本集中提取训练集，并将训练集输入预训练模型得到起诉状向量序列X；S3：利用篇章段落向量嵌入算法Doc2Vec将裁判文书样本集中每一个样本均嵌入成向量，得到文书向量序列Y；裁判文书样本集中样本的类型与起诉状样本集中样本的类型相同；S4：根据所述起诉状向量序列X中起诉状向量的个数选取文书向量序列Y中的文书向量，聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z；S5：将最终向量Z输入预训练模型，并将预训练模型的最终隐藏状态转换为答案跨度的概率，生成最终模型。S6：将需要抽取信息的起诉状输入最终模型抽取信息。

本实施例实施时，为了满足人民法院围绕诉讼请求进行审判的需要，本发明以当事人向人民法院提交的起诉状为起点，实现起诉状中相关重要信息的识别。首先，处理起诉状样本集中的样本，需要从样本集中提取的信息是确定的，需要提取的信息一般是一个问题和问题对应的答案，在一个文档中会存在多个问题和与问题对应的答案，这里的文档是指起诉状样本集中的一个样本，最终形成一个三元样本集，该样本集中的每个元素都是一个由文档、问题、答案组成的三元组。

其次将三元样本集按照6:2:2 划分为训练集、验证集和测试集，其中训练集用于训练，将训练集输入预训练模型得到起诉状向量序列X；同时，为了提高本发明训练结果的精度，本发明创造性的引入了裁判文书样本集，裁判文书存在大量的与起诉状匹配的问题和答案，且数据来源更加丰富，通过处理裁判文书样本集，可以提取出文书向量序列Y。

从文书向量序列Y中提取个数和起诉状向量序列X中数量相同的向量进行聚合，生成最终向量Z，用于进一步的训练预训练模型得到最终模型，这样极大的提高了样本的丰富程度，从而提高模型精度。最终模型可用于起诉状的自动输入，根据事先设定好的问题模板，提取起诉状中的相关信息。

为了进一步的说明本实施例的工作过程，步骤S1包括以下子步骤：归类处理需要提取的信息；将需要提取的信息的上下文篇章对应为文档，并根据需要提取的信息的类型在文档中设置问题和问题对应的答案；利用文档、问题和答案生成三元组。

为了进一步的说明本实施例的工作过程，步骤S2包括以下子步骤：对三元样本集中每个元素中的问题添加第一标记；连接问题与问题对应的段落，并在问题和段落之间添加第二标记；将添加了第一标记和第二标记的元素通过token Embedding、segmentembedding 和 positional embedding输入预训练模型；预训练模型根据第一标记和第二标记将token Embedding、segment embedding 和 positional embedding的聚合向量表示为序列X。

为了进一步的说明本实施例的工作过程，步骤S5包括以下子步骤：利用softmax函数将所述预训练模型的最终隐藏状态转换为答案跨度的概率。

为了进一步的说明本实施例的工作过程，所述三元样本集还包括验证集和测试集；步骤S2还包括以下子步骤：将训练集输入预训练模型得到起诉状向量序列X时，利用验证集验证预训练模型生成的结果，并利用测试集测试预训练模型生成的结果。

一种基于机器阅读理解的起诉状信息抽取系统，包括：样本集标注单元：用于标注起诉状样本集得到三元样本集；所述三元样本集中每个元素均为一个三元组；所述三元组包括文档、问题和答案；模型训练单元：用于从三元样本集中提取训练集，并将训练集输入预训练模型得到起诉状向量序列X；文书向量序列生成单元：用于利用篇章段落向量嵌入算法Doc2Vec将裁判文书样本集中每一个样本均嵌入成向量，得到文书向量序列Y；裁判文书样本集中样本的类型与起诉状样本集中样本的类型相同；向量聚和单元：用于根据所述起诉状向量序列X中起诉状向量的个数选取文书向量序列Y中的文书向量，聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z；最终模型生成单元：用于将最终向量Z输入预训练模型，并将预训练模型的最终隐藏状态转换为答案跨度的概率，生成最终模型。信息抽取单元：用于将需要抽取信息的起诉状输入最终模型抽取信息。

为了进一步的说明本实施例的工作过程，样本集标注单元归类处理需要提取的信息；将需要提取的信息的上下文篇章对应为文档，并根据需要提取的信息的类型在文档中设置问题和问题对应的答案；利用文档、问题和答案生成三元组。

为了进一步的说明本实施例的工作过程，所述模型训练单元对三元样本集中每个元素中的问题添加第一标记；连接问题与问题对应的段落，并在问题和段落之间添加第二标记；所述训练单元将添加了第一标记和第二标记的元素通过token Embedding、segmentembedding 和 positional embedding输入预训练模型；预训练模型根据第一标记和第二标记将token Embedding、segment embedding 和 positional embedding的聚合向量表示为序列X。

为了进一步的说明本实施例的工作过程，所述最终模型生成单元利用softmax函数将所述预训练模型的最终隐藏状态转换为答案跨度的概率。

为了进一步的说明本实施例的工作过程，现以具体实例说明：

首先，将需要提取的信息分类。例如在劳动争议案由中，法官需要提取以下相关信息：是否签订劳动合同（填入信息：是或否），劳动合同签订日期（填入信息：日期），劳动合同起始日期（填入信息：日期），劳动合同终止日期（填入信息：日期），入职日期（填入信息：日期），离职日期（填入信息：日期），劳动合同是否解除（填入信息：是否），是否超过仲裁时效（填入信息：是否），是否申请仲裁（填入信息：是否）。

机器阅读理解技术通常需要给定一个上下文文档c，一个与之相关的问题q, 问题的答案a, 估计条件概率P(a|c,q) 。在起诉状中，我们将需提取信息的上下文篇章对应为给定的文档，设置相关的问题（例如劳动者什么时候入职），问题对应相应的答案（例如20XX年XX月XX日），答案即为我们要提取的的信息。

人工标注相关起诉状10000篇得到数据集。数据集中每一篇起诉状构成一篇文档，与之对应的是这篇起诉状中的若干问题及对应答案（所提取的信息），答案包含其在文档中的起点位置及对应的文本内容。每一篇文档（起诉状），该起诉状的若干问题，问题对应的答案构成一个<文档，问题，答案>的三元组，10000 篇起诉状即有10000个三元组，这些三元组构成最终的数据集。

将数据集按6:2:2 划分为训练集、验证集和测试集。

在本实施例中，

将训练集输入预训练模型，模型首先在问题前面添加special classificationtoken[CLS]标记，然后将问题和段落连在一起，中间使用special tokens[SEP]分开。该序列通过token Embedding、segment embedding 和 positional embedding输入预训练模型，在这一步中得到序列里的每一个token，得到一个由上述三个向量的聚合向量表示的序列X={x1,x2,….xn}；

为了增强阅读理解的语义相关性，本发明同时引入自定义的外部知识。本发明利用爬虫工具爬取中国裁判文书网站上对应的相关案由的裁判文书，本发明周期性选择诉讼状时期前后一个月对应案由（如劳动争议）的裁判文书，利用篇章段落向量嵌入算法Doc2Vec将每一篇文书嵌入成向量，形成文书向量序列Y={y1,y2,….yn}，其中每一项代表一篇文书向量。设置随机概率在文书向量序列Y中选择与原始序列X的个数对应的文书向量，聚合该向量得到新的向量序列Z={z1,z2,…zn}

将序列Z输入预训练模型，最终通过softmax函数将模型的最终隐藏状态转换为答案跨度（span）的概率。最终，本发明实现根据事先设定好的问题模板，自动提取输入起诉状中的相关信息。

在本实施例中，数据中起诉状数据来自某法院2018-2019年劳动争议案由起诉状，裁判文书数据来自2018年-2019年中国裁判文书网中劳动争议案由，在测试集上准确率达到90%。经验证，对比传统正则、序列标注等信息抽取技术，本发明能成功提取是否类问题，在实际应用中有显著效果。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于机器阅读理解的起诉状信息抽取方法，其特征在于，包括以下步骤：

S1：标注起诉状样本集得到三元样本集；所述三元样本集中每个元素均为一个三元组；所述三元组包括文档、问题和答案；

S2：从三元样本集中提取训练集，并将训练集输入预训练模型得到起诉状向量序列X；

S3：利用篇章段落向量嵌入算法Doc2Vec将裁判文书样本集中每一个样本均嵌入成向量，得到文书向量序列Y；所述裁判文书样本集中样本的类型与所述起诉状样本集中样本的类型相同；

S4：根据所述起诉状向量序列X中起诉状向量的个数选取文书向量序列Y中的文书向量，聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z；

S5：将最终向量Z输入预训练模型，并将预训练模型的最终隐藏状态转换为答案跨度的概率，生成最终模型；

S6：将需要抽取信息的起诉状输入最终模型抽取起诉状信息。

2.根据权利要求1所述的一种基于机器阅读理解的起诉状信息抽取方法，其特征在于，步骤S1包括以下子步骤：

归类处理需要提取的信息；

将需要提取的信息的上下文篇章对应为文档，并根据需要提取的信息的类型在文档中设置问题和问题对应的答案；

利用文档、问题和答案生成三元组。

3.根据权利要求1所述的一种基于机器阅读理解的起诉状信息抽取方法，其特征在于，步骤S2包括以下子步骤：

对三元样本集中每个元素中的问题添加第一标记；

连接问题与问题对应的段落，并在问题和段落之间添加第二标记；

将添加了第一标记和第二标记的元素通过token Embedding、segment embedding 和positional embedding输入预训练模型；

预训练模型根据第一标记和第二标记将token Embedding、segment embedding 和positional embedding的聚合向量表示为序列X。

4.根据权利要求1所述的一种基于机器阅读理解的起诉状信息抽取方法，其特征在于，步骤S5包括以下子步骤：

利用softmax函数将所述预训练模型的最终隐藏状态转换为答案跨度的概率。

5.根据权利要求1所述的一种基于机器阅读理解的起诉状信息抽取方法，其特征在于，所述三元样本集还包括验证集和测试集；

步骤S2还包括以下子步骤：

将训练集输入预训练模型得到起诉状向量序列X时，利用验证集验证预训练模型的结果，并利用测试集测试预训练模型的结果。

6.一种基于机器阅读理解的起诉状信息抽取系统，其特征在于，包括：

样本集标注单元：用于标注起诉状样本集得到三元样本集；所述三元样本集中每个元素均为一个三元组；所述三元组包括文档、问题和答案；

模型训练单元：用于从三元样本集中提取训练集，并将训练集输入预训练模型得到起诉状向量序列X；

文书向量序列单元：用于利用篇章段落向量嵌入算法Doc2Vec将裁判文书样本集中每一个样本均嵌入成向量，得到文书向量序列Y；所述裁判文书样本集中样本的类型与所述起诉状样本集中样本的类型相同；

向量聚和单元：用于根据所述起诉状向量序列X中起诉状向量的个数选取文书向量序列Y中的文书向量，聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z；

最终模型生成单元：用于将最终向量Z输入预训练模型，并将预训练模型的最终隐藏状态转换为答案跨度的概率，生成最终模型；

信息抽取单元：用于将需要抽取信息的起诉状输入最终模型抽取起诉状信息。

7.根据权利要求6所述的一种基于机器阅读理解的起诉状信息抽取系统，其特征在于，样本集标注单元归类处理需要提取的信息；

样本集标注单元将需要提取的信息的上下文篇章对应为文档，并根据需要提取的信息的类型在文档中设置问题和问题对应的答案；

样本集标注单元利用文档、问题和答案生成三元组。

8.根据权利要求7所述的一种基于机器阅读理解的起诉状信息抽取系统，其特征在于，模型训练单元对三元样本集中每个元素中的问题添加第一标记；

模型训练单元连接问题与问题对应的段落，并在问题和段落之间添加第二标记；

模型训练单元将添加了第一标记和第二标记的元素通过token Embedding、segmentembedding 和 positional embedding输入预训练模型；

9.根据权利要求7所述的一种基于机器阅读理解的起诉状信息抽取系统，其特征在于，所述最终模型生成单元利用softmax函数将所述预训练模型的最终隐藏状态转换为答案跨度的概率。

10.根据权利要求6所述的一种基于机器阅读理解的起诉状信息抽取系统，其特征在于，所述三元样本集还包括验证集和测试集；

模型训练单元将训练集输入预训练模型得到起诉状向量序列X时，利用验证集验证预训练模型的结果，并利用测试集测试预训练模型的结果。