CN111444706A

CN111444706A - 一种基于深度学习的裁判文书文本纠错方法及系统

Info

Publication number: CN111444706A
Application number: CN202010542635.XA
Authority: CN
Inventors: 李鑫; 王竹; 翁洋; 其他发明人请求不公开姓名
Original assignee: Sichuan University; Chengdu Shuzhilian Technology Co Ltd
Current assignee: Sichuan University; Chengdu Shuzhilian Technology Co Ltd
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-07-24

Abstract

本发明公开了一种基于深度学习的裁判文书文本纠错方法，包括以下步骤：将裁判文书文本中错误检测分为命名实体检测和文本错误检测；进行命名实体检测时，定义专有名词，并检测裁判文书文本中的专有名词得到命名实体检测结果；进行文本错误检测时，利用文本错误模型检测裁判文书文本得到文本错误检测结果；根据关联词条处理文本错误检测结果得到纠错候选集；根据命名实体检测结果和纠错候选集进行纠错。本发明还公开了一种基于深度学习的裁判文书文本纠错系统。本发明对裁判文书全文做实体识别，进行进一步检测以避免上下文不一致，并且避免了传统方法中过纠错和纠错不足的问题。

Description

一种基于深度学习的裁判文书文本纠错方法及系统

技术领域

本发明涉及自然语言文本处理技术，具体涉及一种基于深度学习的裁判文书文本纠错方法及系统。

背景技术

随着行业信息化建设的不断深入，大部分法院裁判文书都使用电子编辑，编辑过程中很容易造成文本编辑错误，包括但不限于：1、拼音拼写错误。2、字形相似导致错误。3、输入法提示导致错误。4、专业名次使用错误。5、多字错误。6、少字错误等常见错误类型。目前还没有专门针对裁判文书的文本纠错方法。目前其他领域文本纠错的主流方法均采用构建拼音音节、构建专业词典然后采用模糊匹配的方法纠错。这容易造成两个方面的问题，一是由于词典集太小，容易造成大部分错误不能准确找出，只能进行特定纠错；二是容易造成过度纠错，把本身正确的文本改成了错误的文本，这是由两方面造成的：1、模糊匹配，大量找到出的应该纠正的文本本身不存在错误。2、词典过大，包含的词太多，很容易命中原本没有错误的文本。

发明内容

本发明所要解决的技术问题是现有的法院裁判文书纠错技术中存在错误纠错不全或过度纠错，目的在于提供一种基于深度学习的裁判文书文本纠错方法及系统，解决上述问题。

本发明通过下述技术方案实现：

一种基于深度学习的裁判文书文本纠错方法，包括以下步骤：S1：将裁判文书文本中错误检测分为命名实体检测和文本错误检测；S2：进行命名实体检测时，定义专有名词，并检测裁判文书文本中的专有名词得到命名实体检测结果；S3：进行文本错误检测时，利用文本错误模型检测裁判文书文本得到文本错误检测结果，并根据纠错词典和裁判文书中上下文词条共现频率建立关联词条；根据关联词条处理文本错误检测结果得到纠错候选集；S4：根据命名实体检测结果和纠错候选集进行纠错。

本发明应用时，首先创造性的将裁判文书文本的错误分成了命名实体错误和文本错误（其他语言文字的错误）两类，这样可以有效降低过度纠错。对于命名实体错误，由于命名实体往往都是准确的可以确定的词汇，一般不存在同义词，所以检测后可以直接纠错，纠错可以通过自动纠错或提示人工进行纠错。对于文本错误，本发明采用错误检测模型的方式纠错，文本错误检测结果中的数据实际为存在错误的数据点，采用关联词条来生成纠错候选集的方式可以得到一批用于替换文本错误检测结果中的数据的词条，最终利用这些词条对可能存在错误的点纠错，可以提高纠错准确率和提高纠错效率。本发明对裁判文书全文做实体识别，进行进一步检测以避免上下文不一致，并且避免了传统方法中过纠错和纠错不足的问题。

进一步的，步骤S2包括以下子步骤：S21：定义专有名词，所述专有名词包括姓名，地名，机构名和/或法规法条；S22：标注裁判文书文本中的专有名词，以标注后的裁判文书文本为样本训练实体识别模型；S23：采用实体识别模型对裁判文书文本进行命名实体检测得到命名实体检测结果。

进一步的，步骤S3包括以下子步骤：按照句号分割裁判文书得到数据源；替换数据源中的词语；所述替换包括随机替换、同音字替换和/或形似字替换；标记替换内容得到替换数据源，利用替换数据源为样本训练，得到文本错误模型。

进一步的，步骤S3还包括以下子步骤：根据关联词条处理文本错误检测结果时，通过字音和/或字形得到纠错候选集。

进一步的，步骤S4包括以下子步骤：提取命名实体检测结果中同类实体的编辑距离，并提示编辑距离超过阈值的实体；利用裁判文书样本集训练适用于裁判文书的语言模型；利用语言模型对纠错候选集中的文本评分，将评分最高的文本作为纠错后的文本。

一种基于深度学习的裁判文书文本纠错系统，包括：

错误检测单元：用于将裁判文书文本中错误检测分为命名实体检测和文本错误检测；

错误检测单元进行命名实体检测时，定义专有名词，并检测裁判文书文本中的专有名词得到命名实体检测结果；

错误检测单元进行文本错误检测时，利用文本错误模型检测裁判文书文本得到文本错误检测结果，并根据纠错词典和裁判文书中上下文词条共现频率建立关联词条；根据关联词条处理文本错误检测结果得到纠错候选集；

纠错单元：用于根据命名实体检测结果和纠错候选集进行纠错。

进一步的，错误检测单元定义专有名词，所述专有名词包括姓名，地名，机构名和/或法规法条；标注裁判文书文本中的专有名词，以标注后的裁判文书文本为样本训练实体识别模型；采用实体识别模型对裁判文书文本进行命名实体检测得到命名实体检测结果。

进一步的，错误检测单元按照句号分割裁判文书得到数据源；替换数据源中的词语；所述替换包括随机替换、同音字替换和/或形似字替换；标记替换内容得到替换数据源，利用替换数据源为样本训练得到文本错误模型。

进一步的，错误检测单元根据关联词条处理文本错误检测结果时，通过字音和/或字形得到纠错候选集。

进一步的，纠错单元提取命名实体检测结果中同类实体的编辑距离，并提示编辑距离超过阈值的实体；利用裁判文书样本集训练适用于裁判文书的语言模型；利用语言模型对纠错候选集中的文本评分，将评分最高的文本作为纠错后的文本。

本发明与现有技术相比，具有如下的优点和有益效果：

1、本发明一种基于深度学习的裁判文书文本纠错方法及系统专门针对裁判文书进行文本纠错，能有效减少法官裁判文书撰写中的文本错误及上下文不一致等问题；

2、本发明一种基于深度学习的裁判文书文本纠错方法及系统根据已有的裁判文书得到的专业裁判文书词典；

3、本发明一种基于深度学习的裁判文书文本纠错方法及系统对裁判文书全文做实体识别，进行进一步检测以避免上下文不一致；

4、本发明一种基于深度学习的裁判文书文本纠错方法及系统利用深度学习模型进行错误检测，提升检测准确率，一定程度上的避免了传统方法中过纠错和纠错不足的问题。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明一种基于深度学习的裁判文书文本纠错方法流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例

如图1所示，本发明一种基于深度学习的裁判文书文本纠错方法，包括以下步骤：S1：将裁判文书文本中错误检测分为命名实体检测和文本错误检测；S2：进行命名实体检测时，定义专有名词，并检测裁判文书文本中的专有名词得到命名实体检测结果；S3：进行文本错误检测时，利用文本错误模型检测裁判文书文本得到文本错误检测结果，并根据纠错词典和裁判文书中上下文词条共现频率建立关联词条；根据关联词条处理文本错误检测结果得到纠错候选集；S4：根据命名实体检测结果和纠错候选集进行纠错。

本实施例实施时，首先创造性的将裁判文书文本的错误分成了命名实体的错误和文本错误（其他的语言文字的错误）两类，这样可以有效降低过度纠错。对于命名实体错误，由于命名实体往往都是准确的可以确定的词汇，一般不存在同义词，所以检测后可以直接纠错，纠错可以通过自动纠错或提示人工纠错。而于文本错误，本发明采用错误检测模型的方式纠错，文本错误检测结果中的数据实际为存在错误的数据点，而采用关联词条生成纠错候选集的方式可以得到一批用于替换文本错误检测结果中的数据的词条，最终利用这些词条对可能存在错误的点纠错，可以提高纠错准确率和纠错效率。本发明对裁判文书全文做实体识别，进行进一步检测以避免上下文不一致，并且避免了传统方法中过纠错和纠错不足的问题。

为了进一步的说明本实施例的工作过程，步骤S2包括以下子步骤：S21：定义专有名词，所述专有名词包括姓名，地名，机构名和/或法规法条；S22：标注裁判文书文本中的专有名词，以标注后的裁判文书文本为样本训练实体识别模型；S23：采用实体识别模型对述裁判文书文本进行命名实体检测得到命名实体检测结果。

为了进一步的说明本实施例的工作过程，步骤S3包括以下子步骤：按照句号分割裁判文书得到数据源；替换数据源中的词语；所述替换包括随机替换、同音字替换和/或形似字替换；标记替换内容得到替换数据源，利用替换数据源为样本训练得到文本错误模型。

为了进一步的说明本实施例的工作过程，步骤S3还包括以下子步骤：根据关联词条处理文本错误检测结果时，通过字音和/或字形得到纠错候选集。

为了进一步的说明本实施例的工作过程，步骤S4包括以下子步骤：提取命名实体检测结果中同类实体的编辑距离，并提示编辑距离超过阈值的实体；利用裁判文书样本集训练适用于裁判文书的语言模型；利用语言模型对纠错候选集中的文本评分，将评分最高的文本作为纠错后的文本。

一种基于深度学习的裁判文书文本纠错系统，包括：

为了进一步的说明本实施例的工作过程，错误检测单元定义专有名词，所述专有名词包括姓名，地名，机构名和/或法规法条；标注裁判文书文本中的专有名词，以标注后的裁判文书文本为样本训练实体识别模型；采用实体识别模型对裁判文书文本进行命名实体检测得到命名实体检测结果。

为了进一步的说明本实施例的工作过程，错误检测单元按照句号分割裁判文书得到数据源；替换数据源中的词语；所述替换包括随机替换、同音字替换和/或形似字替换；标记替换内容得到替换数据源，利用替换数据源为样本训练得到文本错误模型。

为了进一步的说明本实施例的工作过程，错误检测单元根据关联词条处理文本错误检测结果时，通过字音和/或字形得到纠错候选集。

为了进一步的说明本实施例的工作过程，纠错单元提取命名实体检测结果中同类实体的编辑距离，并提示编辑距离超过阈值的实体；利用裁判文书样本集训练适用于裁判文书的语言模型；利用语言模型对纠错候选集中的文本评分，将评分最高的文本作为纠错后的文本。

为了进一步的说明本实施例的工作过程，以详细例子进行说明：

本实施例主要包含这几部分的内容：1、命名实体识别，即利用实体识别算法识别文本中的专有名词。2、错误检测，即先定位一句话中哪些文本可能是错误的，利用序列标注算法识别。3、候选召回，根据形近字、音近字及上下文词条的文本召回。4、纠错排序，分为专有名词纠错和对第3部分中候选召回的排序纠错。本实施例的具体方案如下所述：

命名实体识别。本发明采用的实体识别模型NER（Named entity recognition）的模型基本机构为LSTM+CRF。首先定义专有名词：姓名，地名，机构名，法规法条；然后标注裁判文书数据中的专有名词得到裁判文书训练样本集，利用裁判文书训练样本集训练基于NER的实体识别模型；最后加载模型形成实体识别服务以供对新的裁判文书进行命名实体检测。

错误检测。错误检测模型TEDJD（Text error detection of judgmentinstrument）采用基本结构基于BERT+CRF的序列标注模型，检测裁判文书中的每句话，定位可能出错的文本信息。首先按句号分割裁判文书，分割后的句子数据做为标注的数据源，随机挑选句子中的词语进行替换（替换方式有：随机替换、同音字替换、形似字替换等方式），标记替换的内容。利用这些数据训练TEDJD模，加载训练后的模型形成错误检测的服务，以供对新的裁判文书进行文本错误检测。

候选召回。首先基于3000万裁判文书建立词表作为纠错词典，同时根据裁判文书中上下文词条共现频率（共同出现的频率）建立关联词条。然后根据错误检测中检测出的错误点，结合错误点所在句子的上下文关联词条，通过字音、字形给出当前错误点对应的纠错候选集。

纠错排序。分为两部分纠错，第一部分为命名实体纠错，在裁判文书中可能存在人名、地名或者机构名等命名实体前后不一致的情况，因此利用命名实体识别服务识别裁判文书全文的命名实体，然后利用编辑距离（Levenshtein Distance）算法找到同类命名实体中编辑距离小于某个值（不同类型的实体，设置的值不同，是因为不同类型的实体文本长度是不一样的）的实体列为可能存在文本出错的实体，提示法官确认是否修改。例如：从裁判文书全文中识别的人名实体有：张文龙，张纹龙，张某某；设置人名实体的编辑距离为1，通过编辑距离算法的计算，“张文龙”和“张纹龙”的编辑距离为1，所以就会把“张文龙”和“张纹龙”列为可能存在文本错误的实体并提示法官确认是否存在文本错误。第二部分为对错误检测和候选召回得到的候选集排序纠错。首先利用3000万的裁判文书训练适用于裁判文书的语言模型LMJD（The language model of judgment documents），模型的基本结构是基于bert优化的语言模型；然后利用训练好的语言模型对候选集评分，取评分最高的为纠错后的文本。

为了进一步的说明本实施例的工作过程，在本实施例中，需要纠错的文本为：“范某多次对其棋子赵某进行殴打”，这句话中的“棋子”通过错误检测定位到这个词是错误的，然后利用纠错词典和模型确定的候选召回集为：[妻子，旗帜，气质，取值，期指]，然后通过纠错排序得到“妻子”的概率最大，所以将原文本纠错为“范某多次对其妻子赵某进行殴打”。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的裁判文书文本纠错方法，其特征在于，包括以下步骤：

S1：将裁判文书文本中错误检测分为命名实体检测和文本错误检测；

S2：进行命名实体检测时，定义专有名词，并检测裁判文书文本中的专有名词得到命名实体检测结果；

S3：进行文本错误检测时，利用文本错误模型检测裁判文书文本得到文本错误检测结果，并根据纠错词典和裁判文书中上下文词条共现频率建立关联词条；根据关联词条处理文本错误检测结果得到纠错候选集；

S4：根据命名实体检测结果和纠错候选集进行纠错。

2.根据权利要求1所述的一种基于深度学习的裁判文书文本纠错方法，其特征在于，步骤S2包括以下子步骤：

S21：定义专有名词，所述专有名词包括姓名，地名，机构名和/或法规法条；

S22：标注裁判文书文本中的专有名词，以标注后的裁判文书文本为样本训练实体识别模型；

S23：采用实体识别模型对所述裁判文书文本进行命名实体检测得到命名实体检测结果。

3.根据权利要求1所述的一种基于深度学习的裁判文书文本纠错方法，其特征在于，步骤S3包括以下子步骤：

按照句号分割裁判文书得到数据源；

替换数据源中的词语；所述替换包括随机替换、同音字替换和/或形似字替换；

标记替换内容得到替换数据源，利用替换数据源为样本训练；得到文本错误模型。

4.根据权利要求1所述的一种基于深度学习的裁判文书文本纠错方法，其特征在于，步骤S3还包括以下子步骤：

根据关联词条处理文本错误检测结果时，通过字音和/或字形得到纠错候选集。

5.根据权利要求1所述的一种基于深度学习的裁判文书文本纠错方法，其特征在于，步骤S4包括以下子步骤：

提取命名实体检测结果中同类实体的编辑距离，并提示编辑距离超过阈值的实体；

利用裁判文书样本集训练适用于裁判文书的语言模型；

利用语言模型对纠错候选集中的文本评分，将评分最高的文本作为纠错后的文本。

6.一种基于深度学习的裁判文书文本纠错系统，其特征在于，包括：

7.根据权利要求6所述的一种基于深度学习的裁判文书文本纠错系统，其特征在于，错误检测单元定义专有名词，所述专有名词包括姓名，地名，机构名和/或法规法条；

错误检测单元标注裁判文书文本中的专有名词，以标注后的裁判文书文本为样本训练实体识别模型；

错误检测单元采用实体识别模型对所述裁判文书文本进行命名实体检测得到命名实体检测结果。

8.根据权利要求6所述的一种基于深度学习的裁判文书文本纠错系统，其特征在于，错误检测单元按照句号分割裁判文书得到数据源；

错误检测单元替换数据源中的词语；所述替换包括随机替换、同音字替换和/或形似字替换；

错误检测单元标记替换内容得到替换数据源，利用替换数据源为样本训练，得到文本错误模型。

9.根据权利要求6所述的一种基于深度学习的裁判文书文本纠错系统，其特征在于，错误检测单元根据关联词条处理文本错误检测结果时，通过字音和/或字形得到纠错候选集。

10.根据权利要求6所述的一种基于深度学习的裁判文书文本纠错系统，其特征在于，纠错单元提取命名实体检测结果中同类实体的编辑距离，并提示编辑距离超过阈值的实体；

利用裁判文书样本集训练适用于裁判文书的语言模型；