CN110991164B

CN110991164B - 法律文书处理方法及装置

Info

Publication number: CN110991164B
Application number: CN201811142824.7A
Authority: CN
Inventors: 石鹏; 王福伟
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2023-04-07
Anticipated expiration: 2038-09-28
Also published as: CN110991164A

Abstract

本申请公开了一种法律文书处理方法及装置，可以获得待处理的法律文书中的多个自然段落；通过机器学习方法确定获得的各所述自然段落归属的文书部分；对任一待处理的法律文书：根据该待处理的法律文书中的多个自然段落归属的文书部分，将该待处理的法律文书中的多个自然段落划分为至少一个段落组。由于本申请可以通过机器学习方法确定各自然段落归属的文书部分并进一步根据自然段落归属的文书部分将自然段落划分为段落组。因此本申请可以自动将法律文书划分为对应文书部分的多个段落组。当用户需要查找某文书部分的文字时，可以直接从该文书部分的段落组中找到相关文字，简单方便，节省了用户的时间。

Description

法律文书处理方法及装置

技术领域

本申请涉及文本处理技术领域，尤其涉及法律文书处理方法及装置。

背景技术

随着我国科学技术水平的提高，用户对办公自动化的要求也越来越高。

在司法领域，用户常需要从大量的法律文书中获得某个或某些文书部分的文字，例如：从大量的裁定书中获得判决部分的文字。由于法律文书的数量巨大，因此用户需要花费较长的时间才能分别从各法律文书中获得所需要的文书部分的文字。

如何帮助用户快速从法律文书中获得所需要的文书部分的文字仍是本领域一个亟待解决的技术难题。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的法律文书处理方法及装置，方案如下：

一种法律文书处理方法，包括：

获得待处理的法律文书中的多个自然段落；

通过机器学习方法确定获得的各所述自然段落归属的文书部分；

对任一待处理的法律文书：根据该待处理的法律文书中的多个自然段落归属的文书部分，将该待处理的法律文书中的多个自然段落划分为至少一个段落组，其中，同一段落组中各自然段落归属的文书部分相同，位于不同段落组中的自然段落归属的文书部分不同。

可选的，在所述对任一待处理的法律文书：根据该待处理的法律文书中的多个自然段落归属的文书部分，将该待处理的法律文书中的多个自然段落划分为至少一个段落组之后，所述方法还包括：

对任一段落组：确定该段落组中各自然段落的段号中的最小段号和最大段号，将段号位于所述最小段号和所述最大段号以内的各自然段落确定为该段落组对应的待分析段落；

确定该段落组对应的待分析段落否均归属同一文书部分，如果是，则确定该段落组对应的各待分析段落归属的文书部分正确；否则，确定该段落组对应的待分析段落中存在至少一个自然段落需要校正。

可选的，在所述确定该段落组对应的待分析段落中存在至少一个自然段落需要校正之后，所述方法还包括：

为该段落组对应的各待分析段落添加待人工校正标识；

或者，根据第一统计结果及该段落组对应的各待分析段落在法律文书中的排列顺序，确定该段落组对应的待分析段落中的待校正段落，对所述待校正段落进行校正处理，其中，所述第一统计结果为该段落组对应的各待分析段落归属的文书部分的统计结果。

可选的，所述根据第一统计结果及该段落组对应的各待分析段落在法律文书中的排列顺序，确定该段落组对应的待分析段落中的待校正段落，包括：

确定第一段落子组中自然段落的数量为第一数量，确定第二段落子组中自然段落的数量为第二数量，其中，所述第一段落子组中各自然段落依次相邻且均归属于该段落组对应的文书部分，所述第二段落子组中各自然段落依次相邻且均归属于该段落组对应的文书部分，所述第一段落子组中包括所述最小段号的自然段落，所述第二段落子组中包括所述最大段号的自然段落；

将该段落组对应的各待分析段落归属的各文书部分中除该段落组对应的文书部分外的其他文书部分确定为待分析部分L_i，其中，该段落组对应的文书部分为该段落组中各自然段落归属的文书部分；

对任一待分析部分L_i：确定第i段落子组中自然段落的数量为第i数量，其中，所述第i段落子组中各自然段落依次相邻且均归属于L_i，i为待分析部分的序号，i为自然数且i大于2；

在所述第一数量和所述第二数量均大于所述第i数量时，将归属于该L_i的各待分析段落确定为待校正段落。

可选的，所述对所述待校正段落进行校正处理，包括：

将各待校正段落归属的文书部分校正为：该段落组对应的文书部分。

可选的，所述方法还包括：

对至少一个段落组：将该段落组中各自然段落的文本格式设置为与该段落组对应的文书部分匹配的文本格式。

可选的，所述通过机器学习方法确定获得的各所述自然段落归属的文书部分，包括：

将获得的各所述自然段落输入预设的机器学习模型中，获得所述机器学习模型输出的各所述自然段落归属的文书部分，其中，所述机器学习模型是对预设训练数据进行机器学习得到的，所述预设训练数据为：已确定各自然段落所归属的文书部分的法律文书。

一种法律文书处理装置，包括：第一获得模块、第一确定模块和文书划分模块，

所述第一获得模块，用于获得待处理的法律文书中的多个自然段落；

所述第一确定模块，用于通过机器学习方法确定获得的各所述自然段落归属的文书部分；

所述文书划分模块，用于对任一待处理的法律文书：根据该待处理的法律文书中的多个自然段落归属的文书部分，将该待处理的法律文书中的多个自然段落划分为至少一个段落组，其中，同一段落组中各自然段落归属的文书部分相同，位于不同段落组中的自然段落归属的文书部分不同。

一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在的设备执行上述的任一种法律文书处理方法。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述的任一种法律文书处理方法。

借由上述技术方案，本申请提供的一种法律文书处理方法及装置，可以获得待处理的法律文书中的多个自然段落；通过机器学习方法确定获得的各所述自然段落归属的文书部分；对任一待处理的法律文书：根据该待处理的法律文书中的多个自然段落归属的文书部分，将该待处理的法律文书中的多个自然段落划分为至少一个段落组。由于本申请可以通过机器学习方法确定各自然段落归属的文书部分并进一步根据自然段落归属的文书部分将自然段落划分为段落组。因此本申请可以自动将法律文书划分为对应文书部分的多个段落组。当用户需要查找某文书部分的文字时，可以直接从该文书部分的段落组中找到相关文字，简单方便，节省了用户的时间。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例提供的一种法律文书处理方法的流程图；

图2示出了本申请实施例提供的另一种法律文书处理方法的流程图；

图3示出了本申请实施例提供的另一种法律文书处理方法中校正处理的流程图；

图4示出了本申请实施例提供的一种法律文书处理装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示，本申请实施例提供的一种法律文书处理方法，可以包括：

S100、获得待处理的法律文书中的多个自然段落；

其中，本申请实施例中的法律文书可以有多种不同的类型，例如：判决书、裁定书、调解书、决定书、通知书、批复、答复、函、令等。可以理解的是，法律文书具有一定的文本板式、格式要求。

在实际应用中，本申请可以根据自然段落的段落标识来识别各自然段落，其中，段落标识可以包括：回车符号、首行缩进两字符中的至少一种。

当所述多个自然段落为待处理的法律文书的全部自然段落时，本发明可以直接获得待处理的法律文书，无需进行自然段落识别处理。

S200、通过机器学习方法确定获得的各所述自然段落归属的文书部分；

具体的，不同类型的法律文书中包括的文书部分可以相同或不同。法律文书的文书部分的划分可以进行设定和修改。在实际应用中，本申请可以仅将法律文书划分为：标题、正文两个部分，也可以将法律文书划分为粒度更小的多个文书部分。例如：对于裁定书，本申请可以将其划分为：标题、案号、原告及被告信息、审判过程信息、原告及被告意见、本院认为部分、判决、审判人员信息等。

其中，步骤S200可以具体包括：将获得的各所述自然段落输入预设的机器学习模型中，获得所述机器学习模型输出的各所述自然段落归属的文书部分，其中，所述机器学习模型是对预设训练数据进行机器学习得到的，所述预设训练数据为：已确定各自然段落所归属的文书部分的法律文书。

具体的，所述机器学习模型的输入为法律文书中的各自然段落，输出为各自然段落归属的文书部分。

当所述多个自然段落为待处理的法律文书的全部自然段落时，本发明可以将获得待处理的法律文书输入机器学习模型中。

在实际应用中，本申请可以选择大量的各种类型的法律文书作为训练数据，这些法律文书中各自然段落所归属的文书部分已确定。因此本申请可以通过对这些法律文书进行机器学习得到可以输出自然段落归属的文书部分的机器学习模型。

S300、对任一待处理的法律文书：根据该待处理的法律文书中的多个自然段落归属的文书部分，将该待处理的法律文书中的多个自然段落划分为至少一个段落组，其中，同一段落组中各自然段落归属的文书部分相同，位于不同段落组中的自然段落归属的文书部分不同。

可选的，本申请还可以建立各段落组与文书部分的对应关系，以方便用户根据文书部分查找归属于该文书部分的各自然段落所在的段落组。具体的，段落组中的各自然段落可以按照段号从小到大的顺序进行排列。其中，段号为法律文书中各自然段落的序号，法律文书首段的段号为1，其后的自然段落的段号依次递增，例如：某法律文书中共有十个自然段落，则法律文书的开始段落到结束段落的各自然段落的段号分别为：1、2、3、4、5、6、7、8、9、10。

在本申请实施例中，可以将某段落组中各自然段落归属的文书部分称为该段落组对应的文书部分。

在本申请另一可选实施例中，在步骤S300之后还可以包括：

在实际应用中，本申请可以对与文书部分匹配的文本格式进行设置和修改，例如：本申请可以将与标题匹配的文本格式设置为：加粗、字号为三号、字体为宋体等。同时将与正文匹配的文本格式设置为：字号为小四、字体为楷体等。

本申请实施例提供的一种法律文书处理方法，可以获得待处理的法律文书中的多个自然段落；通过机器学习方法确定获得的各所述自然段落归属的文书部分；对任一待处理的法律文书：根据该待处理的法律文书中的多个自然段落归属的文书部分，将该待处理的法律文书中的多个自然段落划分为至少一个段落组。由于本申请可以通过机器学习方法确定各自然段落归属的文书部分并进一步根据自然段落归属的文书部分将自然段落划分为段落组。因此本申请可以自动将法律文书划分为对应文书部分的多个段落组。当用户需要查找某文书部分的文字时，可以直接从该文书部分的段落组中找到相关文字，简单方便，节省了用户的时间。

如图2所示，本申请实施例提供的另一种法律文书处理方法，还可以包括：

S400、对任一段落组：确定该段落组中各自然段落的段号中的最小段号和最大段号，将段号位于所述最小段号和所述最大段号以内的各自然段落确定为该段落组对应的待分析段落；

为方便理解，下面举例说明：

举例一、设某段落组中包括的自然段落的段号分别为：1、2、3、4、7、8，则该段落组中各自然段落的段号中的最小段号和最大段号分别为1和8，这样步骤S400就可以将段号分别为1、2、3、4、5、6、7、8的各自然段落确定为该段落组的待分析段落。

举例二、设某段落组中包括的自然段落的段号分别为：1、2、3、4、5、6、7、8，则该段落组中各自然段落的段号中的最小段号和最大段号分别为1和8，这样步骤S400同样可以将段号分别为1、2、3、4、5、6、7、8的各自然段落确定为该段落组的待分析段落。

S500、确定该段落组对应的待分析段落否均归属同一文书部分，如果是，则执行步骤S600；否则，执行步骤S700；

需要说明的一点是，本申请发明人在实现本申请的过程中，研究发现：对于法律文书而言，同一文书部分内的各自然段落是依次相邻的。例如：某法律文书由：标题、案号、原告及被告信息、审判过程信息、原告及被告意见、本院认为部分、判决、审判人员信息这8个文书部分组成，则每个文书部分内的各自然段落是依次相邻的，不同文书部分的自然段落不会交叉，例如：两个归属于本院认为部分的自然段落之间不会存在归属于其它文书部分的段落。

基于上述发现，本申请可以通过判断段落组对应的待分析段落否均归属同一文书部分来确定步骤S200通过机器学习方法确定的各自然段落归属的文书部分是否有误。

由于本申请步骤S200已经通过机器学习方法确定了自然段落归属的文书部分，因此步骤S500可以确定各待分析段落是否均归属同一文书部分。当均归属同一文书部分时，说明该段落组中的各自然段落是依次相邻的，该段落组中的各自然段落之间不存在归属其它文书部分的段落，可以确定该段落组对应的各待分析段落归属的文书部分正确。当各待分析段落均归属不同文书部分时，说明该段落组中的各自然段落之间存在归属其它文书部分的段落，可以确定该段落组对应的待分析段落中至少一个自然段落归属的文书部分有误，需要校正。

S600、确定该段落组对应的各待分析段落归属的文书部分正确；

S700、确定该段落组对应的待分析段落中存在至少一个自然段落需要校正。

具体的，每个待分析段落均有可能需要校正，在实际应用中，本申请可以为该段落组对应的各待分析段落添加待人工校正标识，以标识这些待分析段落需要校正。技术人员可以根据待人工校正标识来定位和审核各待分析段落归属的文书部分是否正确，进而对发生错误的待分析段落归属的文书部分进行校正。

当然，在本申请其它实施例中，本申请还可以对待分析段落进行自动校正。

具体的，在步骤S700之后，图2所示方法还可以包括如下两种处理中的至少一种：

处理一、为该段落组对应的各待分析段落添加待人工校正标识；

处理二、根据第一统计结果及该段落组对应的各待分析段落在法律文书中的排列顺序，确定该段落组对应的待分析段落中的待校正段落，对所述待校正段落进行校正处理，其中，所述第一统计结果为该段落组对应的各待分析段落归属的文书部分的统计结果。

其中，第一统计结果可以具体为：对归属同一文书部分的待分析段落的数量统计结果，例如：举例三、某段落组包括：P1、P2、P3、P8、P9和P10，该段落组对应的文书部分为C1。则该段落组对应的待分析段落包括：P1、P2、P3、P4、P5、P6、P7、P8、P9、P10，其中，在本申请实施例中，P1表示段号为1的自然段落，以此类推，不再赘述。上述十个待分析段落归属的文书部分为：(P1，C1)、(P2，C1)、(P3，C1)、(P4，C2)、(P5，C2)、(P6，C3)、(P7，C2)、(P8，C1)、(P9，C1)、(P10，C1)。其中，(P1，C1)在本申请实施例中表示段号为1的待分析段落归属的文书部分为C1，以此类推，不再赘述。则本申请的第一统计结果可以为：上述十个待分析段落中分别归属于C1、C2、C3的待分析段落的数量，即：归属于C1的待分析段落的数量为6，归属于C2的待分析段落的数量为3，归属于C3的待分析段落的数量为1。

当然，在本申请其它实施例中，第一统计结果也可以为其它统计方式得到的结果，例如：归属同一文书部分的依次连接的待分析段落的最大数量。仍使用举例三为例进行说明：对于举例三中的十个待分析段落，归属于C1的待分析段落中，P1、P2、P3依次相邻，P8、P9、P10依次相邻，可以统计得到归属于C1的依次相邻的待分析段落的最大数量为3。同理，归属于C2的待分析段落中，P4、P5依次相邻，P7没有与其它归属于C2的待分析段落相连，因此统计得到归属于C2的依次相邻的待分析段落的最大数量为2。而归属于C3的段落只有P6一个，P6没有与其它归属于C3的待分析段落相连，因此本申请可以统计得到归属于C3的依次相邻的待分析段落的最大数量为0。当然，在本申请其它实施例中，也可以将归属于C3的依次相邻的待分析段落的最大数量确定为1。

可以理解的是，机器学习方法确定的每个自然段落归属的文书部分均有一定的错误概率，但将多个自然段落归属的文书部分均确定错误的概率很小，将依次相邻的多个自然段落归属的文书部分均确定错误的概率更小。因此，本申请可以通过对段落组对应的各待分析段落归属的文书部分进行统计来确定哪些段落归属的文书部分出错的可能性更大，从而对其校正。

在实际应用中，本申请在步骤S700之后执行上述处理一时，可以对各段落组依次或同时进行步骤S400至步骤S700的处理。可选的，本申请对某段落组进行步骤S400至步骤S700的处理后，可以为某自然段落添加待人工校正标识。进一步，本申请在对其他段落组进行步骤S400至步骤S700的处理并确定该自然段落可能需要校正后，可以再次为该自然段落添加待人工校正标识以覆盖之前的待人工校正标识，也可以不再为该自然段落添加待人工校正标识。

其中，如图3所示，处理二中确定待校正段落的具体过程可以包括：

S001、确定第一段落子组中自然段落的数量为第一数量，确定第二段落子组中自然段落的数量为第二数量，其中，所述第一段落子组中各自然段落依次相邻且均归属于该段落组对应的文书部分，所述第二段落子组中各自然段落依次相邻且均归属于该段落组对应的文书部分，所述第一段落子组中包括所述最小段号的自然段落，所述第二段落子组中包括所述最大段号的自然段落；

仍使用举例三进行说明：

对于待分析段落P1至P10，其归属的文书部分为：(P1，C1)、(P2，C1)、(P3，C1)、(P4，C2)、(P5，C2)、(P6，C3)、(P7，C2)、(P8，C1)、(P9，C1)、(P10，C1)。其中，最小段号的自然段落为P1，最大段号的自然段落为P10。P1至P3依次相邻且均归属于该段落组对应的文书部分C1，P8至P10依次相邻且均归属于该段落组对应的文书部分C1。可知，第一段落子组包括：P1、P2和P3，第二段落子组包括：P8、P9和P10，则步骤S001确定的第一数量和第二数量均为3。

S002、将该段落组对应的各待分析段落归属的各文书部分中除该段落组对应的文书部分外的其他文书部分确定为待分析部分L_i，其中，该段落组对应的文书部分为该段落组中各自然段落归属的文书部分；

S003、对任一待分析部分L_i：确定第i段落子组中自然段落的数量为第i数量，其中，所述第i段落子组中各自然段落依次相邻且均归属于L_i，i为待分析部分的序号，i为自然数且i大于2；

S004、在所述第一数量和所述第二数量均大于所述第i数量时，将归属于该L_i的各待分析段落确定为待校正段落。

仍使用举例三进行说明：除C1外的其它文书部分包括：C2和C3。则对于C2而言，举例三中的段落组中归属于C2的依次相邻的自然段落为：P4和P5，因此步骤S003对C2的统计结果为2。相应的，对于C3而言的统计结果为0。

步骤S004将步骤S003对C2的统计结果与步骤S001确定的第一数量、第二数量分别进行比较可知，第一数量(3)大于C2的统计结果(2)，且第二数量(3)大于C2的统计结果(2)，因此本申请可以将P4和P5确定为待校正段落。同理，本申请也可以将P6确定为待校正段落。

具体的，本申请实施例在对所述待校正段落进行校正处理时，可以具体将各待校正段落归属的文书部分校正为：该段落组对应的文书部分。

对于举例三而言，本申请可以将待校正段落P4、P5和P6对应的文书部分校正为：C1。这样，举例三中的待分析段落P1至P10归属的文书部分校正为：(P1，C1)、(P2，C1)、(P3，C1)、(P4，C1)、(P5，C1)、(P6，C1)、(P7，C1)、(P8，C1)、(P9，C1)、(P10，C1)。由于P1至P10均归属于C1，因此P1至P10之间不再存在归属于其它文书部分的自然段落，可以确定P1至P10归属的文书部分正确。

在实际应用中，本申请在步骤S700之后执行上述处理二时，可以对各段落组依次进行步骤S400至步骤S700的处理。具体的，在每次对一个段落组进行步骤S400至S700的处理并执行上述处理二中的对待校正段落进行校正处理后，可以根据上述处理二的校正处理结果对各段落组进行更新，并对更新后的另一个段落组进行步骤S400至步骤S700及处理二。

例如：设步骤S300获得三个段落组，分别为：第一段落组包括：P1、P2、P4和P5，第二段落组包括：P3、P6、P7、P9和P10，第三段落组包括：P8、P11和P12。第一段落组与文书部分C1对应，第二段落组与文书部分C2对应，第三段落组与文书部分C3对应。可知，上述12个自然段落归属的文书部分为：(P1，C1)、(P2，C1)、(P3，C2)、(P4，C1)、(P5，C1)、(P6，C2)、(P7，C2)、(P8，C3)、(P9，C2)、(P10，C2)、(P11，C3)、(P12，C3)。

本申请可以首先对第一段落组进行步骤S400至步骤S700的处理，可以确定自然段落P1至P5中存在一个自然段落需要校正。进一步通过图3步骤进行处理后，可以将自然段落P3对应的文书部分由C2校正为C1。本申请根据此次校正处理后的结果，对各段落组进行更新后，得到三个段落组如下：

第一段落组包括：P1、P2、P3、P4和P5，第二段落组包括：P6、P7、P9和P10，第三段落组包括：P8、P11和P12。

对本次更新后的段落组中的第二段落组进行步骤S400至步骤S700的处理，可以确定自然段落P6至P10中存在一个自然段落需要校正。进一步通过图3步骤进行处理后，可以将自然段落P8对应的文书部分由C3校正为C2。本申请根据此次校正处理后的结果，对各段落组进行更新后，得到三个段落组如下：

第一段落组包括：P1、P2、P3、P4和P5，第二段落组包括：P6、P7、P8、P9和P10，第三段落组包括：P11和P12。

对本次更新后的段落组中的第三段落组进行步骤S400至步骤S700的处理，可以确定第三段落组中P11和P12归属的文书部分正确。

这样，本申请就对全部段落组进行了处理，并将需要校正的自然段落归属的文书部分进行了校正。

与上述方法实施例相对应，本发明实施例还提供了一种法律文书处理装置。

如图4所示，本发明实施例提供的一种法律文书处理装置，可以包括：第一获得模块100、第一确定模块200和文书划分模块300，

所述第一获得模块100，用于获得待处理的法律文书中的多个自然段落；

所述第一确定模块200，用于通过机器学习方法确定获得的各所述自然段落归属的文书部分；

可选的，所述第一确定模块200，可以具体用于：

所述文书划分模块300，用于对任一待处理的法律文书：根据该待处理的法律文书中的多个自然段落归属的文书部分，将该待处理的法律文书中的多个自然段落划分为至少一个段落组，其中，同一段落组中各自然段落归属的文书部分相同，位于不同段落组中的自然段落归属的文书部分不同。

可选的，本申请还可以建立各段落组与文书部分的对应关系，以方便用户根据文书部分查找归属于该文书部分的各自然段落所在的段落组。具体的，段落组中的各自然段落可以按照段号从小到大的顺序进行排列。其中，段号为法律文书中各自然段落的序号，法律文书首段的段号为1，其后的自然段落的段号依次递增。

在本发明其他实施例中，图4所示装置还可以包括：格式设置模块，

所述格式设置模块，用于对至少一个段落组：将该段落组中各自然段落的文本格式设置为与该段落组对应的文书部分匹配的文本格式。

本申请实施例提供的一种法律文书处理装置，可以获得待处理的法律文书中的多个自然段落；通过机器学习方法确定获得的各所述自然段落归属的文书部分；对任一待处理的法律文书：根据该待处理的法律文书中的多个自然段落归属的文书部分，将该待处理的法律文书中的多个自然段落划分为至少一个段落组。由于本申请可以通过机器学习方法确定各自然段落归属的文书部分并进一步根据自然段落归属的文书部分将自然段落划分为段落组。因此本申请可以自动将法律文书划分为对应文书部分的多个段落组。当用户需要查找某文书部分的文字时，可以直接从该文书部分的段落组中找到相关文字，简单方便，节省了用户的时间。

在本发明其他实施例中，图4所示装置还可以包括：第二确定模块、第三确定模块、第四确定模块和第五确定模块，

所述第二确定模块，用于在所述文书划分模块300执行操作完毕后，对任一段落组：确定该段落组中各自然段落的段号中的最小段号和最大段号，将段号位于所述最小段号和所述最大段号以内的各自然段落确定为该段落组对应的待分析段落；

所述第三确定模块，用于确定该段落组对应的待分析段落否均归属同一文书部分，如果是，则触发所述第四确定模块；否则，触发所述第五确定模块；

所述第四确定模块，用于确定该段落组对应的各待分析段落归属的文书部分正确；

所述第五确定模块，用于确定该段落组对应的待分析段落中存在至少一个自然段落需要校正。

进一步，图4所示装置还可以包括：第一添加模块或者文书校正模块，

所述第一添加模块，用于在所述第五确定模块确定该段落组对应的待分析段落中存在至少一个自然段落需要校正之后，为该段落组对应的各待分析段落添加待人工校正标识；

所述文书校正模块，用于在所述第五确定模块确定该段落组对应的待分析段落中存在至少一个自然段落需要校正之后，根据第一统计结果及该段落组对应的各待分析段落在法律文书中的排列顺序，确定该段落组对应的待分析段落中的待校正段落，对所述待校正段落进行校正处理，其中，所述第一统计结果为该段落组对应的各待分析段落归属的文书部分的统计结果。

其中，第一统计结果可以具体为：对归属同一文书部分的待分析段落的数量统计结果。当然，在本申请其它实施例中，第一统计结果也可以为其它统计方式得到的结果，例如：归属同一文书部分的依次连接的待分析段落的最大数量。

其中，所述文书校正模块可以包括：第一确定子模块、第二确定子模块、第三确定子模块、第四确定子模块和矫正子模块，

所述第一确定子模块，用于确定第一段落子组中自然段落的数量为第一数量，确定第二段落子组中自然段落的数量为第二数量，其中，所述第一段落子组中各自然段落依次相邻且均归属于该段落组对应的文书部分，所述第二段落子组中各自然段落依次相邻且均归属于该段落组对应的文书部分，所述第一段落子组中包括所述最小段号的自然段落，所述第二段落子组中包括所述最大段号的自然段落；

所述第二确定子模块，用于将该段落组对应的各待分析段落归属的各文书部分中除该段落组对应的文书部分外的其他文书部分确定为待分析部分L_i，其中，该段落组对应的文书部分为该段落组中各自然段落归属的文书部分；

所述第三确定子模块，用于对任一待分析部分L_i：确定第i段落子组中自然段落的数量为第i数量，其中，所述第i段落子组中各自然段落依次相邻且均归属于L_i，i为待分析部分的序号，i为自然数且i大于2；

所述第四确定子模块，用于在所述第一数量和所述第二数量均大于所述第i数量时，将归属于该L_i的各待分析段落确定为待校正段落；

所述矫正子模块，用于对所述待校正段落进行校正处理。

具体的，所述矫正子模块可以具体用于将各待校正段落归属的文书部分校正为：该段落组对应的文书部分。

通过上述方案，本申请对全部段落组进行了处理，并将需要校正的自然段落归属的文书部分进行了校正。

所述法律文书处理装置装置包括处理器和存储器，上述第一获得模块、第一确定模块和文书划分模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来确定各段落对应的文书部分。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述法律文书处理方法。

本申请实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述法律文书处理方法。

本申请实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

一种法律文书处理方法，包括：

获得待处理的法律文书中的多个自然段落；

为该段落组对应的各待分析段落添加待人工校正标识；

可选的，所述对所述待校正段落进行校正处理，包括：

可选的，所述方法还包括：

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

一种法律文书处理方法，包括：

获得待处理的法律文书中的多个自然段落；

为该段落组对应的各待分析段落添加待人工校正标识；

可选的，所述对所述待校正段落进行校正处理，包括：

可选的，所述方法还包括：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种法律文书处理方法，其特征在于，包括：

获得待处理的法律文书中的多个自然段落；

对任一待处理的法律文书：根据该待处理的法律文书中的多个自然段落归属的文书部分，将该待处理的法律文书中的多个自然段落划分为至少一个段落组，其中，同一段落组中各自然段落归属的文书部分相同，位于不同段落组中的自然段落归属的文书部分不同；

2.根据权利要求1所述的方法，其特征在于，在所述确定该段落组对应的待分析段落中存在至少一个自然段落需要校正之后，所述方法还包括：

为该段落组对应的各待分析段落添加待人工校正标识；

3.根据权利要求2所述的方法，其特征在于，所述根据第一统计结果及该段落组对应的各待分析段落在法律文书中的排列顺序，确定该段落组对应的待分析段落中的待校正段落，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述待校正段落进行校正处理，包括：

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述通过机器学习方法确定获得的各所述自然段落归属的文书部分，包括：

7.一种法律文书处理装置，其特征在于，包括：第一获得模块、第一确定模块、第二确定模块、第三确定模块、第四确定模块、第五确定模块和文书划分模块，

所述文书划分模块，用于对任一待处理的法律文书：根据该待处理的法律文书中的多个自然段落归属的文书部分，将该待处理的法律文书中的多个自然段落划分为至少一个段落组，其中，同一段落组中各自然段落归属的文书部分相同，位于不同段落组中的自然段落归属的文书部分不同；

所述第二确定模块，用于在所述文书划分模块执行操作完毕后，对任一段落组：确定该段落组中各自然段落的段号中的最小段号和最大段号，将段号位于所述最小段号和所述最大段号以内的各自然段落确定为该段落组对应的待分析段落；

8.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在的设备执行如权利要求1至6中任一项所述的法律文书处理方法。

9.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行如权利要求1至6中任一项所述的法律文书处理方法。