CN106815208A

CN106815208A - 法律裁判文书的解析方法及装置

Info

Publication number: CN106815208A
Application number: CN201510869907.6A
Authority: CN
Inventors: 李轶; 崔维福; 胡斌
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2015-12-01
Filing date: 2015-12-01
Publication date: 2017-06-09

Abstract

本申请公开了一种法律裁判文书的解析方法及装置。其中，该方法包括：获取待解析法律裁判文书的文本包括的多个自然段落；按照第一预设规则将多个自然段落划分至多个段落集合，其中，每个段落集合包括至少一个自然段落；以及分别对多个段落集合的文本内容进行解析。通过本申请，解决了相关技术中法律裁判文书解析的准确性较差的技术问题。

Description

法律裁判文书的解析方法及装置

技术领域

本申请涉及法律裁判文书处理领域，具体而言，涉及一种法律裁判文书的解析方法及装置。

背景技术

通常，对于人民法院下发的法律裁判文书，往往需要解析法律裁判文书的每个段落以及提取每个段落的维度信息等参数。对法律裁判文书进行解析，可以帮助用户获取更多有效的法律参考信息。目前，对于法律裁判文书的解析仍然采用人工解析的方式来实现。一般是由人工去区分法律裁判文书的各个段落以及提取每段文书的维度信息。由于人民法院法律裁判文书类型丰富，包含的信息量也比较大，信息维度也比较多(例如，原告、被告、上诉人、被上诉人、证据、判决结果和费用等)，因此，依靠人工去区分不同文书的各个段落以及提取每段文书的维度信息，工作量非常大。

借助法律裁判文书检索系统，可对法律裁判文书进行简单地搜索归纳。但是，由于当前的法律裁判文书检索系统通常只是对法律裁判文书的全文内容进行解析，因此，导致检索结果参差不齐，一般仅对包含某些固定关键词的相关内容进行罗列，或者只进行简单地信息分类。可见，通过当前的法律文书检索系统获取的法律裁判文书的解析结果的准确性较差。

针对相关技术中法律裁判文书解析的准确性较差的技术问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种法律裁判文书的解析方法及装置，以至少解决相关技术中法律裁判文书解析的准确性较差的技术问题。

根据本申请实施例的一个方面，提供了一种法律裁判文书的解析方法，该方法包括：获取待解析法律裁判文书的文本包括的多个自然段落；按照第一预设规则将多个自然段落划分至多个段落集合；以及分别对多个段落集合的文本内容进行解析。

进一步地，按照第一预设规则将多个自然段落划分至多个段落集合包括：将包括至少一个第一预设匹配词的自然段落划分至同一个段落集合；或者将包括的至少一个第一预设匹配词的位置范围为预设范围的自然段落划分至同一个段落集合。

进一步地，第一预设规则包括多个预设子规则，按照第一预设规则将多个自然段落划分至多个段落集合包括：将多个预设子规则中的每个预设子规则依次与多个自然段落中的每个自然段落进行匹配；以及将每个自然段落划分至第一个匹配出的预设子规则所对应的段落集合。

进一步地，在一个自然段落匹配出对应的预设子规则之后，将多个预设子规则中的每个预设子规则依次与多个自然段落中的每个自然段落进行匹配包括：对于一个自然段落的下一个自然段落，将该一个自然段落所对应的预设子规则与下一个自然段落进行匹配，并检测是否匹配成功；如果检测出未匹配成功，则将下一个自然段落与多个预设子规则中的其他预设子规则依次执行匹配处理，直到匹配到一个预设子规则或者直到与其他预设子规则均执行了匹配但都未匹配成功。

进一步地，在获取待解析法律裁判文书的文本包括的多个自然段落之前，该方法还包括：检测待解析法律裁判文书的文本中是否包括预设标识，其中，预设标识为待解析法律裁判文书的文本中与文本内容无关的标识；以及如果检测出待解析法律裁判文书的文本中包括预设标识，则清除预设标识。

进一步地，分别对多个段落集合的文本内容进行解析包括：依次判断多个段落集合中的每个段落集合的文本内容中是否存在满足与该段落集合对应的第二预设规则的文本内容；以及如果判断结果为是，则获取满足第二预设规则的文本内容。

进一步地，多个段落集合包括第一段落集合，依次判断多个段落集合中的每个段落集合的文本内容中是否存在满足与该段落集合对应的第二预设规则的文本内容包括：将第一段落集合的文本内容逐词进行拆分，得到多个待匹配词；以及判断多个待匹配词中是否存在至少一个目标待匹配词，其中，如果判断出多个待匹配词中存在至少一个目标待匹配词，则确定第一段落集合的文本内容中存在满足与第一段落集合对应的第二预设规则的文本内容，至少一个目标待匹配词满足以下条件之一：包括至少一个第二预设匹配词；包括的至少一个第二预设匹配词的位置范围为第二预设范围。

进一步地，在获取满足第二预设规则的文本内容之前，该方法还包括：分别确定至少一个目标待匹配词的词性；以及判断至少一个目标待匹配词的词性是否分别与至少一个第二预设匹配词的词性对应相同，获取满足第二预设规则的文本内容包括：如果判断出至少一个目标待匹配词的词性分别与至少一个第二预设匹配词的词性对应相同，则获取与至少一个目标待匹配词相关的文本内容。

根据本申请实施例的另一方面，还提供了一种法律裁判文书的解析装置，该装置包括：获取单元，用于获取待解析法律裁判文书的文本包括的多个自然段落；划分单元，用于按照第一预设规则将多个自然段落划分至多个段落集合；以及解析单元，用于分别对多个段落集合的文本内容进行解析。

进一步地，划分单元包括：第一划分模块，用于将包括至少一个第一预设匹配词的自然段落划分至同一个段落集合；或者第二划分模块，用于将包括的至少一个第一预设匹配词的位置范围为第一预设范围的自然段落划分至同一个段落集合。

在本申请实施例中，通过采用以下步骤：获取待解析法律裁判文书的文本包括的多个自然段落；按照第一预设规则将多个自然段落划分至多个段落集合；以及分别对多个段落集合的文本内容进行解析，解决了相关技术中法律裁判文书解析的准确性较差的技术问题，进而按照第一预设规则将多个自然段落划分至多个段落集合，分别对多个段落集合的文本内容进行解析，达到了提高法律裁判文书的解析准确性的技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请第一实施例的文本解析方法的流程图；

图2是根据本申请第二实施例的文本解析方法的流程图；以及

图3是根据本申请实施例的文本解析装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例，提供了一种文本解析方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请第一实施例的文本解析方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取待解析法律裁判文书的文本包括的多个自然段落。

步骤S104，按照第一预设规则将多个自然段落划分至多个段落集合。

步骤S106，分别对多个段落集合的文本内容进行解析。

对于法律裁判文书来说，多个自然段落中的某些自然段落的文本内容所表示的文本信息意义可能是相同的。将文本信息意义相同的自然段落识别出来，并作为一个文本解析的单元(段落集合)，可以很大程度上提升法律裁判文书解析的准确性。并且，根据该方法能够同时获取到法律裁判文书中相关联的全部的解析结果，对这些解析结果进行封装存储，有利于后续统计和检索的执行。

对于一个法律裁判文书，通常法律裁判文书中包括分别描述原告、被告、案由、证据、判决结果、审判信息的一个或者多个自然段落。在对法律裁判文书进行解析时，可以将法律裁判文书中的各个自然段落按照第一预设规则进行划分，得到代表不同信息意义偏向的段落集合，如原告段落集合、被告段落集合等。其中，原告段落集合中包括的自然段落满足的条件为(也即符合第一预设规则)：以“原告”字样为自然段的开头，且“原告”字样之后存在多个字符并且不是换行符，用正则表达式表示为：^原告.+。

需要说明的是，这里的第一预设规则包括一个或者多个规则。该一个或者多个规则可以为正则规则或者其他用于文本识别的规则，本申请不对第一预设规则的具体类型进行限定。

根据该实施例，通过采用以下步骤：获取待解析法律裁判文书的文本包括的多个自然段落；按照第一预设规则将多个自然段落划分至多个段落集合；以及分别对多个段落集合的文本内容进行解析，解决了相关技术中法律裁判文书解析的准确性较差的技术问题，进而按照第一预设规则将多个自然段落划分至多个段落集合，分别对多个段落集合的文本内容进行解析，也即对每个自然段落集合(对应待解析法律裁判文书的文本中具有特定意义偏向的文本内容)分别有针对性地进行解析，而非笼统地对全文内容进行整体解析，进而达到了提高裁判文书的解析准确性的技术效果。

为了提高匹配的准确度，优选地，按照第一预设规则将多个自然段落划分至多个段落集合包括：将包括至少一个第一预设匹配词的自然段落划分至同一个段落集合；或者将包括的至少一个第一预设匹配词的位置范围为预设范围的自然段落划分至同一个段落集合。

在该实施例中，提供了一种优选的用于段落集合划分的方法，该规则更加简便、易于执行。具体地，第一预设规则规定了自然段落中必须同时出现相同的预设匹配词(一个或者多个)，并且这些预设匹配词的在自然段落中所处的位置范围为预设范围，在满足以上条件时，则将不同的自然段落划分至同一个段落集合。例如，将第一预设规则设定为在不同自然段落中同时出现“判决如下”字样时，将这些段落划分至同一个段落集合。或者，将第一预设规则设定为在不同自然段落中同时出现“被告”，并且被告位于段首的自然段落划分至同一个段落集合。

需要说明的是，上述包括的至少一个第一预设匹配词的位置范围为预设范围，具体包括：自然段落中包括了相同的至少一个第一预设匹配词；并且这些第一预设匹配词在自然段落中所处位置范围为预设范围(包括所处位置相同)。例如，第一预设规则为法律裁判文书中包括的关键词“犯”、“罪”、“判处”“月”(也即限定某某人犯某罪判处某月)的位置范围为：“犯”、“罪”的位置之间间隔第一预设个数的字符，“判处”和“月”的位置之间间隔第二预设个数的字符，“罪”和“判处”的位置之间间隔第三预设个数的字符。

为了提高匹配的准确度，优选地，第一预设规则包括多个预设子规则，按照第一预设规则将多个自然段落划分至多个段落集合包括：将多个预设子规则中的每个预设子规则依次与多个自然段落中的每个自然段落进行匹配；以及将每个自然段落划分至第一个匹配出的预设子规则所对应的段落集合。

在该实施例中，预先为多个自然段落指定次序，以及为多个预设子规则指定次序，按照预先指定的次序，将不同的自然段落与预设子规则逐一进行匹配，直到匹配到某一个预设子规则(第一次匹配到)，将该自然段落划分至该预设子规则对应的段落集合。

例如，将多个自然段落按照文本的行文内容的排列顺序设定索引值。按照索引值由小到大的次序，依次将每个自然段落与多个预设子规则逐一进行匹配，直到该自然段落与某个预设子规则匹配成功为止。其中，多个预设子规则可以预先设定匹配次序，在针对某一自然段落进行匹配时，按照预先设定的匹配次序依次将该自然段落与每个预设子规则执行匹配。最终将每个自然段落划分至与其匹配的预设子规则所对应的段落集合。

为了提高匹配的执行效率，优选地，在一个自然段落匹配出对应的第一预设规则之后，将多个预设子规则中的每个预设子规则依次与多个自然段落中的每个自然段落进行匹配包括：对于一个自然段落的下一个自然段落，将该一个自然段落所对应的预设子规则与下一个自然段落进行匹配，并检测是否匹配成功；如果检测出未匹配成功，则将下一个自然段落与多个预设子规则中的其他预设子规则依次执行匹配处理，直到匹配到一个预设子规则或者直到与其他预设子规则均执行了匹配但都未匹配成功。

对于法律裁判文书，由于各个自然段落的前后逻辑性较强，因此前后两个自然段落有很高的概率在记述相关联的内容，通过将适用当前段落的预设子规则优先与下一自然段落匹配，匹配成功的可能性较高，如此遍历各个自然段落，能够提高处理效率。例如，第1个自然段落匹配到第2个第一预设规则，则在对第2个自然段落进行匹配时，不是先与第1个第一预设规则进行匹配，而是优先与第2个第一预设规则进行匹配。

具体地，对于当前自然段落的下一自然段落的匹配过程，可包括：令当前段落对应的预设子规则与下一自然段落执行匹配处理，如果不匹配，则顺次使用下一个预设子规则进行匹配处理，直至匹配到预设子规则或与检测出全部预设子规则均不匹配。其中，匹配的顺序可以以当前自然段落对应的预设子规则为第一个用于与下一自然段落执行匹配的预设子规则，然后顺次遍历，如果直到到达最后一个预设子规则还未实现匹配，则从多个预设子规则中的第一个预设子规则开始直到第一个用于与下一自然段落执行匹配的预设子规则的前一预设子规则，依次执行匹配。或者，在当前段落对应的预设子规则与下一自然段落不匹配的情况下，从多个预设子规则中的第一个预设子规则开始，跳过与当前段落对应的预设子规则，依次与各个预设子规则执行匹配，直到匹配到一个预设子规则或者直到匹配完各个预设子规则但都未匹配成功为止。

例如，当前自然段落为第二自然段落，与其匹配成功的预设子规则为10个预设子规则中的第3个预设子规则。则在对第三自然段落执行匹配时，可以先与第3个预设子规则执行匹配，如果匹配成功，则将第三自然段落划分至第3个预设子规则所对应的段落集合。如果未匹配成功，则将第三自然段落依次与第4至第10、第1至第2预设子规则执行匹配，直到匹配到一个预设子规则或者直到与各个预设子规则执行过匹配处理但都未匹配成功为止。

或者，如果未匹配成功，则将第三自然段落依次与第1至第2、第4至第10预设子规则执行匹配，直到匹配到一个预设子规则或者直到与各个预设子规则执行过匹配处理但都未匹配成功为止。

为了提高文本解析的效率，可选地，在获取待解析法律裁判文书的文本包括的多个自然段落之前，该方法还包括：检测待解析法律裁判文书的文本中是否包括预设标识，其中，预设标识为待解析法律裁判文书的文本中与文本内容无关的标识；以及如果检测出待解析法律裁判文书的文本中包括预设标识，则清除预设标识。

在该实施例中，预设标识为待解析法律裁判文书的文本中所包含的与用户要获取到的解析结果无关的标识。该预设标识可以由文本解析者预先指定，对于不同的待解析法律裁判文书的文本类型可以指定不同的预设标识。对于一个法律裁判文书，法院发布到网站上之后，很可能会附加一些与原来的法律裁判文书无关的标识信息(可能由该网站所添加，如该网站的网址)，因此，可以将这些与原来的法律裁判文书无关的标识信息指定为预设标识，在文本解析之前，清除这些与原来的法律裁判文书无关的标识信息，以提高后续文本解析的效率。

可选地，分别对多个段落集合的文本内容进行解析包括：依次判断多个段落集合中的每个段落集合的文本内容中是否存在满足与该段落集合对应的第二预设规则的文本内容；以及如果判断结果为是，则获取满足第二预设规则的文本内容。

在该实施例中，以每个段落集合的文本内容作为一个解析单元进行解析。对于每个段落集合来说，存在某一特定的意义偏向，因此可以基于该意义偏向对该段落集合的文本内容进行解析。在解析时，判断该段落集合是否存在满足与该段落集合对应的第二预设规则的文本内容，如果存在，则获取该满足第二预设规则的文本内容。其中，第二预设规则可以为正则规则，比如，通过正规规则规定了满足要求的文本内容需要包含的预设匹配词和预设匹配词在文本中的位置。例如，在法律裁判文书的解析过程中，可以将第二预设规则限定为提取该段落中法条的规则，如通过该规则可以提取到“《刑法》第10条”的文本。再例如，将第二预设规则限定为：.*犯.*罪，判.*刑.*[月|年]，则通过该规则可以获取到法律裁判文书中何人、犯何罪、判何种刑罚，以及量刑为多少。假设在法律裁判文书中包含文本内容如下：被告人黄磊犯盗窃罪，判处有期徒刑七个月。则通过第二预设规则可以获取到以下的结果：黄磊、盗窃罪、有期徒刑和七个月。

优选地，多个段落集合包括第一段落集合，依次判断多个段落集合中的每个段落集合的文本内容中是否存在满足与该段落集合对应的第二预设规则的文本内容包括：将第一段落集合的文本内容逐词进行拆分，得到多个待匹配词；以及判断多个待匹配词中是否存在至少一个目标待匹配词，其中，如果判断出多个待匹配词中存在至少一个目标待匹配词，则确定第一段落集合的文本内容中存在满足与第一段落集合对应的第二预设规则的文本内容，至少一个目标待匹配词满足以下条件之一：包括至少一个第二预设匹配词；包括的至少一个第二预设匹配词的位置范围为第二预设范围。

在该优选实施例中，提供了采用正则规则提取段落集合中符合该规则的文本内容的方法。需要说明的是，第一段落集合的文本内容中可能会包含非文字的符号信息，例如标点符合等。在该实施例中，可以将非文字的符号信息作为待匹配词。具体地，首先将段落集合的文本内容逐词进行拆分，例如，按照词性进行语句的拆分，如法律裁判文书中记载有“依据《民法》第八条”，则逐词进行拆分为“依据”、“《”、“民法”、“》”、“第八条”，其中，将分文字符号(如标点符号)作为单独的一个词。或者“王某犯盗窃罪判处有期徒刑七个月”，可逐词拆分为“王某”、“犯”、“盗窃罪”、“判处”、“有期徒刑”、“七个月”。需要说明的是，逐词拆分时的拆分精度可以提前预设。比如，前面提及的“第八条”也可以拆分为“第八”和“条”，具体的拆分过程和待解析法律裁判文书的文本的类型相关，针对不同类型的法律裁判文书，可以采用不同的拆分精度。例如，法律裁判文书可以分为一审裁判文书、二审裁判文书等。可以预先提炼每种类型的裁判文书的行文特点，根据裁判文书的行文特点设定拆分规则。

在利用正则规则对逐词拆分后的段落集合的文本内容进行匹配时，判断其是否存在符合该正则规则的文本内容，包括：逐词拆分后的段落集合的文本内容中是否包括至少一个第二预设匹配词；或者是否包括至少一个第二预设匹配词并且该至少一个第二预设匹配词在文本中所处的位置范围为第二预设范围。根据不同的解析需求可以设置正则规则为满足上述任意一种条件的正则规则。通过该实施例可以准确的查找需获取的文本内容。并且由于查找的对象是段落集合的文本内容，因此获取到的解析结果可以代表该文本包含的所有具备特定意义的文本内容，将该解析结果进行结构化封装，对于后续进行检索或者统计将十分有利。

可选地，在获取满足第二预设规则的文本内容之前，该方法还包括：分别确定至少一个目标待匹配词的词性；以及判断至少一个目标待匹配词的词性是否分别与至少一个第二预设匹配词的词性对应相同，获取满足第二预设规则的文本内容包括：如果判断出至少一个目标待匹配词的词性分别与至少一个第二预设匹配词的词性对应相同，则获取与至少一个目标待匹配词相关的文本内容。

由于在根据上述第二预设规则进行预设匹配词(至少一个第二预设匹配词)的匹配时，判断出的满足第二预设规则的词可能只是第二预设匹配词的罗列(也即只包括该至少一个第二预设匹配词)，但是逻辑关系并不符合需求。例如，第二预设规则限定包含的至少一个第二预设匹配词为难过或者伤心或者悲伤，段落集合的文本内容中包括文本内容“家门前的小河很难过”。通过与第二预设规则进行匹配，可以匹配到该文本内容，但是文本的逻辑或者感情色彩是符合用户需求的。因此，在该实施例中，在获取满足第二预设规则的文本内容之前，可以将至少一个目标待匹配词的词性与至少一个第二预设匹配词的词性一一进行对比(至少一个目标待匹配词和至少一个第二预设匹配词是一一对应的，并且文字上对应相同)，判断是否词性是一致的，如果一致，则可以认为匹配成功，并且可获取与至少一个目标待匹配词相关的文本内容。

需要说明的是，在一些文本中可能存在一些非文字的符号信息，例如，书名号“《》”。在判断至少一个目标待匹配词的词性是否分别与至少一个第二预设匹配词的词性对应相同之前，很有可能目标待匹配词中包括非文字的符号信息。在本实施例中，可以将非文字的符号信息也作为目标待匹配词，并将非文字的符号信息的词性默认为预设词性，进而可实现目标待匹配词的词性与第二预设匹配词的词性之间的比对。

图2是根据本申请第二实施例的文本解析方法的流程图。该实施例可以作为图1所示实施例的一种优选实施方式。如图2所示，该方法包括：

步骤S202，对法律裁判文书进行预处理。

去除法律裁判文书的各种无效标记(即上述的预设标识)，将法律裁判文书内容文本分成自然段落，每个自然段存储到数组中。按照在数组中的排列顺序，依次对各个自然段落进行匹配。具体地，可以将每个自然段落的索引值(段落编号)作为数组的一个元素，每个元素对应的存储空间中存储对应自然段落的文本内容。

步骤S204，依次获取法律裁判文书的n个自然段落，当前获取的自然段落为第i个自然段落，其中，i＝1,2,……,n。

步骤S206，判断i是否小于等于n。

步骤S208，如果判断出i小于等于n，则将第i个自然段落依次匹配m个匹配规则，当前的匹配规则为第j个匹配规则，其中，j＝1,2……,m。

步骤S210，判断j是否小于等于m。

步骤S212，如果判断出j小于等于m，则判断第i个自然段落是否与第j个匹配规则相匹配。

步骤S214，如果判断出第i个自然段落与第j个匹配规则相匹配，则将第i个自然段落加入到第j个匹配规则对应的段落集合。

根据各种法律裁判文书特征关键词设定段落匹配规则(同图1中所述的第一预设规则)，根据匹配规则将法律裁判文书所有文本分成多个段落集合(一个段落集合可能包含0至n个文书的自然段落)。段落集合中的文本信息意义偏向(每个内容段所代表的信息意义)由法律裁判文书特征关键词(设定的匹配规则)确定。匹配规则的建立可以采用正则表达式。常见的段落集合可包括:原告段落集合、被告段落集合、案由段落集合、证据段落集合、判决结果段落集合、审判信息段落集合，诉讼费用段落集合等。匹配过程举例如下:段落匹配规则包括多个子段落匹配规则，假设多个子段落匹配规则为多个规则节点，其中，第二规则为第一规则的后继规则节点。对自然段落数组进行遍历，先匹配第一规则节点，与第一规则节点匹配上的自然段，加入到第一规则节点对应的段落集合中。当前自然段落索引后移，继续匹配第一规则节点，如果当前自然段落与第一规则节点无法匹配，则匹配节点移动到第一规则节点的后继节点，也即第二规则节点，继续进行匹配。如此往复，对整个文书自然段落进行扫描，将各个文书自然段落匹配到相应的段落集合中。

上述根据特征关键词生成段落匹配规则，例如：民事一审原告段落集合的正则规则可设定为:^原告.+，其含义为段落内容以“原告”字样开始，“原告”字样后包括多个字符，并且“原告”之后不是换行符。这里“原告”即为一个特征关键词。另外，在法律裁判文书中，“委托代理人”、“法定代理人”等均可设定为特征关键词。

如果判断出第i个自然段落与第j个匹配规则不匹配，则将j加1，继续判断第i个自然段落是否与第j+1个匹配规则相匹配。依次，直到判断出与第i个自然段落相匹配的匹配规则，或者判断出j超过m。

步骤S216，如果判断出j超过了m(仍未匹配到匹配规则)，则将第i个自然段落加入到第i-1个自然段落所在的段落集合。

步骤S218，如果判断出i超过了n，则对每个段落集合分别进行解析。

i超过了n，说明各个自然段落匹配完成。在i未达到n之前，需要按照上述步骤对各个自然段落依次进行匹配，直到i超过了n。各自然段落被匹配到各段落集合后，可以提取每个段落集合的维度信息。可根据法律裁判文书的特征关键词，建立维度提取规则。例如，原告段落集合的维度包括：姓名、性别、民族、地址、公司、职位等。由此可以提取出用户需要的维度信息。

例如，民事一审原告段落集合的一个信息提取规则可设定为“*/person+*/n…..”，其中，“原告”、“委托代理人”、“法定代理人”均被标记为person，根据该规则可以提取原告、委托代理人、法定代理人的姓名(因为原告段落集合里，上述三个特征关键词之后的内容均为姓名)。

根据该实施例，通过将法律裁判文书按照自然段落划分为段落集合，对段落集合中的文本内容进行解析，可对法律裁判文书的关键信息实现更为有效地提取，并且得到的分类维度更多，信息提取更准确。采用该实施例提供的文本解析方法可以大大提高文本解析的效率和解析结果的准确性。

下面根据本申请实施例，提供了一种文本解析装置。

需要说明的是，根据本申请实施例的法律裁判文书的解析装置可以用于执行根据本申请实施例的法律裁判文书的解析方法，根据本申请实施例的法律裁判文书的解析方法也可以通过根据本申请实施例的法律裁判文书的解析装置来执行。

图3是根据本申请实施例的文本解析装置的示意图。如图3所示，该装置包括：获取单元20、划分单元40和解析单元60。

获取单元20，用于获取待解析法律裁判文书的文本包括的多个自然段落。

划分单元40，用于按照第一预设规则将多个自然段落划分至多个段落集合，其中，每个段落集合包括至少一个自然段落。

解析单元60，用于分别对多个段落集合的文本内容进行解析。

根据该实施例的文本解析装置，通过获取单元20获取待解析法律裁判文书的文本包括的多个自然段落；划分单元40按照第一预设规则将多个自然段落划分至多个段落集合，其中，每个段落集合包括至少一个自然段落；以及解析单元60分别对多个段落集合的文本内容进行解析，解决了相关技术中法律裁判文书解析的准确性较差的技术问题，进而划分单元40按照第一预设规则将多个自然段落划分至多个段落集合，解析单元60分别对多个段落集合的文本内容进行解析，达到了提高法律裁判文书解析的准确性的技术效果。

优选地，划分单元40可以包括：第一划分模块，用于将包括至少一个第一预设匹配词的自然段落划分至同一个段落集合；或者第二划分模块，用于将包括的至少一个第一预设匹配词的位置范围为第一预设范围的自然段落划分至同一个段落集合。

优选的，第一预设规则包括多个预设子规则，则划分单元40也可以包括：第三划分模块，用于将多个预设子规则中的每个预设子规则依次与多个自然段落中的每个自然段落进行匹配；以及第四划分模块，用于将每个自然段落划分至第一个匹配出的预设子规则所对应的段落集合。

第三划分模块可具体用于：在一个自然段落匹配出对应的预设子规则之后，对于一个自然段落的下一个自然段落，将一个自然段落所对应的预设子规则与下一个自然段落进行匹配，并检测是否匹配成功；如果检测出未匹配成功，则将该下一个自然段落与多个预设子规则中的其他预设子规则依次执行匹配处理，直到匹配到一个预设子规则或者直到与其他预设子规则均执行了匹配但都未匹配成功。

文本解析装置还可以包括检测单元，用于在获取待解析法律裁判文书的文本包括的多个自然段落之前，检测待解析法律裁判文书的文本中是否包括预设标识，其中，预设标识为待解析法律裁判文书的文本中与文本内容无关的标识；以及如果检测出待解析法律裁判文书的文本中包括预设标识，则清除预设标识。

解析单元包括：判断模块，用于依次判断多个段落集合中的每个段落集合的文本内容中是否存在满足与该段落集合对应的第二预设规则的文本内容；以及获取模块，用于当判断结果为是时，获取满足第二预设规则的文本内容。

判断模块具体用于：将第一段落集合的文本内容逐词进行拆分，得到多个待匹配词；以及判断多个待匹配词中是否存在至少一个目标待匹配词，其中，如果判断出多个待匹配词中存在至少一个目标待匹配词，则确定第一段落集合的文本内容中存在满足与第一段落集合对应的第二预设规则的文本内容，至少一个目标待匹配词满足以下条件之一：包括至少一个第二预设匹配词；包括的至少一个第二预设匹配词的位置范围为第二预设范围。

文本解析装置还可以包括判断单元，用于在获取满足第二预设规则的文本内容之前，分别确定至少一个目标待匹配词的词性；以及判断至少一个目标待匹配词的词性是否分别与至少一个第二预设匹配词的词性对应相同；则获取模块具体用于：如果判断出至少一个目标待匹配词的词性分别与至少一个第二预设匹配词的词性对应相同，则获取与至少一个目标待匹配词相关的文本内容。

该法律裁判文书的解析装置包括处理器和存储器，上述获取单元、划分单元、解析单元、检测单元和判断单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元。上述第一预设规则、第二预设规则都可以存储在存储器中。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数解析文本内容。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品的实施例，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：获取待解析法律裁判文书的文本包括的多个自然段落；按照第一预设规则将多个自然段落划分至多个段落集合；以及分别对多个段落集合的文本内容进行解析。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种法律裁判文书的解析方法，其特征在于，包括：

获取待解析法律裁判文书的文本包括的多个自然段落；

按照第一预设规则将所述多个自然段落划分至多个段落集合；以及

分别对所述多个段落集合的文本内容进行解析。

2.根据权利要求1所述的方法，其特征在于，按照第一预设规则将所述多个自然段落划分至多个段落集合包括：

将包括至少一个第一预设匹配词的自然段落划分至同一个段落集合；或者

将包括的至少一个第一预设匹配词的位置范围为第一预设范围的自然段落划分至同一个段落集合。

3.根据权利要求1所述的方法，其特征在于，所述第一预设规则包括多个预设子规则，按照第一预设规则将所述多个自然段落划分至多个段落集合包括：

将所述多个预设子规则中的每个预设子规则依次与所述多个自然段落中的每个自然段落进行匹配；以及

将所述每个自然段落划分至第一个匹配出的预设子规则所对应的段落集合。

4.根据权利要求3所述的方法，其特征在于，在一个自然段落匹配出对应的预设子规则之后，将所述多个预设子规则中的每个预设子规则依次与所述多个自然段落中的每个自然段落进行匹配包括：

对于所述一个自然段落的下一个自然段落，将所述一个自然段落所对应的所述预设子规则与所述下一个自然段落进行匹配，并检测是否匹配成功；

如果检测出未匹配成功，则将所述下一个自然段落与所述多个预设子规则中的其他预设子规则依次执行匹配处理，直到匹配到一个预设子规则或者直到与所述其他预设子规则均执行了匹配但都未匹配成功。

5.根据权利要求1所述的方法，其特征在于，在获取待解析法律裁判文书的文本包括的多个自然段落之前，所述方法还包括：

检测所述待解析法律裁判文书的文本中是否包括预设标识，其中，所述预设标识为所述待解析法律裁判文书的文本中与所述文本内容无关的标识；以及

如果检测出所述待解析法律裁判文书的文本中包括所述预设标识，则清除所述预设标识。

6.根据权利要求1所述的方法，其特征在于，分别对所述多个段落集合的文本内容进行解析包括：

依次判断所述多个段落集合中的每个段落集合的文本内容中是否存在满足与该段落集合对应的第二预设规则的文本内容；以及

如果判断结果为是，则获取满足所述第二预设规则的文本内容。

7.根据权利要求6所述的方法，其特征在于，所述多个段落集合包括第一段落集合，依次判断所述多个段落集合中的每个段落集合的文本内容中是否存在满足与该段落集合对应的第二预设规则的文本内容包括：

将所述第一段落集合的文本内容逐词进行拆分，得到多个待匹配词；以及

判断所述多个待匹配词中是否存在至少一个目标待匹配词，其中，如果判断出所述多个待匹配词中存在所述至少一个目标待匹配词，则确定所述第一段落集合的文本内容中存在满足与所述第一段落集合对应的第二预设规则的文本内容，所述至少一个目标待匹配词满足以下条件之一：包括至少一个第二预设匹配词；包括的至少一个第二预设匹配词的位置范围为第二预设范围。

8.根据权利要求7所述的方法，其特征在于，

在获取满足所述第二预设规则的文本内容之前，所述方法还包括：

分别确定所述至少一个目标待匹配词的词性；以及判断所述至少一个目标待匹配词的词性是否分别与所述至少一个第二预设匹配词的词性对应相同，

获取满足所述第二预设规则的文本内容包括：

如果判断出所述至少一个目标待匹配词的词性分别与所述至少一个第二预设匹配词的词性对应相同，则获取与所述至少一个目标待匹配词相关的文本内容。

9.一种法律裁判文书的解析装置，其特征在于，包括：

获取单元，用于获取待解析法律裁判文书的文本包括的多个自然段落；

划分单元，用于按照第一预设规则将所述多个自然段落划分至多个段落集合；以及

解析单元，用于分别对所述多个段落集合的文本内容进行解析。

10.根据权利要求9所述的装置，其特征在于，所述划分单元包括：

第一划分模块，用于将包括至少一个第一预设匹配词的自然段落划分至同一个段落集合；或者

第二划分模块，用于将包括的至少一个第一预设匹配词的位置范围为第一预设范围的自然段落划分至同一个段落集合。