CN106815206A

CN106815206A - 法律裁判文书的解析方法及装置

Info

Publication number: CN106815206A
Application number: CN201510869235.9A
Authority: CN
Inventors: 李轶; 崔维福
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2015-12-01
Filing date: 2015-12-01
Publication date: 2017-06-09

Abstract

本申请公开了一种法律裁判文书的解析方法及装置。其中，该方法包括：获取待解析法律裁判文书的文本，其中，待解析法律裁判文书的文本包括多个自然段落；将每个自然段落依次与多个预设匹配规则集合执行匹配处理，得到每个自然段落对应的预设匹配规则集合，其中，每个预设匹配规则集合包括一个或多个预设匹配规则；将对应相同的预设匹配规则集合的自然段落划分至同一个段落集合，得到至少一个段落集合；以及分别对至少一个段落集合的文本内容进行解析。本申请解决了相关技术中法律裁判文书的解析准确性较差的技术问题。

Description

法律裁判文书的解析方法及装置

技术领域

本申请涉及法律裁判文书处理领域，具体而言，涉及一种法律裁判文书的解析方法及装置。

背景技术

通常，对于法律裁判文书，往往需要去解析裁判文书的类型、每个段落以及提取每个段落的维度信息等参数。对人民法院下发的裁判文书进行解析，可以帮助用户获取更多有效的法律参考信息。但是，目前，对法律裁判文书的解析仍然采用人工解析的方式来实现。一般是由人工去区分文书的不同类型、文书的各个段落以及提取每段文书的维度信息。由于人民法院下发的法律裁判文书类型丰富，包含的信息量也比较大，信息维度也比较多(例如，原告、被告、上诉人、被上诉人、证据、判决结果和费用等)，因此，依靠人工去区分不同文书的各个段落以及提取每段文书的维度信息，工作量非常大。

借助法律裁判文书检索系统，可对法律裁判文书进行简单地搜索归纳。但是，由于当前的法律裁判文书检索系统通常只是对法律裁判文书的全文内容进行解析，因此，导致检索结果参差不齐，一般仅对包含某些固定关键词的相关内容进行罗列，或者只进行简单地信息分类。可见，通过当前的法律文书检索系统获取的法律裁判文书的解析结果的准确性较差。

针对相关技术中法律裁判文书的解析准确性较差的技术问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种法律裁判文书的解析方法及装置，以至少解决相关技术中法律裁判文书的解析准确性较差的技术问题。

根据本申请实施例的一个方面，提供了一种法律裁判文书的解析方法，该方法包括：获取待解析法律裁判文书的文本，其中，待解析法律裁判文书的文本包括多个自然段落；将每个自然段落依次与多个预设匹配规则集合执行匹配处理，得到每个自然段落对应的预设匹配规则集合，其中，每个预设匹配规则集合包括一个或多个预设匹配规则；将对应相同的预设匹配规则集合的自然段落划分至同一个段落集合，得到至少一个段落集合；以及分别对至少一个段落集合的文本内容进行解析。

进一步地，将每个自然段落依次与多个预设匹配规则集合执行匹配处理，得到每个自然段落对应的预设匹配规则集合包括：将多个预设匹配规则集合中的每个预设匹配规则集合依次与每个自然段落执行匹配处理；以及将每个自然段落划分至第一个匹配出的预设匹配规则集合所对应的段落集合。

进一步地，将多个预设匹配规则集合中的每个预设匹配规则集合依次与每个自然段落执行匹配处理包括：依次获取自然段落与多个预设匹配规则集合的匹配度；以及将第一个获取到的匹配度达到预设匹配度阈值的预设匹配规则集合，作为该自然段落第一个匹配出的预设匹配规则集合。

进一步地，依次获取自然段落与多个预设匹配规则集合的匹配度包括：依次确定每个预设匹配规则集合中包括的与自然段落相匹配的预设匹配规则；以及根据与该自然段落相匹配的预设匹配规则的优先级获取该自然段落与每个预设匹配规则集合的匹配度。

进一步地，多个预设匹配规则集合包括第一预设匹配规则集合，依次确定每个预设匹配规则集合中包括的与自然段落相匹配的预设匹配规则包括：按照预设匹配规则的优先级由大到小的次序，依次检测第一预设匹配规则集合中的预设匹配规则是否与自然段落相匹配，其中，每检测到第一预设匹配规则集合中的一个预设匹配规则与该自然段落相匹配，则记录该预设匹配规则的优先级，根据与自然段落相匹配的预设匹配规则的优先级获取该自然段落与每个预设匹配规则集合的匹配度包括：依次获取第一预设匹配规则集合中与该自然段落相匹配的预设匹配规则的优先级，并计算已经获取到的优先级的平均值，直到优先级的平均值达到预设匹配度阈值，或者直到获取到第一预设匹配规则集合中与该自然段落相匹配的最后一个预设匹配规则的优先级；以及根据已经获取到的优先级的平均值计算该自然段落与第一预设匹配规则集合的匹配度。

进一步地，在一个自然段落匹配出对应的预设匹配规则集合之后，将多个预设匹配规则集合中的每个预设匹配规则集合依次与每个自然段落执行匹配处理包括：对于一个自然段落的下一个自然段落，将该一个自然段落所对应的预设匹配规则集合与下一个自然段落执行匹配处理，并检测是否匹配成功；如果检测出未匹配成功，则将下一个自然段落与多个预设匹配规则集合中的其他预设匹配规则集合依次执行匹配处理，直到匹配到一个预设匹配规则集合或者直到与其他预设匹配规则集合均执行了匹配但都未匹配成功。

进一步地，在获取待解析法律裁判文书的文本包括的多个自然段落之前，该方法还包括：检测待解析法律裁判文书的文本中是否包括预设标识，其中，预设标识为解析法律裁判文书的文本中与文本内容无关的标识；以及如果检测出待解析法律裁判文书的文本中包括预设标识，则清除预设标识。

根据本申请实施例的另一方面，还提供了一种法律裁判文书的解析装置，该装置包括：获取单元，用于获取待解析法律裁判文书的文本，其中，待解析法律裁判文书的文本包括多个自然段落；匹配执行单元，用于将每个自然段落依次与多个预设匹配规则集合执行匹配处理，得到每个自然段落对应的预设匹配规则集合，其中，每个预设匹配规则集合包括一个或多个预设匹配规则；划分单元，用于将对应相同的预设匹配规则集合的自然段落划分至同一个段落集合，得到至少一个段落集合；以及解析单元，用于分别对至少一个段落集合的文本内容进行解析。

进一步地，匹配执行单元包括：匹配执行模块，用于将多个预设匹配规则集合中的每个预设匹配规则集合依次与每个自然段落执行匹配处理；以及划分模块，用于将每个自然段落划分至第一个匹配出的预设匹配规则集合所对应的段落集合。

进一步地，匹配执行模块包括：获取子模块，用于依次获取自然段落与多个预设匹配规则集合的匹配度；以及确定子模块，用于将第一个获取到的匹配度达到预设匹配度阈值的预设匹配规则集合，作为该自然段落第一个匹配出的预设匹配规则集合。

在本申请实施例中，采用以下方法：获取待解析法律裁判文书的文本，其中，待解析法律裁判文书的文本包括多个自然段落；将每个自然段落依次与多个预设匹配规则集合执行匹配处理，得到每个自然段落对应的预设匹配规则集合，其中，每个预设匹配规则集合包括一个或多个预设匹配规则；将对应相同的预设匹配规则集合的自然段落划分至同一个段落集合，得到至少一个段落集合；以及分别对至少一个段落集合的文本内容进行解析，解决了相关技术中文本解析准确性较差的技术问题，进而通过将每个自然段落依次与多个预设匹配规则集合执行匹配处理，得到每个自然段落对应的预设匹配规则集合，将对应相同的预设匹配规则集合的自然段落划分至同一个段落集合，并分别对段落集合的文本内容进行解析，达到了提高文本解析准确性的技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请第一实施例的法律裁判文书的解析方法的流程图；

图2是根据本申请第二实施例的法律裁判文书的解析方法的流程图；以及

图3是根据本申请实施例的法律裁判文书的解析装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例，提供了一种文本解析方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请第一实施例的法律裁判文书的解析方法的流程图。如图1所示，该方法包括如下步骤：

步骤S102，获取待解析法律裁判文书的文本，其中，待解析法律裁判文书的文本包括多个自然段落。

步骤S104，将每个自然段落依次与多个预设匹配规则集合执行匹配处理，得到每个自然段落对应的预设匹配规则集合，其中，每个预设匹配规则集合包括一个或多个预设匹配规则。

在一个法律裁判文书中，每个自然段落均具备特定的文本信息意义，多个自然段中可能某些自然段落的文本信息意义偏向是相同的。自然段落的文本信息意义偏向是否相同，可以通过预先设定表征文本信息意义偏向的特征关键词或者其他规则来进行指定。例如，对于一个裁判文书，通常以“原告”开头的自然段落的文本信息意义偏向为描述原告的内容，因此，可以指定以“原告”开头的自然段落的文本信息意义偏向为原告内容段落。但是，对于很多法律裁判文书来说，各个自然段落虽然表述的方式不同(例如，特征关键词不同)，但是也可能文本信息意义偏向是相同的。例如，在裁判文书中，可能并不是每个描述原告情况的自然段落均以“原告”开头。因此，在将各个自然段落按照文本信息意义偏向进行划分时，采用将每个自然段落依次与多个预设匹配规则集合执行匹配处理的方式进行。

具体地，每个预设匹配规则集合包括一个或者多个预设匹配规则。每个预设匹配规则集合代表了一种文本信息意义偏向。例如，第一预设匹配规则集合中包括两个预设匹配规则，分别是：以“原告”开头，“原告”后包括多个字符，并且“原告”后的第一个字符不是换行符；以“上诉人”开头，“上诉人”后包括多个字符，并且“上诉人”后的第一个字符不是换行符。需要说明的是，根据待解析法律裁判文书的文本的类型以及用户需求，可以设置不同的预设匹配规则。并且，在必要的情况下，可以向预设匹配规则集合中添加新的匹配规则，以提高匹配的准确性。

步骤S106，将对应相同的预设匹配规则集合的自然段落划分至同一个段落集合，得到至少一个段落集合。

通过将每个自然段落依次与多个预设匹配规则集合执行匹配处理，可以获知与每个自然段落相匹配的预设匹配规则集合。其中，各个自然段落中可能有多个匹配到同一个预设匹配规则集合，匹配到同一预设匹配规则集合代表这些自然段落的文本信息意义偏向相同。将对应相同的预设匹配规则集合的自然段落划分至同一个段落集合，在后续的文本解析过程中，将同一个段落集合中的文本内容作为一个文本单元进行解析。由于一个段落集合中的文本内容具有同样的文本信息意义偏向，因此，在执行信息提取后获取到的多个目标信息将具有相关性；并且，将这些具有相关性的目标信息进行结构化封装，更加便于之后的信息统计或者信息检索等。

步骤S108，分别对至少一个段落集合的文本内容进行解析。

在该步骤中，将一个段落集合的文本内容作为一个文本单元进行解析。本申请不对文本解析的具体方式进行限定。例如，可以利用正则表达式提取文本中的相关信息，或者利用其它的解析引擎进行维度信息提取等。例如，可以通过解析引擎，解析出裁判文书中原告内容段落集合的以下维度信息：姓名、性别、民族、地址、公司、职位等。

根据该实施例，通过获取待解析法律裁判文书的文本，其中，待解析法律裁判文书的文本包括多个自然段落；将每个自然段落依次与多个预设匹配规则集合执行匹配处理，得到每个自然段落对应的预设匹配规则集合，其中，每个预设匹配规则集合包括一个或多个预设匹配规则；将对应相同的预设匹配规则集合的自然段落划分至同一个段落集合，得到至少一个段落集合；以及分别对至少一个段落集合的文本内容进行解析，解决了相关技术中法律裁判文书的解析准确性较差的技术问题，进而通过将每个自然段落依次与多个预设匹配规则集合执行匹配处理，得到每个自然段落对应的预设匹配规则集合，将对应相同的预设匹配规则集合的自然段落划分至同一个段落集合，并分别对段落集合的文本内容进行解析，也即对每个自然段落集合(对应待解析法律裁判文书的文本中具有特定意义偏向的文本内容)分别有针对性地进行解析，而非笼统地对全文内容进行整体解析，达到了提高法律裁判文书的解析准确性的技术效果。

为了提高匹配效率，优选地，将每个自然段落依次与多个预设匹配规则集合执行匹配处理，得到每个自然段落对应的预设匹配规则集合包括：将多个预设匹配规则集合中的每个预设匹配规则集合依次与每个自然段落执行匹配处理；以及将每个自然段落划分至第一个匹配出的预设匹配规则集合所对应的段落集合。

在该实施例中，预先为多个预设匹配规则集合设置匹配顺序。例如，可以按照预设匹配规则集合的重要程度设置匹配的优先级级别。例如，优先查找与原告内容相关的段落，则可以将原告内容段落集合对应的预设匹配规则集合首先与各个自然段落进行匹配。在匹配过程中，一旦检测到一个自然段落匹配到某预设匹配规则集合，则将该自然段落划分至该预设匹配规则集合对应的段落集合，后续不再对该自然段落执行匹配处理。该方法可以提高自然段落与预设匹配规则集合的匹配效率。

优选地，将多个预设匹配规则集合中的每个预设匹配规则集合依次与每个自然段落执行匹配处理包括：依次获取自然段落与多个预设匹配规则集合的匹配度；以及将第一个获取到的匹配度达到预设匹配度阈值的预设匹配规则集合，作为该自然段落第一个匹配出的预设匹配规则集合。

在该实施例中，在匹配的过程中，需要计算每个自然段落与预设匹配规则集合的匹配度。预先设定匹配度阈值，当计算出的自然段落与预设匹配规则集合的匹配度达到该预设匹配度阈值，则确定该自然段落与该预设匹配规则集合相匹配，并将该自然段落划分至该预设匹配规则集合对应的段落集合。需要说明的是，匹配度用于表征自然段落与预设匹配规则集合的匹配程度。由于预设匹配规则集合中包括多个预设匹配规则，可以预先为每个预设匹配规则设定匹配度值，其中，根据预设匹配规则的重要程度的不同，可以为多个预设匹配规则设定不同的匹配度值。预设匹配度阈值可以是经过多次匹配试验得到的经验值。

优选地，依次获取自然段落与多个预设匹配规则集合的匹配度包括：依次确定每个预设匹配规则集合中包括的与自然段落相匹配的预设匹配规则；以及根据与该自然段落相匹配的预设匹配规则的优先级获取该自然段落与每个预设匹配规则集合的匹配度。

由于在每个预设匹配规则集合中可能包括多个预设匹配规则，因此，可以预先为多个预设匹配规则设定匹配的优先级别，其中，可以根据每个预设匹配规则的重要程度设定优先级别。优先级别最高的预设匹配规则可以是历史匹配过程中，匹配概率最大的预设匹配规则，也即，适用性最好的预设匹配规则。例如，在100次历史匹配过程中，有90次匹配到第一预设匹配规则，则可以认为第一预设匹配规则的适用性最好。在获取自然段落与预设匹配规则集合的匹配度时，首先确定该自然段落与预设匹配规则集合中相匹配的预设匹配规则，然后根据相匹配的预设匹配规则优先级来计算该自然段落与预设匹配规则集合的匹配度。

优选地，多个预设匹配规则集合包括第一预设匹配规则集合，依次确定每个预设匹配规则集合中包括的与自然段落相匹配的预设匹配规则包括：按照预设匹配规则的优先级由大到小的次序，依次检测第一预设匹配规则集合中的预设匹配规则是否与自然段落相匹配，其中，每检测到第一预设匹配规则集合中的一个预设匹配规则与该自然段落相匹配，则记录该预设匹配规则的优先级，根据与自然段落相匹配的预设匹配规则的优先级获取该自然段落与每个预设匹配规则集合的匹配度包括：依次获取第一预设匹配规则集合中与该自然段落相匹配的预设匹配规则的优先级，并计算已经获取到的优先级的平均值，直到优先级的平均值达到预设匹配度阈值，或者直到获取到第一预设匹配规则集合中与该自然段落相匹配的最后一个预设匹配规则的优先级；以及根据已经获取到的优先级的平均值计算该自然段落与第一预设匹配规则集合的匹配度。

在该实施例中，第一预设匹配规则集合为多个预设匹配规则集合中的任意一个预设匹配规则集合。预先为预设匹配规则集合中的每个预设匹配规则设定优先级，例如，重要程度越高的预设匹配规则，优先级越高。按照预设匹配规则的优先级由大到小的次序，依次检测一个自然段落与一个预设匹配规则集合中的每个预设匹配规则的匹配程度。在检测到该自然段落与某个预设匹配规则相匹配时，获取该预设匹配规则的优先级，并检测该优先级是否达到预设匹配度阈值。如果检测出未达到预设匹配度阈值，则继续检测后一个预设匹配规则，如果检测到新的与该自然段落相匹配的预设匹配规则，则获取该新的预设匹配规则的优先级，并计算与之前已获知的优先级的平均值，判断平均值是否超过预设匹配度阈值。如果超过，则确定该自然段落与该预设匹配规则集合相匹配，并且不再执行与后续预设匹配规则的匹配。如果判断出平均值仍未超过预设匹配度阈值，则继续与后续预设匹配规则执行匹配处理，直到优先级的平均值达到预设匹配度阈值，或者直到检测到该预设匹配规则集合中的最后一个预设匹配规则。如果最后一个预设匹配规则与该自然段落相匹配，则仍需要计算优先级的平均值；如果最后一个预设匹配规则与该自然段落不匹配，则将该自然段落与下一个预设匹配规则集合执行匹配处理。通过该实施例，可以有效提高匹配执行效率。

为了提高匹配的执行效率，优选地，在一个自然段落匹配出对应的预设匹配规则集合之后，将多个预设匹配规则集合中的每个预设匹配规则集合依次与每个自然段落执行匹配处理包括：对于一个自然段落的下一个自然段落，将该一个自然段落所对应的预设匹配规则集合与下一个自然段落执行匹配处理，并检测是否匹配成功；如果检测出未匹配成功，则将下一个自然段落与多个预设匹配规则集合中的其他预设匹配规则集合依次执行匹配处理，直到匹配到一个预设匹配规则集合或者直到与其他预设匹配规则集合均执行了匹配但都未匹配成功。

对于法律裁判文书，由于各个自然段落的前后逻辑性较强，因此前后两个自然段落有很高的概率在记述相关联的内容，通过将适用当前自然段落的预设匹配规则集合优先与下一自然段落匹配，匹配成功的可能性较高，如此遍历各个自然段落，能够提高处理效率。例如，多个预设匹配规则集合包括第1个预设规则集合和第2个预设规则集合，第1自然段落匹配到第2个预设规则集合，则在对第2自然段落进行匹配时，不是先与第1个预设规则集合执行匹配，而是优先与第2个预设规则集合执行匹配。

对于当前自然段落的下一自然段落的匹配过程，可包括：令当前段落对应的预设匹配规则集合与下一自然段落执行匹配处理，如果不匹配，则顺次使用下一个预设匹配规则集合进行匹配处理，直至匹配到预设匹配规则集合或与全部预设匹配规则集合均不匹配。其中，匹配的顺序可以以当前自然段落对应的预设匹配规则集合为第一个用于与下一自然段落执行匹配的预设匹配规则集合，然后顺次遍历，如果直到到达最后一个匹配规则集合还未实现匹配，则从多个预设匹配规则集合中的第一个匹配规则集合开始直到第一个用于与下一自然段落执行匹配的预设匹配规则集合的前一预设匹配规则集合，依次执行匹配。或者，在当前段落对应的预设匹配规则集合与下一自然段落不匹配的情况下，从多个预设匹配规则集合中的第一个预设匹配规则集合开始，跳过与当前段落对应的预设匹配规则集合，依次与各个预设匹配规则集合执行匹配，直到匹配到一个预设匹配规则集合或者直到匹配完各个预设匹配规则集合但都未匹配成功为止。

例如，当前自然段落为第二自然段落，与其匹配成功的预设匹配规则集合为10个预设匹配规则集合中的第3个预设匹配规则集合。则在对第三自然段落执行匹配时，可以先与第3个预设匹配规则集合执行匹配，如果匹配成功，则将第三自然段落划分至第3个预设匹配规则集合所对应的段落集合。如果未匹配成功，则将第三自然段落依次与第4至第10、第1至第2预设匹配规则集合执行匹配，直到匹配到一个预设匹配规则集合或者直到与各个预设匹配规则集合执行过匹配处理但都未匹配成功为止。

或者，如果未匹配成功，则将第三自然段落依次与第1至第2、第4至第10预设匹配规则集合执行匹配，直到匹配到一个预设匹配规则集合或者直到与各个预设匹配规则集合执行过匹配处理但都未匹配成功为止。

优选地，在获取待解析法律裁判文书的文本包括的多个自然段落之前，该方法还包括：检测待解析法律裁判文书的文本中是否包括预设标识，其中，预设标识为解析法律裁判文书的文本中与文本内容无关的标识；以及如果检测出待解析法律裁判文书的文本中包括预设标识，则清除预设标识。

在该实施例中，预设标识为待解析法律裁判文书的文本中所包含的与用户要获取到的解析结果无关的标识。该预设标识可以由文本解析者预先指定，对于不同的待解析法律裁判文书的文本类型可以指定不同的预设标识。例如，法院发布到网站上之后，可能会附加一些与原来的裁判文书无关的标识信息(可能由该网站所添加，比如为该网站的网址)，因此，可以将这些与原来的裁判文书无关的标识信息指定为预设标识，在文本解析之前，清除这些与原来的裁判文书无关的标识信息，以提高后续文本解析的效率。

图2是根据本申请第二实施例的法律裁判文书的解析方法的流程图。该实施例可以作为图1所示实施例的一种优选实施方式。如图2所示，该方法包括如下的步骤：

步骤S202，对法律裁判文书进行预处理。

去除法律裁判文书的各种无效标记，将裁判文书内容文本分成自然段落。图1所示实施例中的预设标识同于该无效标记，这里不再赘述。

步骤S204，依次获取文书的n个自然段落，当前获取到第i个自然段落。

步骤S206，判断i是否超过n。

步骤S208，如果判断出i未超过n，则令第i个自然段落依次匹配m个预设匹配规则集合，当前为第j个预设匹配规则集合。

每个预设匹配规则集合中包括一个或者多个预设匹配规则。满足预设匹配规则的文本将被单独提炼出来。

步骤S210，判断j是否超过m。

步骤S212，如果判断出j未超过m，则获取第i个自然段落对第j个预设匹配规则集合的匹配度。

预设匹配规则集合中包括的预设匹配规则可以按照优先级排列成规则链表结构，也即规则链表结构中每个节点即是一个预设匹配规则，规则链表结构中的节点按照优先级顺序依次进行匹配。

在第i个自然段落对对第j个预设匹配规则集合执行匹配时，优先与第j个预设匹配规则集合中优先级别高的预设匹配规则进行匹配(优先级别越高，代表该预设匹配规则越重要)。一个自然段落如果匹配了优先级高的预设匹配规则，那么该自然段对整个预设匹配规则集合的匹配度将会大幅提高。

匹配度为文书中某个自然段落与预设匹配规则集合的匹配程度，可表示为0至100的整数。匹配度越大代表该自然段落与该预设匹配规则集合越匹配，也即该自然段落的文本信息意义偏向与该预设匹配规则集合对应的段落集合的文本信息意义偏向越接近。

步骤S214，判断该匹配度是否超过预设匹配度阈值。

步骤S216，如果判断出该匹配度超过了预设匹配度阈值，则将第i个自然段落添加至当前预设匹配规则集合(第j个预设匹配规则集合)对应的段落集合，并令i加1，判断当前的i是否超过n(步骤S206)。

如果判断出该匹配度未超过预设匹配度阈值，则令j加1，继续令第i个自然段落匹与下一个预设匹配规则集合(第j+1个预设匹配规则集合)执行匹配，判断匹配度与预设匹配度阈值的大小关系。

步骤S218，如果判断出j超过了m，则将第i个自然段落添加至第i-1个自然段落所在的段落集合。

步骤S220，如果判断出i超过了n，则分别对每个段落集合的文本内容进行解析。

具体地，法律裁判文书中每种文本信息意义偏向的内容段的匹配规则由一个预设匹配规则集合(或者称为一条规则链表)组成，预设匹配规则集合中的每个预设匹配规则分配了相应的匹配度。预设匹配规则集合中每个预设匹配规则的匹配顺序可以根据规则的优先级进行设定。每个预设匹配规则集合匹配完成后跳出的阈值PjThreshold可设置为0至100的整数，匹配度Pijk<PjThreshold为第i个自然段不匹配该预设匹配规则集合(第j个预设匹配规则集合)，匹配度Pijk>＝PjThreshold为第i个自然段匹配该预设匹配规则集合。其中，根据用户需求，可对每个预设匹配规则集合中的预设匹配规则进行添加、删除或者修改。

其中,预设匹配规则可以由法律裁判文书特征关键词和预设的段落匹配表达式组成。预设的段落匹配表达式可以是正则表达式。裁判文书根据文本信息意义偏向，可以分为原告内容段落集合、被告内容段落集合、案由内容段落集合、证据内容段落集合、判决结果内容段落集合、审判信息内容段落集合，诉讼费用内容段落集合等。每个自然段对预设匹配规则集合的匹配程度可以通过以下方法进行计算:

假设第i个自然段匹配第一预设匹配规则集合中的A、B、C三个预设匹配规则，Pa、Pb、Pc分别为A、B、C的优先级(可在计算程序中设定代表预设匹配规则的级别)。则第i个自然段对于该预设匹配规则集合的匹配度为P＝(Pa+Pb+Pc)/3。

另外，由于通常情况下，对于法律裁判文书来说，该自然段落很大几率上是对前一个或者多个自然段落的陈述表述，并不包含裁判文书的特征关键词。因此，当第i个自然段落与所有预设匹配规则集合均不相匹配时，可将该自然段落添加到前一个自然段落所在的段落集合中。该实施例可以确保裁判文书信息完整(尽可能不丢失信息)。

在分别对每个段落集合的文本内容进行解析时，可以利用解析引擎对每个段落集合进行维度信息的提取。例如，可根据裁判文书的特征关键词，利用解析引擎建立维度提取规则，从而得到原告内容段落集合的维度信息，包括:姓名、性别、民族、地址、公司、职位等。

根据该实施例的法律裁判文书的解析方法，在不影响匹配准确性的同时，降低了段落集合匹配规则的复杂度，提高了匹配规则的健壮性和可维护性。在该实施例中，建立了一个预设匹配规则集合，以及优先级、匹配度和预设匹配度阈值的概念，使段落集合的匹配规则可以动态增加与删减，使针对不同文书可以方便地进行规则的扩展或者删减，而不至于影响原来的规则，从而提高了程序中规则的易用性和可维护性。并且该方法降低了匹配规则修改前与修改后的耦合性，间接提高了分段匹配的准确性。另外，对于所有预设匹配规则集合都无法匹配的自然段落，按照法律裁判文书的格式内容特点，将其也作为陈述段加入到段落集合中，保证了分段方法的完整性。该实施例建立了法律裁判文书的自然段落的匹配规则与信息提取规则，实现了对法律裁判文书的快速解析，提高了法律裁判文书解析的准确性。

下面根据本申请的实施例，提供了一种法律裁判文书的解析装置。

需要说明的是，根据本申请实施例的法律裁判文书的解析装置可以用于执行根据本申请实施例的法律裁判文书的解析方法，根据本申请实施例的法律裁判文书的解析方法也可以通过根据本申请实施例的法律裁判文书的解析装置来执行。

图3是根据本申请实施例的法律裁判文书的解析装置的示意图。如图3所示，该装置包括：获取单元20、匹配执行单元40、划分单元60和解析单元80。

获取单元20，用于获取待解析法律裁判文书的文本，其中，待解析法律裁判文书的文本包括多个自然段落。

匹配执行单元40，用于将每个自然段落依次与多个预设匹配规则集合执行匹配处理，得到每个自然段落对应的预设匹配规则集合，其中，每个预设匹配规则集合包括一个或多个预设匹配规则。

划分单元60，用于将对应相同的预设匹配规则集合的自然段落划分至同一个段落集合，得到至少一个段落集合。

解析单元80，用于分别对至少一个段落集合的文本内容进行解析。

根据该实施例的文本解析装置，通过获取单元20获取待解析法律裁判文书的文本，其中，待解析法律裁判文书的文本包括多个自然段落；匹配执行单元40将每个自然段落依次与多个预设匹配规则集合执行匹配处理，得到每个自然段落对应的预设匹配规则集合，其中，每个预设匹配规则集合包括一个或多个预设匹配规则；划分单元60将对应相同的预设匹配规则集合的自然段落划分至同一个段落集合，得到至少一个段落集合；以及解析单元80分别对至少一个段落集合的文本内容进行解析，解决了相关技术中法律裁判文书的解析准确性较差的技术问题，达到了提高法律裁判文书的解析准确性的技术效果。

优选地，匹配执行单元40包括：匹配执行模块，用于将多个预设匹配规则集合中的每个预设匹配规则集合依次与每个自然段落执行匹配处理；以及划分模块，用于将每个自然段落划分至第一个匹配出的预设匹配规则集合所对应的段落集合。

优选地，匹配执行模块包括：获取子模块，用于依次获取自然段落与多个预设匹配规则集合的匹配度；以及确定子模块，用于将第一个获取到的匹配度达到预设匹配度阈值的预设匹配规则集合，作为该自然段落第一个匹配出的预设匹配规则集合。

该法律裁判文书的解析装置包括处理器和存储器，上述获取单元、匹配执行单元、划分单元和解析单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来完成对法律裁判文书的分段解析。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：获取待解析法律裁判文书的文本，其中，待解析法律裁判文书的文本包括多个自然段落；将每个自然段落依次与多个预设匹配规则集合执行匹配处理，得到每个自然段落对应的预设匹配规则集合，其中，每个预设匹配规则集合包括一个或多个预设匹配规则；将对应相同的预设匹配规则集合的自然段落划分至同一个段落集合，得到至少一个段落集合；以及分别对该至少一个段落集合的文本内容进行解析。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种法律裁判文书的解析方法，其特征在于，包括：

获取待解析法律裁判文书的文本，其中，所述待解析法律裁判文书的文本包括多个自然段落；

将每个自然段落依次与多个预设匹配规则集合执行匹配处理，得到每个自然段落对应的预设匹配规则集合，其中，每个预设匹配规则集合包括一个或多个预设匹配规则；

将对应相同的预设匹配规则集合的自然段落划分至同一个段落集合，得到至少一个段落集合；以及

分别对所述至少一个段落集合的文本内容进行解析。

2.根据权利要求1所述的方法，其特征在于，将每个自然段落依次与多个预设匹配规则集合执行匹配处理，得到每个自然段落对应的预设匹配规则集合包括：

将所述多个预设匹配规则集合中的每个预设匹配规则集合依次与所述每个自然段落执行匹配处理；以及

将所述每个自然段落划分至第一个匹配出的预设匹配规则集合所对应的段落集合。

3.根据权利要求2所述的方法，其特征在于，将所述多个预设匹配规则集合中的每个预设匹配规则集合依次与所述每个自然段落执行匹配处理包括：

依次获取所述自然段落与所述多个预设匹配规则集合的匹配度；以及

将第一个获取到的匹配度达到预设匹配度阈值的预设匹配规则集合，作为所述自然段落第一个匹配出的预设匹配规则集合。

4.根据权利要求3所述的方法，其特征在于，依次获取所述自然段落与所述多个预设匹配规则集合的匹配度包括：

依次确定每个预设匹配规则集合中包括的与所述自然段落相匹配的预设匹配规则；以及

根据与所述自然段落相匹配的预设匹配规则的优先级获取所述自然段落与所述每个预设匹配规则集合的匹配度。

5.根据权利要求4所述的方法，其特征在于，所述多个预设匹配规则集合包括第一预设匹配规则集合，

依次确定每个预设匹配规则集合中包括的与所述自然段落相匹配的预设匹配规则包括：

按照预设匹配规则的优先级由大到小的次序，依次检测所述第一预设匹配规则集合中的预设匹配规则是否与所述自然段落相匹配，其中，每检测到所述第一预设匹配规则集合中的一个预设匹配规则与所述自然段落相匹配，则记录该预设匹配规则的优先级，

根据与所述自然段落相匹配的预设匹配规则的优先级获取所述自然段落与所述每个预设匹配规则集合的匹配度包括：

依次获取所述第一预设匹配规则集合中与所述自然段落相匹配的预设匹配规则的优先级，并计算已经获取到的优先级的平均值，直到所述优先级的平均值达到所述预设匹配度阈值，或者直到获取到所述第一预设匹配规则集合中与所述自然段落相匹配的最后一个预设匹配规则的优先级；以及根据所述已经获取到的优先级的平均值计算所述自然段落与所述第一预设匹配规则集合的匹配度。

6.根据权利要求2所述的方法，其特征在于，在一个自然段落匹配出对应的预设匹配规则集合之后，将所述多个预设匹配规则集合中的每个预设匹配规则集合依次与所述每个自然段落执行匹配处理包括：

对于所述一个自然段落的下一个自然段落，将所述一个自然段落所对应的所述预设匹配规则集合与所述下一个自然段落执行匹配处理，并检测是否匹配成功；

如果检测出未匹配成功，则将所述下一个自然段落与所述多个预设匹配规则集合中的其他预设匹配规则集合依次执行匹配处理，直到匹配到一个预设匹配规则集合或者直到与所述其他预设匹配规则集合均执行了匹配但都未匹配成功。

7.根据权利要求1所述的方法，其特征在于，在获取待解析法律裁判文书的文本包括的多个自然段落之前，所述方法还包括：

检测所述待解析法律裁判文书的文本中是否包括预设标识，其中，所述预设标识为所述解析法律裁判文书的文本中与所述文本内容无关的标识；以及

如果检测出所述待解析法律裁判文书的文本中包括所述预设标识，则清除所述预设标识。

8.一种法律裁判文书的解析装置，其特征在于，包括：

获取单元，用于获取待解析法律裁判文书的文本，其中，所述待解析法律裁判文书的文本包括多个自然段落；

匹配执行单元，用于将每个自然段落依次与多个预设匹配规则集合执行匹配处理，得到每个自然段落对应的预设匹配规则集合，其中，每个预设匹配规则集合包括一个或多个预设匹配规则；

划分单元，用于将对应相同的预设匹配规则集合的自然段落划分至同一个段落集合，得到至少一个段落集合；以及

解析单元，用于分别对所述至少一个段落集合的文本内容进行解析。

9.根据权利要求8所述的装置，其特征在于，所述匹配执行单元包括：

匹配执行模块，用于将所述多个预设匹配规则集合中的每个预设匹配规则集合依次与所述每个自然段落执行匹配处理；以及

划分模块，用于将所述每个自然段落划分至第一个匹配出的预设匹配规则集合所对应的段落集合。

10.根据权利要求9所述的装置，其特征在于，所述匹配执行模块包括：

获取子模块，用于依次获取所述自然段落与所述多个预设匹配规则集合的匹配度；以及

确定子模块，用于将第一个获取到的匹配度达到预设匹配度阈值的预设匹配规则集合，作为所述自然段落第一个匹配出的预设匹配规则集合。