CN109033249B

CN109033249B - 公检法领域结构化文书的信息提取方法、装置及存储介质

Info

Publication number: CN109033249B
Application number: CN201810732199.5A
Authority: CN
Inventors: 张冬梅; 范鑫; 晋耀红
Original assignee: Dingfu Intelligent Technology Co Ltd
Current assignee: China Science and Technology (Beijing) Co., Ltd.
Priority date: 2018-07-05
Filing date: 2018-07-05
Publication date: 2021-06-18
Anticipated expiration: 2038-07-05
Also published as: CN109033249A

Abstract

本发明实施例公开一种公检法领域结构化文书的信息提取方法，包括：利用第一规则从待处理的公检法领域结构化文书中切分出至少两个信息区块，所述第一规则为用于确定信息区块的起止位置的规则，切分出的每个所述信息区块包含一个法律主体的属性信息；利用第二规则分别从每个信息区块中提取出与所述信息区块对应的信息集合，所述第二规则为用于识别法律主体的属性信息的规则，所述信息集合包括至少一条属性信息；按照信息区块中的法律主体，对应存储从所述信息区块中提取出的信息集合。采用上述技术方案中的提取方法，可以避免从公检法领域结构化文书中抽取出的多个法律主体的属性信息发生混淆，提高了提取出的信息的准确率。

Description

公检法领域结构化文书的信息提取方法、装置及存储介质

技术领域

本发明涉及文本挖掘技术领域，具体涉及一种公检法领域结构化文书的信息提取方法。此外，本申请还涉及一种公检法领域结构化文书的信息提取装置，以及一种计算机可读存储介质。

背景技术

公检法领域结构化文书是指公安机关、检察院、法院这三个政法机关在办理案件时所使用的具有特定结构或统一格式的文书。例如公安机关制作的《提请批准逮捕书》、《询问笔录》、《起诉意见书》等侦查文书，检察院制作的《立案决定书》、《起诉书》等检察文书，以及法院制作的《民事制裁决定书》、《刑事判决书》等裁判文书。

这些公检法领域结构化文书中包括了许多重要的关键信息，例如《提请批准逮捕书》中的犯罪嫌疑人基本信息、《起诉书》中的被告人基本情况、犯罪事实等。为了便于查阅，使阅读者可以快速地从这些文书中获取到这些关键信息，提高审批等办事效率，可以从公检法领域结构化文书中提取出关键信息。

然而，在实现本发明的过程中，发明人发现现有技术中至少存在以下问题：当一件公检法领域结构化文书中具有多个类似的关键信息时，这些关键信息在提取时有可能会发生混淆，进而导致提取出的信息出错。例如，当一个刑事犯罪案件中包含多个犯罪嫌疑人时，可以将多个犯罪嫌疑人放在一份《提请批准逮捕书》中来陈述犯罪嫌疑人的基本信息。面对这样的文书，若采用现有的提取方法直接从文书中提取出犯罪嫌疑人的基本信息，则会导致提取出的多个犯罪嫌疑人的基本信息混淆，即提取出的信息准确率较低。

发明内容

为了解决上述技术问题，本申请提供一种公检法领域结构化文书的信息提取方法，以解决从公检法领域结构化文书中提取出的信息容易混淆、准确率低的问题。

第一方面，提供一种公检法领域结构化文书的信息提取方法，包括：

利用第一规则从待处理的公检法领域结构化文书中切分出至少两个信息区块，所述第一规则为用于确定信息区块的起止位置的规则，切分出的每个所述信息区块包含一个法律主体的属性信息；

利用第二规则分别从每个信息区块中提取出与所述信息区块对应的信息集合，所述第二规则为用于识别法律主体的属性信息的规则，所述信息集合包括至少一条属性信息；

按照信息区块中的法律主体，对应存储从所述信息区块中提取出的信息集合。

结合第一方面，在第一方面第一种可能的实现方式中，所述第一规则包括第一类定位表达式和第二类定位表达式，所述第一类定位表达式用于确定信息区块的开始位置，所述第二类定位表达式用于确定信息区块的结束位置；

所述利用第一规则从待处理的公检法领域结构化文书中切分出至少两个信息区块的步骤，包括：

将第一类定位表达式与待处理的公检法领域结构化文书匹配，识别出至少两个开始位置；

将第二类定位表达式与待处理的公检法领域结构化文书匹配，识别出至少两个结束位置；

将位于一个开始位置之后并且与之距离最近的结束位置，与所述开始位置配对；

切分出信息区块，所述信息区块为配对的开始位置和结束位置之间的文本。

结合第一方面的第一种实现方式，在第一方面第二种可能的实现方式中，所述第二规则包括与法律主体的属性对应的要素表达式；

利用第二规则分别从每个信息区块中提取出与所述信息区块对应的信息集合的步骤，包括：

将第i个属性对应的要素表达式与第k个信息区块匹配，抽取出与要素表达式匹配的第一字符串；其中，i＝1,2,……N-1，N，k＝1,2,……M-1，M；N表示法律主体的属性的总数量；M表示切分出的信息区块的总数量；

将抽取出的第一字符串确定为第k个信息区块中的法律主体的第i个属性的属性信息。

结合第一方面及上述可能的实现方式，在第一方面第三种可能的实现方式中，将第i个属性对应的要素表达式与第k个信息区块匹配，抽取出与要素表达式匹配的第一字符串的步骤，包括：

利用第i个属性对应的要素表达式中的前缀规则和后缀规则，从第k个信息区块中确定抽取区域；

从抽取区域中抽取出第一字符串，所述第一字符串为与第i个属性对应的要素表达式中的抽取规则匹配的字符串。

结合第一方面及上述可能的实现方式，在第一方面第四种可能的实现方式中，该方法还包括：

利用第三规则从所述待处理的公检法领域结构化文书中切分出至少一个说明区块，所述第三规则为用于确定说明区块的起止位置的规则，切分出的每个说明区块包含至少一个案件要素；

从每个说明区块中分别提取出与说明区块对应的至少一个案件要素；

如果一个说明区块包含信息区块中的至少一个法律主体，则将案件集合分别与所述至少一个法律主体关联存储；其中，所述案件集合包括从所述说明区块中提取出的至少一个案件要素。

第二方面，提供一种公检法领域结构化文书的信息提取装置，包括：

第一处理单元，用于利用第一规则从待处理的公检法领域结构化文书中切分出至少两个信息区块；以及，利用第二规则分别从每个信息区块中提取出与所述信息区块对应的信息集合；其中，所述第一规则为用于确定信息区块的起止位置的规则，切分出的每个所述信息区块包含一个法律主体的属性信息，所述第二规则为用于识别法律主体的属性信息的规则，所述信息集合包括至少一条属性信息；

存储单元，用于按照信息区块中的法律主体，对应存储从所述信息区块中提取出的信息集合。

结合第二方面，在第二方面第一种可能的实现方式中，所述第一规则包括第一类定位表达式和第二类定位表达式，所述第一类定位表达式用于确定信息区块的开始位置，所述第二类定位表达式用于确定信息区块的结束位置；

所述第一处理单元包括：

切分模块，用于将第一类定位表达式与待处理的公检法领域结构化文书匹配，识别出至少两个开始位置；将第二类定位表达式与待处理的公检法领域结构化文书匹配，识别出至少两个结束位置；将位于一个开始位置之后并且与之距离最近的结束位置，与所述开始位置配对；以及，切分出信息区块，所述信息区块为配对的开始位置和结束位置之间的文本。

结合第二方面的第一种实现方式，在第二方面第二种可能的实现方式中，所述第二规则包括与法律主体的属性对应的要素表达式；

所述第一处理单元包括：

抽取模块，用于将第i个属性对应的要素表达式与第k个信息区块匹配，抽取出与要素表达式匹配的第一字符串；以及，将抽取出的第一字符串确定为第k个信息区块中的法律主体的第i个属性的属性信息；其中，i＝1,2,……N-1，N，k＝1,2,……M-1，M；N表示法律主体的属性的总数量；M表示切分出的信息区块的总数量。

结合第二方面及上述可能的实现方式，在第二方面第三种可能的实现方式中，该装置还包括：

第二处理单元，用于利用第三规则从所述待处理的公检法领域结构化文书中切分出至少一个说明区块；从每个说明区块中分别提取出与说明区块对应的至少一个案件要素；以及，在一个说明区块包含信息区块中的至少一个法律主体的情况下，将案件集合分别与所述至少一个法律主体关联存储；其中，所述第三规则为用于确定说明区块的起止位置的规则，切分出的每个说明区块包含至少一个案件要素，所述案件集合包括从所述说明区块中提取出的至少一个案件要素。

第三方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行第一方面的任一项所述的方法。

上述的提取方法、装置及存储介质应用于公检法领域结构化文书，首先利用第一规则从结构化文书中切分出至少两个信息区块，使得切分出的每个信息区块都包含一个法律主体的一条或多条属性信息，即该信息区块中的属性信息所描述的法律主体是同一个。然后再分别从每个信息区块中提取出信息集合，信息集合中包括至少一条属性信息。按照不同的法律主体，对应存储提取出的信息集合。通过上述方法，不同的法律主体的属性信息在提取和存储时都与信息区块具有对应关系，使提取得到的各个法律主体的属性信息与法律主体对应起来，从而不容易发生混淆，提高了提取出的信息的准确率。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请公检法领域结构化文书的信息提取方法的第一个实施例的流程图；

图2为本申请信息提取方法的第一个实施例中，步骤S100的其中一种实现方式的流程图；

图3为本申请信息提取方法的第一个实施例中，一种示例文书的局部示意图；

图4为本申请信息提取方法的第一个实施例中，从示例文书中所切分出的信息区块的示意图；

图5为本申请信息提取方法的第一个实施例中，步骤S200的其中一种实现方式的流程图；

图6为本申请信息提取方法的第一个实施例中，步骤S210的其中一种实现方式的流程图；

图7为本申请信息提取方法的第一个实施例中，从示例文书的信息区块1中提取到的属性信息的示意图；

图8为本申请信息提取方法的第一个实施例中，从示例文书的信息区块2中提取到的属性信息的示意图；

图9为本申请公检法领域结构化文书的信息提取方法的第二个实施例的流程图；

图10为本申请公检法领域结构化文书的信息提取装置的具体实施方式之一的结构示意图。

具体实施方式

下面对本申请的实施例作详细说明。

公检法领域结构化文书往往具有特定的结构或统一格式。例如，对于侦查文书中的《提请批准逮捕书》，其首部除了需要写明制作文书的机关、文书的名称、文号等以外，往往还会写明犯罪嫌疑人的基本信息和犯罪经历；正文部分则描述公安机关认定的犯罪事实和法律依据。又例如，对于检察院制作的《立案决定书》存根联，其首部包括制作文书的人民检察院的名称、文书的名称、文号等；正文部分则包括犯罪嫌疑人涉嫌的罪名，犯罪嫌疑人的基本情况等。在公检法领域中，虽然不同的具体文书中的格式会存在一些区别，但是，总的来说，一旦遇上一个文书中包括多个法律主体(例如个人)的情况，如果采用现有的常规方法来提取，很有可能会导致提取出的多个法律主体的信息(例如姓名、年龄、性别、身份证号等)相互混淆。

为此，本申请提出一种新的应用于公检法领域的结构化文书的信息提取方法，以便对公检法领域结构化文书进行智能解析，以准确地挖掘出重要的关键信息，避免多个法律主体的信息混淆的问题。

具体地，请参考图1，在本发明的第一个实施例中，提供一种公检法领域结构化文书的信息提取方法，包括以下S100至S300的步骤。

S100：利用第一规则从待处理的公检法领域结构化文书中切分出至少两个信息区块。

在本申请中，法律主体是指活跃在法律之中，享有权利、负有义务和承担责任的自然人、法人或非法人单位。在公检法领域结构化文书中，至少包含一个法律主体，这个法律主体可以是犯罪嫌疑人、原告、被告等。其中，犯罪嫌疑人往往是自然人，而原告、被告则可以是自然人，也可以是法人或非法人单位。

在本申请中，第一规则为用于确定信息区块的起止位置的规则。利用该规则，可以从待处理的公检法领域结构化文书中切分出两个或两个以上的信息区块，切分出的每一个信息区块都包含了一个法律主体的属性信息。如果法律主体为自然人，则法律主体的属性信息可以是自然人的姓名、性别、年龄、出生日期、身份证号码、民族、籍贯、户籍所在地、文化程度、工作单位、家庭住址、是否人大代表/政协委员等信息。如果法律主体为法人，则法律主体的属性信息可以是法人的名称、统一信用代码、法人代表、注册地址等信息。如果法律主体为非法人单位，则法律主体的属性信息可以是非法人单位的单位名称、地址、负责人等信息。

更具体地，第一规则可以包括第一类定位表达式和第二类定位表达式，所述第一类定位表达式用于确定信息区块的开始位置，所述第二类定位表达式用于确定信息区块的结束位置。

在这种情况下，请参考图2，S100的步骤可以包括：

S110：将第一类定位表达式与待处理的公检法领域结构化文书匹配，识别出至少两个开始位置；

S120：将第二类定位表达式与待处理的公检法领域结构化文书匹配，识别出至少两个结束位置；

S130：将位于一个开始位置之后并且与之距离最近的结束位置，与所述开始位置配对；

S140：切分出信息区块，所述信息区块为配对的开始位置和结束位置之间的文本。

第一类定位表达式可以包括至少一个开始表达式，在S110的步骤中，将第一类定位表达式中的所有开始表达式都与待处理的公检法领域结构化文书进行匹配，任一个开始表达式能够与该结构化文书匹配上，就将匹配的位置识别为一个开始位置。

第二类定位表达式可以包括至少一个结束表达式，在S120的步骤中，将第二类定位表达式中的所有结束表达式都与待处理的公检法领域结构化文书进行匹配，任一个结束表达式能够与该结构化文书匹配上，就将匹配的位置识别为一个结束位置。

开始表达式和结束表达式可以根据公检法领域结构化文书的不同来具体设置，规则构建人员可以对待处理的公检法领域结构化文书进行统计概括，总结提炼出用于确定开始位置的至少一个开始表达式，以及确定结束位置的至少一个结束表达式。例如，以下表1示出了一个第一规则的其中一部分的结构和具体内容，该第一规则可以应用于处理《提请批准逮捕书》等文书。

表1第一规则部分示例

上述表1中，开始表达式和结束表达式都包括了前缀规则、定位规则和后缀规则三个部分，三者之间用“@”来分隔。第一个“@”之前为前缀规则，第二个“@”之后为后缀规则，二者之间为定位规则。

在开始表达式与公检法领域结构化文书进行匹配的时候，如果该文书中的某一个字符串(可以称为第二字符串)与定位规则匹配，并且第二字符串之前的字符串与前缀规则匹配，第二字符串之后的字符串与后缀规则匹配，则认为该第二字符串与该开始表达式匹配，将该第二字符串的位置识别为一个开始位置。当开始表达式中第一个“@”之前为空，则表示前缀规则为空；当第二个“@”之后为空，则表示后缀规则为空。此时，如果公检法领域结构化文书中的第二字符串与定位规则匹配，就可以认为该第二字符串与该开始表达式匹配。例如，表1中的开始表达式1的前缀规则和后缀规则都为空，定位规则为“\n犯罪嫌疑人”，表示如果第二字符串为“犯罪嫌疑人”，并且“犯罪嫌疑人”为段首，则该第二字符串与该定位规则能够匹配上。结束表达式与公检法领域结构化文书进行匹配的情况与此类似。

请参考图3所示的《提请批准逮捕书》局部，提请批准逮捕书是公安机关有证据证明有犯罪事实且有逮捕必要的犯罪嫌疑人，提请同级人民检察院批准逮捕时制作的文书。利用开始表达式1与该《提请批准逮捕书》匹配，可以识别出3个开始位置。利用结束表达式1与该《提请批准逮捕书》匹配，可以识别出2个结束位置。

在S130以及S140的步骤中，遍历每一个识别出的开始位置，对于当前的开始位置而言，将位于该开始位置之后并且与该开始位置距离最近的结束位置，与该开始位置配对。例如，如图3中的开始位置1，其之后距离最近的是结束位置1，则将结束位置1与开始位置1配对。然后就可以从该《提请批准逮捕书》中切分出信息区块1，就是开始位置1和结束位置1之间的文本，如图4所示。类似地，可以将开始位置2和结束位置2配对，然后切分出信息区块2。至于开始位置3，由于其后没有结束位置，故而不与任何结束位置配对。

S200：利用第二规则分别从每个信息区块中提取出与所述信息区块对应的信息集合。

在本申请中，第二规则为用于识别法律主体的属性信息的规则。对于一个信息区块而言，利用第二规则，可以从该信息区块中提取出法律主体的属性信息，将提取出的一条或多条属性信息的集合称为信息集合，该信息集合与信息区块之间存在对应关系。

更具体地，第二规则可以包括与法律主体的属性对应的要素表达式。每一个属性，都可以对应至少一个要素表达式，每一个要素表达式用于抽取与之对应属性的属性信息。

在这种情况下，请参考图5，对于第k个信息区块，要提取其中的第i个属性的属性信息，可以采用包括如下步骤的方法：

S210：将第i个属性对应的要素表达式与第k个信息区块匹配，抽取出与要素表达式匹配的第一字符串；

S220：将抽取出的第一字符串确定为第k个信息区块中的法律主体的第i个属性的属性信息。

在S210的步骤中，N表示法律主体的属性的总数量；M表示切分出的信息区块的总数量。i可以取值为1,2,……N-1，N；k可以取值为1,2,……M-1，M。如果M个属性中的第i个属性所对应的要素表达式为多个，则将多个要素表达式分别与第k个信息区块匹配，以便抽取出与该要素表达式匹配的第一字符串。

要素表达式可以根据想要抽取出的法律主体的不同属性来具体设置。规则构建人员可以对公检法领域结构化文书中不同属性信息的表达形式进行统计概括，总结提炼出至少一个要素表达式。

在一种实现方式中，要素表达式可以仅包括一个抽取规则，将第i个属性对应的其中一个要素表达式所包括的抽取规则与第k个信息区块进行匹配，如果该信息区块中的某一个字符串(可以称为第一字符串)与该抽取规则匹配，则认为该第一字符串与该要素表达式相匹配，将该第一字符串确定为第k个信息区块中的法律主体的第i个属性的属性信息。

在另一种实现方式中，与开始表达式等类似地，要素表达式包括了前缀规则、抽取规则和后缀规则三个部分，三者之间用“@”来分隔。第一个“@”之前为前缀规则，第二个“@”之后为后缀规则，二者之间为抽取规则。此时，请参考图6，S210的步骤可以包括：

S211：利用第i个属性对应的要素表达式中的前缀规则和后缀规则，从第k个信息区块中确定抽取区域；

S212：从抽取区域中抽取出第一字符串，所述第一字符串为与第i个属性对应的要素表达式中的抽取表达式匹配的字符串。

例如，以下表2示出了一个第二规则的其中一部分的结构和具体内容，该第二规则可以应用于处理前述的《提请批准逮捕书》等文书。

表2第二规则部分示例

将第i个属性对应的其中一个要素表达式与第k个信息区块进行匹配的时候，如果该信息区块中的某一个字符串(可以称为第一字符串)与抽取规则匹配，并且第一字符串之前的字符串与前缀规则匹配，第一字符串之后的字符串与后缀规则匹配，则认为该第一字符串与该要素表达式匹配，将该第一字符串确定为第i个属性的属性信息。当要素表达式中第一个“@”之前为空，则表示前缀规则为空；当第二个“@”之后为空，则表示后缀规则为空。此时，与前一种实现方式，即要素表达式仅包括一个抽取规则的情况相同。此外，在前缀规则与抽取规则、抽取规则与后缀规则之间还可以限定二者之间相隔的字符数量，以“{x1，x2}”这样的形式来表示。“{x1，x2}”表示两个规则之间间隔x1至x2个字符。

采用这样的方式，先利用前缀规则和后缀规则确定出抽取区域，然后再在抽取区域中匹配第一字符串，一方面可以更加准确地抽取出第一字符串，尽可能避免抽取错误导致提取出的属性信息出错的情况。例如，户籍地址的属性信息为“XX省XX市XX路XX号”，家庭住址的属性信息为“YY省YY市YY路YY号”，二者在形式上很相似，以单纯的抽取表达式来抽取，很容易在需要抽取家庭地址的属性信息时，却抽取出了户籍地址的属性信息，将其错误地当成了家庭地址的属性信息。而通过利用前缀规则和后缀规则来限定抽取区域，很大程度上可以减少这种抽取错误的情况。

另一方面，采用上述方式也降低了抽取表达式的复杂程度，提高了阅读和后期修改的便利程度。一般来说，为了尽可能准确地提取出属性信息，并且减少遗漏的情况，通常都会在抽取规则尽可能全面地添加多种匹配形式，并且每一种匹配形式都尽可能描述准确，以便保证抽取的准确率和召回率。但是这样会导致抽取表达式过长并且逻辑关系层叠复杂，导致后期需要修改的时候，修改者难以理解和修改。而本实施例中则采用了另一种思路，通过前缀规则和后缀规则在信息区域中确定一个抽取区域，然后再抽取区域中再利用抽取规则来匹配抽取，以此简化了抽取表达式，使其便于理解和后期修改，同时也保证了抽取出的属性信息的准确性。

以要素表达式1-2为例，将其与图4的信息区块1进行匹配，“犯罪嫌疑人”为前缀规则，“，男，”为后缀规则，在信息区块1中确定出抽取区域1“李X”。从抽取区域1中抽取出第一字符串，该第一字符串为0-3个字符，并且其之前与“犯罪嫌疑人”之间相隔0个字符，其之后与“，男，”之间相隔0个字符。抽取区域1中符合上述条件的第一字符串为“李X”，故而抽取出“李X”，将其确定为法律主体的属性“姓名”的属性信息。

在表2中，“k_身份证号”表示预设的关键词组，该词组中包括表征“身份证号”的多种表述形式，如“身份证号”、“身份证号码”、“居民身份证号”等。在匹配的时候，如果某一个字符串符合关键词组中的任意一种表述形式，就可以认为该字符串与该关键词组相匹配。如要素表达式4-1，将其与信息区块1进行匹配，“k_身份证号”为前缀规则，“，”为后缀规则，在信息区块1中确定抽取区域2“4116**********5642”。要素表达式4-1中的抽取规则为“(\d+)”，表示匹配抽取区域2中的至少一个数字，故而从抽取区域2中抽取出“4116**********5642”，将之作为法律主体的属性“身份证号”的属性信息。

采用类似的方法，可以从信息区块1中抽取出其他法律主体的属性的属性信息，例如“性别”的属性信息“男”等。而属性“出生日期”对应的要素表达式3-1在信息区块1中匹配上任何字符串，故而不抽取任何字符串。

需要说明的是，前述的例子仅举了要素表达式中的前缀规则中包括关键词组的例子，实际上，根据不同的需求，可以将关键词组用于要素表达式中的任意一个规则中，也可以用于第一、二、三、四类定位表达式中的任意一个规则中。

S300：按照信息区块中的法律主体，对应存储从所述信息区块中提取出的信息集合。

从每一个信息区块中提取出的信息集合，都按照信息区块中的属性信息所描述的法律主体，对应地进行存储，以使各个法律主体的属性信息与法律主体对应起来，不会发生混淆，具有唯一性。例如，对于信息区块1，从其中抽取出的信息集合存储后如图7所示；对于信息区块2，从其中抽取出的信息集合存储后如图8所示。

在从公检法领域结构化文书中，除了前述的法律主体的属性信息之外，还可以从中提取出其他与法律主体关联的案件要素，例如作案时间、作案地点等，以便阅读该结构化文书的人员能够进一步快速地获取到文书中的关键信息，提高办事效率。

具体来说，在本申请的第二个实施例中，公检法领域结构化文书的信息提取方法除了可以包括第一个实施例中的部分或全部步骤以外，还可以包括以下S400至S600的步骤，请参考图9。

S400：利用第三规则从所述待处理的公检法领域结构化文书中切分出至少一个说明区块。

在S400的步骤中，第三规则为用于确定说明区块的起止位置的规则，使切分出的每个说明区块包含至少一个案件要素。这里的案件要素是与违法犯罪行为以及侦查行为等相关的要素，例如作案时间、作案地点、作案工具、作案动机、作案对象、被害人、发案时间、立案时间、破案时间。例如，对于《提请批准逮捕书》，可以从中切分出至少一个说明区块，该说明书区块可以是描述公安机关认定的犯罪事实的文本等。

这里，更具体地，第三规则可以包括第三类表达式和第四类表达式，其中，第三类表达式用于确定说明区块的起始位置，第四类表达式用于确定说明区块的终止位置。当确定出多个说明区块的起始位置和多个说明区块的终止位置时，可以参考前述的开始位置和结束位置的配对方式，将二者进行配对，以此切分出一个或者多个说明区块。

第三类定位表达式可以包括至少一个起始表达式，将第三类定位表达式中的所有起始表达式都与待处理的公检法领域结构化文书，或者与该结构化文书中除已经切分出的信息区块以外的其他部分内容进行匹配，任一个起始表达式能够与其匹配上，就将匹配的位置识别为一个起始位置。

第四类定位表达式可以包括至少一个终止表达式，将第四类定位表达式中的所有终止表达式都与待处理的公检法领域结构化文书，或者与该结构化文书中除已经切分出的信息区块以外的其他部分内容进行匹配，任一个终止表达式能够与其匹配上，就将匹配的位置识别为一个终止位置。

起始表达式和终止表达式可以根据公检法领域结构化文书的不同来具体设置，规则构建人员可以对待处理的公检法领域结构化文书进行统计概括，总结提炼出用于确定起始位置的至少一个起始表达式，以及确定终止位置的至少一个终止表达式。例如，以下表3示出了一个第三规则的其中一部分的结构和具体内容，该第三规则可以应用于处理《提请批准逮捕书》等文书。

表3第三规则部分示例

上述表3中的表达式的含义可以参考前述表1的例子，此处不再赘述。

S500：从每个说明区块中分别提取出与说明区块对应的至少一个案件要素。

抽取案件要素可以利用第四规则，第四规则也可以包括至少一个要素表达式，这里的要素表达式的组成方式与第二规则中的要素表达式类似，也可以包括前缀规则、抽取规则和后缀规则。这里的要素表达式的具体内容与第二规则中的要素表达式存在区别，这就导致此处的要素表达式能够提取案件要素的信息，而第二规则中的要素表达式是提取法律主体的属性信息。第四规则中的要素表达式也可以根据想要抽取出的案件要素的不同来具体设置，规则构建人员对公检法领域结构化文书中不同案件要素的表达形式进行统计概括，总结提炼出至少一个要素表达式。

S600：如果一个说明区块包含信息区块中的至少一个法律主体，则将案件集合分别与所述至少一个法律主体关联存储。其中，所述案件集合包括从所述说明区块中提取出的至少一个案件要素。

与前述的信息区块不同，每一个信息区块包含的属性信息通常是描述同一个法律主体的，而在一个说明区块中，其包含的案件要素可能是关于一个法律主体的，也可能是关于多个法律主体的。也就是说，对于案件要素的描述，有的公检法领域结构化文书会将多个法律主体的情况放在一起说明，有的则会按照不同的法律主体来分别说明。故而，如果一个说明区块包含信息区块中描述的其中一个法律主体，则将提取出来的案件要素的集合，也就是案件集合与该法律主体关联存储；如果一个说明区块包含信息区块中描述的多个法律主体，则将案件集合与这多个法律主体分别关联存储。

例如，在《提请批准逮捕书》中切分出两个说明区块，第一个说明区块描述两个犯罪嫌疑人A和B共同作案的经过，包括作案时间、作案地点、作案工具、作案动机等；第二个说明区块描述其中一个犯罪嫌疑人B主动自首的情况。则将第一个说明区块中提取出的案件集合1分别与犯罪嫌疑人A和B关联存储，将第二个说明区块中提取出的案件结合2与犯罪嫌疑人B关联存储。如此，从《提请批准逮捕书》中提取出的犯罪嫌疑人A的信息就包括了一个信息集合以及一个案件集合，该信息集合中包括至少一条属性信息，该案件集合中包括至少一个案件要素；提取出的犯罪嫌疑人B的信息就包括了一个信息集合以及两个案件集合，该信息集合中包括至少一条属性信息，案件集合1和2中各自包括至少一个案件要素。

请参考图10，在本申请的第三个实施例中，提供与前述的第一个实施例对应的公检法领域结构化文书的信息提取装置，包括：

第一处理单元1，用于利用第一规则从待处理的公检法领域结构化文书中切分出至少两个信息区块；以及，利用第二规则分别从每个信息区块中提取出与所述信息区块对应的信息集合；其中，所述第一规则为用于确定信息区块的起止位置的规则，切分出的每个所述信息区块包含一个法律主体的属性信息，所述第二规则为用于识别法律主体的属性信息的规则，所述信息集合包括至少一个属性信息；

存储单元2，用于按照信息区块中的法律主体，对应存储从所述信息区块中提取出的信息集合。

可选地，所述第一规则包括第一类定位表达式和第二类定位表达式，所述第一类定位表达式用于确定信息区块的开始位置，所述第二类定位表达式用于确定信息区块的结束位置；

所述第一处理单元1包括：

切分模块11，用于将第一类定位表达式与待处理的公检法领域结构化文书匹配，识别出至少两个开始位置；将第二类定位表达式与待处理的公检法领域结构化文书匹配，识别出至少两个结束位置；将位于一个开始位置之后并且与之距离最近的结束位置，与所述开始位置配对；以及，切分出信息区块，所述信息区块为配对的开始位置和结束位置之间的文本。

可选地，所述第二规则包括与法律主体的属性对应的要素表达式；

所述第一处理单元1包括：

抽取模块12，用于将第i个属性对应的要素表达式与第k个信息区块匹配，抽取出与要素表达式匹配的第一字符串；以及，将抽取出的第一字符串确定为第k个信息区块中的法律主体的第i个属性的属性信息；其中，i＝1,2,……N-1，N，k＝1,2,……M-1，M；N表示法律主体的属性的总数量；M表示切分出的信息区块的总数量。

可选地，所述抽取单元12还用于利用第i个属性对应的要素表达式中的前缀规则和后缀规则，从第k个信息区块中确定抽取区域；以及，从抽取区域中抽取出第一字符串；其中，所述第一字符串为与第i个属性对应的要素表达式中的抽取规则匹配的字符串。

可选地，该装置还包括：

第二处理单元3，用于利用第三规则从所述待处理的公检法领域结构化文书中切分出至少一个说明区块；从每个说明区块中分别提取出与说明区块对应的至少一个案件要素；以及，在一个说明区块包含信息区块中的至少一个法律主体的情况下，将案件集合分别与所述至少一个法律主体关联存储；其中，所述第三规则为用于确定说明区块的起止位置的规则，切分出的每个说明区块包含至少一个案件要素，所述案件集合包括从所述说明区块中提取出的至少一个案件要素。

此外，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行前述第一个实施例中的任一种公检法领域结构化文书的信息提取方法的部分或全部步骤。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等存储设备。所述可用介质可以是磁性介质，例如软盘、硬盘、U盘、磁带、光介质(例如DVD)、或半导体介质，例如固态硬盘SSD等。

本实施例中的提取装置以及计算机可读存储介质与第一个实施例中的方法对应，相应地具有第一个实施例中的方法所具有的有益效果，此处不再赘述。

本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种公检法领域结构化文书的信息提取方法，其特征在于，包括：

按照信息区块中的法律主体，对应存储从所述信息区块中提取出的信息集合；

如果一个说明区块包含信息区块中的至少一个法律主体，则将案件集合分别与所述至少一个法律主体关联存储；其中，所述案件集合包括从所述说明区块中提取出的至少一个案件要素；

其中，若所述说明区块包含一个法律主体，则将案件集合与所述一个法律主体关联存储；若所述说明区块包含多个法律主体，则将案件集合分别与所述多个法律主体关联存储。

2.根据权利要求1所述的方法，其特征在于，所述第一规则包括第一类定位表达式和第二类定位表达式，所述第一类定位表达式用于确定信息区块的开始位置，所述第二类定位表达式用于确定信息区块的结束位置；

3.根据权利要求1所述的方法，其特征在于，所述第二规则包括与法律主体的属性对应的要素表达式；

4.根据权利要求3所述的方法，其特征在于，将第i个属性对应的要素表达式与第k个信息区块匹配，抽取出与要素表达式匹配的第一字符串的步骤，包括：

5.一种公检法领域结构化文书的信息提取装置，其特征在于，包括：

第一处理单元，用于利用第一规则从待处理的公检法领域结构化文书中切分出至少两个信息区块；以及，利用第二规则分别从每个信息区块中提取出与所述信息区块对应的信息集合；其中，所述第一规则为用于确定信息区块的起止位置的规则，切分出的每个所述信息区块包含一个法律主体的属性信息，所述第二规则为用于识别法律主体的属性信息的规则，所述信息集合包括至少一个属性信息；

存储单元，用于按照信息区块中的法律主体，对应存储从所述信息区块中提取出的信息集合；

第二处理单元，用于利用第三规则从所述待处理的公检法领域结构化文书中切分出至少一个说明区块，所述第三规则为用于确定说明区块的起止位置的规则，切分出的每个说明区块包含至少一个案件要素；

6.根据权利要求5所述的装置，其特征在于，所述第一规则包括第一类定位表达式和第二类定位表达式，所述第一类定位表达式用于确定信息区块的开始位置，所述第二类定位表达式用于确定信息区块的结束位置；

所述第一处理单元包括：

7.根据权利要求5所述的装置，其特征在于，所述第二规则包括与法律主体的属性对应的要素表达式；

所述第一处理单元包括：

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行权利要求1-4任一项所述的方法。