CN112579747A

CN112579747A - 一种身份信息提取方法及装置

Info

Publication number: CN112579747A
Application number: CN201910936781.8A
Authority: CN
Inventors: 李国文
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2021-03-30
Anticipated expiration: 2039-09-29
Also published as: CN112579747B

Abstract

本申请公开了一种身份信息提取方法及装置，在该方法中，先获取待处理文书中的目标段落，再按照该目标段落在待处理文书中的位置顺序，确定该目标段落对应的身份属性及其属性值，并根据目标段落对应的身份属性及其属性值，确定待处理文书中被讯问人的身份信息。其中，由于目标段落包括被讯问人身份属性的属性值，因而仅根据目标段落确定的身份属性及其属性值能够准确地表征待处理文书中被讯问人的身份属性信息，如此能够有效地避免待处理文书中其他人物身份信息对被讯问人身份信息的干扰，使得根据目标段落对应的身份属性及其属性值确定的身份信息准确地表征被讯问人的身份信息，从而提高了确定的被讯问人的身份信息的准确性。

Description

一种身份信息提取方法及装置

技术领域

本申请涉及信息处理技术领域，尤其涉及一种身份信息提取方法及装置。

背景技术

讯问文书是公安机关侦查人员、预审人员在侦查活动中，为了证实犯罪、查明犯罪事实，对犯罪嫌疑人进行讯问时如实记载讯问情况的文字记录。由于讯问文书中记录有被讯问人的身份信息(例如，姓名、年龄、工作等身份信息)和被讯问人陈述的案情相关内容(例如，犯罪过程、目击信息、犯罪同伙信息或其他与案情相关的内容)等内容，使得讯问文书中存在大量人物身份信息，因而，在从讯问文书中提取被讯问人的身份信息时，需要对讯问笔录中记录的大量人物身份信息进行筛选，以便筛选得到被讯问人的身份信息。

目前，从讯问文书中提取被讯问人的身份信息的常用方法为人工查找的方法或全文模糊查找的方法。其中，利用人工查找的方法提取被讯问人的身份信息时需要消耗大量的人力资源和时间资源，造成了资源的浪费；而且，因人工查找易出错导致利用人工查找的方法提取的被讯问人的身份信息准确性较低。另外，由于全文模糊查找的方法在根据多个关键字进行信息查找时通常只能根据第一个关键字进行信息查找，无法根据多个关键字进行综合查找，使得全文模糊查找的方法无法查找到与该多个关键字较匹配的相关信息，但是对于从讯问文书中提取被讯问人的身份信息来说通常需要根据多个关键字进行信息查找，因而，在利用全文模糊查找的方法提取被讯问人的身份信息时，因全文模糊查找的方法无法根据多个关键字准确地查找到与该多个关键字较匹配的身份信息而导致提取的被讯问人的身份信息准确性较低。

发明内容

为了解决现有技术中存在的以上技术问题，本申请提供一种身份信息提取方法及装置，能够准确地从讯问笔录中确定出被讯问人的身份信息，提高了确定的被讯问人的身份信息的准确性。

为了实现上述目的，本申请实施例提供的技术方案如下：

本申请实施例提供一种身份信息提取方法，包括：

获取待处理文书中的目标段落，所述目标段落包括被讯问人身份属性的属性值；

按照所述目标段落在所述待处理文书中的位置顺序，确定所述目标段落对应的身份属性和所述身份属性的属性值；

根据所述目标段落对应的身份属性和所述身份属性的属性值，确定所述待处理文书中被讯问人的身份信息。

可选的，当所述目标段落的个数为两个以上时，则所述按照所述目标段落在所述待处理文书中的位置顺序，确定所述目标段落对应的身份属性和所述身份属性的属性值，包括：

将所述待处理文书中位置最靠前的且未处理的目标段落作为当前段落，并根据至少一种身份属性对应的属性值与所述当前段落的匹配结果，确定所述当前段落对应的身份属性和所述身份属性的属性值，继续执行所述将所述待处理文书中位置最靠前的且未处理的目标段落作为当前段落的步骤及其后续步骤，直至各个所述目标段落均已处理。

可选的，所述根据至少一种身份属性对应的属性值与所述当前段落的匹配结果，确定所述当前段落对应的身份属性和所述身份属性的属性值，包括：

在确定所述当前段落与目标属性值匹配成功时，根据所述目标属性值对应的身份属性和所述目标属性值，确定所述当前段落对应的身份属性和所述身份属性的属性值；

在确定所述当前段落匹配失败时，删除当前段落。

可选的，所述根据所述目标属性值对应的身份属性和所述目标属性值，确定所述当前段落对应的身份属性和所述身份属性的属性值，包括：

将所述目标属性值与已处理段落进行匹配；其中，所述已处理段落为在所述待处理文书中位置比所述当前段落位置靠前的目标段落；

在确定所述目标属性值与已处理段落匹配失败时，将所述目标属性值对应的身份属性作为所述当前段落对应的身份属性，并将所述目标属性值作为所述当前段落对应的身份属性的属性值；

在确定所述目标属性值与已处理段落匹配成功时，确定所述当前段落对应的身份属性与所述已处理段落对应的身份属性相似，并删除所述当前段落。

可选的，所述将所述待处理文书中位置最靠前的且未处理的目标段落作为当前段落，并根据至少一种身份属性对应的属性值与所述当前段落的匹配结果，确定所述当前段落对应的身份属性和所述身份属性的属性值，继续执行所述将所述待处理文书中位置最靠前的且未处理的目标段落作为当前段落的步骤及其后续步骤，直至各个所述目标段落均已处理，包括：

预先构建的状态机将所述待处理文书中位置最靠前的且未处理的目标段落作为当前段落，并根据至少一个状态节点与当前段落的匹配结果，确定所述当前段落对应的身份属性和所述身份属性的属性值，继续执行所述将所述待处理文书中位置最靠前的且未处理的目标段落作为当前段落的步骤及其后续步骤，直至各个所述目标段落均已处理；其中，所述状态机包括至少一个状态节点，且所述状态节点对应于身份属性和所述身份属性的属性值。

可选的，所述状态机的构建过程为：

获取历史文书中被讯问人的身份属性和所述身份属性的属性值；

利用所述历史文书中被讯问人的身份属性和所述身份属性的属性值，配置所述状态机的状态节点。

可选的，所述获取待处理文书中的目标段落，包括：

利用预先构建的分类模型对待处理文书中的段落进行分类，得到待处理文书中的目标段落。

本申请实施例还提供一种身份信息提取装置，包括：

段落获取单元，用于获取待处理文书中的目标段落，所述目标段落包括被讯问人身份属性的属性值；

属性确定单元，用于按照所述目标段落在所述待处理文书中的位置顺序，确定所述目标段落对应的身份属性和所述身份属性的属性值；

身份确定单元，用于根据所述目标段落对应的身份属性和所述身份属性的属性值，确定所述待处理文书中被讯问人的身份信息。

本申请实施例还提供一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述的身份信息提取方法的任一实施方式。

本申请实施例还提供一种设备，所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；

其中，所述处理器、所述存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行上述的身份信息提取方法的任一实施方式。

与现有技术相比，本申请实施例至少具有以下优点：

本申请实施例提供的身份信息提取方法中，先获取待处理文书中的目标段落，再按照该目标段落在待处理文书中的位置顺序，确定该目标段落对应的身份属性及其属性值，并根据目标段落对应的身份属性及其属性值，确定待处理文书中被讯问人的身份信息。其中，由于目标段落包括被讯问人身份属性的属性值，因而仅根据目标段落确定的身份属性及其属性值能够准确地表征待处理文书中被讯问人的身份属性信息，如此能够有效地避免待处理文书中其他人物身份信息对被讯问人身份信息的干扰，使得根据目标段落对应的身份属性及其属性值确定的身份信息准确地表征被讯问人的身份信息，从而提高了确定的被讯问人的身份信息的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的身份信息提取方法的流程图；

图2为本申请实施例提供的目标段落的示意图；

图3为本申请实施例提供的身份属性的示意图；

图4为本申请实施例提供的基于关键字的身份属性的属性值的示意图；

图5为本申请实施例提供的步骤S12的一种实施方式的流程图；

图6为本申请实施例提供的步骤S12A2的一种实施方式的流程图；

图7为本申请实施例提供的步骤S12A21的一种实施方式的流程图；

图8为本申请实施例提供的状态机的结构示意图；

图9为本申请实施例提供的状态机的构建过程的一种实施方式的流程图；

图10为本申请实施例提供的状态机的构建过程的另一种实施方式的流程图；

图11为本申请实施例提供的分类模型的训练过程的流程图；

图12为本申请实施例提供的身份信息提取装置的结构示意图；

图13为本申请实施例提供的设备的结构示意图。

具体实施方式

为了解决背景技术部分的技术问题，本申请实施例提供了一种身份信息提取方法，该方法包括：获取待处理文书中的目标段落，该目标段落包括被讯问人身份属性的属性值；按照该目标段落在待处理文书中的位置顺序，确定该目标段落对应的身份属性和该身份属性的属性值；根据目标段落对应的身份属性和该身份属性的属性值，确定该待处理文书中被讯问人的身份信息。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

方法实施例一

参见图1，该图为本申请实施例提供的身份信息提取方法的流程图。

本申请实施例提供的身份信息提取方法，包括步骤S11-S13：

S11：获取待处理文书中的目标段落。

待处理文书是指任一种包括有被讯问人的身份信息的文书，例如，待处理文书可以是讯问文书。

目标段落包括被讯问人身份属性的属性值，而且被讯问人身份属性的属性值能够表征被讯问人的身份信息。作为示例，在图2所示的待处理文书中，第一段至第十段均是目标段落，而且每一目标段落中均包括一种与被讯问人的身份信息相关的信息。

为了便于理解和解释目标段落，下面依次介绍“身份属性”和“身份属性的属性值”。

“身份属性”的相关内容如下：

身份属性用于表征被讯问人身份信息的信息类型，且身份属性包括讯问属性和应答属性。

其中，讯问属性用于表征讯问人员对被讯问人身份进行讯问时采用的讯问信息的类型，而且讯问属性的类型较多。例如，如图3所示，讯问属性可以包括“问姓名”属性、“问年龄”属性、以及“问工作单位”属性等至少一种类型。需要说明的是，在本申请实施例中，讯问属性可以包括至少一种用于讯问与被讯问人身份信息的属性类型，本申请不限定讯问属性所包括的属性类型，例如，讯问属性还可以包括“问住址”属性等类型。

应答属性用于表征被讯问人对讯问人提出的身份相关问题进行应答时采用的应答信息的类型，而且应答属性的类型较多。例如，如图3所示，应答属性可以包括“答姓名”属性、“答年龄”属性、以及“答工作单位”属性等至少一种类型。需要说明的是，在本申请实施例中，应答属性可以包括至少一种用于回答被讯问人身份信息的属性类型，本申请不限定应答属性所包括的属性类型，例如，应答属性还可以包括“答住址”属性等类型。

“身份属性的属性值”的相关内容如下：

身份属性的属性值用于表征被讯问人身份属性对应的具体表述方式，且身份属性的属性值包括讯问属性值和应答属性值。

其中，讯问属性值用于表征讯问属性对应的具体表述方式，也就是，讯问属性值是指讯问人在讯问被讯问人身份相关信息时采用的具体表述方式。另外，不同类型的讯问属性对应于不同类型的讯问属性值。例如，当讯问人向被讯问人讯问姓名信息时，可以采用“姓名是什么？”、“叫什么”、“说身份证上的姓名”等表述方式进行讯问，此时，“姓名是什么？”、“叫什么？”、“说身份证上的姓名？”等表述方式均可以作为“问姓名”属性对应的属性值。此外，本申请实施例不限定讯问属性值的描述方式，例如，讯问属性值可以采用实际讯问语句(例如，“姓名是什么？”、“叫什么？”、“说身份证上的姓名？”等)的形式进行描述，也可以采用关键字的形式进行描述。作为示例，当讯问属性值采用关键字的形式进行描述时，则如图4所示，“问姓名”属性对应于“问+(姓名|名字|叫什么|名称|名叫|……)”的属性值，“问年龄”属性对应于“问+(多大|年龄|出生日期|……)”的属性值，以及“问工作单位”属性对应于“问+(工作|单位|上班|公司|就职|……)”的属性值。

应答属性值用于表征应答属性对应的具体表述方式，也就是，应答属性值是指被讯问人回答身份相关问题时采用的具体表述方式。另外，不同类型的应答属性值对应于不同类型的讯问属性值。例如，当被讯问人回答姓名信息时，可以采用“李某”、“我是李某”、“名字为李某”等表述方式，此时，“李某”、“我是李某”、“名字为李某”等表述方式均可以作为“答姓名”属性对应的属性值。此外，本申请实施例不限定应答属性值的描述方式，例如，应答属性值可以采用实际应答语句(例如，“我是李某”、“名字为李某”等)进行描述，也可以采用关键字的形式进行描述。作为示例，当应答属性值采用关键字的形式进行描述时，则如图4所示，“答姓名”属性对应于“答+(李某|张某|……)”的属性值，“答年龄”属性对应于“答+(28岁|*年*月*日|……)”的属性值，以及“答工作”属性对应与“答+(**公司|工厂|医院|学校|……)”的属性值。

需要说明的是，在上述两个段落中符号“|”表示“或”的意思。另外，在本申请实施例中，各种类型的讯问属性及其对应的讯问属性值均可以根据大量的文书(例如，讯问文书)进行确定，同样，各种类型的应答属性及其对应的应答属性值均可以根据大量的文书(例如，讯问文书)进行确定。

基于上述介绍的“目标段落”、“身份属性”以及“身份属性的属性值”的相关内容可知，在本申请实施例中，在得到待处理文书之后，需要从待处理文书中找到包括被讯问人身份属性的属性值的段落(例如，图2中的第一段至第十段)，并将这些包括被讯问人身份属性的属性值的段落作为目标段落。

另外，本申请实施例不限定“目标段落”的获取方式，例如，可以采用机器学习模型(例如，分类模型、深度学习模型等)来获取目标段落。为了便于理解和解释，下面将以采用分类模型获取目标段落为例进行说明。

作为一种实施方式，步骤S11具体可以为：利用预先构建的分类模型对待处理文书中的段落进行分类，得到待处理文书中的目标段落。

其中，分类模型用于将待处理文书中包括被讯问人身份属性的属性值的段落划分到一类中，将不包括被讯问人身份属性的属性值的段落划分到另一类中(或另外多类中)。另外，分类模型需要预先构建，而且，分类模型的构建过程将在方法实施例三中进行介绍，技术详情请参照方法实施例三。

在该实施方式中，在得到待处理文书之后，将待处理文书输入到分类模型中，以便分类模型能够将待处理文书中包括被讯问人身份属性的属性值的段落划分到同一类中，此时可以根据分类模型的分类结果确定出包括被讯问人身份属性的属性值的目标段落。

需要说明的是，在本申请实施例中，在一些情况下，在获取到目标段落之后，还可以将目标段落进行分句和/或分词，以便后续能够基于目标段落中的句子和/或词汇来进行信息提取。其中，分句是基于自然段落进行划分的，且以标点符号(例如，分号、句号、逗号、叹号中的至少一种符号)进行划分的，而且，本申请实施例可以采用任一种能够实现分句的方法进行实施。另外，分词过程能够将姓名、组织名、法院等实体信息提取出来，以便后续在确定被讯问人身份属性信息时使用这些分词；而且，本申请实施例可以采用任一种能够实现分词的方法进行实施。

S12：按照目标段落在待处理文书中的位置顺序，确定目标段落对应的身份属性和该身份属性的属性值。

目标段落在待处理文书中的位置顺序可以表征不同目标段落在待处理文书中的出现顺序。例如，如图2所示，当确定第一段至第十段均是目标段落时，目标段落在待处理文书中的位置顺序就是：第一段的位置比第二段的位置靠前，第二段的位置比第三段的位置靠前，……，第九段的位置比第十段的位置靠前。需要说明的是，在本申请实施例中，目标段落在待处理文书中的位置顺序可以利用目标段落在待处理文书中的段落索引号(例如，1,2，……，10，且1是第一段的段落索引号、2是第二段的段落索引号、……、10是第十段的段落索引号)进行表示，其中，段落索引号用于唯一标记段落的位置信息；且目标段落在待处理文书中的位置顺序也可以利用待处理文书中不同段落的前后关系(例如，第一段的位置比第二段的位置靠前)进行表示，另外目标段落在待处理文书中的位置顺序还可以利用其他能够表示不同目标段落位置顺序的方式进行表示。

需要说明的是，本申请实施例不限定获取目标段落在待处理文书中位置顺序的执行时间，只需在执行“按照目标段落在待处理文书中的位置顺序，确定目标段落对应的身份属性和该身份属性的属性值”之前完成执行即可。

在本申请实施例中，在获取到目标段落以及目标段落在待处理文书中的位置顺序之后，将按照目标段落在待处理文书中的位置顺序依次获取各个目标段落对应的身份属性和该身份属性的属性值。基于此，本申请实施例提供了步骤S12的一种实施方式，在该实施方式中，如图5所示，当目标段落的个数为两个以上时，步骤S12具体可以包括步骤S12A1-S12A3：

S12A1：将待处理文书中位置最靠前的且未处理的目标段落作为当前段落。

“未处理”是指未对目标段落采取处理过程，且该处理过程可以是确定目标段落对应的身份属性和该身份属性的属性值的过程，也可以是删除目标段落的过程，还可以是其他处理过程，本申请实施例对此不做具体限定。

S12A2：根据至少一种身份属性对应的属性值与当前段落的匹配结果，确定当前段落对应的身份属性和该身份属性的属性值。

在本申请实施例中，在获取到当前段落之后，将当前段落与至少一种身份属性对应的属性值进行匹配，以便根据该匹配过程的匹配结果来确定当前段落对应的身份属性和该身份属性的属性值。

为了能够有效地剔除包括无效信息的目标段落(例如，图2中的第五段)，本申请实施例还提供了步骤S12A2的一种实施方式，在该实施方式中，如图6所示，步骤S12A2具体可以包括步骤S12A21-S12A22：

S12A21：在确定当前段落与目标属性值匹配成功时，根据目标属性值对应的身份属性和目标属性值，确定当前段落对应的身份属性和该身份属性的属性值。

在本申请实施例中，在确定当前段落与目标属性值匹配成功时，则表示当前段落的身份属性值能够利用目标属性值进行表示，此时可以根据目标属性值对应的身份属性和目标属性值，确定当前段落对应的身份属性和所述身份属性的属性值。

另外，为了能够有效地对多个包括相同身份属性信息的目标段落(例如，图2中的第一段和第二段)进行去重，本申请实施例还提供了步骤S12A21的一种实施方式，在该实施方式中，如图7所示，步骤S12A21具体可以包括步骤S12A211-S12A213：

S12A211：将目标属性值与已处理段落进行匹配。

其中，已处理段落为在待处理文书中位置比当前段落位置靠前的目标段落，而且，已处理段落可以是指位置比当前段落位置靠前的至少一个目标段落。作为示例，如图2所示，假设当前段落为第四段“年龄”，则已处理段落可以是指第一段至第三段。

需要说明的是，由于本申请实施例是按照目标段落在待处理文书中的位置顺序依次对目标段落进行处理的，使得在对各个目标段落进行处理的过程中先处理位置靠前的目标段落且后处理位置靠后的目标段落，因而在处理当前段落的过程中，位置比当前段落靠前的目标段落均已被处理，从而使得已处理段落就是在待处理文书中位置比当前段落位置靠前的目标段落。

在本申请实施例中，在确定当前段落与目标属性值匹配成功时，需要进一步判断该目标属性值是否能够与位于当前段落之前的已处理段落匹配成功，若目标属性值能够与已处理段落匹配成功，则表示在待处理文书中位于当前段落之前的目标段落中存在包括目标属性值的目标段落，从而表示当前段落中的身份属性的属性值已在位于当前段落之前的目标段落中出现过，此时，为了能够避免重复提取相同的身份属性信息，可以直接将当前段落删除。另外，若目标属性值无法与已处理段落匹配成功，则表示在待处理文书中位于当前段落之前的目标段落中不存在包括目标属性值的目标段落，从而表示当前段落中的身份属性的属性值未在位于当前段落之前的目标段落中出现过，此时，为了能够保证身份信息的完整性，可以直接将目标属性值对应的身份属性作为当前段落对应的身份属性，并将目标属性值作为当前段落对应的身份属性的属性值。

S12A212：在确定目标属性值与已处理段落匹配失败时，将目标属性值对应的身份属性作为当前段落对应的身份属性，并将目标属性值作为当前段落对应的身份属性的属性值。

S12A213：在确定目标属性值与已处理段落匹配成功时，确定当前段落对应的身份属性与已处理段落对应的身份属性相似，并删除当前段落。

以上为步骤S12A21的相关内容，根据上述内容可知，在本申请实施例中，在确定当前段落对应的身份属性与已处理段落对应的身份属性相似时，为了避免重复提取相同的身份属性信息，可以直接将当前段落删除，从而避免包括相同身份属性信息的目标段落重复出现，实现了对多个包括相同身份属性信息的目标段落进行去重的目的。

S12A22：在确定当前段落匹配失败时，删除当前段落。

在本申请实施例中，在确定当前段落匹配失败后，则表示当前段落无法与每一种身份属性对应的属性值进行匹配，从而表示当前段落中的信息不是身份属性的属性值，从而确定当前段落中的信息为无效信息，此时，为了能够保证目标段落均能够提供有效的属性信息，需要将当前段落删除，从而避免包括无效信息的目标段落对身份信息提取造成的不良影响。

以上为步骤S12A2的具体实施方式。

S12A3：判断各个目标段落是否均已处理，若是，则结束；若否，则返回执行步骤S12A1。

以上为步骤S12的一种实施方式，在该实施方式中，按照各个目标段落在待处理文书中的位置顺序，依次确定各个目标段落对应的身份属性及其属性值。例如，如图2所示，当确定第一段至第十段为目标段落时，先将第一段与至少一种身份属性对应的属性值进行匹配，以便根据第一段对应的匹配结果确定第一段对应的身份属性及其属性值；再将第二段与至少一种身份属性对应的属性值进行匹配，以便根据第二段对应的匹配结果确定第二段对应的身份属性及其属性值；……(按照第一段、第二段、第三段、……、第十段的顺序，依次确定每一段对应的身份属性及其属性值)；将第十段与至少一种身份属性对应的属性值进行匹配，以便根据第十段对应的匹配结果确定第十段对应的身份属性及其属性值。如此能够避免因遗漏导致被讯问人身份信息的缺失，从而提高了获得的被讯问人身份信息的完整性。

另外，为了避免多个包括相同身份属性的目标段落造成的不良影响，对于多个包括相同身份属性的目标段落来说，只保留该多个目标段落中位置最靠前的一个目标段落，并删除该多个目标段落中位置非最靠前的其他目标段落，如此能够有效地避免身份属性值的重复出现，从而提高了后续获取的身份信息的简洁性。此外，为了避免包括无效信息的目标段落造成的不良影响，需要将包括无效信息的目标段落删除，如此能够有效地避免无效信息对后续获取的身份信息的产生影响，从而提高了后续获取的身份信息的简洁性以及准确性。

另外，为了能够提高身份信息的获取效率，可以利用状态机实现上述步骤S12的具体实施方式，而且，该实施方式将在方法实施例二中进行详细解释，技术详情请参见方法实施例二。

此外，为了能够提高身份信息的获取效率，也可以基于记录了至少一种身份属性与该身份属性的属性值的列表来实现述步骤S12的具体实施方式。

S13：根据目标段落对应的身份属性和该身份属性的属性值，确定待处理文书中被讯问人的身份信息。

在本申请实施例中，在获取到目标段落对应的身份属性和该身份属性的属性值之后，利用目标段落对应的身份属性和该身份属性的属性值，确定被讯问人的身份信息，以便保证确定的被讯问人的身份信息能够包括待处理文书中记录的被讯问人的各个身份属性的属性值信息，从而保证了确定的被讯问人的身份信息的完整性以及准确性。例如，如图2所示，根据第一段“问姓名”属性及“姓名”的属性值、和第三段“答姓名”属性及“李某”的属性值，确定出被讯问人的姓名为李某。

以上为方法实施例一提供的身份信息提取方法的具体实施方式，在该实施方式中，先获取待处理文书中的目标段落，再按照该目标段落在待处理文书中的位置顺序，确定该目标段落对应的身份属性及其属性值，并根据目标段落对应的身份属性及其属性值，确定待处理文书中被讯问人的身份信息。其中，由于目标段落包括被讯问人身份属性的属性值，因而仅根据目标段落确定的身份属性及其属性值能够准确地表征待处理文书中被讯问人的身份属性信息，如此能够有效地避免待处理文书中其他人物身份信息对被讯问人身份信息的干扰，使得根据目标段落对应的身份属性及其属性值确定的身份信息准确地表征被讯问人的身份信息，从而提高了确定的被讯问人的身份信息的准确性。

另外，在该实施方式中，也通过对多个包括相同身份属性的目标段落进行去重的操作，实现了重复信息的剔除，避免了多个包括相同身份属性的目标段落造成的不良影响，如此能够有效地避免身份属性值的重复出现，从而提高了后续获取的身份信息的简洁性。此外，还通过删除包括无效信息的目标段落，实现了无效信息的剔除，避免了无效信息造成的不良影响，如此能够有效地避免无效信息对后续获取的身份信息的影响，从而提高了后续获取的身份信息的简洁性以及准确性。

方法实施例二

为了能够提高身份信息的提取效率，可以利用状态机实现对每个目标段落的身份属性及其属性值的提取。基于此，本申请实施例还提供了执行动作“将待处理文书中位置最靠前的且未处理的目标段落作为当前段落，并根据至少一种身份属性对应的属性值与当前段落的匹配结果，确定当前段落对应的身份属性和该身份属性的属性值，继续执行所述将所述待处理文书中位置最靠前的且未处理的目标段落作为当前段落的步骤及其后续步骤，直至各个目标段落均已处理”的实施方式，其具体可以为：预先构建的状态机将待处理文书中位置最靠前的且未处理的目标段落作为当前段落，并根据至少一个状态节点与当前段落的匹配结果，确定当前段落对应的身份属性和该身份属性的属性值，继续执行所述将待处理文书中位置最靠前的且未处理的目标段落作为当前段落的步骤及其后续步骤，直至各个所述目标段落均已处理。

其中，状态机用于按照目标段落在待处理文书中的位置顺序，依次确定目标段落对应的身份属性和该身份属性的属性值；而且，状态机包括至少一个状态节点，且该状态节点对应于身份属性和身份属性的属性值。另外，状态机还包括不同状态节点之间的连接关系。作为示例，图8所示的状态包括“问姓名”节点、“答姓名”节点、“问年龄”节点、“答年龄”节点、“问工作单位”节点、“答工作单位”节点、以及这些状态节点之间的连接关系。需要说明的是，图8中的状态机结构仅用于结构示意，不用于结构限定。

基于上述状态机的相关内容可知，在本申请实施例中，在将目标段落输入到状态机之后，状态机能够按照目标段落在待处理文书中的位置顺序，将目标段落依次与状态机节点进行匹配，以便根据匹配结果确定每个目标段落对应的状态机节点，并根据与目标段落匹配成功的状态机节点，确定目标段落对应的身份属性及其属性值。其中，“状态机获取当前段落对应的身份属性和该身份属性的属性值”的具体过程可以为：状态机将当前段落与至少一个状态机节点进行匹配；在确定当前段落与目标节点匹配成功时，则根据目标节点对应的身份属性和该身份属性的属性值，确定当前段落对应的身份属性和该身份属性的属性值；然而，在确定当前段落与状态机中所有状态节点均匹配失败时，则确定状态机中不存在当前段落的身份属性，从而确定当前段落中的信息不是身份属性信息，从而确定当前段落中包括无效信息，此时需要将当前段落删除。如此状态机能够有效地剔除目标段落中的无效信息，从而提高了被讯问人身份信息的准确性以及简洁性。

另外，为了能够避免利用状态机获取的身份信息中存在重复信息，则状态机在确定当前段落与目标节点匹配成功后，状态机需要进一步判断目标节点是否与位于当前段落之前的已处理段落相匹配，若状态机确定目标节点与已处理段落匹配成功，则确定目标节点已经使用过，此时为了避免重复从目标节点中提取相同的身份属性及其属性值，可以将当前段落删除，以便避免从状态机多次从同一个状态节点中获取身份属性及其属性值。若状态机确定目标节点与位于当前段落之前的各个已处理段落均匹配失败时，则确定目标节点还未使用，此时为了保证身份信息的完整性，则需要将目标节点对应的身份属性和该身份属性的属性值作为当前段落对应的身份属性和该身份属性的属性值。

需要说明的是，在执行“将当前段落与状态节点进行匹配”的过程时，可以直接将当前段落与状态节点对应的身份属性的属性值进行匹配，也可以将当前段落中通过分句所得的句子与状态节点对应的身份属性的属性值进行匹配，也可以将当前段落中通过分词所得的词汇与状态节点对应的身份属性的属性值进行匹配，本申请实施例对此不做具体限定。

以上为本申请实施例提供的利用状态机获取各个目标段落对应的身份属性及其属性值的相关内容。其中，由于状态机中各个状态节点对应于一种身份属性及其属性值，因而状态机能够借助状态节点与目标段落的匹配过程，获取各个目标段落对应的身份属性及其属性值。另外，状态机能够按照目标段落在待处理文书中的位置顺序依次确定每个目标段落对应的身份属性及其属性值，如此能够获取到待处理文书中的所有身份属性信息，避免发生身份属性信息的遗漏。此外，状态机还能够剔除包括无效信息的目标段落，从而避免从目标段落中提取无效信息，从而保证后续确定的身份信息均是有效信息。另外，状态机还能够剔除待处理文书中的重复信息，从而避免从目标段落中提取重复信息，提高了后续确定的身份信息的简洁性。

此外，为了提高状态机的信息提取效果，可以利用历史文书对状态机进行配置，使得配置好的状态机能够准确地从目标段落中提取出身份属性及其属性值。基于此，本申请实施例还提供了一种状态机的构建过程，如图9所示，该过程具体可以包括步骤S91-S92：

S91：获取历史文书中被讯问人的身份属性和该身份属性的属性值。

在本申请实施例中，在获取到历史文书后，根据历史文书中的内容，获取历史文书中被讯问人的身份属性及其属性值。如此，能够实现从大量的历史文书中获取被讯问人的各种身份属性以及该身份属性的属性值，以便后续能够利用获取的各种身份属性和该身份属性的属性值对状态机中的状态节点进行配置。

需要说明的是，本申请实施例不限定从历史文书中获取被讯问人的身份属性及其属性值的具体实施方式，可以采用上文中的“分类模型”进行获取，也可以采用其他的方式进行获取。

S92：利用历史文书中被讯问人的身份属性和该身份属性的属性值，配置状态机的状态节点。

在本申请实施例中，在获取到历史文书中被讯问人的身份属性及其属性值之后，可以利用历史文书中被讯问人的身份属性及其属性值配置状态机的状态节点，使得配置好的每个状态节点能够对应与一种身份属性和该身份属性的属性值，从而使得后续状态机在获取目标段落中的身份属性及其属性值时，能够通过将目标段落与不同状态节点进行匹配实现。

以上为本申请实施例提供的状态机的构建过程的一种实施方式，在该实施方式中，在获取到历史文书中被讯问人的身份属性及其属性值之后，可以利用每种身份属性及其属性值配置每个状态节点，使得配置好的状态机中每个状态节点能够准确地表征一种身份属性及其属性值，从而使得后续状态机能够通过目标段落与状态节点的匹配结果确定目标段落对应的身份属性及其属性值。

另外，为了提高状态机的信息提取效率，还可以根据历史文书配置状态机中不同状态节点之间的连接关系。基于此，本申请实施例还提供了一种状态机的构建过程，如图10所示，在该构建过程中，除了包括步骤S91和S92以外，还包括步骤S93-S94：

S93：获取历史文书中被讯问人身份属性的位置顺序。

被讯问人身份属性的位置顺序用于表示被讯问人的不同身份属性在历史文书中的出现顺序。

在本申请实施例中，在获取到历史文书中被讯问人身份属性之后，需要根据被讯问人的各个身份属性在历史文书中的出现位置，确定历史文书中被讯问人身份属性的位置顺序，以便后续能够利用该位置顺序配置不同状态节点之间的连接关系。

S94：根据历史文书中被讯问人身份属性的位置顺序，配置状态机中状态节点之间的连接关系。

状态节点之间的连接关系用于表示状态节点之间是否能够进行转移。若两个状态节点之间具有连接关系，则表示该两个状态节点之间能够进行转移；若两个状态节点之间不具有连接关系，则表示该两个状态节点之间无法进行转移。另外，状态节点之间的连接关系可以包括不同状态节点之间的连接关系(如图8中“问姓名”节点与“答姓名”节点之间的连接关系)。此外，状态节点之间的连接关系可以还包括相同状态节点之间的闭环连接关系(如图8中“问姓名”节点与“问姓名”节点之间的闭环连接关系)。需要说明的时，状态节点之间的连接关系可以根据实际应用确定，在一些情况下，将设定相同节点之间不存在闭环连接关系；在一些情况下，将设定相同节点之间可以存在闭环连接关系。

在本申请实施例中，在获取到历史文书中被讯问人身份属性的位置顺序后，需要按照历史文书中被讯问人身份属性的位置顺序，配置状态机中的不同状态节点之间的连接关系，使得后续状态节点能够基于该连接关系进行转移。如此在利用状态机提取目标段落中身份属性及其属性值时状态机能够按照状态节点之间的连接关系来确定状态转移路径，使得状态机在该状态转移路径下能够按照目标段落在待处理文书中的位置顺序，确定目标段落对应的身份属性和该身份属性的属性值。

需要说明的是，本申请实施例不限定步骤S93的执行时间，只需在步骤S91之后且步骤S94之前执行即可。

以上为本申请实施例提供的状态机的构建过程的具体实施方式，在该实施方式中，通过利用历史文书中被讯问人的身份属性及其属性值配置状态机节点，使得配置好的状态机能够准确地确定出目标段落对应的身份属性及其属性值。另外，还通过利用历史文书中被讯问人的不同身份属性在文书中的位置顺序配置状态机节点的连接关系，使得配置好的状态机能够准确地按照目标段落在待处理文书中的位置顺序，依次确定目标段落对应的身份属性及其属性值。

方法实施例三

为了使得分类模型能够更好地确定出待处理文书中的目标段落，可以利用历史文书对分类模型进行训练。基于此，本申请实施例还提供了一种分类模型的训练过程，如图11，该过程具体可以包括步骤S111-S113：

S111：获取历史文书中的实际目标段落。

其中，实际目标段落是指历史文书中实际的包括被讯问人身份属性的属性值的段落。

S112：利用分类模型对历史文书中的段落进行分类，得到历史文书中的预测目标段落。

S113：判断实际目标段落与预测目标段落之间的差距是否高于预设差距，若是，则执行步骤S114；若否，则执行步骤S115。

预设差距是预先设定的，尤其可以根据应用场景设定。

S114：根据实际目标段落和预测目标段落，更新分类模型，并返回执行步骤S112。

S115：结束分类模型的训练过程。

以上为本申请实施例提供的分类模型的训练过程，在该过程中，通过利用历史文书对分类模型进行训练，使得训练好的分类模型能够准确地从文书中筛选出包括被讯问人身份属性的属性值的段落。

基于上述方法实施例提供的身份信息提取方法的任一实施方式，本申请实施例还提供了一种身份信息提取装置，下面结合附图进行解释和说明。

装置实施例

装置实施例提供的身份信息提取装置的技术详情，请参照上述方法实施例。

参见图12，该图为本申请实施例提供的身份信息提取装置的结构示意图。

本申请实施例提供的身份信息提取装置，包括：

段落获取单元121，用于获取待处理文书中的目标段落，所述目标段落包括被讯问人身份属性的属性值；

属性确定单元122，用于按照所述目标段落在所述待处理文书中的位置顺序，确定所述目标段落对应的身份属性和所述身份属性的属性值；

身份确定单元123，用于根据所述目标段落对应的身份属性和所述身份属性的属性值，确定所述待处理文书中被讯问人的身份信息。

作为一种实施方式，为了提高身份信息提取效率以及准确性，所述属性确定单元122，包括：当所述目标段落的个数为两个以上时，将所述待处理文书中位置最靠前的且未处理的目标段落作为当前段落，并根据至少一种身份属性对应的属性值与所述当前段落的匹配结果，确定所述当前段落对应的身份属性和所述身份属性的属性值，继续执行所述将所述待处理文书中位置最靠前的且未处理的目标段落作为当前段落的步骤及其后续步骤，直至各个所述目标段落均已处理。

作为一种实施方式，为了提高身份信息提取效率以及准确性，所述属性确定单元122，包括：

第一确定子单元，用于在确定所述当前段落与目标属性值匹配成功时，根据所述目标属性值对应的身份属性和所述目标属性值，确定所述当前段落对应的身份属性和所述身份属性的属性值；

第二确定子单元，用于在确定所述当前段落匹配失败时，删除当前段落。

作为一种实施方式，为了提高身份信息提取效率以及准确性，所述第一确定子单元，包括：

匹配模块，用于将所述目标属性值与已处理段落进行匹配；其中，所述已处理段落为在所述待处理文书中位置比所述当前段落位置靠前的目标段落；

确定模块，用于在确定所述目标属性值与已处理段落匹配失败时，将所述目标属性值对应的身份属性作为所述当前段落对应的身份属性，并将所述目标属性值作为所述当前段落对应的身份属性的属性值；

删除模块，用于在确定所述目标属性值与已处理段落匹配成功时，确定所述当前段落对应的身份属性与所述已处理段落对应的身份属性相似，并删除所述当前段落。

作为一种实施方式，为了提高身份信息提取效率以及准确性，所述属性确定单元122，具体用于：

作为一种实施方式，为了提高身份信息提取效率以及准确性，所述状态机的构建过程为：

作为一种实施方式，为了提高身份信息提取效率以及准确性，所述段落获取单元121，具体用于：

以上为本申请实施例提供的身份信息提取装置的具体实施方式，在该实施方式中，先获取待处理文书中的目标段落，再按照该目标段落在待处理文书中的位置顺序，确定该目标段落对应的身份属性及其属性值，并根据目标段落对应的身份属性及其属性值，确定待处理文书中被讯问人的身份信息。其中，由于目标段落包括被讯问人身份属性的属性值，因而仅根据目标段落确定的身份属性及其属性值能够准确地表征待处理文书中被讯问人的身份属性信息，如此能够有效地避免待处理文书中其他人物身份信息对被讯问人身份信息的干扰，使得根据目标段落对应的身份属性及其属性值确定的身份信息准确地表征被讯问人的身份信息，从而提高了确定的被讯问人的身份信息的准确性。

所述身份信息提取装置包括处理器和存储器，上述段落获取单元121、属性确定单元122和身份确定单元123等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数从讯问笔录中确定出被讯问人的身份信息，提高了确定的被讯问人的身份信息的准确性。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述身份信息提取方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述身份信息提取方法。

本发明实施例提供了一种设备130，设备130包括至少一个处理器131、以及与处理器131连接的至少一个存储器132、总线133；其中，处理器131、存储器132通过总线133完成相互间的通信；处理器131用于调用存储器中的程序指令，以执行上述的身份信息提取方法。本文中的设备130可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

在确定所述当前段落匹配失败时，删除当前段落。

可选的，所述状态机的构建过程为：

可选的，所述获取待处理文书中的目标段落，包括：

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种身份信息提取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，当所述目标段落的个数为两个以上时，则所述按照所述目标段落在所述待处理文书中的位置顺序，确定所述目标段落对应的身份属性和所述身份属性的属性值，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据至少一种身份属性对应的属性值与所述当前段落的匹配结果，确定所述当前段落对应的身份属性和所述身份属性的属性值，包括：

在确定所述当前段落匹配失败时，删除当前段落。

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标属性值对应的身份属性和所述目标属性值，确定所述当前段落对应的身份属性和所述身份属性的属性值，包括：

5.根据权利要求2所述的方法，其特征在于，所述将所述待处理文书中位置最靠前的且未处理的目标段落作为当前段落，并根据至少一种身份属性对应的属性值与所述当前段落的匹配结果，确定所述当前段落对应的身份属性和所述身份属性的属性值，继续执行所述将所述待处理文书中位置最靠前的且未处理的目标段落作为当前段落的步骤及其后续步骤，直至各个所述目标段落均已处理，包括：

6.根据权利要求5所述的方法，其特征在于，所述状态机的构建过程为：

7.根据权利要求1所述的方法，其特征在于，所述获取待处理文书中的目标段落，包括：

8.一种身份信息提取装置，其特征在于，包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至7中任意一项所述的身份信息提取方法。

10.一种设备，其特征在于，所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；

所述处理器用于调用所述存储器中的程序指令，以执行权利要求1至7中任意一项所述的身份信息提取方法。