CN113971207A

CN113971207A - 文档关联方法及装置、电子设备和存储介质

Info

Publication number: CN113971207A
Application number: CN202111308278.1A
Authority: CN
Inventors: 徐美君; 路姚; 王立人; 昕宇
Original assignee: Iflytek Information Technology Co Ltd
Current assignee: Iflytek Information Technology Co Ltd
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-01-25

Abstract

本申请公开了一种文档关联方法及装置、电子设备和存储介质，其中，文档关联方法包括：获取文档集合，文档集合包括若干文档，若干文档包括目标文档和至少一个待关联文档；识别目标文档中第一关键字段及其第一字段属性；其中，第一字段属性包括第一关键字段所属的第一字段类型；基于字段类型与文档类型之间的映射关系，在至少一个待关联文档中搜索得到与第一关键字段相关的候选文档；基于各个候选文档的校验结果，选择候选文档作为关联文档。上述方案，能够提高文档关联的质效。

Description

文档关联方法及装置、电子设备和存储介质

技术领域

本申请涉及文档处理技术领域，特别是涉及一种文档关联方法及装置、电子设备和存储介质。

背景技术

在诸多场景中，文档之间的关联性对于梳理信息、提升文档阅读效率等方面都格外重要。例如，在卷宗阅读场景中，通过分析文档之间关联性，有助于相关人员快速了解卷宗所涉事件；或者，在文史考据场景中，通过分析文档之间关联性，有助于相关人员快速掌握文史材料所涉历史背景等相关知识，如此种种，不一而足。

目前，文档之间关联性一般采用人工阅读的方式进行梳理。以卷宗阅读场景为例，相关人员需要逐一阅读卷宗中文书资料，以在大量文书资料中找到关联的证据文书。随着卷宗中文书资料数量的增加、卷宗所涉事件复杂度的提升，相关人员进行关联性分析的效率、质量均难免随之降低。有鉴于此，如何提高文档关联的质效成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种文档关联方法及装置、电子设备和存储介质，能够提高文档关联的质效。

为了解决上述技术问题，本申请第一方面提供了一种文档关联方法，包括：获取文档集合，文档集合包括若干文档，若干文档包括目标文档和至少一个待关联文档；识别目标文档中第一关键字段及其第一字段属性；其中，第一字段属性包括第一关键字段所属的第一字段类型；基于字段类型与文档类型之间的映射关系，在至少一个待关联文档中搜索得到与第一关键字段相关的候选文档；基于各个候选文档的校验结果，选择候选文档作为关联文档。

为了解决上述技术问题，本申请第二方面提供了一种文档关联装置，包括文档获取模块、文档识别模块、文档搜索模块和文档选择模块，文档获取模块用于获取文档集合；其中，文档集合包括干文档，若干文档包括目标文档和至少一个待关联文档；文档识别模块，用于识别目标文档中第一关键字段及其第一字段属性；其中，第一字段属性包括第一关键字段所属的第一字段类型；文档搜索模块，用于基于字段类型与文档类型之间的映射关系，在至少一个待关联文档中搜索得到与第一关键字段相关的候选文档；文档选择模块，用于基于各个候选文档的校验结果，选择候选文档作为关联文档。

为了解决上述技术问题，本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的文档关联方法。

为了解决上述技术问题，本申请第四方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，所述程序指令用于实现上述第一方面中的文档关联方法。

上述方案，通过获取文档集合，且文档集合包括若干文档，若干文档包括目标文档和至少一个待关联文档，并识别目标文档中的第一关键字段和第一字段属性，且第一字段属性包括第一字段所属的第一字段类型，再基于字段类型与文档类型之间的映射关系，在至少一个待关联文档中搜索得到与第一关键字段相关的候选文档，并基于各个候选文档的校验结果，选择所述候选文档作为关联文档，一方面由于无需通过人工阅读来分析文档之间关联性，有助于提升文档关联的效率，另一方面由于在文档关联过程中，通过字段识别、文档映射以及文档校验等层层筛选最终得到关联文档，能够尽可能地降低文档关联的错误率，提升文档关联的质量。故此，能够提高文档关联的质效。

附图说明

图1是本申请文档关联方法一实施例的流程示意图；

图2是图1中步骤S14一实施例的流程示意图；

图3是图1中选择关联文档另一实施例的流程示意图；

图4是本申请文档关联装置一实施例的框架示意图；

图5是本申请电子设备一实施例的框架示意图；

图6是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请文档关联方法一实施例的流程示意图。

具体而言，可以包括如下步骤：

步骤S11：获取文档集合。

本公开实施例中，文档集合包括若干文档，且若干文档包括目标文档和至少一个待关联文档。

在一个实施场景中，文档集合可以根据实际应用场景进行设置。以文史考据场景为例，文档集合可以包括涉及某一事件的文史材料；或者，以案件处理场景为例，文档集合可以是涉及某一案件的卷宗，其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，目标文档和待关联文档可以根据实际应用场景进行设置。以文史考据场景为例，目标文档可以是待考据的文史材料(如，如帛书、金文等)，待关联文档可以是已验证的文史材料(如，已出版发行的金文汇编、史书等)；或者，以案件处理场景为例，目标文档可以是诉讼文书(如，起诉意见书、起诉书等)，待关联文档可以是证据文书(如，拘留证、逮捕证等)，其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，一份文档集合可以对应于一个案件(或事件)，且文档集合所包含的若干文档可以与至少一个目标人物相关，即文档集合所涉及的目标人物可以是一个，也可以是多个，在此不做限定。仍以案件处理场景为例，文档集合可以对应于“张三酒后驾驶致人伤残”这一案件，即文档集合所包含的若干文档可以仅与一个目标人物(即张三)相关；或者，文档集合也可以对应于“张三和李四合谋盗窃”这一案件，即文档集合所包含的若干文档可以与两个目标人物(即张三与李四)相关。需要说明的是，上述文档集合的举例仅仅是现实场景中可能涉及的几种情况，并不因此而限定文档集合。

在一个实施场景中，目标文档、待关联文档的文档格式可以不做限定，例如：word、PDF、图片等。为了获取诸如PDF、图片等格式的文档文本，可以采用诸如OCR(OpticalCharacter Recognition，光学字符识别)等识别技术进行文字识别得到文档文本。文字识别的具体过程，可以参阅诸如OCR等文字识别方式的技术细节，在此不再赘述。

步骤S12：识别目标文档中第一关键字段及其第一字段属性。

本公开实施例中，第一字段属性包括第一关键字段所属的第一字段类型。

在一个实施场景中，第一关键字段及其所属的第一字段类型可以根据实际应用进行设置。仍以案件处理场景为例，第一字段类型可以包括但不限于：“姓名”(所对应的第一关键字段如，张三、李四等)、“酒精含量”(所对应的第一关键字段如，20mg/100ml、80mg/100ml等)、“盗窃物品”(所对应的第一关键字段如，“电瓶车”、“现金”等)，在此不做限定。总的来说，在案件处理场景中，第一字段类型可以划分为两个大类，为了便于区分，可以分别命名为第一类型和第二类型。其中，第一类型为与嫌疑人相关的字段类型，如可以包括但不限于：姓名、身份证号、年龄、性别、户籍地、住所地、受教育情况等，第二类型为与案情相关的字段类型，如可以包括但不限于：前科情况、酒精含量、案发经过、认罪认罚等，具体情况在此不做限定。

在一个实施场景中，第一关键字段及其第一字段属性可以是基于语义识别模型、预设业务规则中至少一者对目标文档识别得到的。需要说明的是，在现实场景中，可以结合语义识别模型和预设业务规则两种方式共同识别关键字段及其字段属性，以提升识别准确性，并将预设业务规则作为语义识别模型的补充，可以降低语义识别模型的训练难度。当然，也可以根据实际需要，仅基于语义识别模型、预设业务规则中任一者识别关键字段及其字段属性，在此不做限定。例如，在目标文档遵循一定行文规范的情况下，可以基于预设业务规则进行识别；或者，在目标文档未遵循一定行文规范的情况下，可以基于用语义识别模型进行识别，并且为了提升识别准确性，语义识别模型可以通过大量样本文档训练得到，具体可以参阅下述相关描述，在此暂不赘述。

在一个具体实施场景中，在语义识别模型的训练过程中，可以预先在样本文档中标注出各个样本关键字段及其样本字段属性(如，可以包括但不限于样本字段类型)，然后利用语义识别模型对样本文档进行识别，得到预测关键字段及其预测字段属性，再基于样本关键字段与预测关键字段之间的差异，以及样本字段属性与预测字段属性之前的差异，调整语义识别模型的网络参数。在训练收敛之后，即可利用语义识别模型识别目标文档，以提取得到第一关键字段及其第一字段属性。语义识别模型具体可以包括但不限于：BERT(Bidirectional Encoder Representation from Transformers，即双向Transformer的Encoder)、RNN(Recurrent Neural Network，循环神经网络)等，在此对语义识别模型的网络结构不做限定。具体识别过程，可以参阅诸如BERT、RNN等网络模型的技术细节，在此不再赘述。仍以案件处理场景为例，利用语义识别模型可以对目标文档(如，诉讼文书)进行识别，得到属于前述第一类型的第一关键字段和属于前述第二类型的第二关键字段。具体地，第二类型可以包括但不限于：文书文号、文书日期、案发经过、查证事实，第一类型可以包括但不限于：姓名、身份证号、年龄、户籍地、住所地、受教育状况等、以及刑罚信息(如，强制措施类型、强制措施执行日期、强制措施地点、执行机关)等。其他情况可以以此类推，在此不再一一举例。

在一个具体实施场景中，预设业务规则可以包括对业务定义和约束的描述，用于维持业务结构或控制和影响业务的行为，本质上是识别出目标文档中关键字段及其所属的字段类型。需要说明的是，在基于预设业务规则进行识别的情况下，目标文档需遵循一定行文规范，如目标文档中涉及一些特定字段类型的段落一般主要出现在文书的特定位置(如开头、结尾等)，则考虑到语义识别模型本身的训练成本也比较高，则对于这些有规律可循的字段类型可以采用业务规则来进行提取。例如，对于诸如“第一个字段为姓名字段、第二个字段为时间字段、……、最后一个字段为事情经过字段”等所在段落明确且描述方式较为固定的情况，可以通过预设业务规则进行识别，得到诸如“姓名”、“时间”、“事情经过”等关键字段及其字段属性，其他情况可以以此类推，在此不再一一举例。

步骤S13：基于字段类型与文档类型之间的映射关系，在至少一个待关联文档中搜索得到与第一关键字段相关的候选文档。

表1字段类型与文档类型之间映射关系一实施例的示意表

在一个实施场景中，字段类型与文档类型之间存在一定的映射关系，字段类型与文档类型之间的映射关系可以是一对一的关系，也可以是一对多的关系。也就是说，对于各个字段类型而言，映射关系中均存在该字段类型的子映射关系，且子映射关系包括该字段类型以及与该字段类型相关的至少一种文档类型。仍以案件处理场景为例，请参阅表1，表1是字段类型与文档类型之间映射关系一实施例的示意表。如表1所示，与字段类型“前科情况”存在映射关系的文档类型包括：“拘留证”、“延长拘留期限通知书”、“逮捕证”、“取保候审通知书”，此时字段类型与文档类型之间的映射关系为一对多的关系；或者，与字段类型“酒精含量”存在映射关系的文档类型包括：“司法鉴定意见书”，此时字段类型与文档类型之间的映射关系为一对一关系。其他字段类型以及与其存在映射关系的文档类型，可以参阅表1，在此不再一一举例。需要说明的是，表1所示的映射关系仅仅是实际应用过程中，可能存在的一种映射关系，并不因此而限定映射关系的实际设置方式。

在一个实施场景中，可以根据预先构建的字段类型与文档类型的映射关系，确定待关联文档类型，从而可以对每个与当前字段类型存在映射关系的待关联文档名称进行匹配选择。具体地，可以基于映射关系，选择与第一关键字段所属的第一字段类型相关的文档类型作为候选类型，再基于候选类型与各个待关联文档的文档标题之间的相似度，选择待关联文档作为候选文档。仍以案件处理场景为例，如表1所示，例如第一关键字段所属的第一字段类型为“认罪认罚”，则由表1，可以选择文档类型“认罪认罚具结书”作为候选类型，在此基础上，可以将各个待关联文档的文档标题分别与候选类型“认罪认罚具结书”进行相似度匹配。例如，可以对文档的关联匹配采用文本相似度匹配算法，并设置阈值，若达到阈值则此待关联文档可以保留作为候选文档，否则此待关联文档将被筛选出去，被筛选出去的待关联文档会重新返回至待关联文档列表中。仍以第一字段类型“认罪认罚”为例，候选类型为“认罪认罚具结书”，可以将阈值设置为0.8，即为当待关联文档的文档标题与候选类型“认罪认罚具结书”之间的文本相似度超出0.8时，可以将该待关联文档作为候选文档。

在一个实施场景中，文本相似度匹配算法主要应用于搜索引擎，并且基于字符串进行匹配，字符串由字符构成，只要比较两个字符串中每一个字符是否相等便可得知两个字符串是否相等，或者将每一个字符串通过哈希函数映射为一个哈希值，然后进行比较，即可得到匹配结果。相似度匹配的具体过程，可以参阅文本匹配的相关技术细节，在此不再赘述。

在一个实施场景中，在对待关联文档根据相似度匹配算法筛选后，可以得到一系列的候选文档，且候选文档可以按照一定的优先级顺序进行排列。如表1所示，以第一字段类型“前科情况”为例，可以搜索到文档类型为“拘留证”、“延长拘留期限通知书”、“逮捕证”、“取保候审通知书”等多份候选文档，且多份候选文档可以按照优先级顺序进行排序，优先级高的候选文档在优先级低的候选文档之前，由此在文档查阅的过程中，可以满足用户对不同类型文档的查阅需求，大大提升用户体验。具体地，上述优先级顺序可以是自动生成的，也可以是由用户配置得到的。例如，可以根据办案过程中不同文档类型的阅读次数，得到优先级顺序。如表1所示，与字段类型为“前科情况”对应的“文档类型”的优先级顺序依次为：“拘留证”、“逮捕证”、“取保候审通知书”、“延长拘留期限通知书”，但是办案人员在使用过程中认为该优先级顺序排列需要调整，办案人员也可以对优先级顺序进行设置，重新设置的优先级顺序可以为：“拘留证”、“延长拘留期限通知书”、“逮捕证”、“取保候审通知书”，修改后的优先级顺序在工作中更为实用。

步骤S14：基于各个候选文档的校验结果，选择候选文档作为关联文档。

请参阅图2，图2是图1中步骤S14一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S21：获取候选文档。

在一个实施场景中，需要对候选文档中所有文档进行校验，根据候选文档的排列顺序对候选文档进行校验，因此对于文档进行校验时，首先需要获取候选文档。

步骤S22：获取候选文档在第一预设位置处的第一数据。

获取候选文档在第一预设位置处的第一数据，获取的第一数据用于对目标人物进行校验。第一预设位置可以设置为预设位置(如，最后50字等)、预设页码(如，第一页、最后一页等)等等，在此不做限定。

步骤S23：获取候选文档在第二预设位置处的第二数据。

获取候选文档在第二预设位置处的第二数据，获取的第二数据用于对文档的合法性进行校验。与第一预设位置类似地，第二预设位置也可以设置为预设位置(如，最后50字等)、预设页码(如，第一页、最后一页等)，在此不做限定。

需要说明的是，步骤S22和步骤S23可以同时执行，即可以同时获取候选文档在第一预设位置处的第一数据和在第二预设位置处的第二数据。当然，步骤S22和步骤S23也可以按先后顺序执行，如可以先执行步骤S22，后执行步骤S23，也可以先执行步骤S23，后执行步骤S22，在此不做限定。此外，在对候选文档进行校验过程中，可以仅做与目标人物相关的校验，也可以仅做与合法性相关的校验，当然为了提升校验精度，与目标人物相关的校验以及与合法性相关的校验都可以实施，在此不做限定。

步骤S24：判断第一数据是否涉及目标人物，若否，则执行步骤S27，否则根据步骤S25的第二子结果获取最终的校验结果。

在一个实施场景中，获取到的第一数据用于对目标人物进行校验，判断第一数据是否涉及目标人物。例如，可以检查候选文档的预设位置的第一数据(如，最后50字、第一页等)是否包含目标人物等，在此不做限定。若涉及目标人物，则第一子结果为是(即通过与目标人物相关的校验)，需要获取第二子结果并依据两个子结果，获取候选文档最终的校验结果。

步骤S25：判断第二数据是否合规合法，若否，则执行步骤S27；否则结合步骤S24的第一子结果获取最终的校验结果。

在一个实施场景中，获取到的第二数据用于对合规合法进行校验，判断第二数据是否合规合法。例如，可以检查候选文档的预设位置的第二数据(如，最后50字，第一页等)是否包含印鉴信息(如，捺印、盖章、签字等)，在此不做限定。若合规合法，则第二子结果为是(即通过合规合法相关的校验)。

需要说明的是，在第二数据合规合法的情况下，若步骤S24的第一子结果为是，则可以认为候选文档最终的校验结果为是(即通过校验)，则可以执行步骤S26，若步骤S24的第一子结果为否，则可以认为候选文档最终的校验结果为否(即未通过校验)，则可以执行步骤S27。

步骤S26：将该候选文档保留在候选文档列表中。

在一个实施场景中，基于第一子结果和第二子结果，若第一子结果为是，并且第二子结果也为是，则将选取的候选文档保留在候选文档列表中。

步骤S27：将该候选文档从候选文档列表中删除。

基于第一子结果和第二子结果，若第一子结果或者第二子结果中出现判断结果为否，则说明候选文档可能并未涉及到目标人物或者未达到合规合法要求，这类候选文档的内容不做参考，因此将此候选文档从候选文档列表中删除，删除的候选文档会返回至待关联文档中。

在一个实施场景中，第一字段属性包括第一关键字段所涉及的目标人物，校验结果包括第一子结果、第二子结果中至少一者，第一子结果包括候选文档是否涉及目标人物，第二子结果包括候选文档是否合规合法。其中，对于候选文档中涉及目标人物的校验是为了保证其目标人物与候选文档存在对应关系，仍以案件处理场景为例，一起案件可能会涉及到多个嫌疑人，即此时有多个目标人物，但是候选文档中不一定是相互对应的，因此需要对候选文档进行筛选，以保证目标人物对应的候选文档是相互对应的。

在一个实施场景中，校验结果包括第一子结果，第一子结果包括获取候选文档在第一预设位置的第一数据，基于第一数据是否包含目标人物，获取第一子结果。如表2所示，表2是字段类型与关联文档判断映射关系一实施例的示意表，若目标人物不唯一时，目标人物与候选文档之间的对应关系是否正确成为关键问题。仍以案件处理场景为例，若目标人物有两个，一个是“张三”，一个是“李四”，对目标人物“张三”的字段类型进行文档关联，推荐的待关联文档类型包括了“拘留证”、“逮捕证”、“判决书”等，对于这些待关联文档需要进一步判断这些文档中哪些属于目标人物“张三”，确保目标人物与文档之间存在对应关系。目标人物通过对待关联文档的第一预设位置处的第一数据进行校验。例如，文档第一页包含目标人物姓名、文档最后五十字包含嫌疑人姓名、文档第一页包含目标人物姓名、目标人物身份证号等。

表2字段类型与关联文档判断映射关系一实施例的示意表

在一个实施场景中，校验结果包括第二子结果，且第二子结果的获取步骤包括获取候选文档在第二预设位置处的第二数据；基于第二数据是否包含印鉴信息，获取第二子结果。如表2所示，在文档文件中的固定位置会有特定的文档标识，通过图文识别引擎对文档中签名、捺印、印章信息进行识别，结合相关规定，对文档的合规合法性进一步判断，通过合规合法性校验的文档才可以作为候选文档输出相关数据和结果。例如：询问笔录最后一页包含目标人物捺印，目标人物为被询问人；拘留证有被目标人物签名和捺印，目标人物为被拘留人。

请参阅图3，图3是图1中选择关联文档另一实施例的流程示意图。具体而言，目标文档还可以涉及多个目标人物，在此情况下，可以包括如下步骤：

步骤S31：识别目标文档中第一关键字段及其第一字段属性。

第一字段属性包括第一关键字段所属的第一字段类型，若目标文档中第一字段类型不止一个。例如，第一字段类型为“姓名”和“身份证号码”，对于第一字段类型“姓名”和“身份证号码”需要保证字段类型与文档类型之间的对应关系，减少工作中出现失误等影响工作进度的行为。

步骤S32：匹配搜索得到候选文档。

在一个实施场景中，基于字段类型与文档类型之间的映射关系，在至少一个待关联文档中搜索得到与第一关键字段相关的候选文档，基于映射关系，选择与第一关键字段所属的第一字段类型相关的文档类型作为候选类型；基于候选类型与各个待关联文档的文档标题之间的相似度，选择待关联文档作为候选文档。其中，选择第一关键字段所属的第一字段类型的相关文档作为候选类型，若将第一字段类型划分为两个大类，第一类型为与嫌疑人有关的字段类型，如可以包括但不限于姓名、身份证号、受教育情况等，第二类型为与案件相关的字段类型，如可以包括但不限于：前科情况、酒精含量、案发经过、认罪认罚等，此时对文档类型进行筛选，所有与第一字段类型有映射关系的文档均被列为候选文档，但是实际中可能会有数量较大的文档处于候选文档序列中，因此需要对候选文档进行筛选。本申请中对文档标题相似度设置阈值，对候选文档进行筛选，基于候选类型与各个待关联的文档标题之间的相似度，在此对于文档标题的相似度设置阈值，选择待关联文档作为候选文档。仍以案件处理场景为例，可以将阈值设置为0.8，即在文档标题与候选类型之间的文本相似度超过0.8，即筛选成功。以候选类型“延长拘留期限通知书”为例，文档标题为“司法鉴定意见书”，则其文档并未被筛选通过；若候选类型为“延长拘留期限通知书”，文档标题为“延长拘留期限通知书”，则其文档筛选通过。具体地，在筛选文档时设置的阈值范围，在此不做限定，可以根据实际情况进行设置。

步骤S33：判断匹配是否通过，若是，则执行步骤S34，否则执行步骤S38。

在一个实施场景中，候选类型与各个待关联文档的文档标题之间通过标题相似度对比进行筛选，筛选的目的是为了对候选文档进行分类，将关联度较高的文档保留下来，将关联度低的文档筛选出去，减轻阅读文档的工作强度，提高工作的速度。

步骤S34：校验目标人物。

在一个实施场景中，当候选文档经过筛选后，留下来的候选文档中包含了与目标人物相关的所有文档，但是目标人物并非只有一个，若目标人物不止一个时，候选文档中包含了所有目标人物的相关候选文档，若不对候选文档中的文档进行选择，不仅候选文档数量较多，而且在关联文档的过程中难以区别。仍以案件处理场景为例，若目标人物有两人，分别为“张三”和“李四”，候选文档中包含了与“张三”和“李四”相关的所有文档，候选文档有“拘留证”、“延长拘留期限通知书”、“逮捕证”、“取保候审通知书”、“接警记录表”、“认罪认罚具结书”，实际中，候选文档中只有“接警记录表”属于目标人物“张三”，其他的候选文档均属于目标人物“李四”，但若不对候选文档进行筛选，在进行文档关联并且查阅时，针对目标人物“张三”，需要对所有的候选文档进行查阅，对于目标人物“李四”，也需要对所有的候选文档进行查阅，因此对候选文档进行目标人物的校验可以进一步减少工作强度，提高工作效率。

步骤S35：校验是否通过，若是，则执行步骤S36，否则执行步骤S38。

在一个实施场景中，若校验通过，表明对于目标人物的候选文档是相互对应的，若校验未通过，表明该候选文档不属于对应的目标人物。

步骤S36：校验合法性。

在一个实施场景中，所有的候选文档均应该是合法的，候选文档的内容直接影响工作的内容，当文档关联方法用于诉讼案件时，候选文档将直接作为证据文档，因此需对文档的合规合法性进行验证。例如：候选文档为一份“立案处决书”，在候选文档的全证据文档中必须包含相关政府机关的印章；若候选文档为一份个人“申请书”，在申请书落款必须有个人签名、日期等。只有当候选文档是合法的，候选文档才有与参阅意义。

步骤S37：校验是否通过，若是，则执行步骤S39，否则执行步骤S38。

若性校验通过，说明候选文档是合法的，否则，候选文档将不能作为被关联文档。

步骤S38：删除该候选文档。

在一个实施场景中，删除的候选文档会重新返回至待关联文档列表中，以确保在下一个第一字段类型与其有映射关系时，对待关联文档进行搜索不会遗漏任一一份文档。例如：若目标人物有两人，分别为“张三”和“李四”，候选文档中包含了与张三”和“李四”相关的所有文档，候选文档有“拘留证”、“延长拘留期限通知书”、“逮捕证”、“取保候审通知书”、“接警记录表”、“认罪认罚具结书”，实际中，候选文档中只有“接警记录表”属于目标人物“张三”，对于目标人物“张三”进行筛选后，会删除“拘留证”、“延长拘留期限通知书”、“逮捕证”、“取保候审通知书”、“认罪认罚具结书”，这些文档会重新回到待关联文档中，当对目标人物“李四”进行筛选时，相关的候选文档不会发生遗漏现象，保证工作的正常进行。

步骤S39：保留该候选文档。

在一个实施场景中，当候选文档经过筛选后被保留下来，表明候选文档为目标人物相关的候选文档，根据候选文档中的优先级顺序排列在候选文档列表中。

上述方案，识别目标文档中的第一关键字段和第一字段属性，第一字段属性包括第一字段所属的第一字段类型；基于字段类型与文档类型之间的映射关系，在至少一个待关联文档中搜索得到与第一关键字段相关的候选文档；基于各个候选文档的校验结果，选择所述候选文档作为关联文档。故在查找关联文档的过程中提高了查找的正确率。此外，由于在关联文档的筛选过程中进行校验，从而能够尽可能的减少在关联文档查找过程中的错误率。

在一些公开实施例中，在确定目标文档的关联文档之后，还可以响应于用户在目标文档选择的第一关键字段，将所选择的第一关键字段作为目标关键字段，并在文档显示界面同屏显示目标文档以及与目标关键字段对应的关联文档，且文档显示界面包括第一显示区域和第二显示区域，第一显示区域用于显示目标文档，第二显示区域用于显示关联文档。

在一个实施场景中，仍以案件处理场景为例，目标文档可以为“张三于某年某月进珠宝店偷窃珠宝若干……”等内容，当用户在目标文档选择的第一字段为“张三”，第一字段类型为“前科情况”，对应关联文档显示界面将出现“张三”的“拘留证”、“逮捕证”、“取保候审通知书”等关联文档，并且关联文档按照优先级顺序进行排列。其中，文档显示界面有两个显示区域，第一显示区域显示目标文档内容，第二显示区域显示关联文档内容，第一显示区域与第二显示区域可以是上下分布，或者是左右分布的，在此不做限定。

在一个实施场景中，不同关联文档类型具有不同优先级，第二显示区域按照优先级依序显示关联文档。仍以案件处理场景为例，当关联文档中出现“拘留证”、“逮捕证”、“延长拘留期限通知书”时，其优先级顺序可以根据业务需要自行配置，可以配置的优先级顺序依次为“拘留证”、“延长拘留期限通知书”、“逮捕证”，业务人员需要对延长拘留期限通知书中的延长期限理由进行调查，是否案件之间有关联，或者其他理由，具体优先级顺序可以根据实际情况进行配置，在此不做限定。在优先级顺序配置完成后，可以在第二显示区域进行查阅，第二显示区域还可以设置向上或者向下的按钮，用户可以点击向上或者向下的按钮，进行关联文档之间的切换显示，向上可以显示优先级更高的关联文档，向下可以显示优先级较低的关联文档，并且可以对页面的切换方式进行设置，例如可以设置为翻页形式，或者滑动形式，具体设置方式在此不做限定，可以根据实际情况进行设置。

在一个实施场景中，在文档显示界面同屏显示目标文档以及目标关键字段对应的关联文档之前，可以识别关联文档中第二关键字段及其第二字段属性，且第二字段属性包括第二关键字段所属的第二字段类型，再选择第二字段类型与第一字段类型相关的第二关键字段，作为目标关键字段的关联关键字段，且第二显示区域以预设格式突出显示关联文档中的关联关键字段。上述方式，对预设格式突出显示可以实现用户在查看关联文档时，展示的关联文档中的主要内容可以快速定位并且阅读。

在一个实施场景中，仍以案件处理场景为例，字段类型“姓名”可以关联“户籍信息”，对“户籍信息”中的字段类型“姓名”所在位置进行突出显示，更加智能化进行关联文档内容推荐，便于用户快速阅读和比对。此外，第二关键字段及其第二字段属性的获取方式，可以参阅前述公开实施例中第一关键字段及其第一字段属性的相关描述，在此不再赘述。

在一个实施场景中，仍以案件处理为例，可以对“户籍信息”中的“姓名”所在位置进行突出显示，若户籍信息登记表是已经定义好的内容，在户籍信息登记表的第一段文字区域填写的内容就是“姓名”，则可以直接根据业务规则识别字段类型进行识别，直接定位到文档内容搞得第一段文字区域；若户籍信息登记表并未进行定义，则需要根据要素抽取字段类型的方式进行识别。通过识别，第二显示区域以预设格式突出显示关联文档中的关联关键字段。其中，突出显示的方法可以是高亮显示，并且高亮显示区域的颜色可以自行设置，在此不做限定。

在一个实施场景中，可以基于用户对各个第一关键字段对应的关联文档的查看情况，调整映射关系，且查看情况包括查看时长、查看频率中至少一者。上述方式，在文档显示界面同屏显示目标文档以及与目标关键字段对应的关联文档，且以预设格式突出显示关联文档中的关联关键字段，能够尽可能的提高工作中对于文档关键字段的查找速度，提高工作效率。

在一个具体的实施场景中，对查看情况是基于第二显示区域显示的关联文档进行查看的，可以根据用户的使用习惯或者是用户查看文档关联的紧密性进行调整。仍以案件处理为例，当用户工作一段时间后，需要对映射关系进行调整，若字段类型为“前科情况”，文档类型包括“拘留证”、“延长拘留期限通知书”、“逮捕证”、“取保候审通知书”，但是用户在实际应用中，用到“取保候审通知书”的概率只有不到5％，但是当字段类型为“前科情况”时，对于“接警记录表”的查阅概率约为70％。用户可以对其映射关系进行调整，将“取保候审通知书”与“前科情况”的映射关系删除，并且可以添加“接警记录表”与“前科情况”的映射关系，具体地映射关系可以根据用户的实际使用进行设置，在此不做限定。

在另一个具体的实施场景中，基于用户对各个第一关键字段对应的关联文档的查看情况，若关联文档在第二显示区域的显示时间在后台可以进行统计，并且对查看的次数也进行统计，当用户对任一关联文档进行阅读时，后台均可以记录用户的阅读时间，当用户需要对候选文档中的优先级顺序进行调整时，可以参考后台的统计数据进行调整，例如：候选文档中有“拘留证”、“延长拘留期限通知书”、“逮捕证”、“取保候审通知书”，用户可以在后台对查看时间和查看次数进行参考，可以对查看时间和查看次数单一进行参考或者两者结合参考均可以，具体不做限定，可以根据实际应用场景设置。

请参阅图4，图4是本申请文档关联装置一实施例的框架示意图。文档关联装置40包括文档获取模块41、文档识别模块42、文档搜索模块43和文档选择模块44。其中，文档获取模块41用于获取文档集合，文档集合包括若干文档，若干文档包括目标文档和至少一个待关联文档；文档识别模块42用于识别目标文档中第一关键字段及其第一字段属性；第一字段属性包括第一关键字段所属的第一字段类型；文档搜索模块43，用于基于字段类型与文档类型之间的映射关系，在至少一个待关联文档中搜索得到与第一关键字段相关的候选文档；文档选择模块44，用于基于各个候选文档的校验结果，选择候选文档作为关联文档。

在一些公开实施例中，映射关系包括各个字段类型的子映射关系，且子映射关系包括字段类型以及与字段类型相关的至少一种文档类型。

因此，通过映射关系可以提高对文档关联的准确度，进而提高对文档关联的速度，进一步提高工作效率。

在一些公开实施例中，文档搜索模块43包括候选类型确定子模块，用于基于映射关系，选择与第一关键字段所属的第一字段类型相关的文档类型作为候选类型，文档搜索模块43包括候选文档确定子模块，用于基于候选类型与各个待关联文档的文档标题之间的相似度，选择待关联文档作为候选文档。

因此，通过候选类型与各个待关联文档的文档标题之间的相似度，选择待关联文档作为候选文档可以尽可能的提高文档关联的准确度，能够尽可能地降低文档关联的错误率。

在一些公开实施例中，第一字段属性包括第一关键字段所涉及的目标人物。校验结果包括第一子结果和第二子结果中至少一者，第一子结果包括候选文档是否涉及目标人物，第二子结果包括候选文档是否合规合法。

因此，通过第一校验子结果判断候选文档是否涉及目标人物，通过第二判断子结果判断候选文档是否合规合法，选择的候选文档尽可能的提高了文档关联的准确度，有利于减少工作过程中对于无效文档的阅读数量，提高工作效率。

在一些公开实施例中，校验结果包括第一子结果，文档选择模块44包括第一校验子模块，第一校验子模块包括第一数据获取单元，用于获取候选文档在第一预设位置处的第一数据，第一校验子模块包括第一结果获取单元，用于基于第一数据是否包含目标人物，获取第一子结果。

因此，通过获取第一预设位置处的第一数据，可以减少对文档中第一数据的查找时间，尽可能的提高工作效率。

在一些公开实施例中，校验结果包括第二子结果，文档选择模块44包括第二校验子模块，第二校验子模块包括第二数据获取单元，用于获取候选文档在第二预设位置处的第二数据，第二校验子模块包括第二结果获取单元，用于基于第二数据是否包含印鉴信息，获取第二子结果。

因此，通过获取预设位置处的第二数据，判断候选文档合规合法，有利于确定候选文档的合法性。

在一些公开实施例中，文档关联装置40还包括字段选择模块，用于响应于用户在目标文档选择的第一关键字段，将所选择的第一关键字段作为目标关键字段；文档关联装置40还包括文档显示模块，用于在文档显示界面同屏显示目标文档以及与目标关键字段对应的关联文档，文档显示界面包括第一显示区域和第二显示区域，第一显示区域用于显示目标文档，第二显示区域用于显示关联文档。

因此，通过同屏显示目标文档和关联文档，可以对两者的关键属性进行对比，提高阅读速度，提升工作效率。

在一些公开实施例中，不同文档类型具有不同优先级，第二显示区域按照优先级依序显示关联文档。

因此，通过优先级的顺序显示关联文档，有利于工作人员对关联文档进行分类，故能够更迅速准确的查阅关联文档内容。

在一些公开实施例中，文档识别模块42还用于识别关联文档中第二关键字段及其第二字段属性，其中，第二字段属性包括第二关键字段所述的第二字段类型，文档关联装置40还包括字段关联模块，用于选择与第一字段类型相关的第二关键字段，作为目标关键字段的关联关键字段，且第二显示区域以预设格式突出显示关联文档中的关联关键字段。

因此，通过对关联关键字段的突出显示，能够快速定位到关键字段内容，提高对关联文档的查阅速度，进一步提高工作效率。

在一些公开实施例中，第一关键字段及其第一字段属性是基于语义识别模型、预设业务规则中至少一者对目标文档识别得到的。

因此，通过语义识别模型或预设业务规则对目标文档进行识别，可以更加准确的确定第一关键字段和第一字段属性，进而能够快速准确的完成对目标文档的识别工作。

在一些公开实施例中，文档关联装置40还包括关系调整模块，用于基于用户对各个第一关键字段对应的关联文档的查看情况，调整映射关系，其中，查看情况包括查看时长、查看频率中至少一者。

因此，通过对映射关系的调整，在进行文档关联时，查阅关联文档更加便利，减少了工作人员对关联文档的筛选，能够节约时间，提高工作效率。

请参阅图5，图5是本申请电子设备一实施例的框架示意图。电子设备50包括相互耦接的存储器51和处理器52，存储器51中存储有程序指令，处理器52用于执行程序指令以实现上述任一文档关联方法实施例中的步骤。具体地，电子设备50可以包括但不限于：台式计算机、笔记本电脑、服务器、手机、平板电脑等等，在此不做限定。

具体而言，处理器52用于控制其自身以及存储器51以实现上述任一文档关联方法实施例中的步骤。处理器52还可以称为CPU(Central Processing Unit，中央处理单元)。处理器52可能是一种集成电路芯片，具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器52可以由集成电路芯片共同实现。

请参阅图6，图6是本申请计算机可读存储介质一实施例的框架示意图。计算机可读存储介质60存储有能够被处理器运行的程序指令61，程序指令61用于实现上述任一文档关联方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种文档关联方法，其特征在于，包括：

获取文档集合；其中，所述文档集合包括若干文档，所述若干文档包括目标文档和至少一个待关联文档；

识别所述目标文档中第一关键字段及其第一字段属性；其中，所述第一字段属性包括所述第一关键字段所属的第一字段类型；

基于字段类型与文档类型之间的映射关系，在所述至少一个待关联文档中搜索得到与所述第一关键字段相关的候选文档；

基于各个所述候选文档的校验结果，选择所述候选文档作为关联文档。

2.根据权利要求1所述的方法，其特征在于，所述映射关系包括各个所述字段类型的子映射关系，且所述子映射关系包括所述字段类型以及与所述字段类型相关的至少一种所述文档类型。

3.根据权利要求1所述的方法，其特征在于，所述基于字段类型与文档类型之间的映射关系，在所述至少一个待关联文档中搜索得到与所述第一关键字段相关的候选文档，包括：

基于所述映射关系，选择与所述第一关键字段所属的第一字段类型相关的文档类型作为候选类型；

基于所述候选类型与各个所述待关联文档的文档标题之间的相似度，选择所述待关联文档作为所述候选文档。

4.根据权利要求1所述的方法，其特征在于，所述若干文档与至少一个目标人物相关，所述第一字段属性包括所述第一关键字段所涉及的目标人物，所述校验结果包括第一子结果、第二子结果中至少一者，所述第一子结果包括所述候选文档是否涉及所述目标人物，所述第二子结果包括所述候选文档是否合规合法。

5.根据权利要求4所述的方法，其特征在于，所述校验结果包括所述第一子结果，且所述第一子结果的获取步骤包括：

获取所述候选文档在第一预设位置处的第一数据；

基于所述第一数据是否包含所述目标人物，获取所述第一子结果。

6.根据权利要求4所述的方法，其特征在于，所述校验结果包括所述第二子结果，且所述第二子结果的获取步骤包括：

获取所述候选文档在第二预设位置处的第二数据；

基于所述第二数据是否包含印鉴信息，获取所述第二子结果。

7.根据权利要求1所述的方法，其特征在于，在所述基于各个所述候选文档的校验结果，选择所述候选文档作为所述目标文档的关联文档之后，所述方法还包括：

响应于用户在所述目标文档选择的第一关键字段，将所选择的第一关键字段作为目标关键字段；

在文档显示界面同屏显示所述目标文档以及与所述目标关键字段对应的关联文档；

其中，所述文档显示界面包括第一显示区域和第二显示区域，所述第一显示区域用于显示所述目标文档，所述第二显示区域用于显示关联文档。

8.根据权利要求7所述的方法，其特征在于，不同所述文档类型具有不同优先级，所述第二显示区域按照所述优先级依序显示所述关联文档。

9.根据权利要求7所述的方法，其特征在于，在所述在文档显示界面同屏显示所述目标文档以及于所述目标关键字段对应的关联文档之前，所述方法还包括：

识别所述关联文档中第二关键字段及其第二字段属性；其中，所述第二字段属性包括所述第二关键字段所属的第二字段类型；

选择所述第二字段类型与所述第一字段类型相关的第二关键字段，作为所述目标关键字段的关联关键字段；

其中，所述第二显示区域以预设格式突出显示所述关联文档中的关联关键字段。

10.根据权利要求1所述的方法，其特征在于，所述第一关键字段及其第一字段属性是基于语义识别模型、预设业务规则中至少一者对目标文档识别得到的。

11.根据权利要求1所述的方法，其特征在于，在所述基于各个所述候选文档的校验结果，选择所述候选文档作为关联文档之后，所述方法还包括：

基于用户对各个所述第一关键字段对应的关联文档的查看情况，调整所述映射关系；

其中，所述查看情况包括查看时长、查看频率中至少一者。

12.一种文档关联装置，其特征在于，包括：

文档获取模块，用于获取文档集合；其中，所述文档集合包括若干文档，所述若干文档包括目标文档和至少一个待关联文档；

文档识别模块，用于识别所述目标文档中第一关键字段及其第一字段属性；其中，所述第一字段属性包括所述第一关键字段所属的第一字段类型；

文档搜索模块，用于基于字段类型与文档类型之间的映射关系，在所述至少一个待关联文档中搜索得到与所述第一关键字段相关的候选文档；

文档选择模块，用于基于各个所述候选文档的校验结果，选择所述候选文档作为关联文档。

13.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至11任一项所述的文档关联方法。

14.一种计算机可读存储介质，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至11任一项所述的文档关联方法。