CN111581975B

CN111581975B - 案件的笔录文本的处理方法、装置、存储介质和处理器

Info

Publication number: CN111581975B
Application number: CN202010388115.8A
Authority: CN
Inventors: 张强; 王志海; 喻波; 魏力; 谢福进
Original assignee: Beijing Wondersoft Technology Co Ltd
Current assignee: Beijing Wondersoft Technology Co Ltd
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2023-06-20
Anticipated expiration: 2040-05-09
Also published as: CN111581975A

Abstract

本发明公开了一种案件的笔录文本的处理方法、装置、存储介质和处理器。其中，该方法包括：获取目标案件的目标笔录文本；基于第一命名实体识别模型对目标笔录文本进行识别，得到目标笔录文本中的多个目标实体，其中，第一命名实体识别模型为使用多组样本数据通过迁移学习训练出的，多组样本数据中的每组数据均包括：目标笔录文本样本、目标笔录文本样本中的实体的标签，以及目标笔录文本样本与标签之间的对应关系，实体用于表征目标笔录文本样本的质量；输出通过多个目标实体生成的目标数值，其中，目标数值用于指示目标笔录文本的质量。本发明解决了对案件的笔录文本的处理效率低的技术问题。

Description

案件的笔录文本的处理方法、装置、存储介质和处理器

技术领域

本发明涉及文本处理领域，具体而言，涉及一种案件的笔录文本的处理方法、装置、存储介质和处理器。

背景技术

目前，笔录文本的质量的诉求对于案件的侦破具有重要的意义。然而，在实际的司法实践中，并未对笔录文本的质量标准给予足够的重视，在当前侦查讯问过程中，笔录文本的制作也存在了一些问题。面对飞速增长的历史案件，仅依靠人工对笔录文本进行审核，比如，对笔录文本进行人为统计和筛选，这不仅对人员的知识水平、判断经验要求较高，并且耗费时间较长，结果也极易受人为因素的影响，并不能有效保障笔录文本的准确性，从而存在对案件的笔录文本的处理效率低的技术问题。

针对上述现有技术中对案件的笔录文本的处理效率低的技术问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种案件的笔录文本的处理方法、装置、存储介质和处理器，以至少解决对案件的笔录文本的处理效率低的技术问题。

根据本发明实施例的一个方面，提供了一种案件的笔录文本的处理方法。该方法包括：案件的笔录文本的处理方法，其特征在于，包括：获取目标案件的目标笔录文本；基于第一命名实体识别模型对目标笔录文本进行识别，得到目标笔录文本中的多个目标实体，其中，第一命名实体识别模型为使用多组样本数据通过迁移学习训练出的，多组样本数据中的每组数据均包括：目标笔录文本样本、目标笔录文本样本中的实体的标签，以及目标笔录文本样本与标签之间的对应关系，实体用于表征目标笔录文本样本的质量；输出通过多个目标实体生成的目标数值，其中，目标数值用于指示目标笔录文本的质量。

可选地，基于第一命名实体识别模型对目标笔录文本进行识别，得到目标笔录文本中的多个目标实体，包括：基于第一命名实体识别模型对目标笔录文本进行识别，得到每个目标实体的置信度。

可选地，在基于第一命名实体识别模型对目标笔录文本进行识别，得到每个目标实体的置信度之后，该方法还包括：通过每个目标实体的置信度生成目标数值。

可选地，该方法还包括：获取原始笔录文本样本；对原始笔录文本样本进行预处理，得到目标笔录文本样本。

可选地，对原始笔录文本样本进行预处理，包括以下至少之一：将原始笔录文本样本的格式转换为纯文本格式；除去原始笔录文本样本中的第一字符；按照第二字符对原始笔录文本样本进行划分。

可选地，该方法还包括：从目标笔录文本样本中提取出以下至少之一类型的实体：人物信息、案件性质、案发时间、案发地点、涉案物品、案发经过、案发起因；和/或，从目标笔录文本样本中提取出符合法制要求的条件的实体。

可选地，在基于第一命名实体识别模型对目标笔录文本进行识别，得到目标笔录文本中的多个目标实体之前，该方法还包括：基于多组样本数据通过迁移学习对双向长短期记忆神经网络模型进行训练，得到第一命名实体识别模型。

可选地，在基于第一命名实体识别模型对目标笔录文本进行识别，得到目标笔录文本中的多个目标实体之前，该方法还包括：通过多组样本数据中的训练样本数据集对迁移神经网络模型进行训练，得到第二命名实体识别模型；通过多组样本数据中的验证样本数据集对第二命名实体识别模型进行验证，得到第三命名实体识别模型；通过多组样本数据中的测试样本数据集对第三命名实体识别模型进行测试，得到第一命名实体识别模型。

可选地，通过多组样本数据中的测试样本数据集对第三命名实体识别模型进行测试，得到第一命名实体识别模型，包括：通过多组样本数据中的验证样本数据集中的验证集对第二命名实体识别模型进行验证，得到验证结果；在验证结果大于第一阈值的情况下，停止通过多组样本数据中的训练样本数据集对迁移神经网络模型进行训练，以得到第一命名实体识别模型。

可选地，在输出通过多个目标实体生成的目标数值之后，该方法还包括：在目标数值小于第二阈值的情况下，输出提示信息，其中，提示信息用于指示目标笔录文本中缺失第一关键信息，第一关键信息用于目标案件进行分析。

可选地，多个目标实体为用于对目标案件进行分析的第二关键信息。

可选地，多个目标实体属于以下至少之一类型：人物信息、案件性质、案发时间、案发地点、涉案物品、案发经过、案发起因；和/或，多个目标实体符合法制要求的条件。

根据本发明实施例的另一方面，还提供了一种案件的笔录文本的处理装置。该装置可以包括：获取单元，用于获取目标案件的目标笔录文本；识别单元，用于基于第一命名实体识别模型对目标笔录文本进行识别，得到目标笔录文本中的多个目标实体，其中，第一命名实体识别模型为使用多组样本数据通过迁移学习训练出的，多组样本数据中的每组数据均包括：目标笔录文本样本、目标笔录文本样本中的实体的标签，以及目标笔录文本样本与标签之间的对应关系，实体用于表征目标笔录文本样本的质量；输出单元，用于输出通过多个目标实体生成的目标数值，其中，目标数值用于指示目标笔录文本的质量。

根据本发明实施例的另一方面，还提供了一种存储介质。该存储介质包括存储的程序，其中，在程序被处理器运行时控制存储介质所在设备执行本发明实施例的案件的笔录文本的处理方法。

根据本发明实施例的另一方面，还提供了一种处理器。该处理器用于运行程序，其中，程序运行时执行本发明实施例的案件的笔录文本的处理方法。

在本发明实施例中，采用获取目标案件的目标笔录文本；基于第一命名实体识别模型对目标笔录文本进行识别，得到目标笔录文本中的多个目标实体，其中，第一命名实体识别模型为使用多组样本数据通过迁移学习训练出的，多组样本数据中的每组数据均包括：目标笔录文本样本、目标笔录文本样本中的实体的标签，以及目标笔录文本样本与标签之间的对应关系，实体用于表征目标笔录文本样本的质量；输出通过多个目标实体生成的目标数值，其中，目标数值用于指示目标笔录文本的质量。也就是说，本申请将待分析质量的目标笔录文本输入至预先训练好的第一命名实体识别模型中，通过该第一命名实体识别模型准确分析出目标笔录文本的质量，避免了仅仅依靠人工对笔录文本进行审核，耗时长，结果易受人为因素影响，解决了对案件的笔录文本的处理效率低的技术问题，达到了提高对案件的笔录文本的处理效率的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的案件的笔录文本的处理方法；

图2是根据本发明实施例的一种笔录文本质量的分析方法的流程图；

图3是根据本发明实施例的一种笔录质量分析模型的结构示意图；

图4是根据本发明实施例的一种训练质量分析模型的示意图；以及

图5是根据本发明实施例的一种案件的笔录文本的处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种案件的笔录文本的处理方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的案件的笔录文本的处理方法。如图1所示，该方法包括如下步骤：

步骤S102，获取目标案件的目标笔录文本。

在本发明上述步骤S102提供的技术方案中，目标案件为需要记录案件信息的案件，可以为刑事案件、民事案件等需要侦破的公安领域的案件等，此处不做具体限定。

获取目标案件的目标笔录文本，该目标笔录文本为以文本的形式记录在案的案件信息，可以包括讯问笔录文本和询问笔录文本，可以记录有犯罪事实、固定证据等。

可选地，该目标笔录文本可以是包含的“七何”要素不完整，比如，何事、何时、何地、何物、何情、何故、何人不完整；对嫌疑人的告知事项不全面；存在明显的错别字，或用语、标点符号不规范，人称混乱；目标笔录文本没有讯问人员或记录人员的签字，使得该目标笔录文本缺乏合法性，从而造成证据链的不完整。因而，该实施例需要对上述目标笔录文本的质量进行进一步分析。

步骤S104，基于第一命名实体识别模型对目标笔录文本进行识别，得到目标笔录文本中的多个目标实体。

在本发明上述步骤S104提供的技术方案中，在获取目标案件的目标笔录文本之后，可以基于第一命名实体识别模型对目标笔录文本进行识别，得到目标笔录文本中的多个目标实体，其中，第一命名实体识别模型为使用多组样本数据通过迁移学习训练出的，多组样本数据中的每组数据均包括：目标笔录文本样本、目标笔录文本样本中的实体的标签，以及目标笔录文本样本与标签之间的对应关系，实体用于表征目标笔录文本样本的质量。

在该实施例中，可以预先训练第一命名实体识别(Named Entity Recognition)模型，该模型是自然语言处理(Natural Language Processing，简称为NLP)的一个任务，目的是从非结构化的文本中抽取出实体，这些实体可以包括人名、地名、机构、时间等，也可以称为笔录质量分析模型。该实施例可以预先采集大量的多组样本数据，该多组样本数据可以是大量公安笔录数据，其中的每组数据可以包括目标笔录文本样本、目标笔录文本样本中的实体的标签，以及目标笔录文本样本与标签之间的对应关系，其中，目标笔录文本样本中的实体用于表征目标笔录文本样本的质量，可以通过人工标注得到。在采集上述多组样本数据之后，可以使用该多组样本数据通过迁移学习训练出上述第一命名实体识别模型。可选地，该实施例的第一命名实体识别模型是基于迁移学习的双向编码表示(BidirectionalEncoder Representations from Transformers，简称为BERT)，并加深网络的层数。

该实施例在训练得到第一命名实体识别模型之后，基于第一命名实体识别模型对目标笔录文本进行识别，也即，基于第一命名实体识别模型对目标笔录文本进行预测，从而得到目标笔录文本中的多个目标实体，该多个目标实体组成目标记录文本的实体集。可选地，该实施例可以对目标笔录文本进行编码，然后将编码后的目标笔录文本输入至第一命名实体识别模型中，通过该第一命名实体识别模型对案件要素进行识别，从而得到上述多个目标实体，该多个目标实体为目标笔录文本中的用于对目标笔录文本记录的质量进行分析的关键信息。

步骤S106，输出通过多个目标实体生成的目标数值，其中，目标数值用于指示目标笔录文本的质量。

在本发明上述步骤S106提供的技术方案中，在基于第一命名实体识别模型对目标笔录文本进行识别，得到目标笔录文本中的多个目标实体之后，输出通过多个目标实体生成的目标数值，其中，目标数值用于指示目标笔录文本的质量。

在该实施例中，每个目标实体可以对应一个数值，通过每个目标实体对应的数值生成目标数值。可选地，该实施例使用百分制的评分机制，则目标数值可以是目标笔录文本的得分。

可选地，该实施例的上述第一命名实体识别模型针对“七何”中的何事、何时、何地、何物、何情、何故、何人以及法律规范这些要素的所有实体都进行评分，在所有实体中，目标笔录文本中的多个目标实体对应的数值较高，而所有实体中除上述多个目标实体之外的实体对应的数值较小(比如，为0)，从而通过所有实体对应的数值计算得到目标笔录文本对应的目标数值，从而通过该目标数值只输出目标笔录文本的质量。可选地，该实施例的目标数值越高，则目标笔录文本的质量越高，如果目标数值越小，则目标笔录文本的质量就越低。

通过本申请上述步骤S102至步骤S106，获取目标案件的目标笔录文本；基于第一命名实体识别模型对目标笔录文本进行识别，得到目标笔录文本中的多个目标实体，其中，第一命名实体识别模型为使用多组样本数据通过迁移学习训练出的，多组样本数据中的每组数据均包括：目标笔录文本样本、目标笔录文本样本中的实体的标签，以及目标笔录文本样本与标签之间的对应关系，实体用于表征目标笔录文本样本的质量；输出通过多个目标实体生成的目标数值，其中，目标数值用于指示目标笔录文本的质量。也就是说，本申请将待分析质量的目标笔录文本输入至预先训练好的第一命名实体识别模型中，通过该第一命名实体识别模型准确分析出目标笔录文本的质量，避免了仅仅依靠人工对笔录文本进行审核，耗时长，结果易受人为因素影响，解决了对案件的笔录文本的处理效率低的技术问题，达到了提高对案件的笔录文本的处理效率的技术效果。

下面对该实施例的上述方法进行进一步介绍。

作为一种可选的实施方式，步骤S104，基于第一命名实体识别模型对目标笔录文本进行识别，得到目标笔录文本中的多个目标实体，包括：基于第一命名实体识别模型对目标笔录文本进行识别，得到每个目标实体的置信度。

在该实施例中，可以基于第一命名实体识别模型对目标笔录文本进行识别，不仅可以得到目标笔录文本中的每个目标实体，而且还可以得到每个目标实体的置信度，比如，score_i用于表示目标实体i的置信度。

作为一种可选的实施方式，在基于第一命名实体识别模型对目标笔录文本进行识别，得到每个目标实体的置信度之后，该方法还包括：通过每个目标实体的置信度生成目标数值。

在该实施例中，在得到每个目标实体的置信度之后，可以通过每个目标实体的置信度生成目标数值。可选地，该实施例针对何事、何时、何地、何物、何情、何故、何人以及法律规范这些要素的所有实体都进行编号，比如，score_i，其中，i＝1，2……n。通过第一命名实体识别模型对目标笔录文本进行分析，得到每个实体的置信度，其中，目标笔录文本中存在的目标实体的置信度较高，而所有实体中除目标笔录文本中存在的目标实体之外的实体对应的置信度较小(比如，为0)，进而可以将所有实体的置信度的平均值，确定为目标数值，比如，目标数值为

作为一种可选的实施方式，该方法还包括：获取原始笔录文本样本；对原始笔录文本样本进行预处理，得到目标笔录文本样本。

在该实施例中，在训练得到第一命名实体识别模型之前，可以采集大量的原始笔录文本样本，该原始笔录文本样本可以为最初采集到的公安笔录书，对其进行预处理，以使得预处理后的目标笔录文本样本符合训练第一命名实体识别模型的数据要求。

作为一种可选的实施方式，对原始笔录文本样本进行预处理，包括以下至少之一：将原始笔录文本样本的格式转换为纯文本格式；除去原始笔录文本样本中的第一字符；按照第二字符对原始笔录文本样本进行划分。

在该实施例中，在实现对原始笔录文本样本进行预处理时，可以是先将原始笔录文本样本的格式转换为纯文本格式，然后对其进行数据清洗，比如，除去原始笔录文本样本中的第一字符，该第一字符可以包括但不限于空格等非中英文的字符等。

在该实施例中，原始笔录文本的大部分段落可以由第二字符构成，比如，由“问”和“答”开头，该实施例可以按照第二字符对原始笔录文本样本进行划分。比如，将由“问”和“答”开头的相邻字符串组成一个完整语义结构体，可以将原始笔录文本中的以“问”和“答”的相邻段落成对划分，比如，原始笔录文本中的第一段开头为“问”，原始笔录文本中的第二段开头为“答”，则将原始笔录文本中的第一段和第二段合为一个段落，而将原始笔录文本中的以非“问”或“答”的段落可以单独划分为一个段落，从而实现了对原始笔录文本样本进行划分，进而实现了对原始笔录文本样本进行预处理的目的。

作为一种可选的实施方式，该方法还包括：从目标笔录文本样本中提取出以下至少之一类型的实体：人物信息、案件性质、案发时间、案发地点、涉案物品、案发经过、案发起因；和/或，从目标笔录文本样本中提取出符合法制要求的条件的实体。

在该实施例中，“七何”要素和法制要求的条件是侦查规范化、系统化和科学化的重要依据，“七何”要素可以反映案件的基本信息和关键线索，是讯问人员制作笔录时的主要记录内容。该实施例在对原始笔录文本样本进行预处理之后，可以从目标笔录文本样本中提取出符合“七何”要素的实体，比如，提取出属于人物信息、案件性质、案发时间、案发地点、涉案物品、案发经过、案发起因的实体，还可以是符合法制要求的条件的实体，并对提取出来的实体按照对应的类型进行人工标注。可选地，该实施例将目标笔录文本样本依据每个段落进行标注，定义标签类型。其中，人物信息可以是嫌疑人的基本信息(何人)，案件性质可以是案件的具体事项(何事)，案发时间可以是案件发生的时间(何时)，案发地点可以是案件发生时的地点(何地)，涉案物品可以是案件发生过程中所涉及的物品(何物)，案发经过可以案件发生的过程(何情)，案发起因可以是案件发生的原因(何故)，比如，犯罪起因。该实施例还可以从目标笔录文本样本中提取出符合法制要求的条件的实体，该法制要求的条件可以是法制要求的事项，比如，法制诉求、法制宣传、法律保障等，可以包括询问/讯问笔录基本信息、当事人个人基本信息、告知权利义务等。

作为一种可选的实施方式，在步骤S104，基于第一命名实体识别模型对目标笔录文本进行识别，得到目标笔录文本中的多个目标实体之前，该方法还包括：基于多组样本数据通过迁移学习对双向长短期记忆神经网络模型进行训练，得到第一命名实体识别模型。

在该实施例中，在采集到大量多组样本数据之后，可以基于多组样本数据通过迁移学习对双向长短期记忆(Long Short-term Memory，简称为LSTM)神经网络模型进行训练，得到第一命名实体识别模型。其中，LSTM神经网络模型属于循环神经网络的一类，可以用于解决循环神经网络(Recurrent Neural Network，简称为RNN)的长期依赖问题。

该实施例基于BERT迁移学习，利用多组样本数据获取到先验语义知识，并采用双向LSTM神经网络搭建的第一命名实体识别模型，该模型采用双向编码方式，并加深网络的层数。在经过两层双向编码后，第三层的每个位置已带有原本该位置上的字信息，可以采用随机选择一些要预测的词，然后用一个特殊的符号来代替它们。尽管模型最终还是会看到所有位置上的输入信息，但由于需要预测的词已经被特殊符号代替，所以模型无法获取该位置字的信息，这使得模型可以根据所给的标签去学习对应位置的词，以得到第一命名实体识别模型。

作为一种可选的实施方式，在步骤S104，基于第一命名实体识别模型对目标笔录文本进行识别，得到目标笔录文本中的多个目标实体之前，该方法还包括：通过多组样本数据中的训练样本数据集对迁移神经网络模型进行训练，得到第二命名实体识别模型；通过多组样本数据中的验证样本数据集对第二命名实体识别模型进行验证，得到第三命名实体识别模型；通过多组样本数据中的测试样本数据集对第三命名实体识别模型进行测试，得到第一命名实体识别模型。其中，通过多组样本数据中的测试样本数据集对第三命名实体识别模型进行测试，得到第一命名实体识别模型，包括：通过多组样本数据中的验证样本数据集中的验证集对第二命名实体识别模型进行验证，得到验证结果；在验证结果大于第一阈值的情况下，停止通过多组样本数据中的训练样本数据集对迁移神经网络模型进行训练，以得到第一命名实体识别模型。

在该实施例中，多组样本数据中可以包括训练样本数据集、验证样本数据集和测试样本数据集，其中，训练样本数据集、验证样本数据集和测试样本数据集之间的比例可以是6：2：2，训练样本数据集和验证样本数据集用于在训练阶段对模型进行训练，测试样本数据集用于在测试阶段对模型进行测试，多组样本数据中的每个句子均包含对应标签。

在训练阶段中，可以先加载迁移神经网络模型，该迁移神经网络模型也即预训练模型，然后读取训练样本数据集，通过训练样本数据集对迁移神经网络模型进行训练，其中，迁移神经网络模型的迁移层数L可以为12，隐层数H可以为768，总参数大小可以为110M，句子的最大长度为512，对读物到的训练样本数据集进行特征转换，可以将训练样本数据集按组划分批次，每批可以有64个数据集，每批量数据集可以包括四个特征，比如，可以是分词后每个词语在词典列表中的位置序号id，其中，补全符号对应的id为0，可以通过[CLS]表示句子开头，通过[SEP]表示句子的结尾。在中文中，词是基于字，包括真实字符和补全字符标识符，其中，真实字符对应1，补全字符标识符对应0；将所有标签依据字典转换为数字标识，得到转换特征，进而将转换特征作为上述迁移神经网络模型的输入，用于迭代训练，该实施例的测试样本数据集同样可以按照上述方法来转换特征。

在该实施例中，在每次迭代训练之后，可以通过验证样本数据集进行验证，调整模型参数，并给出相应的验证结果，比如，该验证结果为f1值，可以判断该f1值是否大于此前最高分，如果判断出该值大于此前最高分，则可以保留模型参数，否则flags加1，如果flags达到第一阈值，比如，大于6，则说明连续6个epoch模型(使用训练样本数据集训练了6次)的性能没有继续优化，则停止通过多组样本数据中的训练样本数据集对迁移神经网络模型进行训练，同样若epoch超过预设的最大迭代次数，也停止迭代，得到第三命名实体识别模型，进而对其进行保存。

在测试阶段中，加载已保存的第三命名实体识别模型，可以利用测试样本数据集对第三命名实体识别模型进行测试，得到测试结果，当测试结果与测试样本数据集中的真实实体的结果之间的误差小于一定阈值时，可以将第三命名实体识别模型确定为最终的第一命名实体识别模型，否则可以利用测试结果对第三命名实体识别模型的模型参数进行调整，进而利用测试样本数据集对调整模型参数后的第三命名实体识别模型进行测试，以得到最终的第一命名实体识别模型。

作为一种可选的实施方式，步骤S106，在输出通过多个目标实体生成的目标数值之后，该方法还包括：在目标数值小于第二阈值的情况下，输出提示信息，其中，提示信息用于指示目标笔录文本中缺失第一关键信息，第一关键信息用于目标案件进行分析。

在该实施例中，在输出通过多个目标实体生成的目标数值之后，可以判断目标数值是否小于第二阈值，如果判断出目标数值小于第二阈值，则确定目标笔录文本中缺失第一关键信息，比如，将通过第一命名实体识别模型对目标笔录文本进行识别得到的所有实体的置信度中，将置信度为0的实体确定为上述第一关键信息，该第一关键信息可以为在目标笔录文本中未出现的用于对目标案件进行分析的重要笔录要素，也即，需要补充审讯或询问的关键点，进而对其进行提示，使得相关人员改善或补充侦查的方向，为提高目标笔录文本的质量提供了有效的补充。

可选地，该实施例在通过第一命名实体识别模型对目标笔录文本进行识别时，还可以标记出目标笔录文本中的错别字、病句、语法、标点符号不规范、陈述要素不全等问题，最终形成总体评分，从而保证笔录文本表述准确和完整，进一步提高了笔录文本的质量。

作为一种可选的实施方式，多个目标实体为用于对目标案件进行分析的第二关键信息。其中，多个目标实体属于以下至少之一类型：人物信息、案件性质、案发时间、案发地点、涉案物品、案发经过、案发起因；和/或，多个目标实体符合法制要求的条件。

在该实施例中，多个目标实体为目标笔录文本中存在的实体，为用于对目标案件进行分析的第二关键信息，符合“七何”要素，且符合法制要求的条件。

该实施例的上述方法也即案件笔录质量分析的方法，对于笔录的实体预测精度在98％左右，高于传统词向量方法，能有效地提取笔录文本中的关键信息，并可检查笔录文本中缺少的部分，对其进行提示，可以应用在公安业务中，无需考虑跨语句之间的信息关联性，并且提供了评分机制，可通过其直观地找出还需改善或补充侦查的方向，从而为检查笔录的工作提供了有效的补充，解决了对案件的笔录文本的处理效率低的技术问题，达到了提高对案件的笔录文本的处理效率的技术效果。

实施例2

下面结合优选的实施方式对本发明实施例的技术方案进行进一步说明。

随着公安信息化的快速发展，刑事案件信息量与日俱增，公安部门在信息化建设方面也取得了一定的成效。公安领域的案件信息通常都是以文本的形式记录在案的，而讯问笔录和询问笔录作为刑事办案的必要侦查措施和必经程序，是公安侦查工作的重要环节之一，是记录犯罪事实、固定证据的重要线索和依据。高质量的笔录文本有助于还原出犯罪现场的真实情况，通过不同案件笔录中的线索可以关联相似的案件，能够有效帮助案件的侦破和串并案的发现。因此，本领域对于笔录文本的处理需求越来越迫切，同时笔录文本质量的诉求对于案件的侦破更具有重要的意义。然而，在实际的司法实践中，并未对笔录文本的质量标准给予足够的重视，在当前侦查讯问过程中，笔录文本的制作也存在了一些问题，主要包括“七何”要素和法制要求的条件这两大部分。

在本领域中，笔录文本中包含的“七何”要素(何事、何时、何地、何物、何情、何故、何人)不完整。公安机关在办理刑事案件的过程中，要求对案件的全时段内所涉及的“七何”要素的发现、收集、固定、整理和记录，并形成案件笔录文本。以“七何“”要素和法制要求的条件是侦查规范化、系统化和科学化的重要依据，刑事案件的“七何”特性反映了案件的基本信息和关键线索，是讯问人员制作笔录时的主要记录内容。

但是，笔录文本中对嫌疑人的告知事项不全面。讯问记录人员在记录时，应将告知事项全面地记录，以避免犯罪嫌疑人借此否认曾经告知的事项，造成翻供；文字水平不高，笔录文本中会存在明显的错别字，或者用语、标点符号不规范，人称混乱等；讯问笔录没有讯问人员或记录人员的签字，通常受原有制作笔录文本的影响，有些后续审讯录制的笔录文本并无讯问/记录人员、被讯问人员的签字，使得该笔录文本缺乏合法性，从而造成证据链的不完整。

笔录文本的质量标准是侦查规范化、系统化和科学化的重要依据，面对笔录文本中存在的以上诸多问题，虽然公安部门有完善的案件信息管理系统，可以方便地对案件笔录文本进行查询、筛选、统计等处理，为警务人员减少了一定的劳动量。但是，面对飞速增长的案件，仅仅依靠人工审核，不仅对人员的知识水平、判断经验要求较高，而且耗费时间较长，结果也极易受人为因素的影响，使得对笔录文本的质量进行分析的准确性不能得到有效保证。

在相关技术中，针对公安笔录的质量标准评价体系，主要依据法制部门的人为监管来执行，通常会按照“七何”要素与法制规范等要求对笔录文本进行人为统计和筛选。但是，依靠上述传统的文本数据处理方法，是难以通过评判标准对海量笔录进行有效监管的，更难以从中挖掘出有价值的线索。

针对案件笔录文本的质量标准评价，主要依据法制部门的人为监管结合传统的文本处理方法来执行。对于笔录文本的处理，可以采用预训练的词向量模型word2vec，将文本切词后进行编码，得到编码结果，根据编码结果获取词与词之间的关系。但是，词向量是通过浅层网络进行的无监督训练，虽然能够获得部分词之间的关联特性，但却缺少对连续长文本的内在联系和语言结构的表达能力；还可以基于词向量模型的命名实体识别方法对案件笔录文本的质量进行分析，但该方法基于语言模型任务，主要通过采用低维向量表示每个单词，单词的向量表示由预训练的词嵌入和基于深度神经网络学习的字符表示相连接而成。其中，词嵌入为通过使用Word2vec工具对语料进行无监督训练得到的低维稠密向量，包含了单词的语义信息；再通过常规的RNN或卷积神经网络(CNN)学习最终得到字符表示。虽然，采用词嵌入模型可以解决部分下游的NLP任务，但在面对多义词问题时，并无法区分该词在不同语义环境下所对应的不同含义，因为在用语言模型训练时，所有句子都经过Word2vec，多义词也会用一个参数向量空间来表示，从而导致两种不同的上下文信息编码到相同的Word2vec空间中。

基于上述问题，该实施例提出了一种基于自然语言处理的公安笔录质量分析方法，能够有效对笔录的内容进行分析，识别出笔录中的“七何”要素以及法制的要求条件，并标记笔录中的错别字、病句、语法、标点符号不规范、陈述要素不全等问题，最终形成总体评分，保证笔录文本表述的准确性和完整性，提高了笔录文本的质量，下面对其进行进一步介绍。

图2是根据本发明实施例的一种笔录文本质量的分析方法的流程图。如图2所示，该方法可以包括以下步骤：

步骤S201，对原始笔录文本样本进行预处理。

该实施例的笔录文本样本可以为大量公安笔录数据，可以将其转化为纯文本格式，并进行数据清洗。可选地，该实施例将原始笔录文本在转化为纯文本格式之后，除去文本中的空格、非中英文等字符，得到目标笔录文本样本。

可选地，该实施例的公安笔录数据的笔录格式大部分段落由“问”和“答”开头的相邻字符串组成一个完整语义结构体，将文本开头为“问”和“答”的相邻段落成对划分，比如，第一段开头为“问”，第二段开头为“答”，则将第一段和第二段合为一个段落；将文本开头非“问”或“答”的段落单独划分为一个段落，从而实现对原始笔录文本样本的预处理。

步骤S202，结合“七何”规则、法制要求的条件等标准对目标笔录文本样本进行标注。

该实施例可以定义类别集合，包括“七何”：何人、何事、何地、何时、何物、何情、何故等和法制要求的条件，该法制要求的条件可以是法律规范，包括询问/讯问笔录基本信息、当事人个人基本信息、告知权利义务等。

该实施例可以将目标笔录文本依据每个段落进行标注，定义标签类型。

步骤S203，建立笔录质量分析模型。

该实施例的笔录质量分析模型可以是基于IDCNN-CRF的命名实体识别模型，可以基于BERT迁移学习，获取到先验语义知识，并采用双向LSTM神经网络搭建命名实体识别模型。该模型采用双向编码方式，并加深网络的层数。

图3是根据本发明实施例的一种笔录质量分析模型的结构示意图。如图3所示，在模型采用两层双向编码(A、B、C、D)后，第三层每个位置已带有原本该位置上的字信息，所以采用随机选择一些要预测的词，然后用一个特殊的符号来代替它们。尽管模型最终还是会看到所有位置上的输入信息，但由于需要预测的词已经被特殊符号代替，所以模型无法获取该位置字的信息，使模型根据所给的标签去学习对应位置的词，并且通过Softmax函数将对应的神经元进行输出，以得到最终的笔录质量分析模型。

图4是根据本发明实施例的一种训练质量分析模型的示意图。如图4所示，该实施例可以将多组样本数据分为训练集、测试集和验证集三部分，其比例可以为6:2:2，训练集、验证集用于模型的训练阶段，测试集用于模型的测试阶段，其中每个句子均包含对应标签。

该实施例加载预训练模型，该预训练模型可以选用基于BERT的迁移神经网络模型，其迁移层数L＝12，隐层数H＝768，总参数大小为110M，句子的最大长度为512。在加载预训练模型之后，读取训练集中的数据，对读取到的数据进行特征转换。可选地，该实施例将训练集按组划分批次，可以每批64个数据集，每批量数据集包括四个特征：分词后每个词语在词典列表中的位置序号id，补全符号对应的id为0，通过[CLS]表示句子开头，[SEP]表示句子的结尾。在中文中，词是基于字，包括真实字符和补全字符标识符，真实字符的每个字对应1，补全符号对应0；该实施例将所有标签依据字典转换为数字标识，得到转换特征，进而将其作为BERT迁移模型的输入，用于模型训练，其中，测试集也可以按照上述方法进行特征转换。

在该实施例中，将转换特征送入模型进行训练，其中，每次迭代会在验证集上进行验证，调整模型参数，并给出相应的f1值。如果该值大于此前最高分，则保留模型参数，否则flags加1，如果flags>6，说明连续6个epoch模型的性能没有继续优化，停止训练过程，同样若epoch超过最大迭代次数，则停止迭代，选取最优模型，且保存最佳模型参数。然后进入测试阶段，通过测试集对加载的最优模型以及最佳模型参数进行测试，其中，测试集中的数据需要进行特征转换，将其输入至通过上述最优模型以及最佳模型参数得到的最新的模型中，在测试结果符合要求之后，将训练得到的最终的模型确定为上述笔录质量分析模型。

步骤S204，将目标笔录文本进行编码后，输入笔录质量分析模型中，对目标笔录文本进行实体识别，得到实体集。

该实施例可以依据笔录质量分析模型从目标笔录文本中识别出符合“七何”、法制要求的条件的实体集。

可选地，该实施例加载已保存的最佳的笔录质量分析模型，对目标笔录文本进行分析，可以得到目标笔录文本中的实体，以及每个实体的置信度。

步骤S205，通过实体集对目标笔录文本的质量进行分析与评分。

该实施例可以以步骤S204产生的实体集进行分析，筛选出实体集中未出现的笔录要素，可以将其作为评分依据。

可选地，该实施例通过目标笔录文本中的实体，以及每个实体的置信度并求得每篇目标笔录文本的最终得分：

以下通过具体实例对本发明的上述方法做进一步说明。

该实施例可以采集1000篇案件类型为入户盗窃的讯问笔录文本，通过标注讯问笔录文本中所包含的嫌疑人基本信息(何人)、案件性质(何事)、发案时间(何时)及地点(何地)、涉案物品(何物)、案发经过(何情)、犯罪起因(何故)等“七何”因素，以及法制要求的事项，比如，法制宣传，法律保障等，并将上述数据分为训练集、测试集与验证集三个数据集，比例为6：2：2，从而建立基于BERT迁移学习的命名实体识别模型，并实现了百分制的评分机制，设定阈值，对于低于该阈值的笔录，会对补充审讯的关键点给予提示。

实施例3

本发明实施例还提供了一种案件的笔录文本的处理装置。需要说明的是，该实施例的案件的笔录文本的处理装置可以用于执行本发明实施例的案件的笔录文本的处理方法。

图5是根据本发明实施例的一种案件的笔录文本的处理装置的示意图。如图5所示，该案件的笔录文本的处理装置50可以包括：获取单元51、识别单元52和输出单元53。

获取单元51，用于获取目标案件的目标笔录文本。

识别单元52，用于基于第一命名实体识别模型对目标笔录文本进行识别，得到目标笔录文本中的多个目标实体，其中，第一命名实体识别模型为使用多组样本数据通过迁移学习训练出的，多组样本数据中的每组数据均包括：目标笔录文本样本、目标笔录文本样本中的实体的标签，以及目标笔录文本样本与标签之间的对应关系，实体用于表征目标笔录文本样本的质量。

输出单元53，用于输出通过多个目标实体生成的目标数值，其中，目标数值用于指示目标笔录文本的质量。

该实施例的案件的笔录文本的处理装置，用于将待分析质量的目标笔录文本输入至预先训练好的第一命名实体识别模型中，通过该第一命名实体识别模型准确分析出目标笔录文本的质量，避免了仅仅依靠人工对笔录文本进行审核，耗时长，结果易受人为因素影响，解决了对案件的笔录文本的处理效率低的技术问题，达到了提高对案件的笔录文本的处理效率的技术效果。

实施例4

根据本发明实施例，还提供了一种存储介质，该存储介质包括存储的程序，其中，在程序被处理器运行时控制存储介质所在设备执行本发明实施例的案件的笔录文本的处理的方法。

实施例5

根据本发明实施例，还提供了一种处理器，该处理器用于运行程序，其中，所述程序运行时执行本发明实施例的案件的笔录文本的处理的方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种案件的笔录文本的处理方法，其特征在于，包括：

获取目标案件的目标笔录文本；

基于第一命名实体识别模型对所述目标笔录文本进行识别，得到所述目标笔录文本中的多个目标实体，其中，所述第一命名实体识别模型为使用多组样本数据通过迁移学习训练出的，所述多组样本数据中的每组数据均包括：目标笔录文本样本、所述目标笔录文本样本中的实体的标签，以及所述目标笔录文本样本与所述标签之间的对应关系，所述实体用于表征所述目标笔录文本样本的质量；

输出通过所述多个目标实体生成的目标数值，其中，所述目标数值用于指示所述目标笔录文本的质量；

其中，输出通过所述多个目标实体生成的所述目标数值，包括：输出通过所述多个目标实体的置信度的平均值生成的目标数值。

2.根据权利要求1所述的方法，其特征在于，基于第一命名实体识别模型对所述目标笔录文本进行识别，得到所述目标笔录文本中的多个目标实体，包括：

基于第一命名实体识别模型对所述目标笔录文本进行识别，得到每个所述目标实体的置信度。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取原始笔录文本样本；

对所述原始笔录文本样本进行预处理，得到所述目标笔录文本样本。

4.根据权利要求3所述的方法，其特征在于，对所述原始笔录文本样本进行预处理，包括以下至少之一：

将所述原始笔录文本样本的格式转换为纯文本格式；

除去所述原始笔录文本样本中的第一字符；

按照第二字符对所述原始笔录文本样本进行划分。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：从所述目标笔录文本样本中提取出以下至少之一类型的所述实体：人物信息、案件性质、案发时间、案发地点、涉案物品、案发经过、案发起因；和/或，从所述目标笔录文本样本中提取出符合法制要求的条件的所述实体。

6.根据权利要求1所述的方法，其特征在于，在基于第一命名实体识别模型对所述目标笔录文本进行识别，得到所述目标笔录文本中的多个目标实体之前，所述方法还包括：

基于所述多组样本数据通过迁移学习对双向长短期记忆神经网络模型进行训练，得到所述第一命名实体识别模型。

7.根据权利要求1所述的方法，其特征在于，在基于第一命名实体识别模型对所述目标笔录文本进行识别，得到所述目标笔录文本中的多个目标实体之前，所述方法还包括：

通过所述多组样本数据中的训练样本数据集对迁移神经网络模型进行训练，得到第二命名实体识别模型；

通过所述多组样本数据中的验证样本数据集对所述第二命名实体识别模型进行验证，得到第三命名实体识别模型；

通过所述多组样本数据中的测试样本数据集对所述第三命名实体识别模型进行测试，得到所述第一命名实体识别模型。

8.根据权利要求7所述的方法，其特征在于，通过所述多组样本数据中的测试样本数据集对所述第三命名实体识别模型进行测试，得到所述第一命名实体识别模型，包括：

通过所述多组样本数据中的验证样本数据集中的验证集对所述第二命名实体识别模型进行验证，得到验证结果；

在所述验证结果大于第一阈值的情况下，停止通过所述多组样本数据中的训练样本数据集对所述迁移神经网络模型进行训练，以得到所述第一命名实体识别模型。

9.根据权利要求1至8中任意一项所述的方法，其特征在于，在输出通过所述多个目标实体生成的目标数值之后，所述方法还包括：

在所述目标数值小于第二阈值的情况下，输出提示信息，其中，所述提示信息用于指示所述目标笔录文本中缺失第一关键信息，所述第一关键信息用于所述目标案件进行分析。

10.根据权利要求1至8中任意一项所述的方法，其特征在于，所述多个目标实体为用于对所述目标案件进行分析的第二关键信息。

11.根据权利要求1至8中任意一项所述的方法，其特征在于，所述多个目标实体属于以下至少之一类型：人物信息、案件性质、案发时间、案发地点、涉案物品、案发经过、案发起因；和/或，所述多个目标实体符合法制要求的条件。

12.一种案件的笔录文本的处理装置，其特征在于，包括：

获取单元，用于获取目标案件的目标笔录文本；

识别单元，用于基于第一命名实体识别模型对所述目标笔录文本进行识别，得到所述目标笔录文本中的多个目标实体，其中，所述第一命名实体识别模型为使用多组样本数据通过迁移学习训练出的，所述多组样本数据中的每组数据均包括：目标笔录文本样本、所述目标笔录文本样本中的实体的标签，以及所述目标笔录文本样本与所述标签之间的对应关系，所述实体用于表征所述目标笔录文本样本的质量；

输出单元，用于输出通过所述多个目标实体生成的目标数值，其中，所述目标数值用于指示所述目标笔录文本的质量；其中，输出通过所述多个目标实体生成的所述目标数值，包括：输出通过所述多个目标实体的置信度的平均值生成的目标数据。

13.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序被处理器运行时控制所述存储介质所在设备执行权利要求1至11中任意一项所述的方法。

14.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至11中任意一项所述的方法。