CN112559748A

CN112559748A - 一种笔录数据案由分类方法、终端设备及存储介质

Info

Publication number: CN112559748A
Application number: CN202011499205.0A
Authority: CN
Inventors: 张云生; 蔡鹏辉
Original assignee: Xiamen Fadu Information Technology Co ltd
Current assignee: Xiamen Fadu Information Technology Co ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-03-26

Abstract

本发明涉及一种笔录数据案由分类方法、终端设备及存储介质，该方法中包括：S1：采集所有案由类型的笔录数据组成训练集，并对训练集中每个笔录数据的类型进行标注；S2：设置特征词词典，根据特征词词典提取训练集中每个笔录数据的所有特征词，并组成特征词集合；S3：根据训练集计算其对应的概率模型；S4：针对待分类笔录数据，根据特征词词典提取待分类笔录数据的所有特征词并组成特征词集合后，根据特征词集合和训练集对应的概率模型计算待分类笔录数据对应的类别。本发明通过对历史笔录数据中类型的概率进行统计，实现对案由的自动分类。

Description

一种笔录数据案由分类方法、终端设备及存储介质

技术领域

本发明涉及案件笔录领域，尤其涉及一种笔录数据案由分类方法、终端设备及存储介质。

背景技术

笔录是公安机关用于对证人、被害人、嫌疑人等进行记录问话信息的文档，而案由可以简要概述这份笔录的问话类型，案由会自动关联到笔录的案由属性，以便执法人员后续对笔录的自动归类。案由预测在执法人员对被询问人制作笔录时常常会出现忘记填写、无法分类或输入错误案由的情况。

发明内容

为了解决上述问题，本发明提出了一种笔录数据案由分类方法、终端设备及存储介质。

具体方案如下：

一种笔录数据案由分类方法，包括以下步骤：

S1：采集所有案由类型的笔录数据组成训练集，并对训练集中每个笔录数据的类型进行标注；

S2：设置特征词词典，根据特征词词典提取训练集中每个笔录数据的所有特征词，并组成特征词集合；

S3：根据训练集计算其对应的概率模型，概率模型中包括以下概率：P(y_j)、P(X_i|y_j)、P(X_i)，其中，y_j表示第j个类型，P(.)表示概率，X_i表示第i个特征词集合，X_i＝{x₁,x₂,…,x_k}，x₁,x₂,…,x_k表示第1，2，…，k个特征词；P(X_i|y_j)表示已知y_j的情况下X_i的概率；j∈[1，m]，m表示训练集中所有笔录数据的类型的总数，i∈[1，n]，n表示训练集中所有笔录数据包含的特征词集合的总数；

S4：针对待分类笔录数据，根据特征词词典提取待分类笔录数据的所有特征词并组成特征词集合后，根据特征词集合和训练集对应的概率模型计算待分类笔录数据对应的类别。

进一步的，步骤S1还包括对组成训练集的笔录数据进行过滤，剔除无效的笔录数据。

进一步的，笔录数据的过滤采用以下三种方法种的任一种：

(1)人工手动删除；

(2)根据笔录数据中包含的问题数目进行过滤，过滤掉问题数少于第一阈值或大于第二阈值的笔录数据；

(3)根据笔录的开始时间和结束时间进行过滤，无效的笔录数据的结束时间≤开始时间。

进一步的，步骤S1还包括组成训练集的笔录数据中的敏感词进行替换。

进一步的，通过特征词词典提取笔录数据的特征词之前还包括提取笔录数据中的案情描述数据，通过特征词词典提取案情描述数据中包含的所有特征词。

进一步的，案情描述数据的提取方法为通过正则表达式和语句相似性的方法进行提取。

进一步的，类别的计算公式为：

Y＝argmax(P(y_j|X))，j∈[1，m]

其中，X表示待分类笔录数据的特征词集合。

进一步的，步骤S4中还包括对待分类笔录数据中模板语句去除。

一种笔录数据案由分类终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，通过对历史笔录数据中类型的概率进行统计，实现对案由的自动分类。

附图说明

图1所示为本发明实施例一的流程图。

图2所示为该实施例中正则表达式模板示例图。

图3所示为该实施例中模板语句示例图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

本发明实施例提供了一种笔录数据案由分类方法，如图1所示，所述方法包括以下步骤：

S1：采集所有案由类型的笔录数据组成训练集，并对训练集中每个笔录数据的类型进行标注。

由于笔录系统生成的笔录数据，可能会掺杂着一些用户测试系统时录入的笔录数据，在系统正式上线并进行采集的过程中，这些数据并未得到清理，而这部分数据如被采集，则会对后续的处理造成一定的感染，因此，需要首先对这部分无效的笔录数据进行过滤。

该实施例中过滤采用的具体方法从以下几种中任选其一：

(1)人工手动删除；

(2)根据笔录数据中包含的问题数目进行过滤，过滤掉问题数少于8个或大于90个的笔录数据；

需要说明的是，8和90仅为该实施例中设定的优选实时方式，其为根据实验数据得出的范围，在其他的实施例中，本领域技术人员可以将8和90修改为其他值，在此不做限制。

(3)根据笔录的开始时间和结束时间进行过滤，无效的笔录数据的结束时间<＝开始时间。

需要说明的是，在其他实施例中也可以采用其他可行的方式进行过滤，在此不做限制。

由于笔录数据的内容中必然会带有人名、地名、手机号等涉及个人隐私的数据，该实施例中将这部分数据设定为敏感词，故需要在生成模板前把这些敏感词进行统一替换，如替换成xx。

S2：设置特征词词典，根据特征词词典提取训练集中每个笔录数据的所有特征词，并组成特征词集合。

通过特征词词典提取笔录数据的特征词之前还包括提取笔录数据中的案情描述数据，通过特征词词典提取案情描述数据中包含的所有特征词。该实施例中案情描述数据的提取方法为通过正则表达式和语句相似性的方法进行提取，采用的正则表达式模板示例如图2所示。语句相似性用于提取出相似但不相同的语句，避免信息的遗漏。

特征词为与案由类型相关的关键词。在特征词的提取过程中，首先对笔录数据进行分词处理，如将“小明昨天在万达广场被一个人偷走了手机”分词为小明、昨天、在、万达广场、被、一、个、人、偷、走了、手机。将分词处理后的各词与特征词词典中的所有词进行一一对比，查找到相同或相近的词后，将查找到的所有特征词组成特征词集合。如上述例子中查找到的特征词为被和偷，则特征词集合为{被，偷}。

S3：根据训练集计算其对应的概率模型，概率模型中包括以下概率：P(y_j)、P(X_i|y_j)、P(X_i)。

其中，y_j表示第j个类型，P(.)表示概率，X_i表示第i个特征词集合，X_i＝{x₁,x₂,…,x_k}，x₁,x₂,…,x_k表示第1，2，…，k个特征词；P(X_i|y_j)表示已知y_j的情况下X_i的概率；j∈[1，m]，m表示训练集中所有笔录数据的类型的总数，i∈[1，n]，n表示训练集中所有笔录数据包含的特征词集合的总数。

上述例子中，P(y_j)为P(盗窃)，其表示训练集的所有笔录数据中类型为盗窃的概率；P(X_i|y_j)为P(被，偷|盗窃)，其表示训练集的所有类型为盗窃的笔录数据中特征词集合为{被，偷}的概率；P(X_i)为P(被，偷)，其表示训练集的所有笔录数据中特征词集合为{被，偷}的概率，如P(被，偷)＝P(盗窃)*P(被,偷|盗窃)+P(抢劫)*P(被,偷|抢劫)+P(赌博)*P(被,偷|赌博)...........

类别的计算公式为：

Y＝argmax(P(y_j|X))，j∈[1，m]

其中，X表示待分类笔录数据的特征词集合。

另外，由于笔录内容的特殊性，所有笔录内容的前几句和后几句，一般都是相似的，该实施例中将其设定为模板语句，这些模板语句与用于分类的具体内容基本无关。因此在分类之前应将其去除，避免影响分类的准确性。模板语句示例如图3所示。

实施例二：

本发明还提供一种笔录数据案由分类终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述笔录数据案由分类终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述笔录数据案由分类终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述笔录数据案由分类终端设备的组成结构仅仅是笔录数据案由分类终端设备的示例，并不构成对笔录数据案由分类终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述笔录数据案由分类终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述笔录数据案由分类终端设备的控制中心，利用各种接口和线路连接整个笔录数据案由分类终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述笔录数据案由分类终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述笔录数据案由分类终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种笔录数据案由分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的笔录数据案由分类方法，其特征在于：步骤S1还包括对组成训练集的笔录数据进行过滤，剔除无效的笔录数据。

3.根据权利要求2所述的笔录数据案由分类方法，其特征在于：笔录数据的过滤采用以下三种方法种的任一种：

(1)人工手动删除；

4.根据权利要求1所述的笔录数据案由分类方法，其特征在于：步骤S1还包括组成训练集的笔录数据中的敏感词进行替换。

5.根据权利要求1所述的笔录数据案由分类方法，其特征在于：通过特征词词典提取笔录数据的特征词之前还包括提取笔录数据中的案情描述数据，通过特征词词典提取案情描述数据中包含的所有特征词。

6.根据权利要求5所述的笔录数据案由分类方法，其特征在于：案情描述数据的提取方法为通过正则表达式和语句相似性的方法进行提取。

7.根据权利要求1所述的笔录数据案由分类方法，其特征在于：类别的计算公式为：

Y＝argmax(P(y_j|X))，j∈[1，m]

其中，X表示待分类笔录数据的特征词集合。

8.根据权利要求1所述的笔录数据案由分类方法，其特征在于：步骤S4中还包括对待分类笔录数据中模板语句去除。

9.一种笔录数据案由分类终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～8中任一所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1～8中任一所述方法的步骤。