CN109408789A

CN109408789A - 一种笔录模板及其生成方法及笔录模板选择系统

Info

Publication number: CN109408789A
Application number: CN201811178783.7A
Authority: CN
Inventors: 蔡鹏辉; 张云生; 李木泉
Original assignee: Xiamen Fadu Information Technology Co Ltd
Current assignee: Xiamen Fadu Information Technology Co Ltd
Priority date: 2018-10-10
Filing date: 2018-10-10
Publication date: 2019-03-01
Anticipated expiration: 2038-10-10
Also published as: CN109408789B

Abstract

本发明涉及一种笔录模板及其生成方法及笔录模板选择系统，在该方法中，包括以下步骤：S100：采集多个笔录数据生成笔录数据集；S200：使用特定字符替换掉笔录数据中的敏感词，所述敏感词为个人隐私数据；S300：提取笔录数据中的问题，生成笔录模板；S400：根据笔录模板对应的模板类型，检测该笔录模板包含的对应该模板类型的必须问题的数量是否大于设定阈值，当大于时，则判定该笔录模板为合格笔录模板，并将其进行存储；S500：生成合格笔录模板的模板标签；S600：将生成的模板标签与其对应合格笔录模板存储进行一一对应存储。本发明通过对现有笔录数据的处理，来生成一种适用于对应类型的笔录模板，种类多样，适用于多数的笔录事件，极大方便笔录工作的进行。

Description

一种笔录模板及其生成方法及笔录模板选择系统

技术领域

本发明涉及案件审讯技术领域，尤其涉及一种笔录模板及其生成方法及笔录模板选择系统。

背景技术

笔录是公安机关用于记录对证人、被害人、嫌疑人等进行记录问话信息的文档，而笔录模板则是用于辅助公安机关在对证人、被害人、嫌疑人进行问话过程中的辅助模板，该模板根据案由、询讯问对象、笔录类型进行分类。常常会遇到在进行某类笔录时，找不到对应的笔录模板可用，或是找到对应类型的笔录模板时，模板内容不够丰富，可选择性不多，同时，笔录模板及时性也不够。

发明内容

针对上述问题，本发明旨在提供一种笔录模板及其生成方法及笔录模板选择系统，生成一种适用于对应类型的笔录模板，其种类多样，适用于多数的笔录事件。

具体方案如下：

一种笔录模板生成方法，包括以下步骤：

S100：采集多个笔录数据生成笔录数据集；

S200：使用特定字符替换掉笔录数据中的敏感词，所述敏感词为个人隐私数据；

S300：提取笔录数据中的问题，生成笔录模板；

S400：根据笔录模板对应的模板类型，检测该笔录模板包含的对应该模板类型的必须问题的数量是否大于设定阈值，当大于时，则判定该笔录模板为合格笔录模板，并将其进行存储；

S500：生成合格笔录模板的模板标签；

S600：将生成的模板标签与其对应合格笔录模板存储进行一一对应存储。

进一步的，步骤S100还包括对包含无效笔录数据的笔录数据集进行预处理，删除掉其内的无效笔录数据。

进一步的，步骤S100中删除无效笔录数据包括以下步骤：

S101：人工手动将笔录数据集中的无效笔录数据删除；

S102：设定笔录数据的问题数目的阈值范围，过滤掉问题数目在所述阈值范围之外的笔录数据；

S103：根据笔录数据的开始时间和结束时间进行过滤，设定结束时间<＝开始时间的笔录数据为无效的笔录数据。

进一步的，步骤S400中，所述模板类型根据案件类型、案件案由和询问对象来进行划分。

进一步的，步骤S500具体包括以下步骤：

S501：去除合格笔录模板中的与主题无关的问题；

S502：对合格笔录模板中剩余的文本内容进行精准分词；

S503：去除精准分词后的公共词，所述公共词为与主题无关且在笔录模板中经常出现的词；

S504：将剩余词进行组合生成模板标签。

进一步的，步骤S504采用TF-IDF算法来生成模板标签，具体计算公式为：

TF-IDF＝TF×IDF

其中，TF为词出现的频率，IDF为词的重要性度量；

其中，n_ij是词t_i出现在模板d_j中的出现次数，而分母是在模板d_j中所有词的出现次数之和；

其中，|D|为合格笔录模板中包含的模板总数，|{j:t_i∈d_i}|为包含词t_i的模板数目。

一种笔录模板，所述笔录模板使用本发明实施例中所述的笔录模板生成方法生成。

一种笔录模板选择系统，基于本发明实施例中所述的笔录模板，包括：笔录模板数据库、备选模板数据库、输入模块、显示模块和处理器，所述处理器分别于所述笔录模板数据库、备选模板数据库、输入模块和显示模块电性连接；

所述笔录模板数据库中包括合格笔录模板；

所述输入模块用于输入生成模板类型的输入项和笔录模板确认项；

所述处理器根据输入模块输入的输入项生成模板类型，根据模板类型从笔录模板数据库中提取出对应于该模板类型的所有笔录模板，添加到备选模板数据库中；

所述备选模板数据库中的所有笔录模板根据其被使用次数排序，设定使用次数多的位于前列；

所述显示模块将所述备选模板数据库中的笔录模板按顺序进行显示；

所述处理器根据输入模块输入的笔录模板确认项设定对应的笔录模板的使用次数加1。

本发明采用如上技术方案，通过对现有笔录数据的处理，来生成一种适用于对应类型的笔录模板，其种类多样，适用于多数的笔录事件，极大方便笔录工作的进行。

附图说明

图1所示为本发明实施例一的流程示意图。

图2所示为本发明实施例一的笔录内容示意图。

图3所示为本发明实施例一的笔录模板示意图。

图4所示为本发明实施例三的结构示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

参考图1～3所示，本发明实施例一提供了一种笔录模板生成方法，包括以下步骤：

S100：采集多个笔录数据生成笔录数据集。

常见的笔录内容如图2所示，常见的笔录模板如图3所示，其中W为问，D为答。

所述多个在该实施例中为大量，数量越多越好。

所述笔录模板为使用大量笔录数据来生成，该实施例中，所述笔录数据为通过笔录系统得到的笔录数据，所述笔录数据存储在数据库中，每个笔录数据均包括开始时间和结束时间，设定笔录数据开始进行笔录的时间为开始时间，结束笔录的时间为结束时间。由于笔录系统在使用之前首先要进行测试，在笔录系统测试过程中录入的笔录数据往往结果不准确，在系统正式上线后，这些笔录数据并未得到清理，在笔录系统的正常使用过程中，可能由于特殊原因记载了无效的笔录数据，当使用这部分无效笔录数据生成智能模板时，会对模板的生成造成一定的干扰，因此需要在提取笔录数据时将上述无效的笔录数据进行剔除。因此由笔录系统获得的笔录数据集可能包括无效笔录数据。因此，在最初阶段，首先需要将无效的笔录数据删除。

因此，该实施例中步骤S100还包括对包含无效笔录数据的笔录数据集进行预处理，删除掉其内的无效笔录数据。

该实施例中，删除无效笔录数据采用以下步骤：

S101：人工手动将笔录数据集中的无效笔录数据删除。

具体的方法可以以人工经验进行判断，比如：通过查看笔录内容来识别是否为无效笔录数据，由于系统测试是在一个特定时间进行的，因此还可以根据补录数据的时间来删除该特定时间内的笔录数据。

S102：设定笔录数据的问题数目的阈值范围，过滤掉问题数目在所述阈值范围之外的笔录数据。

该实施例中，所述阈值范围为8～90，问题数目小于8个或大于90个的笔录数据将被过滤掉，该实施例中，通过统计大量数据分析得出，当问题数目小于8个时，通常为测试数据或不规范的数据；当问题数目大于90个时，通常为重点案件数据，该类型的案件为特殊案件，因此应作为模板参考的范围。本领域技术人员可以根据具体情况设定问题数目的阈值范围。

如果笔录数据的结束时间<＝开始时间，则不符合正常笔录数据的逻辑，则为无效的笔录数据。

需要说明的是，如果用于生成笔录模板的笔录数据集中的笔录数据均为有效的笔录数据，则可以跳过步骤S100，直接从步骤S200开始进行。

S200：使用特定字符替换掉笔录数据中的敏感词，所述敏感词为个人隐私数据。

由于笔录模板是从笔录数据逆向生成的，而笔录数据的内容中必然会带有人名、地名、手机号等涉及个人隐私且跟笔录模板不相关的数据，故需要在生成笔录模板前把这些个人隐私数据替换成特定字符，该实施例中使用的特定字符为“x”，本领域技术人员也可以使用其他字符作为特定字符。

所述敏感词的识别采用现有的常用算法识别即可，例如：手机号，可以用正则表达式进行过滤；而人名、地名就按自然语言处理技术(Natural Language Processing，NLP)进行识别。

S300：提取笔录数据中的问题，生成笔录模板。

所述笔录数据中包括问题和回答，参考图2所示，此处仅需提取出其中的问题即可。

S400：根据笔录模板对应的模板类型，检测该笔录模板包含的对应该模板类型的必须问题的数量是否大于设定阈值，当大于时，则判定该笔录模板为合格笔录模板，并将其进行存储。

所述必须问题为检测之前预先设定的，与模板类型一一对应。

由于针对不同的案件类型、案件案由和询问对象时进行笔录的问题也不相同，因此该实施例中，设定所述模板类型根据案件类型、案件案由和询问对象来进行划分，所述案件类型为行政案件、刑事案件等，所述案件案由为盗窃、抢劫等，所述询问对象为被告、原告等。本领域技术人员也可以使用其他类别进行划分，如划分的更细，或划分的更宽，当划分的更细时，则问题模板越准确，当划分的更宽时，则问题模板总数更少。

所述阈值的大小可以影响最终笔录模板的数量和质量，当阈值越大时，最终笔录模板的数量越少，质量越高；当阈值越小时，最终笔录模板的数量越多，质量越低。

S500：生成合格笔录模板的模板标签。

所述模板标签为从笔录模板中提炼出的该笔录模板的对应该笔录模板的内容主题的关键词。

具体包括以下步骤：

S501：去除合格笔录模板中的与主题无关的问题。

由于笔录内容的特殊性，所有笔录内容的前几句和后几句，通常都是相似的，而且这几句问题与模板的主题内容基本无关。例如图3中得问题模板中的前五个问题均为与主题无关的问题；图4所示均为与主题无关的问题。所以，在提取关键词组时，应该首先把这些内容去除掉。

虽然根据笔录类型的不同，笔录模板的内容均由不同，但整个笔录模板的整体结构大致相同，分为以下四方面：

(1)、告知部分

(2)、询问事项

(3)、内容部分

(4)、结尾(确认问题)

从上面的结构来看，不同的笔录模板，差异性的东西主要体现在第3部分-笔录主题内容，而我们主要是为了提取笔录模板的主题内容，为了避免干扰，优选去除与主题无关的部分(即每份笔录模板都有的第1、2和4部分)。

S502：对合格笔录模板中剩余的文本内容进行精准分词。

所述剩余的文本内容为已被去除“主题无关的问题”后的内容。

该实施例中，采用常用的开源分词组件进行分词，分词模式需调整为最大匹配方式，最大匹配分词模式方式，也称精准分词，有利于分出有意义的完整词。

例如：4月8日有一位北京大学学生外出钱包被盗，则：

最大匹配分词：4月8日/有/一/位/北京大学/学生/外出/钱包/被盗

完整分词：4月/8日/有/一/位/北京/大学/学生/外出/钱包/被盗

S503：去除精准分词后的词组中的公共词，所述公共词为与主题无关且在笔录模板中经常出现的词，例如“民警”、“是否”等。所述公共词组用户可以根据实际情况进行设定。

该实施例中，可以设定公共词的集合，然后将精准分词后的每个词与公共词的集合中的词进行比对，如果比对一致，则去除。

S504：生成模板的标签，所述模板标签为笔录模板的所有关键词的集合。

该实施例中，采用TF-IDF算法进行计算：

TF-IDF＝TF×IDF

其中，TF(term frequency，TF)为词频，是指某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化，以防止它偏向长的文件，相比于词数，更能体现出词语的重要性程度。(同一个词在长文件里可能会比短文件有更高的词数，而不管该词语重要与否。)对于在某一个特定文件d_j里的词语t_i来说，它的词频可表示为：

其中，n_ij是词t_i出现在模板d_j中的出现次数，而分母是在模板d_j中所有词的出现次数之和。

IDF(inverse document frequency)为逆向文件频率，是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语的文件数目，再将得到的商取对数：

其中，|D|为合格笔录模板中包含的模板总数，|{j:t_i∈d_i}|为包含词t_i的模板数目(即n_ij≠0的模板数目)。

如果该词不在合格笔录模板中，就会导致被除数为0，因此一般情况下使用1+|{j:t_i∈d_i}|。

某一特定模板内的高词语频率，以及该词语在整个模板集合中的低频率，可产生出高权重的TF-IDF。因此，该实施例中结合笔录模板的内容的特性，采用的TF-IDF算法可以更好地过滤掉常见的词语，保留重要的词语，使得提取出来的关键词组精准度更高。本领域技术人员也可以采用其他常用的文本处理算法。

每份笔录模板抽取的关键词，按权重值进行排序，保留前n个关键词即可，n的取值一般偏向20～50个即可，太少，不便于应用中使用，太多，占据存储空间，而且用途也不大。

实施例二：

本发明实施例二还提供一种笔录模板，使用实施例一所述的笔录模板生成方法生成。

实施例三：

如图4所示，本发明实施例三提供了一种笔录模板选择系统，基于实施例二所述的笔录模板，包括：笔录模板数据库、备选模板数据库、输入模块、显示模块和处理器，所述处理器分别于笔录模板数据库、备选模板数据库、输入模块和显示模块电性连接。

所述笔录模板数据库中包括上述实施例中生成的所有合格笔录模板。

所述输入模块用于输入生成模板类型的输入项和笔录模板确认项，该实施例中所述输入项为：案件类型、案件案由和询问对象三个输入项，本领域技术人员也可以根据上述实施例中设定的模板类型的划分条件来调整具体的输入项。

所述处理器根据输入模块输入的输入项生成模板类型，根据模板类型从笔录模板数据库中提取出对应于该模板类型的所有笔录模板，添加到备选模板数据库中。

所述备选模板数据库中的所有笔录模板根据其被使用次数排序，设定使用次数多的位于前列。

需要说明的是，笔录模板每次使用过后，对应笔录模板的使用次数增加，因此，根据新的使用次数更新备选模板集中笔录模板的排列顺序。

所述显示模块将所述备选模板数据库中的笔录模板按顺序进行显示。

当用户选中笔录模板时，通过输入模板输入笔录模板确认项，使用该笔录模板进行笔录工作，同时，处理器设定该笔录模板的使用次数加1。

进一步地，作为一个可执行方案，所述笔录模板选择系统可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，上述笔录模板选择系统的组成结构仅仅是笔录模板选择系统的示例，并不构成对笔录模板选择系统的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述笔录模板选择系统还可以包括网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentranProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digitan SignanProcessor，DSP)、专用集成电路(Appnication Specific Integrated Circuit，ASIC)、现成可编程门阵列(Fiend-Programmabne Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述笔录模板选择系统的控制中心，利用各种接口和线路连接整个笔录模板选择系统的各个部分。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种笔录模板生成方法，其特征在于，包括以下步骤：

S100：采集多个笔录数据生成笔录数据集；

S300：提取笔录数据中的问题，生成笔录模板；

S500：生成合格笔录模板的模板标签；

2.根据权利要求1所述的笔录模板生成方法，其特征在于：步骤S100还包括对包含无效笔录数据的笔录数据集进行预处理，删除掉其内的无效笔录数据。

3.根据权利要求2所述的笔录模板生成方法，其特征在于：步骤S100中删除无效笔录数据包括以下步骤：

S101：人工手动将笔录数据集中的无效笔录数据删除；

4.根据权利要求1所述的笔录模板生成方法，其特征在于：步骤S400中，所述模板类型根据案件类型、案件案由和询问对象来进行划分。

5.根据权利要求1所述的笔录模板生成方法，其特征在于：步骤S500具体包括以下步骤：

S501：去除合格笔录模板中的与主题无关的问题；

S502：对合格笔录模板中剩余的文本内容进行精准分词；

S504：将剩余词进行组合生成模板标签。

6.根据权利要求5所述的笔录模板生成方法，其特征在于：步骤S504采用TF-IDF算法来生成模板标签，具体计算公式为：

TF-IDF＝TF×IDF

其中，TF为词出现的频率，IDF为词的重要性度量；

7.一种笔录模板，其特征在于，所述笔录模板使用权利要求1～6中任一所述的笔录模板生成方法生成。

8.一种笔录模板选择系统，基于权利要求7中所述的笔录模板，其特征在于，包括：笔录模板数据库、备选模板数据库、输入模块、显示模块和处理器，所述处理器分别于所述笔录模板数据库、备选模板数据库、输入模块和显示模块电性连接；

所述笔录模板数据库中包括合格笔录模板；