CN109284279B

CN109284279B - 一种审讯问题选择方法、终端设备及存储介质

Info

Publication number: CN109284279B
Application number: CN201811036044.4A
Authority: CN
Inventors: 蔡鹏辉; 李木泉
Original assignee: Xiamen Fadu Information Technology Co ltd
Current assignee: Xiamen Fadu Information Technology Co ltd
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2021-02-05
Anticipated expiration: 2038-09-06
Also published as: CN109284279A

Abstract

本发明涉及一种审讯问题选择方法、终端设备及存储介质，在该方法中，包括以下步骤：S100：接收审讯问题包，所述审讯问题包包括审讯案由、审讯对象类型、当前问题和历史问题；S200：将审讯问题包中的当前问题与审讯问题数据库中的问题逐一进行相似度计算，提取出相似度最高的问题的问题ID；S300：根据审讯问题包中的审讯案由、审讯对象类型、历史问题和提取的相似度最高问题的问题ID从审讯问题数据库中提取出待输出问题。本发明将当前问题与历史审讯问题进行对比，寻找出其相似问题，进而在审讯问题数据库寻找出该相似问题对应的下一问题，使得输出的下一问题与当前问题更贴切真实审讯语境，提高整体问话水平。

Description

一种审讯问题选择方法、终端设备及存储介质

技术领域

本发明涉及案件审讯技术领域，尤其涉及一种审讯问题选择方法、终端设备及存储介质。

背景技术

随着科技的发展，案件的审讯工作也逐渐的引入科技产品，但由于受限于人类生活生产的发展、案件的形态变化和问话人员的知识等方面的约束，现如今问题推送方面的产品主要还集中在手动选择某种类型的模板或数据的产品。

现有的策略问话过程的主要方式如下：

1、选择某种问话模块；

2、根据模板内容中的固定问题进行问话；

3、发现问话过程存在问题时，手动重新选择一类固定问话模板继续问话；

4、结束问话；

而针对审讯过程来说，需要综合考量问题之间的问题关系度及问话的思维逻辑，因此需要一款更加智能化的案件问话产品。

发明内容

针对上述问题，本发明旨在提供一种审讯问题选择方法、终端设备及存储介质，可以在实时问话过程中，根据已有内容的语境及历史模型推送问话策略，促使问话人能够增强问话的策略思路，提高整体问话水平。

具体方案如下：

一种审讯问题数据库建立方法，包括以下步骤：

S201：接收第一个历史审讯数据包，所述历史审讯数据包包括审讯案由、审讯对象类型和多个问题，将历史审讯数据包拆分为单个的问题数据，每个问题数据中均包括问题ID、审讯案由、审讯对象类型和一个问题，其中每个问题数据中的问题ID均不同，将所述问题数据按顺序存入审讯问题数据库中；

S202：接收下一个历史审讯数据包，将该历史审讯数据包中的每一个问题与审讯问题数据库中的问题逐个进行相似度计算，设定相似度大于相似度阈值的问题为相似问题，针对每一个问题均判断是否存在相似问题，如果存在，则提取出相似问题中相似度最高的问题对应的问题ID作为该问题的问题ID，否则，则设定该问题的问题ID为与审讯问题数据库中的问题ID均不同的问题ID，将该历史审讯数据包拆分为单个的问题数据后按顺序存入审讯问题数据库中；

S203：重复步骤202，直到所有历史审讯数据包接受完。

进一步的，所述相似度的计算方法为：将两个问题中的无意义的词去掉后将其分别转化为词组的集合，通过计算词组之间的距离来计算两个问题之间的相似度。

一种审讯问题数据库，该审讯问题数据库基于本发明上述实施例所述的审讯问题数据库建立方法，其包括四栏，分别为审讯案由、审讯对象类型、问题ID和问题内容。

一种审讯问题选择方法，基于本发明上述实施例所述的审讯问题数据库，包括以下步骤：

S100：接收审讯问题包，所述审讯问题包包括审讯案由、审讯对象类型、当前问题和历史问题；

S200：将审讯问题包中的当前问题与审讯问题数据库中的问题逐一进行相似度计算，提取出相似度最高的问题的问题ID；

S300：根据审讯问题包中的审讯案由、审讯对象类型、历史问题和提取的相似度最高问题的问题ID从审讯问题数据库中提取出待输出问题。

进一步的，所述审讯问题选择方法还包括以下步骤：

S400：将步骤S200中的当前问题添加至历史问题中，将步骤S300中的待输出问题作为当前问题，返回步骤S200。

进一步的，步骤S300中从审讯问题数据库中提取出待输出问题的具体步骤为：

S301：以审讯问题包中的审讯案由、审讯对象类型和提取的相似度最高问题的问题ID为查找条件从审讯问题数据库中查找出所有的审讯案由、审讯对象类型和问题ID均与查找条件相同的问题作为查找问题，提取每一个查找问题在审讯问题数据库中的下一个问题，并将提取的问题中对应的审讯案由和审讯对象类型的内容与查找条件中的内容相同的问题作为待筛选问题；

S302：将待筛选问题中的在审讯问题包的历史问题中出现的问题删除后，提取出待筛选问题中出现次数最多的问题ID，将该问题ID作为待输出问题的问题ID；

S303：选择所述待输出问题的问题ID对应的问题进行输出。

进一步的，步骤S303中所述选择所述待输出问题的问题ID对应的问题进行输出的方法为：预先建立优选问题数据库，所述优选问题数据库包括两栏，分别为问题ID栏和优选问题栏，所述问题ID栏和优选问题栏中的内容一一对应，所述优选问题栏中的问题为符合语言习惯和排除敏感词后的问题。

一种审讯问题选择终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，将当前问题与历史审讯问题进行对比，寻找出其相似问题，进而在审讯问题数据库寻找出该相似问题对应的下一问题，使得输出的下一问题与当前问题更贴切真实审讯语境，提高整体问话水平。

附图说明

图1所示为本发明实施例一的流程示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

参考图1所示，本发明提供了一种审讯问题选择方法，包括以下步骤：

S100：接收审讯问题包，所述审讯问题包包括审讯案由、审讯对象类型、当前问题和历史问题。

所述审讯对象类型包括嫌疑人、受害人、证人等。

S200：将审讯问题包中的当前问题与审讯问题数据库中的问题逐一进行相似度计算，提取出相似度最高的问题的问题ID。

所述审讯问题数据库包含收集的所有历史审讯数据，其中的每一个历史审讯数据均拆分为单个的问题数据后，存入数据库中保存。

所述历史审讯数据的来源主要包括两大部分，一部分为笔录问话模板中抽取的审讯数据，另一部分为从各地市的实际问话笔录中抽取并去除敏感词和去重后汇集到一起的审讯数据。

所述历史审讯数据包均包括审讯案由、审讯对象类型和多个问题。

所述审讯问题数据库包括四栏，分别为审讯案由、审讯对象类型、问题ID和问题内容。其具体的建立过程为：

S201：接收第一个历史审讯数据包，所述历史审讯数据包包括审讯案由、审讯对象类型和多个问题，将历史审讯数据包拆分为单个的问题数据，每个问题数据中均包括问题ID、审讯案由、审讯对象类型和一个问题，其中每个问题数据中的问题ID均不同，将所述问题数据按顺序存入审讯问题数据库中。

S202：接收下一个历史审讯数据包，将该历史审讯数据包中的每一个问题与审讯问题数据库中的问题逐个进行相似度计算，设定相似度大于相似度阈值的问题为相似问题，针对每一个问题均判断是否存在相似问题，如果存在，则提取出相似问题中相似度最高的问题对应的问题ID作为该问题的问题ID，否则，则设定该问题的问题ID为与审讯问题数据库中的问题ID均不同的问题ID，将该历史审讯数据包拆分为单个的问题数据后按顺序存入审讯问题数据库中。

所述相似度的计算可以使用本领域公知的句子相似度的计算方法，该实施例中使用的方法为：将两个问题中的无意义的词去掉后将其分别转化为词组的集合，通过计算词组之间的距离来计算两个问题之间的相似度。

所述无意义的词如呢、啊、的等等。

所述问题转化为词组集合的转化方法为通过语料库(如维基百科的中文库)进行词向量的训练，形成向量模型库，然后将当前问题和待比较问题通过分词和词性标注的分词方法来进行转化，即将句子转化为多个词组的组合，将句子相似度的计算转化为对转化后的一系列的词组相似度的计算。

所述词组的相似度的计算方法本领域技术人员可以使用现有的技术手段来计算，该实施例中为通过词向量模型来计算，设定计算的两个句子之间的距离为D(X,Y)，所述距离为欧氏距离，当距离越小时，两个句子之间的相似度就越高，当距离越大时，两个句子之间的相似度就越低。

设定两个待比较问题分别为X和Y，将两个待比较问题中无意义的词去掉后转化为词组集合，即X＝(x1,x2,x3,...,xi)，Y＝(y1,y2,y3,...,yi)，其中xi和yi均为词组，将词组两两之间的距离，转换为句子的具体，再转化为两个问题的相似度。

在该实施例中，为了方便计算，使用1/(1+D(X,Y)来表示两个问题的相似度，即0<1/(1+D(X,Y)<1。

下面举例说明：

两个问题分别为：“你几岁了”和“你年龄多少”，将他们去除无意义的词后分别转化为词组组合分别为：(你，几，岁)和(你，年龄，多少)，词组之间两两之间进行相似度计算，取相似度最高的值记为该词的相似度，“你”与“你”的距离最小，为0，则0作为“你”与“你”的距离；“几”与“多少”的距离最小，为0.1，则0.1作为“几”和“多少”的距离；“岁”与“年龄”的距离最小，为0.2，则0.2作为“岁”和“年龄”的距离。则上诉两句子之间的距离为0+0.1+0.15＝0.25，则相似度为1/(1+D(X,Y)＝1/(1+0.25)＝0.8。

所述相似度阈值需要本领域技术人员根据经验来设定，该实施例中设定的相似度阈值的范围为0.6-0.8，相似度阈值的设定会影响到提取的相似问题的准确性。当相似度阈值设定的太小时，则被认定为同一问题的问题数量较多，会使认定不精准，会影响最终问题选择的准确性。当相似度阈值设定的太大时，则被认定为同一问题的问题数量较少，认定同样是会不精准，除了会影响最终问题选择的准确性，还会导致可能无法找到相似问题。当相似度阈值设定越大时，需要的问题提取数量就需要越多。

S203：重复步骤202，直到所有历史审讯数据包接受完。

需要说明的是，为了尽可能的使之后进行查找的每个问题都能找到其相似的问题，所述历史审讯数据包应越多越好，应包含已知的所有审讯案由和审讯对象类型对应的问题。

在一种可能的实施方式中，第一个历史审讯数据包中的问题包括：问题A、问题B、问题C和问题D，审讯案由为案由1，审讯对象类型为类型1，则保存后的问题数据表为：

审讯案由	审讯对象类型	问题ID	问题
				案由1	类型1	1	问题A
案由1	类型1	2	问题B
				案由1	类型1	3	问题C
案由1	类型1	4	问题D

第二个审讯数据包中的问题包括问题E、问题F和问题G，审讯案由为案由2，审讯对象类型为类型1，其中逐一计算相似度，设定相似度阈值为0.7，问题E与问题B的相似度为0.9，与问题A的相似度为0.8，与问题B的相似度更高，则将问题B的问题ID设定为问题E的问题ID即2；问题F与上面四个问题的相似度均小于0.7，因此将问题F的问题ID设定为与上述四个问题的问题ID均不同的值，即5；问题G与问题C的相似度为0.8，与其他问题的相似度小于0.7，则将问题G的问题ID设定为问题C的问题ID即3。则上述的问题数据表修改后的结果为：

审讯案由	审讯对象类型	问题ID	问题
				案由1	类型1	1	问题A
案由1	类型1	2	问题B
				案由1	类型1	3	问题C
案由1	类型1	4	问题D
				案由2	类型1	2	问题E
案由2	类型1	5	问题F
				案由2	类型1	3	问题G

之后的审讯数据包按上述的方法依次记录至问题数据表中。

所述待输出问题的提取方法包括以下步骤：

S301：以审讯问题包中的审讯案由、审讯对象类型和提取的相似度最高问题的问题ID为查找条件从审讯问题数据库中查找出所有的审讯案由、审讯对象类型和问题ID均与查找条件相同的问题作为查找问题，提取每一个查找问题在审讯问题数据库中的下一个问题，并将提取的问题中对应的审讯案由和审讯对象类型的内容与查找条件中的内容相同的问题作为待筛选问题。

S302：将待筛选问题中的在审讯问题包的历史问题中出现的问题删除后，提取出待筛选问题中出现次数最多的问题ID，将该问题ID作为待输出问题的问题ID。

S303：选择所述待输出问题的问题ID对应的问题进行输出。

需要说明的是，当在审讯问题数据库中未查找到审讯案由、审讯对象类型和提取的相似度最高问题的问题ID三个查找条件均相同的问题时，输出问题异常，表示未能查找到下一问题。

在一种可能的实施方式中，可以预先建立优选问题数据库，所述优选问题数据库包括两栏，分别为问题ID栏和优选问题栏，所述问题ID栏和优选问题栏中的内容一一对应，所述优选问题栏中的问题为本领域技术人员根据语言习惯和敏感词排除后设立的问题。上述步骤三中根据待输出问题的问题ID，从所述优选问题数据库提取出对应的优选问题，然后将该优选问题作为要输出的下一问题。通过该实施方式，可以确保输出的下一问题不存在敏感词且符合语言表达习惯。当然本领域技术人员也可以设定为从审讯问题数据库中随机选择一待输出问题的问题ID对应的问题进行输出。

步骤S300中的待输出问题对应于当前问题的下一问题，当需要重复输出时，则将步骤S300中的待输出问题作为当前问题，将之前的当前问题，即步骤S100中输入的当前问题添加到历史问题中当作历史问题，重新使用步骤S200-S300的方法输出第二、第三、第四……个问题。

具体为：

本发明实施例一中将当前问题与历史审讯问题进行对比，寻找出其相似问题，进而在审讯问题数据库寻找出该相似问题对应的下一问题，使得输出的下一问题与当前问题更贴切真实审讯语境，提高整体问话水平。

实施例二：

本发明还提供一种审讯问题选择终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述审讯问题选择终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述审讯问题选择终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述审讯问题选择终端设备的组成结构仅仅是审讯问题选择终端设备的示例，并不构成对审讯问题选择终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述审讯问题选择终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentranProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digitan SignanProcessor，DSP)、专用集成电路(Appnication Specific Integrated Circuit，ASIC)、现成可编程门阵列(Fiend-Programmabne Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述审讯问题选择终端设备的控制中心，利用各种接口和线路连接整个审讯问题选择终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述审讯问题选择终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digitan,SD)卡，闪存卡(Fnash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述审讯问题选择终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Onny Memory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种审讯问题选择方法，其特征在于：包括以下步骤：

所述审讯问题数据库包括四栏，分别为审讯案由、审讯对象类型、问题ID和问题内容；审讯问题数据库建立过程包括：

S203：重复步骤202，直到所有历史审讯数据包接收完；

S300：根据审讯问题包中的审讯案由、审讯对象类型、历史问题和提取的相似度最高问题的问题ID从审讯问题数据库中提取出待输出问题，具体步骤为；

S303：选择所述待输出问题的问题ID对应的问题进行输出。

2.根据权利要求1所述审讯问题选择方法，其特征在于：还包括以下步骤：

3.根据权利要求1所述审讯问题选择方法，其特征在于：步骤S303中所述选择所述待输出问题的问题ID对应的问题进行输出的方法为：预先建立优选问题数据库，所述优选问题数据库包括两栏，分别为问题ID栏和优选问题栏，所述问题ID栏和优选问题栏中的内容一一对应，所述优选问题栏中的问题为符合语言习惯和排除敏感词后的问题。

4.一种审讯问题选择终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～3中任一所述方法的步骤。

5.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～3中任一所述方法的步骤。