CN111627448A

CN111627448A - 实现基于语音大数据的审讯与谈话控制系统及其方法

Info

Publication number: CN111627448A
Application number: CN202010414692.XA
Authority: CN
Inventors: 赵锐; 吴松洋; 李宁; 谭懿先
Original assignee: Third Research Institute of the Ministry of Public Security
Current assignee: Third Research Institute of the Ministry of Public Security
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-09-04

Abstract

本发明涉及一种实现基于语音大数据的审讯与谈话控制系统，包括前端设备和后台服务子系统，前端设备与后台服务子系统通过接口相连接；前端设备包括麦克风/声卡、收声模块和应用门户，麦克风/声卡与收声模块相连接，收声模块和应用门户通过接口相连接，收声模块用于根据麦克风/声卡传入的声音方向判断声音来源；后台服务子系统包括语音服务模块和应用服务模块。本发明还涉及一种实现基于语音大数据的审讯与谈话控制的方法。采用了本发明的实现基于语音大数据的审讯与谈话控制系统及其方法，采用高维仿生模式识别和语音转写NLP技术，实现无感声纹注册，并通过规范化的笔录格式及语音转写文字功能，提高笔录的质量与效率，提高音频检索效率，从而提高办案人员的执法水平，具有更广泛的应用范围。

Description

实现基于语音大数据的审讯与谈话控制系统及其方法

技术领域

本发明涉及人工智能领域，尤其涉及声纹识别及语音转写领域，具体是指一种实现基于语音大数据的审讯与谈话控制系统及其方法。

背景技术

声纹识别，也称作说话人识别，是一种通过声音判别说话人身份的技术。从直觉上来说，声纹虽然不像人脸、指纹的个体差异那样直观可见，但由于每个人的声道、口腔和鼻腔也具有个体的差异性，因此反映到声音上也具有差异性。声纹识别按技术分，分为两类：即说话人确认技术和说话人辨认技术，说话人确认技术是用于判断未知说话人是否为某个指定人；后者则是用于辨认未知说话人是已记录说话人中的哪一位。我们通常理解的都是说话人辨认技术，常常应用于刑侦破案、罪犯跟踪、国防监听、个性化应用等等，说话人确认技术常常应用于证券交易、银行交易、公安取证、个人电脑声控锁、汽车声控锁、身份证、信用卡的识别等。

语音转写则是基于自然语言处理技术,将自然语言转换为文本输出。语音转写技术已在金融、电信、能源、交通、教育、司法、公安、互联网等众多领域得到了广泛应用。

目前市面上的智能审讯系统存在声纹采集过程复杂，要求人员配合度很高，需要专人进行声纹采集，现有采集方法不适用于审讯场景、笔录内容不准确、笔录关键信息提取能力不足、审讯缺乏自动管理方法等问题。受限于效果、效率及复杂的操作要求而导致人为出错概率的增加，传统智能审讯技术应用中难以保证准确性与可靠性，而不够准确、不够可靠的审讯系统在大部分实际应用场景中失去了使用意义。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种满足准确性高、可靠性高、适用范围较为广泛的实现基于语音大数据的审讯与谈话控制系统及其方法。

为了实现上述目的，本发明的实现基于语音大数据的审讯与谈话控制系统及其方法如下：

该实现基于语音大数据的审讯与谈话控制系统，其主要特点是，所述的系统包括前端设备和后台服务子系统，所述的前端设备与所述的后台服务子系统通过接口相连接；

所述的前端设备包括麦克风/声卡、收声模块和应用门户，所述的麦克风/声卡与收声模块相连接，收声模块和应用门户通过接口相连接，所述的收声模块用于根据麦克风/声卡传入的声音方向判断声音来源；

所述的后台服务子系统包括语音服务模块和应用服务模块，所述的语音服务模块与所述的收声模块通过接口相连接，所述的应用服务模块与应用门户通过接口相连接。

较佳地，所述的语音服务模块包括语音服务端、声纹库、实时声纹识别引擎和实时语音转写引擎，所述的语音服务端的接收端与所述的收声模块通过接口相连接，所述的语音服务端的输出端与声纹库相连接，并通过接口分别与实时声纹识别引擎和实时语音转写引擎相连接。

较佳地，所述的应用服务模块包括应用服务端、审讯笔录及录音库和其它数据库，所述的应用服务端的接收端与所述的应用门户通过接口相连接，所述的应用服务端的输出端分别与所述的审讯笔录及录音库和其它数据库相连接，所述的审讯笔录及录音库输入端还与语音服务端相连接。

较佳地，所述的前端设备包括两个麦克风/声卡，用于同时独立地收发数字信号。

较佳地，所述的收声模块包括收声模块硬件和收声功能的SDK包，通过收声模块将声音形成PCM音频。

较佳地，所述的应用门户通过收声模块访问语音服务端。

较佳地，所述的实时声纹识别引擎采用高维仿生模式识别算法。

较佳地，所述的实时语音转写引擎采用语音转写NLP技术。

该基于上述系统实现基于语音大数据的审讯与谈话控制的方法，其主要特点是，所述的方法包括以下步骤：

(1)将用户在应用门户上下达的注册声纹指令或语音转写指令发送至收声模块，麦克风/声卡将接收到的语音发送到收声模块；

(2)收声模块根据应用门户下达的注册声纹指令或语音转写指令，将语音发送给语音服务端的注册声纹服务或语音转写服务；

(3)判断是否为注册声纹服务或语音转写服务，如果是注册声纹服务，则继续步骤(4)；如果是语音转写服务，则继续步骤(5)；

(4)语音服务端通过分析方法进行语音质量检测，判断检测是否通过，如果是，则进行语音增强，并将声纹特征及对应人存入声纹库；否则，返回信息至收声模块，收声模块返回信息至应用门户；

(5)语音服务端调用实时声纹识别引擎，将语音与声纹库的声纹特征进行比较，得出语音的说话人，并通过接口返回至语音服务端，同时将调用实时语音转写引擎进行语音转写，并通过接口返回至语音服务端；

(6)语音服务端将语音及转写成的文字发送至审讯笔录及录音库及收声模块；

(7)收声模块将审讯笔录实时返回给应用门户，应用门户通过接口访问应用服务模块进行操作处理；

(8)应用服务端根据查询条件检索审讯笔录及录音库和其他库，并将结果返回应用服务端，应用服务端返回至应用门户。

较佳地，所述的步骤(5)中进行语音转写的步骤具体包括以下处理过程：

(5.1)通过文本摘要提取和关键字提取关键信息；

(5.2)通过word2vec模型将词语训练为词向量；

(5.3)通过CRF条件随机场算法进行实体识别；

(5.4)通过双向LSTM技术生成长短期记忆网络语句。

采用了本发明的实现基于语音大数据的审讯与谈话控制系统及其方法，采用高维仿生模式识别和语音转写NLP技术，实现无感声纹注册，并通过规范化的笔录格式及语音转写文字功能，提高笔录的质量与效率，提高音频检索效率，从而提高办案人员的执法水平；本发明实现基于语音大数据的审讯与谈话控制系统，降低了审讯要求，简化了审讯流程，降低了人为出错概率，提高了准确性与可靠性；本发明实现基于语音大数据的审讯与谈话控制系统支持提取笔录关键信息、自动管理功能，解决传统笔录存在的笔录信息雷同、缺漏、无法支持公安大数据应用等问题，具有更广泛的应用范围。

附图说明

图1为本发明的实现基于语音大数据的审讯与谈话控制系统的结构连接图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

本发明的该实现基于语音大数据的审讯与谈话控制系统，其中包括前端设备和后台服务子系统，所述的前端设备与所述的后台服务子系统通过接口相连接；

所述的前端设备包括麦克风/声卡、收声模块和应用门户，所述的麦克风/声卡与收声模块相连接，收声模块和应用门户通过接口相连接，所述的收声模块用于根据麦克风/声卡传入的声音方向判断声音来自审讯人或被审讯人；

作为本发明的优选实施方式，所述的语音服务模块包括语音服务端、声纹库、实时声纹识别引擎和实时语音转写引擎，所述的语音服务端的接收端与所述的收声模块通过接口相连接，所述的语音服务端的输出端与声纹库相连接，并通过接口分别与实时声纹识别引擎和实时语音转写引擎相连接。

作为本发明的优选实施方式，所述的应用服务模块包括应用服务端、审讯笔录及录音库和其它数据库，所述的应用服务端的接收端与所述的应用门户通过接口相连接，所述的应用服务端的输出端分别与所述的审讯笔录及录音库和其它数据库相连接，所述的审讯笔录及录音库输入端还与语音服务端相连接。

作为本发明的优选实施方式，所述的前端设备包括两个麦克风/声卡，用于同时独立地收发数字信号。

作为本发明的优选实施方式，所述的收声模块包括收声模块硬件和收声功能的SDK包，通过收声模块将声音形成PCM音频。

作为本发明的优选实施方式，所述的应用门户通过收声模块访问语音服务端。

作为本发明的优选实施方式，所述的实时声纹识别引擎采用高维仿生模式识别算法。

作为本发明的优选实施方式，所述的实时语音转写引擎采用语音转写NLP技术。

本发明的该利用上述系统实现基于语音大数据的审讯与谈话控制的方法，其中包括以下步骤：

进行语音转写的步骤具体包括以下处理过程：

(5.1)通过文本摘要提取和关键字提取关键信息；

(5.2)通过word2vec模型将词语训练为词向量；

(5.3)通过CRF条件随机场算法进行实体识别；

(5.4)通过双向LSTM技术生成长短期记忆网络语句；

本发明的具体实施方式中，克服了现有产品的缺点，提供了一种能够实现无感声纹注册，规范笔录制作，提高笔录质量和效率，解决传统笔录存在的笔录信息雷同、缺漏、无法支持公安大数据应用等问题的智能审讯系统。

本发明涉及实现基于语音大数据的审讯与谈话控制系统，由前端设备和后台服务子系统组成。前端设备包括麦克风/声卡、收声模块和应用门户。后台服务子系统包括语音服务模块和应用服务模块。语音服务模块包括语音服务端、声纹库、实时声纹识别引擎及实时语音转写引擎。应用服务模块包括应用服务端、审讯笔录及录音库、其它数据库。整套系统以分体或一体的形式呈现。应用门户提供语音采集入口，收声模块通过麦克风/声卡获取语音，并通过语音服务模块接口将获取的语音传送到语音服务端和应用门户，声纹注册时语音服务端将语音提取出的声纹存入声纹库，语音转写时语音服务端通过接口将语音传入实时声纹识别引擎、实时语音转写引擎进行声纹识别与实时语音转写，识别结果返回语音服务端。语音服务端形成的审讯笔录与应用服务端接受到的录音形成一对一关系的审讯笔录及录音库。应用门户可通过接口访问应用服务端，对审讯笔录及录音库和其他库进行检索。本发明能通过声纹识别审讯双方身份，并实时将语音转写成文字，从而杜绝冒名顶替现象，并大大提高民警审讯笔录效率，增强了笔录正确性，保证了笔录内容可靠性，具有更广泛的应用范围。

实现基于语音大数据的审讯与谈话控制系统，智能审讯系统包括由前端设备和后台服务子系统。前端设备与后台服务子系统通过接口相连接。

前端设备由麦克风/声卡、收声模块和应用门户组成。后台服务子系统包括语音服务模块和应用服务模块。

语音服务模块包括语音服务端、声纹库、实时声纹识别引擎及实时语音转写引擎。应用服务模块包括应用服务端、审讯笔录及录音库、其它数据库。

麦克风/声卡与收声模块相连接，收声模块和应用门户通过接口相连接。收声模块可根据麦克风/声卡传入的声音方向判断声音来自审讯人或被审讯人。麦克风/声卡数量可为两个，可以独立、同时收发数字信号，以分体或一体的形式呈现。

收声模块硬件通过接口与语音服务端相连接；语音服务端与声纹库、审讯笔录及录音库相连接；语音服务端通过接口分别于实时声纹识别引擎、实时语音转写引擎相连接。应用门户通过接口与应用服务端相连接；应用服务端与审讯笔录及录音库、其他库相连接。

收声模块包括收声模块硬件和收声功能的SDK包，声音通过收声模块形成PCM音频。

应用门户是B/S结构的WEB程序。应用门户通过收声模块访问语音服务端。

语音服务端包括语音服务端硬件和语音服务模块软件两部分。语音服务模块软件部署在语音服务端硬件上。

实时声纹识别引擎采用我国完全自主研发的“高维仿生模式识别”算法。

实时语音转写引擎采用语音转写NLP技术。

应用服务端包括应用服务端硬件和应用服务模块软件两部分。应用服务模块软件部署在应用服务端硬件上。

本发明的基于上述系统实现基于语音大数据的审讯与谈话控制的方法，其中，包括以下步骤：

(1)应用门户通过接口与收声模块硬件通过接口相连接；

(2)将麦克风/声卡与收声模块硬件相连接；

(3)将收声模块硬件通过接口与语音服务端硬件相连接；

(4)将语音服务端与声纹库、审讯笔录及录音库相连接；

(5)将语音服务端通过接口分别于实时声纹识别引擎、实时语音转写引擎相连接；

(6)将应用门户通过接口与应用服务端相连接；

(7)将应用服务端与审讯笔录及录音库、其他库相连接；

(8)将用户在应用门户上下达的注册声纹指令或语音转写指令发送给收声模块；

(9)麦克风/声卡接收到的语音发送到收声模块；

(10)收声模块根据应用门户下达的注册声纹指令或语音转写指令，将语音发送给语音服务端端的注册声纹服务或语音转写服务；

(11)如果是注册声纹服务，则语音服务端使用PESQ\POLQA\等分析方法进行语音质量检测，检测不通过，返回信息给收声模块，收声模块返回给应用门户；检测通过，则先进行语音增强，然后将声纹特征及对应人存入声纹库；

(12)如果是语音转写服务，则语音服务端调用实时声纹识别引擎，将语音与声纹库的声纹特征进行比较，得出语音的说话人，然后通过接口返回给语音服务端。同时将调用实时语音转写引擎进行语音转写，然后通过接口返回给语音服务端；

(13)语音服务端将语音及转写成的文字发送至审讯笔录及录音库及收声模块；

(14)收声模块将审讯笔录实时返回给应用门户；

(15)应用门户通过接口访问应用服务模块进行查询等操作；

(16)应用服务端根据查询条件检索审讯笔录及录音库和其他库，并将结果返回应用服务端，服务端再返回至应用门户。

其中，语音转写NLP技术的算法处理包括以下步骤：

(1)通过文本摘要提取和关键字提取关键信息；

(2)采用word2vec模型将词语训练为词向量；

(3)采用CRF条件随机场算法进行实体识别；

(4)采用双向LSTM技术，实现长短期记忆网络语句生成。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种实现基于语音大数据的审讯与谈话控制系统，其特征在于，所述的系统包括前端设备和后台服务子系统，所述的前端设备与所述的后台服务子系统通过接口相连接；

2.根据权利要求1所述的实现基于语音大数据的审讯与谈话控制系统，其特征在于，所述的语音服务模块包括语音服务端、声纹库、实时声纹识别引擎和实时语音转写引擎，所述的语音服务端的接收端与所述的收声模块通过接口相连接，所述的语音服务端的输出端与声纹库相连接，并通过接口分别与实时声纹识别引擎和实时语音转写引擎相连接。

3.根据权利要求2所述的实现基于语音大数据的审讯与谈话控制系统，其特征在于，所述的应用服务模块包括应用服务端、审讯笔录及录音库和其它数据库，所述的应用服务端的接收端与所述的应用门户通过接口相连接，所述的应用服务端的输出端分别与所述的审讯笔录及录音库和其它数据库相连接，所述的审讯笔录及录音库输入端还与语音服务端相连接。

4.根据权利要求1所述的实现基于语音大数据的审讯与谈话控制系统，其特征在于，所述的前端设备包括两个麦克风/声卡，用于同时独立地收发数字信号。

5.根据权利要求1所述的实现基于语音大数据的审讯与谈话控制系统，其特征在于，所述的收声模块包括收声模块硬件和收声功能的SDK包，通过收声模块将声音形成PCM音频。

6.根据权利要求2所述的实现基于语音大数据的审讯与谈话控制系统，其特征在于，所述的应用门户通过收声模块访问语音服务端。

7.根据权利要求2所述的实现基于语音大数据的审讯与谈话控制系统，其特征在于，所述的实时声纹识别引擎采用高维仿生模式识别算法。

8.根据权利要求2所述的实现基于语音大数据的审讯与谈话控制系统，其特征在于，所述的实时语音转写引擎采用语音转写NLP技术。

9.一种基于权利要求1所述的系统实现基于语音大数据的审讯与谈话控制的方法，其特征在于，所述的方法包括以下步骤：

10.根据权利要求9所述的实现基于语音大数据的审讯与谈话控制的方法，其特征在于，所述的步骤(5)中进行语音转写的步骤具体包括以下处理过程：

(5.1)通过文本摘要提取和关键字提取关键信息；

(5.2)通过word2vec模型将词语训练为词向量；

(5.3)通过CRF条件随机场算法进行实体识别；

(5.4)通过双向LSTM技术生成长短期记忆网络语句。