CN111627448A - 实现基于语音大数据的审讯与谈话控制系统及其方法 - Google Patents
实现基于语音大数据的审讯与谈话控制系统及其方法 Download PDFInfo
- Publication number
- CN111627448A CN111627448A CN202010414692.XA CN202010414692A CN111627448A CN 111627448 A CN111627448 A CN 111627448A CN 202010414692 A CN202010414692 A CN 202010414692A CN 111627448 A CN111627448 A CN 111627448A
- Authority
- CN
- China
- Prior art keywords
- voice
- service
- receiving module
- application
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013518 transcription Methods 0.000 claims abstract description 63
- 230000035897 transcription Effects 0.000 claims abstract description 63
- 238000004891 communication Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 238000003909 pattern recognition Methods 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000003592 biomimetic effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 17
- 239000011664 nicotinic acid Substances 0.000 abstract description 6
- 230000001953 sensory effect Effects 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 241001622623 Coeliadinae Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及一种实现基于语音大数据的审讯与谈话控制系统,包括前端设备和后台服务子系统,前端设备与后台服务子系统通过接口相连接;前端设备包括麦克风/声卡、收声模块和应用门户,麦克风/声卡与收声模块相连接,收声模块和应用门户通过接口相连接,收声模块用于根据麦克风/声卡传入的声音方向判断声音来源;后台服务子系统包括语音服务模块和应用服务模块。本发明还涉及一种实现基于语音大数据的审讯与谈话控制的方法。采用了本发明的实现基于语音大数据的审讯与谈话控制系统及其方法,采用高维仿生模式识别和语音转写NLP技术,实现无感声纹注册,并通过规范化的笔录格式及语音转写文字功能,提高笔录的质量与效率,提高音频检索效率,从而提高办案人员的执法水平,具有更广泛的应用范围。
Description
技术领域
本发明涉及人工智能领域,尤其涉及声纹识别及语音转写领域,具体是指一种实现基于语音大数据的审讯与谈话控制系统及其方法。
背景技术
声纹识别,也称作说话人识别,是一种通过声音判别说话人身份的技术。从直觉上来说,声纹虽然不像人脸、指纹的个体差异那样直观可见,但由于每个人的声道、口腔和鼻腔也具有个体的差异性,因此反映到声音上也具有差异性。声纹识别按技术分,分为两类:即说话人确认技术和说话人辨认技术,说话人确认技术是用于判断未知说话人是否为某个指定人;后者则是用于辨认未知说话人是已记录说话人中的哪一位。我们通常理解的都是说话人辨认技术,常常应用于刑侦破案、罪犯跟踪、国防监听、个性化应用等等,说话人确认技术常常应用于证券交易、银行交易、公安取证、个人电脑声控锁、汽车声控锁、身份证、信用卡的识别等。
语音转写则是基于自然语言处理技术,将自然语言转换为文本输出。语音转写技术已在金融、电信、能源、交通、教育、司法、公安、互联网等众多领域得到了广泛应用。
目前市面上的智能审讯系统存在声纹采集过程复杂,要求人员配合度很高,需要专人进行声纹采集,现有采集方法不适用于审讯场景、笔录内容不准确、笔录关键信息提取能力不足、审讯缺乏自动管理方法等问题。受限于效果、效率及复杂的操作要求而导致人为出错概率的增加,传统智能审讯技术应用中难以保证准确性与可靠性,而不够准确、不够可靠的审讯系统在大部分实际应用场景中失去了使用意义。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种满足准确性高、可靠性高、适用范围较为广泛的实现基于语音大数据的审讯与谈话控制系统及其方法。
为了实现上述目的,本发明的实现基于语音大数据的审讯与谈话控制系统及其方法如下:
该实现基于语音大数据的审讯与谈话控制系统,其主要特点是,所述的系统包括前端设备和后台服务子系统,所述的前端设备与所述的后台服务子系统通过接口相连接;
所述的前端设备包括麦克风/声卡、收声模块和应用门户,所述的麦克风/声卡与收声模块相连接,收声模块和应用门户通过接口相连接,所述的收声模块用于根据麦克风/声卡传入的声音方向判断声音来源;
所述的后台服务子系统包括语音服务模块和应用服务模块,所述的语音服务模块与所述的收声模块通过接口相连接,所述的应用服务模块与应用门户通过接口相连接。
较佳地,所述的语音服务模块包括语音服务端、声纹库、实时声纹识别引擎和实时语音转写引擎,所述的语音服务端的接收端与所述的收声模块通过接口相连接,所述的语音服务端的输出端与声纹库相连接,并通过接口分别与实时声纹识别引擎和实时语音转写引擎相连接。
较佳地,所述的应用服务模块包括应用服务端、审讯笔录及录音库和其它数据库,所述的应用服务端的接收端与所述的应用门户通过接口相连接,所述的应用服务端的输出端分别与所述的审讯笔录及录音库和其它数据库相连接,所述的审讯笔录及录音库输入端还与语音服务端相连接。
较佳地,所述的前端设备包括两个麦克风/声卡,用于同时独立地收发数字信号。
较佳地,所述的收声模块包括收声模块硬件和收声功能的SDK包,通过收声模块将声音形成PCM音频。
较佳地,所述的应用门户通过收声模块访问语音服务端。
较佳地,所述的实时声纹识别引擎采用高维仿生模式识别算法。
较佳地,所述的实时语音转写引擎采用语音转写NLP技术。
该基于上述系统实现基于语音大数据的审讯与谈话控制的方法,其主要特点是,所述的方法包括以下步骤:
(1)将用户在应用门户上下达的注册声纹指令或语音转写指令发送至收声模块,麦克风/声卡将接收到的语音发送到收声模块;
(2)收声模块根据应用门户下达的注册声纹指令或语音转写指令,将语音发送给语音服务端的注册声纹服务或语音转写服务;
(3)判断是否为注册声纹服务或语音转写服务,如果是注册声纹服务,则继续步骤(4);如果是语音转写服务,则继续步骤(5);
(4)语音服务端通过分析方法进行语音质量检测,判断检测是否通过,如果是,则进行语音增强,并将声纹特征及对应人存入声纹库;否则,返回信息至收声模块,收声模块返回信息至应用门户;
(5)语音服务端调用实时声纹识别引擎,将语音与声纹库的声纹特征进行比较,得出语音的说话人,并通过接口返回至语音服务端,同时将调用实时语音转写引擎进行语音转写,并通过接口返回至语音服务端;
(6)语音服务端将语音及转写成的文字发送至审讯笔录及录音库及收声模块;
(7)收声模块将审讯笔录实时返回给应用门户,应用门户通过接口访问应用服务模块进行操作处理;
(8)应用服务端根据查询条件检索审讯笔录及录音库和其他库,并将结果返回应用服务端,应用服务端返回至应用门户。
较佳地,所述的步骤(5)中进行语音转写的步骤具体包括以下处理过程:
(5.1)通过文本摘要提取和关键字提取关键信息;
(5.2)通过word2vec模型将词语训练为词向量;
(5.3)通过CRF条件随机场算法进行实体识别;
(5.4)通过双向LSTM技术生成长短期记忆网络语句。
采用了本发明的实现基于语音大数据的审讯与谈话控制系统及其方法,采用高维仿生模式识别和语音转写NLP技术,实现无感声纹注册,并通过规范化的笔录格式及语音转写文字功能,提高笔录的质量与效率,提高音频检索效率,从而提高办案人员的执法水平;本发明实现基于语音大数据的审讯与谈话控制系统,降低了审讯要求,简化了审讯流程,降低了人为出错概率,提高了准确性与可靠性;本发明实现基于语音大数据的审讯与谈话控制系统支持提取笔录关键信息、自动管理功能,解决传统笔录存在的笔录信息雷同、缺漏、无法支持公安大数据应用等问题,具有更广泛的应用范围。
附图说明
图1为本发明的实现基于语音大数据的审讯与谈话控制系统的结构连接图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
本发明的该实现基于语音大数据的审讯与谈话控制系统,其中包括前端设备和后台服务子系统,所述的前端设备与所述的后台服务子系统通过接口相连接;
所述的前端设备包括麦克风/声卡、收声模块和应用门户,所述的麦克风/声卡与收声模块相连接,收声模块和应用门户通过接口相连接,所述的收声模块用于根据麦克风/声卡传入的声音方向判断声音来自审讯人或被审讯人;
所述的后台服务子系统包括语音服务模块和应用服务模块,所述的语音服务模块与所述的收声模块通过接口相连接,所述的应用服务模块与应用门户通过接口相连接。
作为本发明的优选实施方式,所述的语音服务模块包括语音服务端、声纹库、实时声纹识别引擎和实时语音转写引擎,所述的语音服务端的接收端与所述的收声模块通过接口相连接,所述的语音服务端的输出端与声纹库相连接,并通过接口分别与实时声纹识别引擎和实时语音转写引擎相连接。
作为本发明的优选实施方式,所述的应用服务模块包括应用服务端、审讯笔录及录音库和其它数据库,所述的应用服务端的接收端与所述的应用门户通过接口相连接,所述的应用服务端的输出端分别与所述的审讯笔录及录音库和其它数据库相连接,所述的审讯笔录及录音库输入端还与语音服务端相连接。
作为本发明的优选实施方式,所述的前端设备包括两个麦克风/声卡,用于同时独立地收发数字信号。
作为本发明的优选实施方式,所述的收声模块包括收声模块硬件和收声功能的SDK包,通过收声模块将声音形成PCM音频。
作为本发明的优选实施方式,所述的应用门户通过收声模块访问语音服务端。
作为本发明的优选实施方式,所述的实时声纹识别引擎采用高维仿生模式识别算法。
作为本发明的优选实施方式,所述的实时语音转写引擎采用语音转写NLP技术。
本发明的该利用上述系统实现基于语音大数据的审讯与谈话控制的方法,其中包括以下步骤:
(1)将用户在应用门户上下达的注册声纹指令或语音转写指令发送至收声模块,麦克风/声卡将接收到的语音发送到收声模块;
(2)收声模块根据应用门户下达的注册声纹指令或语音转写指令,将语音发送给语音服务端的注册声纹服务或语音转写服务;
(3)判断是否为注册声纹服务或语音转写服务,如果是注册声纹服务,则继续步骤(4);如果是语音转写服务,则继续步骤(5);
(4)语音服务端通过分析方法进行语音质量检测,判断检测是否通过,如果是,则进行语音增强,并将声纹特征及对应人存入声纹库;否则,返回信息至收声模块,收声模块返回信息至应用门户;
(5)语音服务端调用实时声纹识别引擎,将语音与声纹库的声纹特征进行比较,得出语音的说话人,并通过接口返回至语音服务端,同时将调用实时语音转写引擎进行语音转写,并通过接口返回至语音服务端;
进行语音转写的步骤具体包括以下处理过程:
(5.1)通过文本摘要提取和关键字提取关键信息;
(5.2)通过word2vec模型将词语训练为词向量;
(5.3)通过CRF条件随机场算法进行实体识别;
(5.4)通过双向LSTM技术生成长短期记忆网络语句;
(6)语音服务端将语音及转写成的文字发送至审讯笔录及录音库及收声模块;
(7)收声模块将审讯笔录实时返回给应用门户,应用门户通过接口访问应用服务模块进行操作处理;
(8)应用服务端根据查询条件检索审讯笔录及录音库和其他库,并将结果返回应用服务端,应用服务端返回至应用门户。
本发明的具体实施方式中,克服了现有产品的缺点,提供了一种能够实现无感声纹注册,规范笔录制作,提高笔录质量和效率,解决传统笔录存在的笔录信息雷同、缺漏、无法支持公安大数据应用等问题的智能审讯系统。
本发明涉及实现基于语音大数据的审讯与谈话控制系统,由前端设备和后台服务子系统组成。前端设备包括麦克风/声卡、收声模块和应用门户。后台服务子系统包括语音服务模块和应用服务模块。语音服务模块包括语音服务端、声纹库、实时声纹识别引擎及实时语音转写引擎。应用服务模块包括应用服务端、审讯笔录及录音库、其它数据库。整套系统以分体或一体的形式呈现。应用门户提供语音采集入口,收声模块通过麦克风/声卡获取语音,并通过语音服务模块接口将获取的语音传送到语音服务端和应用门户,声纹注册时语音服务端将语音提取出的声纹存入声纹库,语音转写时语音服务端通过接口将语音传入实时声纹识别引擎、实时语音转写引擎进行声纹识别与实时语音转写,识别结果返回语音服务端。语音服务端形成的审讯笔录与应用服务端接受到的录音形成一对一关系的审讯笔录及录音库。应用门户可通过接口访问应用服务端,对审讯笔录及录音库和其他库进行检索。本发明能通过声纹识别审讯双方身份,并实时将语音转写成文字,从而杜绝冒名顶替现象,并大大提高民警审讯笔录效率,增强了笔录正确性,保证了笔录内容可靠性,具有更广泛的应用范围。
实现基于语音大数据的审讯与谈话控制系统,智能审讯系统包括由前端设备和后台服务子系统。前端设备与后台服务子系统通过接口相连接。
前端设备由麦克风/声卡、收声模块和应用门户组成。后台服务子系统包括语音服务模块和应用服务模块。
语音服务模块包括语音服务端、声纹库、实时声纹识别引擎及实时语音转写引擎。应用服务模块包括应用服务端、审讯笔录及录音库、其它数据库。
麦克风/声卡与收声模块相连接,收声模块和应用门户通过接口相连接。收声模块可根据麦克风/声卡传入的声音方向判断声音来自审讯人或被审讯人。麦克风/声卡数量可为两个,可以独立、同时收发数字信号,以分体或一体的形式呈现。
收声模块硬件通过接口与语音服务端相连接;语音服务端与声纹库、审讯笔录及录音库相连接;语音服务端通过接口分别于实时声纹识别引擎、实时语音转写引擎相连接。应用门户通过接口与应用服务端相连接;应用服务端与审讯笔录及录音库、其他库相连接。
收声模块包括收声模块硬件和收声功能的SDK包,声音通过收声模块形成PCM音频。
应用门户是B/S结构的WEB程序。应用门户通过收声模块访问语音服务端。
语音服务端包括语音服务端硬件和语音服务模块软件两部分。语音服务模块软件部署在语音服务端硬件上。
实时声纹识别引擎采用我国完全自主研发的“高维仿生模式识别”算法。
实时语音转写引擎采用语音转写NLP技术。
应用服务端包括应用服务端硬件和应用服务模块软件两部分。应用服务模块软件部署在应用服务端硬件上。
本发明的基于上述系统实现基于语音大数据的审讯与谈话控制的方法,其中,包括以下步骤:
(1)应用门户通过接口与收声模块硬件通过接口相连接;
(2)将麦克风/声卡与收声模块硬件相连接;
(3)将收声模块硬件通过接口与语音服务端硬件相连接;
(4)将语音服务端与声纹库、审讯笔录及录音库相连接;
(5)将语音服务端通过接口分别于实时声纹识别引擎、实时语音转写引擎相连接;
(6)将应用门户通过接口与应用服务端相连接;
(7)将应用服务端与审讯笔录及录音库、其他库相连接;
(8)将用户在应用门户上下达的注册声纹指令或语音转写指令发送给收声模块;
(9)麦克风/声卡接收到的语音发送到收声模块;
(10)收声模块根据应用门户下达的注册声纹指令或语音转写指令,将语音发送给语音服务端端的注册声纹服务或语音转写服务;
(11)如果是注册声纹服务,则语音服务端使用PESQ\POLQA\等分析方法进行语音质量检测,检测不通过,返回信息给收声模块,收声模块返回给应用门户;检测通过,则先进行语音增强,然后将声纹特征及对应人存入声纹库;
(12)如果是语音转写服务,则语音服务端调用实时声纹识别引擎,将语音与声纹库的声纹特征进行比较,得出语音的说话人,然后通过接口返回给语音服务端。同时将调用实时语音转写引擎进行语音转写,然后通过接口返回给语音服务端;
(13)语音服务端将语音及转写成的文字发送至审讯笔录及录音库及收声模块;
(14)收声模块将审讯笔录实时返回给应用门户;
(15)应用门户通过接口访问应用服务模块进行查询等操作;
(16)应用服务端根据查询条件检索审讯笔录及录音库和其他库,并将结果返回应用服务端,服务端再返回至应用门户。
其中,语音转写NLP技术的算法处理包括以下步骤:
(1)通过文本摘要提取和关键字提取关键信息;
(2)采用word2vec模型将词语训练为词向量;
(3)采用CRF条件随机场算法进行实体识别;
(4)采用双向LSTM技术,实现长短期记忆网络语句生成。
采用了本发明的实现基于语音大数据的审讯与谈话控制系统及其方法,采用高维仿生模式识别和语音转写NLP技术,实现无感声纹注册,并通过规范化的笔录格式及语音转写文字功能,提高笔录的质量与效率,提高音频检索效率,从而提高办案人员的执法水平;本发明实现基于语音大数据的审讯与谈话控制系统,降低了审讯要求,简化了审讯流程,降低了人为出错概率,提高了准确性与可靠性;本发明实现基于语音大数据的审讯与谈话控制系统支持提取笔录关键信息、自动管理功能,解决传统笔录存在的笔录信息雷同、缺漏、无法支持公安大数据应用等问题,具有更广泛的应用范围。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。
Claims (10)
1.一种实现基于语音大数据的审讯与谈话控制系统,其特征在于,所述的系统包括前端设备和后台服务子系统,所述的前端设备与所述的后台服务子系统通过接口相连接;
所述的前端设备包括麦克风/声卡、收声模块和应用门户,所述的麦克风/声卡与收声模块相连接,收声模块和应用门户通过接口相连接,所述的收声模块用于根据麦克风/声卡传入的声音方向判断声音来源;
所述的后台服务子系统包括语音服务模块和应用服务模块,所述的语音服务模块与所述的收声模块通过接口相连接,所述的应用服务模块与应用门户通过接口相连接。
2.根据权利要求1所述的实现基于语音大数据的审讯与谈话控制系统,其特征在于,所述的语音服务模块包括语音服务端、声纹库、实时声纹识别引擎和实时语音转写引擎,所述的语音服务端的接收端与所述的收声模块通过接口相连接,所述的语音服务端的输出端与声纹库相连接,并通过接口分别与实时声纹识别引擎和实时语音转写引擎相连接。
3.根据权利要求2所述的实现基于语音大数据的审讯与谈话控制系统,其特征在于,所述的应用服务模块包括应用服务端、审讯笔录及录音库和其它数据库,所述的应用服务端的接收端与所述的应用门户通过接口相连接,所述的应用服务端的输出端分别与所述的审讯笔录及录音库和其它数据库相连接,所述的审讯笔录及录音库输入端还与语音服务端相连接。
4.根据权利要求1所述的实现基于语音大数据的审讯与谈话控制系统,其特征在于,所述的前端设备包括两个麦克风/声卡,用于同时独立地收发数字信号。
5.根据权利要求1所述的实现基于语音大数据的审讯与谈话控制系统,其特征在于,所述的收声模块包括收声模块硬件和收声功能的SDK包,通过收声模块将声音形成PCM音频。
6.根据权利要求2所述的实现基于语音大数据的审讯与谈话控制系统,其特征在于,所述的应用门户通过收声模块访问语音服务端。
7.根据权利要求2所述的实现基于语音大数据的审讯与谈话控制系统,其特征在于,所述的实时声纹识别引擎采用高维仿生模式识别算法。
8.根据权利要求2所述的实现基于语音大数据的审讯与谈话控制系统,其特征在于,所述的实时语音转写引擎采用语音转写NLP技术。
9.一种基于权利要求1所述的系统实现基于语音大数据的审讯与谈话控制的方法,其特征在于,所述的方法包括以下步骤:
(1)将用户在应用门户上下达的注册声纹指令或语音转写指令发送至收声模块,麦克风/声卡将接收到的语音发送到收声模块;
(2)收声模块根据应用门户下达的注册声纹指令或语音转写指令,将语音发送给语音服务端的注册声纹服务或语音转写服务;
(3)判断是否为注册声纹服务或语音转写服务,如果是注册声纹服务,则继续步骤(4);如果是语音转写服务,则继续步骤(5);
(4)语音服务端通过分析方法进行语音质量检测,判断检测是否通过,如果是,则进行语音增强,并将声纹特征及对应人存入声纹库;否则,返回信息至收声模块,收声模块返回信息至应用门户;
(5)语音服务端调用实时声纹识别引擎,将语音与声纹库的声纹特征进行比较,得出语音的说话人,并通过接口返回至语音服务端,同时将调用实时语音转写引擎进行语音转写,并通过接口返回至语音服务端;
(6)语音服务端将语音及转写成的文字发送至审讯笔录及录音库及收声模块;
(7)收声模块将审讯笔录实时返回给应用门户,应用门户通过接口访问应用服务模块进行操作处理;
(8)应用服务端根据查询条件检索审讯笔录及录音库和其他库,并将结果返回应用服务端,应用服务端返回至应用门户。
10.根据权利要求9所述的实现基于语音大数据的审讯与谈话控制的方法,其特征在于,所述的步骤(5)中进行语音转写的步骤具体包括以下处理过程:
(5.1)通过文本摘要提取和关键字提取关键信息;
(5.2)通过word2vec模型将词语训练为词向量;
(5.3)通过CRF条件随机场算法进行实体识别;
(5.4)通过双向LSTM技术生成长短期记忆网络语句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010414692.XA CN111627448A (zh) | 2020-05-15 | 2020-05-15 | 实现基于语音大数据的审讯与谈话控制系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010414692.XA CN111627448A (zh) | 2020-05-15 | 2020-05-15 | 实现基于语音大数据的审讯与谈话控制系统及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111627448A true CN111627448A (zh) | 2020-09-04 |
Family
ID=72258954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010414692.XA Pending CN111627448A (zh) | 2020-05-15 | 2020-05-15 | 实现基于语音大数据的审讯与谈话控制系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111627448A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112087309A (zh) * | 2020-09-30 | 2020-12-15 | 公安部第一研究所 | 一种管教谈话一体化终端设备 |
CN112468436A (zh) * | 2020-09-23 | 2021-03-09 | 泗阳县公安局 | 一种用于公安移动警务的笔录文书打印系统与方法 |
CN117591660A (zh) * | 2024-01-18 | 2024-02-23 | 杭州威灿科技有限公司 | 基于数字人的材料生成方法、设备及介质 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6477491B1 (en) * | 1999-05-27 | 2002-11-05 | Mark Chandler | System and method for providing speaker-specific records of statements of speakers |
CN101540170A (zh) * | 2008-03-19 | 2009-09-23 | 中国科学院半导体研究所 | 一种基于仿生模式识别的声纹识别方法 |
CN102142254A (zh) * | 2011-03-25 | 2011-08-03 | 北京得意音通技术有限责任公司 | 基于声纹识别和语音识别的防录音假冒的身份确认方法 |
KR20130075513A (ko) * | 2011-12-27 | 2013-07-05 | 현대캐피탈 주식회사 | 음성 분리를 이용한 실시간 화자인식 시스템 및 방법 |
CN107749313A (zh) * | 2017-11-23 | 2018-03-02 | 郑州大学第附属医院 | 一种自动转写与生成远程医疗会诊记录的方法 |
CN207149252U (zh) * | 2017-08-01 | 2018-03-27 | 安徽听见科技有限公司 | 语音处理系统 |
CN108074576A (zh) * | 2017-12-14 | 2018-05-25 | 讯飞智元信息科技有限公司 | 审讯场景下的说话人角色分离方法及系统 |
CN108153732A (zh) * | 2017-12-25 | 2018-06-12 | 科大讯飞股份有限公司 | 一种审讯笔录的审查方法及装置 |
WO2018108080A1 (zh) * | 2016-12-13 | 2018-06-21 | 北京奇虎科技有限公司 | 一种基于声纹搜索的信息推荐方法及装置 |
US10074089B1 (en) * | 2012-03-01 | 2018-09-11 | Citigroup Technology, Inc. | Smart authentication and identification via voiceprints |
CN109192213A (zh) * | 2018-08-21 | 2019-01-11 | 平安科技(深圳)有限公司 | 庭审语音实时转写方法、装置、计算机设备及存储介质 |
CN109192215A (zh) * | 2018-09-14 | 2019-01-11 | 上海头趣科技有限公司 | 一种基于语音的网约车监管方法及系统 |
CN110049270A (zh) * | 2019-03-12 | 2019-07-23 | 平安科技(深圳)有限公司 | 多人会议语音转写方法、装置、系统、设备及存储介质 |
CN110688640A (zh) * | 2019-09-03 | 2020-01-14 | 深圳市声扬科技有限公司 | 一种基于声纹识别的数据处理方法、装置、系统及服务器 |
CN110751950A (zh) * | 2019-10-25 | 2020-02-04 | 武汉森哲地球空间信息技术有限公司 | 基于大数据的警用谈话语音识别方法及系统 |
CN110830661A (zh) * | 2019-11-11 | 2020-02-21 | 科大国创软件股份有限公司 | 一种用于智能语音客服的自动拨测方法 |
CN111048095A (zh) * | 2019-12-24 | 2020-04-21 | 苏州思必驰信息科技有限公司 | 一种语音转写方法、设备及计算机可读存储介质 |
CN111128179A (zh) * | 2019-09-12 | 2020-05-08 | 恒锋信息科技股份有限公司 | 一种基于语音识别技术的智慧监管方法及系统 |
-
2020
- 2020-05-15 CN CN202010414692.XA patent/CN111627448A/zh active Pending
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6477491B1 (en) * | 1999-05-27 | 2002-11-05 | Mark Chandler | System and method for providing speaker-specific records of statements of speakers |
CN101540170A (zh) * | 2008-03-19 | 2009-09-23 | 中国科学院半导体研究所 | 一种基于仿生模式识别的声纹识别方法 |
CN102142254A (zh) * | 2011-03-25 | 2011-08-03 | 北京得意音通技术有限责任公司 | 基于声纹识别和语音识别的防录音假冒的身份确认方法 |
KR20130075513A (ko) * | 2011-12-27 | 2013-07-05 | 현대캐피탈 주식회사 | 음성 분리를 이용한 실시간 화자인식 시스템 및 방법 |
US10074089B1 (en) * | 2012-03-01 | 2018-09-11 | Citigroup Technology, Inc. | Smart authentication and identification via voiceprints |
WO2018108080A1 (zh) * | 2016-12-13 | 2018-06-21 | 北京奇虎科技有限公司 | 一种基于声纹搜索的信息推荐方法及装置 |
CN207149252U (zh) * | 2017-08-01 | 2018-03-27 | 安徽听见科技有限公司 | 语音处理系统 |
CN107749313A (zh) * | 2017-11-23 | 2018-03-02 | 郑州大学第附属医院 | 一种自动转写与生成远程医疗会诊记录的方法 |
CN108074576A (zh) * | 2017-12-14 | 2018-05-25 | 讯飞智元信息科技有限公司 | 审讯场景下的说话人角色分离方法及系统 |
CN108153732A (zh) * | 2017-12-25 | 2018-06-12 | 科大讯飞股份有限公司 | 一种审讯笔录的审查方法及装置 |
CN109192213A (zh) * | 2018-08-21 | 2019-01-11 | 平安科技(深圳)有限公司 | 庭审语音实时转写方法、装置、计算机设备及存储介质 |
CN109192215A (zh) * | 2018-09-14 | 2019-01-11 | 上海头趣科技有限公司 | 一种基于语音的网约车监管方法及系统 |
CN110049270A (zh) * | 2019-03-12 | 2019-07-23 | 平安科技(深圳)有限公司 | 多人会议语音转写方法、装置、系统、设备及存储介质 |
CN110688640A (zh) * | 2019-09-03 | 2020-01-14 | 深圳市声扬科技有限公司 | 一种基于声纹识别的数据处理方法、装置、系统及服务器 |
CN111128179A (zh) * | 2019-09-12 | 2020-05-08 | 恒锋信息科技股份有限公司 | 一种基于语音识别技术的智慧监管方法及系统 |
CN110751950A (zh) * | 2019-10-25 | 2020-02-04 | 武汉森哲地球空间信息技术有限公司 | 基于大数据的警用谈话语音识别方法及系统 |
CN110830661A (zh) * | 2019-11-11 | 2020-02-21 | 科大国创软件股份有限公司 | 一种用于智能语音客服的自动拨测方法 |
CN111048095A (zh) * | 2019-12-24 | 2020-04-21 | 苏州思必驰信息科技有限公司 | 一种语音转写方法、设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
唐畅等: "浅谈司法语音鉴定中的综合技术应用", 《警察技术》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112468436A (zh) * | 2020-09-23 | 2021-03-09 | 泗阳县公安局 | 一种用于公安移动警务的笔录文书打印系统与方法 |
CN112468436B (zh) * | 2020-09-23 | 2024-05-31 | 泗阳县公安局 | 一种用于公安移动警务的笔录文书打印系统与方法 |
CN112087309A (zh) * | 2020-09-30 | 2020-12-15 | 公安部第一研究所 | 一种管教谈话一体化终端设备 |
CN117591660A (zh) * | 2024-01-18 | 2024-02-23 | 杭州威灿科技有限公司 | 基于数字人的材料生成方法、设备及介质 |
CN117591660B (zh) * | 2024-01-18 | 2024-04-16 | 杭州威灿科技有限公司 | 基于数字人的材料生成方法、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136727B (zh) | 基于说话内容的说话者身份识别方法、装置及存储介质 | |
CN111488433B (zh) | 一种适用于银行的提升现场体验感的人工智能交互系统 | |
Liu et al. | An MFCC‐based text‐independent speaker identification system for access control | |
WO2017197953A1 (zh) | 基于声纹的身份识别方法及装置 | |
CN111627448A (zh) | 实现基于语音大数据的审讯与谈话控制系统及其方法 | |
CN101923853B (zh) | 说话人识别方法、设备和系统 | |
CN110265032A (zh) | 会议数据分析处理方法、装置、计算机设备和存储介质 | |
US11756572B2 (en) | Self-supervised speech representations for fake audio detection | |
CN109560941A (zh) | 会议记录方法、装置、智能终端及存储介质 | |
CN109920435A (zh) | 一种声纹识别方法及声纹识别装置 | |
CN110349581A (zh) | 语音和文字转换传输方法、系统、计算机设备和存储介质 | |
CN113744742B (zh) | 对话场景下的角色识别方法、装置和系统 | |
WO2014173325A1 (zh) | 喉音识别方法及装置 | |
CN110459226A (zh) | 一种通过声纹引擎检测人声或机器音进行身份核验的方法 | |
CN110782902A (zh) | 音频数据确定方法、装置、设备和介质 | |
WO2020250016A1 (en) | Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription | |
CN109104534A (zh) | 一种提高外呼机器人意图检测准确率、召回率的系统 | |
CN115102789A (zh) | 一种反通信网络诈骗研判预警拦截综合平台 | |
Mohammed et al. | Advantages and disadvantages of automatic speaker recognition systems | |
CN109817223A (zh) | 基于音频指纹的音素标记方法及装置 | |
CN113450806A (zh) | 语音检测模型的训练方法以及相关方法、装置、设备 | |
CN110556114B (zh) | 基于注意力机制的通话人识别方法及装置 | |
Al-Shayea et al. | Speaker identification: A novel fusion samples approach | |
CN112992155B (zh) | 一种基于残差神经网络的远场语音说话人识别方法及装置 | |
CN111091836A (zh) | 一种基于大数据的智能声纹识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200904 |
|
RJ01 | Rejection of invention patent application after publication |