CN109935226A - 一种基于深度神经网络的远场语音识别增强系统及方法 - Google Patents
一种基于深度神经网络的远场语音识别增强系统及方法 Download PDFInfo
- Publication number
- CN109935226A CN109935226A CN201711353549.9A CN201711353549A CN109935226A CN 109935226 A CN109935226 A CN 109935226A CN 201711353549 A CN201711353549 A CN 201711353549A CN 109935226 A CN109935226 A CN 109935226A
- Authority
- CN
- China
- Prior art keywords
- sound source
- training
- far field
- speech recognition
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及一种基于深度神经网络的远场语音识别增强系统,包括训练系统、识别系统,识别系统包括远场声源采集装置、语音识别系统,训练系统包括数据采集装置、训练模块,采集装置包括音频播放装置、多个音频采集装置、近场麦克风阵列。本发明还公开了一种基于深度神经网络的远场语音识别增强方法,包括数据采集、数据训练、增强识别等过程。本发明采用近场与远场相结合的方式训练识别系统,具有远场声源识别效果较好的特点。
Description
技术领域
本发明涉及一种远场语音识别增强系统及方法,特别涉及一种基于深度神经网络的远场语音识别增强系统及方法,属于语音识别领域。
背景技术
目前,语音识别系统越来越广泛被应用于车载系统、客服自动接听应答、智能手表、智能手机等领域。并且越来越多设备使用到远场的语音识别,例如家庭智能音箱、陪伴机器人,例如亚马逊的Echo音箱,Google的Google Home等产品。现有的语音识别系统基本还是由近场的数据进行训练,远场的语音信号都是通过信号处理的方法进行降低噪声和信号增强,这样做的缺点是一方面增加了系统的成本,需要专门的麦克风和专门处理芯片,另一方面是语音识别的识别率从近场到远场下降特别快。
发明内容
本发明基于深度神经网络的远场语音识别增强系统及方法公开了新的方案,采用近场与远场相结合的方式训练识别系统,解决了现有方案远场声源识别效果不理想的问题。
本发明基于深度神经网络的远场语音识别增强系统包括训练系统、识别系统,识别系统包括远场声源采集装置、语音识别系统,训练系统包括数据采集装置、训练模块,采集装置包括音频播放装置、多个音频采集装置、近场麦克风阵列,近场麦克风阵列采集音频播放装置的近场声源信息,上述多个音频采集装置采集距音频播放装置逐渐远离的位置上的音频播放装置的远场声源信息,训练模块将采集装置得到的声源信息根据设定的算法训练得到声源识别增强DNN模型,识别系统将远场声源采集装置获取的远场声源信息通过声源识别增强DNN模型增强信号后发送给语音识别系统。
本发明还公开了一种基于深度神经网络的远场语音识别增强方法,远场语音识别增强方法基于远场语音识别增强系统,远场语音识别增强系统包括训练系统、识别系统,识别系统包括远场声源采集装置、语音识别系统,训练系统包括数据采集装置、训练模块,采集装置包括音频播放装置、多个音频采集装置、近场麦克风阵列,其特征是包括步骤:⑴训练的时候,通过音频采集装置、同步的近场远场麦克风阵列采集音频播放装置的音频信息生成训练声源信息;⑵训练模块根据设定的算法将训练声源信息训练得到声源识别增强DNN模型;⑶识别的时候,通过远场声源采集装置获取样本声源信息;⑷将样本声源信息通过声源识别增强DNN模型进行信号增强得到增强样本声源信息;⑸将增强样本声源信息发送给语音识别系统进行语音识别。
进一步,本方案的方法的步骤⑴包括过程:使用人工嘴播放已经录制好的音频数据或直接使用人读准备好的脚本,然后同时使用3个目标设备在距声源1.5m、3m、4.5m位置进行录音,录音的同时打开麦克风阵列进行处理,同时得到了四路同步信号:近场声源信号S、1.5m远场信号T1、3m远场信号T2、4.5m远场信号T3。步骤⑵包括过程:①选择训练数据:只选取语音的元音部分用于训练,选取典型噪声和原始信号进行混合,典型噪声包括稳态噪声、非稳态噪声,稳态噪声包括风声、发动机电机声,非稳态噪声包括敲击声、开门声;②训练语音增强网络拓扑结构;③训练语音距离检测模型。步骤⑶~⑸包括过程:远场声源信号经麦克风阵列处理后得到信号T,同时麦克风阵列对声源距离进行估计得到距离D,将信号T进行特征提取得到提取特征与距离D输入到映射DNN网络得到输出信息T’,将信息T’输入到识别引擎进行识别。
本发明基于深度神经网络的远场语音识别增强系统及方法采用近场与远场相结合的方式训练识别系统,具有远场声源识别效果较好的特点。
附图说明
图1是本发明基于深度神经网络的远场语音识别增强系统的原理图。
图2是训练系统的原理图。
图3是采集训练声源信息的原理图。
图4是训练语音增强网络拓扑结构的原理图。
图5是训练语音距离检测模型的原理图。
具体实施方式
本发明公开了一种用于远场的语音识别系统,改善该系统的实现方法。本系统主要用做远场语音增强,包括两大部分模块:训练模块、识别模块。训练模块包括数据采集模块,如图3所示,通过一系列的麦克风进行数据采集,并将数据按照wav的格式进行保存,保存以后的数据将进入训练系统,最终得到DNN的模型,以上训练过程如图2所示。如图1所示,训练产生的DNN模型将被使用到本方案的DNN增强系统中,进行语音增强。增强以后的信号将送入到原来的语音识别系统,达到提高后继语音识别系统的识别率。
本方案采用一种训练的方法来增强远场信号,使其跟识别的模型更为匹配,提高语音识别系统的识别率。本方案包括两部分,一部分是离线的模型训练,一部分是在线的信号增强部分。离线部分包括数据采集和数据训练。
数据采集
为了得到近场—远场的映射关系,本方案首先要使用目标设备进行一定数量的录音,如图3所示,录音的时候,需要同时采集不同距离的数据,并且保持这些数据时间同步。使用人工嘴播放已经录制好的音频数据(或者直接使用人读准备好的脚本),然后同时使用3个目标设备在1.5m,3m和4.5m进行录音。录音的时候要打开麦克风阵列进行处理,保证信号与真实使用场景一致。这样本方案就同时得到了四路同步信号:声源信号S(近场信号),1.5m信号T1,3m信号T2,4.5m信号T3。为了能够得到较为完善的隐射关系,需要让声源信号能够较好的覆盖整个语音信号,例如中文,要覆盖各种发音。
数据训练
训练数据选择
⑴语音采用加窗,窗长25ms,窗移10ms。MFCC采用39维特征。由于语音识别过程中,元音对识别作用更大,为了达到分类器的快速收敛,只选取元音部分用于训练。
⑵噪声数据选取。选取典型几类噪声和原始信号进行混合。典型噪声包括稳态噪声(风声,发动机电机声),非稳态噪声(敲击声,开门声等等)。
训练语音增强网络拓扑结构
⑴由于语音信号具有短时平稳特征,这里选择当前帧前后各2帧共5帧组成训练向量(39x5)。
⑵同时把距离信息也当做一维特征加到里面。这样总共得到输入层是(39×5)+1=196。
⑶采用1024个节点的隐藏层,总共三层。
⑷输出层采用BNF(bottle network feature)方式进行39维向量输出。
⑸最终拓扑结构为:196×1024×1024×1024×39,如图4所示。
训练语音距离检测模型
对于有的应用场景,没有麦克风阵列,或者麦克风阵列的麦克风很少,或者麦克风阵列还没有进入声源定位模式,无法给出声源的距离。这个时候,本方案可以训练一个距离分类器模型,将信号分成四类,如图5所示。
⑴模型输入是S,Ti(i=1,2,3)。
⑵模型的期望输出是[1 0 0 0],[0 1 0 0],[0 0 1 0],[0 0 0 1]。
⑶训练拓扑结构类似上面为195×1024×1024×1024×4。
在线的信号增强部分包括识别过程,如图1所示。
首先,远场信号经过麦克风阵列的处理,得到处理后的信号T。同时麦克风阵列对声源距离进行估计,得到距离D。
其次,将信号T进过特征提取,将其与距离D输入到映射DNN网络,得到输出T’,T’将会非常接近近场信号。将T’输入到识别引擎进行识别。
经过实验测试,以上方法能够极大改善远场声源的识别效果。
本方案基于深度神经网络的远场语音识别增强系统及方法降低了系统的成本,在某些非常低功耗的芯片场景下,可以只采用一个麦克风进行远场语音信号的增加。本方案提供系统的鲁棒性,可以提高语音识别系统的识别率,改善用户体验。同时,由于采用软、硬件结合来进行增强,使得整个系统具有更多的灵活性,通过软件模型的更新可以很好的适用于各种环境,增强产品的竞争力。基于以上特点,本方案的基于深度神经网络的远场语音识别增强系统及方法相比现有方案具有突出的实质性特点和显著的进步。
本方案多重语义语句解析系统及方法并不限于具体实施方式中公开的内容,实施例中出现的技术方案可以基于本领域技术人员的理解而延伸,本领域技术人员根据本方案结合公知常识作出的简单替换方案也属于本方案的范围。
Claims (3)
1.一种基于深度神经网络的远场语音识别增强系统,其特征是包括训练系统、识别系统,所述识别系统包括远场声源采集装置、语音识别系统,所述训练系统包括数据采集装置、训练模块,所述采集装置包括音频播放装置、多个音频采集装置、近场麦克风阵列,所述近场麦克风阵列采集所述音频播放装置的近场声源信息,所述多个音频采集装置采集距所述音频播放装置逐渐远离的位置上的所述音频播放装置的远场声源信息,所述训练模块将采集装置得到的声源信息根据设定的算法训练得到声源识别增强DNN模型,所述识别系统将所述远场声源采集装置获取的远场声源信息通过所述声源识别增强DNN模型增强信号后发送给所述语音识别系统。
2.一种基于深度神经网络的远场语音识别增强方法,所述远场语音识别增强方法基于远场语音识别增强系统,所述远场语音识别增强系统包括训练系统、识别系统,所述识别系统包括远场声源采集装置、语音识别系统,所述训练系统包括数据采集装置、训练模块,所述采集装置包括音频播放装置、多个音频采集装置、近场麦克风阵列,其特征是包括步骤:
⑴训练的时候,通过音频采集装置、同步的近场远场麦克风阵列采集音频播放装置的音频信息生成训练声源信息;
⑵训练模块根据设定的算法将训练声源信息训练得到声源识别增强DNN模型;
⑶识别的时候,通过远场声源采集装置获取样本声源信息;
⑷将样本声源信息通过声源识别增强DNN模型进行信号增强得到增强样本声源信息;
⑸将增强样本声源信息发送给语音识别系统进行语音识别。
3.根据权利要求2所述的基于深度神经网络的远场语音识别增强方法,其特征在于,
步骤⑴包括过程:使用人工嘴播放已经录制好的音频数据或直接使用人读准备好的脚本,然后同时使用3个目标设备在距声源1.5m、3m、4.5m位置进行录音,录音的同时打开麦克风阵列进行处理,同时得到了四路同步信号:近场声源信号S、1.5m远场信号T1、3m远场信号T2、4.5m远场信号T3;
步骤⑵包括过程:①选择训练数据:只选取语音的元音部分用于训练,选取典型噪声和原始信号进行混合,典型噪声包括稳态噪声、非稳态噪声,稳态噪声包括风声、发动机电机声,非稳态噪声包括敲击声、开门声;②训练语音增强网络拓扑结构;③训练语音距离检测模型;
步骤⑶~⑸包括过程:远场声源信号经麦克风阵列处理后得到信号T,同时麦克风阵列对声源距离进行估计得到距离D,将信号T进行特征提取得到提取特征与距离D输入到映射DNN网络得到输出信息T’,将信息T’输入到识别引擎进行识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711353549.9A CN109935226A (zh) | 2017-12-15 | 2017-12-15 | 一种基于深度神经网络的远场语音识别增强系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711353549.9A CN109935226A (zh) | 2017-12-15 | 2017-12-15 | 一种基于深度神经网络的远场语音识别增强系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109935226A true CN109935226A (zh) | 2019-06-25 |
Family
ID=66980534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711353549.9A Pending CN109935226A (zh) | 2017-12-15 | 2017-12-15 | 一种基于深度神经网络的远场语音识别增强系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109935226A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580906A (zh) * | 2019-08-01 | 2019-12-17 | 安徽声讯信息技术有限公司 | 一种基于云端数据的远场音频扩音方法及系统 |
CN110992974A (zh) * | 2019-11-25 | 2020-04-10 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN111192600A (zh) * | 2019-12-27 | 2020-05-22 | 北京网众共创科技有限公司 | 声音数据的处理方法及装置、存储介质和电子装置 |
CN112151080A (zh) * | 2020-10-28 | 2020-12-29 | 成都启英泰伦科技有限公司 | 一种录制和处理训练语料的方法 |
CN112887875A (zh) * | 2021-01-22 | 2021-06-01 | 平安科技(深圳)有限公司 | 会议系统语音数据采集方法、装置、电子设备及存储介质 |
CN113793596A (zh) * | 2021-09-15 | 2021-12-14 | 深圳金贝奇电子有限公司 | 一种基于语音增强技术的耳机远场交互系统 |
CN115527526A (zh) * | 2022-11-28 | 2022-12-27 | 南方电网数字电网研究院有限公司 | 端到端远场语音识别系统训练方法、装置、计算机设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1336634A (zh) * | 2000-07-28 | 2002-02-20 | 国际商业机器公司 | 根据基音信息识别声调语言的方法与设备 |
CN1400583A (zh) * | 2001-08-08 | 2003-03-05 | 韦尔博泰克公司 | 感知语音特征话语识别系统及方法 |
CN1975856A (zh) * | 2006-10-30 | 2007-06-06 | 邹采荣 | 一种基于支持向量机的语音情感识别方法 |
CN102324237A (zh) * | 2011-05-30 | 2012-01-18 | 深圳市华新微声学技术有限公司 | 麦克风阵列语音波束形成方法、语音信号处理装置及系统 |
CN104123950A (zh) * | 2014-07-17 | 2014-10-29 | 深圳市中兴移动通信有限公司 | 一种录音方法及装置 |
CN104810021A (zh) * | 2015-05-11 | 2015-07-29 | 百度在线网络技术(北京)有限公司 | 应用于远场识别的前处理方法和装置 |
CN104952450A (zh) * | 2015-05-15 | 2015-09-30 | 百度在线网络技术(北京)有限公司 | 远场识别的处理方法和装置 |
CN106328126A (zh) * | 2016-10-20 | 2017-01-11 | 北京云知声信息技术有限公司 | 远场语音识别处理方法及装置 |
CN107274901A (zh) * | 2017-08-10 | 2017-10-20 | 湖州金软电子科技有限公司 | 一种远场语音交互装置 |
CN107452372A (zh) * | 2017-09-22 | 2017-12-08 | 百度在线网络技术(北京)有限公司 | 远场语音识别模型的训练方法和装置 |
-
2017
- 2017-12-15 CN CN201711353549.9A patent/CN109935226A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1336634A (zh) * | 2000-07-28 | 2002-02-20 | 国际商业机器公司 | 根据基音信息识别声调语言的方法与设备 |
CN1400583A (zh) * | 2001-08-08 | 2003-03-05 | 韦尔博泰克公司 | 感知语音特征话语识别系统及方法 |
CN1975856A (zh) * | 2006-10-30 | 2007-06-06 | 邹采荣 | 一种基于支持向量机的语音情感识别方法 |
CN102324237A (zh) * | 2011-05-30 | 2012-01-18 | 深圳市华新微声学技术有限公司 | 麦克风阵列语音波束形成方法、语音信号处理装置及系统 |
CN104123950A (zh) * | 2014-07-17 | 2014-10-29 | 深圳市中兴移动通信有限公司 | 一种录音方法及装置 |
CN104810021A (zh) * | 2015-05-11 | 2015-07-29 | 百度在线网络技术(北京)有限公司 | 应用于远场识别的前处理方法和装置 |
CN104952450A (zh) * | 2015-05-15 | 2015-09-30 | 百度在线网络技术(北京)有限公司 | 远场识别的处理方法和装置 |
CN106328126A (zh) * | 2016-10-20 | 2017-01-11 | 北京云知声信息技术有限公司 | 远场语音识别处理方法及装置 |
CN107274901A (zh) * | 2017-08-10 | 2017-10-20 | 湖州金软电子科技有限公司 | 一种远场语音交互装置 |
CN107452372A (zh) * | 2017-09-22 | 2017-12-08 | 百度在线网络技术(北京)有限公司 | 远场语音识别模型的训练方法和装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580906A (zh) * | 2019-08-01 | 2019-12-17 | 安徽声讯信息技术有限公司 | 一种基于云端数据的远场音频扩音方法及系统 |
CN110992974A (zh) * | 2019-11-25 | 2020-04-10 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN110992974B (zh) * | 2019-11-25 | 2021-08-24 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
US11620983B2 (en) | 2019-11-25 | 2023-04-04 | Baidu Online Network Technology (Beijing) Co., Ltd | Speech recognition method, device, and computer-readable storage medium |
CN111192600A (zh) * | 2019-12-27 | 2020-05-22 | 北京网众共创科技有限公司 | 声音数据的处理方法及装置、存储介质和电子装置 |
CN112151080A (zh) * | 2020-10-28 | 2020-12-29 | 成都启英泰伦科技有限公司 | 一种录制和处理训练语料的方法 |
CN112887875A (zh) * | 2021-01-22 | 2021-06-01 | 平安科技(深圳)有限公司 | 会议系统语音数据采集方法、装置、电子设备及存储介质 |
CN112887875B (zh) * | 2021-01-22 | 2022-10-18 | 平安科技(深圳)有限公司 | 会议系统语音数据采集方法、装置、电子设备及存储介质 |
CN113793596A (zh) * | 2021-09-15 | 2021-12-14 | 深圳金贝奇电子有限公司 | 一种基于语音增强技术的耳机远场交互系统 |
CN115527526A (zh) * | 2022-11-28 | 2022-12-27 | 南方电网数字电网研究院有限公司 | 端到端远场语音识别系统训练方法、装置、计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109935226A (zh) | 一种基于深度神经网络的远场语音识别增强系统及方法 | |
CN112074901B (zh) | 语音识别登入 | |
CN106503805B (zh) | 一种基于机器学习的双模态人人对话情感分析方法 | |
CN106056207B (zh) | 一种基于自然语言的机器人深度交互与推理方法与装置 | |
CN108630193B (zh) | 语音识别方法及装置 | |
CN106504768B (zh) | 基于人工智能的电话拨测音频分类方法及装置 | |
CN105244026B (zh) | 一种语音处理方法及装置 | |
CN106294774A (zh) | 基于对话服务的用户个性化数据处理方法及装置 | |
CN107767869A (zh) | 用于提供语音服务的方法和装置 | |
JP2020515905A (ja) | 話者の確認方法及び話者の確認装置 | |
AU2016277548A1 (en) | A smart home control method based on emotion recognition and the system thereof | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
CN106356067A (zh) | 录音方法、装置及终端 | |
CN109346055A (zh) | 主动降噪方法、装置、耳机及计算机存储介质 | |
CN105046238A (zh) | 一种面部表情机器人多通道信息情感表达映射方法 | |
CN108922541A (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN104538034A (zh) | 一种语音识别方法及系统 | |
CN108899047A (zh) | 音频信号的掩蔽阈值估计方法、装置及存储介质 | |
CN109887489A (zh) | 基于生成对抗网络的深度特征的语音去混响方法 | |
CN106023986B (zh) | 一种基于声效模式检测的语音识别方法 | |
CN109376363A (zh) | 一种基于耳机的实时语音翻译方法及装置 | |
CN109346057A (zh) | 一种智能儿童玩具的语音处理系统 | |
CN109410956A (zh) | 一种音频数据的对象识别方法、装置、设备及存储介质 | |
CN109697978A (zh) | 用于生成模型的方法和装置 | |
CN102509548B (zh) | 一种基于多距离声传感器的音频索引方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190625 |