CN114664303A - 连续语音指令快速识别控制系统 - Google Patents
连续语音指令快速识别控制系统 Download PDFInfo
- Publication number
- CN114664303A CN114664303A CN202210347366.0A CN202210347366A CN114664303A CN 114664303 A CN114664303 A CN 114664303A CN 202210347366 A CN202210347366 A CN 202210347366A CN 114664303 A CN114664303 A CN 114664303A
- Authority
- CN
- China
- Prior art keywords
- voice
- module
- recognition
- output information
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012545 processing Methods 0.000 claims abstract description 142
- 238000013528 artificial neural network Methods 0.000 claims abstract description 56
- 238000007781 pre-processing Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims description 26
- 230000003321 amplification Effects 0.000 claims description 25
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 15
- 230000002093 peripheral effect Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供连续语音指令快速识别控制系统,包括:输入模块与预处理模块连接,通过MIC输入用户控制语音;预处理模块的另一端分别与在线语音识别处理模块、离线语音识别处理模块连接,对用户控制语音进行音频预处理;在线语音识别处理模块通过云端平台对预处理后的语音进行语音识别得到语音输出信息;离线语音识别处理模块通过神经网络RNN模型对预处理后的语音进行语音识别得到语音输出信息;输出模块将在线语音识别处理模块或离线语音识别处理模块得到的语音输出信息输出。本发明通过在线语音识别处理模块和离线语音识别处理模块消除了是否在线的限制,使得离线状态也能够进行语音指令识别,而且还能够快速稳定地针对连续的语音指令进行识别。
Description
技术领域
本发明涉及智能控制技术领域,特别涉及一种连续语音指令快速识别控制 系统。
背景技术
随着计算机的普及和越来越多的智能设备出现,怎么跟这些设备之间建立 一个简单直接的沟通方式成了人们迫切的需求,语音识别技术的出现让人们的 这种需求从梦想变成了现实,实现可以跟机器就行语音交流,语音识别,通常 称为自动语音识别,主要是将人类语音中的词汇内容转换为计算机可读的输入。
目前,在线语音识别普遍都存在着网络不稳定、回馈延时大等问题,离线 语音识别的出现则摆脱了对网络的依赖,但是单次只能识别一条单一的指令, 大大的影响了用户使用产品的体验感,因此,本发明给出了一种连续语音指令 快速识别控制系统,通过在线语音识别处理模块和离线语音识别处理模块消除 了是否在线的限制,使得离线状态也能够进行语音指令识别,而且还能够快速 稳定地针对连续的语音指令进行识别。
发明内容
本发明提供了连续语音指令快速识别控制系统,运用神经网络RNN,解决 现有技术方案中单次只能识别一条单一指令的问题。
本发明提供一种连续语音指令快速识别控制系统,包括:一种连续语音指 令快速识别控制系统,其特征在于,包括:输入模块、预处理模块、在线语音 识别处理模块、离线语音识别处理模块和输出模块;
所述输入模块与所述预处理模块连接,用于通过MIC输入用户控制语音;
所述预处理模块的另一端分别与所述在线语音识别处理模块、离线语音识 别处理模块连接,用于对所述用户控制语音进行音频预处理,得到预处理后的 语音;
所述在线语音识别处理模块,用于通过云端平台对预处理后的语音进行语 音识别得到语音输出信息;
所述离线语音识别处理模块,用于通过神经网络RNN模型对预处理后的语 音进行语音识别得到语音输出信息;
所述输出模块,用于将所述在线语音识别处理模块或所述离线语音识别处 理模块得到的语音输出信息输出。
优选的,所述连续语音指令快速识别控制系统还包括:唤醒模块;当所述 连续语音指令快速识别控制系统在预设时间内未收到用户控制语音时,所述连 续语音指令快速识别控制系统进入休眠状态,当再次使用所述连续语音指令快 速识别控制系统时,通过所述唤醒模块,利用特定唤醒词将处于休眠状态的连 续语音指令快速识别控制系统唤醒进入待命状态。
优选的,所述MIC采用线性双麦克风阵列,所述预处理模块在对所述用户 控制语音进行音频预处理时包括:
通过AD芯片对所述MIC输入的用户控制语音进行采集,获得所述用户控 制语音;
对所述用户控制语音进行分帧处理,将所述用户控制语音按帧划分,获得 多个用户控制语音帧;
在所述用户控制语音帧中查找静音信号语音帧,并在所述用户控制语音帧 中将所述静音信号语音帧去除,得到第一处理后的用户控制语音;其中,在所 述用户控制语音帧中查找静音信号语音帧是通过声音识别模型进行识别匹配得 到的,所述声音识别模型是根据静音信号生成的声学模型,在通过声音识别模 型进行识别匹配时,提取所述用户控制语音帧语音特征,并将所述语音特征在 所述声音识别模型中进行匹配,获得所述语音特征的匹配值,再针对所述语音 特征的匹配值进行判断,将所述语音特征的匹配值大于预设阈值的用户控制语 音帧判断为静音信号语音帧;
针对所述第一处理后的用户控制语音进行自身声音消除处理,包括:将所 述第一处理后的用户控制语音通过功放由喇叭进行播放,同时所述MIC进行声 音采集,并将采集到的声音传输至所述AD芯片,再通过回声消除算法得到预 处理后的语音。
优选的,所述在线语音识别处理模块在通过云端平台对预处理后的语音进 行语音识别得到语音输出信息时,通过TPC/IP协议获取所述预处理后的语音; 针对所述预处理后的语音进行自然语言处理识别出用户的意图;针对所述用户 的意图进行意图识别,确定所述用户的意图的合理性;当所述用户的意图合理 时,根据所述用户的意图进行资源访问,获得目标资源,并将所述目标资源传 输至所述中央处理单元,所述中央处理单元针对所述目标资源进行交互信息输 出,得到语音输出信息。
优选的,所述离线语音识别处理模块在通过神经网络RNN模型对预处理后 的语音进行语音识别得到语音输出信息时,针对所述预处理后的语音进行特征 提取,获得预处理后的语音特征,然后根据所述预处理后的语音特征进行模型 训练和模型识别,所述模型训练包括:根据所述语音特征以及调整模型参数对 音频进行模型建立,得到初始状态下的神经网络RNN模型,对所述初始状态下 的神经网络RNN模型进行模型训练,得到优化神经网络RNN模型模板,并将 所述优化神经网络RNN模型模板保存到模型存储单元中;所述模型识别包括: 根据所述语音特征在所模型存储单元中进行模型匹配,得到优化神经网络RNN 模型,并根据失真判决准则进行识别判断,得到语音输出信息。
优选的,所述神经网络RNN模型是在神经网络DNN模型的基础上进行改 造得到的,包括:深层双向RNN和序列短时分类;所述深层双向RNN是在神 经网络DNN模型的隐层上增加一个反馈连接,所述序列短时分类是在神经网络 DNN模型的输出层上引入长短时记忆模块。
优选的,对所述初始状态下的神经网络RNN模型进行模型训练是通过矩阵 和矢量加速器对训练过程进行加速。
优选的,所述连续语音指令快速识别控制系统还包括:文件系统模块、USB 模块和外设模块;
所述文件系统模块,用于进行信息保存,形成本地文件内容;
所述USB模块,用于连接外接存储数据和作为供电接口,连接外接电源, 为所述连续语音指令快速识别控制系统供电;
所述外设模块,用于连接外接设备,所述外接设备包括:蓝牙音箱、智能 家电和汽车电子。
优选的,所述输出模块在将所述在线语音识别处理模块或所述离线语音识 别处理模块得到的语音输出信息输出时,包括:根据所述语音输出信息生成音 频信息进行播放和根据所述语音输出信息生成控制信号输向对应的终端设备进 行控制,其中,根据所述语音输出信息生成音频信息进行播放包括:将所述输 出的语音输出信息转换成目标格式;对目标格式下的语音输出信息进行功放处 理后通过喇叭播放出来。
优选的,所述喇叭在将功放处理后目标格式下的语音输出信息播放出来之 前还通过所述预处理模块进行回声消除处理;所述预处理模块对功放处理后目 标格式下的语音输出信息进行回声消除处理的过程包括:
接收功放处理后目标格式下的语音输出信息,并获得功放处理后目标格式 下的语音输出信息的信号特征;
根据所述功放处理后目标格式下的语音输出信息的信号特征对功放处理后 目标格式下的语音输出信息进行归一处理;
对滤波器进行参数配置,并通过滤波器对功放处理后目标格式下的语音输 出信息进行滤波处理,得到回声消除后的功放处理后目标格式下的语音输出信 息。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明 书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可 通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发 明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明所述的连续语音指令快速识别控制系统的示意图;
图2为本发明所述的连续语音指令快速识别控制系统中预处理模块的原理 示意图;
图3为本发明所述的连续语音指令快速识别控制系统中在线语音识别模块 的原理示意图;
图4为本发明所述的连续语音指令快速识别控制系统中离线语音识别模块 的原理示意图;
图5为本发明所述的连续语音指令快速识别控制系统中离线语音识别模块 中神经网络隐层改进示意图;
图6为本发明所述的连续语音指令快速识别控制系统中离线语音识别模块 中神经网络输出层改进示意图;
图7为本发明所述的连续语音指令快速识别控制系统的原理示意图;
图8为本发明所述的连续语音指令快速识别控制系统中文件系统模块的目 录示意图;
图9为本发明所述的连续语音指令快速识别控制系统中USB模块的原理示 意图;
图10为本发明所述的连续语音指令快速识别控制系统中输出模块的原理示 意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的 优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了连续语音指令快速识别控制系统,包括: 输入模块、预处理模块、在线语音识别处理模块、离线语音识别处理模块和输 出模块;
所述输入模块与所述预处理模块连接,用于通过MIC输入用户控制语音;
所述预处理模块的另一端分别与所述在线语音识别处理模块、离线语音识 别处理模块连接,用于对所述用户控制语音进行音频预处理,得到预处理后的 语音;
所述在线语音识别处理模块,用于通过云端平台对预处理后的语音进行语 音识别得到语音输出信息;
所述离线语音识别处理模块,用于通过神经网络RNN模型对预处理后的语 音进行语音识别得到语音输出信息;
所述输出模块,用于将所述在线语音识别处理模块或所述离线语音识别处 理模块得到的语音输出信息输出。
上述技术方案中,输入模块通过MIC输入用户控制语音,能够比较容易的 获得用户控制语音,方便采集用户控制语音;通过预处理模块对语音进行预处 理,能够抑制无关干扰声音,提高语音的辨识度,保障识别效果;设置在线语 音识别处理模块和离线语音识别处理模块,使得连续语音指令快速识别控制系 统消除了是否在线的限制,在离线状态下也能够进行语音指令识别,使得既可 以享受在线语音识别的丰富资源,又能体验到离线语音识别快速响应的快感, 而且在在线语音识别处理模块中,通过云端平台进行语音识别不仅能够快速得 到语音识别结果,而且还比较稳定,不会出现回馈延时大或者得不到回馈的现 象,并且在离线语音识别处理模块中,通过采用神经网络RNN模型能够使得离 线状态也能对连续语音指令进行交互,针对复杂语音中存在多个指令信息的状 况也能够同时识别出来进行执行,解决了单次只能识别一条单一指令的问题; 输出模块在输出所述语音输出信息实现交互时,具有内置音频播放功能,支持 最大音频个数限定为254,支持最多四个音频连续播放,支持识别等引擎提示 音播放,提升了用户体验感。
本发明提供的一个实施例中,所述连续语音指令快速识别控制系统还包括: 唤醒模块;当所述连续语音指令快速识别控制系统在预设时间内未收到用户控 制语音时,所述连续语音指令快速识别控制系统进入休眠状态,当再次使用所 述连续语音指令快速识别控制系统时,通过所述唤醒模块,利用特定唤醒词将 处于休眠状态的连续语音指令快速识别控制系统唤醒进入待命状态。
上述技术方案中,通过连续语音指令快速识别控制系统在预设时间内未收 到用户控制语音时,使得连续语音指令快速识别控制系统进入休眠状态能够减 少连续语音指令快速识别控制系统在空闲时候的损耗,提高连续语音指令快速 识别控制系统的使用寿命,而且连续语音指令快速识别控制系统处于休眠状态 时不接收控制指令,只有用户通过唤醒模块借助特定唤醒词唤醒连续语音指令 快速识别控制系统,进入待命状态之后才能继续输入用户控制语音,从而避免 连续语音指令快速识别控制系统接收非目标指令信息,以及避免出现的功能误 触发问题。
本发明提供的一个实施例中,所述MIC采用线性双麦克风阵列,如图2所 示,所述预处理模块在对所述用户控制语音进行音频预处理时包括:
通过AD芯片对所述MIC输入的用户控制语音进行采集,获得所述用户控 制语音;
对所述用户控制语音进行分帧处理,将所述用户控制语音按帧划分,获得 多个用户控制语音帧;
在所述用户控制语音帧中查找静音信号语音帧,并在所述用户控制语音帧 中将所述静音信号语音帧去除,得到第一处理后的用户控制语音;其中,在所 述用户控制语音帧中查找静音信号语音帧是通过声音识别模型进行识别匹配得 到的,所述声音识别模型是根据静音信号生成的声学模型,在通过声音识别模 型进行识别匹配时,提取所述用户控制语音帧语音特征,并将所述语音特征在 所述声音识别模型中进行匹配,获得所述语音特征的匹配值,再针对所述语音 特征的匹配值进行判断,将所述语音特征的匹配值大于预设阈值的用户控制语 音帧判断为静音信号语音帧;
针对所述第一处理后的用户控制语音进行自身声音消除处理,包括:将所 述第一处理后的用户控制语音通过功放由喇叭进行播放,同时所述MIC进行声 音采集,并将采集到的声音传输至所述AD芯片,再通过回声消除算法得到预 处理后的语音。
上述技术方案中,通过MIC采用线性双麦克风阵列进行远场拾音,能够实 现家居场景5m的用户指令音频拾取,而且在预处理模块中以信号处理为核心, 以音频数据输出为最终目的,在中央处理单元的控制下,从信号接收,数据输 出,到信息显示,都以信号处理为核心,确保输出数据的完整性和可靠性,并 且通过对用户控制语音进行分帧处理、静音出除以及回声消除,使得预处理后 的语音更加具有辨识性,同时还将通过MIC采集用户语音的同时采集到的周围 其他的声音抑制或者不处理,提升采集声音的效果,此外,预处理模块还能够 对通过MIC输入的用户语音伴随有方言口音的语音进行预处理,提高用户语音的辨别率。
本发明提供的一个实施例中,所述在线语音识别处理模块在通过云端平台 对预处理后的语音进行语音识别得到语音输出信息时,如图3所示,通过TPC/IP 协议获取所述预处理后的语音;针对所述预处理后的语音进行自然语言处理识 别出用户的意图;针对所述用户的意图进行意图识别,确定所述用户的意图的 合理性;当所述用户的意图合理时,根据所述用户的意图进行资源访问,获得 目标资源,并将所述目标资源传输至所述中央处理单元,所述中央处理单元针 对所述目标资源进行交互信息输出,得到语音输出信息。
上述技术方案中,在线语音识别处理模块在通过云端平台对预处理后的语 音进行语音识别得到语音输出信息时,首先,通过TPC/IP协议获取预处理后的 语音,然后,针对预处理后的语音进行自然语言处理识别出用户的意图,接着 对用户的意图进行意图识别,确定用户的意图的合理性,在用户的意图合理时, 根据用户的意图进行资源访问,获得目标资源,并将目标资源传输至中央处理 单元,最后由中央处理单元针对目标资源进行交互信息输出,从而得到语音输 出信息。通过上述技术方案不仅能够快速得到语音识别结果,而且还比较稳定, 不会出现回馈延时大或者得不到回馈的现象,并且在线语音识别处理模块根据 用户语音实现在互联网海量信息中快速找到有用的消息,在云端平台上访问目 标资源,最终放回到设备的中央处理单元,通过中央处理单元进行协同,实现 一个完整的人机交互过程;通过云端平台单元使得具有更强大的运算能力,识 别率和自由性更高。
本发明提供的一个实施例中,所述离线语音识别处理模块在通过神经网络 RNN模型对预处理后的语音进行语音识别得到语音输出信息时,如图4所示, 针对所述预处理后的语音进行特征提取,获得预处理后的语音特征,然后根据 所述预处理后的语音特征进行模型训练和模型识别,所述模型训练包括:根据 所述语音特征以及调整模型参数对音频进行模型建立,得到初始状态下的神经 网络RNN模型,对所述初始状态下的神经网络RNN模型进行模型训练,得到 优化神经网络RNN模型模板,并将所述优化神经网络RNN模型模板保存到模 型存储单元中;所述模型识别包括:根据所述语音特征在所模型存储单元中进 行模型匹配,得到优化神经网络RNN模型,并根据失真判决准则进行识别判断, 得到语音输出信息。
上述技术方案中通过采用神经网络RNN模型能够使得离线状态也能对连续 语音指令进行交互,针对复杂语音中存在多个指令信息的状况也能够同时识别 出来进行执行,解决了单次只能识别一条单一指令的问题,而且当连续语音指 令快速识别控制系统处于未联网的状态下或者在网络不是很好的情况下,离线 语音识别处理模块针对预处理后的语音进行特征提取,获得预处理后的语音特 征,然后根据预处理后的语音特征进行模型训练和模型识别,从而实现通过神 经网络RNN模型对预处理后的语音进行语音识别得到语音输出信息的目的。通 过对预处理后的语音进行特征提取,获得特征参数,特征参数中包括:基音周 期,共振峰,短时平均能量或幅度,(LPC)线性预测系数,自相关函数,(PLP) 感知加权预测系数,(LPCC)线性预测倒谱系数,小波变换系数,(MFCC)梅尔倒 谱系数,经验模态分解系数(EMD),伽马通滤波器系数(GFCC)以及短时平均过 零率;在进行模型训练时,根据语音特征以及调整模型参数对音频进行模型建 立,得到初始状态下的神经网络RNN模型,对初始状态下的神经网络RNN模 型进行模型训练,得到优化神经网络RNN模型模板,并将优化神经网络RNN 模型模板保存到模型存储单元中。运用神经网络RNN模型能够将单帧的信号作 为输入,还能够采用拼接帧作为输入,使得说话时出现协同发音现象时能够完 整进行识别,提高了识别的准确性;通过对初始状态下的神经网络RNN模型进 行模型训练,使得生产模型时运用的调整模型参数通过训练得到优化,从而得 到优化的神经网络RNN模型,进而能够使得离线语音识别处理模块在进行识别 过程中识别的更加准确。在进行模型识别时,根据语音特征在所模型存储单元 中进行模型匹配,得到优化神经网络RNN模型,并根据失真判决准则进行识别 判断,而且采用欧式距离,协方差矩阵以及贝叶斯距离作为失真判断准则,从 而获得语音输出信息。
本发明提供的一个实施例中,所述神经网络RNN模型是在神经网络DNN 模型的基础上进行改造得到的,包括:深层双向RNN和序列短时分类;所述深 层双向RNN是在神经网络DNN模型的隐层上增加一个反馈连接,所述序列短 时分类是在神经网络DNN模型的输出层上引入长短时记忆模块。
上述技术方案中,如图5所示,基于神经网络DNN模型进行改进得到神经 网络RNN模型,在神经网络DNN模型的隐层上增加了一个反馈连接,当前时 刻的输入数据中总有一部分是前一时刻的隐层输出数据,赋予RNN记忆功能, 使得模型非常适合用于对时序信号的建模,从而能够实现连续的多操作指令的 句子识别;如图6所示,在神经网络DNN模型的输出层上引入长短时记忆模块, 实现连续的多操作指令的句子识别,通过引入长短时记忆模块(Long-Short Term Memory,LSTM)解决传统RNN的梯度消失的问题,同时可以在语音识别领域 实用化,双向RNN对当前语音帧进行判断时,不仅可以利用历史的语音信息, 还可以利用未来的语音信息,从而进行更加准确的决策;序列短时分类 (ConnectionistTemporal Classification,CTC)使得训练过程无需帧级别的标注, 实现有效的“端对端”训练。
本发明提供的一个实施例中,对所述初始状态下的神经网络RNN模型进行 模型训练是通过矩阵和矢量加速器对训练过程进行加速。
上述技术方案中,矩阵和矢量加速器在对初始状态下的神经网络RNN模型 进行训练过程中加速训练过程,由于在对DNN进行模型训练过程中往往会涉及 卷积和矩阵的计算,在卷积和矩阵的计算上通常会消耗大量的时间,通过运用 矩阵和矢量加速器加速矩阵的乘加运算,达到加速深度学习和模型训练与推理 的目的。
如图7所示,本发明提供的一个实施例中,所述连续语音指令快速识别控 制系统还包括:文件系统模块、USB模块和外设模块;
所述文件系统模块,用于进行信息保存,形成本地文件内容;
所述USB模块,用于连接外接存储数据和作为供电接口,连接外接电源, 为所述连续语音指令快速识别控制系统供电;
所述外设模块,用于连接外接设备,所述外接设备包括:蓝牙音箱、智能 家电和汽车电子。
上述技术方案中,连续语音指令快速识别控制系统中还设置有文件系统模 块、USB模块和外设模块,如图8所示,通过文件系统模块进行信息保存,而 且文件系统模块在进行信息保存时采用分级分类保存,在保存成功后会形成根 目录和各个等级及类别的子目录,并进行实时更新;如图9所示,通过USB模 块进行外接存储数据,根据USB协议栈通过USB接口将USB存储设备和/文件 系统模块连接到中央处理单元上;外设模块连接支持IO端口、定时器、看门狗 定时器、UART、SPI、I2C、DMA、PLL、USB1.1(全速)、RTC、Quad SPI和SDIO系统级外设功能。搭载文件系统模块,使得当用户将设备通过USB接口与中央 处理单元进行连接时,可以充当一个U盘使用,用来存着文档、音乐等内容, 也可以通过语音交互方式将会议的内容转换成文本形式保存下来,后期可以根 据需求选择是通过语音形式播放出来还是通过USB将文档导出进行二次编辑修 正;同时支持将语音设置的备忘录,电话,地址等信息保存,引入最大程度实 现了多功能支持,同时也节省了空间,方便用户对资源的管理、编辑、访问。 USB接口一般是一个通用的接口,通过USB连接设备后直接外接到中央处理单 元上,可做为中央处理单元的一个移动储存设备,中央处理单元通过USB协议 栈可直接对设备中的存储单元进行读写访问;而且USB口有5V电源,也可通 过USB接口给其它设备充电,同时还可以结合上面的文件系统使用可以实现录 音、文本转语音、语音转文本、备忘录、收藏地址、导入导出联系人等众多功 能。外设模块支持IO端口、定时器、看门狗定时器、UART、SPI、I2C、DMA、 PLL、USB1.1(全速)、RTC、Quad SPI、SDIO等系统级外设功能,丰富使用范 围。
本发明提供的一个实施例中,所述输出模块在将所述在线语音识别处理模 块或所述离线语音识别处理模块得到的语音输出信息输出时,包括:根据所述 语音输出信息生成音频信息进行播放和根据所述语音输出信息生成控制信号输 向对应的终端设备进行控制,其中,根据所述语音输出信息生成音频信息进行 播放包括:将所述输出的语音输出信息转换成目标格式;对目标格式下的语音 输出信息进行功放处理后通过喇叭播放出来。
上述技术方案中,输出模块在将在线语音识别处理模块或离线语音识别处 理模块得到的语音输出信息输出时,既可以根据语音输出信息生成音频信息进 行播放,又可以根据语音输出信息生成控制信号输向对应的终端设备进行控制, 而且在根据语音输出信息生成音频信息进行播放时,如图10所示,输出模块先 是将语音输出信息转换成目标格式,然后对目标格式下的语音输出信息通过功 放进行处理,最后通过喇叭播放处理;通过将语音输出信息转换成PCM或者 ADPCM播放,减小了音频所占用的控制,通过集成一个classd的D类功放对 喇叭播放前的语音输出信息的音频进行功率放大,将信号较弱的部分更好的体 现出来,内置音频播放功能,喇叭支持最大音频个数限定为254个,支持最多 四个音频连续播放,支持识别等引擎提示音播放。上述技术方案不仅支持立体 声输出,适用于对音频要求不高的场合,同时还支持外部功放输出立体声,满 足了不同场合的要求。
本发明提供的一个实施例中,所述喇叭在将功放处理后目标格式下的语音 输出信息播放出来之前还通过所述预处理模块进行回声消除处理;所述预处理 模块对功放处理后目标格式下的语音输出信息进行回声消除处理的过程包括:
接收功放处理后目标格式下的语音输出信息,并获得功放处理后目标格式 下的语音输出信息的信号特征;
根据所述功放处理后目标格式下的语音输出信息的信号特征对功放处理后 目标格式下的语音输出信息进行归一处理;其中在归一处理时根据如下公式获 得归一处理后的功放处理后目标格式下的语音输出信息频率;
上述公式中,w表示归一处理后的功放处理后目标格式下的语音输出信息频 率,k表示待定常数,N表示阶数,L表示最大衰减量,ln表示对数函数,a表示 功放处理后目标格式下的语音输出信息频率;
对滤波器进行参数配置,并通过滤波器对功放处理后目标格式下的语音输 出信息进行滤波处理,得到回声消除后的功放处理后目标格式下的语音输出信 息,在对滤波器进行参数配置时,滤波器的带宽根据如下公式进行确定:
上述公式中,DK表示EMC滤波器的带宽,c表示EMC滤波器的过渡带的边 界频率,b表示阻带中心频率。
上述技术方案中,预处理模块在喇叭将功放处理后目标格式下的语音输出 信息播放出来之前对播放的目标格式下的语音输出信息进行回声消除处理,运 用喇叭将根据目标格式下的语音输出信息进行处理与识别得到的语音输出信息 播放出来,实现语音交互,运用预处理模块对目标格式下的语音输出信息在播 放前进行回声消除处理,使得喇叭播放出来的语音音效更加清晰。喇叭在将功 放处理后目标格式下的语音输出信息播放出来之前通过预处理模块进行回声消 除处理的过程中,首先,接收功放处理后的目标格式下的语音输出信息,并获 得收功放处理后目标格式下的语音输出信息的信号特征;然后,根据收功放处 理后目标格式下的语音输出信息的信号特征对功放处理后目标格式下的语音输 出信息进行归一处理和对滤波器进行参数配置,最后,通过滤波器对功放处理 后目标格式下的语音输出信息进行滤波处理,得到回声消除后的功放处理后的 语音输出信息,使得对功放处理后目标格式下的语音输出信息中混入的回音音 频频率较弱的通过设置过滤器将其过滤掉,只保存语音输出信息的主频率,从 而达到回声消除的目的,进而使得喇叭播放的语音音效更加,提升用户的体验 感,此外,通过归一化处理能够降低滤除过程中出现错误的概率,使得滤波器 进行滤除处理过程更加的精确,而且在带宽的计算公式中能够放大EMC滤波器 的过渡带的边界频率与阻带中心频率之间的关系,使得得到的EMC滤波器的带 宽更准确。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发 明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及 其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种连续语音指令快速识别控制系统,其特征在于,包括:输入模块、预处理模块、在线语音识别处理模块、离线语音识别处理模块和输出模块;
所述输入模块与所述预处理模块连接,用于通过MIC输入用户控制语音;
所述预处理模块的另一端分别与所述在线语音识别处理模块、离线语音识别处理模块连接,用于对所述用户控制语音进行音频预处理,得到预处理后的语音;
所述在线语音识别处理模块,用于通过云端平台对预处理后的语音进行语音识别得到语音输出信息;
所述离线语音识别处理模块,用于通过神经网络RNN模型对预处理后的语音进行语音识别得到语音输出信息;
所述输出模块,用于将所述在线语音识别处理模块或所述离线语音识别处理模块得到的语音输出信息输出。
2.根据权利要求1所述的连续语音指令快速识别控制系统,其特征在于,所述连续语音指令快速识别控制系统还包括:唤醒模块;当所述连续语音指令快速识别控制系统在预设时间内未收到用户控制语音时,所述连续语音指令快速识别控制系统进入休眠状态,当再次使用所述连续语音指令快速识别控制系统时,通过所述唤醒模块,利用特定唤醒词将处于休眠状态的连续语音指令快速识别控制系统唤醒进入待命状态。
3.根据权利要求1所述的连续语音指令快速识别控制系统,其特征在于,所述MIC采用线性双麦克风阵列,所述预处理模块在对所述用户控制语音进行音频预处理时包括:
通过AD芯片对所述MIC输入的用户控制语音进行采集,获得所述用户控制语音;
对所述用户控制语音进行分帧处理,将所述用户控制语音按帧划分,获得多个用户控制语音帧;
在所述用户控制语音帧中查找静音信号语音帧,并在所述用户控制语音帧中将所述静音信号语音帧去除,得到第一处理后的用户控制语音;其中,在所述用户控制语音帧中查找静音信号语音帧是通过声音识别模型进行识别匹配得到的,所述声音识别模型是根据静音信号生成的声学模型,在通过声音识别模型进行识别匹配时,提取所述用户控制语音帧语音特征,并将所述语音特征在所述声音识别模型中进行匹配,获得所述语音特征的匹配值,再针对所述语音特征的匹配值进行判断,将所述语音特征的匹配值大于预设阈值的用户控制语音帧判断为静音信号语音帧;
针对所述第一处理后的用户控制语音进行自身声音消除处理,包括:将所述第一处理后的用户控制语音通过功放由喇叭进行播放,同时所述MIC进行声音采集,并将采集到的声音传输至所述AD芯片,再通过回声消除算法得到预处理后的语音。
4.根据权利要求1所述的连续语音指令快速识别控制系统,其特征在于,所述在线语音识别处理模块在通过云端平台对预处理后的语音进行语音识别得到语音输出信息时,通过TPC/IP协议获取所述预处理后的语音;针对所述预处理后的语音进行自然语言处理识别出用户的意图;针对所述用户的意图进行意图识别,确定所述用户的意图的合理性;当所述用户的意图合理时,根据所述用户的意图进行资源访问,获得目标资源,并将所述目标资源传输至所述中央处理单元,所述中央处理单元针对所述目标资源进行交互信息输出,得到语音输出信息。
5.根据权利要求1所述的连续语音指令快速识别控制系统,其特征在于,所述离线语音识别处理模块在通过神经网络RNN模型对预处理后的语音进行语音识别得到语音输出信息时,针对所述预处理后的语音进行特征提取,获得预处理后的语音特征,然后根据所述预处理后的语音特征进行模型训练和模型识别,所述模型训练包括:根据所述语音特征以及调整模型参数对音频进行模型建立,得到初始状态下的神经网络RNN模型,对所述初始状态下的神经网络RNN模型进行模型训练,得到优化神经网络RNN模型模板,并将所述优化神经网络RNN模型模板保存到模型存储单元中;所述模型识别包括:根据所述语音特征在所模型存储单元中进行模型匹配,得到优化神经网络RNN模型,并根据失真判决准则进行识别判断,得到语音输出信息。
6.根据权利要求5所述的连续语音指令快速识别控制系统,其特征在于,所述神经网络RNN模型是在神经网络DNN模型的基础上进行改造得到的,包括:深层双向RNN和序列短时分类;所述深层双向RNN是在神经网络DNN模型的隐层上增加一个反馈连接,所述序列短时分类是在神经网络DNN模型的输出层上引入长短时记忆模块。
7.根据权利要求6所述的连续语音指令快速识别控制系统,其特征在于,对所述初始状态下的神经网络RNN模型进行模型训练是通过矩阵和矢量加速器对训练过程进行加速。
8.根据权利要求1所述的连续语音指令快速识别控制系统,其特征在于,所述连续语音指令快速识别控制系统还包括:文件系统模块、USB模块和外设模块;
所述文件系统模块,用于进行信息保存,形成本地文件内容;
所述USB模块,用于连接外接存储数据和作为供电接口,连接外接电源,为所述连续语音指令快速识别控制系统供电;
所述外设模块,用于连接外接设备,所述外接设备包括:蓝牙音箱、智能家电和汽车电子。
9.根据权利要求3所述的连续语音指令快速识别控制系统,其特征在于,所述输出模块在将所述在线语音识别处理模块或所述离线语音识别处理模块得到的语音输出信息输出时,包括:根据所述语音输出信息生成音频信息进行播放和根据所述语音输出信息生成控制信号输向对应的终端设备进行控制,其中,根据所述语音输出信息生成音频信息进行播放包括:将所述输出的语音输出信息转换成目标格式;对目标格式下的语音输出信息进行功放处理后通过喇叭播放出来。
10.根据权利要求9所述的连续语音指令快速识别控制系统,其特征在于,所述喇叭在将功放处理后目标格式下的语音输出信息播放出来之前还通过所述预处理模块进行回声消除处理;所述预处理模块对功放处理后目标格式下的语音输出信息进行回声消除处理的过程包括:
接收功放处理后目标格式下的语音输出信息,并获得功放处理后目标格式下的语音输出信息的信号特征;
根据所述功放处理后目标格式下的语音输出信息的信号特征对功放处理后目标格式下的语音输出信息进行归一处理;
对滤波器进行参数配置,并通过滤波器对功放处理后目标格式下的语音输出信息进行滤波处理,得到回声消除后的功放处理后目标格式下的语音输出信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210347366.0A CN114664303A (zh) | 2022-04-01 | 2022-04-01 | 连续语音指令快速识别控制系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210347366.0A CN114664303A (zh) | 2022-04-01 | 2022-04-01 | 连续语音指令快速识别控制系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114664303A true CN114664303A (zh) | 2022-06-24 |
Family
ID=82033487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210347366.0A Withdrawn CN114664303A (zh) | 2022-04-01 | 2022-04-01 | 连续语音指令快速识别控制系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114664303A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114898755A (zh) * | 2022-07-14 | 2022-08-12 | 科大讯飞股份有限公司 | 语音处理方法及相关装置、电子设备、存储介质 |
-
2022
- 2022-04-01 CN CN202210347366.0A patent/CN114664303A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114898755A (zh) * | 2022-07-14 | 2022-08-12 | 科大讯飞股份有限公司 | 语音处理方法及相关装置、电子设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10726830B1 (en) | Deep multi-channel acoustic modeling | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
CN107799126A (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
CN111341325A (zh) | 声纹识别方法、装置、存储介质、电子装置 | |
CN110570873B (zh) | 声纹唤醒方法、装置、计算机设备以及存储介质 | |
CN108711429B (zh) | 电子设备及设备控制方法 | |
US20220076674A1 (en) | Cross-device voiceprint recognition | |
CN102404278A (zh) | 一种基于声纹识别的点歌系统及其应用方法 | |
CN113205803B (zh) | 一种具有自适应降噪能力的语音识别方法及装置 | |
CN111145763A (zh) | 一种基于gru的音频中的人声识别方法及系统 | |
CN111210829A (zh) | 语音识别方法、装置、系统、设备和计算机可读存储介质 | |
KR20180012639A (ko) | 음성 인식 방법, 음성 인식 장치, 음성 인식 장치를 포함하는 기기, 음성 인식 방법을 수행하기 위한 프로그램을 저장하는 저장 매체, 및 변환 모델을 생성하는 방법 | |
CN109346057A (zh) | 一种智能儿童玩具的语音处理系统 | |
CN110428835A (zh) | 一种语音设备的调节方法、装置、存储介质及语音设备 | |
CN112669838A (zh) | 一种智能音箱音频播放方法、装置、电子设备、存储介质 | |
EP1374228A1 (en) | Method and processor system for processing of an audio signal | |
CN111798846A (zh) | 语音命令词识别方法、装置、会议终端及会议终端系统 | |
CN114664303A (zh) | 连续语音指令快速识别控制系统 | |
CN117059068A (zh) | 语音处理方法、装置、存储介质及计算机设备 | |
CN110808050B (zh) | 语音识别方法及智能设备 | |
CN110853669A (zh) | 音频识别方法、装置及设备 | |
CN114299927A (zh) | 唤醒词识别方法、装置、电子设备及存储介质 | |
CN113889091A (zh) | 语音识别方法、装置、计算机可读存储介质及电子设备 | |
CN111145748B (zh) | 音频识别置信度确定方法、装置、设备及存储介质 | |
CN109922397B (zh) | 音频智能处理方法、存储介质、智能终端及智能蓝牙耳机 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220624 |
|
WW01 | Invention patent application withdrawn after publication |