CN112908310A - 一种智能电器中的语音指令识别方法及识别系统 - Google Patents
一种智能电器中的语音指令识别方法及识别系统 Download PDFInfo
- Publication number
- CN112908310A CN112908310A CN202110075780.6A CN202110075780A CN112908310A CN 112908310 A CN112908310 A CN 112908310A CN 202110075780 A CN202110075780 A CN 202110075780A CN 112908310 A CN112908310 A CN 112908310A
- Authority
- CN
- China
- Prior art keywords
- voice instruction
- signal
- voice
- instruction
- effective
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 14
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000003786 synthesis reaction Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 description 5
- 241001672694 Citrus reticulata Species 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000010411 cooking Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及一种智能电器中的语音指令识别方法,包括以下步骤:S1、采用至少两个单向麦克风组成的具有方向性的阵列麦克风组采集智能电器周围的原始声音数据;S2、获取各单向麦克风的原始声音数据,将各原始声音数据进行指向性波束形成算法合成,得到增益的声音数据;S3、对声音数据进行处理,以获取声音数据中对应于语音指令各有效语音片段的首帧语音帧以及尾帧语音帧,进而分割出包括语音指令对应的各有效语音片段的有效语音指令信号;S4、提取有效语音指令信号的声纹特征,将有效语音指令信号的声纹特征与的各声纹特征进行比对,进而获取有效语音指令的识别结果。该方法能噪声影响小、计算资源小。本发明还涉及应用该方法的语音指令识别系统。
Description
技术领域
本发明涉及一种智能电器技术领域,具体涉及一种智能电器中的语音指令识别方法,还涉及一种智能电器中的语音指令识别系统。
背景技术
随着技术的发展,语音识别在人机交互领域中的作用越来越重要,智能设备在人类的日常生活中得到了广泛的应用。目前的语音识别技术已能在一定程度上实现智能化设备的语音指令控制功能。
而在智能家电中,尤其是在厨房的应用场景下,可能存在炒菜等环境噪声,或非控制指令的说话声等无效语音。在现有的语音识别技术方案中,大多使用VAD语音端点检测方法来进行声音检测,环境噪声和无效语音也会被设备检测到并进行识别处理,从而造成浪费计算资源的问题,也会影响识别准确率。
同时,通常家电设备只需识别并执行某些固定的控制指令即可满足日常需求。而目前的语音识别技术为了得到更高的识别准确率,通常需要使用大量声音数据进行训练,因此产生浪费时间和计算资源的问题。
发明内容
本发明所要解决的第一个技术问题是针对上述现有技术提供一种智能电器中的语音指令识别方法,在实现较高语音识别准确率的前提下,有效地克服噪声影响和节约计算资源,减低设备成本,适用于资源受限的智能电器产品。
本发明所要解决的第二个技术问题是针对上述现有技术提供一种识别准确率高且对计算资源要求低的智能电器中的语音指令识别系统。
本发明解决上述第一个技术问题所采用的技术方案为:智能电器中的语音指令识别方法,其特征在于:包括以下步骤:
S1、采用至少两个单向麦克风组成的具有方向性的阵列麦克风组采集智能电器周围的原始声音数据;
S2、获取各单向麦克风的原始声音数据,将各原始声音数据进行指向性波束形成算法合成,得到增益的声音数据;
S3、对声音数据进行处理,以获取声音数据中对应于语音指令各有效语音片段的首帧语音帧以及尾帧语音帧,进而分割出包括语音指令对应的各有效语音片段的有效语音指令信号;
S4、提取有效语音指令信号的声纹特征,将有效语音指令信号的声纹特征与的各声纹特征进行比对,进而获取有效语音指令的识别结果。
优选地,声音数据的获取方法为:将两个单向麦克风面向用户使用方向设置在智能电器上,构成具有方向性的阵列麦克风组;
通过麦克风组采集智能电器周围的原始声音数据,分别得到音频采集数据帧frame1和frame2;
对音频采集数据frame1和frame2进行指向性波束形成算法合成,增强麦克风组正前方设定角度范围内的声音信号,并抑制其他方向的噪音信号,得到麦克风组增益的声音数据frame。
更准确地,语音指令信号的获取方法为:
对声音数据frame的各帧数据进行短时能量检测;如果声音数据frame中短时能量未超过设定能量阈值的数据为噪声数据;
如果声音数据frame中短时能量超过设定能量阈值的数据为非噪音数据;然后利用高斯模型计算非噪音数据中的各帧数据的六个子频带的似然比,同时计算六个子频带的似然比之和的和数据;
对于单帧非噪音数据,如果和数据超过设定值,并且其中至少三个自频带的似然比大于设定的判决门限值,则判断该单帧非噪音数据为单帧语音数据;
将第一个检测出来的单帧语音数据作为首帧语音帧;
如果一个单帧语音数据后的连续N帧数据出现短时能量小于设定能量阈值的情况,则判断该单帧语音数据为尾帧语音帧,其中N为大于1的自然数;
将声音数据中首帧语音帧至尾帧语音帧的数据分割出来作为语音指令信号。
为了减小数据的处理量,获取语音指令信号的长度,并将该语音指令信号长度与预设的长度阈值范围进行比较,如果该语音指令信号长度在长度阈值范围内,则将该语音指令信号作为有效语音指令信号。
优选地,在智能电器处于指令学习状态下时,重复采集同一指令内容的原始声音数据直至获取到设定数量M组有效语音指令信号的声纹特征;
有效语音指令信号的声纹特征的获取方法为:
对于获取到的有效语音指令信号,利用MFCC算法对有效语音指令信号进行声纹特征提取,计算该有效语音指令信号的声纹特征信噪比并与信噪比阈值进行比较,如果有效语音指令信号的声纹特征信噪比小于信噪比阈值,则剔除该条有效语音指令信号;如果有效语音指令信号的声纹特征信噪比大于信噪比阈值,则判断成功采集到一组有效语音信号的声纹特征,然后对该条语音指令对应的有效语音信号的声纹特征组数进行累加,当获取到该条语音指令对应的有效语音信号的声纹特征组数达到M时,则将通过DTW算法将该条语音指令对应的M组有效语音信号的声纹特征两两进行比较,如果有一对声纹特征差异超过差异阈值,则重新进行该语音指令的学习,如果任一对声纹特征差异均在差异阈值范围内,则完成该语音指令的指令内容学习,进而形成语音指令声纹特征库。
优选地,在智能电器处于语音指令识别状态下时,利用MFCC算法对获取的有效语音指令信号进行声纹特征提取,计算该有效语音指令信号的声纹特征的信噪比,并将该有效语音指令信号的声纹特征的信噪比与信噪比阈值进行比较,如果有效语音指令信号的声纹特征信噪比小于信噪比阈值,则剔除该条有效语音指令信号;如果有效语音指令信号的声纹特征信噪比大于信噪比阈值,则通过DTW算法对比该条有效语音指令信号和语音指令声纹特征库中的语音指令信号的声纹特征,进而确定语音指令声纹特征库中与该有效语音指令信号声纹特征差异最小的语音指令信号,根据语音指令声纹特征库中语音指令信号的指令内容识别出该有效语音指令信号对应的指令内容。
为了进一步减小数据处理量,语音指令声纹特征库中能存储不同用户对应的语音指令声纹特征数据组;
在智能电器处于语音指令识别状态下时,首先对简短的唤醒词对应的有效语音指令信号的声纹特征进行对比处理,进而确定与唤醒词对应的有效语音指令信号的声纹信息最接近的两个用户的语音指令信号;
然后再进行具有实质指令内容的有效语音指令信号的识别,在对具有实质指令内容的有效语音指令信号识别时,仅将有效语音指令信号的声纹特征与的唤醒词对应的两个用户的语音指令声纹特征数据组进行比较,进而识别具有实质指令内容的有效语音指令信号的指令内容。
本发明解决上述第二个技术问题所采用的技术方案为:一种智能电器中的语音指令识别系统,其特征在于:包括
声音采集模块,包括至少两个单向麦克风组成的具有方向性的阵列麦克风组,用于对原始声音数据进行采集,并对各单向麦克风采集的原始声音数据进行合成处理,得到增益的声音数据;
指令信号提取模块,与声音采集模块电信号连接,用于从声音数据中检测、分割出有效语音指令信号;
指令学习模块,与指令信号提取模块电信号连接,用于提取有效对语音指令信号的声纹特征提取和存储,实现对有效对语音指令信号对应的指令内容的学习;
指令识别模块,分别与指令信号提取模块、指令学习模块电信号连接,用于提取有效语音指令信号的声纹特征,并与指令学习模块中存储的各声纹特征进行比对,进而获取指令内容识别结果。
与现有技术相比,本发明的优点在于:本发明的智能电器中的语音指令识别方法,使用至少两个单向麦克风组成的具有方向性的阵列麦克风组来采集声音数据,使得正对采集的有效语音指令对应的声音信号能量与自其他声源方向采集的无效语音信号的能量有着较大差异,进而能够准确的筛选出采集的声音数据中的有效语音信号,可有效抑制噪声,减少冗余信息,提高强噪声环境下语音指令准确获取,同时配合采用资源需求较低的语音处理算法进行一定裁减和功耗优化,在节约计算资源的基础上完成语音指令的识别,使之更适用于如烹饪电器等数据处理资源受限的智能电器中。此外,语音指令的学习和识别采用了记录特定语音指令的语音特征并比较特征以识别语音控制内容的方式,从而无需大量声音数据进行训练,可实现在保证语音识别准确率的前提下有效地节约计算资源,降低设备成本,并且支持普通话和各类方言语音指令的识别。
而应用该智能电器中的语音指令识别方法的识别系统,可以应用在数据处理量小的各种智能电器中,设备成本低,并且支持普通话和各类方言的语音指令的识别,识别准确度高。
附图说明
图1为本发明实施例中智能电器中的语音指令识别方法的流程图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本实施例中的智能电器中的语音指令识别方法可以通过智能电器中的语音指令识别系统来实现,该智能电器中的语音指令识别系统可以应用在各种智能电器中。如可以应用在吸油烟机、蒸箱、烤箱等智能厨电中。
该智能电器中的语音指令识别系统具体包括声音采集模块、指令信号提取模块、指令学习模块和指令识别模块。
其中声音采集模块包括至少两个单向麦克风组成的具有方向性的阵列麦克风组,这些麦克风面向用户方向安装在智能电器上,本实施例中的声音采集模块采用了两个单向麦克风,两个麦克风之间具有一定的间距,两个麦克风之间的间距根据智能厨电的具体结构以及智能厨电安装的空间大小具体确定。该用于对原始声音数据进行采集,并对各单向麦克风采集的原始声音数据进行合成处理,得到增益的声音数据。
单向麦克风仅接收从指定方向传来的声音。如此人们需要对着单向麦克风的声音说话才能获得更好的声音增益,其他来自不同于单向麦克风接收方向的声音都会被削弱,也就意味着来自非单向麦克风接收方向的声音增益很小。然后再经过双麦克风波束形成处理后,单向麦克风接收方向处接收的声音具有较好的增益,而其他方向处的声音增益很小,其他方向处的声音会被削弱接收。基于该特点可有效地滤除噪声和无效语音,大大提高语音识别的准确率。
指令信号提取模块与声音采集模块电信号连接,用于从声音数据中检测、分割出有效语音指令信号。具体该指令信号提取模块根据能量衰减特点分割出有效的声音指令信号。
指令学习模块,与指令信号提取模块电信号连接,用于提取有效对语音指令信号的声纹特征提取和存储,实现对有效对语音指令信号对应的指令内容的学习;
指令识别模块分别与指令信号提取模块、指令学习模块电信号连接,用于提取有效语音指令信号的声纹特征,并与指令学习模块中存储的各声纹特征进行比对,进而获取指令内容识别结果。该指令识别模块可以支持多用户语音识别,使用时,初始化状态为休眠状态,需要用户通过特定的唤醒词才能切换至唤醒模式,在唤醒状态能识别特定用户的语音指令,并且拥有超时机制,如果长期处于唤醒状态而不输入语音指令,超时后会切换至休眠模式。
如图1所示,本发明中的智能电器中的语音指令识别方法,包括以下步骤:
S1、采用至少两个单向麦克风组成的具有方向性的阵列麦克风组采集智能电器周围的原始声音数据。
在出厂前可以设置采集声音的参数,本实施例中,设置声音采集频率为8KHz,由于设置了两个单向麦克风,则声音采集通道设置为2,采集时间间隔为30ms,每帧共80个16Bits采样点,即每帧音频采集数据大小为160Bytes。
S2、获取各单向麦克风的原始声音数据,将各原始声音数据进行指向性波束形成算法合成,得到增益的声音数据。
增益的声音数据的具体获取方法为:通过具有两个单向麦克风的麦克风组采集智能电器周围的原始声音数据,分别得到音频采集数据帧frame1和frame2;对音频采集数据frame1和frame2进行指向性波束形成算法合成,增强麦克风组正前方设定角度范围内的声音信号,并抑制其他方向的噪音信号,得到麦克风组增益的声音数据frame,该增益的声音数据frame为高增益的单帧声音数据。
S3、对高增益的声音数据进行处理,以获取声音数据中对应于语音指令各有效语音片段的首帧语音帧以及尾帧语音帧,进而分割出包括语音指令对应的各有效语音片段的有效语音指令信号。
有效语音指令信号的获取方法为:
对声音数据frame的各帧数据进行短时能量检测。若声音数据frame的能量值很小,则说明声音数据frame中包含的声音信号为噪音,因此首先根据能量值初步滤除能量过小的声音数据帧。每帧数据的短时能量公式为:
其中,En为第n帧声音数据的短时能量,M为每帧数据的总采样点数,xn[i]2为第n帧声音数据第i个采样点的幅值。本实施例中设置了采样频率为8KHz,采样时间间隔为30ms,则M为8KHz*30ms=240。
如果声音数据frame中短时能量未超过设定能量阈值的数据为噪声数据,噪声数据则被滤除。如果声音数据frame中短时能量超过设定能量阈值的数据为非噪音数据而进行保留。
由于语音和噪声在频谱上的差异比较大,因此不同类型信号的频谱在不同频带的特征也具有明显差异。基于这个现象将信号的频谱分为80~250Hz、250~500Hz、500Hz~1KHz、1KHz~2K Hz,2KHz~3K Hz,3KHz~4KHz这六个子频带,使用子频带能量作为特征量计算各个子频带的似然比,判断声音信号是语音或噪声的概率。可以使用高斯混合模型GMM对语音和噪声建模,根据声音信号各子频带能量分别计算语音和非语音的概率,使用假设检验的方法确定信号的类型。
在此基础上,则利用高斯模型计算声音数据frame中非噪音数据的各帧数据的六个子频带的似然比,同时计算六个子频带的似然比之和的和数据。
对于单帧非噪音数据,如果和数据超过设定值,并且其中至少三个自频带的似然比大于设定的判决门限值,则判断该单帧非噪音数据为单帧语音数据。
由于一段人声在结尾时的能量呈现出骤降的特点,因此可根据这个特点设置能量阈值来找到语音信号结束的帧信号。同时考虑到人说话时可能出现一段声音中间的音量较小而导致能量过小的情况,需要找到连续多帧数据的短时能量均小于能量阈值时,才判断找到语音信号的尾帧。
如此,将第一个检测出来的单帧语音数据作为首帧语音帧。在语音帧的检测过程中,如果一个单帧语音数据后的连续N帧数据出现短时能量小于设定能量阈值的情况,则判断该单帧语音数据为尾帧语音帧,其中N为大于1的自然数;
将声音数据中首帧语音帧至尾帧语音帧的数据分割出来作为语音指令信号。
为了更准确地获取有效语音指令信号,对获取到的语音指令信号长度进行判断,滤除非语音指令但能量可满足前述要求的声音信号。如此则获取语音指令信号的长度,并将该语音指令信号长度与预设的长度阈值范围进行比较,如果该语音指令信号长度在长度阈值范围内,则将该语音指令信号作为有效语音指令信号。
S4、提取有效语音指令信号的声纹特征,将有效语音指令信号的声纹特征与的各声纹特征进行比对,进而获取有效语音指令的识别结果。
在进行有效语音指令的识别前通常需要进行有效语音指令的学习,指令学习模块采用优化的MFCC算法提取声纹特征数据,利用DTW模式匹配算法对声纹特征数据进行比对,为了这些算法能够适用于资源受限的系统,MFCC算法通过预先算出一些计算用到的系数作为常数放到内存中,节省了运算时间,而DTW算法中的距离矩阵需要消耗大量内存空间,可以通过对矩阵结构的优化,把算法压缩至2KB内存消耗。通过有效语音指令的学习的过程,能够使得该系统支持多用户多语音指令的识别。
在智能电器处于指令学习状态下时,可以针对不同的用户分别进行各有效语音指令的学习,学习的方法如下。
重复采集同一指令内容的原始声音数据直至获取到设定数量M组有效语音指令信号的声纹特征。
对于获取到的有效语音指令信号,利用MFCC算法对有效语音指令信号进行声纹特征提取,计算该有效语音指令信号的声纹特征信噪比并与信噪比阈值进行比较,如果有效语音指令信号的声纹特征信噪比小于信噪比阈值,则剔除该条有效语音指令信号;如果有效语音指令信号的声纹特征信噪比大于信噪比阈值,则判断成功采集到一组有效语音信号的声纹特征,然后对该条语音指令对应的有效语音信号的声纹特征组数进行累加,当获取到该条语音指令对应的有效语音信号的声纹特征组数达到M时,则将通过DTW算法将该条语音指令对应的M组有效语音信号的声纹特征两两进行比较,如果有一对声纹特征差异超过差异阈值,则重新进行该语音指令的学习,如果任一对声纹特征差异均在差异阈值范围内,则完成该语音指令的指令内容学习,进而形成语音指令声纹特征库。
针对不同用户的语音指令学习,语音指令声纹特征库中能存储不同用户对应的语音指令声纹特征数据组。
在智能电器处于语音指令识别状态下时,首先对简短的唤醒词对应的有效语音指令信号的声纹特征进行对比处理,进而确定与唤醒词对应的有效语音指令信号的声纹信息最接近的两个用户的语音指令信号;
然后再进行具有实质指令内容的有效语音指令信号的识别,在对具有实质指令内容的有效语音指令信号识别时,仅将有效语音指令信号的声纹特征与的唤醒词对应的两个用户的语音指令声纹特征数据组进行比较,进而识别具有实质指令内容的有效语音指令信号的指令内容。
本发明的智能电器中的语音指令识别方法,使用至少两个单向麦克风组成的具有方向性的阵列麦克风组来采集声音数据,使得正对采集的有效语音指令对应的声音信号能量与自其他声源方向采集的无效语音信号的能量有着较大差异,进而能够准确的筛选出采集的声音数据中的有效语音信号,可有效抑制噪声,减少冗余信息,提高强噪声环境下语音指令准确获取,同时配合采用资源需求较低的语音处理算法进行一定裁减和功耗优化,在节约计算资源的基础上完成语音指令的识别,使之更适用于如烹饪电器等数据处理资源受限的智能电器中。此外,语音指令的学习和识别采用了记录特定语音指令的语音特征并比较特征以识别语音控制内容的方式,从而无需大量声音数据进行训练,可实现在保证语音识别准确率的前提下有效地节约计算资源,降低设备成本,并且支持普通话和各类方言语音指令的识别。
而应用该智能电器中的语音指令识别方法的识别系统,可以应用在数据处理量小的各种智能电器中,设备成本低,并且支持普通话和各类方言的语音指令的识别,识别准确度高。
Claims (8)
1.一种智能电器中的语音指令识别方法,其特征在于:包括以下步骤:
S1、采用至少两个单向麦克风组成的具有方向性的阵列麦克风组采集智能电器周围的原始声音数据;
S2、获取各单向麦克风的原始声音数据,将各原始声音数据进行指向性波束形成算法合成,得到增益的声音数据;
S3、对声音数据进行处理,以获取声音数据中对应于语音指令各有效语音片段的首帧语音帧以及尾帧语音帧,进而分割出包括语音指令对应的各有效语音片段的有效语音指令信号;
S4、提取有效语音指令信号的声纹特征,将有效语音指令信号的声纹特征与的各声纹特征进行比对,进而获取有效语音指令的识别结果。
2.根据权利要求1所述的语音指令识别方法,其特征在于:声音数据的获取方法为:将两个单向麦克风面向用户使用方向设置在智能电器上,构成具有方向性的阵列麦克风组;
通过麦克风组采集智能电器周围的原始声音数据,分别得到音频采集数据帧frame1和frame2;
对音频采集数据frame1和frame2进行指向性波束形成算法合成,增强麦克风组正前方设定角度范围内的声音信号,并抑制其他方向的噪音信号,得到麦克风组增益的声音数据frame。
3.根据权利要求2所述的语音指令识别方法,其特征在于:语音指令信号的获取方法为:
对声音数据frame的各帧数据进行短时能量检测;如果声音数据frame中短时能量未超过设定能量阈值的数据为噪声数据;
如果声音数据frame中短时能量超过设定能量阈值的数据为非噪音数据;然后利用高斯模型计算非噪音数据中的各帧数据的六个子频带的似然比,同时计算六个子频带的似然比之和的和数据;
对于单帧非噪音数据,如果和数据超过设定值,并且其中至少三个自频带的似然比大于设定的判决门限值,则判断该单帧非噪音数据为单帧语音数据;
将第一个检测出来的单帧语音数据作为首帧语音帧;
如果一个单帧语音数据后的连续N帧数据出现短时能量小于设定能量阈值的情况,则判断该单帧语音数据为尾帧语音帧,其中N为大于1的自然数;
将声音数据中首帧语音帧至尾帧语音帧的数据分割出来作为语音指令信号。
4.根据权利要求3所述的语音指令识别方法,其特征在于:获取语音指令信号的长度,并将该语音指令信号长度与预设的长度阈值范围进行比较,如果该语音指令信号长度在长度阈值范围内,则将该语音指令信号作为有效语音指令信号。
5.根据权利要求1至4任一权利要求所述的智能电器中的语音指令识别方法,其特征在于:在智能电器处于指令学习状态下时,重复采集同一指令内容的原始声音数据直至获取到设定数量M组有效语音指令信号的声纹特征;
有效语音指令信号的声纹特征的获取方法为:
对于获取到的有效语音指令信号,利用MFCC算法对有效语音指令信号进行声纹特征提取,计算该有效语音指令信号的声纹特征信噪比并与信噪比阈值进行比较,如果有效语音指令信号的声纹特征信噪比小于信噪比阈值,则剔除该条有效语音指令信号;如果有效语音指令信号的声纹特征信噪比大于信噪比阈值,则判断成功采集到一组有效语音信号的声纹特征,然后对该条语音指令对应的有效语音信号的声纹特征组数进行累加,当获取到该条语音指令对应的有效语音信号的声纹特征组数达到M时,则将通过DTW算法将该条语音指令对应的M组有效语音信号的声纹特征两两进行比较,如果有一对声纹特征差异超过差异阈值,则重新进行该语音指令的学习,如果任一对声纹特征差异均在差异阈值范围内,则完成该语音指令的指令内容学习,进而形成语音指令声纹特征库。
6.根据权利要求5所述的智能电器中的语音指令识别方法,其特征在于:在智能电器处于语音指令识别状态下时,利用MFCC算法对获取的有效语音指令信号进行声纹特征提取,计算该有效语音指令信号的声纹特征的信噪比,并将该有效语音指令信号的声纹特征的信噪比与信噪比阈值进行比较,如果有效语音指令信号的声纹特征信噪比小于信噪比阈值,则剔除该条有效语音指令信号;如果有效语音指令信号的声纹特征信噪比大于信噪比阈值,则通过DTW算法对比该条有效语音指令信号和语音指令声纹特征库中的语音指令信号的声纹特征,进而确定语音指令声纹特征库中与该有效语音指令信号声纹特征差异最小的语音指令信号,根据语音指令声纹特征库中语音指令信号的指令内容识别出该有效语音指令信号对应的指令内容。
7.根据权利要求6所述的智能电器中的语音指令识别方法,其特征在于:语音指令声纹特征库中能存储不同用户对应的语音指令声纹特征数据组;
在智能电器处于语音指令识别状态下时,首先对简短的唤醒词对应的有效语音指令信号的声纹特征进行对比处理,进而确定与唤醒词对应的有效语音指令信号的声纹信息最接近的两个用户的语音指令信号;
然后再进行具有实质指令内容的有效语音指令信号的识别,在对具有实质指令内容的有效语音指令信号识别时,仅将有效语音指令信号的声纹特征与的唤醒词对应的两个用户的语音指令声纹特征数据组进行比较,进而识别具有实质指令内容的有效语音指令信号的指令内容。
8.一种智能电器中的语音指令识别系统,其特征在于:包括
声音采集模块,包括至少两个单向麦克风组成的具有方向性的阵列麦克风组,用于对原始声音数据进行采集,并对各单向麦克风采集的原始声音数据进行合成处理,得到增益的声音数据;
指令信号提取模块,与声音采集模块电信号连接,用于从声音数据中检测、分割出有效语音指令信号;
指令学习模块,与指令信号提取模块电信号连接,用于提取有效对语音指令信号的声纹特征提取和存储,实现对有效对语音指令信号对应的指令内容的学习;
指令识别模块,分别与指令信号提取模块、指令学习模块电信号连接,用于提取有效语音指令信号的声纹特征,并与指令学习模块中存储的各声纹特征进行比对,进而获取指令内容识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110075780.6A CN112908310A (zh) | 2021-01-20 | 2021-01-20 | 一种智能电器中的语音指令识别方法及识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110075780.6A CN112908310A (zh) | 2021-01-20 | 2021-01-20 | 一种智能电器中的语音指令识别方法及识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112908310A true CN112908310A (zh) | 2021-06-04 |
Family
ID=76116636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110075780.6A Pending CN112908310A (zh) | 2021-01-20 | 2021-01-20 | 一种智能电器中的语音指令识别方法及识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112908310A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115214541A (zh) * | 2022-08-10 | 2022-10-21 | 海南小鹏汽车科技有限公司 | 车辆控制方法、车辆及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105575406A (zh) * | 2016-01-07 | 2016-05-11 | 深圳市音加密科技有限公司 | 一种基于似然比测试的噪声鲁棒性的检测方法 |
CN107742522A (zh) * | 2017-10-23 | 2018-02-27 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
CN108172230A (zh) * | 2018-01-03 | 2018-06-15 | 平安科技(深圳)有限公司 | 基于声纹识别模型的声纹注册方法、终端装置及存储介质 |
CN110956965A (zh) * | 2019-12-12 | 2020-04-03 | 电子科技大学 | 一种基于声纹识别的个性化智能家居安全控制系统及方法 |
-
2021
- 2021-01-20 CN CN202110075780.6A patent/CN112908310A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105575406A (zh) * | 2016-01-07 | 2016-05-11 | 深圳市音加密科技有限公司 | 一种基于似然比测试的噪声鲁棒性的检测方法 |
CN107742522A (zh) * | 2017-10-23 | 2018-02-27 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
CN108172230A (zh) * | 2018-01-03 | 2018-06-15 | 平安科技(深圳)有限公司 | 基于声纹识别模型的声纹注册方法、终端装置及存储介质 |
CN110956965A (zh) * | 2019-12-12 | 2020-04-03 | 电子科技大学 | 一种基于声纹识别的个性化智能家居安全控制系统及方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115214541A (zh) * | 2022-08-10 | 2022-10-21 | 海南小鹏汽车科技有限公司 | 车辆控制方法、车辆及计算机可读存储介质 |
CN115214541B (zh) * | 2022-08-10 | 2024-01-09 | 海南小鹏汽车科技有限公司 | 车辆控制方法、车辆及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
US11710478B2 (en) | Pre-wakeword speech processing | |
CN106448663B (zh) | 语音唤醒方法及语音交互装置 | |
KR102339594B1 (ko) | 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체 | |
CN110021307B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
EP3923273B1 (en) | Voice recognition method and device, storage medium, and air conditioner | |
KR100679051B1 (ko) | 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법 | |
US9286897B2 (en) | Speech recognizer with multi-directional decoding | |
CN109272991B (zh) | 语音交互的方法、装置、设备和计算机可读存储介质 | |
JP2019533193A (ja) | 音声制御システム及びそのウェイクアップ方法、ウェイクアップ装置、並びに家電製品、コプロセッサ | |
CN110232933B (zh) | 音频检测方法、装置、存储介质及电子设备 | |
CN113889138B (zh) | 一种基于双麦克风阵列的目标语音提取方法 | |
CN105206271A (zh) | 智能设备的语音唤醒方法及实现所述方法的系统 | |
WO2014153800A1 (zh) | 语音识别系统 | |
US10460729B1 (en) | Binary target acoustic trigger detecton | |
US11308946B2 (en) | Methods and apparatus for ASR with embedded noise reduction | |
CN109215634A (zh) | 一种多词语音控制通断装置的方法及其系统 | |
CN112102850A (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
CN108091340B (zh) | 声纹识别方法、声纹识别系统和计算机可读存储介质 | |
Chuangsuwanich et al. | Robust Voice Activity Detector for Real World Applications Using Harmonicity and Modulation Frequency. | |
CN107039035A (zh) | 一种语音起始点和终止点的检测方法 | |
US11341988B1 (en) | Hybrid learning-based and statistical processing techniques for voice activity detection | |
CN110970020A (zh) | 一种利用声纹提取有效语音信号的方法 | |
CN111833878A (zh) | 基于树莓派边缘计算的中文语音交互无感控制系统和方法 | |
Venkatesan et al. | Binaural classification-based speech segregation and robust speaker recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210604 |
|
RJ01 | Rejection of invention patent application after publication |