CN110517702A - 信号生成的方法、基于人工智能的语音识别方法及装置 - Google Patents
信号生成的方法、基于人工智能的语音识别方法及装置 Download PDFInfo
- Publication number
- CN110517702A CN110517702A CN201910843381.2A CN201910843381A CN110517702A CN 110517702 A CN110517702 A CN 110517702A CN 201910843381 A CN201910843381 A CN 201910843381A CN 110517702 A CN110517702 A CN 110517702A
- Authority
- CN
- China
- Prior art keywords
- signal
- target
- angle
- target voice
- energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 25
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 title description 7
- 230000003044 adaptive effect Effects 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 32
- 230000002452 interceptive effect Effects 0.000 claims description 25
- 230000017105 transposition Effects 0.000 claims description 15
- 238000003062 neural network model Methods 0.000 claims description 9
- 235000013399 edible fruits Nutrition 0.000 claims description 4
- 241000209140 Triticum Species 0.000 claims 1
- 235000021307 Triticum Nutrition 0.000 claims 1
- 230000021615 conjugation Effects 0.000 claims 1
- 238000007781 pre-processing Methods 0.000 abstract description 19
- 238000010586 diagram Methods 0.000 description 28
- 238000005516 engineering process Methods 0.000 description 27
- 238000013461 design Methods 0.000 description 24
- 238000001228 spectrum Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 14
- 238000000605 extraction Methods 0.000 description 12
- 230000004044 response Effects 0.000 description 12
- 238000001514 detection method Methods 0.000 description 10
- 230000002618 waking effect Effects 0.000 description 10
- 238000003860 storage Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 230000003993 interaction Effects 0.000 description 7
- 230000006854 communication Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000012905 input function Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000149 penetrating effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
本申请公开了一信号生成的方法,该方法应用于人工智能领域,包括:当通过麦克风阵列获取目标语音帧对应的语音输入信号时,根据语音输入信号获取待估计角度对应的第一信号能量,待估计角度在入射方位角范围内;根据目标语音帧所对应的语音输入信号以及波束形成器系数,确定目标语音帧对应的第二信号能量;根据第一信号能量以及第二信号能量,确定待估计角度对应的空间特征;根据空间特征生成目标语音帧对应的目标控制信号。本申请还公开了一种基于人工智能的语音识别方法及装置。本申请能够分别确定来自各个待估计角度方向上的空间特征,基于空间特征生成相应的控制信号,提升控制信号的准确性和鲁棒性,提高前处理系统对语音信号增强的性能。
Description
技术领域
本申请涉及人工智能领域,尤其涉及信号生成的方法、基于人工智能的语音识别方法及装置。
背景技术
随着智能音箱等智能设备的流行,人机之间的语音交互频率越来越高,而远场语音交互作为一个重要的人机交互场景,受到了较大的关注。相对与近场语音来说,远场语音主要的技术难点在于对于多径反射、混响效应及背景噪音干扰的处理。
为了实现更好的远场语音交互性能,智能设备往往都装备有多麦克风阵列和前端语音处理系统。前端语音处理系统基于目标人声和干扰噪声来源方向不同的假设,往往会采用自适应波束形成算法来抑制干扰噪声,并增强目标人声。而自适应波束形成算法的性能又极其依赖外界向其提供的控制信号。目前,控制信号是通过单声道的话音激活检测(Voice Activity Detector,VAD)产生,即通过信号能量强弱或与人声模型的匹配程度区分输入信号为人声或非人声,如果判断为人声则默认为是目标人声。
然而,在智能家居的应用场景中往往会出现“鸡尾酒会”情形,即有多个人声或类人声噪声(例如电视噪声)同时出现,在这样的场景下,导致单声道VAD产生的控制信号准确度较低,而控制信号的准确性将极大影响前处理系统的整体性能,进而影响远场唤醒和识别性能。
发明内容
本申请实施例提供了一种信号生成的方法、基于人工智能的语音识别方法及装置,能够根据麦克风阵列获取到的语音输入信号,分别确定来自各个待估计角度方向上的空间特征,基于空间特征生成相应的控制信号,可以提升控制信号的准确性和鲁棒性,从而提高前处理系统对语音信号增强的性能。
有鉴于此,本申请第一方面提供一种信号生成的方法,包括:
当通过麦克风阵列获取目标语音帧对应的语音输入信号时,根据所述语音输入信号获取待估计角度对应的第一信号能量,其中,所述麦克风阵列包括多个麦克风,所述待估计角度在入射方位角范围内;
根据所述目标语音帧所对应的语音输入信号以及波束形成器系数,确定所述目标语音帧对应的第二信号能量;
根据所述第一信号能量以及所述第二信号能量,确定所述待估计角度对应的空间特征;
根据所述空间特征生成所述目标语音帧对应的目标控制信号,其中,所述目标控制信号用于估计语音的方向。
本申请第二方面提供一种基于人工智能的语音识别方法,包括:
当通过麦克风阵列获取目标语音帧对应的语音输入信号时,根据所述语音输入信号获取待估计角度对应的第一信号能量,其中,所述麦克风阵列包括多个麦克风,所述待估计角度在入射方位角范围内;
根据所述目标语音帧所对应的语音输入信号以及波束形成器系数,确定所述目标语音帧对应的第二信号能量;
根据所述第一信号能量以及所述第二信号能量,确定所述待估计角度对应的空间特征;
根据所述空间特征生成所述目标语音帧对应的目标控制信号;
若所述目标控制信号为目标人声所对应的信号,则根据所述语音输入信号获取唤醒结果以及信号到达方向;
若所述唤醒结果表示唤醒成功,则根据所述信号到达方向所对应的待识别语音信号进行语音识别处理。
本申请第三方面提供一种信号生成装置,包括:
获取模块,用于当通过麦克风阵列获取目标语音帧对应的语音输入信号时,根据所述语音输入信号获取待估计角度对应的第一信号能量,其中,所述麦克风阵列包括多个麦克风,所述待估计角度在入射方位角范围内;
确定模块,用于根据所述目标语音帧所对应的语音输入信号以及波束形成器系数,确定所述目标语音帧对应的第二信号能量;
所述确定模块,还用于根据所述获取模块获取的所述第一信号能量以及所述第二信号能量,确定所述待估计角度对应的空间特征;
生成模块,用于根据所述确定模块确定的所述空间特征生成所述目标语音帧对应的目标控制信号,其中,所述目标控制信号用于估计语音的方向。
在一种可能的设计中,在本申请实施例的第三方面的第一种实现方式中,
所述获取模块,具体用于根据所述语音输入信号以及第一波束形成器系数,获取所述估计角度对应的第一信号能量,其中,所述第一波束形成器系数为第一固定波束形成器所对应的系数;
所述确定模块,具体用于根据所述目标语音帧所对应的所述语音输入信号,确定所述目标语音帧所对应的信号快拍;
根据所述目标语音帧所对应的信号快拍以及所述第一波束形成器系数,确定入射方位角的信号能量,其中,所述入射方位角在所述入射方位角范围内;
根据所述入射方位角范围中各个入射方位角的信号能量,计算得到所述目标语音帧对应的所述第二信号能量。
在一种可能的设计中,在本申请实施例的第三方面的第二种实现方式中,所述空间特征为空间能量占比;
所述确定模块,具体用于采用如下方式计算所述待估计角度对应的空间特征:
其中,所述r(n,θ)表示所述待估计角度对应的空间能量占比,所述θ表示所述待估计角度,所述n表示所述目标语音帧,所述p(n,θ)表示所述待估计角度所对应的所述第一信号能量,所述表示入射方位角,所述表示所述入射方位角范围中的入射方位角最小值,所述表示所述入射方位角范围中的入射方位角最大值,所述表示所述入射方位角所对应的信号能量,所述表示所述目标语音帧对应的所述第二信号能量,所述f表示频点,所述f0表示用于估计信号能量的频率范围所对应的频点最小值,所述f1表示用于估计信号能量的频率范围所对应的频点最大值,所述表示在所述频点f上指向所述入射方位角的所述第一波束形成器系数,所述(·)H表示共轭转置,所述S(n,f)表示所述目标语音帧所对应的所述信号快拍,所述Si(n,f)表示所述麦克风阵列中第i个麦克风在所述目标语音帧的短时傅立叶变换在所述频点f处的结果,所述N表示所述麦克风阵列中的麦克风总数量。
在一种可能的设计中,在本申请实施例的第三方面的第三种实现方式中,
所述获取模块,具体用于根据所述语音输入信号以及第一波束形成器系数,获取所述估计角度在频点上的第一信号能量,其中,所述第一波束形成器系数为第一固定波束形成器所对应的系数;
所述确定模块,具体用于根据所述目标语音帧所对应的所述语音输入信号,确定所述目标语音帧所对应的信号快拍;
根据所述目标语音帧所对应的信号快拍以及所述第一波束形成器系数,确定入射方位角在频点上的信号能量,其中,所述入射方位角在所述入射方位角范围内;
根据所述入射方位角范围中各个入射方位角在所述频点上的信号能量,计算得到所述目标语音帧在所述频点上对应的所述第二信号能量。
在一种可能的设计中,在本申请实施例的第三方面的第四种实现方式中,所述空间特征为空间能量占比;
所述确定模块,具体用于采用如下方式计算所述待估计角度对应的空间特征:
其中,所述r(n,θ,f)表示所述待估计角度在频点f上对应的空间能量占比,所述θ表示所述待估计角度,所述n表示所述目标语音帧,所述f表示所述频点,所述p(n,θ,f)表示所述待估计角度在所述频点f上所对应的所述第一信号能量,所述表示入射方位角,所述表示所述入射方位角范围中的入射方位角最小值,所述表示所述入射方位角范围中的入射方位角最大值,所述表示所述入射方位角在所述频点f上所对应的信号能量,所述表示所述目标语音帧在所述频点f上对应的所述第二信号能量,所述表示在所述频点f上指向所述入射方位角的所述第一波束形成器系数,所述(·)H表示共轭转置,所述S(n,f)表示所述目标语音帧所对应的所述信号快拍,所述Si(n,f)表示所述麦克风阵列中第i个麦克风在所述目标语音帧的短时傅立叶变换在所述频点f处的结果,所述N表示所述麦克风阵列中的麦克风总数量。
在一种可能的设计中,在本申请实施例的第三方面的第五种实现方式中,
所述获取模块,具体用于根据所述语音输入信号以及第一波束形成器系数,获取所述估计角度对应的第一信号能量,其中,所述第一波束形成器系数为第一固定波束形成器所对应的系数;
所述确定模块,具体用于根据所述目标语音帧所对应的所述语音输入信号,确定所述目标语音帧所对应的信号快拍;
根据所述目标语音帧所对应的信号快拍以及第二波束形成器系数,确定目标入射方位角的第二信号能量,其中,所述第二波束形成器系数为第二固定波束形成器所对应的系数,所述第二固定波束形成器与所述第一固定波束形成器为不同的两个固定波束形成器,所述目标入射方位角表示信号抑制的方向。
在一种可能的设计中,在本申请实施例的第三方面的第六种实现方式中,所述空间特征为空间零陷信噪比;
所述确定模块,具体用于采用如下方式计算所述待估计角度对应的空间特征:
其中,所述μnull(n,θ)表示所述待估计角度对应的空间零陷信噪比,所述θ表示所述待估计角度,所述n表示所述目标语音帧,所述p(n,θ)表示所述待估计角度所对应的所述第一信号能量,所述表示所述目标入射方位角,所述表示所述目标入射方位角所对应的第二信号能量,所述f表示频点,所述f0表示用于估计信号能量的频率范围所对应的频点最小值,所述f1表示用于估计信号能量的频率范围所对应的频点最大值,所述表示在所述频点f上指向所述目标入射方位角的所述第二波束形成器系数,所述(·)H表示共轭转置,所述S(n,f)表示所述目标语音帧所对应的所述信号快拍,所述Si(n,f)表示所述麦克风阵列中第i个麦克风在所述目标语音帧的短时傅立叶变换在所述频点f处的结果,所述N表示所述麦克风阵列中的麦克风总数量。
在一种可能的设计中,在本申请实施例的第三方面的第七种实现方式中,
所述获取模块,具体用于根据所述语音输入信号以及第一波束形成器系数,获取所述估计角度在频点上的第一信号能量,其中,所述第一波束形成器系数为第一固定波束形成器所对应的系数;
所述确定模块,具体用于根据所述目标语音帧所对应的所述语音输入信号,确定所述目标语音帧所对应的信号快拍;
根据所述目标语音帧所对应的信号快拍以及第二波束形成器系数,确定目标入射方位角在频点上的第二信号能量,其中,所述第二波束形成器系数为第二固定波束形成器所对应的系数,所述第二固定波束形成器与所述第一固定波束形成器为不同的两个固定波束形成器,所述目标入射方位角表示信号抑制的方向。
在一种可能的设计中,在本申请实施例的第三方面的第八种实现方式中,所述空间特征为空间零陷信噪比;
所述确定模块,具体用于采用如下方式计算所述待估计角度对应的空间特征:
其中,所述μnull(n,θ,f)表示所述待估计角度在频点f上对应的空间零陷信噪比,所述θ表示所述待估计角度,所述n表示所述目标语音帧,所述f表示所述频点,所述p(n,θ,f)表示所述待估计角度在所述频点f上所对应的所述第一信号能量,所述表示所述目标入射方位角,所述表示所述目标入射方位角在所述频点f上所对应的第二信号能量,所述表示在所述频点f上指向所述目标入射方位角的所述第二波束形成器系数,所述(·)H表示共轭转置,所述S(n,f)表示所述目标语音帧所对应的所述信号快拍,所述Si(n,f)表示所述麦克风阵列中第i个麦克风在所述目标语音帧的短时傅立叶变换在所述频点f处的结果,所述N表示所述麦克风阵列中的麦克风总数量。
在一种可能的设计中,在本申请实施例的第三方面的第九种实现方式中,
所述生成模块,具体用于若所述空间特征小于第一门限值,则生成所述目标语音帧对应的第一控制信号,其中,所述第一控制信号表示所述目标语音帧所对应的语音输入信号属于干扰噪声,所述干扰噪声用于触发自适应波束形成器进行更新;
若所述空间特征大于第二门限值,则生成所述目标语音帧对应的第二控制信号,其中,所述第二控制信号表示所述目标语音帧所对应的语音输入信号属于目标人声,所目标人声用于触发所述自适应波束形成器进行更新;
若所述空间特征大于或等于所述第一门限值,且小于或等于所述第二门限值,则生成所述目标语音帧对应的第三控制信号,其中,所述第三控制信号表示所述目标语音帧所对应的语音输入信号属于待确定信号。
在一种可能的设计中,在本申请实施例的第三方面的第十种实现方式中,
所述生成模块,具体用于通过神经网络模型获取所述空间特征所对应的控制信号类型;
若所述控制信号类型为第一类型,则确定所述目标控制信号为第一控制信号,其中,所述第一控制信号表示所述目标语音帧所对应的语音输入信号属于干扰噪声,所述干扰噪声用于触发自适应波束形成器进行更新;
若所述控制信号类型为第二类型,则确定所述目标控制信号为第二控制信号,其中,所述第二控制信号表示所述目标语音帧所对应的语音输入信号属于目标人声,所目标人声用于触发所述自适应波束形成器进行更新;
若所述控制信号类型为第三类型,则确定所述目标控制信号为第三控制信号,其中,所述第三控制信号表示所述目标语音帧所对应的语音输入信号属于待确定信号。
本申请第四方面提供一种语音识别装置,包括:
获取模块,用于当通过麦克风阵列获取目标语音帧对应的语音输入信号时,根据所述语音输入信号获取待估计角度对应的第一信号能量,其中,所述麦克风阵列包括多个麦克风,所述待估计角度在入射方位角范围内;
确定模块,用于根据所述目标语音帧所对应的语音输入信号以及波束形成器系数,确定所述目标语音帧对应的第二信号能量;
所述确定模块,还用于根据所述第一信号能量以及所述第二信号能量,确定所述待估计角度对应的空间特征;
生成模块,用于根据所述确定模块确定的所述空间特征生成所述目标语音帧对应的目标控制信号;
所述获取模块,还用于若所述生成模块生成的所述目标控制信号为目标人声所对应的信号,则根据所述语音输入信号获取唤醒结果以及信号到达方向;
识别模块,用于若所述唤醒结果表示唤醒成功,则根据所述获取模块获取的所述信号到达方向所对应的待识别语音信号进行语音识别处理。
本申请第五方面提供一种终端设备,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
当通过麦克风阵列获取目标语音帧对应的语音输入信号时,根据所述语音输入信号获取待估计角度对应的第一信号能量,其中,所述麦克风阵列包括多个麦克风,所述待估计角度在入射方位角范围内;
根据所述目标语音帧所对应的语音输入信号以及波束形成器系数,确定所述目标语音帧对应的第二信号能量;
根据所述第一信号能量以及所述第二信号能量,确定所述待估计角度对应的空间特征;
根据所述空间特征生成所述目标语音帧对应的目标控制信号,其中,所述目标控制信号用于估计语音的方向;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本申请第六方面提供一种智能语音交互设备,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
当通过麦克风阵列获取目标语音帧对应的语音输入信号时,根据所述语音输入信号获取待估计角度对应的第一信号能量,其中,所述麦克风阵列包括多个麦克风,所述待估计角度在入射方位角范围内;
根据所述目标语音帧所对应的语音输入信号以及波束形成器系数,确定所述目标语音帧对应的第二信号能量;
根据所述第一信号能量以及所述第二信号能量,确定所述待估计角度对应的空间特征;
根据所述空间特征生成所述目标语音帧对应的目标控制信号;
若所述目标控制信号为目标人声所对应的信号,则根据所述语音输入信号获取唤醒结果以及信号到达方向;
若所述唤醒结果表示唤醒成功,则根据所述信号到达方向所对应的待识别语音信号进行语音识别处理;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本申请的第七方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种信号生成的方法,当通过麦克风阵列获取目标语音帧对应的语音输入信号时,首先,可以根据语音输入信号获取待估计角度对应的第一信号能量,其中,麦克风阵列包括多个麦克风,待估计角度在入射方位角范围内,此时,还可以根据目标语音帧所对应的语音输入信号以及波束形成器系数,确定目标语音帧对应的第二信号能量,然后根据第一信号能量以及第二信号能量,确定待估计角度对应的空间特征,最后根据空间特征生成目标语音帧对应的目标控制信号,其中,目标控制信号用于估计语音的方向。通过上述方式,在“鸡尾酒会”情形中,能够根据麦克风阵列中每个麦克风所对应的待估计角度,分别确定来自各个待估计角度方向上的信号能量占全部入射信号能量的比例,基于空间特征生成相应的控制信号,可以提升控制信号的准确性和鲁棒性,从而提高前处理系统对语音信号增强的性能。
附图说明
图1为本申请实施例中语音识别系统的一个架构示意图;
图2为本申请实施例中基于鸡尾酒会场景的一个实施例示意图;
图3为本申请实施例中基于智能音箱的一个语音识别场景示意图;
图4为本申请实施例中基于智能电视的一个语音识别场景示意图;
图5为本申请实施例中基于智能机器人的一个语音识别场景示意图;
图6为本申请实施例中前处理系统的一个结构示意图;
图7为本申请实施例中控制信号生成系统的一个结构示意图;
图8为本申请实施例中信号生成的方法一个实施例示意图;
图9为本申请实施例中第一固定波束形成器的一个空间响应示意图;
图10为本申请实施例中第二固定波束形成器的一个空间响应示意图;
图11为本申请实施例中控制信号生成系统的一个实施例示意图;
图12为本申请实施例中控制信号生成系统的另一个实施例示意图;
图13为本申请实施例中基于人工智能的语音识别方法一个实施例示意图;
图14为本申请实施例中信号生成装置的一个实施例示意图;
图15为本申请实施例中语音识别装置的一个实施例示意图;
图16为本申请实施例中终端设备的一个结构示意图。
具体实施方式
本申请实施例提供了一种信号生成的方法、基于人工智能的语音识别方法及装置,能够根据麦克风阵列获取到的语音输入信号,分别确定来自各个待估计角度方向上的空间特征,基于空间特征生成相应的控制信号,可以提升控制信号的准确性和鲁棒性,从而提高前处理系统对语音信号增强的性能。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本申请提供的技术方案可以应用于基于人工智能(ArtificialIntelligence,AI)的语音交互场景,具体适用于远场语音交互场景。远场语音是融合了人工智能语音搜素的一项改变用户体验的功能,智能远场语音功能省略了“按下遥控语音键”这一程序,只需要坐在沙发上说出指令即可得到反馈。在智能远场语音交互上,如何在复杂的客厅环节中,轻松唤醒智能语音交互设备成为极为重要的目标。远场语音识别需要结合前端语音处理系统和后端语音处理系统去完成,一方面在前端语音处理系统使用麦克风阵列硬件,通过声源定位及自适应波束形成做语音增强,在前端语音处理系统完成远场拾音,并解决噪声、混响以及回声等带来的影响,结合人工智能算法,也就是后端语音处理系统的识别引擎,通过软硬件的复杂结合,让远场语音实现自然人机交互,让用户远距离即可实现与智能语音交互设备进行对话。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请基于人工智能技术进行语音识别,包含但不仅限于车联网、智能翻译、智能家居以及自动驾驶等领域的语音。本申请采用语音技术(Speech Technology)的关键技术,即自动语音识别技术(Automatic Speech Recognition,ASR),此外,语音技术还包括语音合成技术(Text To Speech,TTS)以及声纹识别技术,让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。其中,语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高新技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别是人机交互的基础,主要解决让机器听清楚人说什么的难题。人工智能目前落地最成功的就是语音识别技术。
为了便于理解,本申请提出了一种语音识别的方法,该方法应用于图1所示的语音识别系统,请参阅图1,图1为本申请实施例中语音识别系统的一个架构示意图,如图所示,目前,智能语音交互设备包含但不仅限于笔记本电脑、平板电脑、掌上电脑、手机、个人电脑、智能机器人、智能电视以及智能音响。用户可以与智能语音交互设备进行“对话”,从而完成相应的指令。通常情况下,语音识别系统可以包括两个部分,即智能语音交互设备和服务器,由智能语音交互设备获取语音信号(包括将语音转化成电信号),然后对语音信号处理(包括模数转换,降噪、增强以及端点检测等),再到特征提取,比如提取梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征、感知线性预测(PerceptualLinear Prediction,PLP)特征或者批归一化(Batch Normalization,BN)特征等。智能语音交互设备可以将提取到的特征反馈至服务器,由服务器进行声学模型建模,或者进行语言学方面包括字典构造,或者进行语言模型建模等。通过建立的声学模型和语言模型就可以对输入的测试语音进行解码,得到相对应的文字。在识别的过程中,智能语音交互设备可以将采集到的语音特征发送给服务器,由服务器通过模型对该语音特征进行解码,得到相应的语音识别结果,将语音识别结果反馈给智能语音交互设备,从而使得智能语音交互设备能够响应于用户触发的语音。
对于一些处理能力较强的智能语音交互设备而言,可以在离线的状态下对语音进行识别,也就是说,可以不需要服务器的参与。类似的情况可能出现在“鸡尾酒会”场景,为了便于理解,请参阅图2,图2为本申请实施例中基于鸡尾酒会场景的一个实施例示意图,如图所示,当说话人数为两个或两个以上的时候,可能会出现“鸡尾酒会”场景,比如在智能家居的应用场景中,特别是用户家庭客厅场景,经常出现“鸡尾酒会”场景,即有多个人声或类人声噪声(例如电视噪声)同时出现。这种情况下的语音识别率会极大的降低。假设一个客厅里有两个人同时说话,即发言者A和发言者B,该客厅里存在两个智能语音交互设备,其中,智能语音交互设备A具有麦克风A,智能语音交互设备B具有麦克风B,于是在发言者A说话的时候,麦克风A和麦克风B均能采集到来自发言者A的声音,同样地,在发言者B说话的时候,麦克风A和麦克风B均能采集到来自发言者B的声音,因此,智能语音交互设备A和智能语音交互设备B需要响应来自不同发言者的语音。在本申请提供的技术方案中,智能语音交互设备A和智能语音交互设备B均能够找到根据指定的目标方位来区分哪些是发言者A的声音,哪些是发言者B的声音,哪些是干扰人声或干扰噪声,从而实现对于发言者语音的识别。
具体地,请参阅图3,图3为本申请实施例中基于智能音箱的一个语音识别场景示意图,如图所示,以客厅中包括智能音响的场景为例进行介绍,智能音响可以检测到一定范围内的声音,其中,发言者A、发言者B、发言者C和发言者D均在这个范围内。在一个时间段内,发言者A、发言者C和发言者D同时说话,在实际情况中,发言者A和发言者D正在聊天,而发言者C正在向智能音响发出语音指令“请切换下一首歌曲”。智能音响具有麦克风阵列,通过该麦克风阵列可以采集到范围内的声音,于是检测到发言者A的声音、发言者C的声音和发言者D的声音。基于前处理系统中的空间特征提取系统获取每个待估计角度所对应的空间特征,该空间特征包括空间能量占比、空间最低信噪比、空间最高信噪比以及空间零陷信噪比中的至少一项。根据空间特征生成目标语音帧对应的目标控制信号,前处理系统根据目标控制信号确定待估计语音的方向,比如确定发言者C的语音是待估计语音,发言者A的语音和发言者D和语音属于干扰噪声,于是对发言者C的语音进行识别。
请参阅图4,图4为本申请实施例中基于智能电视的一个语音识别场景示意图,如图所示,以客厅中包括智能音响的场景为例进行介绍,智能音响可以检测到一定范围内的声音,其中,发言者A、发言者B、发言者C和发言者D均在这个范围内。在一个时间段内,发言者A、发言者B、发言者C和发言者D同时说话,在实际情况中,发言者A、发言者B、发言者C和发言者D分别触发不同的语音指令,发言者A正在向智能音响发出语音指令“请切换下一个频道”,发言者B正在向智能音响发出语音指令“请切换上一个频道”,发言者C正在向智能音响发出语音指令“请关闭电源”,发言者D正在向智能音响发出语音指令“请将声音调小”。基于前处理系统中的空间特征提取系统获取每个待估计角度所对应的空间特征,该空间特征包括空间能量占比、空间最低信噪比、空间最高信噪比以及空间零陷信噪比中的至少一项。根据空间特征生成目标语音帧对应的目标控制信号,前处理系统根据目标控制信号确定待估计语音的方向,比如确定发言者A的语音是待估计语音,而发言者B的语音、发言者C的语音和发言者D和语音属于干扰噪声,于是响应于“请切换下一个频道”的指令,将智能电视切换至下一个频道。
请参阅图5,图5为本申请实施例中基于智能机器人的一个语音识别场景示意图,如图所示,以客厅中包括智能音响的场景为例进行介绍,智能音响可以检测到一定范围内的声音,其中,发言者A、发言者B、发言者C和发言者D均在这个范围内。在一个时间段内,发言者A和发言者C同时说话,在实际情况中,发言者A和发言者C分别触发不同的语音指令,发言者A正在向智能机器人发出语音指令“唱首歌吧”,发言者C正在向智能机器人发出语音指令“跳支舞吧”,基于前处理系统中的空间特征提取系统获取每个待估计角度所对应的空间特征,该空间特征包括空间能量占比、空间最低信噪比、空间最高信噪比以及空间零陷信噪比中的至少一项。根据空间特征生成目标语音帧对应的目标控制信号,前处理系统根据目标控制信号确定待估计语音的方向,比如确定发言者A的语音是待估计语音,发言者C的语音也是待估计语音,可以获取发言者A和发言者B分别与智能机器人之间的距离,以距离短者所触发的语音为准。或者,可以分别获取发言者A和发言者B触发语音的时间,以优先触发的语音为准。又或者,可以根据预先设定的指令优先级来选择优先被触发语音指令。
基于上述介绍,下面将对前处理系统的架构进行说明,请参阅图6,图6为本申请实施例中前处理系统的一个结构示意图,如图所示,前处理系统包括空间特征提取系统和控制信号生成系统,其中,空间特征提取系统又可以称为空间谱分析(Spatial SpectrumAnalysis)系统,用于分析当前帧语音输入信号的空间谱,空间谱是指来自空间中各个方向的信号能量,又可称为空间特征。控制信号生成系统根据空间特征提取系统分析得到的空间谱生成控制信号。基于当前帧的控制信号可以判断是否含有来自待估计角度θ附近的语音信号,该语音信号可以是非稳态信号。前处理系统还包括唤醒词检测自适应波束形成器(Keyword Searching Adaptive Beamformer,KWS-ABF)1至N,每个KWS-ABF对应一个待估计角度θ,自适应波束形成器语音产生KWS信号并传递给KWS模块,自适应波束形成器中的每一个的主瓣方向(即目标语音方向)记为θi。KWS模块即为唤醒词检测模块,前处理系统包括N个KWS模块,N个KWS模块相互独立,每个KWS模块对应一个KWS-ABF,且每个KWS模块会输出一个得分。比如,当检测到唤醒词时,得分为1,当未检测到唤醒词时,得分为0。或者,根据唤醒词的相似度生成对应的得分,相似度越高,得分也越高。可以理解的是,在实际应用中,还可以根据其他的方式生成相应的得分,此次仅为一个示意,不应理解为对本申请的限定。
前处理系统还包括唤醒结果决策和方位角估计模块,该模块可以利用多个KWS模块的得分,作出是否需要唤醒的判定,同时估计唤醒词信号的到达方向(Direction-Of-Arrival,DOA)。在确定存在唤醒词的情况下,自动语音识别自适应波束形成器(AutomaticSpeech Recognition Adaptive Beamformer,ASR-ABF)根据唤醒结果决策和方位角估计模块提供的DOA,定向增强该方向的语音,抑制来自其它方向的所有信号。ASR-ABF是用于产生送给ASR语音信号的ABF。
前处理系统将待识别的ASR语音信号传输至后处理系统中的自动语音识别语音活动检测(Automatic Speech Recognition Voice Activity Detection,ASR-VAD)模块,由ASR-VAD模块生成自动语音识别结果。
本申请主要提出了基于固定波束形成器(Fixed Beamformer)的空间特征设计(Spatial Feature Design),这些空间特征能够用于产生对空间场景更好的分析结果,进而为自适应波束形成器提供更准确,且鲁棒性更好的控制信号。为了便于理解,请参阅图7,图7为本申请实施例中控制信号生成系统的一个结构示意图,,如图所示,麦克风阵列的信号被实时送入空间特征提取模块,空间特征提取模块用于产生一个或多个以帧为单位的空间特征,将提取出的至少一种空间特征发送至控制信号生成系统,针对每一个关心的待估计角度θ生成一个对应的控制信号流,用于控制自适应波束形成器的学习更新。比如,对于待估计角度θ1而言生成一个对应的控制信号,对于待估计角度θ2而言生成一个对应的控制信号,以此类推,对于待估计角度θN而言也会生成一个对应的控制信号。
能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。本申请实施例提供的方案涉及人工智能的语音识别等技术,具体通过如下实施例进行说明。
结合上述介绍,下面将对本申请中信号生成的方法进行介绍,请参阅图8,本申请实施例中信号生成的方法一个实施例包括:
101、当通过麦克风阵列获取目标语音帧对应的语音输入信号时,根据语音输入信号获取待估计角度对应的第一信号能量,其中,麦克风阵列包括多个麦克风,待估计角度在入射方位角范围内;
本实施例中,信号生成装置通过麦克风阵列获取目标语音帧对应的语音输入信号,目标语音帧表示至少一帧语音,通常情况下可以对每帧语音生成控制信号。其中,该信号生成装置可以部署于终端设备上,比如智能机器人、智能音箱以及智能电视等。为了便于介绍,下面将以终端设备为例进行说明,然而这不应理解为对本申请的限定。
麦克风阵列(Microphone Array)指的是麦克风的排列。也就是说由一定数目的声学传感器(通常是指麦克风)组成,用于对声场的空间特性进行采样并处理的系统。
终端设备基于语音输入信号获取待估计角度对应的第一信号能量,具体地,该第一信号能量可以是对待估计角度得到的空间谱,空间谱是阵列信号处理的一个重要概念,空间谱表示信号在空间各个方向上的能量分布,如果能够估计出空间谱就可以得到信号源的DOA,因此,空间谱估计也可以称为DOA估计。可以理解的是,待估计角度在入射方位角范围内,假设入射方位角范围为0至180度,那么待估计角度就在0至180度之间。
102、根据目标语音帧所对应的语音输入信号以及波束形成器系数,确定目标语音帧对应的第二信号能量;
本实施例中,基于预先设计的波束形成器系数,终端设备可以获取目标语音帧所对应的第二信号能量。其中,波束形成器系数表示为,即包括两个维度的信息,分别为频点和指向,表示在频点上指向入射方位角的波束形成器系数,比如表示在频点为800赫兹上指向30度入射方位角的波束形成器系数。具体地,第二信号能量可以是对所有目标角度的空间谱之和,或者,第二信号能量可以是陷波空间谱。
可以理解的是,波束形成器系数的设置与波束形成器的设计原则相关,比如波束形成器可以是固定波束形成器,也可以是陷波空间滤波器,此次不做限定。
103、根据第一信号能量以及第二信号能量,确定待估计角度对应的空间特征;
本实施例中,终端设备结合第一信号能量以及第二信号能量,可以计算得到该待估计角度对应的空间特征。
104、根据空间特征生成目标语音帧对应的目标控制信号,其中,目标控制信号用于估计语音的方向。
本实施例中,终端设备根据确定的空间特征生成该目标语音帧所对应的目标控制信号,可以理解的是,假设总共有100帧语音,目标语音帧为第1帧语音,此时生成一个目标控制信号。接下来,终端设备会继续对第2帧语音进行分析,针对第2帧语音也会生成一个控制信号,以此类推,最后可以得到这100帧语音中每帧语音所对应的控制信号,基于每帧语音的控制信号,估计语音的DOA,从而定向增强该DOA方向上的语音,抑制其它方向上的所有信号。
本申请实施例中,提供了一种信号生成的方法,当通过麦克风阵列获取目标语音帧对应的语音输入信号时,首先,可以根据语音输入信号获取待估计角度对应的第一信号能量,其中,麦克风阵列包括多个麦克风,待估计角度在入射方位角范围内,此时,还可以根据目标语音帧所对应的语音输入信号以及波束形成器系数,确定目标语音帧对应的第二信号能量,然后根据第一信号能量以及第二信号能量,确定待估计角度对应的空间特征,最后根据空间特征生成目标语音帧对应的目标控制信号,其中,目标控制信号用于估计语音的方向。通过上述方式,在“鸡尾酒会”情形中,能够根据麦克风阵列中每个麦克风所对应的待估计角度,分别确定来自各个待估计角度方向上的信号能量占全部入射信号能量的比例,基于空间特征生成相应的控制信号,可以提升控制信号的准确性和鲁棒性,从而提高前处理系统对语音信号增强的性能。
可选地,在上述图8对应的实施例的基础上,本申请实施例提供的信号生成的方法第一个可选实施例中,根据语音输入信号获取待估计角度对应的第一信号能量,可以包括:
根据语音输入信号以及第一波束形成器系数,获取待估计角度对应的第一信号能量,其中,第一波束形成器系数为第一固定波束形成器所对应的系数;
根据目标语音帧所对应的语音输入信号以及波束形成器系数,确定目标语音帧对应的第二信号能量,可以包括:
根据目标语音帧所对应的语音输入信号,确定目标语音帧所对应的信号快拍;
根据目标语音帧所对应的信号快拍以及第一波束形成器系数,确定入射方位角的信号能量,其中,入射方位角在入射方位角范围内;
根据入射方位角范围中各个入射方位角的信号能量,计算得到目标语音帧对应的第二信号能量。
本实施例中,介绍了一种基于固定波束形成器获取第一信号能量和第二信号能量的方法,具体地,针对给定的麦克风阵列和给定的扫描空间范围(通常可以设置为360度的空间),设计一个固定波束形成器,为了便于理解,请参阅图9,图9为本申请实施例中第一固定波束形成器的一个空间响应示意图,如图所示,该空间响应对应于第一固定波束形成器所对应的系数,即第一波束形成器系数表示为旁瓣抑制增益可以为-10分贝(dB)至-20dB,图9所示的横轴表示入射方位角,纵坐标表示波束形成器的增益响应。其中,该空间响应只能在部分麦克风阵列形状和部分频点上实现。
具体地,如果入射信号的数量不多,且入射角度差别足够大,则可以被近似认为只含有来自入射方位角方向的信号能量,其中,n表示第n帧语音,即目标语音帧。终端设备还可以根据目标语音帧所对应的语音输入信号,确定目标语音帧所对应的信号快拍(signal snapshot),目标语音帧所对应的信号快拍是由麦克风阵列中每个麦克风的信号快拍构成的。基于目标语音帧所对应的信号快拍以及第一波束形成器系数,确定每个入射方位角的信号能量,最后对各个入射方位角的信号能量求和,得到第二信号能量。根据第一信号能量和第二信号能量的比值,确定目标语音帧的空间特征,即可以判断在当前的目标语音帧中,来自待估计及角度的信号是否占据主导地位。
其次,本申请实施例中,提供了一种基于固定波束形成器获取第一信号能量和第二信号能量的方法,在入射信号的数量不多,且入射角度差别足够大的情况下,入射方位角的信号能量可以认为是只含有某个入射方位角的信号能量,第二信号能量即为各个入射方位角的信号能量总和。通过上述方式,为方案的实现提供了可行的依据,从而提升方案的可行性和可操作性。此外,无需基于单个频点生成信号能量,而是结合各个频点得到信号能量,不但可以减少计算量,还能够提升信号能量的准确度。
可选地,在上述图8对应的各个实施例的基础上,本申请实施例提供的信号生成的方法第二个可选实施例中,空间特征为空间能量占比;
根据第一信号能量以及第二信号能量,确定待估计角度对应的空间特征,可以包括:
采用如下方式计算待估计角度对应的空间特征:
其中,r(n,θ)表示待估计角度对应的空间能量占比,θ表示待估计角度,n表示目标语音帧,p(n,θ)表示待估计角度所对应的第一信号能量,表示入射方位角,表示入射方位角范围中的入射方位角最小值,表示入射方位角范围中的入射方位角最大值,表示入射方位角所对应的信号能量,表示目标语音帧对应的第二信号能量,f表示频点,f0表示用于估计信号能量的频率范围所对应的频点最小值,f1表示用于估计信号能量的频率范围所对应的频点最大值,表示在频点f上指向入射方位角的第一波束形成器系数,(·)H表示共轭转置,S(n,f)表示目标语音帧所对应的信号快拍,Si(n,f)表示麦克风阵列中第i个麦克风在目标语音帧的短时傅立叶变换在频点f处的结果,N表示麦克风阵列中的麦克风总数量。
本实施例中,介绍了一种计算空间能量占比的方式。终端设备根据语音输入信号以及第一波束形成器系数,获取待估计角度θ在目标语音帧n对应的第一信号能量p(n,θ),其中,第一波束形成器系数表示为 表示入射方位角,f表示频点,N表示麦克风阵列中的麦克风总数量。接下来需要计算第二信号能量。
具体地,终端设备根据目标语音帧n所对应的语音输入信号,确定目标语音帧n所对应的信号快拍S(n,f),若麦克风阵列总共包括N个麦克风,那么信号快拍S(n,f)为:
基于信号快拍S(n,f)以及第一波束形成器系数可以采用下列方式跨频点求和,计算得到入射方位角的信号能量,即计算的方式如下:
其中,f0表示用于估计信号能量的频率范围所对应的频点最小值,f1表示用于估计信号能量的频率范围所对应的频点最大值。
终端设备基于入射方位角范围中各个入射方位角的信号能量,计算得到目标语音帧对应的第二信号能量,入射方位角范围为大于或等于且小于或等于因此,可以得到第二信号能量
终端设备在得到第一信号能量和第二信号能量之后,采用如下方式计算空间特征,即计算待估计角度对应的空间能量占比r(n,θ):
由此可见,w(θ,f)的设计目标是保留待估计角度θ方向的信号,并且最大程度抑制其它方向来的信号。其中f0和f1是选定的用于估计空间谱的频率范围,f0表示用于估计信号能量的频率范围所对应的频点最小值,f1表示用于估计信号能量的频率范围所对应的频点最大值。空间能量占比r(n,θ)是来自待估计角度θ方向的信号能量占全部入射信号能量的比例,即在目标语音帧中,来自待估计角度θ方向的信号是否占主导地位。
再次,本申请实施例中,提供一种计算空间能量占比的方式,通过上述方式,为方案的实现提供了具体可行的手段,从而提升方案的可操作性和可行性。
可选地,在上述图8对应的各个实施例的基础上,本申请实施例提供的信号生成的方法第三个可选实施例中,根据语音输入信号获取待估计角度对应的第一信号能量,可以包括:
根据语音输入信号以及第一波束形成器系数,获取待估计角度在频点上的第一信号能量,其中,第一波束形成器系数为第一固定波束形成器所对应的系数;
根据目标语音帧所对应的语音输入信号以及波束形成器系数,确定目标语音帧对应的第二信号能量,可以包括:
根据目标语音帧所对应的语音输入信号,确定目标语音帧所对应的信号快拍;
根据目标语音帧所对应的信号快拍以及第一波束形成器系数,确定入射方位角在频点上的信号能量,其中,入射方位角在入射方位角范围内;
根据入射方位角范围中各个入射方位角在频点上的信号能量,计算得到目标语音帧在频点上对应的第二信号能量。
本实施例中,介绍了另一种基于固定波束形成器获取第一信号能量和第二信号能量的方法,具体地,针对给定的麦克风阵列和给定的扫描空间范围(通常可以设置为360度的空间),设计一个固定波束形成器,请再次参阅图9对第一固定波束形成器的空间响应进行理解,此次不做赘述。
具体地,如果入射信号的数量不多,且入射角度差别足够大,则可以被近似认为只含有来自入射方位角方向在频点f上的信号能量,其中,n表示第n帧语音,即目标语音帧。终端设备还可以根据目标语音帧所对应的语音输入信号,确定目标语音帧所对应的信号快拍,目标语音帧所对应的信号快拍是由麦克风阵列中每个麦克风的信号快拍构成的。基于目标语音帧所对应的信号快拍以及第一波束形成器系数,确定每个入射方位角在频点f上的信号能量,最后对各个入射方位角在频点f上的信号能量求和,得到第二信号能量。根据第一信号能量和第二信号能量的比值,确定目标语音帧的空间特征,即可以判断在当前的目标语音帧中,来自待估计及角度的信号是否占据主导地位。
其次,本申请实施例中,提供了一种基于固定波束形成器获取第一信号能量和第二信号能量的方法,在入射信号的数量不多,且入射角度差别足够大的情况下,入射方位角的信号能量可以认为是只含有某个入射方位角的信号能量,第二信号能量即为各个入射方位角的信号能量总和。通过上述方式,为方案的实现提供了可行的依据,从而提升方案的可行性和可操作性。
可选地,在上述图8对应的各个实施例的基础上,本申请实施例提供的信号生成的方法第四个可选实施例中,空间特征为空间能量占比;
根据第一信号能量以及第二信号能量,确定待估计角度对应的空间特征,可以包括:
采用如下方式计算待估计角度对应的空间特征:
其中,r(n,θ,f)表示待估计角度在频点f上对应的空间能量占比,θ表示待估计角度,n表示目标语音帧,f表示频点,p(n,θ,f)表示待估计角度在频点f上所对应的第一信号能量,表示入射方位角,表示入射方位角范围中的入射方位角最小值,表示入射方位角范围中的入射方位角最大值,表示入射方位角在频点f上所对应的信号能量,表示目标语音帧在频点f上对应的第二信号能量,表示在频点f上指向入射方位角的第一波束形成器系数,(·)H表示共轭转置,S(n,f)表示目标语音帧所对应的信号快拍,Si(n,f)表示麦克风阵列中第i个麦克风在目标语音帧的短时傅立叶变换在频点f处的结果,N表示麦克风阵列中的麦克风总数量。
本实施例中,介绍了另一种计算空间能量占比的方式。终端设备根据语音输入信号以及第一波束形成器系数,获取待估计角度θ在目标语音帧n对应的第一信号能量p(n,θ),其中,第一波束形成器系数表示为 表示入射方位角,f表示频点,N表示麦克风阵列中的麦克风总数量。接下来需要计算第二信号能量。
具体地,终端设备根据目标语音帧n所对应的语音输入信号,确定目标语音帧n所对应的信号快拍S(n,f),若麦克风阵列总共包括N个麦克风,那么信号快拍S(n,f)为:
基于信号快拍S(n,f)以及第一波束形成器系数可以采用下列方式计算得到每一个频点f在入射方位角的信号能量,即计算的方式如下:
终端设备基于入射方位角范围中各个入射方位角的信号能量,计算得到目标语音帧对应的第二信号能量,入射方位角范围为大于或等于且小于或等于因此,可以得到第二信号能量此时第二信号能量可以被近似认为是所有方向入射信号能量的总和。
终端设备在得到第一信号能量和第二信号能量之后,采用如下方式计算空间特征,即计算待估计角度θ在频点f上对应的空间能量占比r(n,θ,f):
由此可见,w(θ,f)的设计目标是保留待估计角度θ方向的信号,并且最大程度抑制其它方向来的信号。空间能量占比r(n,θf)是来自待估计角度θ方向在频点f上的信号能量占全部入射信号能量的比例,即在目标语音帧中,来自待估计角度θ方向的信号是否占主导地位。
再次,本申请实施例中,提供一种计算空间能量占比的方式,通过上述方式,为方案的实现提供了具体可行的手段,从而提升方案的可操作性和可行性。
可选地,在上述图8对应的各个实施例的基础上,本申请实施例提供的信号生成的方法第五个可选实施例中,根据语音输入信号获取待估计角度对应的第一信号能量,可以包括:
根据语音输入信号以及第一波束形成器系数,获取待估计角度对应的第一信号能量,其中,第一波束形成器系数为第一固定波束形成器所对应的系数;
根据目标语音帧所对应的语音输入信号以及波束形成器系数,确定目标语音帧对应的第二信号能量,可以包括:
根据目标语音帧所对应的语音输入信号,确定目标语音帧所对应的信号快拍;
根据目标语音帧所对应的信号快拍以及第二波束形成器系数,确定目标入射方位角的第二信号能量,其中,第二波束形成器系数为第二固定波束形成器所对应的系数,第二固定波束形成器与第一固定波束形成器为不同的两个固定波束形成器,目标入射方位角表示信号抑制的方向。
本实施例中,介绍了一种基于固定波束形成器获取第一信号能量,并且基于陷波空间滤波器获取第二信号能量的方法,具体地,针对给定的麦克风阵列和给定的扫描空间范围(通常可以设置为360度的空间),设计一个固定波束形成器,该固定波束形成器为第一固定波束形成器,同时,还设计了一个陷波空间滤波器,该陷波空间滤波器为第二固定波束形成器。为了便于理解,请参阅图10,图10为本申请实施例中第二固定波束形成器的一个空间响应示意图,如图所示,该空间响应对应于第二固定波束形成器所对应的系数,即第二波束形成器系数表示为对目标入射方位角的方向具有抑制能力,通常为-10dB至-20dB,图10所示的横轴表示入射方位角,纵坐标表示波束形成器的增益响应。其中,该空间响应只能在部分麦克风阵列形状和部分频点上实现。
具体地,终端设备可以根据目标语音帧所对应的语音输入信号,确定目标语音帧所对应的信号快拍,目标语音帧所对应的信号快拍是由麦克风阵列中每个麦克风的信号快拍构成的。终端设备基于目标语音帧所对应的信号快拍以及第二波束形成器系数,确定目标入射方位角的信号能量,即得到第二信号能量其中,表示第n帧语音,即目标语音帧。根据第一信号能量和第二信号能量的比值,确定目标语音帧的空间特征,即可以判断在当前的目标语音帧中,来自待估计及角度的信号是否占据主导地位。
其次,本申请实施例中,提供了一种基于固定波束形成器以及陷波空间滤波器获取第一信号能量和第二信号能量的方法,适用于实时指向性语音标注,即可以针对当前目标语音帧的信号,判定是否含有来自待估计角度附近的语音信号。通过上述方式,为方案的实现提供了可行的依据,从而提升方案的可行性和可操作性。此外,无需基于单个频点生成信号能量,而是结合各个频点得到信号能量,不但可以减少计算量,还能够提升信号能量的准确度。
可选地,在上述图8对应的各个实施例的基础上,本申请实施例提供的信号生成的方法第六个可选实施例中,空间特征为空间零陷信噪比;
根据第一信号能量以及第二信号能量,确定待估计角度对应的空间特征,可以包括:
采用如下方式计算待估计角度对应的空间特征:
其中,μnull(n,θ)表示待估计角度对应的空间零陷信噪比,θ表示待估计角度,n表示目标语音帧,p(n,θ)表示待估计角度所对应的第一信号能量,表示目标入射方位角,表示目标入射方位角所对应的第二信号能量,f表示频点,f0表示用于估计信号能量的频率范围所对应的频点最小值,f1表示用于估计信号能量的频率范围所对应的频点最大值,表示在频点f上指向目标入射方位角的第二波束形成器系数,(·)H表示共轭转置,S(n,f)表示目标语音帧所对应的信号快拍,Si(n,f)表示麦克风阵列中第i个麦克风在目标语音帧的短时傅立叶变换在频点f处的结果,N表示麦克风阵列中的麦克风总数量。
本实施例中,介绍了一种计算空间零陷信噪比的方式。终端设备根据语音输入信号以及第一波束形成器系数,获取待估计角度θ在目标语音帧n对应的第一信号能量p(n,θ),其中,第一波束形成器系数表示为 表示目标入射方位角,表示目标入射方位角,在确定了待估计角度θ之后,可以先找到待估计角度θ方向为零陷的第二波束形成器,从而得到目标入射方位角
具体地,终端设备根据目标语音帧n所对应的语音输入信号,确定目标语音帧n所对应的信号快拍S(n,f),若麦克风阵列总共包括N个麦克风,那么信号快拍S(n,f)为:
基于信号快拍S(n,f)以及第二波束形成器系数可以采用下列方式跨频点求和,计算得到目标入射方位角的第二信号能量,第二信号能量又可以称为陷波空间谱,即计算的方式如下:
其中,f0表示用于估计信号能量的频率范围所对应的频点最小值,f1表示用于估计信号能量的频率范围所对应的频点最大值。
终端设备在得到第一信号能量和所有目标入射方位角的第二信号能量之后,采用如下方式计算空间特征,即计算待估计角度对应的空间零陷信噪比μnull(n,θ):
由此可见,w(θ,f)的设计目标是保留待估计角度θ方向的信号,并且最大程度抑制其它方向来的信号。的设计目标是目标入射方位角方向附近一定范围内的所有信号。其中f0和f1是选定的用于估计空间谱的频率范围,f0表示用于估计信号能量的频率范围所对应的频点最小值,f1表示用于估计信号能量的频率范围所对应的频点最大值。其中f0和f1是选定的用于估计空间谱的频率范围,且该范围内和都存在。空间零陷信噪比μnull(n,θ)是来自待估计角度θ方向附近的信号能量与其它所有方向的信号能量总和的比值。
再次,本申请实施例中,提供一种计算空间零陷信噪比的方式,通过上述方式,为方案的实现提供了具体可行的手段,从而提升方案的可操作性和可行性。
可选地,在上述图8对应的各个实施例的基础上,本申请实施例提供的信号生成的方法第七个可选实施例中,根据语音输入信号获取待估计角度对应的第一信号能量,可以包括:
根据语音输入信号以及第一波束形成器系数,获取待估计角度在频点上的第一信号能量,其中,第一波束形成器系数为第一固定波束形成器所对应的系数;
根据目标语音帧所对应的语音输入信号以及波束形成器系数,确定目标语音帧对应的第二信号能量,可以包括:
根据目标语音帧所对应的语音输入信号,确定目标语音帧所对应的信号快拍;
根据目标语音帧所对应的信号快拍以及第二波束形成器系数,确定目标入射方位角在频点上的第二信号能量,其中,第二波束形成器系数为第二固定波束形成器所对应的系数,第二固定波束形成器与第一固定波束形成器为不同的两个固定波束形成器,目标入射方位角表示信号抑制的方向。
本实施例中,介绍了一种基于固定波束形成器获取第一信号能量,并且基于陷波空间滤波器获取第二信号能量的方法,具体地,针对给定的麦克风阵列和给定的扫描空间范围(通常可以设置为360度的空间),设计一个固定波束形成器,该固定波束形成器为第一固定波束形成器,同时,还设计了一个陷波空间滤波器,该陷波空间滤波器为第二固定波束形成器。请再次参阅图10对第二固定波束形成器的空间响应进行理解,此次不做赘述。
具体地,终端设备可以根据目标语音帧所对应的语音输入信号,确定目标语音帧所对应的信号快拍,目标语音帧所对应的信号快拍是由麦克风阵列中每个麦克风的信号快拍构成的。终端设备基于目标语音帧所对应的信号快拍以及第二波束形成器系数,确定目标入射方位角在频点上的信号能量,即得到第二信号能量其中,表示第n帧语音,即目标语音帧。根据第一信号能量和第二信号能量的比值,确定目标语音帧的空间特征,即可以判断在当前的目标语音帧中,来自待估计及角度的信号是否占据主导地位。
其次,本申请实施例中,提供了一种基于固定波束形成器以及陷波空间滤波器获取第一信号能量和第二信号能量的方法,适用于实时指向性语音标注,即可以针对当前目标语音帧的信号,判定是否含有来自待估计角度附近的语音信号。通过上述方式,为方案的实现提供了可行的依据,从而提升方案的可行性和可操作性。
可选地,在上述图8对应的各个实施例的基础上,本申请实施例提供的信号生成的方法第八个可选实施例中,空间特征为空间零陷信噪比;
根据第一信号能量以及第二信号能量,确定待估计角度对应的空间特征,可以包括:
采用如下方式计算待估计角度对应的空间特征:
其中,μnull(n,θ,f)表示待估计角度在频点f上对应的空间零陷信噪比,θ表示待估计角度,n表示目标语音帧,f表示频点,p(n,θ,f)表示待估计角度在频点f上所对应的第一信号能量,表示目标入射方位角,表示目标入射方位角在频点f上所对应的第二信号能量,表示在频点f上指向目标入射方位角的第二波束形成器系数,(·)H表示共轭转置,S(n,f)表示目标语音帧所对应的信号快拍,Si(n,f)表示麦克风阵列中第i个麦克风在目标语音帧的短时傅立叶变换在频点f处的结果,N表示麦克风阵列中的麦克风总数量。
本实施例中,介绍了一种计算空间零陷信噪比的方式。终端设备根据语音输入信号以及第一波束形成器系数,获取待估计角度θ在目标语音帧n对应的在频点f上的第一信号能量p(n,θ,f),其中,第一波束形成器系数表示为 表示目标入射方位角,在确定了待估计角度θ之后,可以先找到待估计角度θ方向为零陷的第二波束形成器,从而得到目标入射方位角f表示频点,N表示麦克风阵列中的麦克风总数量。接下来需要计算第二信号能量。
具体地,终端设备根据目标语音帧n所对应的语音输入信号,确定目标语音帧n所对应的信号快拍S(n,f),若麦克风阵列总共包括N个麦克风,那么信号快拍S(n,f)为:
基于信号快拍S(n,f)以及第二波束形成器系数可以采用下列方式跨频点求和,计算得到目标入射方位角在频点f上的的第二信号能量,第二信号能量又可以称为陷波空间谱,即计算的方式如下:
终端设备在得到第一信号能量和所有目标入射方位角的第二信号能量之后,采用如下方式计算空间特征,即计算待估计角度在频点f上对应的空间零陷信噪比μnull(n,θ,f):
由此可见,w(θ,f)的设计目标是保留待估计角度θ方向的信号,并且最大程度抑制其它方向来的信号。的设计目标是目标入射方位角方向附近一定范围内的所有信号。在频点f所在的范围内和都存在。空间零陷信噪比μnull(n,θ)是来自待估计角度θ方向在频点f上附近的信号能量与其它所有方向的信号能量总和的比值。
再次,本申请实施例中,提供一种计算空间零陷信噪比的方式,通过上述方式,为方案的实现提供了具体可行的手段,从而提升方案的可操作性和可行性。
可选地,在上述图8对应的各个实施例的基础上,本申请实施例提供的信号生成的方法第九个可选实施例中,根据空间特征生成目标语音帧对应的目标控制信号,可以包括:
若空间特征小于第一门限值,则生成目标语音帧对应的第一控制信号,其中,第一控制信号表示目标语音帧所对应的语音输入信号属于干扰噪声,干扰噪声用于触发自适应波束形成器进行更新;
若空间特征大于第二门限值,则生成目标语音帧对应的第二控制信号,其中,第二控制信号表示目标语音帧所对应的语音输入信号属于目标人声,所目标人声用于触发自适应波束形成器进行更新;
若空间特征大于或等于第一门限值,且小于或等于第二门限值,则生成目标语音帧对应的第三控制信号,其中,第三控制信号表示目标语音帧所对应的语音输入信号属于待确定信号。
本实施例中,介绍了一种生成目标控制信号的方法,首先通过麦克风阵列获取语音输入信号,通过空间特征提取模块提取出至少一个空间特征,该空间特征包含但不仅限于空间能量占比、空间最低信噪比、空间最高信噪比以及空间零陷信噪比。空间特征提取模块可以提取每一个语音帧的信号,然后针对待估计角度对应的空间特征与门限值进行比较。
为了便于介绍,请参阅图11,图11为本申请实施例中控制信号生成系统的一个实施例示意图,如图所示,以目标语音帧为例进行说明,假设空间特征为空间能量占比r(n,θ),将该空间能量占比r(n,θ)与第一门限值tL进行比较,如果空间能量占比小于第一门限值tL,那么生成第一控制信号LN,并发出第一控制信号LN,第一控制信号LN表示该目标语音帧所对应的语音输入信号属于干扰噪声,采用第一控制信号LN控制自适应波束形成器更新对噪声场的估计。
如果空间能量占比r(n,θ)大于第二门限值tH,那么生成第二控制信号LS,并发出第二控制信号LS,其中,第二门限值tH大于第一门限值tL,第二控制信号LS表示该目标语音帧所对应的语音输入信号属于目标人声,采用第二控制信号LS控制自适应波束形成器更新对目标人声的导向矢量估计。
如果空间能量占比r(n,θ)大于或等于第一门限值tL,且小于或等于第二门限值tH,也就是介于第一门限值tL和第二门限值tH之间,那么生成第三控制信号L0,第三控制信号L0表示目标语音帧所对应的语音输入信号属于待确定信号,其中,待确定信号即不确定该目标语音帧的信号成分,于是控制自适应波束形成器不进行任何更新。
进一步地,本申请实施例中,提供了一种生成目标控制信号的方法,若空间特征小于第一门限值,则生成目标语音帧对应的第一控制信号,若空间特征大于第二门限值,则生成目标语音帧对应的第二控制信号,若空间特征大于或等于第一门限值,且小于或等于第二门限值,则生成目标语音帧对应的第三控制信号。通过上述方式,利用双门限值判断控制信号的具体类型,实现对控制信号的检测和判别,基于经验值确定的两个门限值能够更准确地判断控制信号的类型,从而提升方案的可行性。
可选地,在上述图8对应的各个实施例的基础上,本申请实施例提供的信号生成的方法第十个可选实施例中,根据空间特征生成目标语音帧对应的目标控制信号,可以包括:
通过神经网络模型获取空间特征所对应的控制信号类型;
若控制信号类型为第一类型,则确定目标控制信号为第一控制信号,其中,第一控制信号表示目标语音帧所对应的语音输入信号属于干扰噪声,干扰噪声用于触发自适应波束形成器进行更新;
若控制信号类型为第二类型,则确定目标控制信号为第二控制信号,其中,第二控制信号表示目标语音帧所对应的语音输入信号属于目标人声,所目标人声用于触发自适应波束形成器进行更新;
若控制信号类型为第三类型,则确定目标控制信号为第三控制信号,其中,第三控制信号表示目标语音帧所对应的语音输入信号属于待确定信号。
本实施例中,介绍了另一种生成目标控制信号的方法,首先通过麦克风阵列获取语音输入信号,通过空间特征提取模块提取出至少一个空间特征,该空间特征包含但不仅限于空间能量占比、空间最低信噪比、空间最高信噪比以及空间零陷信噪比。空间特征提取模块可以提取每一个语音帧的信号,然后采用神经网络模型对空间特征所对应的控制信号类型进行预测。
为了便于介绍,请参阅图12,图12为本申请实施例中控制信号生成系统的另一个实施例示意图,如图所示,以目标语音帧为例进行说明,假设提取到的空间特征包括空间零陷信噪比和空间能量占比,然后将空间零陷信噪比和空间能量占比以语音帧为单位,同时输入至神经网络(Neural Network,NN)模型中,由神经网络模型输出层采用三个节点分别输出空间特征的控制信号类型,比如输出1或2或3,其中,“1”表示第一类型,即生成第一控制信号LN,“2”表示第二类型,即生成第二控制信号LS,“3”表示第三类型,即第三控制信号L0。可以理解的是,该神经网络模型可以是三分类神经网络,针对每个语音帧仅输出一个控制信号类型,即只对应一个控制信号。
类似地,第一控制信号LN表示该目标语音帧所对应的语音输入信号属于干扰噪声,第一控制信号LN控制自适应波束形成器更新对噪声场的估计。第二控制信号LS表示该目标语音帧所对应的语音输入信号属于目标人声,采用第二控制信号LS控制自适应波束形成器更新对目标人声的导向矢量估计。第三控制信号L0表示目标语音帧所对应的语音输入信号属于待确定信号,其中,待确定信号即不确定该目标语音帧的信号成分,于是控制自适应波束形成器不进行任何更新。
进一步地,本申请实施例中,提供了另一种生成目标控制信号的方法,通过神经网络模型获取空间特征所对应的控制信号类型,根据控制信号类型确定目标控制信号属于第一控制信号、第二控制信号还是第三控制信号。通过上述方式,利用神经网络模型能够更准确地估计控制信号的信号类型,从而提升控制信号生成的可靠性和可行性。
结合上述介绍,下面将对本申请中基于人工智能的语音识别方法进行介绍,请参阅图13,本申请实施例中基于人工智能的语音识别方法一个实施例包括:
201、当通过麦克风阵列获取目标语音帧对应的语音输入信号时,根据语音输入信号获取待估计角度对应的第一信号能量,其中,麦克风阵列包括多个麦克风,待估计角度在入射方位角范围内;
本实施例中,信号生成装置通过麦克风阵列获取目标语音帧对应的语音输入信号,目标语音帧表示至少一帧语音,通常情况下可以对每帧语音生成控制信号。其中,该信号生成装置可以部署于终端设备上,比如智能机器人、智能音箱以及智能电视等。为了便于介绍,下面将以终端设备为例进行说明,然而这不应理解为对本申请的限定。
终端设备基于语音输入信号获取待估计角度对应的第一信号能量,具体地,该第一信号能量可以是对待估计角度得到的空间谱,空间谱是阵列信号处理的一个重要概念,空间谱表示信号在空间各个方向上的能量分布,如果能够估计出空间谱就可以得到信号源的DOA,因此,空间谱估计也可以称为DOA估计。可以理解的是,待估计角度在入射方位角范围内,假设入射方位角范围为0至180度,那么待估计角度就在0至180度之间。
202、根据目标语音帧所对应的语音输入信号以及波束形成器系数,确定目标语音帧对应的第二信号能量;
本实施例中,基于预先设计的波束形成器系数,终端设备可以获取目标语音帧所对应的第二信号能量。其中,波束形成器系数表示为即包括两个维度的信息,分别为频点和指向,表示在频点f上指向入射方位角的波束形成器系数,比如w(30,800)表示在频点为800赫兹上指向30度入射方位角的波束形成器系数。具体地,第二信号能量可以是对所有目标角度的空间谱之和,或者,第二信号能量可以是陷波空间谱。
可以理解的是,波束形成器系数的设置与波束形成器的设计原则相关,比如波束形成器可以是固定波束形成器,也可以是陷波空间滤波器,此次不做限定。
203、根据第一信号能量以及第二信号能量,确定待估计角度对应的空间特征;
本实施例中,终端设备结合第一信号能量以及第二信号能量,可以计算得到该待估计角度对应的空间特征。
204、根据空间特征生成目标语音帧对应的目标控制信号;
本实施例中,终端设备根据确定的空间特征生成该目标语音帧所对应的目标控制信号,可以理解的是,假设总共有100帧语音,目标语音帧为第1帧语音,此时生成一个目标控制信号。接下来,终端设备会继续对第2帧语音进行分析,针对第2帧语音也会生成一个控制信号,以此类推,最后可以得到这100帧语音中每帧语音所对应的控制信号,基于每帧语音的控制信号,估计语音的DOA,从而定向增强该DOA方向上的语音,抑制其它方向上的所有信号。
205、若目标控制信号为目标人声所对应的信号,则根据语音输入信号获取唤醒结果以及信号到达方向;
本实施例中,终端设备判断目标控制信号是否属于目标人声,判断的方式包含但不仅限于上述实施例中介绍的双门限值判断的方式,以及神经网络模型的判断方式。在确定该目标控制信号为目标人声所对应的信号之后,终端设备可以基于语音输入信号检测对应的唤醒结果以及信号达到方向,其中,唤醒结果表示对终端设备的唤醒是否成功,信号到达方向表示DOA。
206、若唤醒结果表示唤醒成功,则根据信号到达方向所对应的待识别语音信号进行语音识别处理。
本实施例中,如果检测到唤醒结果为唤醒成功,则可以根据对信号到达方向所对应的待识别语音信号进行语音识别处理。具体地,唤醒检测可以是根据得分来判断的,比如预设的唤醒词为“小腾”,终端设备需要判断是否检测到该唤醒词“小腾”,检测到唤醒词后可以对待识别语音信号进行语音识别处理。
本申请实施例中,提供了一种语音识别的方法,当通过麦克风阵列获取目标语音帧对应的语音输入信号时,根据语音输入信号获取待估计角度对应的第一信号能量,根据入射方位角范围以及波束形成器系数,确定至少一个固定波束形成器所对应的第二信号能量,根据第一信号能量以及第二信号能量,确定待估计角度对应的空间特征,根据空间特征生成目标语音帧对应的目标控制信号,若目标控制信号为目标人声所对应的信号,则根据语音输入信号获取唤醒结果以及信号到达方向,若唤醒成功,则根据信号到达方向所对应的待识别语音信号进行语音识别处理。通过上述方式,在“鸡尾酒会”情形中,能够根据麦克风阵列中每个麦克风所对应的待估计角度,分别确定来自各个待估计角度方向上的信号能量占全部入射信号能量的比例,基于空间特征生成相应的控制信号,可以提升控制信号的准确性和鲁棒性,从而提高前处理系统对语音信号增强的性能。
下面对本申请中的信号生成装置进行详细描述,请参阅图14,图14为本申请实施例中信号生成装置一个实施例示意图,信号生成装置30包括:
获取模块301,用于当通过麦克风阵列获取目标语音帧对应的语音输入信号时,根据语音输入信号获取待估计角度对应的第一信号能量,其中,麦克风阵列包括多个麦克风,待估计角度在入射方位角范围内;
确定模块302,用于根据目标语音帧所对应的语音输入信号以及波束形成器系数,确定目标语音帧对应的第二信号能量;
确定模块302,还用于根据获取模块301获取的第一信号能量以及第二信号能量,确定待估计角度对应的空间特征;
生成模块303,用于根据确定模块302确定的空间特征生成目标语音帧对应的目标控制信号,其中,目标控制信号用于估计语音的方向。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的信号生成装置30的另一实施例中,
获取模块301,具体用于根据语音输入信号以及第一波束形成器系数,获取估计角度对应的第一信号能量,其中,第一波束形成器系数为第一固定波束形成器所对应的系数;
确定模块302,具体用于根据目标语音帧所对应的语音输入信号,确定目标语音帧所对应的信号快拍;
根据目标语音帧所对应的信号快拍以及第一波束形成器系数,确定入射方位角的信号能量,其中,入射方位角在入射方位角范围内;
根据入射方位角范围中各个入射方位角的信号能量,计算得到目标语音帧对应的第二信号能量。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的信号生成装置30的另一实施例中,空间特征为空间能量占比;
确定模块302,具体用于采用如下方式计算待估计角度对应的空间特征:
其中,r(n,θ)表示待估计角度对应的空间能量占比,θ表示待估计角度,n表示目标语音帧,p(n,θ)表示待估计角度所对应的第一信号能量,表示入射方位角,表示入射方位角范围中的入射方位角最小值,表示入射方位角范围中的入射方位角最大值,表示入射方位角所对应的信号能量,表示目标语音帧对应的第二信号能量,f表示频点,f0表示用于估计信号能量的频率范围所对应的频点最小值,f1表示用于估计信号能量的频率范围所对应的频点最大值,表示在频点f上指向入射方位角的第一波束形成器系数,(·)H表示共轭转置,S(n,f)表示目标语音帧所对应的信号快拍,Si(n,f)表示麦克风阵列中第i个麦克风在目标语音帧的短时傅立叶变换在频点f处的结果,N表示麦克风阵列中的麦克风总数量。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的信号生成装置30的另一实施例中,
获取模块301,具体用于根据语音输入信号以及第一波束形成器系数,获取估计角度在频点上的第一信号能量,其中,第一波束形成器系数为第一固定波束形成器所对应的系数;
确定模块302,具体用于根据目标语音帧所对应的语音输入信号,确定目标语音帧所对应的信号快拍;
根据目标语音帧所对应的信号快拍以及第一波束形成器系数,确定入射方位角在频点上的信号能量,其中,入射方位角在入射方位角范围内;
根据入射方位角范围中各个入射方位角在频点上的信号能量,计算得到目标语音帧在频点上对应的第二信号能量。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的信号生成装置30的另一实施例中,空间特征为空间能量占比;
确定模块302,具体用于采用如下方式计算待估计角度对应的空间特征:
其中,r(n,θ,f)表示待估计角度在频点f上对应的空间能量占比,θ表示待估计角度,n表示目标语音帧,f表示频点,p(n,θ,f)表示待估计角度在频点f上所对应的第一信号能量,表示入射方位角,表示入射方位角范围中的入射方位角最小值,表示入射方位角范围中的入射方位角最大值,表示入射方位角在频点f上所对应的信号能量,表示目标语音帧在频点f上对应的第二信号能量,表示在频点f上指向入射方位角的第一波束形成器系数,(·)H表示共轭转置,S(n,f)表示目标语音帧所对应的信号快拍,Si(n,f)表示麦克风阵列中第i个麦克风在目标语音帧的短时傅立叶变换在频点f处的结果,N表示麦克风阵列中的麦克风总数量。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的信号生成装置30的另一实施例中,
获取模块301,具体用于根据语音输入信号以及第一波束形成器系数,获取估计角度对应的第一信号能量,其中,第一波束形成器系数为第一固定波束形成器所对应的系数;
确定模块302,具体用于根据目标语音帧所对应的语音输入信号,确定目标语音帧所对应的信号快拍;
根据目标语音帧所对应的信号快拍以及第二波束形成器系数,确定目标入射方位角的第二信号能量,其中,第二波束形成器系数为第二固定波束形成器所对应的系数,第二固定波束形成器与第一固定波束形成器为不同的两个固定波束形成器,目标入射方位角表示信号抑制的方向。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的信号生成装置30的另一实施例中,空间特征为空间零陷信噪比;
确定模块302,具体用于采用如下方式计算待估计角度对应的空间特征:
其中,μnull(n,θ)表示待估计角度对应的空间零陷信噪比,θ表示待估计角度,n表示目标语音帧,p(n,θ)表示待估计角度所对应的第一信号能量,表示目标入射方位角,表示目标入射方位角所对应的第二信号能量,f表示频点,f0表示用于估计信号能量的频率范围所对应的频点最小值,f1表示用于估计信号能量的频率范围所对应的频点最大值,表示在频点f上指向目标入射方位角的第二波束形成器系数,(·)H表示共轭转置,S(n,f)表示目标语音帧所对应的信号快拍,Si(n,f)表示麦克风阵列中第i个麦克风在目标语音帧的短时傅立叶变换在频点f处的结果,N表示麦克风阵列中的麦克风总数量。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的信号生成装置30的另一实施例中,
获取模块301,具体用于根据语音输入信号以及第一波束形成器系数,获取估计角度在频点上的第一信号能量,其中,第一波束形成器系数为第一固定波束形成器所对应的系数;
确定模块302,具体用于根据目标语音帧所对应的语音输入信号,确定目标语音帧所对应的信号快拍;
根据目标语音帧所对应的信号快拍以及第二波束形成器系数,确定目标入射方位角在频点上的第二信号能量,其中,第二波束形成器系数为第二固定波束形成器所对应的系数,第二固定波束形成器与第一固定波束形成器为不同的两个固定波束形成器,目标入射方位角表示信号抑制的方向。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的信号生成装置30的另一实施例中,空间特征为空间零陷信噪比;
确定模块302,具体用于采用如下方式计算待估计角度对应的空间特征:
其中,μnull(n,θ,f)表示待估计角度在频点f上对应的空间零陷信噪比,θ表示待估计角度,n表示目标语音帧,f表示频点,p(n,θ,f)表示待估计角度在频点f上所对应的第一信号能量,表示目标入射方位角,表示目标入射方位角在频点f上所对应的第二信号能量,表示在频点f上指向目标入射方位角的第二波束形成器系数,(·)H表示共轭转置,S(n,f)表示目标语音帧所对应的信号快拍,Si(n,f)表示麦克风阵列中第i个麦克风在目标语音帧的短时傅立叶变换在频点f处的结果,N表示麦克风阵列中的麦克风总数量。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的信号生成装置30的另一实施例中,
生成模块303,具体用于若空间特征小于第一门限值,则生成目标语音帧对应的第一控制信号,其中,第一控制信号表示目标语音帧所对应的语音输入信号属于干扰噪声,干扰噪声用于触发自适应波束形成器进行更新;
若空间特征大于第二门限值,则生成目标语音帧对应的第二控制信号,其中,第二控制信号表示目标语音帧所对应的语音输入信号属于目标人声,所目标人声用于触发自适应波束形成器进行更新;
若空间特征大于或等于第一门限值,且小于或等于第二门限值,则生成目标语音帧对应的第三控制信号,其中,第三控制信号表示目标语音帧所对应的语音输入信号属于待确定信号。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的信号生成装置30的另一实施例中,
生成模块303,具体用于通过神经网络模型获取空间特征所对应的控制信号类型;
若控制信号类型为第一类型,则确定目标控制信号为第一控制信号,其中,第一控制信号表示目标语音帧所对应的语音输入信号属于干扰噪声,干扰噪声用于触发自适应波束形成器进行更新;
若控制信号类型为第二类型,则确定目标控制信号为第二控制信号,其中,第二控制信号表示目标语音帧所对应的语音输入信号属于目标人声,所目标人声用于触发自适应波束形成器进行更新;
若控制信号类型为第三类型,则确定目标控制信号为第三控制信号,其中,第三控制信号表示目标语音帧所对应的语音输入信号属于待确定信号。
下面对本申请中的语音识别装置进行详细描述,请参阅图15,图15为本申请实施例中语音识别装置一个实施例示意图,语音识别装置40包括:
获取模块401,用于当通过麦克风阵列获取目标语音帧对应的语音输入信号时,根据语音输入信号获取待估计角度对应的第一信号能量,其中,麦克风阵列包括多个麦克风,待估计角度在入射方位角范围内;
确定模块402,用于根据目标语音帧所对应的语音输入信号以及波束形成器系数,确定目标语音帧对应的第二信号能量;
确定模块402,还用于根据第一信号能量以及第二信号能量,确定待估计角度对应的空间特征;
生成模块403,用于根据确定模块402确定的空间特征生成目标语音帧对应的目标控制信号;
获取模块401,还用于若生成模块403生成的目标控制信号为目标人声所对应的信号,则根据语音输入信号获取唤醒结果以及信号到达方向;
识别模块404,用于若唤醒结果表示唤醒成功,则根据获取模块401获取的信号到达方向所对应的待识别语音信号进行语音识别处理。
本申请实施例还提供了另一种语音识别装置以及信号生成装置,如图16所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(PersonalDigital Assistant,PDA)、销售终端设备(Point of Sales,POS)、车载电脑等任意终端设备,以终端设备为手机为例:
图16示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图16,手机包括:射频(Radio Frequency,RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless fidelity,WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解,图16中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图16对手机的各个构成部件进行具体的介绍:
RF电路510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器580处理;另外,将设计上行的数据发送给基站。通常,RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器520可用于存储软件程序以及模块,处理器580通过运行存储在存储器520的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元530可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元530可包括触控面板531以及其他输入设备532。触控面板531,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板531可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器580,并能接收处理器580发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531,输入单元530还可以包括其他输入设备532。具体地,其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541,可选的,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板541。进一步的,触控面板531可覆盖显示面板541,当触控面板531检测到在其上或附近的触摸操作后,传送给处理器580以确定触摸事件的类型,随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图16中,触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器550,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板541的亮度,接近传感器可在手机移动到耳边时,关闭显示面板541和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路560、扬声器561,传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号,传输到扬声器561,由扬声器561转换为声音信号输出;另一方面,传声器562将收集的声音信号转换为电信号,由音频电路560接收后转换为音频数据,再将音频数据输出处理器580处理后,经RF电路510以发送给比如另一手机,或者将音频数据输出至存储器520以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图16示出了WiFi模块570,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器580是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器520内的软件程序和/或模块,以及调用存储在存储器520内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器580可包括一个或多个处理单元;可选的,处理器580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器580中。
手机还包括给各个部件供电的电源590(比如电池),可选的,电源可以通过电源管理系统与处理器580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端设备所包括的处理器580还具有以下功能:
当通过麦克风阵列获取目标语音帧对应的语音输入信号时,根据所述语音输入信号获取待估计角度对应的第一信号能量,其中,所述麦克风阵列包括多个麦克风,所述待估计角度在入射方位角范围内;
根据所述目标语音帧所对应的语音输入信号以及波束形成器系数,确定所述目标语音帧对应的第二信号能量;
根据所述第一信号能量以及所述第二信号能量,确定所述待估计角度对应的空间特征;
根据所述空间特征生成所述目标语音帧对应的目标控制信号,其中,所述目标控制信号用于估计语音的方向。
在本申请实施例中,该终端设备所包括的处理器580还具有以下功能:
当通过麦克风阵列获取目标语音帧对应的语音输入信号时,根据所述语音输入信号获取待估计角度对应的第一信号能量,其中,所述麦克风阵列包括多个麦克风,所述待估计角度在入射方位角范围内;
根据所述目标语音帧所对应的语音输入信号以及波束形成器系数,确定所述目标语音帧对应的第二信号能量;
根据所述第一信号能量以及所述第二信号能量,确定所述待估计角度对应的空间特征;
根据所述空间特征生成所述目标语音帧对应的目标控制信号;
若所述目标控制信号为目标人声所对应的信号,则根据所述语音输入信号获取唤醒结果以及信号到达方向;
若所述唤醒结果表示唤醒成功,则根据所述信号到达方向所对应的待识别语音信号进行语音识别处理。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (15)
1.一种信号生成的方法,其特征在于,包括:
当通过麦克风阵列获取目标语音帧对应的语音输入信号时,根据所述语音输入信号获取待估计角度对应的第一信号能量,其中,所述麦克风阵列包括多个麦克风,所述待估计角度在入射方位角范围内;
根据所述目标语音帧所对应的语音输入信号以及波束形成器系数,确定所述目标语音帧对应的第二信号能量;
根据所述第一信号能量以及所述第二信号能量,确定所述待估计角度对应的空间特征;
根据所述空间特征生成所述目标语音帧对应的目标控制信号,其中,所述目标控制信号用于估计语音的方向。
2.根据权利要求1所述的方法,其特征在于,所述根据所述语音输入信号获取待估计角度对应的第一信号能量,包括:
根据所述语音输入信号以及第一波束形成器系数,获取所述估计角度对应的第一信号能量,其中,所述第一波束形成器系数为第一固定波束形成器所对应的系数;
所述根据所述目标语音帧所对应的语音输入信号以及波束形成器系数,确定所述目标语音帧对应的第二信号能量,包括:
根据所述目标语音帧所对应的所述语音输入信号,确定所述目标语音帧所对应的信号快拍;
根据所述目标语音帧所对应的信号快拍以及所述第一波束形成器系数,确定入射方位角的信号能量,其中,所述入射方位角在所述入射方位角范围内;
根据所述入射方位角范围中各个入射方位角的信号能量,计算得到所述目标语音帧对应的所述第二信号能量。
3.根据权利要求2所述的方法,其特征在于,所述空间特征为空间能量占比;
所述根据所述第一信号能量以及所述第二信号能量,确定所述待估计角度对应的空间特征,包括:
采用如下方式计算所述待估计角度对应的空间特征:
其中,所述r(n,θ)表示所述待估计角度对应的空间能量占比,所述θ表示所述待估计角度,所述n表示所述目标语音帧,所述p(n,θ)表示所述待估计角度所对应的所述第一信号能量,所述表示入射方位角,所述表示所述入射方位角范围中的入射方位角最小值,所述表示所述入射方位角范围中的入射方位角最大值,所述表示所述入射方位角所对应的信号能量,所述表示所述目标语音帧对应的所述第二信号能量,所述f表示频点,所述f0表示用于估计信号能量的频率范围所对应的频点最小值,所述f1表示用于估计信号能量的频率范围所对应的频点最大值,所述表示在所述频点f上指向所述入射方位角的所述第一波束形成器系数,所述(·)H表示共轭转置,所述S(n,f)表示所述目标语音帧所对应的所述信号快拍,所述Si(n,f)表示所述麦克风阵列中第i个麦克风在所述目标语音帧的短时傅立叶变换在所述频点f处的结果,所述N表示所述麦克风阵列中的麦克风总数量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述语音输入信号获取待估计角度对应的第一信号能量,包括:
根据所述语音输入信号以及第一波束形成器系数,获取所述估计角度在频点上的第一信号能量,其中,所述第一波束形成器系数为第一固定波束形成器所对应的系数;
所述根据所述目标语音帧所对应的语音输入信号以及波束形成器系数,确定所述目标语音帧对应的第二信号能量,包括:
根据所述目标语音帧所对应的所述语音输入信号,确定所述目标语音帧所对应的信号快拍;
根据所述目标语音帧所对应的信号快拍以及所述第一波束形成器系数,确定入射方位角在频点上的信号能量,其中,所述入射方位角在所述入射方位角范围内;
根据所述入射方位角范围中各个入射方位角在所述频点上的信号能量,计算得到所述目标语音帧在所述频点上对应的所述第二信号能量。
5.根据权利要求4所述的方法,其特征在于,所述空间特征为空间能量占比;
所述根据所述第一信号能量以及所述第二信号能量,确定所述待估计角度对应的空间特征,包括:
采用如下方式计算所述待估计角度对应的空间特征:
其中,所述r(n,θ,f)表示所述待估计角度在频点f上对应的空间能量占比,所述θ表示所述待估计角度,所述n表示所述目标语音帧,所述f表示所述频点,所述p(n,θ,f)表示所述待估计角度在所述频点f上所对应的所述第一信号能量,所述表示入射方位角,所述表示所述入射方位角范围中的入射方位角最小值,所述表示所述入射方位角范围中的入射方位角最大值,所述表示所述入射方位角在所述频点f上所对应的信号能量,所述表示所述目标语音帧在所述频点f上对应的所述第二信号能量,所述表示在所述频点f上指向所述入射方位角的所述第一波束形成器系数,所述(·)H表示共轭转置,所述S(n,f)表示所述目标语音帧所对应的所述信号快拍,所述Si(n,f)表示所述麦克风阵列中第i个麦克风在所述目标语音帧的短时傅立叶变换在所述频点f处的结果,所述N表示所述麦克风阵列中的麦克风总数量。
6.根据权利要求1所述的方法,其特征在于,所述根据所述语音输入信号获取待估计角度对应的第一信号能量,包括:
根据所述语音输入信号以及第一波束形成器系数,获取所述估计角度对应的第一信号能量,其中,所述第一波束形成器系数为第一固定波束形成器所对应的系数;
所述根据所述目标语音帧所对应的语音输入信号以及波束形成器系数,确定所述目标语音帧对应的第二信号能量,包括:
根据所述目标语音帧所对应的所述语音输入信号,确定所述目标语音帧所对应的信号快拍;
根据所述目标语音帧所对应的信号快拍以及第二波束形成器系数,确定目标入射方位角的第二信号能量,其中,所述第二波束形成器系数为第二固定波束形成器所对应的系数,所述第二固定波束形成器与所述第一固定波束形成器为不同的两个固定波束形成器,所述目标入射方位角表示信号抑制的方向。
7.根据权利要求6所述的方法,其特征在于,所述空间特征为空间零陷信噪比;
所述根据所述第一信号能量以及所述第二信号能量,确定所述待估计角度对应的空间特征,包括:
采用如下方式计算所述待估计角度对应的空间特征:
其中,所述μnull(n,θ)表示所述待估计角度对应的空间零陷信噪比,所述θ表示所述待估计角度,所述n表示所述目标语音帧,所述p(n,θ)表示所述待估计角度所对应的所述第一信号能量,所述表示所述目标入射方位角,所述表示所述目标入射方位角所对应的第二信号能量,所述f表示频点,所述f0表示用于估计信号能量的频率范围所对应的频点最小值,所述f1表示用于估计信号能量的频率范围所对应的频点最大值,所述表示在所述频点f上指向所述目标入射方位角的所述第二波束形成器系数,所述(·)H表示共轭转置,所述S(n,f)表示所述目标语音帧所对应的所述信号快拍,所述Si(n,f)表示所述麦克风阵列中第i个麦克风在所述目标语音帧的短时傅立叶变换在所述频点f处的结果,所述N表示所述麦克风阵列中的麦克风总数量。
8.根据权利要求1所述的方法,其特征在于,所述根据所述语音输入信号获取待估计角度对应的第一信号能量,包括:
根据所述语音输入信号以及第一波束形成器系数,获取所述估计角度在频点上的第一信号能量,其中,所述第一波束形成器系数为第一固定波束形成器所对应的系数;
所述根据所述目标语音帧所对应的语音输入信号以及波束形成器系数,确定所述目标语音帧对应的第二信号能量,包括:
根据所述目标语音帧所对应的所述语音输入信号,确定所述目标语音帧所对应的信号快拍;
根据所述目标语音帧所对应的信号快拍以及第二波束形成器系数,确定目标入射方位角在频点上的第二信号能量,其中,所述第二波束形成器系数为第二固定波束形成器所对应的系数,所述第二固定波束形成器与所述第一固定波束形成器为不同的两个固定波束形成器,所述目标入射方位角表示信号抑制的方向。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述根据所述空间特征生成所述目标语音帧对应的目标控制信号,包括:
若所述空间特征小于第一门限值,则生成所述目标语音帧对应的第一控制信号,其中,所述第一控制信号表示所述目标语音帧所对应的语音输入信号属于干扰噪声,所述干扰噪声用于触发自适应波束形成器进行更新;
若所述空间特征大于第二门限值,则生成所述目标语音帧对应的第二控制信号,其中,所述第二控制信号表示所述目标语音帧所对应的语音输入信号属于目标人声,所目标人声用于触发所述自适应波束形成器进行更新;
若所述空间特征大于或等于所述第一门限值,且小于或等于所述第二门限值,则生成所述目标语音帧对应的第三控制信号,其中,所述第三控制信号表示所述目标语音帧所对应的语音输入信号属于待确定信号。
10.根据权利要求1至8中任一项所述的方法,其特征在于,所述根据所述空间特征生成所述目标语音帧对应的目标控制信号,包括:
通过神经网络模型获取所述空间特征所对应的控制信号类型;
若所述控制信号类型为第一类型,则确定所述目标控制信号为第一控制信号,其中,所述第一控制信号表示所述目标语音帧所对应的语音输入信号属于干扰噪声,所述干扰噪声用于触发自适应波束形成器进行更新;
若所述控制信号类型为第二类型,则确定所述目标控制信号为第二控制信号,其中,所述第二控制信号表示所述目标语音帧所对应的语音输入信号属于目标人声,所目标人声用于触发所述自适应波束形成器进行更新;
若所述控制信号类型为第三类型,则确定所述目标控制信号为第三控制信号,其中,所述第三控制信号表示所述目标语音帧所对应的语音输入信号属于待确定信号。
11.一种基于人工智能的语音识别方法,其特征在于,包括:
当通过麦克风阵列获取目标语音帧对应的语音输入信号时,根据所述语音输入信号获取待估计角度对应的第一信号能量,其中,所述麦克风阵列包括多个麦克风,所述待估计角度在入射方位角范围内;
根据所述目标语音帧所对应的语音输入信号以及波束形成器系数,确定所述目标语音帧对应的第二信号能量;
根据所述第一信号能量以及所述第二信号能量,确定所述待估计角度对应的空间特征;
根据所述空间特征生成所述目标语音帧对应的目标控制信号;
若所述目标控制信号为目标人声所对应的信号,则根据所述语音输入信号获取唤醒结果以及信号到达方向;
若所述唤醒结果表示唤醒成功,则根据所述信号到达方向所对应的待识别语音信号进行语音识别处理。
12.一种信号生成装置,其特征在于,包括:
获取模块,用于当通过麦克风阵列获取目标语音帧对应的语音输入信号时,根据所述语音输入信号获取待估计角度对应的第一信号能量,其中,所述麦克风阵列包括多个麦克风,所述待估计角度在入射方位角范围内;
确定模块,用于根据所述目标语音帧所对应的语音输入信号以及波束形成器系数,确定所述目标语音帧对应的第二信号能量;
所述确定模块,还用于根据所述获取模块获取的所述第一信号能量以及所述第二信号能量,确定所述待估计角度对应的空间特征;
生成模块,用于根据所述确定模块确定的所述空间特征生成所述目标语音帧对应的目标控制信号,其中,所述目标控制信号用于估计语音的方向。
13.一种语音识别装置,其特征在于,包括:
获取模块,用于当通过麦克风阵列获取目标语音帧对应的语音输入信号时,根据所述语音输入信号获取待估计角度对应的第一信号能量,其中,所述麦克风阵列包括多个麦克风,所述待估计角度在入射方位角范围内;
确定模块,用于根据所述目标语音帧所对应的语音输入信号以及波束形成器系数,确定所述目标语音帧对应的第二信号能量;
所述确定模块,还用于根据所述第一信号能量以及所述第二信号能量,确定所述待估计角度对应的空间特征;
生成模块,用于根据所述确定模块确定的所述空间特征生成所述目标语音帧对应的目标控制信号;
所述获取模块,还用于若所述生成模块生成的所述目标控制信号为目标人声所对应的信号,则根据所述语音输入信号获取唤醒结果以及信号到达方向;
识别模块,用于若所述唤醒结果表示唤醒成功,则根据所述获取模块获取的所述信号到达方向所对应的待识别语音信号进行语音识别处理。
14.一种终端设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
当通过麦克风阵列获取目标语音帧对应的语音输入信号时,根据所述语音输入信号获取待估计角度对应的第一信号能量,其中,所述麦克风阵列包括多个麦克风,所述待估计角度在入射方位角范围内;
根据所述目标语音帧所对应的语音输入信号以及波束形成器系数,确定所述目标语音帧对应的第二信号能量;
根据所述第一信号能量以及所述第二信号能量,确定所述待估计角度对应的空间特征;
根据所述空间特征生成所述目标语音帧对应的目标控制信号,其中,所述目标控制信号用于估计语音的方向;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
15.一种智能语音交互设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
当通过麦克风阵列获取目标语音帧对应的语音输入信号时,根据所述语音输入信号获取待估计角度对应的第一信号能量,其中,所述麦克风阵列包括多个麦克风,所述待估计角度在入射方位角范围内;
根据所述目标语音帧所对应的语音输入信号以及波束形成器系数,确定所述目标语音帧对应的第二信号能量;
根据所述第一信号能量以及所述第二信号能量,确定所述待估计角度对应的空间特征;
根据所述空间特征生成所述目标语音帧对应的目标控制信号;
若所述目标控制信号为目标人声所对应的信号,则根据所述语音输入信号获取唤醒结果以及信号到达方向;
若所述唤醒结果表示唤醒成功,则根据所述信号到达方向所对应的待识别语音信号进行语音识别处理;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910843381.2A CN110517702B (zh) | 2019-09-06 | 2019-09-06 | 信号生成的方法、基于人工智能的语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910843381.2A CN110517702B (zh) | 2019-09-06 | 2019-09-06 | 信号生成的方法、基于人工智能的语音识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110517702A true CN110517702A (zh) | 2019-11-29 |
CN110517702B CN110517702B (zh) | 2022-10-04 |
Family
ID=68630259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910843381.2A Active CN110517702B (zh) | 2019-09-06 | 2019-09-06 | 信号生成的方法、基于人工智能的语音识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110517702B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111798860A (zh) * | 2020-07-17 | 2020-10-20 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、设备及存储介质 |
US20210241763A1 (en) * | 2020-01-31 | 2021-08-05 | Fujitsu Limited | Storage medium, information processing method, and information processing apparatus |
CN113270108A (zh) * | 2021-04-27 | 2021-08-17 | 维沃移动通信有限公司 | 语音活动检测方法、装置、电子设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102164328A (zh) * | 2010-12-29 | 2011-08-24 | 中国科学院声学研究所 | 一种用于家庭环境的基于传声器阵列的音频输入系统 |
US20160073198A1 (en) * | 2013-03-20 | 2016-03-10 | Nokia Technologies Oy | Spatial audio apparatus |
US9532138B1 (en) * | 2013-11-05 | 2016-12-27 | Cirrus Logic, Inc. | Systems and methods for suppressing audio noise in a communication system |
CN107742522A (zh) * | 2017-10-23 | 2018-02-27 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
CN108877827A (zh) * | 2017-05-15 | 2018-11-23 | 福州瑞芯微电子股份有限公司 | 一种语音增强交互方法及系统、存储介质及电子设备 |
CN109283536A (zh) * | 2018-09-01 | 2019-01-29 | 哈尔滨工程大学 | 一种多波束测深声呐水体成像波束形成算法 |
CN109597022A (zh) * | 2018-11-30 | 2019-04-09 | 腾讯科技(深圳)有限公司 | 声源方位角运算、定位目标音频的方法、装置和设备 |
CN109697987A (zh) * | 2018-12-29 | 2019-04-30 | 苏州思必驰信息科技有限公司 | 一种外接式的远场语音交互装置及实现方法 |
US20190259381A1 (en) * | 2018-02-14 | 2019-08-22 | Cirrus Logic International Semiconductor Ltd. | Noise reduction system and method for audio device with multiple microphones |
-
2019
- 2019-09-06 CN CN201910843381.2A patent/CN110517702B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102164328A (zh) * | 2010-12-29 | 2011-08-24 | 中国科学院声学研究所 | 一种用于家庭环境的基于传声器阵列的音频输入系统 |
US20160073198A1 (en) * | 2013-03-20 | 2016-03-10 | Nokia Technologies Oy | Spatial audio apparatus |
US9532138B1 (en) * | 2013-11-05 | 2016-12-27 | Cirrus Logic, Inc. | Systems and methods for suppressing audio noise in a communication system |
CN108877827A (zh) * | 2017-05-15 | 2018-11-23 | 福州瑞芯微电子股份有限公司 | 一种语音增强交互方法及系统、存储介质及电子设备 |
CN107742522A (zh) * | 2017-10-23 | 2018-02-27 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
US20190259381A1 (en) * | 2018-02-14 | 2019-08-22 | Cirrus Logic International Semiconductor Ltd. | Noise reduction system and method for audio device with multiple microphones |
CN109283536A (zh) * | 2018-09-01 | 2019-01-29 | 哈尔滨工程大学 | 一种多波束测深声呐水体成像波束形成算法 |
CN109597022A (zh) * | 2018-11-30 | 2019-04-09 | 腾讯科技(深圳)有限公司 | 声源方位角运算、定位目标音频的方法、装置和设备 |
CN109697987A (zh) * | 2018-12-29 | 2019-04-30 | 苏州思必驰信息科技有限公司 | 一种外接式的远场语音交互装置及实现方法 |
Non-Patent Citations (3)
Title |
---|
SEON MAN KIM,ET AL.: "Direction-of-Arrival Based SNR Estimation for Dual-Microphone Speech Enhancement", 《 IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING 》 * |
曹占中等: "传声器阵列波束比判决语音增强方法", 《声学学报》 * |
王立东等: "传声器阵列空间维纳滤波语音增强方法的研究", 《电声技术》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210241763A1 (en) * | 2020-01-31 | 2021-08-05 | Fujitsu Limited | Storage medium, information processing method, and information processing apparatus |
CN111798860A (zh) * | 2020-07-17 | 2020-10-20 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、设备及存储介质 |
US12009006B2 (en) | 2020-07-17 | 2024-06-11 | Tencent Technology (Shenzhen) Company Limited | Audio signal processing method, apparatus and device, and storage medium |
CN113270108A (zh) * | 2021-04-27 | 2021-08-17 | 维沃移动通信有限公司 | 语音活动检测方法、装置、电子设备及介质 |
CN113270108B (zh) * | 2021-04-27 | 2024-04-02 | 维沃移动通信有限公司 | 语音活动检测方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110517702B (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110503969B (zh) | 一种音频数据处理方法、装置及存储介质 | |
CN110164469B (zh) | 一种多人语音的分离方法和装置 | |
CN110364145A (zh) | 一种语音识别的方法、语音断句的方法及装置 | |
CN107481718B (zh) | 语音识别方法、装置、存储介质及电子设备 | |
CN111370014B (zh) | 多流目标-语音检测和信道融合的系统和方法 | |
CN110503942A (zh) | 一种基于人工智能的语音驱动动画方法和装置 | |
CN110853617B (zh) | 一种模型训练的方法、语种识别的方法、装置及设备 | |
CN107924681A (zh) | 具有语音功能的装置之间的仲裁 | |
CN107257996A (zh) | 环境敏感自动语音识别的方法和系统 | |
CN105793923A (zh) | 本地和远程语音处理 | |
CN110517702A (zh) | 信号生成的方法、基于人工智能的语音识别方法及装置 | |
CN110570840B (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN110364156A (zh) | 语音交互方法、系统、终端及可读存储介质 | |
CN111863020B (zh) | 语音信号处理方法、装置、设备及存储介质 | |
CN112735388B (zh) | 网络模型训练方法、语音识别处理方法及相关设备 | |
CN115775564B (zh) | 音频处理方法、装置、存储介质及智能眼镜 | |
CN113611318A (zh) | 一种音频数据增强方法及相关设备 | |
CN110517677B (zh) | 语音处理系统、方法、设备、语音识别系统及存储介质 | |
US20220293118A1 (en) | Method and apparatus for noise reduction, electronic device, and storage medium | |
WO2022105571A1 (zh) | 语音增强方法、装置、设备及计算机可读存储介质 | |
CN114120984A (zh) | 语音交互方法、电子设备和存储介质 | |
CN110415718A (zh) | 信号生成的方法、基于人工智能的语音识别方法及装置 | |
US20220115007A1 (en) | User voice activity detection using dynamic classifier | |
US20210110838A1 (en) | Acoustic aware voice user interface | |
CN112201259B (zh) | 声源定位方法、装置、设备和计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |