CN114613385A - 一种远场语音降噪方法、云服务器及音频采集设备 - Google Patents
一种远场语音降噪方法、云服务器及音频采集设备 Download PDFInfo
- Publication number
- CN114613385A CN114613385A CN202210500200.8A CN202210500200A CN114613385A CN 114613385 A CN114613385 A CN 114613385A CN 202210500200 A CN202210500200 A CN 202210500200A CN 114613385 A CN114613385 A CN 114613385A
- Authority
- CN
- China
- Prior art keywords
- sound source
- audio acquisition
- audio
- azimuth angle
- acquisition equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000009467 reduction Effects 0.000 title claims abstract description 53
- 230000005236 sound signal Effects 0.000 claims abstract description 72
- 230000007613 environmental effect Effects 0.000 claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims description 89
- 230000004044 response Effects 0.000 claims description 29
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 238000000354 decomposition reaction Methods 0.000 claims description 9
- 239000000126 substance Substances 0.000 claims description 5
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
本发明公开了一种远场语音降噪方法、云服务器及音频采集设备。在调试阶段获取音频采集设备的麦克风阵列中各麦克风输出的输出信号,基于麦克风阵列中各麦克风输出的输出信号的差异,确定环境音源在空间中相对于音频采集设备的方位角,将环境音源在空间中相对于音频采集设备的方位角发送给音频采集设备,音频采集设备用于在使用阶段根据环境音源在空间中相对于音频采集设备的方位角,屏蔽来自环境音源的音频信号,提高了信噪比,提高了语音识别准确率。此外,在使用阶段,音频采集设备直接根据存储在其自身的方位角屏蔽来自环境音源的音频信号,无需将音频信号上传至云服务器,并由云服务器处理,提高了远场语音唤醒效率,且可以离线运行。
Description
技术领域
本发明属于语音降噪技术领域,尤其涉及一种远场语音降噪方法、云服务器及音频采集设备。
背景技术
远场语音识别,即远距离语音识别,在以智能家居为代表的多种领域的需求越来越明显。远场语音检测设备(例如智能音箱)在当今的家庭中变得越来越普遍。
远场语音检测设备被安装在家中,耦合到现有的家庭Wi-Fi网络,并且被放置在可能最频繁使用它们的方便位置,例如在家庭客厅或厨房中。远场语音检测设备通常收听要说出的唤醒词,例如“hey siri”,就会应答,并且捕获跟随在唤醒词之后的问题或命令。通过互联网发送到语音识别服务,语音识别服务解释问题或命令并提供响应。响应通过互联网发送回及用于引起一些可命令的动作例如开灯,播放音乐等。
但是,实际应用场景中,远场语音检测设备常常会受到一些环境音源发出的环境音的干扰,例如,电视声或音乐声等环境音,导致远场语音检测设备不能检测到唤醒词及后面的语音命令。
发明内容
本发明提供一种远场语音降噪方法、云服务器及音频采集设备,以提高语音识别准确率,实现离线运行。
第一方面,本发明提供了一种远场语音降噪方法,应用于云服务器,所述方法包括:
在调试阶段获取音频采集设备的麦克风阵列中各麦克风输出的输出信号;
基于所述麦克风阵列中各麦克风输出的输出信号的差异,确定环境音源在空间中相对于所述音频采集设备的方位角;
将所述环境音源在空间中相对于所述音频采集设备的方位角发送给所述音频采集设备,所述音频采集设备用于在使用阶段根据所述环境音源在空间中相对于所述音频采集设备的方位角,屏蔽来自所述环境音源的音频信号。
可选的,基于所述麦克风阵列中各麦克风输出的输出信号的差异,确定环境音源在空间中相对于所述音频采集设备的方位角,包括:
基于各麦克风输出的输出信号计算输出信号矩阵;
计算所述输出信号矩阵的自相关矩阵;
对所述自相关矩阵进行特征值分解,得到多个特征值;
将小于阈值的特征值组合形成特征值集合;
对所述特征值集合进行空间扩展,分别得到特征空间;
计算所述麦克风对所述环境音源的输入信号的响应在所述特征空间内最小投影方向作为环境音源在空间中相对于所述音频采集设备的方位角。
可选的,基于各麦克风输出的输出信号计算输出信号矩阵,包括:
获取所述环境音源的输入信号矩阵和各麦克风对所述环境音源的输入信号的响应矩阵;
计算所述输入信号矩阵和所述响应矩阵的乘积,得到输出信号矩阵。
可选的,采用如下公式计算所述麦克风对所述环境音源的输入信号的响应在所述特征空间内最小投影方向作为环境音源在空间中相对于所述音频采集设备的方位角:
可选的,所述环境音源的数量小于所述麦克风阵列中麦克风的数量。
第二方面,本发明还提供了一种远场语音降噪方法,应用于音频采集设备,所述方法包括:
在调试阶段通过麦克风阵列中各麦克风获取环境音源发出的声音信号,并将各麦克风接收的所述声音信号转换为输出信号发送给云服务器;
接收云服务器基于所述输出信号确定的所述环境音源在空间中相对于所述音频采集设备的方位角;
在使用阶段根据所述环境音源在空间中相对于所述音频采集设备的方位角,屏蔽来自所述环境音源的音频信号。
可选的,在使用阶段根据所述环境音源在空间中相对于所述音频采集设备的方位角,屏蔽来自所述环境音源的音频信号,包括:
根据所述环境音源在空间中相对于所述音频采集设备的方位角,设置波束成形算法中的指向角度,所述指向角度不包括所述环境音源在空间中相对于所述音频采集设备的方位角;
控制所述麦克风阵列通过所述波束成形算法按照所述指向角度指向性收取声音信号。
可选的,控制所述麦克风阵列通过所述波束成形算法按照所述指向角度指向性收取声音信号,还包括:
通过回声消除算法,消除所述声音信号的回声信号。
第三方面,本发明还提供了一种远场语音降噪装置,应用于云服务器,包括:
输出信号获取模块,用于在调试阶段获取音频采集设备的麦克风阵列中各麦克风输出的输出信号;
方位角确定模块,用于基于所述麦克风阵列中各麦克风输出的输出信号的差异,确定环境音源在空间中相对于所述音频采集设备的方位角;
方位角发送模块,用于将所述环境音源在空间中相对于所述音频采集设备的方位角发送给所述音频采集设备,所述音频采集设备用于在使用阶段根据所述环境音源在空间中相对于所述音频采集设备的方位角,屏蔽来自所述环境音源的音频信号。
可选的,方位角确定模块包括:
输出信号矩阵计算子模块,用于基于各麦克风输出的输出信号计算输出信号矩阵;
自相关矩阵计算子模块,用于计算所述输出信号矩阵的自相关矩阵;
特征分解子模块,用于对所述自相关矩阵进行特征值分解,得到多个特征值;
特征值集合确定子模块,用于将小于阈值的特征值组合形成特征值集合;
空间扩展子模块,用于对所述特征值集合进行空间扩展,分别得到特征空间;
方位角计算子模块,用于计算所述麦克风对所述环境音源的输入信号的响应在所述特征空间内最小投影方向作为环境音源在空间中相对于所述音频采集设备的方位角。
可选的,输出信号矩阵计算子模块包括:
矩阵获取单元,用于获取所述环境音源的输入信号矩阵和各麦克风对所述环境音源的输入信号的响应矩阵;
乘积单元,用于计算所述输入信号矩阵和所述响应矩阵的乘积,得到输出信号矩阵。
可选的,方位角计算子模块采用如下公式计算所述麦克风对所述环境音源的输入信号的响应在所述特征空间内最小投影方向作为环境音源在空间中相对于所述音频采集设备的方位角:
第四方面,本发明还提供了一种远场语音降噪装置,应用于音频采集设备,包括:
声音信号转换模块,在调试阶段通过麦克风阵列中各麦克风获取环境音源发出的声音信号,并将各麦克风接收的所述声音信号转换为输出信号发送给云服务器;
方位角接收模块,用于接收云服务器基于所述输出信号确定的所述环境音源在空间中相对于所述音频采集设备的方位角;
屏蔽模块,用于在使用阶段根据所述环境音源在空间中相对于所述音频采集设备的方位角,屏蔽来自所述环境音源的音频信号。
可选的,屏蔽模块包括:
指向角度设置子模块,用于根据所述环境音源在空间中相对于所述音频采集设备的方位角,设置波束成形算法中的指向角度,所述指向角度不包括所述环境音源在空间中相对于所述音频采集设备的方位角;
声音信号收取子模块,用于控制所述麦克风阵列通过所述波束成形算法按照所述指向角度指向性收取声音信号。
可选的,声音信号收取子模块还包括:
回声消除单元,用于通过回声消除算法,消除所述声音信号的回声信号。
第五方面,本发明还提供了一种云服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明第一方面提供的远场语音降噪方法。
第六方面,本发明还提供了一种音频采集设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明第二方面提供的远场语音降噪方法。
第七方面,本发明还提供了计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明第一方面或第二方面提供的远场语音降噪方法。
本发明提供的远场语音降噪方法,应用于云服务器,在调试阶段获取音频采集设备的麦克风阵列中各麦克风输出的输出信号,基于麦克风阵列中各麦克风输出的输出信号的差异,确定环境音源在空间中相对于音频采集设备的方位角,将环境音源在空间中相对于音频采集设备的方位角发送给音频采集设备,音频采集设备用于在使用阶段根据环境音源在空间中相对于音频采集设备的方位角,屏蔽来自环境音源的音频信号,提高了信噪比,提高了语音识别准确率。此外,在使用阶段,音频采集设备直接根据存储在其自身的方位角屏蔽来自环境音源的音频信号,无需将音频信号上传至云服务器,并由云服务器处理,提高了远场语音唤醒效率,且可以离线运行。
附图说明
图1为本发明实施例一提供的一种远场语音降噪方法的流程图;
图2为本发明实施例二提供的一种远场语音降噪方法的流程图;
图3为本发明实施例三提供的一种远场语音降噪装置的结构示意图;
图4为本发明实施例四提供的一种远场语音降噪装置的结构示意图;
图5为本发明实施例五提供的一种云服务器的结构示意图;
图6为本发明实施例六提供的一种音频采集设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种远场语音降噪方法的流程图,本实施例可适用于远场语音识别时,对采集的语音信号进行降噪的情况,该方法可以由本发明实施例提供的远场语音降噪装置来执行,该装置可以由软件和/或硬件的方式实现,通常配置于云服务器中,如图1所示,该方法具体包括如下步骤:
S101、在调试阶段获取音频采集设备的麦克风阵列中各麦克风输出的输出信号。
在本发明实施例中,调试阶段可以是用户初次安装音频采集设备的过程中。音频采集设备可以是具有语音采集功能的智能语音助手,例如,智能音箱,本发明实施例在此不做限定。音频采集设备设置有麦克风阵列,麦克风阵列包括朝向不同方向的多个麦克风。环境音源即为在空间(例如客厅)中产生声音的对象,例如,常见的电视机、音箱等发声电子设备。本发明实施例中,环境音源可以是一个或两个以上,本发明实施例在此不做限定。
环境音源产生的声音信号传播至音频采集设备,被音频采集设备的麦克风阵列捕捉到,麦克风阵列中每一麦克风将捕捉到的声音信号转换为输出信号(电信号),并发送给云服务器。由于每一麦克风的朝向是不同的,因此,每一麦克风输出的输出信号也会有差异。
S102、基于麦克风阵列中各麦克风输出的输出信号的差异,确定环境音源在空间中相对于音频采集设备的方位角。
在本发明实施例中,如前文所述,由于每一麦克风的朝向是不同的,因此,每一麦克风输出的输出信号也会有差异。云服务器基于麦克风阵列中各麦克风输出的输出信号的差异,确定环境音源在空间中相对于音频采集设备的方位角。
示例性的,在本发明的一些实施例中,基于麦克风阵列中各麦克风输出的输出信号的差异,确定环境音源在空间中相对于音频采集设备的方位角,可以包括如下步骤:
1、基于各麦克风输出的输出信号计算输出信号矩阵。
示例性的,获取环境音源的输入信号矩阵S和各麦克风对环境音源的输入信号的响应矩阵A。其中,环境音源的输入信号矩阵S为多个环境音源产生的输入信号形成的矩阵,响应矩阵A为所有麦克风对各环境音源的输入信号的响应形成的矩阵。
计算输入信号矩阵S和响应矩阵A的乘积,得到输出信号矩阵X。在本发明的一些实施例中,为了抑制白噪声对远场语音检测的影响,输出信号矩阵X还可以包括白噪声矩阵,即在输入信号矩阵S和响应矩阵A的乘积的基础上加上白噪声矩阵。
2、计算输出信号矩阵的自相关矩阵。
自相关矩阵的计算公式为:
3、对自相关矩阵进行特征值分解,得到多个特征值。
特征分解(Eigen decomposition),又称谱分解(Spectral decomposition)是将矩阵分解为由其特征值表示的矩阵之积的方法。
自相关矩阵R为一个N×N的矩阵,且有 N 个线性无关的特征向量,其中,N为麦克风阵列中麦克风的数量。自相关矩阵R可以被分解为:
4、将小于阈值的特征值组合形成特征值集合。
在自相关矩阵R的特征值中,一些特征值相对较大,对应于目标声音(即用户的声音)的功率,另一些特征值相对较小,对应于环境音(噪声)的功率。本发明实施例中,将小于阈值的特征值,即对应于环境音(噪声)的功率的特征值,组合形成特征值集合。
5、对特征值集合进行空间扩展,分别得到特征空间。
在本发明实施例中,对特征值集合进行空间扩展,将特征值集合扩展为N×(N-D)维,其中,D为麦克风的数量。
6、计算麦克风对环境音源的输入信号的响应在特征空间内最小投影方向作为环境音源在空间中相对于音频采集设备的方位角。
在本发明实施例中,采用Multiple Signal Classification算法计算环境音源在空间中相对于音频采集设备的方位角。具体的,计算公式如下:
S103、将环境音源在空间中相对于音频采集设备的方位角发送给音频采集设备,音频采集设备用于在使用阶段根据环境音源在空间中相对于音频采集设备的方位角,屏蔽来自环境音源的音频信号。
在确定环境音源在空间中相对于音频采集设备的方位角之后,将环境音源在空间中相对于音频采集设备的方位角发送给音频采集设备。音频采集设备将环境音源在空间中相对于音频采集设备的方位角存储在其内部的存储器中。在使用阶段,音频采集设备根据环境音源在空间中相对于音频采集设备的方位角,屏蔽来自环境音源的音频信号,从而提高了用户发出的音频信号与环境音频信号的信噪比,提高了语音识别准确率。
本发明实施例提供的远场语音降噪方法,应用于云服务器,在调试阶段获取音频采集设备的麦克风阵列中各麦克风输出的输出信号,基于麦克风阵列中各麦克风输出的输出信号的差异,确定环境音源在空间中相对于音频采集设备的方位角,将环境音源在空间中相对于音频采集设备的方位角发送给音频采集设备,音频采集设备用于在使用阶段根据环境音源在空间中相对于音频采集设备的方位角,屏蔽来自环境音源的音频信号,提高了信噪比,提高了语音识别准确率。此外,在使用阶段,音频采集设备直接根据存储在其自身的方位角屏蔽来自环境音源的音频信号,无需将音频信号上传至云服务器,并由云服务器处理,提高了远场语音唤醒效率,且可以离线运行。
实施例二
图2为本发明实施例二提供的一种远场语音降噪方法的流程图,本实施例可适用于远场语音识别时,对采集的语音信号进行降噪的情况,该方法可以由本发明实施例提供的远场语音降噪装置来执行,该装置可以由软件和/或硬件的方式实现,通常配置于音频采集设备中,如图2所示,该方法具体包括如下步骤:
S201、在调试阶段通过麦克风阵列中各麦克风获取环境音源发出的声音信号,并将各麦克风接收的声音信号转换为输出信号发送给云服务器。
在本发明实施例中,环境音源产生的声音信号传播至音频采集设备,被音频采集设备的麦克风阵列捕捉到,麦克风阵列中每一麦克风将捕捉到的声音信号转换为输出信号(电信号),并发送给云服务器。由于每一麦克风的朝向是不同的,因此,每一麦克风输出的输出信号也会有差异。
S202、接收云服务器基于输出信号确定的环境音源在空间中相对于音频采集设备的方位角。
云服务器基于麦克风阵列中各麦克风输出的输出信号的差异,确定环境音源在空间中相对于音频采集设备的方位角。具体的,计算方位角的过程在前述实施例中已有详细记载,本发明实施例在此不再赘述。
在确定环境音源在空间中相对于音频采集设备的方位角之后,云服务器将环境音源在空间中相对于音频采集设备的方位角发送给音频采集设备。音频采集设备接收云服务器基于输出信号确定的环境音源在空间中相对于音频采集设备的方位角,并存储在自身的存储器中。
S203、在使用阶段根据环境音源在空间中相对于音频采集设备的方位角,屏蔽来自环境音源的音频信号。
在本发明实施例中,在使用阶段,根据环境音源在空间中相对于音频采集设备的方位角,屏蔽来自该方向的音频信号,即环境音源的音频信号。
示例性的,在使用阶段根据环境音源在空间中相对于音频采集设备的方位角,屏蔽来自环境音源的音频信号,包括:
1、根据环境音源在空间中相对于音频采集设备的方位角,设置波束成形算法中的指向角度,指向角度不包括环境音源在空间中相对于音频采集设备的方位角。
在本发明实施例中,音频采集设备可以根据环境音源在空间中相对于音频采集设备的方位角,设置波束成形算法中的指向角度,指向角度不包括环境音源在空间中相对于音频采集设备的方位角。即,朝向环境音源以外的方向进行指向性收音,进而屏蔽来自环境音源的音频信号。波束成形算法通过对多个麦克风接收到的各路信号进行加权合成,形成所需的理想信号。从麦克风方向图(pattern)视角来看,这样做相当于形成了规定指向上的波束。例如,将原来全方位的接收方向图转换成了有零点、有最大指向的波瓣方向图。
2、控制麦克风阵列通过波束成形算法按照指向角度指向性收取声音信号。
在本发明实施例中,控制麦克风阵列通过波束成形算法按照指向角度指向性收取声音信号,朝向环境音源以外的方向进行指向性收音,进而屏蔽来自环境音源的音频信号。
封闭空间(例如,客厅)中,往往存在声音信号经墙壁反射,产生回声的情况。在本发明的一些实施例中,为了消除声音信号的回声信号在控制麦克风阵列通过波束成形算法按照指向角度指向性收取声音信号的同时,还包括:
通过回声消除算法,消除声音信号的回声信号。
本发明实施例提供的远场语音降噪方法,应用于音频采集设备,在调试阶段通过麦克风阵列中各麦克风获取环境音源发出的声音信号,并将各麦克风接收的声音信号转换为输出信号发送给云服务器,接收云服务器基于输出信号确定的环境音源在空间中相对于音频采集设备的方位角,在使用阶段根据环境音源在空间中相对于音频采集设备的方位角,屏蔽来自环境音源的音频信号,提高了信噪比,提高了语音识别准确率。此外,在使用阶段,音频采集设备直接根据存储在其自身的方位角屏蔽来自环境音源的音频信号,无需将音频信号上传至云服务器,并由云服务器处理,提高了远场语音唤醒效率,且可以离线运行。
实施例三
图3为本发明实施例三提供的一种远场语音降噪装置的结构示意图,应用于云服务器,如图3所示,该装置包括:
输出信号获取模块301,用于在调试阶段获取音频采集设备的麦克风阵列中各麦克风输出的输出信号;
方位角确定模块302,用于基于所述麦克风阵列中各麦克风输出的输出信号的差异,确定环境音源在空间中相对于所述音频采集设备的方位角;
方位角发送模块303,用于将所述环境音源在空间中相对于所述音频采集设备的方位角发送给所述音频采集设备,所述音频采集设备用于在使用阶段根据所述环境音源在空间中相对于所述音频采集设备的方位角,屏蔽来自所述环境音源的音频信号。
在本发明的一些实施例中,方位角确定模块302包括:
输出信号矩阵计算子模块,用于基于各麦克风输出的输出信号计算输出信号矩阵;
自相关矩阵计算子模块,用于计算所述输出信号矩阵的自相关矩阵;
特征分解子模块,用于对所述自相关矩阵进行特征值分解,得到多个特征值;
特征值集合确定子模块,用于将小于阈值的特征值组合形成特征值集合;
空间扩展子模块,用于对所述特征值集合进行空间扩展,分别得到特征空间;
方位角计算子模块,用于计算所述麦克风对所述环境音源的输入信号的响应在所述特征空间内最小投影方向作为环境音源在空间中相对于所述音频采集设备的方位角。
在本发明的一些实施例中,输出信号矩阵计算子模块包括:
矩阵获取单元,用于获取所述环境音源的输入信号矩阵和各麦克风对所述环境音源的输入信号的响应矩阵;
乘积单元,用于计算所述输入信号矩阵和所述响应矩阵的乘积,得到输出信号矩阵。
在本发明的一些实施例中,方位角计算子模块采用如下公式计算所述麦克风对所述环境音源的输入信号的响应在所述特征空间内最小投影方向作为环境音源在空间中相对于所述音频采集设备的方位角:
上述远场语音降噪装置可执行本发明任意实施例所提供的远场语音降噪方法,具备执行远场语音降噪方法相应的功能模块和有益效果。
实施例四
图4为本发明实施例四提供的一种远场语音降噪装置的结构示意图,应用于音频采集设备,如图4所示,该装置包括:
声音信号转换模块401,在调试阶段通过麦克风阵列中各麦克风获取环境音源发出的声音信号,并将各麦克风接收的所述声音信号转换为输出信号发送给云服务器;
方位角接收模块402,用于接收云服务器基于所述输出信号确定的所述环境音源在空间中相对于所述音频采集设备的方位角;
屏蔽模块403,用于在使用阶段根据所述环境音源在空间中相对于所述音频采集设备的方位角,屏蔽来自所述环境音源的音频信号。
在本发明的一些实施例中,屏蔽模块403包括:
指向角度设置子模块,用于根据所述环境音源在空间中相对于所述音频采集设备的方位角,设置波束成形算法中的指向角度,所述指向角度不包括所述环境音源在空间中相对于所述音频采集设备的方位角;
声音信号收取子模块,用于控制所述麦克风阵列通过所述波束成形算法按照所述指向角度指向性收取声音信号。
在本发明的一些实施例中,声音信号收取子模块还包括:
回声消除单元,用于通过回声消除算法,消除所述声音信号的回声信号。
上述远场语音降噪装置可执行本发明任意实施例所提供的远场语音降噪方法,具备执行远场语音降噪方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种云服务器的结构示意图,如图5所示,云服务器包括处理器501、存储器502、通信模块503、输入装置504和输出装置505;云服务器中处理器501的数量可以是一个或多个,图5中以一个处理器501为例;云服务器中的处理器501、存储器502、通信模块503、输入装置504和输出装置505可以通过总线或其他方式连接,图5中以通过总线连接为例。上述处理器501、存储器502、通信模块503、输入装置504和输出装置505可以集成在云服务器的控制主板上。
存储器502作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本实施例中的远场语音降噪方法对应的模块。处理器501通过运行存储在存储器502中的软件程序、指令以及模块,从而执行云服务器的各种功能应用以及数据处理,即实现上述实施例提供的远场语音降噪方法。
存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据云服务器的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器502可进一步包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至云服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信模块503,用于与外界设备(例如智能终端)建立连接,并实现与外界设备的数据交互。输入装置504可用于接收输入的数字或字符信息,以及产生与云服务器的用户设置以及功能控制有关的键信号输入。
本实施例提供的一种云服务器,可执行本发明上述实施例一提供的远场语音降噪方法,具体相应的功能和有益效果。
实施例六
图6为本发明实施例六提供的一种音频采集设备的结构示意图,如图6所示,音频采集设备包括处理器601、存储器602、通信模块603、输入装置604和输出装置605;音频采集设备中处理器601的数量可以是一个或多个,图6中以一个处理器601为例;音频采集设备中的处理器601、存储器602、通信模块603、输入装置604和输出装置605可以通过总线或其他方式连接,图6中以通过总线连接为例。上述处理器601、存储器602、通信模块603、输入装置604和输出装置605可以集成在音频采集设备的控制主板上。
存储器602作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本实施例中的远场语音降噪方法对应的模块。处理器601通过运行存储在存储器602中的软件程序、指令以及模块,从而执行音频采集设备的各种功能应用以及数据处理,即实现上述实施例提供的远场语音降噪方法。
存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据音频采集设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器602可进一步包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至音频采集设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信模块603,用于与外界设备(例如智能终端)建立连接,并实现与外界设备的数据交互。输入装置604可用于接收输入的数字或字符信息,以及产生与音频采集设备的用户设置以及功能控制有关的键信号输入。
本实施例提供的一种音频采集设备,可执行本发明上述实施例二提供的远场语音降噪方法,具体相应的功能和有益效果。
实施例七
本发明实施例七提供了一种包含计算机可执行指令的存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明上述任意实施例提供的远场语音降噪方法,该方法包括:
在调试阶段获取音频采集设备的麦克风阵列中各麦克风输出的输出信号;
基于所述麦克风阵列中各麦克风输出的输出信号的差异,确定环境音源在空间中相对于所述音频采集设备的方位角;
将所述环境音源在空间中相对于所述音频采集设备的方位角发送给所述音频采集设备,所述音频采集设备用于在使用阶段根据所述环境音源在空间中相对于所述音频采集设备的方位角,屏蔽来自所述环境音源的音频信号。
或,该方法包括:
在调试阶段通过麦克风阵列中各麦克风获取环境音源发出的声音信号,并将各麦克风接收的所述声音信号转换为输出信号发送给云服务器;
接收云服务器基于所述输出信号确定的所述环境音源在空间中相对于所述音频采集设备的方位角;
在使用阶段根据所述环境音源在空间中相对于所述音频采集设备的方位角,屏蔽来自所述环境音源的音频信号。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明实施例所提供的远场语音降噪方法中的相关操作。
需要说明的是,对于装置、云服务器、音频采集设备和存储介质实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(RandomAccess Memory, RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台移动终端(可以是机器人,个人计算机,服务器,或者网络设备等)执行本发明任意实施例所述的远场语音降噪方法。
值得注意的是,上述装置中,所包括的各个模块、子模块、单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种远场语音降噪方法,其特征在于,应用于云服务器,所述方法包括:
在调试阶段获取音频采集设备的麦克风阵列中各麦克风输出的输出信号;
基于所述麦克风阵列中各麦克风输出的输出信号的差异,确定环境音源在空间中相对于所述音频采集设备的方位角;
将所述环境音源在空间中相对于所述音频采集设备的方位角发送给所述音频采集设备,所述音频采集设备用于在使用阶段根据所述环境音源在空间中相对于所述音频采集设备的方位角,屏蔽来自所述环境音源的音频信号。
2.根据权利要求1所述的远场语音降噪方法,其特征在于,基于所述麦克风阵列中各麦克风输出的输出信号的差异,确定环境音源在空间中相对于所述音频采集设备的方位角,包括:
基于各麦克风输出的输出信号计算输出信号矩阵;
计算所述输出信号矩阵的自相关矩阵;
对所述自相关矩阵进行特征值分解,得到多个特征值;
将小于阈值的特征值组合形成特征值集合;
对所述特征值集合进行空间扩展,分别得到特征空间;
计算所述麦克风对所述环境音源的输入信号的响应在所述特征空间内最小投影方向作为环境音源在空间中相对于所述音频采集设备的方位角。
3.根据权利要求2所述的远场语音降噪方法,其特征在于,基于各麦克风输出的输出信号计算输出信号矩阵,包括:
获取所述环境音源的输入信号矩阵和各麦克风对所述环境音源的输入信号的响应矩阵;
计算所述输入信号矩阵和所述响应矩阵的乘积,得到输出信号矩阵。
5.根据权利要求1-4任一所述的远场语音降噪方法,其特征在于,所述环境音源的数量小于所述麦克风阵列中麦克风的数量。
6.一种远场语音降噪方法,其特征在于,应用于音频采集设备,所述方法包括:
在调试阶段通过麦克风阵列中各麦克风获取环境音源发出的声音信号,并将各麦克风接收的所述声音信号转换为输出信号发送给云服务器;
接收云服务器基于所述输出信号确定的所述环境音源在空间中相对于所述音频采集设备的方位角;
在使用阶段根据所述环境音源在空间中相对于所述音频采集设备的方位角,屏蔽来自所述环境音源的音频信号。
7.根据权利要求6所述的远场语音降噪方法,其特征在于,在使用阶段根据所述环境音源在空间中相对于所述音频采集设备的方位角,屏蔽来自所述环境音源的音频信号,包括:
根据所述环境音源在空间中相对于所述音频采集设备的方位角,设置波束成形算法中的指向角度,所述指向角度不包括所述环境音源在空间中相对于所述音频采集设备的方位角;
控制所述麦克风阵列通过所述波束成形算法按照所述指向角度指向性收取声音信号。
8.根据权利要求7所述的远场语音降噪方法,其特征在于,控制所述麦克风阵列通过所述波束成形算法按照所述指向角度指向性收取声音信号,还包括:
通过回声消除算法,消除所述声音信号的回声信号。
9.一种云服务器,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的远场语音降噪方法。
10.一种音频采集设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求6-8中任一所述的远场语音降噪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210500200.8A CN114613385A (zh) | 2022-05-07 | 2022-05-07 | 一种远场语音降噪方法、云服务器及音频采集设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210500200.8A CN114613385A (zh) | 2022-05-07 | 2022-05-07 | 一种远场语音降噪方法、云服务器及音频采集设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114613385A true CN114613385A (zh) | 2022-06-10 |
Family
ID=81869851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210500200.8A Pending CN114613385A (zh) | 2022-05-07 | 2022-05-07 | 一种远场语音降噪方法、云服务器及音频采集设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114613385A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778102A (zh) * | 2014-01-15 | 2014-05-07 | 河南科技大学 | 基于干扰噪声矩阵重构的自适应波束形成方法 |
CN103811020A (zh) * | 2014-03-05 | 2014-05-21 | 东北大学 | 一种智能语音处理方法 |
CN104254819A (zh) * | 2012-05-11 | 2014-12-31 | 高通股份有限公司 | 音频用户交互辨识和上下文精炼 |
CN110517701A (zh) * | 2019-07-25 | 2019-11-29 | 华南理工大学 | 一种麦克风阵列语音增强方法及实现装置 |
CN113362846A (zh) * | 2021-06-29 | 2021-09-07 | 辽宁工业大学 | 一种基于广义旁瓣相消结构的语音增强方法 |
-
2022
- 2022-05-07 CN CN202210500200.8A patent/CN114613385A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104254819A (zh) * | 2012-05-11 | 2014-12-31 | 高通股份有限公司 | 音频用户交互辨识和上下文精炼 |
CN103778102A (zh) * | 2014-01-15 | 2014-05-07 | 河南科技大学 | 基于干扰噪声矩阵重构的自适应波束形成方法 |
CN103811020A (zh) * | 2014-03-05 | 2014-05-21 | 东北大学 | 一种智能语音处理方法 |
CN110517701A (zh) * | 2019-07-25 | 2019-11-29 | 华南理工大学 | 一种麦克风阵列语音增强方法及实现装置 |
CN113362846A (zh) * | 2021-06-29 | 2021-09-07 | 辽宁工业大学 | 一种基于广义旁瓣相消结构的语音增强方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109599124B (zh) | 一种音频数据处理方法、装置及存储介质 | |
CN110491403B (zh) | 音频信号的处理方法、装置、介质和音频交互设备 | |
CN107577449B (zh) | 唤醒语音的拾取方法、装置、设备及存储介质 | |
US7415117B2 (en) | System and method for beamforming using a microphone array | |
US20210219053A1 (en) | Multiple-source tracking and voice activity detections for planar microphone arrays | |
Ryan et al. | Array optimization applied in the near field of a microphone array | |
KR102261905B1 (ko) | 음장 기술을 생성하기 위한 장치, 방법, 또는 컴퓨터 프로그램 | |
US9521486B1 (en) | Frequency based beamforming | |
CN102447993A (zh) | 声音场景操纵 | |
CN105165026A (zh) | 使用多个瞬时到达方向估计的知情空间滤波的滤波器及方法 | |
WO2008121905A2 (en) | Enhanced beamforming for arrays of directional microphones | |
CN112735461B (zh) | 拾音方法以及相关装置、设备 | |
CN109270493B (zh) | 声源定位方法和装置 | |
CN110660404B (zh) | 基于零陷滤波预处理的语音通信和交互应用系统、方法 | |
CN111681665A (zh) | 一种全向降噪方法、设备及存储介质 | |
Pu et al. | A penalized inequality-constrained minimum variance beamformer with applications in hearing aids | |
Chen et al. | Planar array geometry optimization for region sound acquisition | |
CN114613385A (zh) | 一种远场语音降噪方法、云服务器及音频采集设备 | |
Sun et al. | Robust spherical microphone array beamforming with multi-beam-multi-null steering, and sidelobe control | |
CN113223552B (zh) | 语音增强方法、装置、设备、存储介质及程序 | |
CN111462743B (zh) | 一种语音信号处理方法及装置 | |
CN112466305B (zh) | 饮水机的语音控制方法及装置 | |
Levin et al. | Robust beamforming using sensors with nonidentical directivity patterns | |
US11895478B2 (en) | Sound capture device with improved microphone array | |
CN115884038A (zh) | 音频采集方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220610 |
|
RJ01 | Rejection of invention patent application after publication |