CN106340305B - 自校准的远场语音交互设备及远场语音自校准方法 - Google Patents

自校准的远场语音交互设备及远场语音自校准方法 Download PDF

Info

Publication number
CN106340305B
CN106340305B CN201610974245.3A CN201610974245A CN106340305B CN 106340305 B CN106340305 B CN 106340305B CN 201610974245 A CN201610974245 A CN 201610974245A CN 106340305 B CN106340305 B CN 106340305B
Authority
CN
China
Prior art keywords
far
voice
module
field
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610974245.3A
Other languages
English (en)
Other versions
CN106340305A (zh
Inventor
陈日林
冯大航
陈孝良
常乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN201610974245.3A priority Critical patent/CN106340305B/zh
Publication of CN106340305A publication Critical patent/CN106340305A/zh
Application granted granted Critical
Publication of CN106340305B publication Critical patent/CN106340305B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供了一种自校准的远场语音交互设备及远场语音自校准方法,麦克风阵列采集远场语音信号,自校准和语音识别终端对由麦克风通道增益和信号传播衰减引起的误差进行校准,得到增强语音输出。本发明利用通道增益校准的方式,保证各个麦克风通道相对增益一致,提高了后端GSC的性能;采用语音段作为校准声源,后续处理保证语音损伤较小,有利于目标信号的消除和噪声干扰信号的保留;还可以自动判断麦克风工作状态,能够保证在麦克风损坏情况下,设备仍然能够正常工作,提高了设备的稳健性。

Description

自校准的远场语音交互设备及远场语音自校准方法
技术领域
本发明总体上涉及语音处理技术领域,尤其涉及自校准的远场语音交互设备及远场语音自校准方法。
背景技术
麦克风阵列技术近几十年来受到了研究者的广泛关注,特别是最近几年来
受到人工智能繁荣发展的驱动,远场语音识别技术得到更大的关注,对作为远场语音识别前端的麦克风阵列技术提出了更大的要求。目前针对远场语音识别的主要方法包括MVDR(Minimum Variance Distortionless Response,最小方差无畸变响应)和多通道维纳滤波方法,不管哪一种方法都是进行了远场假设,通常认为通道到达每个麦克风的幅度一致,只是声波到达时间不同,但实际中通常不同通道麦克风增益不同,同时由于距离衰减等因素造成幅度差异,因此需要对麦克风增益及信号幅度衰减进行补偿,才能保证算法性能。同时上述算法都需要明确麦克风的准确位置,大量方法与研究也是基于麦克风准确位置设计的,并且所有麦克风都能正常工作,极端情况下,一旦麦克风无法正常录音工作,将导致算法性能急剧下降,在实际产品应用中,麦克风位置通常是已知的,但在使用过程中很难保证其中的某个麦克风发生问题,无法正常录音,这种情形下需要剔除问题麦克风,此时原有的麦克风位置信息需要更新,为保证阵列算法仍然能够正常工作,此时需要校准确定正常麦克风阵列构成的新麦克风阵列及其相关信息。
现有技术对麦克风信号的校准,通常采用大型校准设备在专用的实验室内完成,非常费时费力,并不适用于消费电子。例如,现有技术一(CN200810213962,一种麦克风阵列及麦克风阵列校准的方法和模块)采用静默期的背景噪声作为校准声源,计算不同通道的增益,调整不同通道到相同增益。该技术方案采用静默期的相干性较低的背景噪声作为校准声源,麦克风接收信号的信噪比较低,校准误差较大,同时只考虑麦克风自身的增益,没有考虑传播衰减等造成的幅度误差,特别对于远场情形下,各麦克风的语音信号之间仍然存在较大幅度误差,不适合于麦克风阵列信号处理。
现有技术二“Robust speech recognition using beamforming with adaptivemicrophone gains and multichannel noise reduction”采用语音段信号作为校准声源,计算不同通道的增益。该技术方案一方面在增益计算中没有剔出噪声的影响,噪声增益计算不准确,另一方面对于极端情况,即麦克风损坏无法正常工作的情形下,针对麦克风阵列没有提出解决方案。
发明内容
(一)要解决的技术问题
本发明提供了一种自校准的远场语音交互设备及远场语音自校准方法。
(二)技术方案
本发明提供了一种自校准的远场语音交互设备,包括:麦克风阵列与自校准和语音识别终端,所述麦克风阵列与所述自校准和语音识别终端电性连接;所述麦克风阵列采集远场语音信号,并将所述远场语音信号传输至所述自校准和语音识别终端,其中,所述远场语音信号包含由麦克风通道增益和信号传播衰减引起的误差;所述自校准和语音识别终端对所述误差进行校准,得到增强语音输出。
本发明还提供了一种远场语音交互设备的自校准方法,包括:采集步骤:采集远场语音信号;校准步骤:对远场语音信号的由麦克风通道增益和信号传播衰减引起的误差进行校准;处理步骤:对校准后的远场语音信号进行处理,得到增强语音输出。
(三)有益效果
从上述技术方案可以看出,本发明的自校准的远场语音交互设备及远场语音自校准方法具有以下有益效果:
(1)利用通道增益校准的方式,保证各个麦克风通道相对增益一致,使得进入GSC的各个通道期望目标信号幅度一致,提高了后端GSC的性能;
(2)采用语音段作为校准声源,不仅有利于固定波束形成,同时对于阻塞矩阵模块,当语音段幅度保持一致时,阻塞矩阵模块处理后残留的语音段较少,后续处理保证语音损伤较小,有利于目标信号消除,而保留噪声或者干扰信号;
(3)还可以自动判断麦克风工作状态,能够保证在麦克风损坏情况下,设备仍然能够正常工作,提高了设备的稳健性。
附图说明
为了更完整地理解本发明及其优势,现在将参考结合附图的以下描述,其中:
图1为本发明实施例的自校准的远场语音交互设备的整体结构图;
图2为本发明实施例的自校准的远场语音交互设备的结构示意图;
图3为本发明另一实施例的自校准的远场语音交互设备的结构示意图;
图4为本发明又一实施例的自校准的远场语音交互设备的结构示意图;
图5为本发明再一实施例的自校准的远场语音交互设备的整体结构图;
图6为本发明实施例的远场语音自校准方法的流程图。
【符号说明】
10-麦克风阵列;
20-自校准和语音识别终端;
21-语音活动检测模块;22-相对增益计算模块;23-增益校准模块;24-固定波束形成参数校准模块;25-信噪比计算模块;
31-固定波束形成模块;32-阻塞矩阵模块;33-自适应噪声抵消模块;34-增强语音输出;
35-语音段判定模块;
40-控制端。
具体实施方式
根据结合附图对本发明示例性实施例的以下详细描述,本发明的其它方面、优势和突出特征对于本领域技术人员将变得显而易见。
在本发明中,术语“包括”和“含有”及其派生词意为包括而非限制;术语“或”是包含性的,意为和/或。
在本说明书中,下述用于描述本发明原理的各种实施例只是说明,不应该以任何方式解释为限制发明的范围。参照附图的下述描述用于帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例。下述描述包括多种具体细节来帮助理解,但这些细节应认为仅仅是示例性的。因此,本领域普通技术人员应认识到,在不背离本发明的范围和精神的情况下,可以对本文中描述的实施例进行多种改变和修改。此外,为了清楚和简洁起见,省略了公知功能和结构的描述。此外,贯穿附图,相同参考数字用于相似功能和操作。
语音信号的校准,目标包含麦克风自身增益差异和由传播衰减等造成的幅度衰减构成的误差,这些误差将造成远场语音增强性能下降。极端情况下,麦克风的损坏将使得远场语音增强完全失效。因此,本发明不但对麦克风的误差进行校准,同时也对麦克风阵列进行校准,使得远场语音增强在某个麦克风损坏情形下仍然能够正常工作。
本发明实施例的一种远场语音交互设备,参见图1,其带有自校准功能,该远场语音交互设备包括:麦克风阵列10、与自校准和语音识别终端20,麦克风阵列10与自校准和语音识别终端20电性连接。
自校准和语音识别终端20包括:自校准模块和广义旁瓣对消器(GSC,GeneralSidelobe Cancellation),麦克风阵列10连接自校准模块,自校准模块连接GSC,其中,
麦克风阵列10采集远场语音信号,并将远场语音信号传输至自校准模块,自校准模块对远场语音信号的由麦克风通道增益和信号传播衰减引起的误差进行校准,并且检测麦克风阵列的工作状态,校准固定波束形成(FBF,Fixed Beamforming)参数,校准后的远场语音信号传输至GSC,GSC利用校准后的FBF参数对校准后的远场语音信号进行处理,得到增强语音输出34。
麦克风阵列10是由多个麦克风组成的封闭式阵列,在图1中,麦克风阵列包括4个麦克风(mic1、mic2、mic3、mic4),但麦克风的数量可以根据需要设置,例如大于等于5个,麦克风阵列的形状可以是矩形、圆形、椭圆形等。麦克风阵列的各个麦克风用于采集原始的远场语音信号,由于各个麦克风的通道增益有所差异,使得远场语音信号经过麦克风阵列10后,各个麦克风输出的远场语音信号之间存在幅度差异;另外由于远场语音信号是由音源传播到麦克风阵列10的,由于远场语音信号在传播过程中存在衰减,到达各个麦克风的远场语音信号之间也会存在由传播衰减引起的幅度差异。同时,麦克风阵列10也可能存在损坏的麦克风,麦克风无法正常工作的情况,如果不能及时检测并更新FBF参数,也将会影响语音增强的效果。上述由麦克风通道增益和信号传播衰减引起的幅度差异、以及FBF参数将由自校准模块进行校准。
自校准和语音识别终端20可以采用计算机、服务器等具有数据处理能力的设备。参见图2,自校准模块包括:语音活动检测(VAD)模块21、相对增益计算模块22、增益校准模块23和固定波束形成参数校准模块24。
其中,VAD模块21从麦克风阵列10中选取一个麦克风通道作为参考通道,利用该参考通道对远场语音信号进行检测,提取远场语音信号中的语音段,采用语音段作为校准声源进行后续的校准。
相对增益计算模块22利用语音段计算麦克风阵列10中的其他麦克风通道相对于参考通道的相对增益。
增益校准模块23根据相对增益,将其他麦克风通道的语音段调整到参考通道的增益水平,从而消除麦克风通道增益和信号传播衰减引起的幅度差异,得到校准后的远场语音信号。
FBF参数校准模块24根据相对增益,检测无法正常工作的麦克风,据此更新FBF参数,得到校准后的FBF参数。
其中,VAD模块21可以选取麦克风阵列10中的任一个麦克风作为参考通道,以下以4个麦克风通道为例,说明如何计算相对增益和校准远场语音信号。
4个麦克风通道的语音段当前帧信号分别为s1(t),s2(t),s3(t),s4(t),其频域信号分别为S1(jω),S2(jω),S3(jω),S4(jω),选择第1个麦克风通道作为参考通道。
通过下述滤波器计算其他3个通道的相对增益,滤波器如下:
其中,μ是一限制系数,其限制了相对增益的最小值,保证相对增益不过大;α是一阶平滑因子,n(n=2,3,4…)为信号帧序号,Pxx、Pxy分别为帧信号的自功率谱和互功率谱;表示二阶范数,Pnn为噪声功率谱,可以参考现有的各种不同的方法计算获得,其中Pxx(jω,1)、Pxy(jω,1)的初值可以设定为第一帧语音的功率谱及互功率普。
因此校准后的各个麦克风通道的远场语音信号为:
虽然以上以4个麦克风通道为例,说明如何计算相对增益和校准远场语音信号,但显然上述方式同样适用于2个、3个或大于等于5个麦克风组成的麦克风阵列。
FBF参数校准模块24根据各个通道的相对增益判断是否存在无法正常工作的麦克风,具体包括:
如果各个麦克风通道的相对增益接近,且均大于一相对增益阈值,则判断参考通道对应的麦克风为无法正常工作的麦克风;
如果某个麦克风通道的相对增益与其他麦克风通道的相对增益相差较大,且该麦克风通道的相对增益小于一相对增益阈值,则判断该麦克风通道对应的麦克风无法正常工作;
如果各个麦克风通道的相对增益接近,且均小于一相对增益阈值,则判断所有麦克风均正常工作。
FBF参数校准模块24根据上述判断结果,更新FBF参数,包括麦克风位置信息、麦克风阵列加权以及其他与阵列相关的信息(如果判断所有麦克风均正常工作,则无需更新FBF参数),并将校准后的FBF参数发送给GSC。
在本发明中,不仅可以利用相对增益检测麦克风的工作状态,同时可以采用其他的判断方式,例如能量法等,或者多种方法联合判定,从而提高检测的准确性。
GSC采用标准的广义旁瓣对消器,包括固定波束形成(FBF)模块31、阻塞矩阵(BM,Block Matrix)模块32、自适应噪声抵消模块33。
校准后的远场语音信号分别进入FBF模块31和BM模块32,FBF模块31利用校准后的FBF参数对校准后的远场语音信号进行处理,生成语音参考信号,BM模块32对校准后的远场语音信号进行处理,生成噪声参考信号,语音参考信号与经过自适应噪声抵消模块的噪声参考信号求差,得到增强语音输出34。
其中,本发明的GSC还包括一除法器和语音段判定模块35,利用除法器得到语音参考信号与噪声参考信号的比值,并将比值反馈至语音段判定模块35,语音段判定模块35根据该比值提取远场语音信号中的语音段,具体来说,当该比值小于一阈值时认为该段信号为噪声或干扰,而大于该阈值时认为该段信号为语音段。
由此可见,本发明的远场语音交互设备,利用通道增益校准的方式,保证各个麦克风通道相对增益一致,使得进入GSC的各个通道期望目标信号幅度一致,提高了后端GSC的性能。同时,采用语音段作为校准声源,不仅有利于固定波束形成,同时对于阻塞矩阵模块,当语音段幅度保持一致时,阻塞矩阵模块处理后残留的语音段较少,后续处理保证语音损伤较小,有利于目标信号消除,而保留噪声或者干扰信号。并且还可以自动判断麦克风工作状态,能够保证在麦克风损坏情况下,设备仍然能够正常工作,提高了设备的稳健性。
本发明另一个实施例的远场语音交互设备,参见图3,其与上述实施例的远场语音交互设备的结构和功能基本相同,不同之处在于,校准后的远场语音信号仅传输至BM模块32而不传输至FBF模块31,麦克风阵列10采集的远场语音信号直接传输给FBF模块31,FBF模块31利用校准后的FBF参数对麦克风阵列10采集的远场语音信号进行处理,生成语音参考信号,并与经过自适应噪声抵消模块的噪声参考信号求差,得到增强语音输出34。
本发明又一个实施例的远场语音交互设备,参见图4,其与上述实施例的远场语音交互设备的结构和功能基本相同,不同之处在于,自校准模块还包括一信噪比计算模块25,其计算各个麦克风通道的远场语音信号的信噪比,并将麦克风阵列10采集的远场语音信号发送给FBF模块31,FBF参数校准模块24根据信噪比更新FBF参数,并将校准后的FBF参数发送给FBF模块31,FBF模块31利用校准后的FBF参数对麦克风阵列10采集的远场语音信号进行处理,生成语音参考信号,并与经过自适应噪声抵消模块的噪声参考信号求差,得到增强语音输出34。
本发明上述两个实施例的远场语音交互设备同样可以提高后端GSC的性能,保证后续处理的语音损伤较小,提高设备的稳健性。
由于麦克风出现无法正常工作的故障属于较为极端的情况,因此,FBF参数校准模块24可以只在远场语音交互设备开机时启动并工作,完成麦克风阵列检测以及FBF参数更新后即可关闭,即只在远场语音交互设备开机时进行麦克风阵列的检测以及更新FBF参数,而不必在设备运行过程中实时进行,以节省运算资源,降低设备功耗。
另外,本发明还可以通过远程控制来进行麦克风阵列的检测,参见图5,远场语音交互设备还可以包括一控制端40,自校准和语音识别终端20还可以包括一控制模块。
控制端40可以是手机,其与控制模块无线连接,控制端与控制模块可以通过例如Wi-Fi或蓝牙等无线协议通信。当需要进行麦克风阵列检测时,用户可以通过控制端40的特定应用程序向自校准和语音识别终端20发送控制信号,自校准和语音识别终端的控制模块接收到控制信号后,控制FBF参数校准模块24启动并工作,进行麦克风阵列检测以及FBF参数更新。或者,用户可以通过控制端40的特定应用程序设定麦克风阵列的检测周期,例如每天或者每周进行一次麦克风阵列检测,并将检测周期发送至控制模块,当到达检测时间时,控制模块控制FBF参数校准模块24启动并工作,进行麦克风阵列检测以及FBF参数更新。
除此之外,还可以在麦克风上设置实体按键或者触摸键,当需要进行麦克风阵列检测时,用户可以手动按压麦克风上的按键以产生一触发信号,控制模块接收到触发信号后,控制FBF参数校准模块24启动并工作,进行麦克风阵列检测以及FBF参数更新。
由此可见,本发明可以通过多种方式启动麦克风阵列检测和FBF参数更新,方便灵活,便于用户操作。
本发明再一个实施例还提供了一种远场语音交互设备的自校准方法,参见图6,其利用上述远场语音交互设备进行自校准,包括:
利用麦克风阵列10采集远场语音信号,并将远场语音信号传输至自校准模块;
利用自校准模块对远场语音信号的由麦克风通道增益和信号传播衰减引起的误差进行校准,并且检测麦克风阵列10的工作状态,校准FBF参数;
校准后的远场语音信号传输至GSC,GSC利用校准后的FBF参数对校准后的远场语音信号进行处理,得到增强语音输出34。
其中,在该自校准方法中,GSC还可以利用校准后的FBF参数对麦克风阵列10采集远场语音信号进行处理,得到增强语音输出34。
在该自校准方法中,根据各个通道的相对增益或远场语音信号的信噪比来检测麦克风阵列10的工作状态,校准FBF参数。
至此,已经结合附图对本实施例进行了详细描述。依据以上描述,本领域技术人员应当对本发明的自校准的远场语音交互设备及远场语音自校准方法有了清楚的认识。
需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换,例如:
(1)VAD和麦克风工作状态检测还可以采用其他方式;
(2)实施例中提到的方向用语,例如“上”、“下”、“前”、“后”、“左”、“右”等,仅是参考附图的方向,并非用来限制本发明的保护范围;
(3)上述实施例可基于设计及可靠度的考虑,彼此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中的技术特征可以自由组合形成更多的实施例。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种自校准的远场语音交互设备,其特征在于,包括:麦克风阵列与自校准和语音识别终端,所述麦克风阵列与所述自校准和语音识别终端电性连接;
所述麦克风阵列采集远场语音信号,并将所述远场语音信号传输至所述自校准和语音识别终端,其中,所述远场语音信号包含由麦克风通道增益和信号传播衰减引起的误差;
所述自校准和语音识别终端包括:
自校准模块,包括:
语音活动检测模块:选取麦克风阵列的一个麦克风作为参考通道,利用所述参考通道提取远场语音信号中的语音段;
相对增益计算模块:连接所述语音活动检测模块,利用所述语音段计算麦克风阵列中的其他麦克风相对于所述参考通道的相对增益;
增益校准模块:连接所述相对增益计算模块,根据所述相对增益,将其他麦克风的语音段调整到参考通道的增益水平,得到校准后的远场语音信号;
固定波束形成参数校准模块:连接所述相对增益计算模块,根据所述相对增益检测无法正常工作的麦克风,得到校准后的固定波束形成参数;
广义旁瓣对消器:对所述误差进行校准,利用校准后的固定波束形成参数对校准后的远场语音信号进行处理,得到增强语音输出。
2.如权利要求1所述的远场语音交互设备,其特征在于,所述广义旁瓣对消器包括:固定波束形成模块、阻塞矩阵模块、自适应噪声抵消模块;其中,
校准后的远场语音信号分别进入固定波束形成模块和阻塞矩阵模块;
固定波束形成模块对校准后的远场语音信号进行处理,生成语音参考信号;
阻塞矩阵模块对校准后的远场语音信号进行处理,生成噪声参考信号,语音参考信号与经过自适应噪声抵消模块的噪声参考信号求差,得到增强语音输出。
3.如权利要求2所述的远场语音交互设备,其特征在于,所述广义旁瓣对消器还包括:除法器和语音段判定模块,
所述除法器得到所述语音参考信号与所述噪声参考信号的比值,并将所述比值反馈至所述语音段判定模块;
所述语音段判定模块根据所述比值提取远场语音信号中的语音段。
4.如权利要求1所述的远场语音交互设备,其特征在于,还包括:控制端,所述控制端控制所述固定波束形成参数校准模块的开启。
5.如权利要求1所述的远场语音交互设备,其特征在于,所述麦克风阵列的麦克风设置有按键,通过所述按键控制所述固定波束形成参数校准模块的开启。
6.一种远场语音交互设备的自校准方法,其特征在于,利用权利要求1所述的远场语音交互设备进行自校准,包括:
采集步骤:采集远场语音信号;
校准步骤:对远场语音信号的由麦克风通道增益和信号传播衰减引起的误差进行校准,包括:
选取麦克风阵列的一个麦克风作为参考通道,利用所述参考通道提取远场语音信号中的语音段;
利用所述语音段计算麦克风阵列中的其他麦克风相对于所述参考通道的相对增益;
根据所述相对增益,将其他麦克风的语音段调整到参考通道的增益水平,得到校准后的远场语音信号;
连接所述相对增益计算模块,根据所述相对增益检测无法正常工作的麦克风,得到校准后的固定波束形成参数;以及
处理步骤:对校准后的远场语音信号进行处理,利用校准后的固定波束形成参数对校准后的远场语音信号进行处理,得到增强语音输出。
CN201610974245.3A 2016-11-04 2016-11-04 自校准的远场语音交互设备及远场语音自校准方法 Active CN106340305B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610974245.3A CN106340305B (zh) 2016-11-04 2016-11-04 自校准的远场语音交互设备及远场语音自校准方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610974245.3A CN106340305B (zh) 2016-11-04 2016-11-04 自校准的远场语音交互设备及远场语音自校准方法

Publications (2)

Publication Number Publication Date
CN106340305A CN106340305A (zh) 2017-01-18
CN106340305B true CN106340305B (zh) 2024-03-19

Family

ID=57841670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610974245.3A Active CN106340305B (zh) 2016-11-04 2016-11-04 自校准的远场语音交互设备及远场语音自校准方法

Country Status (1)

Country Link
CN (1) CN106340305B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316649B (zh) * 2017-05-15 2020-11-20 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法及装置
CN107180642B (zh) * 2017-07-20 2020-12-18 北京华捷艾米科技有限公司 音频信号校正方法、装置及设备
CN109451415A (zh) * 2018-12-17 2019-03-08 深圳Tcl新技术有限公司 麦克风阵列自动校对方法、装置、设备及存储介质
CN109660918B (zh) * 2018-12-27 2021-11-09 腾讯科技(深圳)有限公司 声音采集组件阵列及声音采集设备
CN111025233B (zh) * 2019-11-13 2023-09-15 阿里巴巴集团控股有限公司 一种声源方向定位方法和装置、语音设备和系统
CN111402912A (zh) * 2020-02-18 2020-07-10 云知声智能科技股份有限公司 一种语音信号降噪方法及装置
CN111540371B (zh) * 2020-04-22 2020-11-03 深圳市友杰智新科技有限公司 麦克风阵列波束成形的方法、装置和计算机设备
CN114464184B (zh) * 2022-04-11 2022-09-02 北京荣耀终端有限公司 语音识别的方法、设备和存储介质
CN115665606B (zh) * 2022-11-14 2023-04-07 深圳黄鹂智能科技有限公司 基于四麦克风的收音方法和收音装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101203063A (zh) * 2007-12-19 2008-06-18 北京中星微电子有限公司 麦克风阵列的噪声消除方法及装置
CN101765048A (zh) * 2008-12-22 2010-06-30 西门子医疗器械公司 具有自动的算法切换的助听设备
CN101916567A (zh) * 2009-11-23 2010-12-15 瑞声声学科技(深圳)有限公司 应用于双麦克风系统的语音增强方法
CN101976565A (zh) * 2010-07-09 2011-02-16 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及方法
CN103988090A (zh) * 2011-11-24 2014-08-13 丰田自动车株式会社 声源检测装置
CN105338450A (zh) * 2015-09-23 2016-02-17 苏州科达科技股份有限公司 一种残留回波抑制方法及装置
CN105793723A (zh) * 2013-12-31 2016-07-20 谷歌公司 使用移动声源的麦克风自定位

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080175407A1 (en) * 2007-01-23 2008-07-24 Fortemedia, Inc. System and method for calibrating phase and gain mismatches of an array microphone

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101203063A (zh) * 2007-12-19 2008-06-18 北京中星微电子有限公司 麦克风阵列的噪声消除方法及装置
CN101765048A (zh) * 2008-12-22 2010-06-30 西门子医疗器械公司 具有自动的算法切换的助听设备
CN101916567A (zh) * 2009-11-23 2010-12-15 瑞声声学科技(深圳)有限公司 应用于双麦克风系统的语音增强方法
CN101976565A (zh) * 2010-07-09 2011-02-16 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及方法
CN103988090A (zh) * 2011-11-24 2014-08-13 丰田自动车株式会社 声源检测装置
CN105793723A (zh) * 2013-12-31 2016-07-20 谷歌公司 使用移动声源的麦克风自定位
CN105338450A (zh) * 2015-09-23 2016-02-17 苏州科达科技股份有限公司 一种残留回波抑制方法及装置

Also Published As

Publication number Publication date
CN106340305A (zh) 2017-01-18

Similar Documents

Publication Publication Date Title
CN106340305B (zh) 自校准的远场语音交互设备及远场语音自校准方法
US11109163B2 (en) Hearing aid comprising a beam former filtering unit comprising a smoothing unit
EP3255634B1 (en) An audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
US9591411B2 (en) Self-calibration of multi-microphone noise reduction system for hearing assistance devices using an auxiliary device
CN104902418B (zh) 用于估计目标和噪声谱方差的多传声器方法
US10861478B2 (en) Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
US10341784B2 (en) Hearing assistance system incorporating directional microphone customization
US8644517B2 (en) System and method for automatic disabling and enabling of an acoustic beamformer
US10587962B2 (en) Hearing aid comprising a directional microphone system
DK2876903T3 (en) Spatial filter bank for hearing system
EP2882203A1 (en) Hearing aid device for hands free communication
EP3337190B1 (en) A method of reducing noise in an audio processing device
US20110051953A1 (en) Calibrating multiple microphones
US10433076B2 (en) Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
KR20080092404A (ko) 음성 향상을 위해 마이크로폰 사이의 레벨 차이를 활용하는시스템 및 방법
EP3203473A1 (en) A monaural speech intelligibility predictor unit, a hearing aid and a binaural hearing system
CN110169083B (zh) 以波束形成进行控制的系统
EP3148213B1 (en) Dynamic relative transfer function estimation using structured sparse bayesian learning
CN106775558B (zh) 获取耳机优化参数的方法、装置和音频提供方法、系统
US20150318001A1 (en) Stepsize Determination of Adaptive Filter For Cancelling Voice Portion by Combing Open-Loop and Closed-Loop Approaches
CN115119124A (zh) 具有传感器的助听器
CN206489876U (zh) 自校准的远场语音交互设备
US11483663B2 (en) Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
CN101711007A (zh) 驱动具有方向性的助听设备的方法以及对应的助听设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant