CN110660404B - 基于零陷滤波预处理的语音通信和交互应用系统、方法 - Google Patents
基于零陷滤波预处理的语音通信和交互应用系统、方法 Download PDFInfo
- Publication number
- CN110660404B CN110660404B CN201910887304.7A CN201910887304A CN110660404B CN 110660404 B CN110660404 B CN 110660404B CN 201910887304 A CN201910887304 A CN 201910887304A CN 110660404 B CN110660404 B CN 110660404B
- Authority
- CN
- China
- Prior art keywords
- voice
- null
- filter
- signal
- frequency compensation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000004891 communication Methods 0.000 title claims abstract description 17
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 13
- 238000007781 pre-processing Methods 0.000 title claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 43
- 230000005236 sound signal Effects 0.000 claims description 30
- 230000003993 interaction Effects 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 abstract description 3
- 238000013461 design Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 20
- 230000001629 suppression Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 230000004044 response Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000003491 array Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000004807 localization Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一种基于零陷滤波预处理的语音通信和交互应用系统。在实施例中,该方法通过设计空间零陷滤波器,对传声器接收信号进行预处理,最大限度地抑制回采信号中的回声信号,并设计频率补偿滤波器保证语音质量。大量实验证明,本申请实施例提出的新方法可在低信回比情况下,在没有明显语音和音频失真的同时有效抑制回声信号,并实现波达方向估计及语音增强等功能。
Description
技术领域
本申请实施例涉及一种语音信号处理,具体地说涉及一种基于零陷滤波预处理的语音通信和交互应用系统。
背景技术
多通道语音增强技术例如回声消除、波达方向估计及波束形成等被广泛用于语音交互系统。其中,回声消除技术利用参考信号,通过自适应估计的方法消除传声器接收信号中的扬声器成分,利用滤波后的信号可以提高波达方向估计的准确性,为后续的去混响、波束形成等语音增强技术处理提供辅助信息,从而大幅提高语音交互系统的性能。
随着智能音箱、会议系统等语音交互设备在保证大音量的同时不断追求设备的便携化、小型化,因此传声器接收信号的信回比在大音量情况下往往低于-40dB。此时常用的回声消除算法已经不能获得令人满意的效果,增强后信号的信回比也往往低于0dB,导致波达方向估计的准确性大大下降,从而给后续语音增强技术带来一系列不利影响。
传统的回声消除方法[1,2]往往利用参考信号和接收信号的相关性自适应控制滤波器的更新,但是该方法存在性能极限。近年来,国内外研究者也提出了一些抑制残留回声的方法,这些方法需要在线或者离线监督学习残留回声特性,最终实现回声抑制[3,4],但这类方法无法适用于所有类型的残留噪声,并且会破坏各通道信号间的相位差特性,不利于后续的波达方向估计及波束形成等处理。
发明内容
根据第一方面,提供一种基于零陷滤波预处理的语音通信和交互应用系统,所述系统包括:扬声器,用于为用户提供第一语音;至少一个差分传声器对,用于接收第二语音并且形成输入语音信号;所述第二语音包括来自用户的第三语音和来自扬声器的第一语音;零陷滤波器,用于抑制第一语音中的直达声信号;频率补偿滤波器,用于根据零陷滤波器在中低频率方面的增益情况,对零陷滤波器的输出信号进行补偿。
在第一方面的可能实施方式中,所述频率补偿滤波器在补偿时计入声源入射角下的导向矢量因素。
在第一方面的可能实施方式中,至少一个差分传声器对包括第一差分传声器对和第二差分传声器对,第一差分传声器对和第二差分传声器对各自的中心点相对穿过扬声器的法线对称。
在第一方面的可能实施方式中,至少一个差分传声器对包括第一差分传声器对、第二差分传声器对和第三差分传声器对,其各自的中心点相对穿过扬声器的法线对称。
在第一方面的可能实施方式中,频率补偿滤波器对多个入射仰角结果求平均,计算频率补偿滤波器的增益。
在第一方面的可能实施方式中,系统包括回声消除器,用于对频率补偿滤波器处理后的音频信号进行回声消除或消减。
在第一方面的可能实施方式中,系统包括波达方向估计器,用于基于频率补偿滤波器处理后的音频信号进行声源定位。
在第一方面的可能实施方式中,系统包括波束形成器,用于从频率补偿滤波器处理后的音频信号中提取声源方向的音频信息。
根据第二方面,提供一种基于零陷滤波预处理的语音通信和交互应用方法,所述方法包括:利用至少一个差分传声器对,接收语音并且形成输入语音信号;所述语音包括来自用户的语音和来自扬声器的语音;进行零陷滤波,用于抑制输入语音信号中自扬声器方向到至少一个差分传声器对的直达声信号;根据零陷频率在中低频率方面的增益情况,对零陷滤波后的输入语音信号进行补偿。
根据第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第二方面所述的方法。
根据第四方面,提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第二方面所述的方法。
通过本申请实施例提供的方法和装置,可在低信回比情况下,在没有明显语音和音频失真的同时有效抑制回声信号,并实现波达方向估计及语音增强等功能。
附图说明
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。
图1是智能音箱的使用场景示意图;
图2是智能音箱中传声器配对使用的示意图;其中,图2(a)是有一个传声器对的情况,图2(b)是有两个传声器对的情况,图2(c)是有三个传声器对的情况;
图3给出了根据本申请实施例的语音通信和交互应用系统的原理框图;
图4是利用零陷波束形成器抑制扬声器方向直达声信号的示意图;其中图4(a)是在500Hz的抑制情况,图4(b)是在2000Hz的抑制情况,图4 (c)是在4000Hz的抑制情况,图4(d)是在8000Hz的抑制情况;
图5是智能音箱等特定应用场景的示意图;
图6是不同入射角情况下的频率响应结果;
图7是特定仰角范围内不同入射角度情况下的仿真结果;
图8(a)给出了传声器接收信号,包括了目标语音信号和回声信号两部分;图8(b)给出了零陷波束形成算法处理后的语音信号;图8(c)给出了零陷滤波后经过补偿的输出结果;图8(d)给出了图8(c)中信号再经回声消除后的输出结果;
图9(a)是接收信号的语谱图;图9(b)是经过零陷、均衡补偿、传统回声消除综合处理后对应信号的语谱图;图9(c)是SRP算法在各扫描方向上归一化后的波束输出图;图9(d)是利用目标语音方向确定后增强的波束输出的语谱图;
图10是实现语音系统的一种硬件结构示意图;
图11是实现语音系统的一种软件/固件结构示意图。
具体实施方式
下面结合附图,对本申请提供的方案进行描述。
本申请实施例提出一种基于零陷滤波预处理的语音通信和交互应用系统,它适用于语音和音频信号,既可应用于实时语音通信系统,也可以应用于非实时的语音信号增强技术中。虽然语音交互设备趋于便携化和小型化,但是传声器阵列及扬声器的位置相对固定,可以构造多组差分传声器阵列,采用零陷滤波技术对扬声器信号进行陷波抑制,同时设计补偿滤波器解决零陷滤波处理后出现的目标语音衰减问题。本申请实施例的另一个特点是通过设计合理的传声器阵列布局,在零陷滤波处理后保留各差分传声器阵列输出信号中语音信号相位差,提高波达方向估计及波束形成性能。在一个例子中,本申请实施例的语音通信和交互应用系统可以应用于智能音箱。下文将主要结合智能音箱对本申请实施例展开描述。当然,本申请实施例同样适用于其它情形。
图1是智能音箱的使用场景示意图。如图1所示,语音通信和交互应用系统(下文简称为语音系统)14处于一个环境(诸如家庭环境,例如房间) 中,同样位于该环境中的用户12可以与语音系统14交互。在一个例子中,语音系统14位于该环境内的桌子上。在其它例子中,语音系统14可以被放置在任何恰当的位置中(例如,电视墙边、家具中等等)。此外,一个以上的语音系统14可以位于单一房间中,或者一个语音系统14可以用于和一个以上房间内的用户交互。
语音系统14可以具有至少一个麦克风对142a和142b与一个或一个以上音频扬声器146,以促进与用户12的音频交互。麦克风阵列142a和142b 接收来自环境内的声音并且产生输入音频信号。输入音频信号可能包括来自用户12的声音和来自扬声器146的声音。用户12的声音可以直接到达麦克风对,也可以通过反射到达麦克风对。扬声器146的声音既可以直接到达麦克风对,也可以通过反射的方式到达麦克风对。
语音系统14包括一些操作逻辑,在有些情况中它可以包括处理器和存储器。处理器可以包括多个处理器单元和/或具有多个核心的处理器。存储器可以包括指令形式的应用程序,所述指令由处理器执行以执行语音系统 14的所需功能(包括下文具体描述的功能)的行动或动作。
图10是实现语音系统的一种硬件结构示意图。如图10所示,该语音系统可包括处理器1002,该处理器用于控制语音系统的总体操作,可以是微处理器或控制器。数据总线1015可利于在存储设备1040、处理器1002 和控制器1011之间进行数据传输。控制器1011可用于通过设备控制总线1017与不同设备进行交互并对其进行控制。
语音系统还可以包括存储设备1040,该存储设备可存储客户端程序;还可以存储数据库及其缓存库的访问地址。终端设备还可包括随机存取存储器(RAM)1020和只读存储器(ROM)1022。ROM 1022可以以非易失性方式存储待执行的程序、实用程序或进程,比如操作系统。RAM1020,也称为内存,可提供易失性数据存储,并存储运行操作系统和客户端程序的指令及其相关的数据。
在操作中,客户端应用程序自RAM1040中加载于RAM1020中,并且由此控制处理器1002执行相应操作,由此客户端得以接入分布式缓存,从而读取其中的数据。
图11是实现语音系统的一种软件/固件结构示意图。如图11所示,语音系统14可以具有操作系统1100,其被配置来管理语音系统14内和耦合到语音系统14的硬件和服务。此外,语音系统14可以包括音频处理组件 1110和语音处理组件1120。
音频处理组件1110可以包括用于处理由麦克风对生成的输入音频信号和/或提供到扬声器的输出音频信号的功能。
作为示例,音频处理组件1110可以包括用于抑制第一语音中的直达声信号的零陷波束形成器1112。
作为示例,音频处理组件1110可以包括用于根据零陷波束形成器在中低频率方面的增益情况,对零陷波束形成器的输出信号进行补偿的频率补偿滤波器1114。
作为示例,音频处理组件1110可以包括用于减少由麦克风对与扬声器之间的声波耦合生成的声学回波的声学回声消除或抑制组件1115。
作为示例,音频处理组件1110可以包括用于基于频率补偿滤波器频率补偿后的音频信号进行声源定位的波达方向估计器1116。
作为示例,音频处理组件1110可以包括一个或多个音频波束形成器或波束形成组件1118,其被配置来生成集中在已从其中检测到用户语音的方向上的音频信号。更具体地说,波束形成组件1118可以利用麦克风阵列对多个方向的目标语音信号进行定向拾音,且选择并输出最有可能包括用户语音的音频信号。
语音处理组件1120接收已由音频处理组件1118处理的音频信号且执行各种类型的处理以了解由人类语音表达的意图。语音处理组件1120可以包括自动语音识别组件1122,其识别由已接收音频信号表示的音频中的人类语音。语音处理组件1120还可以包括自然语音理解组件1124,其被配置来基于用户12的已识别语音确定用户意图。
语音处理组件1120还可以包括文字转语音或语音合成组件1126,其将文字转换为语音以在扬声器播放。
语音系统可以包括多个应用程序1130,其被配置来结合语音系统的其它元件工作以提供服务和功能。应用程序1130可以包括媒体播放服务,诸如音乐播放器。作为例子,由应用程序134执行或提供的其它服务或操作可以包括请求和消费娱乐(例如,游戏、寻找并播放音乐、电源或其它内容等等)、个人管理(例如,日程安排、笔记等等)、在线购物、金融交易、数据库查询等等。
在某些实施方案中,用户与语音系统交互的主要模式是语音。例如,语音系统可以从用户12接收口头命令,且响应与命令提供服务。用户可以发出预定义唤醒或触发声调(例如,“叫醒”),然后跟着指令或指令符。所提供的服务可以包括执行动作或活动、呈现媒体、获得和/或提供信息、经由通过语音系统的已生成或合成语音提供信息、代表用户12启动基于互联网的服务等等。
下文将结合上述硬件和软件结构讨论本申请实施例中的基于零陷滤波预处理的语音通信和交互应用系统。当然,本领域的技术人员意识到,本发明也可以适用于其它形式的硬件和软件结构。
1.信号模型
通常,在图1所示的场景下,传声器对中的各个传声器可以接收到目标语音、回声、以及环境噪声。假设第i个传声器接收到的信号xi(n)为:
xi(n)=si(n)+ei(n)+di(n) (1)
其中,si(n)、ei(n)和di(n)分别为第i个传声器接收到的目标语音信号、回声信号和环境噪声信号;i=1,2,…M,其中M为传声器个数。其中1、2号传声器构成第一个差分传声器对,3、4号传声器构成第二个差分传声器对,以此类推。在图1中,说话人为目标语音,扬声器输出的信号经各种反射后得到回声信号。
如前所述,本申请实施例提出的方法适用于多传声器且传声器配对的情况。将传声器按照图2中的方式两两组合。当传声器数目为2个时,可实现零陷滤波功能,阵列构型如图2(a)所示。当传声器数目为4个时,可以分为对称的两个差分传声器对,阵列构型如图2(b)所示。在图2(b) 中,音箱为圆柱体,以中心的轴向(法线)为圆柱对称,扬声器位于该法线上。各差分传声器对的中心点相对该法线对称。这样的差分传声器对可实现不分前后的180度水平空间定位。当传声器数目大于或等于6个时,可形成3个差分传声器对,其各自的中心点相对法线对称,可实现360度水平空间定位,阵列构型如图2(c)所示。扬声器相对于各传声器对的入射方向相同,各传声器阵列处在同一水平面上。
对于M≥4的多传声器情况,利用本申请实施例提出的零陷滤波方法可以在扬声器方向形成陷波,抑制扬声器的直达声成分。其次,对每个阵列的输出结果进行回声消除处理,包括线性回声消除算法和非线性回声消除算法。最后,利用回声消除后的阵列输出进行波达方向估计和波束形成,实现语音增强的作用。
图3给出了根据本申请实施例的语音通信和交互应用系统的原理框图。如图3所示,系统包括零陷波束形成器32-1…32-N,分别接收语音X1(k,l),… XN(k,l),并且抑制语音中的直达声信号。N表示传声器对的个数。
频率补偿滤波器34-1…34-N,用于根据零陷波束形成器在中低频率方面的增益情况,对零陷波束形成器的输出信号进行补偿。
回声消除器36用于对各频率补偿滤波器频率补偿后的音频信号进行回声消除或消减。
波达方向估计器38用于基于频率补偿滤波器频率补偿后的音频信号进行声源定位。
波束形成器39用于从频率补偿滤波器频率补偿后的音频信号中提取声源方向的音频信息。
基于阵列信号处理技术,常见的波达方向估计算法包括了传统的广义相关法,以多重信号分类算法[5]为代表的高分辨率谱估计方法,以旋转不变子空间算法[6]为代表的信号子空间类算法。波束形成算法可采用以延迟相加波束(DAS)形成[7]和超指波束(SD)形成[8]为代表的固定波束形成方法,也可采用广义旁瓣抑制方法[9]、最小方差无失真响应方法[10]等自适应波束形成方法。上述类型的算法都适用于本申请实施例所提算法处理后的后续语音增强模块。
下文将详细介绍图3中的各个单元。
2.零陷波束形成
2.1差分零陷滤波器
实际应用中,利用双传声器形成零陷波束形成器,抑制扬声器方向的直达声信号,具体方法如图4所示。不失一般性,这里以1,2号传声器组成传声器阵列,两传声器接收的信号分别为x1(n)和x2(n),不考虑自噪声及环境噪声的影响,式(1)的频域表达式:
Xi(k,l)=Si(k,l)+Ei(k,l),i=1,2 (2)
其中,Xi(k,l)、Si(k,l)和Ei(k,l)分别是x(n)、s(n)和e(n)的第l帧第k个频带短时谱,实际中可通过快速傅里叶(FFT:Fast Fourier Transform)实现。
以1,2号传声器组成的传声器对为例,阵列间距为d,扬声器到两传声器的距离分别为d1和d2,目标声源位于(θs,φs),设计零陷波束形成器步骤如下:
1)对于小尺寸音响,扬声器与传声器距离较近,根据扬声器和1,2号传声器的相对位置信息d1和d2,计算扬声器与2个传声器之间的相对时延τe=|d1-d2|/c;
2)利用相对时延信息,分频带设计零陷波束形成器,将扬声器方向入射方向设为零陷方向,同时为了获得更多的噪声抑制能力,将波束指向方向设为0度,利用上述信息设计零陷滤波器H12(k)=[H1(k),H2(k)],需满足以下条件:
其中,aH(k,τ0)对应0度方向的导向矢量,aH(k,τe)对应扬声器方向的导向矢量。对应的滤波器可以用式(4)进行求解:
3)利用零陷滤波器对2个传声器输入信号X12(k,l)=[X1(k,l),X2(k,l)]进行滤波处理,得到滤波输出:
以间距为2cm的情况为例,假设扬声器方向位于45度方向,几种典型频率下的波束响应如图4所示。图4(包括图4(a)、图4(b)、图4(c)、图4(d))结果显示零陷滤波器在各个频带上都在扬声器方向形成了谷点,可有效抑制从这个方向入射的环境噪声。采用自适应零限波束形成器也可实现预处理,零陷滤波器仅在回声较强的时候进行更新。
2.2频率补偿滤波器
利用2.1节中的差分滤波器,虽然可以有效抑制扬声器直达声,但会对某些方向入射的目标信号造成失真,且失真程度与声源频率和方向有关。为了解决这一问题,本申请实施例提出一种通用的频率补偿滤波器,对不同频带设计相应的频率增益补偿滤波器,用于根据零陷滤波器在中低频率方面的增益情况,对零陷滤波器的输出信号进行补偿。在一个例子中,补偿滤波器在补偿时计入声源入射角下的导向矢量因素。具体步骤如下:
1)针对于智能音箱等特定应用场景,典型的传声器阵列构型、扬声器及目标语音方位如图5所示。此时扬声器方向确定时而目标声源方向不确定,但目标声源与扬声器相对于传声器对的空间分离度较大,当声源以仰角θa入射时,式(4)中对应的第k个频点对应波束响应为:
其中,τ(θa)是以仰角θa计算出的两传声器时延差,a(k,τ(θa)为对应的导向矢量。这里以2.1中的参数为例,不同入射角情况下的频率响应结果如图6 所示。由结果可知,扬声器方向(大约135°)的入射声得到明显抑制。然而,根据式(4)计算得到的零陷滤波器在中低频率存在信号衰竭的问题。为了解决上述问题,需要根据信号入射角度(仰角)对应的波束响应B(k,θa) 设计对应的补偿滤波器
2)当扬声器音量较大时,即使做完零陷滤波处理,残留的噪声成分依然较多,目标声源的仰角估计已变得较为困难。实际应用中,目标声源的仰角范围一般位于30度到90度之间。可以选取上述仰角范围内的几种角度进行仿真,得到不同入射角度情况下的仿真结果,如图7所示。无论入射声源仰角为50,70还是90,中低频的频率响应均低于高频的频率响应。本申请实施例对可能范围内的多个入射仰角结果求平均,计算补偿滤波器的增益,表达式如下:
其中,NK为选取的入射角度个数,θi为选取的第i个入射仰角。
3)在后续的语音增强处理后,需要利用计算得到的各频带的增益补偿滤波器对处理结果进行增益补偿,得到最终的输出结果:
3.后续语音增强技术
零陷滤波处理后,每个传声器对的输出可看成某种指向性麦克风的输出,采用第2节中的阵列构型设计得到的零陷波束形成器及增益补偿滤波器处理后,可以保留各传声器对的输出信号中目标声源的相位差特性,因此可以进行后续例如回声消除、波达方向估计、波束形成等语音增强技术。
3.1回声消除
对于零陷处理后的结果,利用传统的回声消除算法进一步消除回声成分。在一个例子中,可以采用线性回声消除方法以便保留各传声器对输出信号中目标声源的相位差特性。定义回声消除算法中参考信号的频域形式为R(k,l),以第2节中作为原始输入信号,滤波器为WAEC(k,l),滤波后输出信号为Z12(k,l):
滤波器WAEC(k,l)计算方法如下:根据前述(9)与(11)得到的估计信号,计算回声消除后的残余信号EAEC(k,l):
利用归一化最小均方算法更新回声消除滤波器:
为加快收敛速度,需要选择合适的步长μ(k,l),以均方误差最小化准则为例求解可得:
更新后的回声消除滤波器为:
其中γ是防止分母过小而加入的参量,在一个例子中取γ=0.001。
图8(a)给出了传声器接收信号,包括了目标语音信号和回声信号两部分;图8(b)给出了零陷波束形成算法处理后的语音信号;图8(c)给出了零陷滤波后经过补偿的输出结果;图8(d)给出了图8(c)中信号再经回声消除后的输出结果。由结果可知,零陷波束形成算法的回声抑制量约为20dB,传统回声消除器在此基础上回声抑制量约为20-30dB,总计可提供40-50dB的回声抑制量。
3.2波达方向估计(DOA)
本申请实施例利用多个传声器对形成零陷滤波,根据图5所示的阵列构型,传声器对的波束输出关于z轴是空间对称的,声源到各传声器对的入射方向与z轴的夹角是相同的,因此空间中同一方向入射的声源经不同传声器对输出后,各输出信号中目标语音的相位差特性保持不变。另一方面,扬声器成分经过零陷波束形成和传统回声消除算法处理后可以获得 40dB以上的降噪效果,因此可以极大提高低信回比情况下的目标声源定位性能。本申请实施例以传统的可控波束形成方法为例进行声源定位,具体步骤如下:
第1对零陷波束输出信号与第2对零陷波束输出信号的互相关为:
其中τ12代表两个波束输出之间的延迟,主要由声源相对于各传声器对之间的距离决定。考虑多对波束的情况,将所有束输出信号两两组合成对组合相加则得到了可控波束形成器的输出功率:
考虑SRP-PHAT算法,去除各频点的幅度影响仅保留相位信息,令
由式(17)与(18)可得:
这里以图2(c)中所示的阵列结构为例进行DOA估计,图9给出了传声器接收信号(包括目标语音及回声信号)(见图9(a))及经过零陷、均衡补偿、传统回声消除综合处理后对应信号的语谱图(见图9(b)),并给出了此时对应的SRP算法在各扫描方向上的波束输出(见图9(c))。由结果可知,即使在原始信号信回比低于50dB的极端情况下,利用综合处理后的输出信号可以准确地确定目标语音方向,从而为后续的波束形成算法提供方向信息。图9(d)提供了目标语音方向确定后增强的波束输出的语谱图。
3.3波束形成
经3.2估计出目标声源方向后,利用方向信息对3.1处理后得到的信号进行处理,设计指向目标方向的波束形成器,常用的波束形成器包括了延迟相加波束形成器、超指向性波束形成器等,在一个例子中在中高频采用超指向性波束形成器,低频采用DAS波束形成器,对应的滤波器形式如下:
其中Γiso为扩散场噪声的协方差矩阵,k0为低频与中高频的分频点,本申请实施例中取为500Hz。针对3.2节中图9(b)的输出信号,利用图9(c) 估计出的角度设计波束形成器,得到最终的输出信号,对应的语谱图如图 9(d)所示。由结果可知,波束形成后的输出可以进一步抑制回声信号并去除部分混响声。
4.总结
本申请实施例提出的基于零陷滤波预处理的语音交互系统,步骤如下:
1)设计合理的传声器阵列构型,根据扬声器与各传声器的相对位置信息设计零陷滤波器及增益补偿滤波器;
2)单传声器对或多传声器对拾取声信号;
3)各传声器对进行零陷滤波处理,并对零陷处理后的结果进行增益补偿;
4)对经过零陷处理和增益补偿处理后的信号进行回声消除处理;
5)对回声消除处理后的结果进行波达方向估计,估计目标声源方位;
6)利用声源方位信息设计波束形成器,提取目标声源信息。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
参考文献
[1]Gilloire A,Vetterli M.Adaptive filtering in subbands with criticalsampling:analysis,experiments,and application to acoustic echo cancellation[J].IEEE Transactions on SignalProcessing,1992,40(8):1862-1875.
[2]Benesty J,Morgan D R,et al.Advances in Network andAcoustic EchoCancellation[M].Springer,2001:380-385.
[3]Lee C M,Shin J W,Kim N S.Dnn-based residual echo suppression[C]//Sixteenth Annual Conference of the International Speech CommunicationAssociation.2015.
[4]Zhang H,Wang D L.Deep Learning for Acoustic Echo Cancellat ion inNoisy and Double-Talk Scenarios[J].Training,2018,161(2):322.
[5]Schmidt R O.Multiple emitter location and signal parameterestimation[J].InternationalJournal of Engineering Research,1986, 2(3):276-280.
[6]Roy R,Kailath T.ESPRIT-estimation of signal parameters viarotational invariancetechniques[J].IEEE Transactions on Acoustics, Speech andSignal processing,1989,37(7):984-995.
[7]Van Veen B D,Buckley K M.Beamforming:A versatile approach tospatial filtering[J].IEEE assp magazine,1988,5(2):4-24.
[8]Elko G W.Superdirectional Microphone Arrays[M].Acoustic SignalProcessing forTelecommunication,2000:181-238.
[9]Cohen I.Analysis of two-channel generalized sidelobe canceller(GSC)with post-filtering[J].IEEE Transactions on Speech and Audio Processing,2003,11(6):684-699.
[10]Capon J.High-resolut ion frequency-wave number spectrum analysis[J].Proceedings of theIEEE,1969,57(8):1408-1418。
Claims (6)
1.一种基于零陷滤波预处理的语音通信和交互应用系统,所述系统包括:
扬声器,用于为用户提供第一语音;
至少一个差分传声器对,用于接收第二语音并且形成输入语音信号;所述第二语音包括来自用户的第三语音和来自扬声器的第一语音;
零陷滤波器,用于抑制第一语音中的直达声信号;所述零陷滤波器将扬声器方向入射方向设为零陷方向,将波束指向方向设为0度;
频率补偿滤波器,用于根据零陷滤波器在中低频率方面的增益情况,对零陷滤波器的输出信号进行补偿;所述频率补偿滤波器在补偿时计入声源入射角下的导向矢量因素;
回声消除器,用于对频率补偿滤波器处理后的音频信号进行回声消除或消减;
波达方向估计器,用于对频率补偿滤波器处理后的音频信号进行声源定位;和
波束形成器,用于从频率补偿滤波器处理后的音频信号中提取声源方向的音频信息。
2.如权利要求1所述的语音通信和交互应用系统,其特征在于,至少一个差分传声器对包括第一差分传声器对和第二差分传声器对,第一差分传声器对和第二差分传声器对各自的中心点相对穿过扬声器的法线对称。
3.如权利要求1所述的语音通信和交互应用系统,其特征在于,频率补偿滤波器对多个入射仰角结果求平均,计算频率补偿滤波器的增益。
4.一种基于零陷滤波预处理的语音通信和交互应用方法,所述方法包括:
通过扬声器为用户提供第一语音;
利用至少一个差分传声器对,接收第二语音并且形成输入语音信号;所述第二语音包括来自用户的第三语音和来自扬声器的第一语音;
进行零陷滤波,抑制第一语音中的直达声信号;将扬声器方向入射方向设为零陷方向,将波束指向方向设为0度;
进行频率补偿滤,根据零陷滤波在中低频率方面的增益情况,对零陷滤波后的输出信号进行补偿;在补偿时计入声源入射角下的导向矢量因素;
对频率补偿滤波处理后的音频信号进行回声消除或消减;
对频率补偿滤波处理后的音频信号进行声源定位;
从频率补偿滤波处理后的音频信号中提取声源方向的音频信息。
5.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求4所述的方法。
6.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现如权利要求4所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910887304.7A CN110660404B (zh) | 2019-09-19 | 2019-09-19 | 基于零陷滤波预处理的语音通信和交互应用系统、方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910887304.7A CN110660404B (zh) | 2019-09-19 | 2019-09-19 | 基于零陷滤波预处理的语音通信和交互应用系统、方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110660404A CN110660404A (zh) | 2020-01-07 |
CN110660404B true CN110660404B (zh) | 2021-12-07 |
Family
ID=69037271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910887304.7A Active CN110660404B (zh) | 2019-09-19 | 2019-09-19 | 基于零陷滤波预处理的语音通信和交互应用系统、方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110660404B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111327984B (zh) * | 2020-02-27 | 2022-04-22 | 北京声加科技有限公司 | 基于零陷滤波的耳机辅听方法和耳戴式设备 |
CN111615035B (zh) * | 2020-05-22 | 2021-05-14 | 歌尔科技有限公司 | 一种波束形成方法、装置、设备和存储介质 |
CN113132845A (zh) * | 2021-04-06 | 2021-07-16 | 北京安声科技有限公司 | 信号处理方法及装置、计算机可读存储介质及耳机 |
US11627395B2 (en) * | 2021-04-29 | 2023-04-11 | Halonix Technologies Private Limited | Apparatus and methods for cancelling the noise of a speaker for speech recognition |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102164328A (zh) * | 2010-12-29 | 2011-08-24 | 中国科学院声学研究所 | 一种用于家庭环境的基于传声器阵列的音频输入系统 |
CN102456351A (zh) * | 2010-10-14 | 2012-05-16 | 清华大学 | 一种语音增强的系统 |
CN103067821A (zh) * | 2012-12-12 | 2013-04-24 | 歌尔声学股份有限公司 | 一种基于双麦克的语音混响消减方法和装置 |
CN107221336A (zh) * | 2017-05-13 | 2017-09-29 | 深圳海岸语音技术有限公司 | 一种增强目标语音的装置及其方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100177911A1 (en) * | 2009-01-15 | 2010-07-15 | Ryuji Yonemoto | Method of constructing a multiway loudspeaker system with improved phase response to pass a square wave |
CN104424953B (zh) * | 2013-09-11 | 2019-11-01 | 华为技术有限公司 | 语音信号处理方法与装置 |
-
2019
- 2019-09-19 CN CN201910887304.7A patent/CN110660404B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102456351A (zh) * | 2010-10-14 | 2012-05-16 | 清华大学 | 一种语音增强的系统 |
CN102164328A (zh) * | 2010-12-29 | 2011-08-24 | 中国科学院声学研究所 | 一种用于家庭环境的基于传声器阵列的音频输入系统 |
CN103067821A (zh) * | 2012-12-12 | 2013-04-24 | 歌尔声学股份有限公司 | 一种基于双麦克的语音混响消减方法和装置 |
CN107221336A (zh) * | 2017-05-13 | 2017-09-29 | 深圳海岸语音技术有限公司 | 一种增强目标语音的装置及其方法 |
Non-Patent Citations (6)
Title |
---|
"Adaptive null-forming scheme in digital hearing aids";Fa-Long Luo;《IEEE Transactions on Signal Processing 》;20020807;全文 * |
"Robust spherical microphone array beamforming with multi-beam-multi-null steering, and sidelobe control";Haohai Sun 等;《 2009 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics》;20091204;全文 * |
"Robustness analysis of time-domain and frequency-domain adaptive null-forming schemes";Xiaohu Hu;《 2011 8th International Conference on Information, Communications & Signal Processing》;20120403;全文 * |
"基于波束形成的声反馈抑制算法研究";涂斯纯;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20190915;全文 * |
"零陷波束形成算法路版型分析及后处理研究";胡笑浒;《https://www.docin.com/p-857958753.html》;20140708;第25-27、31-36页 * |
"麦克风阵列中基于零陷波束形成的声反馈抑制";张正文 等;《科学技术与工程》;20190430;第194-199页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110660404A (zh) | 2020-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110660404B (zh) | 基于零陷滤波预处理的语音通信和交互应用系统、方法 | |
US9966059B1 (en) | Reconfigurale fixed beam former using given microphone array | |
US8583428B2 (en) | Sound source separation using spatial filtering and regularization phases | |
WO2019080553A1 (zh) | 基于麦克风阵列的目标语音获取方法及装置 | |
Gannot et al. | Adaptive beamforming and postfiltering | |
US10657981B1 (en) | Acoustic echo cancellation with loudspeaker canceling beamformer | |
US9654894B2 (en) | Selective audio source enhancement | |
AU2011334840B2 (en) | Apparatus and method for spatially selective sound acquisition by acoustic triangulation | |
Kumatani et al. | Microphone array processing for distant speech recognition: Towards real-world deployment | |
CN110140359B (zh) | 使用波束形成的音频捕获 | |
US10771894B2 (en) | Method and apparatus for audio capture using beamforming | |
TW200849219A (en) | Systems, methods, and apparatus for signal separation | |
US20190349678A1 (en) | Audio capture using beamforming | |
Reindl et al. | A stereophonic acoustic signal extraction scheme for noisy and reverberant environments | |
CN111681665A (zh) | 一种全向降噪方法、设备及存储介质 | |
Priyanka | A review on adaptive beamforming techniques for speech enhancement | |
Li et al. | Online Directional Speech Enhancement Using Geometrically Constrained Independent Vector Analysis. | |
He et al. | Spatial attention for far-field speech recognition with deep beamforming neural networks | |
US11483646B1 (en) | Beamforming using filter coefficients corresponding to virtual microphones | |
CN110661510B (zh) | 波束形成器形成方法、波束形成方法、装置及电子设备 | |
CN113838472A (zh) | 一种语音降噪方法及装置 | |
Wang et al. | A robust generalized sidelobe canceller controlled by a priori sir estimate | |
The et al. | An Improved Implementation of Generalized Sidelobe Canceller Filter in Diffuse Noise Field | |
Kim et al. | Reverberated speech signal separation based on regularized subband feedforward ICA and instantaneous direction of arrival | |
Braun et al. | Directional interference suppression using a spatial relative transfer function feature |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |