CN109379501A - 一种用于回声消除的滤波方法及装置、设备、介质 - Google Patents
一种用于回声消除的滤波方法及装置、设备、介质 Download PDFInfo
- Publication number
- CN109379501A CN109379501A CN201811540805.XA CN201811540805A CN109379501A CN 109379501 A CN109379501 A CN 109379501A CN 201811540805 A CN201811540805 A CN 201811540805A CN 109379501 A CN109379501 A CN 109379501A
- Authority
- CN
- China
- Prior art keywords
- far
- round
- current round
- audio data
- echo cancellation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000004044 response Effects 0.000 claims abstract description 94
- 230000003044 adaptive effect Effects 0.000 claims abstract description 82
- 230000000903 blocking effect Effects 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims description 32
- 239000013598 vector Substances 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 17
- 238000012935 Averaging Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 abstract description 14
- 230000002349 favourable effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000002592 echocardiography Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephone Function (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种用于回声消除的滤波方法及装置、设备、介质。该方法多轮地迭代执行,该方法至少包括:获取本轮的远端音频数据和近端音频数据,并对本轮的远端音频数据进行频域分块,得到本轮的多个远端频域音频块;根据本轮的自适应回声消除参数,估计对本轮的多个远端频域音频块分别的响应;根据本轮的近端音频数据和该分别的响应,确定对本轮的近端音频数据的滤波结果;其中,本轮的自适应回声消除参数是根据之前至少一轮的自适应回声消除参数和远端音频数据的能量更新得到的。本申请对远端音频数据主动分块,并据此对近端音频数据自适应滤波,能够比较有效地消除远端与近端的双方或者多方进行语音通讯时产生的回声,有助于保证语音通讯质量。
Description
技术领域
本申请涉及语音通讯技术领域,尤其涉及一种用于回声消除的滤波方法及装置、设备、介质。
背景技术
语音通讯是一种较为常见的用户间交互场景,比如,两个用户之间通过手机通话、多个用户之间通过电话会议终端进行远程会议。在这类语音通讯场景下,对于任何一端的用户而言,往往既需要自己向对端发出语音,也需要接听对端向自己发出的语音,任意用户本地这端可以称为近端,该用户的对端可以称为远端。
用户一般通过手机或者电话会议终端等设备提供的麦克风,向对端发出语音,通过这些设备提供的听筒或者音箱,接听对方向自己发出的语音。但是,听筒或者音箱放音时,会导致回声产生,即一端说话后,通过对端的听筒或者音箱放音,然后又被对端的麦克风采集回传产生回声。如果不对回声进行处理,将会影响语音通讯质量,严重时可能形成震荡,产生啸叫。
在现有技术中,往往对语音信号进行延迟求差以消除回声。
但是,麦克风、听筒或者音箱的失真,以及房间混淆往往导致现有方案的回声消除效果较差。
发明内容
本申请实施例提供一种用于回声消除的滤波方法及装置、设备、介质,用以解决现有技术中的如下技术问题:麦克风、听筒或者音箱的失真,以及房间混淆往往导致现有方案的回声消除效果较差。
本申请实施例采用下述技术方案:
一种用于回声消除的滤波方法,所述方法多轮地迭代执行,所述方法包括:
获取本轮的远端音频数据和近端音频数据,并对所述本轮的远端音频数据进行频域分块,得到本轮的多个远端频域音频块;
根据本轮的自适应回声消除参数,估计对所述本轮的多个远端频域音频块分别的响应;
根据所述本轮的近端音频数据和所述分别的响应,确定对所述本轮的近端音频数据的滤波结果;
其中,所述本轮的自适应回声消除参数是根据之前至少一轮的自适应回声消除参数和远端音频数据的能量更新得到的。
可选地,所述对所述本轮的远端音频数据进行频域分块,得到本轮的多个远端频域音频块,包括:
按照指定的步进长度和块长度,通过在所述本轮的远端音频数据上步进的方式进行时域分块,得到本轮的多个远端时域音频块;
对所述本轮的多个远端时域音频块分别进行傅里叶变换,得到本轮的多个远端频域音频块;
其中,相邻的远端时域音频块之间存在部分重叠。
可选地,所述方法还包括:
根据所述本轮的自适应回声消除参数和远端音频数据的能量,以及本轮的其他相关数据,对所述本轮的自适应回声消除参数进行更新,得到之后至少一轮的自适应回声消除参数;
其中,所述其他相关数据包括以下至少一种:所述滤波结果、所述分别的响应。
可选地,所述自适应回声消除参数包括针对其对应轮的多个远端频域音频块的幅值的比例系数。
可选地,所述滤波结果包括所述多个远端频域音频块分别对应的部分滤波结果;
所述根据所述本轮的自适应回声消除参数和远端音频数据的能量,以及本轮的其他相关数据,对所述本轮的自适应回声消除参数进行更新,得到之后至少一轮的自适应回声消除参数,包括:
根据所述分别对应的部分滤波结果、所述本轮的远端音频数据的能量,以及所述分别的响应,生成参数更新项或者参数更新系数;
利用所述参数更新项或者参数更新系数,对所述本轮的自适应回声消除参数进行更新,得到下轮的自适应回声消除参数。
可选地,所述本轮的远端音频数据记作F,F为包含2k个元素的向量,相应地表示长度为2k的所述本轮的远端音频数据,Fi为F的第i个元素,所述本轮的近端音频数据的长度为k;
所述本轮的多个远端频域音频块中的第i个远端频域音频块记作Xi,包括:FFT(Fi,Fi+1,...,Fi+k-1),其中,FFT表示快速傅里叶变换。
可选地,所述根据本轮的自适应回声消除参数,估计对所述本轮的多个远端频域音频块分别的响应,包括:
分别针对所述本轮的多个远端频域音频块中的每个远端频域音频块,执行:
根据本轮的自适应回声消除参数所包括的所述比例系数,对该远端频域音频块的幅值进行处理,得到频域中间处理结果;
对所述频域中间处理结果进行反傅里叶变换,并根据所述反傅里叶变换结果,估计对该远端频域音频块的响应。
可选地,按照如下公式,估计对所述本轮的多个远端频域音频块分别的响应:
其中,Xi表示所述本轮的多个远端频域音频块中的第i个远端频域音频块,a为包含k个元素的向量,表示所述本轮的自适应回声消除参数,aj为a的第j个元素,IFFT表示快速反傅里叶变换,real表示取复数的实数部分的函数,表示对所述第i个远端频域音频块的响应。
可选地,所述本轮的远端音频数据的能量按照公式P=mean(F)2·2k计算得到;
其中,P表示所述本轮的远端音频数据的能量,F为包含2k个元素的向量,相应地表示长度为2k的所述本轮的远端音频数据,mean表示对所有元素求平均值的函数。
可选地,所述参数更新项包括
所述利用所述参数更新项,对所述本轮的自适应回声消除参数进行更新,得到下轮的自适应回声消除参数,包括:
按照如下公式更新得到下轮的自适应回声消除参数:
其中,Xi表示所述本轮的多个远端频域音频块中的第i个远端频域音频块,所述多个远端频域音频块为k个远端频域音频块,P表示所述本轮的远端音频数据的能量,N为包含k个元素的向量,相应地表示长度为k的所述本轮的近端音频数据,Ni为N的第i个元素,表示对所述第i个远端频域音频块的响应,a、a'为包含k个元素的向量,分别表示本轮和下轮的自适应回声消除参数,ai为a的第i个元素,ai'为a'的第i个元素,FFT表示快速傅里叶变换。
可选地,所述滤波结果包括
其中,N表示所述本轮的近端音频数据,表示由对所述本轮的多个远端频域音频块分别的响应构成的本轮的总响应。
可选地,所述远端音频数据是从远端至近端的音频输出端采集得到的,所述近端音频数据是从所述近端至所述远端的音频输入端采集得到的。
一种用于回声消除的滤波装置,所述装置对其动作多轮地迭代执行,所述装置包括:
分块模块,获取本轮的远端音频数据和近端音频数据,并对所述本轮的远端音频数据进行频域分块,得到本轮的多个远端频域音频块;
估计模块,根据本轮的自适应回声消除参数,估计对所述本轮的多个远端频域音频块分别的响应;
确定模块,根据所述本轮的近端音频数据和所述分别的响应,确定对所述本轮的近端音频数据的滤波结果;
其中,所述本轮的自适应回声消除参数是根据之前至少一轮的自适应回声消除参数和远端音频数据的能量更新得到的。
可选地,所述分块模块对所述本轮的远端音频数据进行频域分块,得到本轮的多个远端频域音频块,包括:
所述分块模块按照指定的步进长度和块长度,通过在所述本轮的远端音频数据上步进的方式进行时域分块,得到本轮的多个远端时域音频块;
对所述本轮的多个远端时域音频块分别进行傅里叶变换,得到本轮的多个远端频域音频块;
其中,相邻的远端时域音频块之间存在部分重叠。
可选地,所述装置还包括:
更新模块,根据所述本轮的自适应回声消除参数和远端音频数据的能量,以及本轮的其他相关数据,对所述本轮的自适应回声消除参数进行更新,得到之后至少一轮的自适应回声消除参数;
其中,所述其他相关数据包括以下至少一种:所述滤波结果、所述分别的响应。
可选地,所述自适应回声消除参数包括针对其对应轮的多个远端频域音频块的幅值的比例系数。
可选地,所述滤波结果包括所述多个远端频域音频块分别对应的部分滤波结果;
所述更新模块根据所述本轮的自适应回声消除参数和远端音频数据的能量,以及本轮的其他相关数据,对所述本轮的自适应回声消除参数进行更新,得到之后至少一轮的自适应回声消除参数,包括:
所述更新模块根据所述分别对应的部分滤波结果、所述本轮的远端音频数据的能量,以及所述分别的响应,生成参数更新项或者参数更新系数;
利用所述参数更新项或者参数更新系数,对所述本轮的自适应回声消除参数进行更新,得到下轮的自适应回声消除参数。
可选地,所述本轮的远端音频数据记作F,F为包含2k个元素的向量,相应地表示长度为2k的所述本轮的远端音频数据,Fi为F的第i个元素,所述本轮的近端音频数据的长度为k;
所述本轮的多个远端频域音频块中的第i个远端频域音频块记作Xi,包括:FFT(Fi,Fi+1,...,Fi+k-1),其中,FFT表示快速傅里叶变换。
可选地,所述估计模块根据本轮的自适应回声消除参数,估计对所述本轮的多个远端频域音频块分别的响应,包括:
所述估计模块分别针对所述本轮的多个远端频域音频块中的每个远端频域音频块,执行:
根据本轮的自适应回声消除参数所包括的所述比例系数,对该远端频域音频块的幅值进行处理,得到频域中间处理结果;
对所述频域中间处理结果进行反傅里叶变换,并根据所述反傅里叶变换结果,估计对该远端频域音频块的响应。
可选地,所述估计模块按照如下公式,估计对所述本轮的多个远端频域音频块分别的响应:
其中,Xi表示所述本轮的多个远端频域音频块中的第i个远端频域音频块,a为包含k个元素的向量,表示所述本轮的自适应回声消除参数,aj为a的第j个元素,IFFT表示快速反傅里叶变换,real表示取复数的实数部分的函数,表示对所述第i个远端频域音频块的响应。
可选地,所述本轮的远端音频数据的能量按照公式P=mean(F)2·2k计算得到;
其中,P表示所述本轮的远端音频数据的能量,F为包含2k个元素的向量,相应地表示长度为2k的所述本轮的远端音频数据,mean表示对所有元素求平均值的函数。
可选地,所述参数更新项包括
所述更新模块利用所述参数更新项,对所述本轮的自适应回声消除参数进行更新,得到下轮的自适应回声消除参数,包括:
所述更新模块按照如下公式更新得到下轮的自适应回声消除参数:
其中,Xi表示所述本轮的多个远端频域音频块中的第i个远端频域音频块,所述多个远端频域音频块为k个远端频域音频块,P表示所述本轮的远端音频数据的能量,N为包含k个元素的向量,相应地表示长度为k的所述本轮的近端音频数据,Ni为N的第i个元素,表示对所述第i个远端频域音频块的响应,a、a'为包含k个元素的向量,分别表示本轮和下轮的自适应回声消除参数,ai为a的第i个元素,ai'为a'的第i个元素,FFT表示快速傅里叶变换。
可选地,所述滤波结果包括
其中,N表示所述本轮的近端音频数据,表示由对所述本轮的多个远端频域音频块分别的响应构成的本轮的总响应。
可选地,所述远端音频数据是从远端至近端的音频输出端采集得到的,所述近端音频数据是从所述近端至所述远端的音频输入端采集得到的。
一种用于回声消除的滤波设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够多轮地迭代执行:
获取本轮的远端音频数据和近端音频数据,并对所述本轮的远端音频数据进行频域分块,得到本轮的多个远端频域音频块;
根据本轮的自适应回声消除参数,估计对所述本轮的多个远端频域音频块分别的响应;
根据所述本轮的近端音频数据和所述分别的响应,确定对所述本轮的近端音频数据的滤波结果;
其中,所述本轮的自适应回声消除参数是根据之前至少一轮的自适应回声消除参数和远端音频数据的能量更新得到的。
一种用于回声消除的滤波非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为多轮地迭代执行:
获取本轮的远端音频数据和近端音频数据,并对所述本轮的远端音频数据进行频域分块,得到本轮的多个远端频域音频块;
根据本轮的自适应回声消除参数,估计对所述本轮的多个远端频域音频块分别的响应;
根据所述本轮的近端音频数据和所述分别的响应,确定对所述本轮的近端音频数据的滤波结果;
其中,所述本轮的自适应回声消除参数是根据之前至少一轮的自适应回声消除参数和远端音频数据的能量更新得到的。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:对远端音频数据主动分块,并据此对近端音频数据自适应滤波,能够比较有效地消除远端与近端的双方或者多方进行语音通讯时产生的回声,从而有助于保证语音通讯质量。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请的一些实施例提供的远端与近端进行语音通讯时产生回声的一种原理示意图;
图2为本申请的一些实施例提供的一种用于回声消除的滤波方法的流程示意图;
图3为本申请的一些实施例提供的对应于图2的一种用于回声消除的滤波装置的结构示意图;
图4为本申请的一些实施例提供的对应于图2的一种用于回声消除的滤波设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解背景技术,本申请的一些实施例提供了远端与近端进行语音通讯时产生回声的一种原理示意图,如图1所示。
在图1中,远端用户从远端发送语音给近端,近端接收到远端语音后通过近端的听筒或者音箱对远端语音进行播放,近端用户在近端通过麦克风也发送语音给远端,但是,该麦克风不仅会采集到近端用户语音,还会采集到近端的听筒或者音箱所播放的语音(即对远端语音有响应),从而导致远端用户收听近端用户语音时,同时也会收到自己之前语音的回声,影响了用户体验。而本申请的方案通过在近端的麦克风或者其后端处理模块(比如,智能手机上的麦克风所连接的语音滤波模块等)对所采集的音频进行频域分块的自适应滤波处理,可以比较有效地消除回声。
下面对本申请的方案进行详细说明。
图2为本申请的一些实施例提供的一种用于回声消除的滤波方法的流程示意图。在该流程中,从设备角度而言,执行主体可以是一个或者多个通讯设备,比如,智能手机、会议电话机、家用座机等,更具体地可以是处于这些设备中麦克风或者其后端的功能模块,从程序角度而言,执行主体相应地可以是搭载于这些通讯设备上的程序,比如,多方会议电话应用、语音滤波模块等。该流程可以多轮地迭代执行,每轮分别处理一定长度的语音,从而实现持续地进行语音处理,每轮处理时可以参考之前一轮或者多轮处理时所使用的参数或者得到的处理结果,进行本轮的处理。
图2中的流程可以包括以下步骤:
S202:获取本轮的远端音频数据和近端音频数据,并对所述本轮的远端音频数据进行频域分块,得到本轮的多个远端频域音频块。
在本申请的一些实施例中,远端音频数据可以是从远端至近端的音频输出端采集得到的。具体地,远端音频数据可以采集自近端的听筒或者音箱,可以直接通过音频在近端空气传播的方式采集,比如,将听筒或者音箱播放出来的音频进行采集;或者,也可以从向听筒或者音箱输入音频的音源端直接将音频分接出来,这种情况所采集的音频可以不经过近端空气传播。
近端音频数据是从近端至远端的音频输入端采集得到的。具体地,近端音频数据可以采集自近端的麦克风,近端音频数据包含了近端的用户向麦克风发出的语音,以及麦克风或者其后端对远端音频数据的响应,响应包含了所要消除的回声(若不消除,则远端的用户会收听到该回声),除此之外,近端音频数据还可以包括一些环境噪音等。
在本申请的一些实施例中,在每轮可以分别根据本轮的远端音频数据,对本轮近端音频数据进行滤波处理。每轮的远端音频数据和近端音频数据的长度可以是多样的,两者之间的长度配合也可以是多样的,两者的时间可以同步也可以不同步。比如,每轮的近端音频数据的长度为k(k为大于或者等于1的整数,可以表示k个单位长度,单位长度可以根据需求自定义),而每轮的远端音频数据的长度为2k。
在本申请的一些实施例中,远端音频数据、近端音频数据通常是对音源数据进行采样、量化等处理后得到的离散数字信号,比如,按照16位二进制位数量化得到的离散数字信号;或者也可以是时域连续的信号,比如,模拟音频信号。远端音频数据、近端音频数据可以是时域音频信号,其幅值可以表示音频振幅或者能量等参数。
在本申请的一些实施例中,可以主动对本轮的远端音频数据进行频域分块,频域分块的方式可以是多样的,比如,先对远端音频数据进行时域分块,再将时域块从时域转换至频域,或者先将对远端音频数据从时域转换至频域,再进行分块。分块的具体方式也可以是多样的,比如,部分重叠地依次分块,或者直接不重叠地将远端音频数据均匀分块,等等。
所分出的每个远端频域音频块可以分别对应本轮的一部分近端音频数据,可以综合地考虑这个远端频域音频块的情况,对其对应的该一部分近端音频数据进行滤波处理,以提高滤波结果的可靠性。尤其对于部分重叠地依次分块的方式,在这种情况下,相邻的块部分相同,有直接的相关性,这使得针对各部分近端音频数据分别进行滤波处理时,不仅当前对应的块会影响对该部分近端音频的滤波结果,而且其相邻的块也会影响该滤波结果,如此有利于平衡误差,降低局部误差给整体带来的不利影响,得到相对可靠的对本轮的近端音频数据整体的滤波结果。
S204:根据本轮的自适应回声消除参数,估计对所述本轮的多个远端频域音频块分别的响应,其中,所述本轮的自适应回声消除参数是根据之前至少一轮的自适应回声消除参数和远端音频数据的能量更新得到的。
在本申请的一些实施例中,每轮都可以使用本轮的一个或者多个自适应回声消除参数,进行滤波处理。
自适应回声消除参数可以用于估计远端音频数据本身与远端音频数据给近端音频数据所带来的影响之间的关系,这种影响可以用对远端音频数据的响应来表示。一般地,远端音频数据本身不直接等于对远端音频数据的响应,因为近端空气传播过程,以及听筒、音箱、麦克风的失真情况都会使远端音频数据产生变化(比如,能量的衰减、频谱的偏移等),可以综合考虑至少部分这类变化,以估计对本轮的远端音频数据的响应。
自适应回声消除参数的具体形式可以是多样的,比如,幅值的系数、加减的调节项、对数转换逻辑等。
在本申请的一些实施例中,远端音频数据可能实时变化的,从而也会导致回声相应地变化,为了更有效地消除回声,可以采用自适应回声消除参数,而非固定不变的回声消除参数。这里的“自适应”可以指根据之前至少一轮和/或本轮的诸如振幅、能量、频谱等参数的实际情况进行自适应,以得到适合本轮使用的回声消除参数。
以能量为例,本轮的自适应回声消除参数比如可以根据之前至少一轮的自适应回声消除参数和远端音频数据的能量更新得到,如此,使得一段时间内持续地回声消除处理之间相关性提高,有助于减少局部误差。当然,所依据的数据可以不仅包括这些,比如,还可以根据远端音频数据的响应、远端音频数据的频谱等数据更新得到。更新时所采用的计算公式也可以是多样的,后面会举例进行说明。自适应回声消除参数初始时的值可以根据需要设定,比如设定为0或者其他常数,比如,小于1的正数等。
在本申请的一些实施例中,已经对远端音频数据进行了主动分块,相应地,可以分别估计对每个远端频域音频块的响应,以分别用于对本轮的一部分近端音频数据进行滤波处理。
S206:根据所述本轮的近端音频数据和所述分别的响应,确定对所述本轮的近端音频数据的滤波结果。
在本申请的一些实施例中,可以将本轮的响应从近端音频数据中滤除,得到滤波结果;当然,为了满足对滤波结果的更高要求,还可以进行更多处理,比如,滤除白噪声、滤除高频毛刺等,再得到滤波结果。
在本申请的一些实施例中,针对各远端频域音频块,可以利用其对应的响应,分别对一部分近端音频数据进行滤波,得到对各部分近端音频数据分别的滤波结果。可以对滤波后的各部分近端音频数据进行组合,得到本轮完整的滤波结果。
通过图2的方法,对远端音频数据主动分块,并据此对近端音频数据自适应滤波,能够比较有效地消除远端与近端的双方或者多方进行语音通讯时产生的回声,从而有助于保证语音通讯质量。
基于图2的方法,本申请的一些实施例还提供了该方法的一些具体实施方案,以及扩展方案,下面进行说明。
在本申请的一些实施例中,可以采用先对远端音频数据进行时域分块,再将时域块从时域转换至频域的频域分块方式。进一步地,可以采用部分重叠地依次分块的方式对远端音频数据进行时域分块,具体比如通过步进或者滑窗等手段分块,如此便于程序实现,效率也较高。
以通过步进手段分块为例,对于步骤S202,对本轮的远端音频数据进行频域分块,得到本轮的多个远端频域音频块,可以包括:按照指定的步进长度和块长度,通过在本轮的远端音频数据上步进的方式进行时域分块,得到本轮的多个远端时域音频块;对本轮的多个远端时域音频块分别进行傅里叶变换,得到本轮的多个远端频域音频块;其中,相邻的远端时域音频块之间可以存在部分重叠(在这种情况下,步进长度小于块长度)。步进长度、块长度可以是固定的,也可以是按照一定策略动态变化的。为了提高计算速度,可以采用快速傅里叶变换对远端时域音频块进行变换,得到相应的远端频域音频块。
假定本轮的远端音频数据记作F,F为包含2k个元素的向量,相应地表示长度为2k的本轮的远端音频数据,Fi为F的第i个元素,本轮的近端音频数据的长度为k。比如,可以设置步进长度为1,块长度为k(假定该例中k大于1),则对F划分出k个远端频域音频块,将其中的第i个远端频域音频块记作Xi,Xi包括FFT(Fi,Fi+1,...,Fi+k-1),FFT表示快速傅里叶变换,可以看到,Xi是由对应的远端时域音频块变换得到的,该远端时域音频块依次包含Fi,Fi+1,...,Fi+k-1,可以相应地以向量或者矩阵形式表示,当然,若具体的划分方案发生变化,则Xi中包含的内容也可能相应变化。本申请中定义的参数在各实施例中可以通用,简明起见,不对这些参数的定义重复说明。
在本申请的一些实施例中,对之后至少一轮的自适应回声消除参数的计算时刻并不做具体限定,取决于计算自适应回声消除参数所需依据的数据是否已经齐备,在这些数据齐备后的某一时刻,则可以更新自适应回声消除参数。比如,假定本轮的其他相关数据包括上述的滤波结果和分别的响应中的至少一种,并将其也作为自适应回声消除参数所依据的数据,则在本轮的远端音频数据的能量以及本轮的其他相关数据已经齐备后(可以是立即,也可以是一段时间后),可以据此对本轮的自适应回声消除参数进行更新,得到之后至少一轮的自适应回声消除参数。
在本申请的一些实施例中,前面已经提到,自适应回声消除参数的具体形式可以是多样的。自适应回声消除参数比如可以包括针对其对应轮的多个远端频域音频块的幅值的比例系数,在这种情况下,可以使用该比例系数,通过进行乘法运算,来估计对本轮的多个远端频域音频块分别的响应,这种方式的优点在于,可以使得远端音频数据与对应的响应被尽量地近似为简单的线性关系,从而有助于减少计算量。自适应回声消除参数比如还可以包括针对其对应轮的多个远端频域音频块的加减的调节项,可以使用该调节项,通过进行加减法运算,来估计对本轮的多个远端频域音频块分别的响应。
以比例系数为例,假定自适应回声消除参数具体表示为由多个幅值比例系数构成的向量,且该分别的响应为时域响应,对于步骤S204,根据本轮的自适应回声消除参数,估计对本轮的多个远端频域音频块分别的响应,可以包括:
分别针对本轮的多个远端频域音频块中的每个远端频域音频块,执行:根据本轮的自适应回声消除参数所包括的上述的比例系数,对该远端频域音频块的幅值进行处理,得到频域中间处理结果;对频域中间处理结果进行反傅里叶变换,并根据反傅里叶变换结果,估计对该远端频域音频块的响应。
例如,可以按照如下公式,估计对本轮的多个远端频域音频块分别的响应:其中,a为包含k个元素的向量,表示本轮的自适应回声消除参数,第一轮的自适应回声消除参数比如为0,aj为a的第j个元素,IFFT表示快速反傅里叶变换,real表示取复数的实数部分的函数,表示对第i个远端频域音频块的响应。
在本申请的一些实施例中,对于步骤S206,滤波结果可以包括多个远端频域音频块分别对应的部分滤波结果;相应地,根据本轮的自适应回声消除参数和远端音频数据的能量,以及本轮的其他相关数据,对本轮的自适应回声消除参数进行更新,得到之后至少一轮的自适应回声消除参数,比如可以包括:
根据上述的分别对应的部分滤波结果、本轮的远端音频数据的能量,以及上述的分别的响应,生成参数更新项或者参数更新系数;利用参数更新项或者参数更新系数,对本轮的自适应回声消除参数进行更新,得到下轮的自适应回声消除参数。
在本申请的一些实施例中,一般地,可以用音频声波的平均能流密度(即单位时间流经某处单位面积介质的能量的平均值的多少),来表示音频的能量,在这种情况下,本轮的远端音频数据的能量比如可以按照公式计算得到;其中,P表示所计算得到的本轮的远端音频数据的能量,ρ表示传播介质密度,ω表示音频频率,u表示音频波速。
为了减少计算量,也可以近似地计算能量,比如,直接用振幅的平方值近似地计算能量。比如,本轮的远端音频数据的能量可以按照公式计算得到,或者按照公式P=mean(F)2·2k计算得到,mean表示对所有元素求平均值的函数。
在本申请的一些实施例中,假定利用参数更新项来更新自适应回声消除参数。比如,参数更新项可以包括在这里,Xi *表示求Xi的共轭转置,与Xi *之间的乘积运算是频域的乘积运算,相当于对应的时域的卷积运算,能够反映本轮的一部分远端音频数据对其对应的一部分近端音频数据所带来的混响能量误差;利用参数更新项,对本轮的自适应回声消除参数进行更新,得到下轮的自适应回声消除参数,比如可以包括:
按照如下公式更新得到下轮的自适应回声消除参数:其中,N为包含k个元素的向量,相应地表示长度为k的本轮的近端音频数据,Ni为N的第i个元素,表示对第i个远端频域音频块的响应,a、a'为包含k个元素的向量,分别表示本轮和下轮的自适应回声消除参数,ai为a的第i个元素,ai'为a'的第i个元素。
在本申请的一些实施例中,假定将本轮的响应从近端音频数据中滤除,直接得到滤波结果,如此,有助于减少计算量,降低语音通讯双方所感受到的声音延迟。在这种情况下,对本轮的近端音频数据的滤波结果可以包括表示由对本轮的多个远端频域音频块分别的响应构成的本轮的总响应。
需要说明的是,上面列举的一些公式反映了本申请方案的思想,但是并非是唯一实施形式,基于本申请方案的思想,能够得到更多的类似公式替代上面的公式。
基于同样的思路,本申请的一些实施例还提供了上述方法对应的装置、设备和非易失性计算机存储介质。
图3为本申请的一些实施例提供的对应于图2的一种用于回声消除的滤波装置的结构示意图,该装置对其动作多轮地迭代执行,该装置包括:
分块模块301,获取本轮的远端音频数据和近端音频数据,并对所述本轮的远端音频数据进行频域分块,得到本轮的多个远端频域音频块;
估计模块302,根据本轮的自适应回声消除参数,估计对所述本轮的多个远端频域音频块分别的响应;
确定模块303,根据所述本轮的近端音频数据和所述分别的响应,确定对所述本轮的近端音频数据的滤波结果;
其中,所述本轮的自适应回声消除参数是根据之前至少一轮的自适应回声消除参数和远端音频数据的能量更新得到的。
可选地,所述分块模块301对所述本轮的远端音频数据进行频域分块,得到本轮的多个远端频域音频块,包括:
所述分块模块301按照指定的步进长度和块长度,通过在所述本轮的远端音频数据上步进的方式进行时域分块,得到本轮的多个远端时域音频块;
对所述本轮的多个远端时域音频块分别进行傅里叶变换,得到本轮的多个远端频域音频块;
其中,相邻的远端时域音频块之间存在部分重叠。
可选地,所述装置还包括:
更新模块304,根据所述本轮的自适应回声消除参数和远端音频数据的能量,以及本轮的其他相关数据,对所述本轮的自适应回声消除参数进行更新,得到之后至少一轮的自适应回声消除参数;
其中,所述其他相关数据包括以下至少一种:所述滤波结果、所述分别的响应。
可选地,所述自适应回声消除参数包括针对其对应轮的多个远端频域音频块的幅值的比例系数。
可选地,所述滤波结果包括所述多个远端频域音频块分别对应的部分滤波结果;
所述更新模块304根据所述本轮的自适应回声消除参数和远端音频数据的能量,以及本轮的其他相关数据,对所述本轮的自适应回声消除参数进行更新,得到之后至少一轮的自适应回声消除参数,包括:
所述更新模块304根据所述分别对应的部分滤波结果、所述本轮的远端音频数据的能量,以及所述分别的响应,生成参数更新项或者参数更新系数;
利用所述参数更新项或者参数更新系数,对所述本轮的自适应回声消除参数进行更新,得到下轮的自适应回声消除参数。
可选地,所述本轮的远端音频数据记作F,F为包含2k个元素的向量,相应地表示长度为2k的所述本轮的远端音频数据,Fi为F的第i个元素,所述本轮的近端音频数据的长度为k;
所述本轮的多个远端频域音频块中的第i个远端频域音频块记作Xi,包括:FFT(Fi,Fi+1,...,Fi+k-1),其中,FFT表示快速傅里叶变换。
可选地,所述估计模块302根据本轮的自适应回声消除参数,估计对所述本轮的多个远端频域音频块分别的响应,包括:
所述估计模块302分别针对所述本轮的多个远端频域音频块中的每个远端频域音频块,执行:
根据本轮的自适应回声消除参数所包括的所述比例系数,对该远端频域音频块的幅值进行处理,得到频域中间处理结果;
对所述频域中间处理结果进行反傅里叶变换,并根据所述反傅里叶变换结果,估计对该远端频域音频块的响应。
可选地,所述估计模块302按照如下公式,估计对所述本轮的多个远端频域音频块分别的响应:
其中,Xi表示所述本轮的多个远端频域音频块中的第i个远端频域音频块,a为包含k个元素的向量,表示所述本轮的自适应回声消除参数,aj为a的第j个元素,IFFT表示快速反傅里叶变换,real表示取复数的实数部分的函数,表示对所述第i个远端频域音频块的响应。
可选地,所述本轮的远端音频数据的能量按照公式P=mean(F)2·2k计算得到;
其中,P表示所述本轮的远端音频数据的能量,F为包含2k个元素的向量,相应地表示长度为2k的所述本轮的远端音频数据,mean表示对所有元素求平均值的函数。
可选地,所述参数更新项包括
所述更新模块304利用所述参数更新项,对所述本轮的自适应回声消除参数进行更新,得到下轮的自适应回声消除参数,包括:
所述更新模块304按照如下公式更新得到下轮的自适应回声消除参数:
其中,Xi表示所述本轮的多个远端频域音频块中的第i个远端频域音频块,所述多个远端频域音频块为k个远端频域音频块,P表示所述本轮的远端音频数据的能量,N为包含k个元素的向量,相应地表示长度为k的所述本轮的近端音频数据,Ni为N的第i个元素,表示对所述第i个远端频域音频块的响应,a、a'为包含k个元素的向量,分别表示本轮和下轮的自适应回声消除参数,ai为a的第i个元素,ai'为a'的第i个元素,FFT表示快速傅里叶变换。
可选地,所述滤波结果包括
其中,N表示所述本轮的近端音频数据,表示由对所述本轮的多个远端频域音频块分别的响应构成的本轮的总响应。
可选地,所述远端音频数据是从远端至近端的音频输出端采集得到的,所述近端音频数据是从所述近端至所述远端的音频输入端采集得到的。
图4为本申请的一些实施例提供的对应于图2的一种用于回声消除的滤波设备的结构示意图,该设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够多轮地迭代执行:
获取本轮的远端音频数据和近端音频数据,并对所述本轮的远端音频数据进行频域分块,得到本轮的多个远端频域音频块;
根据本轮的自适应回声消除参数,估计对所述本轮的多个远端频域音频块分别的响应;
根据所述本轮的近端音频数据和所述分别的响应,确定对所述本轮的近端音频数据的滤波结果;
其中,所述本轮的自适应回声消除参数是根据之前至少一轮的自适应回声消除参数和远端音频数据的能量更新得到的。
本申请的一些实施例提供的对应于图2的一种用于回声消除的滤波非易失性计算机存储介质,存储有计算机可执行指令,该计算机可执行指令设置为多轮地迭代执行:
获取本轮的远端音频数据和近端音频数据,并对所述本轮的远端音频数据进行频域分块,得到本轮的多个远端频域音频块;
根据本轮的自适应回声消除参数,估计对所述本轮的多个远端频域音频块分别的响应;
根据所述本轮的近端音频数据和所述分别的响应,确定对所述本轮的近端音频数据的滤波结果;
其中,所述本轮的自适应回声消除参数是根据之前至少一轮的自适应回声消除参数和远端音频数据的能量更新得到的。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的装置、设备和介质与方法是一一对应的,因此,装置、设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述装置、设备和介质的有益技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (26)
1.一种用于回声消除的滤波方法,其特征在于,所述方法多轮地迭代执行,所述方法包括:
获取本轮的远端音频数据和近端音频数据,并对所述本轮的远端音频数据进行频域分块,得到本轮的多个远端频域音频块;
根据本轮的自适应回声消除参数,估计对所述本轮的多个远端频域音频块分别的响应;
根据所述本轮的近端音频数据和所述分别的响应,确定对所述本轮的近端音频数据的滤波结果;
其中,所述本轮的自适应回声消除参数是根据之前至少一轮的自适应回声消除参数和远端音频数据的能量更新得到的。
2.如权利要求1所述的方法,其特征在于,所述对所述本轮的远端音频数据进行频域分块,得到本轮的多个远端频域音频块,包括:
按照指定的步进长度和块长度,通过在所述本轮的远端音频数据上步进的方式进行时域分块,得到本轮的多个远端时域音频块;
对所述本轮的多个远端时域音频块分别进行傅里叶变换,得到本轮的多个远端频域音频块;
其中,相邻的远端时域音频块之间存在部分重叠。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述本轮的自适应回声消除参数和远端音频数据的能量,以及本轮的其他相关数据,对所述本轮的自适应回声消除参数进行更新,得到之后至少一轮的自适应回声消除参数;
其中,所述其他相关数据包括以下至少一种:所述滤波结果、所述分别的响应。
4.如权利要求1所述的方法,其特征在于,所述自适应回声消除参数包括针对其对应轮的多个远端频域音频块的幅值的比例系数。
5.如权利要求3所述的方法,其特征在于,所述滤波结果包括所述多个远端频域音频块分别对应的部分滤波结果;
所述根据所述本轮的自适应回声消除参数和远端音频数据的能量,以及本轮的其他相关数据,对所述本轮的自适应回声消除参数进行更新,得到之后至少一轮的自适应回声消除参数,包括:
根据所述分别对应的部分滤波结果、所述本轮的远端音频数据的能量,以及所述分别的响应,生成参数更新项或者参数更新系数;
利用所述参数更新项或者参数更新系数,对所述本轮的自适应回声消除参数进行更新,得到下轮的自适应回声消除参数。
6.如权利要求2所述的方法,其特征在于,所述本轮的远端音频数据记作F,F为包含2k个元素的向量,相应地表示长度为2k的所述本轮的远端音频数据,Fi为F的第i个元素,所述本轮的近端音频数据的长度为k;
所述本轮的多个远端频域音频块中的第i个远端频域音频块记作Xi,包括:FFT(Fi,Fi+1,...,Fi+k-1),其中,FFT表示快速傅里叶变换。
7.如权利要求4所述的方法,其特征在于,所述根据本轮的自适应回声消除参数,估计对所述本轮的多个远端频域音频块分别的响应,包括:
分别针对所述本轮的多个远端频域音频块中的每个远端频域音频块,执行:
根据本轮的自适应回声消除参数所包括的所述比例系数,对该远端频域音频块的幅值进行处理,得到频域中间处理结果;
对所述频域中间处理结果进行反傅里叶变换,并根据所述反傅里叶变换结果,估计对该远端频域音频块的响应。
8.如权利要求7所述的方法,其特征在于,按照如下公式,估计对所述本轮的多个远端频域音频块分别的响应:
其中,Xi表示所述本轮的多个远端频域音频块中的第i个远端频域音频块,a为包含k个元素的向量,表示所述本轮的自适应回声消除参数,aj为a的第j个元素,IFFT表示快速反傅里叶变换,real表示取复数的实数部分的函数,表示对所述第i个远端频域音频块的响应。
9.如权利要求3所述的方法,其特征在于,所述本轮的远端音频数据的能量按照公式P=mean(F)2·2k计算得到;
其中,P表示所述本轮的远端音频数据的能量,F为包含2k个元素的向量,相应地表示长度为2k的所述本轮的远端音频数据,mean表示对所有元素求平均值的函数。
10.如权利要求5所述的方法,其特征在于,所述参数更新项包括
所述利用所述参数更新项,对所述本轮的自适应回声消除参数进行更新,得到下轮的自适应回声消除参数,包括:
按照如下公式更新得到下轮的自适应回声消除参数:
其中,Xi表示所述本轮的多个远端频域音频块中的第i个远端频域音频块,所述多个远端频域音频块为k个远端频域音频块,P表示所述本轮的远端音频数据的能量,N为包含k个元素的向量,相应地表示长度为k的所述本轮的近端音频数据,Ni为N的第i个元素,表示对所述第i个远端频域音频块的响应,a、a'为包含k个元素的向量,分别表示本轮和下轮的自适应回声消除参数,ai为a的第i个元素,ai'为a'的第i个元素,FFT表示快速傅里叶变换。
11.如权利要求1所述的方法,其特征在于,所述滤波结果包括
其中,N表示所述本轮的近端音频数据,表示由对所述本轮的多个远端频域音频块分别的响应构成的本轮的总响应。
12.如权利要求1~11任一项所述的方法,其特征在于,所述远端音频数据是从远端至近端的音频输出端采集得到的,所述近端音频数据是从所述近端至所述远端的音频输入端采集得到的。
13.一种用于回声消除的滤波装置,其特征在于,所述装置对其动作多轮地迭代执行,所述装置包括:
分块模块,获取本轮的远端音频数据和近端音频数据,并对所述本轮的远端音频数据进行频域分块,得到本轮的多个远端频域音频块;
估计模块,根据本轮的自适应回声消除参数,估计对所述本轮的多个远端频域音频块分别的响应;
确定模块,根据所述本轮的近端音频数据和所述分别的响应,确定对所述本轮的近端音频数据的滤波结果;
其中,所述本轮的自适应回声消除参数是根据之前至少一轮的自适应回声消除参数和远端音频数据的能量更新得到的。
14.如权利要求13所述的装置,其特征在于,所述分块模块对所述本轮的远端音频数据进行频域分块,得到本轮的多个远端频域音频块,包括:
所述分块模块按照指定的步进长度和块长度,通过在所述本轮的远端音频数据上步进的方式进行时域分块,得到本轮的多个远端时域音频块;
对所述本轮的多个远端时域音频块分别进行傅里叶变换,得到本轮的多个远端频域音频块;
其中,相邻的远端时域音频块之间存在部分重叠。
15.如权利要求13所述的装置,其特征在于,所述装置还包括:
更新模块,根据所述本轮的自适应回声消除参数和远端音频数据的能量,以及本轮的其他相关数据,对所述本轮的自适应回声消除参数进行更新,得到之后至少一轮的自适应回声消除参数;
其中,所述其他相关数据包括以下至少一种:所述滤波结果、所述分别的响应。
16.如权利要求13所述的装置,其特征在于,所述自适应回声消除参数包括针对其对应轮的多个远端频域音频块的幅值的比例系数。
17.如权利要求15所述的装置,其特征在于,所述滤波结果包括所述多个远端频域音频块分别对应的部分滤波结果;
所述更新模块根据所述本轮的自适应回声消除参数和远端音频数据的能量,以及本轮的其他相关数据,对所述本轮的自适应回声消除参数进行更新,得到之后至少一轮的自适应回声消除参数,包括:
所述更新模块根据所述分别对应的部分滤波结果、所述本轮的远端音频数据的能量,以及所述分别的响应,生成参数更新项或者参数更新系数;
利用所述参数更新项或者参数更新系数,对所述本轮的自适应回声消除参数进行更新,得到下轮的自适应回声消除参数。
18.如权利要求14所述的装置,其特征在于,所述本轮的远端音频数据记作F,F为包含2k个元素的向量,相应地表示长度为2k的所述本轮的远端音频数据,Fi为F的第i个元素,所述本轮的近端音频数据的长度为k;
所述本轮的多个远端频域音频块中的第i个远端频域音频块记作Xi,包括:FFT(Fi,Fi+1,...,Fi+k-1),其中,FFT表示快速傅里叶变换。
19.如权利要求16所述的装置,其特征在于,所述估计模块根据本轮的自适应回声消除参数,估计对所述本轮的多个远端频域音频块分别的响应,包括:
所述估计模块分别针对所述本轮的多个远端频域音频块中的每个远端频域音频块,执行:
根据本轮的自适应回声消除参数所包括的所述比例系数,对该远端频域音频块的幅值进行处理,得到频域中间处理结果;
对所述频域中间处理结果进行反傅里叶变换,并根据所述反傅里叶变换结果,估计对该远端频域音频块的响应。
20.如权利要求19所述的装置,其特征在于,所述估计模块按照如下公式,估计对所述本轮的多个远端频域音频块分别的响应:
其中,Xi表示所述本轮的多个远端频域音频块中的第i个远端频域音频块,a为包含k个元素的向量,表示所述本轮的自适应回声消除参数,aj为a的第j个元素,IFFT表示快速反傅里叶变换,real表示取复数的实数部分的函数,表示对所述第i个远端频域音频块的响应。
21.如权利要求15所述的装置,其特征在于,所述本轮的远端音频数据的能量按照公式P=mean(F)2·2k计算得到;
其中,P表示所述本轮的远端音频数据的能量,F为包含2k个元素的向量,相应地表示长度为2k的所述本轮的远端音频数据,mean表示对所有元素求平均值的函数。
22.如权利要求17所述的装置,其特征在于,所述参数更新项包括
所述更新模块利用所述参数更新项,对所述本轮的自适应回声消除参数进行更新,得到下轮的自适应回声消除参数,包括:
所述更新模块按照如下公式更新得到下轮的自适应回声消除参数:
其中,Xi表示所述本轮的多个远端频域音频块中的第i个远端频域音频块,所述多个远端频域音频块为k个远端频域音频块,P表示所述本轮的远端音频数据的能量,N为包含k个元素的向量,相应地表示长度为k的所述本轮的近端音频数据,Ni为N的第i个元素,表示对所述第i个远端频域音频块的响应,a、a'为包含k个元素的向量,分别表示本轮和下轮的自适应回声消除参数,ai为a的第i个元素,ai'为a'的第i个元素,FFT表示快速傅里叶变换。
23.如权利要求13所述的装置,其特征在于,所述滤波结果包括
其中,N表示所述本轮的近端音频数据,表示由对所述本轮的多个远端频域音频块分别的响应构成的本轮的总响应。
24.如权利要求13~23任一项所述的装置,其特征在于,所述远端音频数据是从远端至近端的音频输出端采集得到的,所述近端音频数据是从所述近端至所述远端的音频输入端采集得到的。
25.一种用于回声消除的滤波设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够多轮地迭代执行:
获取本轮的远端音频数据和近端音频数据,并对所述本轮的远端音频数据进行频域分块,得到本轮的多个远端频域音频块;
根据本轮的自适应回声消除参数,估计对所述本轮的多个远端频域音频块分别的响应;
根据所述本轮的近端音频数据和所述分别的响应,确定对所述本轮的近端音频数据的滤波结果;
其中,所述本轮的自适应回声消除参数是根据之前至少一轮的自适应回声消除参数和远端音频数据的能量更新得到的。
26.一种用于回声消除的滤波非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为多轮地迭代执行:
获取本轮的远端音频数据和近端音频数据,并对所述本轮的远端音频数据进行频域分块,得到本轮的多个远端频域音频块;
根据本轮的自适应回声消除参数,估计对所述本轮的多个远端频域音频块分别的响应;
根据所述本轮的近端音频数据和所述分别的响应,确定对所述本轮的近端音频数据的滤波结果;
其中,所述本轮的自适应回声消除参数是根据之前至少一轮的自适应回声消除参数和远端音频数据的能量更新得到的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811540805.XA CN109379501B (zh) | 2018-12-17 | 2018-12-17 | 一种用于回声消除的滤波方法及装置、设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811540805.XA CN109379501B (zh) | 2018-12-17 | 2018-12-17 | 一种用于回声消除的滤波方法及装置、设备、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109379501A true CN109379501A (zh) | 2019-02-22 |
CN109379501B CN109379501B (zh) | 2021-12-21 |
Family
ID=65374175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811540805.XA Active CN109379501B (zh) | 2018-12-17 | 2018-12-17 | 一种用于回声消除的滤波方法及装置、设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109379501B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110138990A (zh) * | 2019-05-14 | 2019-08-16 | 浙江工业大学 | 一种消除移动设备VoIP电话回声的方法 |
CN113362842A (zh) * | 2021-06-30 | 2021-09-07 | 北京小米移动软件有限公司 | 音频信号处理方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102185991A (zh) * | 2011-03-01 | 2011-09-14 | 杭州华三通信技术有限公司 | 回声消除方法、系统和装置 |
WO2013040414A1 (en) * | 2011-09-16 | 2013-03-21 | Qualcomm Incorporated | Mobile device context information using speech detection |
US20150205570A1 (en) * | 2007-09-06 | 2015-07-23 | Adobe Systems Incorporated | Image Edited Audio Data |
CN105957520A (zh) * | 2016-07-04 | 2016-09-21 | 北京邮电大学 | 一种适用于回声消除系统的语音状态检测方法 |
CN106098079A (zh) * | 2015-04-30 | 2016-11-09 | 智原科技股份有限公司 | 音频信号的信号提取方法与装置 |
CN106340303A (zh) * | 2016-09-20 | 2017-01-18 | 南京朗逸锐科电子科技有限公司 | 一种基于时间频率域的语音降噪方法 |
CN106412352A (zh) * | 2016-09-19 | 2017-02-15 | 东莞理工学院 | 一种时频记忆子带比例自适应回声消除方法及回馈方法 |
CN108172233A (zh) * | 2017-12-12 | 2018-06-15 | 天格科技(杭州)有限公司 | 基于远端估计信号和误差信号回归因子的回声消除方法 |
-
2018
- 2018-12-17 CN CN201811540805.XA patent/CN109379501B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150205570A1 (en) * | 2007-09-06 | 2015-07-23 | Adobe Systems Incorporated | Image Edited Audio Data |
CN102185991A (zh) * | 2011-03-01 | 2011-09-14 | 杭州华三通信技术有限公司 | 回声消除方法、系统和装置 |
WO2013040414A1 (en) * | 2011-09-16 | 2013-03-21 | Qualcomm Incorporated | Mobile device context information using speech detection |
CN106098079A (zh) * | 2015-04-30 | 2016-11-09 | 智原科技股份有限公司 | 音频信号的信号提取方法与装置 |
CN105957520A (zh) * | 2016-07-04 | 2016-09-21 | 北京邮电大学 | 一种适用于回声消除系统的语音状态检测方法 |
CN106412352A (zh) * | 2016-09-19 | 2017-02-15 | 东莞理工学院 | 一种时频记忆子带比例自适应回声消除方法及回馈方法 |
CN106340303A (zh) * | 2016-09-20 | 2017-01-18 | 南京朗逸锐科电子科技有限公司 | 一种基于时间频率域的语音降噪方法 |
CN108172233A (zh) * | 2017-12-12 | 2018-06-15 | 天格科技(杭州)有限公司 | 基于远端估计信号和误差信号回归因子的回声消除方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110138990A (zh) * | 2019-05-14 | 2019-08-16 | 浙江工业大学 | 一种消除移动设备VoIP电话回声的方法 |
CN113362842A (zh) * | 2021-06-30 | 2021-09-07 | 北京小米移动软件有限公司 | 音频信号处理方法及装置 |
CN113362842B (zh) * | 2021-06-30 | 2022-11-11 | 北京小米移动软件有限公司 | 音频信号处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109379501B (zh) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101331388B1 (ko) | 음향 에코를 제거하기 위한 컴퓨터 구현 프로세스 및 시스템 | |
CN111341336B (zh) | 一种回声消除方法、装置、终端设备及介质 | |
JP5284475B2 (ja) | 前白色化を伴うlmsアルゴリズムによって適応させられる適応フィルタの更新済みフィルタ係数を決定する方法 | |
KR101250124B1 (ko) | 에코 억제 필터를 위한 제어 정보를 계산하는 장치 및 방법 및 지연 값을 계산하는 장치 및 방법 | |
US11297178B2 (en) | Method, apparatus, and computer-readable media utilizing residual echo estimate information to derive secondary echo reduction parameters | |
JP7003153B2 (ja) | マルチチャネル干渉除去のための装置および方法 | |
JP2002528995A (ja) | 周波数ドメインの非線形プロセッシングを使用したエコー・サプレッションを提供するための方法および装置 | |
CN101964670A (zh) | 回声抑制方法及回声抑制设备 | |
EP3796629B1 (en) | Double talk detection method, double talk detection device and echo cancellation system | |
US9020144B1 (en) | Cross-domain processing for noise and echo suppression | |
CN109379501B (zh) | 一种用于回声消除的滤波方法及装置、设备、介质 | |
CN112201273A (zh) | 一种噪声功率谱密度计算方法、系统、设备及介质 | |
CN113838471A (zh) | 基于神经网络的降噪方法、系统、电子设备及存储介质 | |
Hofmann et al. | Significance-aware filtering for nonlinear acoustic echo cancellation | |
Schrammen et al. | Efficient nonlinear acoustic echo cancellation by dual-stage multi-channel Kalman filtering | |
CN115565543A (zh) | 一种基于深度神经网络的单通道语音回声消除方法和装置 | |
CN109493878B (zh) | 一种用于回声消除的滤波方法及装置、设备、介质 | |
CN109935238B (zh) | 一种回声消除方法、装置和终端设备 | |
TWI234941B (en) | Echo canceler, article of manufacture, and method and system for canceling echo | |
US20110116644A1 (en) | Simulated background noise enabled echo canceller | |
JP3673727B2 (ja) | 反響消去方法、その装置、そのプログラム及びその記録媒体 | |
CN109448748B (zh) | 一种用于回声消除的滤波方法及装置、设备、介质 | |
JP4041770B2 (ja) | 音響エコー消去方法、その装置、プログラム及びその記録媒体 | |
JP2023519249A (ja) | エコー残留抑制 | |
US20200152167A1 (en) | Predictive acoustic echo cancellation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20201204 Address after: Room 206, 2 / F, building C, phase I, Zhongguancun Software Park, No. 8, Dongbei Wangxi Road, Haidian District, Beijing 100094 Applicant after: Canaan Bright Sight Co.,Ltd. Address before: 310000, room 12, building 4, building nine, No. nine, 1203 Ring Road, Hangzhou, Zhejiang, Jianggan District Applicant before: Hangzhou Canaan Creative Information Technology Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |