CN111640449A - 一种回音消除方法、计算机可读存储介质和电子设备 - Google Patents

一种回音消除方法、计算机可读存储介质和电子设备 Download PDF

Info

Publication number
CN111640449A
CN111640449A CN202010519508.8A CN202010519508A CN111640449A CN 111640449 A CN111640449 A CN 111640449A CN 202010519508 A CN202010519508 A CN 202010519508A CN 111640449 A CN111640449 A CN 111640449A
Authority
CN
China
Prior art keywords
echo
adaptive filter
data
audio data
far
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010519508.8A
Other languages
English (en)
Other versions
CN111640449B (zh
Inventor
蒋文斌
杨超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dami Technology Co Ltd
Original Assignee
Beijing Dami Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dami Technology Co Ltd filed Critical Beijing Dami Technology Co Ltd
Priority to CN202010519508.8A priority Critical patent/CN111640449B/zh
Publication of CN111640449A publication Critical patent/CN111640449A/zh
Application granted granted Critical
Publication of CN111640449B publication Critical patent/CN111640449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明实施例公开了一种回音消除方法、计算机可读存储介质和电子设备。所述方法通过获取终端类型确定处理长度,将具有处理长度的远端音频数据送入自适应滤波器,获得回音预测数据;通过麦克风获取具有处理长度的近端音频数据,使用远端音频数据估计回音预测数据,并在消音器中去除回音预测数据,从而达到了消除回音的效果。为适应不同的终端类型,将远端音频数据划分为预定数量的数据段,其中,各数据段包括多个音频数据点,同时,按照平台类型调整自适应滤波器的长度,通过远端音频数据与自适应滤波器进行滤波,使得回音消除方法能够适应在不同的平台应用、并且更加有效地消除不同平台下的回音,从而提升了用户的体验。

Description

一种回音消除方法、计算机可读存储介质和电子设备
技术领域
本发明涉及计算机技术领域,具体涉及一种回音消除方法、计算机可读存储介质和电子设备。
背景技术
在线实时对话(例如:在线会议、在线教学、在线聊天等)场景下,由于本地麦克风会实时采集用户的声音,而远端所发送的音频数据通过本地扬声器播放产生的声音在某些情况下也会本地被麦克风采集。由此,如果不做任何处理直接将本地麦克风采集的声音发送给远端后,会在远端产生回音,类似的,远端直接将麦克风的声音发送过来,本地播放时也会产生回音。
由于不同的场景下、不同平台下的回音噪音有所差别,回音延迟也不同,现有技术未能实现对回音处理按照不同平台进行的自动调整滤波器长度,降低了用户体验。
发明内容
有鉴于此,本发明实施例的目的是提供一种回音消除方法、计算机可读存储介质和电子设备,以解决现有技术中回音消除方法无法适应不同平台、从而降低用户体验的难题。
第一方面,本发明实施例提供一种回音消除方法,所述方法包括:
根据终端类型确定处理长度;
获取具有处理长度的第一远端音频数据,所述第一远端音频数据经扬声器播放;
通过麦克风获取具有处理长度的第一近端音频数据;
将所述第一远端音频数据划分为预定数量的数据段,其中,各数据段包括多个音频数据点;
根据所述处理长度确定初始自适应滤波器;
将所述第一远端音频数据输入所述初始自适应滤波器以确定第一回音预测数据;
以迭代方式更新所述自适应滤波器的传递属性直至自适应滤波器收敛,以确定回音消除自适应滤波器,其中,所述自适应滤波器收敛为残留数据小于设定阈值;所述残留数据为所述第一近端数据和所述第一回音预测数据的差值;
基于所述回音消除自适应滤波器后进行回音消除。
优选地,以迭代方式更新所述自适应滤波器的传递属性直至自适应滤波器收敛,以确定回音消除自适应滤波器包括:
确定当前周期的回音预测数据;
根据当前周期的回音预测数据和所述近端数据确定残留数据;
响应于所述自适应滤波器未收敛,根据所述残留数据调整当前周期的自适应滤波器的传递属性;
和/或,响应于所述自适应滤波器收敛,将当前周期的自适应滤波器确定为所述回音消除滤波器。
优选地,根据所述残留数据调整当前周期的自适应滤波器的传递属性具体为:采用能量归一化最小均方差(NLMS)算法调整所述传递属性。
优选地,在能量归一化最小均方差(NLMS)算法中,所述滤波器的步长因子是大于0且小于1的常量。
优选地,所述终端类型为终端操作系统的类型。
优选地,响应于所述终端类型为Windows,所述处理长度为20-30段;和/或,
响应于所述终端类型为android高端设备,所述处理长度为20-30段;和/或,
响应于所述终端类型为android低端设备,所述处理长度为10-15段;和/或,
响应于所述终端类型为IOS高端设备,所述处理长度为20-30段;和/或,
响应于所述终端类型为IOS低端设备,所述处理长度为10-15段;和/或,
其中,各数据段包括50-80个音频数据点。
优选地,基于所述回音消除自适应滤波器进行回音消除包括:
实时获取具有处理长度的第二远端音频数据;
根据所述第二远端音频数据输入自适应滤波器以确定第二回音预测数据。
优选地,基于所述回音消除自适应滤波器进行回音消除还包括:
通过麦克风获取具有处理长度的第二近端音频数据,在第二近端数据中消除第二回音预测数据,获得纯净语音。
第二方面,本发明实施例提供一种计算机可读存储介质,用于存储计算机程序指令,所述计算机程序指令在被处理器执行时实现第一方面的方法。
第三方面,本发明实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现第一方面的方法。
本发明实施例通过获取终端类型从而确定处理长度,将具有处理长度的远端音频数据送入自适应滤波器,获得回音预测数据;通过麦克风获取具有处理长度的近端音频数据,使用远端音频数据估计回音预测数据,并在消音器中去除回音预测数据,从而达到了消除回音的效果。为适应不同的终端类型,将远端音频数据划分为预定数量的数据段,其中,各数据段包括多个音频数据点,同时,按照平台类型调整自适应滤波器的长度,通过远端音频数据与自适应滤波器进行滤波,使得回音消除方法能够适应在不同的平台应用、并且更加有效地消除不同平台下的回音,从而提升了用户的体验。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是在线通信系统中回音产生的原理图;
图2是本发明实施例的远端模式下回声消除方法的原理图;
图3是本发明实施例的近端模式下回声消除方法的原理图;
图4是本发明实施例的回音消除方法的流程图;
图5是本发明实施例更新自适应滤波器的传递属性的流程图;
图6是本发明实施类卷积运算的示意图;
图7为本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
图1是在线通信系统中回音产生的原理图。
如图1所示,在线通信系统中,远端语音信号Y通过网络传输到近端扬声器,经近端扬声器后在近端接收者所在的室内播放。由于室内空间存在多种回声信道W^=[w^0,w^1,……,w^L-1],此时,远端语音信号Y经近端扬声器播放后在各回声信道的作用下形成回声语音Y1。其中,w^0是远端语音信号Y在近端播放时直接到达近端麦克风的一路回声信道、w^1是远端语音信号Y在近端播放时经过墙壁1各处折射的一路回声信道、w^2是远端语音信号Y在近端播放时经过墙壁1不同位置折射的另一路回声信道。回声语音Y1是远端语音信号Y在近端播放时经不同的回声信道的回声语音集合,Y1经过多个的回声信道后被近端麦克风收集、采样后形成近端语音信号D。近端语音信号D经过网络传输后发送到远端扬声器,此时,远端使用者会听到语音信号D(由于语音信号D是通过对回声语音Y1收集、采样后得到的,远端使用者听到了采样后的回声语音,也就是,远端使用者在远端扬声器中听到自己的声音),严重影响了远端使用者的体验度。
回声消除方法的原理分为远端模式和近端模式。
图2是本发明实施例的远端模式下回声消除方法的原理图。
如图2所示,远端模式是远端的使用者通过远端麦克风讲话,近端使用者未讲话的模式。远端讲话时,远端语音信号Y(也即远端音频数据)通过网络传输到近端扬声器,近端扬声器播放远端语音信号Y,在近端的室内播放时,经过近端室内空间的各种回声信道W^=[w^0,w^1,……,w^L-1]后,在近端麦克风处拾得回声语音Y1。其中W^i为第i个回声信道的特征向量,i=0,1,……,L-1,其用于表征回声信道的属性。远端模式3下,回声消除的原理就是将远端语音信号Y送入自适应滤波器,不断优化自适应滤波器的系数(也即,滤波器的传递属性)W=[w0,w1,……,wL-1],使其逼近回声信道W^=[w^0,w^1,……,w^L-1],从而使得远端语音信号Y经过自适应滤波器后,得到的模拟的回声语音Y2(模拟的回声语音也就是回音预测数据)。由于近端麦克风对回声语音Y1采样后形成近端语音D,通过调整自适应滤波器的系数(也即,滤波器的传递属性)W,从而使回声语音Y2逼进近端语音D,由于回声语音Y2是由远端音频数据获得的,远端音频数据估计回音预测数据,并在消音器中去除回音预测数据,从而达到了消除回音的效果也即,远端模式下,回声消除的原理为:
步骤S1:获取远端语音Y;
步骤S2:获取回声语音Y1;
步骤S3:将远端语音Y送入自适应滤波器,获取模拟的回声语音Y2,另Y2=Y*W(计算模拟的回声语音Y2:Y2是将远端语音信号Y送入自适应滤波器W获得的);
步骤S4:获取近端语音D(回声语音Y1采样后形成近端语音D,认为D=Y1);
步骤S5:在回音抵消器中去除回声:另E=D-Y2。(将D=Y1代入E,D非常接近Y1,Y1为回声语音,Y2是模拟的回声语音,在远端模式下,当E接近于一个非常小的数时,Y2就非常接近D,经过回音抵消器后的残差数据E就是纯净语音E)。
进一步地,残差处理在远端模式下对纯净语音E做衰减处理。具体地,将纯净语音E与第一衰减因子相乘,获得更加纯净的语音E1,将更加纯净的语音E1发送到远端扬声器,以增强回声消除的效果。
图3是本发明实施例的近端模式下回声消除方法的原理图。
如图3所示,在近端模式下,近端使用者通过近端麦克风讲话,与远端模式相比,回声消除方法中至少有两处不同:其一,回声语音Y10与近端使用者的语音V在近端麦克风处拾得,形成第二近端音频数据D2(也就是说,第二近端音频数据D2中包括近端使用者的语音V和通过近端扬声器播放的回声语音Y10,即D2=V+Y10);其二,自适应滤波器停止迭代,自适应滤波器仅滤波(在近端模式下,近端麦克风收集到了近端使用者的语音V,如果此时滤波器继续滤波,会使得滤波器发散,回音消除系统无法正常工作)。在近端模式下,回声消除的原理就是在回音抵消器中将模拟的回声语音Y20去除。也即,近端模式下,回声消除的原理为:
步骤S10:获取远端语音Y30;
步骤S20:将远端语音Y30送入自适应滤波器,获取模拟的回声语音Y20;
步骤S30:获取第二近端音频数据D2(D2=V+Y10);
步骤S40:在回音抵消器中去除回声E2=D2-Y20。(将上式D2=V+Y10代入E2,就得到了E2=V+Y10-Y20,由于自适应滤波器在远端模式下已经调好,Y20已经逼近Y10,此处残差数据E2已经非常接近近端使用者的语音V,已经能够将残差数据E2认为是近端使用者的语音V)。将消除回音后得到的纯净语音E2发送到远端扬声器,远端的使用者此时不会听到自己的声音,提高了体验度。
在近端模式下,残差处理的具体工作方式为,将纯净语音E2与第二衰减因此相乘,从而获得更加纯净的语音E20,将更加纯净的语音E20发送到远端扬声器,以增强回声消除的效果。
然而,在不同的场景下或者不同平台下,回音语音有所差别、回音延迟也不同。在回音消除方法中对回音语音消除时,按照平台类型调整自适应滤波器的长度(滤波器的长度也称滤波器的阶数、滤波器的抽头数),以提高了用户体验。
图4是本发明实施例的回音消除方法的流程图。
如图4所示,所述回音消除方法包括:
步骤S100,根据终端类型确定处理长度。
终端可以是计算机、平板电脑、工作站、智能手机、等具有数据处理能力的计算设备。终端类型综合考虑终端使用的操作系统类型和硬件配置类型。
按照不同的操作系统类型和硬件配置类型,将终端类型预先划分不同的处理长度,分别为:响应于终端类型为Windows,处理长度为20-30段;和/或,响应于终端类型为android高端设备,处理长度为20-30段;和/或,响应于终端类型为android低端设备,处理长度为10-15段;和/或,响应于终端类型为IOS高端设备,处理长度为20-30段;和/或,响应于所述终端类型为IOS低端设备,处理长度为10-15段;和/或,其中,各数据段包括50-80个音频数据点。优选地,根据终端类型,其一,终端类型为Windows,处理长度为24个数据段;其二,终端类型为android高端设备,处理长度为24个数据段;其三,终端类型为android低端设备,处理长度为12个数据段;其四,终端类型为IOS高端设备,处理长度为24个数据段;其五,终端类型为IOS低端设备,处理长度为12个数据段。优选地,每个数据段包括64个音频数据点。由此,根据不同的硬件配置类型和操作系统对于硬件的占用情况,不同的平台具有不同的处理长度,再根据处理长度对应的数据段以及每个数据段包括的数据点,以Windows为例,具体地,在Windows下,一次处理的数据点为24*64=1536个数据点。由于在后续的数据处理中需要将远端语音信号和自适应滤波器的传递属性进行卷积,处理长度的降低可以降低对于计算能力的要求,缩短时延,而处理长度的增加可以提高处理的质量。因此,针对不同的终端类型采用不同的处理长度,可以在终端类型多样的应用场景下,保证回声处理的实时性,提高回声消除效率。本发明实施例,以终端类型为Windows,处理长度为24个数据段,每个数据段包括64个音频数据点为例进行详细说明。
步骤S200到步骤S700是自适应滤波器工作在的远端模式下的数据处理步骤。
步骤S200,获取具有处理长度的第一远端音频数据,第一远端音频数据被通过扬声器播放。
会话过程中,远端的使用者讲话的状态为远端模式,此时,近端的使用者未讲话。
本实施例以Windows下、处理长度是24段为例进行详细说明。
第一远端音频数据来自远端语音信号Y(由此,第一远端音频数据也用Y表示),存储第一远端音频数据Y。
第一远端音频数据Y被通过扬声器播放。第一远端音频数据Y被播放后由于室内的各种回声信道的作用,形成回声语音Y1。
步骤S300,通过麦克风获取具有处理长度的第一近端音频数据。
在近端的麦克风处拾得回声语音Y1,经近端麦克风收集、采样后获得第一近端音频数据D。
步骤S400,将第一远端音频数据划分为预定数量的数据段,其中,各数据段包括多个音频数据点。
为了获得模拟回声语音Y1,要以初始时刻第一远端语音数据Y做参考来估计Y1。处理的方法为,首先将第一远端语音数据Y划分为预定数量的数据段,其中,各数据段包括多个音频数据点。也就是说把第一远端语音数据Y划分出24段音频数据,每段音频数据中包括64个音频数据点。第一远端语音数据Y划分的24段音频数据段分别是:
y1,
y2,
……
y24。
再将音频数据段划分为64个数据点,分别是
y1=(y1.0,y1.1……,y1.63),
y2=(y2.0,y2.1……,y2.63),
……
y24=(y24.0,y24.1……y24.63)。
利用y1到y24去预估一定时间段内的回声语音Y1,例如采样频率16000(1/S),换算为时间域:64/16000*24=96ms,即一次最大能处理96ms(96毫秒)的数据,从而一次处理能利用y1到y24去估计96毫秒延迟内的回声语音Y1。
步骤S500,根据所述处理长度确定初始自适应滤波器。
也即,对自适应滤波器进行初始化。初始化具体方法为将传递属性(其实际上为一个矩阵)赋值为0。
步骤S600,将第一远端音频数据输入初始自适应滤波器以确定第一回音预测数据。
将第一远端音频数据Y输入初始自适应滤波器以确定第一回音预测数据Y2,具体方法为:
Y2=Y*W,也即通过第一远端音频数据Y与滤波器的系数(也即,滤波器的传递属性)W卷积运算获得第一回音预测数据Y2。获得第一回音预测数据Y2的目的在于,使用第一回音预测数据Y2来估计回声语音Y1。
步骤S700,以迭代方式更新自适应滤波器的传递属性直至自适应滤波器收敛。
将收敛的自适应滤波器确定为回音消除自适应滤波器,其中,自适应滤波器收敛为残留数据为小于设定阈值;残留数据为第一近端数据和第一回音预测数据的差值。
由于自适应滤波器的初始值为0,为了使自适应滤波器的系数(也即,滤波器的传递属性)能够逼近使用者所处环境的回声信道,就要通过第一远端音频数据Y与滤波器系数W卷积运算获得第一回音预测数据Y2;而后,计算误差数据E(也即,残留数据E),其中,E=D-Y2,(D是近端麦克风接收、采样后获得的第一近端数据),当误差数据E收敛并达到一个预定的数值(也即,残留数据E小于设定阈值)时,就认为自适应滤波器系数已经接近使用者所处环境的回声信道。由于不知道自适应滤波器何时能够逼近使用者所处环境的回声信道,在具体的数据处理过程中采用迭代的方法进行,假设迭代的次数为n,迭代停止的条件为误差数据E小于10-N(N为大于0的正整数)(也即,残留数据E小于设定阈值,设定阈值取值10-N,其中,N为大于0的正整数)。
图5是本发明实施例更新自适应滤波器的传递属性的流程图。
如图5所示,步骤S700包括子步骤S710-S750。
步骤S710,确定当前周期的回音预测数据。
首先将当前周期的远端语音数据Y划分出24段音频数据,每段音频数据中包括64个音频数据点。第一远端语音数据Y划分的24段音频数据分别是:
y0,
y1,
y2,
……
y23。
再将音频数据段划分为64个数据点,分别是
y0=(y0.0,y0.1……,y0.63),
y1=(y1.0,y1.1……,y1.63),
y2=(y2.0,y2.1……,y2.63),
……
y23=(y23.0,y23.1……y23.63)。
计算当前周期的回音预测数据,计算公式为Y2=Y*W。具体方法为:
{
Y=[y1,y2,……,y24]T
其中:
y0=[y0.0,y0.1……,y0.63],
y1=[y1.0,y1.1……,y1.63],
y2=[y2.0,y2.1……,y2.63],
……
y23=[y23.0,y23.1……y23.63]。
W=[w0,w1,……,w23]T
其中:
w0=[w0.0,w0.1…w0.23]
w1=[w1.0,w1.1…w1.23],
w2=[w2.0,w2.1…w2.23],
……
w23=[w63.0,w63.1…w63.23],
Y2=conv(Y,W);conv()是一维卷积函数,
Figure BDA0002531444010000111
}
Y2的运算过程参见图6。
Y2中各元素是图6中每行系数的和。
运算后Y2中有64个元素。分别是Y2=[y0.0*w0.0+y1.0*w0.1+y2.0*w0.2+y3.0*w0.3……y24.0*w0.24,y0.1*w1.0+y1.1*w1.1+y2.1*w1.2+y3.1*w1.3……y24.1*w1.24,y0.2*w2.0+y1.2*w2.1+y2.2*w2.2+y3.2*w2.3……y24.2*w2.24,……,y0.63*w63.0+y1.63*w63.1+y2.63*w63.2+y3.63*w63.3……y24.63*w63.24]步骤720,根据当前周期的回音预测数据和所述近端数据确定残留数据;
在当前周期内,残留回音数据是在近端数据中抵消回音预测数据后得到的。
具体处理方法:
{
E=D-Y2;
}
步骤S730,判断所述自适应滤波器是否收敛,如果未收敛转向步骤S740;如果收敛转向步骤S750。
也即,在一个迭代周期内,判断误差数据E是否收敛,如果误差数据E收敛,进入步骤S750;如果E未收敛,进入步骤S740,按W(n+1)=W(n)+mu*(Y/(Y^T*Y))*E更新一次自适应滤波器的系数(也即,滤波器的传递属性)。
步骤S740,响应于所述自适应滤波器未收敛,根据所述残留数据整当前周期的自适应滤波器的传递属性,转入下一个周期。
步骤S750,响应于所述自适应滤波器收敛,将当前周期的自适应滤波器确定为回音消除滤波器,并降低自适应滤波器的传递属性。
在自适应滤波器收敛的情况下,将当前周期的自适应滤波器确定为回音消除滤波器。降低自适应滤波器的步长使之稳定在收敛状态。
其中,根据残留数据调整当前周期的自适应滤波器的传递属性采用能量归一化最小均方差(NLMS)算法。在能量归一化最小均方差(NLMS)算法时中,滤波器的步长因子mu是大于0且小于1的常量,如果mu值太小自适应滤波器的收敛时间会太长;如果μ太大自适应滤波器变得不稳定,导致其输出发散。本实施例中,采用mu=0.5。
步骤S800,基于所述回音消除自适应滤波器进行回音消除。
步骤S800是自适应滤波器工作在的近端模式下的数据处理步骤。在近端模式下,自适应滤波器停止迭代,自适应滤波器仅滤波。这样可以通过近端麦克风获取的具有处理长度的第二近端音频数据D2,其中,第二近端音频数据D2中包括近端使用者的语音V和通过近端扬声器播放的回声语音Y10,也就是说D2=V+Y10。
如果能够在第二近端数据中消除第二回音预测数据Y20,就认为消除了近端扬声器播放的回声语音Y10,从而获得到纯净语音E2。
具体而言,步骤S800包括如下子步骤:
步骤S810:实时获取具有处理长度的第二远端音频数据;在近端模式下,通过网络实时获取远端麦克风发送的具有处理长度的第二远端音频数据Y30。
步骤S820:根据所述第二远端音频数据输入自适应滤波器以确定第二回音预测数据;根据第二远端音频数据Y30输入自适应滤波器以确定第二回音预测数据Y20。
步骤S830:通过麦克风获取具有处理长度的第二近端音频数据,在第二近端数据中消除第二回音预测数据,获得纯净语音。
获得纯净语音E2的具体方法为,将模拟的回声语音Y20通过回音抵消器,在第二近端音频数据D2中抵消。由于模拟的回声语音Y20是回声语音Y10的估计值,在近端模式下,纯净语音E2就相当于近端使用者的语音V。随后,将消除回音后得到的纯净语音E2发送到远端扬声器,远端的使用者此时不会听到自己的声音,提高了体验度。
更进一步,经过上述处理后,如果还有微弱回声存在,进行残差处理,残差处理的具体工作方式为,将纯净语音E2与第二衰减因此相乘,从而获得更加纯净的语音E20,将更加纯净的语音E20发送到远端扬声器,以增强回声消除的效果。
本发明实施例通过获取终端类型从而确定处理长度,将具有处理长度的远端音频数据送入自适应滤波器,获得回音预测数据;通过麦克风获取具有处理长度的近端音频数据,使用远端音频数据估计回音预测数据,并在消音器中去除回音预测数据,从而达到了消除回音的效果。为适应不同的终端类型,将远端音频数据划分为预定数量的数据段,其中,各数据段包括多个音频数据点,同时,按照平台类型调整自适应滤波器的长度,通过远端音频数据与自适应滤波器进行滤波,使得回音消除方法能够适应在不同的平台应用、并且更加有效地消除不同平台下的回音,从而提升了用户的体验。
图7为本发明实施例的电子设备的示意图。
如图7所示,在本实施例中,所述电子设备可以为服务器或终端等,所述终端例如可以是手机、电脑、平板电脑等智能设备。所述电子设备包括:至少一个处理器61;以及与存储介质通信连接的通信组件62,所述通信组件62在处理器的控制下接收和发送数据;其中,存储器60存储有可能被至少一个处理器61执行的指令,指令被至少一个处理器61执行以实现本发明实施例所述的任务分配方法。
具体地,所述存储器60作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器61通过运行存储在存储器中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述任务分配方法。
存储器60可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器60可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器60可选包括相对于处理器61远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器60中,当被一个或者多个处理器61执行时,执行上述任意方法实施例中的回音消除方法。
上述产品可执行本发明实施例所公开的方法,具备执行方法相应的功能模块和有益效果,可参见本发明实施例所公开的方法。
本发明还涉及一种计算机可读存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种回音消除方法,其特征在于,所述方法包括:
根据终端类型确定处理长度;
获取具有处理长度的第一远端音频数据,所述第一远端音频数据经扬声器播放;
通过麦克风获取具有处理长度的第一近端音频数据;
将所述第一远端音频数据划分为预定数量的数据段,其中,各数据段包括多个音频数据点;
根据所述处理长度确定初始自适应滤波器;
将所述第一远端音频数据输入所述初始自适应滤波器以确定第一回音预测数据;
以迭代方式更新所述自适应滤波器的传递属性直至自适应滤波器收敛,以确定回音消除自适应滤波器,其中,所述自适应滤波器收敛为残留数据小于设定阈值;所述残留数据为所述第一近端数据和所述第一回音预测数据的差值;
基于所述回音消除自适应滤波器后进行回音消除。
2.根据权利要求1所述的方法,其特征在于,以迭代方式更新所述自适应滤波器的传递属性直至自适应滤波器收敛,以确定回音消除自适应滤波器包括:
确定当前周期的回音预测数据;
根据当前周期的回音预测数据和所述近端数据确定残留数据;
响应于所述自适应滤波器未收敛,根据所述残留数据调整当前周期的自适应滤波器的传递属性;和/或,响应于自适应滤波器收敛,将当前周期的自适应滤波器确定为所述回音消除滤波器。
3.根据权利要求1所述的方法,其特征在于,根据所述残留数据调整当前周期的自适应滤波器的传递属性具体为:采用能量归一化最小均方差(NLMS)算法调整所述传递属性。
4.根据权利要求3所述的方法,其特征在于,在能量归一化最小均方差(NLMS)算法中,所述滤波器的步长因子是大于0且小于1的常量。
5.根据权利要求1所述的方法,其特征在于,所述终端类型为终端操作系统的类型。
6.根据权利要求5所述的方法,其特征在于,
响应于所述终端类型为Windows,所述处理长度为20-30段;和/或,
响应于所述终端类型为android高端设备,所述处理长度为20-30段;和/或,
响应于所述终端类型为android低端设备,所述处理长度为10-15段;和/或,
响应于所述终端类型为IOS高端设备,所述处理长度为20-30段;和/或,
响应于所述终端类型为IOS低端设备,所述处理长度为10-15段;和/或,
各数据段包括50-80个音频数据点。
7.根据权利要求1所述的方法,其特征在于,基于所述回音消除自适应滤波器进行回音消除包括:
实时获取具有处理长度的第二远端音频数据;
根据所述第二远端音频数据输入自适应滤波器以确定第二回音预测数据。
8.根据权利要求7所述的方法,其特征在于,基于所述回音消除自适应滤波器进行回音消除还包括:
通过麦克风获取具有处理长度的第二近端音频数据,在第二近端数据中消除第二回音预测数据,获得纯净语音。
9.一种计算机可读存储介质,用于存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-8中任一项所述的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-8中任一项所述的方法。
CN202010519508.8A 2020-06-09 2020-06-09 一种回音消除方法、计算机可读存储介质和电子设备 Active CN111640449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010519508.8A CN111640449B (zh) 2020-06-09 2020-06-09 一种回音消除方法、计算机可读存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010519508.8A CN111640449B (zh) 2020-06-09 2020-06-09 一种回音消除方法、计算机可读存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN111640449A true CN111640449A (zh) 2020-09-08
CN111640449B CN111640449B (zh) 2023-07-28

Family

ID=72333080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010519508.8A Active CN111640449B (zh) 2020-06-09 2020-06-09 一种回音消除方法、计算机可读存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN111640449B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI797850B (zh) * 2021-11-01 2023-04-01 聯發科技股份有限公司 音訊設備以及相關方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761638A (en) * 1995-03-17 1998-06-02 Us West Inc Telephone network apparatus and method using echo delay and attenuation
US20010055985A1 (en) * 2000-06-21 2001-12-27 Alcatel Telephoning and hands-free speech for cordless final apparatus with echo compensation
JP2007189454A (ja) * 2006-01-12 2007-07-26 Sony Corp 音声処理装置
JP2009122596A (ja) * 2007-11-19 2009-06-04 Nec Corp 雑音消去装置、雑音消去方法および雑音消去プログラム
CN102447992A (zh) * 2010-10-06 2012-05-09 奥迪康有限公司 确定自适应音频处理算法中的参数的方法及音频处理系统
CN105448302A (zh) * 2015-11-10 2016-03-30 厦门快商通信息技术有限公司 一种环境自适应的语音混响消除方法和系统
US9479650B1 (en) * 2015-05-04 2016-10-25 Captioncall, Llc Methods and devices for updating filter coefficients during echo cancellation
CN106303119A (zh) * 2016-09-26 2017-01-04 维沃移动通信有限公司 一种通话过程中的回声消除方法和移动终端
CN106791245A (zh) * 2016-12-28 2017-05-31 北京小米移动软件有限公司 确定滤波器系数的方法及装置
CN109559756A (zh) * 2018-10-26 2019-04-02 北京佳讯飞鸿电气股份有限公司 滤波系数确定方法、回声消除方法、相应装置及设备
CN111199748A (zh) * 2020-03-12 2020-05-26 紫光展锐(重庆)科技有限公司 回声消除方法、装置、设备以及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761638A (en) * 1995-03-17 1998-06-02 Us West Inc Telephone network apparatus and method using echo delay and attenuation
US20010055985A1 (en) * 2000-06-21 2001-12-27 Alcatel Telephoning and hands-free speech for cordless final apparatus with echo compensation
JP2007189454A (ja) * 2006-01-12 2007-07-26 Sony Corp 音声処理装置
JP2009122596A (ja) * 2007-11-19 2009-06-04 Nec Corp 雑音消去装置、雑音消去方法および雑音消去プログラム
CN102447992A (zh) * 2010-10-06 2012-05-09 奥迪康有限公司 确定自适应音频处理算法中的参数的方法及音频处理系统
US9479650B1 (en) * 2015-05-04 2016-10-25 Captioncall, Llc Methods and devices for updating filter coefficients during echo cancellation
CN105448302A (zh) * 2015-11-10 2016-03-30 厦门快商通信息技术有限公司 一种环境自适应的语音混响消除方法和系统
CN106303119A (zh) * 2016-09-26 2017-01-04 维沃移动通信有限公司 一种通话过程中的回声消除方法和移动终端
CN106791245A (zh) * 2016-12-28 2017-05-31 北京小米移动软件有限公司 确定滤波器系数的方法及装置
CN109559756A (zh) * 2018-10-26 2019-04-02 北京佳讯飞鸿电气股份有限公司 滤波系数确定方法、回声消除方法、相应装置及设备
CN111199748A (zh) * 2020-03-12 2020-05-26 紫光展锐(重庆)科技有限公司 回声消除方法、装置、设备以及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI797850B (zh) * 2021-11-01 2023-04-01 聯發科技股份有限公司 音訊設備以及相關方法
US11863710B2 (en) 2021-11-01 2024-01-02 Mediatek Inc. Audio device and method for detecting device status of audio device in audio/video conference

Also Published As

Publication number Publication date
CN111640449B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN108141502B (zh) 降低声学系统中的声学反馈的方法及音频信号处理设备
US20180350379A1 (en) Multi-Channel Speech Signal Enhancement for Robust Voice Trigger Detection and Automatic Speech Recognition
CN109727604A (zh) 用于语音识别前端的频域回声消除方法及计算机储存介质
CN106713570B (zh) 一种回声消除方法和装置
CN112735462B (zh) 分布式麦克风阵列的降噪方法和语音交互方法
JP6279172B2 (ja) エコーキャンセラ装置及び通話装置
EP3791565A1 (en) Method, apparatus, and computer-readable media utilizing residual echo estimate information to derive secondary echo reduction parameters
CN111199748B (zh) 回声消除方法、装置、设备以及存储介质
CN109273019B (zh) 用于回声抑制的双重通话检测的方法及回声抑制
CN105391879A (zh) 一种无回声残留双端通话鲁棒的声学回声消除方法
CN110992923B (zh) 回声消除方法、电子设备以及存储装置
CN111583950B (zh) 一种音频处理方法、装置、电子设备及存储介质
WO2020124325A1 (zh) 一种回声消除中的自适应滤波方法、装置、设备及存储介质
CN112689056A (zh) 一种回声消除方法及使用该方法的回声消除装置
CN111556210B (zh) 通话语音处理方法与装置、终端设备和存储介质
CN111640449B (zh) 一种回音消除方法、计算机可读存储介质和电子设备
CN109712637B (zh) 一种混响抑制系统及方法
CN110199528B (zh) 远场声音捕获
CN112929506B (zh) 音频信号的处理方法及装置,计算机存储介质及电子设备
CN115834778A (zh) 一种回声消除方法、装置、电子设备及存储介质
CN113241084B (zh) 回声消除的方法、装置及设备
JP6272590B2 (ja) エコーキャンセラ装置及び通話装置
CN115134712A (zh) 具有可变步长大小控制的回波消除器
JP4396449B2 (ja) 残響除去方法及びその装置
CN115315935A (zh) 回声残余抑制

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant