CN112802487A - 回声处理方法、装置及系统 - Google Patents

回声处理方法、装置及系统 Download PDF

Info

Publication number
CN112802487A
CN112802487A CN202011615540.2A CN202011615540A CN112802487A CN 112802487 A CN112802487 A CN 112802487A CN 202011615540 A CN202011615540 A CN 202011615540A CN 112802487 A CN112802487 A CN 112802487A
Authority
CN
China
Prior art keywords
audio signal
local
terminal
matrix
frequency point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011615540.2A
Other languages
English (en)
Other versions
CN112802487B (zh
Inventor
王倩
隋园
来杏杏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wutong Chelian Technology Co Ltd
Original Assignee
Beijing Wutong Chelian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wutong Chelian Technology Co Ltd filed Critical Beijing Wutong Chelian Technology Co Ltd
Priority to CN202011615540.2A priority Critical patent/CN112802487B/zh
Publication of CN112802487A publication Critical patent/CN112802487A/zh
Application granted granted Critical
Publication of CN112802487B publication Critical patent/CN112802487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)

Abstract

本申请公开了一种回声处理方法、装置及系统,属于音频处理技术领域。该第一终端可以基于初始权重矩阵和调整矩阵确定目标权重矩阵,并基于通过该目标权重矩阵和第一本端音频信号得到的第一回声信号,对第一对端音频信号进行处理,得到第一目标音频信号,并播放该第一目标音频信号。由于调整数值与步长因子正相关,且该步长因子是根据第二本端音频信号确定,因此提高了确定的调整数值的可靠性,进而提高了确定的第一回声估计信号的准确度,从而有效提高了回声处理的效果。

Description

回声处理方法、装置及系统
技术领域
本公开涉及音频处理技术领域,特别涉及一种回声处理方法、装置及系统。
背景技术
目前,本端用户在通过本端设备与对端用户进行语音通话的过程中,本端设备可以将接收到的本端用户的语音传输至对端设备。该语音经过对端设备播放后,可能再次被对端设备的麦克风拾取从而形成回声。该回声会再次通过对端设备传输至本端设备,从而导致本端用户听到回声。
发明内容
本公开实施例提供了一种回声处理方法、装置及系统,可以解决相关技术中本端用户在通过本端设备与对端用户进行语音通话的过程中,本端用户会听到回声的问题。所述技术方案如下:
一方面,提供了一种回声处理方法,应用于第一终端,所述方法包括:
采集第一本端音频信号;
根据初始权重矩阵和调整矩阵确定目标权重矩阵,其中,所述初始权重矩阵为在所述第一本端音频信号之前采集到的第二本端音频信号对应的权重矩阵,所述调整矩阵中的调整数值与所述第二本端音频信号的步长因子矩阵中的步长因子正相关,所述目标权重矩阵中的目标权重系数与所述初始权重矩阵中的初始权重系数和所述调整数值均正相关,所述步长因子根据所述第二本端音频信号确定;
基于所述目标权重矩阵对所述第一本端音频信号进行处理,得到第一回声估计信号;
在接收到第二终端传输的第一对端音频信号后,采用所述第一回声估计信号对所述第一对端音频信号进行处理,得到第一目标音频信号;
播放所述第一目标音频信号。
可选的,所述第二本端音频信号包括L个音频帧,每个所述音频帧包括s个频点;所述初始权重矩阵包括与所述第二本端音频信号中L×s个频点一一对应的L×s个初始权重系数,所述调整矩阵包括与所述L×s个频点一一对应的L×s个调整数值,L和s均为大于或等于1的整数;在根据初始权重矩阵和调整矩阵确定目标权重矩阵之前,所述方法还包括:
基于所述初始权重矩阵对所述第二本端音频信号进行处理,得到第二回声估计信号;
在接收到所述第二终端传输的第二对端音频信号后,采用所述第二回声估计信号对所述第二对端音频信号进行处理,得到第二目标音频信号;
基于所述第二本端音频信号的频域自相关系数,以及所述第二本端音频信号和所述第二目标音频信号的频域互相关系数,确定每个所述音频帧的音频泄漏系数,所述音频泄漏系数与所述频域自相关系数负相关,且与所述频域互相关系数正相关;
对于所述L×s个频点中的每个频点,基于所述频点所属的音频帧的音频泄漏系数,所述第二目标音频信号在所述频点的第一频谱值,以及所述第二回声估计信号在所述频点的第二频谱值,确定所述频点对应的所述步长因子,所述步长因子与所述频点所属的音频帧的音频泄漏系数和所述第二频谱值均正相关,且与所述第一频谱值负相关;
采用块稀疏成比例仿射投影算法对所述第二本端音频信号在所述频点的第三频谱值以及所述第二目标音频信号进行处理,得到所述频点对应的更新步长;
基于所述频点对应的步长因子和所述频点对应的更新步长,确定所述频点对应的调整数值;
所述根据初始权重矩阵和调整矩阵确定目标权重矩阵,包括:
将所述第二本端音频信号中每个所述频点对应的初始权重系数与所述频点对应的调整数值之和确定为所述第一本端音频信号中所述频点的目标权重系数。
可选的,所述第二本端音频信号中第i个音频帧的音频泄露系数η(i)满足:
Figure BDA0002874819720000021
其中,所述i为大于0,且小于或等于L的整数,所述k为大于或等于0,且小于L×s的整数;所述REX(k,i)为所述第二本端音频信号中第k个频点和所述第二目标音频信号中第k个频点的频域互相关系数;
所述第k个频点对应的步长因子μout(k)满足:
Figure BDA0002874819720000031
其中,min表示取最小值,所述μmax为大于0且小于1的数,所述y(k)为所述第二回声估计信号中第k个频点的第二频谱值,所述e(k)为所述第二目标音频信号中第k个频点第一频谱值。
可选的,所述第二本端音频信号包括P段第二子音频信号,每段所述第二子音频信号包括n个频点,所述L×s个频点中第k个频点对应的更新步长H(k)满足:
Figure BDA0002874819720000032
其中,所述k为大于或等于0,且小于L×s的整数,所述μ为大于0的数,G为对角矩阵,所述对角矩阵中对角线上的第t个元素为gt(t)×I1×n,且gt(t)与w(t)正相关,所述w(t)为所述第二本端音频信号中第t个频点对应的初始权重系数,所述I1×n为1×n的单位矩阵,所述XH(k)为对所述第二本端音频信号中第k个频点的频谱值的共轭转置,所述sgn[e]为行向量,所述行向量中第t个元素为sgn(e(t)),所述e(t)为所述第二目标音频信号中第t个频点的第一频谱值,所述sgn为符号函数,所述t的取值范围为k至l×n-1,所述第k个频点属于第l段所述第二子音频信号,所述l为大于或等于0,且小于P的正整数,所述β为不等于0的整数,所述
Figure BDA0002874819720000033
所述P为大于0且小于L×s的整数,n为不大于P的整数。
可选的,所述L×s个频点中第k个频点的调整数值D(k)满足:D(k)=F(d(k)),所述d(k)满足:
Figure BDA0002874819720000034
其中,所述k为大于或等于0,且小于L×s的整数,F表示傅立叶变换,所述F-1表示逆傅立叶变换。
可选的,所述L×s个频点中第k个频点的调整数值D(k)满足:D(k)=F(d(k)),所述d(k)满足:
Figure BDA0002874819720000035
所述f为窗函数,F表示傅立叶变换,所述F-1表示逆傅立叶变换。
可选的,所述基于所述目标权重矩阵对所述第一本端音频信号进行处理,得到第一回声估计信号,包括:
对所述第一本端音频信号进行分段处理,得到P段第一子音频信号;
对所述目标权重矩阵进行分段处理,得到P段目标权重子矩阵;
基于每段所述目标权重子矩阵对对应的一段所述第一子音频信号进行处理,得到第一回声估计信号;
其中,每段所述第一子音频信号包括n个频点,每段所述目标权重子矩阵包括n个权重系数,所述P为大于0且小于L×s的整数,n为不大于P的整数。
可选的,所述第一回声估计信号y满足:
Figure BDA0002874819720000041
其中,所述I1×n为1×n的单位矩阵,所述Xj为第j段所述第一子音频信号的第四频谱值,所述
Figure BDA0002874819720000042
所述xj为第j段所述第一子音频信号的信号值,所述xj+1为第j+1段所述第一子音频信号的信号值,diag表示对角矩阵;
所述Wj为第j段所述目标权重子矩阵的目标权重系数,所述j为大于或等于0,且小于所述P的整数,所述01×n为1×n的全0向量。
另一方面,提供了一种回声处理装置,应用于第一终端,所述装置包括:
采集模块,用于采集第一本端音频信号;
第一确定模块,用于根据初始权重矩阵和调整矩阵确定目标权重矩阵,其中,所述初始权重矩阵为在所述第一本端音频信号之前采集到的第二本端音频信号对应的权重矩阵,所述调整矩阵中的调整数值与所述第二本端音频信号的步长因子矩阵中的步长因子正相关,所述目标权重矩阵中的目标权重系数与所述初始权重矩阵中的初始权重系数和所述调整数值均正相关,所述步长因子根据所述第二本端音频信号确定;
第一处理模块,用于基于所述目标权重矩阵对所述第一本端音频信号进行处理,得到第一回声估计信号;
第二处理模块,用于在接收到第二终端传输的第一对端音频信号后,采用所述第一回声估计信号对所述第一对端音频信号进行处理,得到第一目标音频信号;
播放模块,用于播放所述第一目标音频信号。
再一方面,提供了一种回声处理系统,所述系统包括:第一终端和第二终端,所述第一终端包括如上述方面所述的回声处理装置;
所述第二终端与所述第一终端建立有通信连接,所述第二终端用于向所述第一终端发送音频信号。
又一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,所述指令由处理器加载并执行以实现如上述方面所述的回声处理方法。
再一方面,提供了一种终端,包括:存储器,处理器及存储在所述存储器上的计算机程序,所述处理器执行所述计算机程序时实现如上述方面所述的回声处理方法。
再一方面,提供了一种包含指令的计算机程序产品,当所述计算机程序产品在所述计算机上运行时,使得所述计算机执行上述方面所述的回声处理方法。
本公开实施例提供的技术方案带来的有益效果至少包括:
本公开实施例提供了一种回声处理方法、装置及系统,该第一终端可以基于初始权重矩阵和调整矩阵确定目标权重矩阵,并基于通过该目标权重矩阵和第一本端音频信号得到的第一回声信号,对第一对端音频信号进行处理,得到第一目标音频信号,并播放该第一目标音频信号。由于调整数值与步长因子正相关,且该步长因子是根据第二本端音频信号确定,因此提高了确定的调整数值的可靠性,进而提高了确定的第一回声估计信号的准确度,从而有效提高了回声处理的效果。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种回声处理方法所涉及的实施环境的示意图;
图2是本公开实施例提供的一种回声处理方法的流程图;
图3是本公开实施例提供的一种回声处理方法的流程图;
图4是本公开实施例提供的一种回声处理方法的示意图;
图5是本公开实施例提供的一种回声处理装置的框图;
图6是本公开实施例提供的另一种回声处理装置的框图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
图1是本公开实施例提供的一种回声处理方法所涉及的实施环境的示意图。如图1所示,该实施环境可以包括:第一终端10、服务器20和第二终端30。该第一终端10和第二终端30可以均为个人电脑、笔记本电脑、平板电脑或手机等设备。该服务器20可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。该第一终端10和第二终端30可以通过该服务器20交互音频信号。该服务器20与该第一终端10和第二终端30之间均可以通过有线网络或无线网络建立连接。
图2是本公开实施例提供的一种回声处理方法的流程图。该方法可以应用于图1所示的第一终端10中。如图2所示,该方法可以包括:
步骤201、采集第一本端音频信号。
在本公开实施例中,第一终端的用户通过该第一终端与第二终端的用户进行语音通话的过程中,该第一终端可以实时采集本端音频信号。其中,该第一本端音频信号可以为第一终端在第一时长内采集的本端音频信号。可选的,该第一本端音频信号可以为第一终端的用户在第一时长内发出的声音信号。该第一时长可以为第一终端预先存储的固定时长。
步骤202、根据初始权重矩阵和调整矩阵确定目标权重矩阵。
第一终端在采集第一本端音频信号之前,还可以采集时长为第一时长的第二本端音频信号。该第一终端在采集第一本端音频信号之后,可以根据初始权重矩阵和调整矩阵确定目标权重矩阵。
其中,该初始权重矩阵可以为在该第一本端音频信号之前采集到的第二本端音频信号对应的权重矩阵,该调整矩阵中的调整数值与该第二本端音频信号的步长因子矩阵中的步长因子正相关,该目标权重矩阵中的目标权重系数均与初始权重矩阵中的初始权重系数和调整数值正相关。该步长因子矩阵中的步长因子是根据第二本端音频信号确定,即不同的第二本端音频信号可以确定出不同的步长因子,也即是该步长因子为可变步长。可选的,该初始权重矩阵为该第一终端中预先存储的固定权重矩阵。该初始权重矩阵和目标权重矩阵为该第一终端中的自适应滤波器的权重矩阵。
步骤203、基于目标权重矩阵对第一本端音频信号进行处理,得到第一回声估计信号。
第一终端在确定目标权重矩阵之后,可以基于该目标权重矩阵对该第一本端音频信号进行处理,从而得到第一回声估计信号。
步骤204、在接收到第二终端传输的第一对端音频信号后,采用第一回声估计信号对第一对端音频信号进行处理,得到第一目标音频信号。
第一终端的用户在通过第一终端与第二终端的用户进行语音通话的过程中,第二终端也可以采集在第二时长内的对端语音信号,并将该采集到的在第二时长内的第一对端音频信号通过服务器传输至第一终端。第一终端在接收到该第一对端音频信号后,可以采用第一回声估计信号对第一对端音频信号进行处理,从而得到第一目标音频信号。其中,该第二时长为第二终端存储的固定时长,该第二时长与第一时长可以相同,也可以不同,本公开实施例对此不做限定。
可选的,第一终端可以将第一对端音频信号和第一回声估计信号相减得到该第一目标音频信号,即该第一目标音频信号为该第一对端音频信号中除该第一回声估计信号之外的音频信号。
由于第一本端音频信号经过服务器传输至第二终端,并由该第二终端播放后,可能再次被第二终端的麦克风拾取从而形成回声信号。该回声信号会和第二终端的用户的声音信号一同传输至第一终端。因此,第一终端接收到的第一对端音频信号实际上包括该回声信号和第二终端的用户的声音信号。
在本公开实施例中,该第一回声估计信号为第一终端基于初始权重矩阵和调整矩阵所确定的目标权重矩阵所模拟实际的回声路径估计的回声信号,该第一终端确定的第一回声估计信号与实际的回声信号越接近,则该第一目标音频信号中的回声信号越少,第一终端对该回声信号的处理的效果越好。
步骤205、播放第一目标音频信号。
该第一终端在确定第一目标音频信号后,可以播放该第一目标音频信号。
综上所述,本公开实施例提供了一种回声处理方法,该第一终端可以基于初始权重矩阵和调整矩阵确定目标权重矩阵,并基于通过该目标权重矩阵和第一本端音频信号得到的第一回声信号,对第一对端音频信号进行处理,得到第一目标音频信号,并播放该第一目标音频信号。由于该调整数值与步长因子正相关,且该步长因子是根据第二本端音频信号确定,因此提高了确定的调整数值的可靠性,进而提高了确定的第一回声估计信号的准确度,从而有效提高了回声处理的效果。
图3是本公开实施例提供的另一种回声处理方法的流程图。该方法可以应用于图1所示的第一终端10中。如图3所示,该方法可以包括:
步骤301、采集第一本端音频信号。
在本公开实施例中,第一终端的用户通过该第一终端与第二终端的用户进行语音通话的过程中,该第一终端可以实时采集本端音频信号。其中,该第一本端音频信号可以为第一终端在第一时长内采集的本端音频信号。可选的,该第一本端音频信号可以为第一终端的用户在第一时长内发出的声音信号。该第一时长可以为第一终端预先存储的固定时长,即该第一终端能够以第一时长为单位采集音频信号。
步骤302、基于初始权重矩阵对第二本端音频信号进行处理,得到第二回声估计信号。
第一终端在采集第一本端音频信号之前,还可以采集时长为第一时长的第二本端音频信号。则第一终端在采集到第二本端音频信号之后,可以根据初始权重矩阵对该第二本端音频信号进行处理,得到第二回声估计信号。其中,该初始权重矩阵为该第一终端中预先存储的固定权重矩阵,该初始权重矩阵为该第一终端中的自适应滤波器的系数矩阵。
其中,该第二本端音频信号可以包括L个音频帧,每个音频帧包括s个频点。该初始权重矩阵可以包括与第二本端音频信号中L×s个频点一一对应的L×s个初始权重系数。该L和s均为大于或等于1的整数。
参考图4,第一终端在接收到时长为第一时长T的第二本端音频信号X0(T)之后,可以对该第二本端音频信号X0(T)进行分段处理,从而得到P段第二子音频信号。
参考图4,第一终端在得到P段第二子音频信号之后,可以对每段第二子音频信号依次进行加窗处理和傅立叶变换,从得到第二本端音频信号中每个频点的第三频谱值。示例的,第一终端可以对每段第二子音频信号加窗函数f1。
之后第一终端可以对每个频点进行延迟处理。对于每个频点,第一终端可以将该第k个频点的第三频谱值与对应的一个初始权重系数w(k)相乘,得到第k个频点的第三频谱值y0(k),该y0(k)=X0(K)×w0(k)。之后第一终端可以将该L×s个第二频谱值相加,得到在频域上的第二回声估计信号Y0。之后第一终端可以对该Y0进行逆傅立叶变换。并对进行逆傅立叶变换之后的Y0进行加窗处理,得到第二回声估计信号y0。示例的,第一终端可以对进行逆傅立叶变换之后的Y0加窗函数f2。k为大于或等于0,且小于L×s的整数。可选的,该窗函数f1和f2均可以为汉明窗函数、矩形窗函数或者三角窗函数等。
步骤303、在接收到第二终端传输的第二对端音频信号后,采用第二回声估计信号对第二对端音频信号进行处理,得到第二目标音频信号。
第一终端的用户在通过第一终端与第二终端的用户进行语音通话的过程中,第二终端也可以采集在第二时长内的对端语音信号,并将该采集到的在第二时长内的第二对端音频信号通过服务器传输至第一终端。第一终端在接收到该第二对端音频信号后,可以采用该第二回声估计信号对第二对端音频信号进行处理,得到第二目标音频信号。其中,该第二时长为第二终端存储的固定时长,并且该第二时长与该第一时长可以相同,也可以不同,本公开实施例对此不做限定。
可选的,参考图4,第一终端可以将第二对端音频信号d和第一回声估计信号y0相减得到该第二目标音频信号E,即该第二目标音频信号为该第二对端音频信号中除该第二回声估计信号之外的音频信号。同时,该第一终端可以对该第二目标音频信号E进行傅立叶变换,得到在频域上的第二目标音频信号
Figure BDA0002874819720000091
该01×n为1×n的权0向量,该F表示傅立叶变换。
由于第二本端音频信号经过服务器传输至第二终端,并由该第二终端播放后,可能再次被第二终端的麦克风拾取从而形成回声信号。该回声信号会和第二终端的用户的声音信号一同传输至第一终端。因此,第一终端接收到的第二对端音频信号实际上包括该回声信号和第二终端的用户的声音信号。
在本公开实施例中,该第二回声估计信号为第一终端基于初始权重矩阵模拟实际的回声路径所估计的回声信号,该第一终端确定的第二回声估计信号与实际的回声信号越接近,则该第二目标音频信号中的回声信号越少,第一终端对该回声信号的处理的效果越好。
步骤304、基于第二本端音频信号的频域自相关系数,以及第二本端音频信号和第二目标音频信号的频域互相关系数,确定每个音频帧的音频泄漏系数。
第一终端在确定第二目标音频信号后,可以播放该第二目标音频信号。同时,第一终端可以分别确定该第二本端音频信号的频域自相关系数,以及该第二本端音频信号和第二目标音频信号的频域互相关系数。之后,第一终端可以基于该频域自相关系数和频域互相关系数,确定每个音频帧的音频泄漏系数。
其中,该音频泄漏系数与该自相关系数负相关,且与该互相关系数正相关。也即是,该自相关系数越大,该音频泄露系数越小,该自相关系数越小,该音频泄露系数越大;该互相关系数越大,该音频泄露系数越大,该互相关系数越小,该音频泄露系数越小。
可选的,该第一终端可以确定该第二本端音频信号中第k个频点的频域自相关系数RXX(k,i)满足:RXX(k,i)=(1-α(i))×RXX(k,i-1)+α(i)×(PX(k))2
其中,该i为大于0,且小于或等于L的整数,该第k个频点属于该第i个音频帧。该PX(k)为该第二本端音频信号中第k个频点的功率谱。该
Figure BDA0002874819720000101
该δX 2(i)为第二本端音频信号中第i帧音频信号的方差,该δE 2(i)为该第二目标音频信号中第i帧音频信号的方差,该α0为大于0,且小于0.01的数。
该第一终端可以确定第二本端音频信号中第k个频点和第二目标音频信号中第k个频点的频域互相关系数REX(k,i)满足:REX(k,i)=(1-α(i))×REX(k,i-1)+α(i)×PX(k)×PE(k),其中,该PE(k)为第二目标音频信号中第k个频点的功率谱。
之后,参考图4,第一终端基于频域自相关系数RXX(k,i)和频域互相关系数REX(k,i)可以确定第二本端音频信号中第i个音频帧的音频泄露系数η(i)满足:
Figure BDA0002874819720000102
步骤305、对于L×s个频点中的每个频点,基于频点所属的音频帧的音频泄漏系数,第二目标音频信号在频点的第一频谱值,以及第二回声估计信号在频点的第二频谱值,确定频点对应的步长因子。
第一终端在确定每个音频帧的音频泄漏系数之后,可以分别确定该频点所属的音频帧的音频泄漏系数,该第二目标音频信号在该频点的第一频谱值,以及第二回声估计信号在该频点的第二频谱值。之后第一终端可以基于该确定的频点所属的音频帧的音频泄漏系数,该第二目标音频信号在该频点的第一频谱值,以及第二回声估计信号在该频点的第二频谱值,确定该频点对应的步长因子,从而得到步长因子矩阵,该步长因子矩阵可以包括L×s个步长因子。
其中,该步长因子与该频点所属的音频帧的音频泄漏系数和第二频谱值均正相关,且与该第一频谱值负相关,也即是音频泄露系数越大,该步长因子越大,该音频泄露系数越小,该步长因子越小;该第二频谱值越大,该步长因子越大,该第二频谱值越小,该步长因子越小;该第一频谱值越大,该步长因子越小,该第二频谱值越大,该步长因子越小。
可选的,参考图4,第一终端基于第k个频点所属的第i帧音频帧的泄露系数η(i),第二目标音频信号中第k个频点的第一频谱值e(k)以及第二回声估计信号中第k个频点的第二频谱值y(k),可以确定该第k个频点对应的步长因子μout(k)。该
Figure BDA0002874819720000111
由此第一终端可以确定出L×s个频点中的每个频点的步长因子,得到步长因子矩阵。其中,该min表示取最小值,该μmax为大于0且小于1的数。
步骤306、采用块稀疏成比例仿射投影算法对第二本端音频信号在频点的第三频谱值以及第二目标音频信号进行处理,得到频点对应的更新步长。
第一终端还可以采用块稀疏成比例仿射投影算法对第二本端音频信号在第k个频点的第三频谱值以及第二目标音频信号进行处理,从而得到该第k个频点对应的更新步长。
在本公开实施例中,该第二本端音频信号可以包括P段第二子音频信号,该每段第二子音频信号可以包括n个频点,该L×s个频点中第k个频点对应的更新步长H(k)满足:
Figure BDA0002874819720000112
其中,该
Figure BDA0002874819720000113
该P为大于0且小于L×s的整数,该n为不大于P的整数。该μ为大于0的数,G为对角矩阵,该对角矩阵中对角线上的第t个元素为gt(t)×I1×n,且gt(t)与w(t)正相关,该w(t)为第二本端音频信号中第t个频点对应的初始权重系数。该I1×n为1×n的单位矩阵,参考图4,X0 H(k)为对第二本端音频信号中第k个频点的频谱值的共轭转置。该sgn[e]为行向量,该行向量中第t个元素为sgn(e(t))。该e(t)为该第二目标音频信号中第t个频点的第一频谱值,该t的取值范围为k至l×n-1,该第k个频点属于第l段第二子音频信号。该l为大于或等于0,且小于P的正整数,该β为不等于0的整数。[G×X0 H(k)×sgn[e]]T为该G×X0 H(k)×sgn[e]的转置矩阵。
其中,该sgn为符号函数,若该e(t)大于0,则该sgn(e(t))为1,若该e(t)小于0,则该sgn(e(t))为-1。若该e(t)等于0,则该sgn(e(t))为0。
步骤307、基于频点对应的步长因子和频点对应的更新步长,确定频点对应的调整数值。
在本公开实施例中,第一终端在确定每个频点的步长因子和该频点对应的更新步长之后,可以基于该每个频点对应的步长因子和该频点对应的更新步长确定该频点对应的调整数值,由此可以得到调整矩阵。该调整矩阵可以包括与L×s个频点一一对应的L×s个调整数值。
其中,该L×s个频点中第k个频点的调整数值D(k)满足:D(k)=F(d(k))。
在本公开实施例一种可选的实现方式中,参考图4,该d(k)满足:
Figure BDA0002874819720000121
其中,该F表示傅立叶变换,即该F(d(k))表示对该d(k)进行傅立叶变换,该F-1表示逆傅立叶变换,即该F-1out(k)×H(k)]表示对该μout(k)×H(k)进行逆傅立叶变换。
在本公开实施例另一种可选的实现方式中,该d(k)满足:
Figure BDA0002874819720000122
其中,该f为窗函数。可选的,该窗函数可以为汉明窗函数、矩形窗函数或者三角窗函数等,本公开实施例对此不做限定。
步骤308、将第二本端音频信号中每个频点对应的初始权重系数与频点对应的调整数值之和确定为第一本端音频信号中频点的目标权重系数。
第一终端在确定每个频点对应的调整数值之后,参考图4,该第一终端可以将该第二本端音频信号中每个频点对应的初始权重系数与频点对应的调整数值之和确定为第一本端音频信号中频点的目标权重系数,由此得到目标权重矩阵。
其中,该调整矩阵与该第二本端音频信号的步长因子矩阵正相关,该目标权重矩阵均与初始权重矩阵和调整矩阵正相关。该目标权重矩阵为该第一终端中的自适应滤波器的系数矩阵。
步骤309、对第一本端音频信号进行分段处理,得到P段第一子音频信号。
第一终端在确定目标权重矩阵之后,可以对接收到的该第一本端音频信号进行分段处理,从而得到P段第一子音频信号,该每段第一子音频信号在频域上可以包括n个频点。
示例的,若第一本端音频信号的时长为T,该第一本端音频信号可以表示为X(T),该
Figure BDA0002874819720000123
即该第一本端音频信号包括x0至xP-1共P段第一子音频信号。
第一终端在得到P段第一子音频信号之后,可以对每段第一子音频信号进行傅立叶变换,从得到每段第一子音频信号中每个频点的第四频谱值。该第一终端还可以对每段第一子音频信号进行延迟处理,以对每段第一子音频信号进行修正。
步骤310、对目标权重矩阵进行分段处理,得到P段目标权重子矩阵。
第一终端在确定目标权重矩阵后,还可以对目标权重矩阵进行分段处理,从而得到P段目标权重子矩阵,该每段目标权重子矩阵包括与n个频点一一对应的n个权重系数。
示例的,该目标权重矩阵可以表示为W,该
Figure BDA0002874819720000131
即该目标权重矩阵可以包括W0至WP-1共P段目标权重子矩阵。第一终端中的自适应滤波器的阶数可以为N阶,该第一终端可以将该自适应滤波器划分为P个自适应滤波器块,该每个目标权重子矩阵即为该自适应滤波器块的系数。
步骤311、基于每段目标权重子矩阵对对应的一段第一子音频信号进行处理,得到第一回声估计信号。
第一终端在得到P段第一子音频信号和P段目标权重子矩阵之后,可以基于第j段目标权重子矩阵对第j段第一子音频信号进行处理,从而得到第一回声估计信号。
该第一回声估计信号y满足:
Figure BDA0002874819720000132
其中,该j大于或等于0,且小于P。该01×n为1×n的全0向量。该Xj为第j段第一子音频信号和第j+1段第一子音频信号的第四频谱值,该
Figure BDA0002874819720000133
该xj为第j段第一子音频信号的信号值,该xj+1为第j+1段第一子音频信号的信号值。该diag表示对角矩阵,该Wj为第j段目标权重子矩阵的目标权重系数。
在本公开实施例中,第一终端在得到P段第一子音频信号之后,还可以对该每段第一子音频信号进行加窗处理。即第j段xj=f1×x(T-j×M),则该第一估计回声信号y满足:
Figure BDA0002874819720000134
其中,该f1和f2均为窗函数,该
Figure BDA0002874819720000135
第一终端在对第一本端音频信号进行分段处理后,通过对每段第一子音频信号进行加窗处理,确保了相邻两段第一子音频信号的连续性,从而确保了最终播放的第一目标音频信号在听感上的连续性。
步骤312、在接收到第二终端传输的第一对端音频信号后,采用第一回声估计信号对第一对端音频信号进行处理,得到第一目标音频信号。
第一终端的用户在通过第一终端与第二终端的用户进行语音通话的过程中,第二终端也可以采集在第二时长内的对端语音信号,并将该采集到的在第二时长内的第一对端音频信号通过服务器传输至第一终端。第一终端在接收到该第一对端音频信号后,可以采用第一回声估计信号对第一对端音频信号进行处理,得到第一目标音频信号。
可选的,第一终端可以将第一对端音频信号第一回声估计信号相减得到该第一目标音频信号,即该第一目标音频信号为该第一对端音频信号中除该第一回声估计信号之外的音频信号。
由于第一本端音频信号经过服务器传输至第二终端,并由该第二终端播放后,可能再次被第二终端的麦克风拾取从而形成回声信号。该回声信号会和第二终端的用户的声音信号一同传输至第一终端。因此,第一终端接收到的第一对端音频信号实际上包括该回声信号和第二终端的用户的声音信号。
在本公开实施例中,该第一回声估计信号为第一终端基于初始权重矩阵和调整矩阵确定的目标权重矩阵模拟实际的回声路径所估计的回声信号,该第一终端确定的第一回声估计信号与实际的回声信号越接近,则该第一目标音频信号中的回声信号越少,第一终端对该回声信号的处理的效果越好。
步骤313、播放第一目标音频信号。
该第一终端在确定第一目标音频信号后,可以播放该第一目标音频信号。
本公开实施例提供的回声处理方法,该方法由于步长因子矩阵可以不断进行更新,即该步长因子矩阵中的步长为可变步长。因此该回声处理方法能够在长时延及自适应滤波器阶数较高,且系统稀疏性未知条件下,对与输入的本端音频信号有较好的收敛速度,较好的跟踪性能,并且能够避免非高斯噪音对于自适应滤波器滤波的干扰。使得对本端音频信号的滤波效果更好,从而更好的消除回声。
以下对调整数值的推导过程进行说明,首先引入一个对角矩阵G,该对角矩阵中对角线上的第t个元素为gt(t)×I1×n,基于成比例仿射投影算法中的权重迭代公式为:
Figure BDA0002874819720000141
为了对非高斯噪声有良好的抑制作用,引入块稀疏成比例仿射投影算法将该成比例仿射投影算法的范数约束推到:min{|Z1(T)-Z0(T)||2×G0-1},该约束条件为:s.t V(T)-XT(T)×Z1(T)=0。使用拉格朗日乘子法可以得到该成比例仿射投影算法的代价函数为:J=(||Z1(T)-Z0(T)||)TG-1(||Z1(T)-Z0(T)||)+λ1(V(T)-XT(T)×Z1(T)),对λ1求解可以得到权重更新公式为:
Figure BDA0002874819720000151
其中,该Z1(T)为第一终端在T时长内采集到的第一本端信号对应的权重系数,该Z0(T)为第一终端在该第一本端信号之前采集的第二本端信号对应的权重系数,该V(T)为第一终端在第一本端信号之前接收到的对端信号,该e(t)为基于第二本端信号和对端信号所确定的回声估计信号。该X(T)为第一本端信号,该|| ||表示的是范数。
以下对步长因子的推导过程进行说明。在时域上归一化最小均方(normalizedleast mean square,NLMS)算法的权重公式为:
Figure BDA0002874819720000152
其中,该权重变化量
Figure BDA0002874819720000153
该Δ(n0)=Z1(T)-Z0(T)。
该每个时刻的权重失调可以表示为
Figure BDA0002874819720000154
通过进一步推导,该
Figure BDA0002874819720000155
其中,该V为不等于0的数。
通过对该μ求导可以得到:
Figure BDA0002874819720000156
由于该
Figure BDA0002874819720000157
为残留回声方差,因此该σe 2=σs 2r 2,因此该
Figure BDA0002874819720000158
其中,该σe 2为基于第二本端信号和对端信号所确定的回声估计信号的方差,该σs 2为对端信号的方差,σr 2为误差信号的残留回声方差,该误差信号对端信号中除回声估计信号以外的信号。因此该μo(T)频域表达式可以为
Figure BDA0002874819720000159
由于残留回声无法直接估计,因此可以近似估计该σs 2(j,i)=η(i)×σy 2(j,i)。其中,该η(i)为第i帧音频信号的泄露系数,该σy 2(j,i)为第j段回声估计信号的频谱值。因此可以推导出第k个频点的步长因子满足:
Figure BDA00028748197200001510
将该步长因子带入上述权重更新公式可以得到该第一权重更新公式在频域上的表达式为:
Figure BDA0002874819720000161
第二权重迭代更新公式为:
Figure BDA0002874819720000162
该μf为1×n的行向量,该μf中第h个数值为
Figure BDA0002874819720000163
该μ1固定数值,该Ph为第二本端信号中第h个频点的信号功率。该h为小于n的数,则结合上述第一权重更新公式和第二权重更新公式可以确定上述调整数值。
需要说明的是,本公开实施例提供的回声处理方法步骤的先后顺序可以进行适当调整,例如,步骤309和步骤310可以根据情况删除。任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本公开的保护范围之内,因此不再赘述。
综上所述,本公开实施例提供了一种回声处理方法,该第一终端可以基于初始权重矩阵和调整矩阵确定目标权重矩阵,并基于通过该目标权重矩阵和第一本端音频信号得到的第一回声信号,对第一对端音频信号进行处理,得到第一目标音频信号,并播放该第一目标音频信号。由于该调整数值与步长因子正相关,且该步长因子是根据第二本端音频信号确定,因此提高了确定的调整数值的可靠性,进而提高了确定的第一回声估计信号的准确度,从而有效提高了回声处理的效果。
图5是本公开实施例提供的一种回声处理装置的框图。该装置可以应用于图1所示的第一终端中。如图5所示,该装置可以包括:
采集模块501,用于采集第一本端音频信号。
第一确定模块502,用于根据初始权重矩阵和调整矩阵确定目标权重矩阵,其中,初始权重矩阵为在第一本端音频信号之前采集到的第二本端音频信号对应的权重矩阵,调整矩阵中的调整数值与第二本端音频信号的步长因子矩阵中的步长因子正相关,目标权重矩阵中的目标权重系数与初始权重矩阵中的初始权重系数和调整数值均正相关,步长因子根据第二本端音频信号确定。
第一处理模块503,用于基于目标权重矩阵对第一本端音频信号进行处理,得到第一回声估计信号。
第二处理模块504,用于在接收到第二终端传输的第一对端音频信号后,采用第一回声估计信号对第一对端音频信号进行处理,得到第一目标音频信号。
播放模块505,用于播放第一目标音频信号。
综上所述,本公开实施例提供了一种回声处理装置,该装置可以基于初始权重矩阵和调整矩阵确定目标权重矩阵,并基于通过该目标权重矩阵和第一本端音频信号得到的第一回声信号,对第一对端音频信号进行处理,得到第一目标音频信号,并播放该第一目标音频信号。由于该调整数值与步长因子正相关,且该步长因子是根据第二本端音频信号确定,因此提高了确定的调整数值的可靠性,进而提高了确定的第一回声估计信号的准确度,从而有效提高了回声处理的效果。
可选的,第二本端音频信号包括L个音频帧,每个音频帧包括s个频点;初始权重矩阵包括与第二本端音频信号中L×s个频点一一对应的L×s个初始权重系数,调整矩阵包括与L×s个频点一一对应的L×s个调整数值,L和s均为大于或等于1的整数;在根据初始权重矩阵和调整矩阵确定目标权重矩阵之前,如图6所示,该装置还可以包括:
第三处理模块506,用于基于初始权重矩阵对第二本端音频信号进行处理,得到第二回声估计信号。
第四处理模块507,用于在接收到第二终端传输的第二对端音频信号后,采用第二回声估计信号对第二对端音频信号进行处理,得到第二目标音频信号。
第二确定模块508,用于基于第二本端音频信号的频域自相关系数,以及第二本端音频信号和第二目标音频信号的频域互相关系数,确定每个音频帧的音频泄漏系数,音频泄漏系数与频域自相关系数负相关,且与频域互相关系数正相关。
第三确定模块509,用于对于L×s个频点中的每个频点,基于频点所属的音频帧的音频泄漏系数,第二目标音频信号在频点的第一频谱值,以及第二回声估计信号在频点的第二频谱值,确定频点对应的步长因子,步长因子与频点所属的音频帧的音频泄漏系数和第二频谱值均正相关,且与第一频谱值负相关。
第五处理模块510,用于采用块稀疏成比例仿射投影算法对第二本端音频信号在频点的第三频谱值以及第二目标音频信号进行处理,得到频点对应的更新步长。
第四确定模块511,用于基于频点对应的步长因子和频点对应的更新步长,确定频点对应的调整数值。
第一确定模块502用于:
将第二本端音频信号中每个频点对应的初始权重系数与频点对应的调整数值之和确定为第一本端音频信号中频点的目标权重系数。
可选的,第二本端音频信号中第i个音频帧的音频泄露系数η(i)满足:
Figure BDA0002874819720000181
其中,i为大于0,且小于或等于L的整数,k为大于或等于0,且小于L×s的整数;REX(k,i)为第二本端音频信号中第k个频点和第二目标音频信号中第k个频点的频域互相关系数;
第k个频点对应的步长因子μout(k)满足:
Figure BDA0002874819720000182
其中,min表示取最小值,μmax为大于0且小于1的数,y(k)为第二回声估计信号中第k个频点的第二频谱值,e(k)为第二目标音频信号中第k个频点第一频谱值。
可选的,第二本端音频信号包括P段第二子音频信号,每段第二子音频信号包括n个频点,L×s个频点中第k个频点对应的更新步长H(k)满足:
Figure BDA0002874819720000183
其中,k为大于或等于0,且小于L×s的整数,μ为大于0的数,G为对角矩阵,对角矩阵中对角线上的第t个元素为gt(t)×I1×n,且gt(t)与w(t)正相关,w(t)为第二本端音频信号中第t个频点对应的初始权重系数,I1×n为1×n的单位矩阵,XH(k)为对第二本端音频信号中第k个频点的频谱值的共轭转置,sgn[e]为行向量,行向量中第t个元素为sgn(e(t)),e(t)为第二目标音频信号中第t个频点的第一频谱值,sgn为符号函数,t的取值范围为k至l×n-1,第k个频点属于第l段第二子音频信号,l为大于或等于0,且小于P的正整数,β为不等于0的整数,
Figure BDA0002874819720000184
P为大于0且小于L×s的整数,n为不大于P的整数。
可选的,L×s个频点中第k个频点的调整数值D(k)满足:D(k)=F(d(k)),d(k)满足:
Figure BDA0002874819720000185
其中,k为大于或等于0,且小于L×s的整数,F表示傅立叶变换,F-1表示逆傅立叶变换。
可选的,L×s个频点中第k个频点的调整数值D(k)满足:D(k)=F(d(k)),d(k)满足:
Figure BDA0002874819720000186
f为窗函数,F表示傅立叶变换,F-1表示逆傅立叶变换。
可选的,第一处理模块503用于:
对第一本端音频信号进行分段处理,得到P段第一子音频信号;
对目标权重矩阵进行分段处理,得到P段目标权重子矩阵;
基于每段目标权重子矩阵对对应的一段第一子音频信号进行处理,得到第一回声估计信号;
其中,每段第一子音频信号包括n个频点,每段目标权重子矩阵包括n个权重系数,P为大于0且小于L×s的整数,n为不大于P的整数。
可选的,第一回声估计信号y满足:
Figure BDA0002874819720000191
其中,I1×n为1×n的单位矩阵,Xj为第j段第一子音频信号的第四频谱值,
Figure BDA0002874819720000192
xj为第j段第一子音频信号的信号值,xj+1为第j+1段第一子音频信号的信号值,diag表示对角矩阵;
Wj为第j段目标权重子矩阵的系数,j大于或等于0,且小于P,01×n为1×n的全0向量。
综上所述,本公开实施例提供了一种回声处理装置,该装置可以基于初始权重矩阵和调整矩阵确定目标权重矩阵,并基于通过该目标权重矩阵和第一本端音频信号得到的第一回声信号,对第一对端音频信号进行处理,得到第一目标音频信号,并播放该第一目标音频信号。由于该调整数值与步长因子正相关,且该步长因子是根据第二本端音频信号确定,因此提高了确定的调整数值的可靠性,进而提高了确定的第一回声估计信号的准确度,从而有效提高了回声处理的效果。
图1是本公开实施例提供的一种回声处理系统,如图1所示,该系统可以包括第一终端10和第二终端30。该第一终端可以包括图5或图6所示的回声处理装置。该第二终端30与该第一终端10建立有通信连接,该第二终端30用于向第一终端10发送音频信号。
本公开实施例提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,该指令由处理器加载并执行以实现上述方法实施例(例如图2或图3所示的实施例)。
本公开实施例提供了一种终端,包括:存储器,处理器及存储在该存储器上的计算机程序,该处理器执行该计算机程序时实现上述方法实施例(例如图2或图3所示的实施例)。
本公开实施例提供了一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机实现上述方法实施例(例如图2或图3所示的实施例)。
在本申请实施例中,术语“第一”、“第二”、“第三”、“第四”和“第五”仅用于描述目的,而不能理解为指示或暗示相对重要性。本申请实施例中术语“至少一个”的含义是指一个或多个以上。本申请实施例中术语“多个”的含义是指两个或两个以上。
以上所述仅为本公开的可选实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (11)

1.一种回声处理方法,其特征在于,应用于第一终端,所述方法包括:
采集第一本端音频信号;
根据初始权重矩阵和调整矩阵确定目标权重矩阵,其中,所述初始权重矩阵为在所述第一本端音频信号之前采集到的第二本端音频信号对应的权重矩阵,所述调整矩阵中的调整数值与所述第二本端音频信号的步长因子矩阵中的步长因子正相关,所述目标权重矩阵中的目标权重系数与所述初始权重矩阵中的初始权重系数和所述调整数值均正相关,所述步长因子根据所述第二本端音频信号确定;
基于所述目标权重矩阵对所述第一本端音频信号进行处理,得到第一回声估计信号;
在接收到第二终端传输的第一对端音频信号后,采用所述第一回声估计信号对所述第一对端音频信号进行处理,得到第一目标音频信号;
播放所述第一目标音频信号。
2.根据权利要求1所述的方法,其特征在于,所述第二本端音频信号包括L个音频帧,每个所述音频帧包括s个频点;所述初始权重矩阵包括与所述第二本端音频信号中L×s个频点一一对应的L×s个初始权重系数,所述调整矩阵包括与所述L×s个频点一一对应的L×s个调整数值,L和s均为大于或等于1的整数;在根据初始权重矩阵和调整矩阵确定目标权重矩阵之前,所述方法还包括:
基于所述初始权重矩阵对所述第二本端音频信号进行处理,得到第二回声估计信号;
在接收到所述第二终端传输的第二对端音频信号后,采用所述第二回声估计信号对所述第二对端音频信号进行处理,得到第二目标音频信号;
基于所述第二本端音频信号的频域自相关系数,以及所述第二本端音频信号和所述第二目标音频信号的频域互相关系数,确定每个所述音频帧的音频泄漏系数,所述音频泄漏系数与所述频域自相关系数负相关,且与所述频域互相关系数正相关;
对于所述L×s个频点中的每个频点,基于所述频点所属的音频帧的音频泄漏系数,所述第二目标音频信号在所述频点的第一频谱值,以及所述第二回声估计信号在所述频点的第二频谱值,确定所述频点对应的所述步长因子,所述步长因子与所述频点所属的音频帧的音频泄漏系数和所述第二频谱值均正相关,且与所述第一频谱值负相关;
采用块稀疏成比例仿射投影算法对所述第二本端音频信号在所述频点的第三频谱值以及所述第二目标音频信号进行处理,得到所述频点对应的更新步长;
基于所述频点对应的步长因子和所述频点对应的更新步长,确定所述频点对应的调整数值;
所述根据初始权重矩阵和调整矩阵确定目标权重矩阵,包括:
将所述第二本端音频信号中每个所述频点对应的初始权重系数与所述频点对应的调整数值之和确定为所述第一本端音频信号中所述频点的目标权重系数。
3.根据权利要求2所述的方法,其特征在于,所述第二本端音频信号中第i个音频帧的音频泄露系数η(i)满足:
Figure FDA0002874819710000021
其中,所述i为大于0,且小于或等于L的整数,所述k为大于或等于0,且小于L×s的整数;所述REX(k,i)为所述第二本端音频信号中第k个频点和所述第二目标音频信号中第k个频点的频域互相关系数;
所述第k个频点对应的步长因子μout(k)满足:
Figure FDA0002874819710000022
其中,min表示取最小值,所述μmax为大于0且小于1的数,所述y(k)为所述第二回声估计信号中第k个频点的第二频谱值,所述e(k)为所述第二目标音频信号中第k个频点第一频谱值。
4.根据权利要求2所述的方法,其特征在于,所述第二本端音频信号包括P段第二子音频信号,每段所述第二子音频信号包括n个频点,所述L×s个频点中第k个频点对应的更新步长H(k)满足:
Figure FDA0002874819710000023
其中,所述k为大于或等于0,且小于L×s的整数,所述μ为大于0的数,G为对角矩阵,所述对角矩阵中对角线上的第t个元素为gt(t)×I1×n,且gt(t)与w(t)正相关,所述w(t)为所述第二本端音频信号中第t个频点对应的初始权重系数,所述I1×n为1×n的单位矩阵,所述X0 H(k)为对所述第二本端音频信号中第k个频点的频谱值的共轭转置,所述sgn[e]为行向量,所述行向量中第t个元素为sgn(e(t)),所述e(t)为所述第二目标音频信号中第t个频点的第一频谱值,所述sgn为符号函数,所述t的取值范围为k至l×n-1,所述第k个频点属于第l段所述第二子音频信号,所述l为大于或等于0,且小于P的正整数,所述β为不等于0的整数,所述
Figure FDA0002874819710000031
所述P为大于0且小于L×s的整数,n为不大于P的整数。
5.根据权利要求4所述的方法,其特征在于,所述L×s个频点中第k个频点的调整数值D(k)满足:D(k)=F(d(k)),所述d(k)满足:
Figure FDA0002874819710000032
Figure FDA0002874819710000033
其中,所述k为大于或等于0,且小于L×s的整数,F表示傅立叶变换,所述F-1表示逆傅立叶变换。
6.根据权利要求4所述的方法,其特征在于,所述L×s个频点中第k个频点的调整数值D(k)满足:D(k)=F(d(k)),所述d(k)满足:
Figure FDA0002874819710000034
所述f为窗函数,F表示傅立叶变换,所述F-1表示逆傅立叶变换。
7.根据权利要求1至6任一所述的方法,其特征在于,所述基于所述目标权重矩阵对所述第一本端音频信号进行处理,得到第一回声估计信号,包括:
对所述第一本端音频信号进行分段处理,得到P段第一子音频信号;
对所述目标权重矩阵进行分段处理,得到P段目标权重子矩阵;
基于每段所述目标权重子矩阵对对应的一段所述第一子音频信号进行处理,得到第一回声估计信号;
其中,每段所述第一子音频信号包括n个频点,每段所述目标权重子矩阵包括n个权重系数,所述P为大于0且小于L×s的整数,n为不大于P的整数。
8.根据权利要求7所述的方法,其特征在于,所述第一回声估计信号y满足:
Figure FDA0002874819710000035
其中,所述I1×n为1×n的单位矩阵,所述Xj为第j段所述第一子音频信号的第四频谱值,所述
Figure FDA0002874819710000041
所述xj为第j段所述第一子音频信号的信号值,所述xj+1为第j+1段所述第一子音频信号的信号值,diag表示对角矩阵;
所述Wj为第j段所述目标权重子矩阵的目标权重系数,所述j为大于或等于0,且小于所述P的整数,所述01×n为1×n的全0向量。
9.一种回声处理装置,其特征在于,应用于第一终端,所述装置包括:
采集模块,用于采集第一本端音频信号;
第一确定模块,用于根据初始权重矩阵和调整矩阵确定目标权重矩阵,其中,所述初始权重矩阵为在所述第一本端音频信号之前采集到的第二本端音频信号对应的权重矩阵,所述调整矩阵中的调整数值与所述第二本端音频信号的步长因子矩阵中的步长因子正相关,所述目标权重矩阵中的目标权重系数与所述初始权重矩阵中的初始权重系数和所述调整数值均正相关,所述步长因子根据所述第二本端音频信号确定;
第一处理模块,用于基于所述目标权重矩阵对所述第一本端音频信号进行处理,得到第一回声估计信号;
第二处理模块,用于在接收到第二终端传输的第一对端音频信号后,采用所述第一回声估计信号对所述第一对端音频信号进行处理,得到第一目标音频信号;
播放模块,用于播放所述第一目标音频信号。
10.一种回声处理系统,其特征在于,所述系统包括:第一终端和第二终端,所述第一终端包括如权利要求9所述的回声处理装置;
所述第二终端与所述第一终端建立有通信连接,所述第二终端用于向所述第一终端发送音频信号。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,所述指令由处理器加载并执行以实现如权利要求1至8任一所述的回声处理方法。
CN202011615540.2A 2020-12-31 2020-12-31 回声处理方法、装置及系统 Active CN112802487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011615540.2A CN112802487B (zh) 2020-12-31 2020-12-31 回声处理方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011615540.2A CN112802487B (zh) 2020-12-31 2020-12-31 回声处理方法、装置及系统

Publications (2)

Publication Number Publication Date
CN112802487A true CN112802487A (zh) 2021-05-14
CN112802487B CN112802487B (zh) 2023-05-12

Family

ID=75804636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011615540.2A Active CN112802487B (zh) 2020-12-31 2020-12-31 回声处理方法、装置及系统

Country Status (1)

Country Link
CN (1) CN112802487B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113452350A (zh) * 2021-06-07 2021-09-28 苏州大学 一种变步长块稀疏仿射投影自适应滤波器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006020159A (ja) * 2004-07-02 2006-01-19 Matsushita Electric Ind Co Ltd エコーキャンセル装置
CN104506746A (zh) * 2015-01-20 2015-04-08 西南交通大学 一种改进的凸组合解相关成比例自适应回声消除方法
US20170372722A1 (en) * 2016-06-22 2017-12-28 Cisco Technology, Inc. Acoustic echo cancellation with delay uncertainty and delay change
CN109754813A (zh) * 2019-03-26 2019-05-14 南京时保联信息科技有限公司 基于快速收敛特性的变步长回声消除方法
CN111199748A (zh) * 2020-03-12 2020-05-26 紫光展锐(重庆)科技有限公司 回声消除方法、装置、设备以及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006020159A (ja) * 2004-07-02 2006-01-19 Matsushita Electric Ind Co Ltd エコーキャンセル装置
CN104506746A (zh) * 2015-01-20 2015-04-08 西南交通大学 一种改进的凸组合解相关成比例自适应回声消除方法
US20170372722A1 (en) * 2016-06-22 2017-12-28 Cisco Technology, Inc. Acoustic echo cancellation with delay uncertainty and delay change
CN109754813A (zh) * 2019-03-26 2019-05-14 南京时保联信息科技有限公司 基于快速收敛特性的变步长回声消除方法
CN111199748A (zh) * 2020-03-12 2020-05-26 紫光展锐(重庆)科技有限公司 回声消除方法、装置、设备以及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113452350A (zh) * 2021-06-07 2021-09-28 苏州大学 一种变步长块稀疏仿射投影自适应滤波器
CN113452350B (zh) * 2021-06-07 2024-04-05 苏州大学 一种变步长块稀疏仿射投影自适应滤波器

Also Published As

Publication number Publication date
CN112802487B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN112863535B (zh) 一种残余回声及噪声消除方法及装置
CN111885275B (zh) 语音信号的回声消除方法、装置、存储介质以及电子装置
Aichner et al. A real-time blind source separation scheme and its application to reverberant and noisy acoustic environments
CN111768796B (zh) 一种声学回波消除与去混响方法及装置
CN111863015B (zh) 一种音频处理方法、装置、电子设备和可读存储介质
CN110289009B (zh) 声音信号的处理方法、装置和交互智能设备
Jan et al. A multistage approach to blind separation of convolutive speech mixtures
CN108010536B (zh) 回声消除方法、装置、系统及存储介质
CN107105111B (zh) 一种组合步长成比例仿射投影回声消除方法
CN110992923B (zh) 回声消除方法、电子设备以及存储装置
Khan et al. Fractional LMS and NLMS algorithms for line echo cancellation
CN109727605B (zh) 处理声音信号的方法及系统
CN112951261B (zh) 声源定位方法、装置及语音设备
CN111883154B (zh) 回声消除方法及装置、计算机可读的存储介质、电子装置
CN112802487B (zh) 回声处理方法、装置及系统
Mohanaprasad et al. Wavelet-based ICA using maximum likelihood estimation and information-theoretic measure for acoustic echo cancellation during double talk situation
CN113838471A (zh) 基于神经网络的降噪方法、系统、电子设备及存储介质
Aichner et al. Real-time convolutive blind source separation based on a broadband approach
CN116312621A (zh) 时延估计方法、回声消除方法、训练方法和相关设备
CN111370016A (zh) 一种回声消除方法及电子设备
CN109379501A (zh) 一种用于回声消除的滤波方法及装置、设备、介质
JP4041770B2 (ja) 音響エコー消去方法、その装置、プログラム及びその記録媒体
CN115620737A (zh) 语音信号处理装置、方法、电子设备和扩音系统
Šarić et al. Partitioned block frequency domain acoustic echo canceller with fast multiple iterations
CN111883155B (zh) 回声消除方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant