CN115665328A - 一种声学回声处理方法及装置 - Google Patents
一种声学回声处理方法及装置 Download PDFInfo
- Publication number
- CN115665328A CN115665328A CN202211247637.1A CN202211247637A CN115665328A CN 115665328 A CN115665328 A CN 115665328A CN 202211247637 A CN202211247637 A CN 202211247637A CN 115665328 A CN115665328 A CN 115665328A
- Authority
- CN
- China
- Prior art keywords
- signal
- residual
- voice
- echo
- correlation coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本申请提供一种声学回声处理方法及装置,所述方法包括:获取第一残差信号与第一回声信号的第一相关系数,所述第一残差信号与所述第一回声信号对应第一语音信号;基于所述第一相关系数与衰减系数确定第二相关系数,所述第二相关系数小于或等于所述第一相关系数;基于所述第二相关系数对所述第一残差信号进行残余回声处理,获得第二语音信号。改善在一些场景中,采用声学回声处理技术中存在的过估计问题,提高声学回声处理效果。
Description
技术领域
本申请涉及声学回声领域,尤其涉及一种声学回声处理方法及装置。
背景技术
在语音通讯过程中,声学回声是影响通话效果与用户体验的一个重要因素。声学回声的产生原因是:语音通讯中的远端通话者的语音信号被近端通话者所使用的终端设备的扬声器播放出来后,又被该终端设备的麦克风拾取并传输到远端,这样就会使得远端通话者在说话时总能听到自己的声音,特别是在免提通话的情况下,能量过大的回声会给远端的通话者造成语义理解的干扰严重影响通话体验。
在声学回声消除技术中,一般包括自适应线性滤波和残余回声抑制步骤,自适应线性滤波步骤用于滤除大部分的线性回声,得到残差信号,该线性回声为近端麦克风拾取的语音信号中与远端通话者的语音信号线性相关的大部分回声信号。残余回声抑制步骤用于估算该残差信号中残余的回声成分,具体的,通过计算该残差信号与该线性回声的相关系数,估计该残差信号中的残余回声。
然而,在一些场景中,例如噪声场景,采用上述声学回声消除技术对近端麦克风拾取的语音信号进行回声处理存在过估计问题,回声处理输出的语音信号出现失真现象,声学回声处理效果有待改善。
发明内容
本申请提供一种声学回声处理方法及其装置,可以改善在一些场景中,采用声学回声处理技术中存在的过估计问题以及回声处理输出的语音信号出现失真的问题,提高声学回声处理效果。
第一方面,本申请一种声学回声处理方法,所述方法包括:获取第一残差信号与第一回声信号的第一相关系数,所述第一残差信号与所述第一回声信号对应第一语音信号;基于所述第一相关系数与衰减系数确定第二相关系数,所述第二相关系数小于或等于所述第一相关系数;基于所述第二相关系数对所述第一残差信号进行残余回声处理,获得第二语音信号。
示例性的,可以基于上述第一相关系数与衰减系数的乘积、商、差值、或幂次方确定上述第一相关系数。
示例性的,设计人员发现在噪声场景或双讲场景下,基于自适应线性滤波和残余回声抑制步骤对第一语音信号进行回声处理后,得到的语音信号中出现近端通话者的语音信号出现失真现象,则采用本申请提供的声学回声处理方法,衰减该第一相关系数,也即基于第一相关系数和衰减系数确定小于该第一相关系数的第二相关系数,再基于该第二相关系数对第一残余回声信号进行回声处理获得上述第二语音信号,以达到改善第一相关系数偏大的过估计问题导致第二语音信号中包含的近端通话者语音信号出现失真的问题,对近端通话者讲话的语音信号起到保护作用,提高声学回声处理效果。
示例性的,设计人员发现在非噪声场景或非双讲场景下,基于自适应线性滤波和残余回声抑制步骤对第一语音信号进行回声处理后,得到的语音信号中出现近端通话者的语音信号未出现失真现象,则可以采用本申请提供的声学回声处理方法,不衰减该第一相关系数,也即基于第一相关系数和衰减系数确定等于该第一相关系数的第二相关系数,再基于该第二相关系数对第一残余回声信号进行回声处理获得上述第二语音信号;或者,直接基于该第一相关系数对第一残余回声信号进行回声处理获得上述第二语音信号,以达到在保障第二语音信号不失真的前提下尽可能减少第二语音信号中的回声信号。
综上,采用本申请提供的声学回声处理方法,可以基于衰减系数,在需要衰减第一相关系数时,获取小于该第一相关系数的第二相关系数,以及基于该第二相关系数对第一残差信号进行残余回声处理,以达到改善第一相关系数偏大的过估计问题导致第二语音信号中包含的近端通话者语音信号出现失真的问题;另外,还可以基于衰减系数,在不需要衰减第一相关系数时,获取等于该第一相关系数的第二相关系数,以及基于该第二相关系数对第一残差信号进行残余回声处理,在保障第二语音信号不失真的前提下尽可能减少第二语音信号中的回声信号,提高声学回声处理效果。
在一种可能的实现方式中,所述基于所述第一相关系数与衰减系数确定第二相关系数包括:基于所述第一相关系数与所述衰减系数的乘积确定所述第二相关系数,所述衰减系数大于0且小于或等于1。
在一种可能的实现方式中,在所述第一语音信号对应的语音场景属于第一场景的情况下,所述衰减系数大于0且小于1。
可理解的,若第二相关系数的获取方法为:基于所述第一相关系数与所述衰减系数的乘积确定所述第二相关系数,则衰减系数大于0且小于1,用于表示衰减第一相关系数,得到小于第一相关系数的第二相关系数。
在一种可能的实现方式中,所述第一场景为噪声场景或双讲场景。
在一种可能的实现方式中,在第一数值小于第一阈值的情况下,所述第一语音信号对应的语音场景属于所述第一场景,所述第一数值基于所述第一回声信号的能量、所述第一残差信号的能量、以及第一常数确定。
在一种可能的实现方式中,在所述第一语音信号对应的第二数值小于第二阈值的情况下,所述第一语音信号对应的语音场景属于所述第一场景,所述第一语音信号对应的第二数值基于所述第一回声信号的能量、所述第一残差信号的能量、第一常数、第一语音信号、第二语音信号对应的第二数值、以及平滑系数确定,所述第二语音信号与所述第一语音信号属于同一段语音信号中相邻的两帧语音信号。
在一种可能的实现方式中,所述第一语音信号对应的第二数值满足如下公式:βsmooth(n)=β(n)*α+βsmooth(n-1)*(1-α);其中,所述βsmooth(n)为根据所述第一语音信号的参数确定的第二数值,所述βsmooth(n-1)为根据所述第二语音信号的参数确定的第二数值,所述第一语音信号和所述第二语音信号分别属于同一段语音信号中的第n帧信号和第n-1帧信号,所述n大于或等于2,所述β(n)为第一数值,所述第一数值基于所述第一回声信号的能量、所述第一残差信号的能量、以及第一常数确定,所述α为所述平滑系数。
可理解的,若第一终端基于公式11中对β(n)进行平滑处理后得到的βsmooth(n)判断第一语音信号是否处于大近端干扰场景,由于该βsmooth(n)包含在该第一语音信号之前的n帧信号的场景特征,而不是仅包含当前帧信号也即第一语音信号的场景特征,从而基于该βsmooth(n)判断第一语音信号是否处于大近端干扰场景所得到的判断结果,具备较高的稳定性和准确性,可以降低未知的不稳定性因素对判断结果的干扰程度。
在一种可能的实现方式中,当所述n取值为2时,所述βsmooth(n-1)取值为β(n-1),所述β(n-1)为第二回声信号的能量与第二残差信号的能量的比值与所述第一常数的乘积,所述第二回声信号和所述第二残差信号与所述第二语音信号对应。
在一种可能的实现方式中,在目标噪声信号的幅值大于第三阈值的情况下,所述第一语音信号对应的语音场景属于所述第一场景,所述目标噪声信号用于指示所述第一语音信号的噪声强度。
在一种可能的实现方式中,所述目标噪声信号为对所述第一语音信号进行噪声估计得到的噪声信号;或者,所述目标噪声信号为对第二语音信号进行噪声估计得到的噪声信号,所述第二语音信号与所述第一语音信号属于同一段语音信号中相邻的两帧语音信号;或者,所述目标噪声信号为对所述第一残差信号进行噪声估计得到的噪声信号;或者,所述目标噪声信号为对第二残差信号进行噪声估计得到的噪声信号,所述第二残差信号与第二语音信号对应,所述第二语音信号与所述第一语音信号属于同一段语音信号中相邻的两帧语音信号。
可理解的,第一回声信号中会包含部分噪声信号,会使得第一残差信号中包含的噪声信号相比于第一语音信号中包含的噪声信号减少了,并且对不同的两帧信号进行自适应线性滤波,得到的第一回声信号中的噪声信号占总的噪声信号的比重也会飘忽不定。也就是说,完整的第一语音信号相比于第一残差信号,第一语音信号中包含的噪声场景特征更完整,采用完整的第一语音信号的噪声估计判断第一语音信号所处场景是否处于大近端干扰场景,更具代表性,得到的判断结果准确性更高。
可理解的,一般第一回声信号中包含的噪声信号的含量较少,大部分的噪声信号会遗留在第一残差信号中,第一残差信号的噪声估计也足以用于表示第一语音信号所处噪声环境,而且相比于对第一回声信号进行噪声估计,对第一残差信号进行噪声估计的计算量更小,特别是在帧信号的数量较多的情况下,可以在一定程度上节省性能损耗。
在一种可能的实现方式中,在所述第一语音信号对应的语音场景属于第二场景的情况下,所述衰减系数取值为1;所述基于所述第一相关系数与衰减系数确定第二相关系数包括:基于所述第一相关系数与所述衰减系数的乘积确定所述第二相关系数。
在一种可能的实现方式中,所述第一场景为噪声场景或双讲场景。
在一种可能的实现方式中,在所述第一语音信号对应的第二数值小于第二阈值、且目标噪声信号的幅值大于第三阈值的情况下,所述第一语音信号对应的语音场景属于所述第一场景,所述目标噪声信号用于指示所述第一语音信号的噪声强度;其中,所述第二数值满足公式βsmooth(n)=β(n)*α+βsmooth(n-1)*(1-α);所述β(n)为第一数值,所述第一数值基于所述第一回声信号的能量、所述第一残差信号的能量、以及第一常数确定,所述βsmooth(n)用于表示所述第一语音信号对应的第二数值,所述βsmooth(n-1)用于表示第二语音信号对应的第二数值,所述第一语音信号和所述第二语音信号分别属于同一段语音信号中的第n帧信号和第n-1帧信号,所述n大于或等于2,所述α为所述平滑系数;以及,当所述n取值为2时,所述βsmooth(n-1)取值为β(n-1),所述β(n-1)为所述第二回声信号的能量与所述第二残差信号的能量的比值与所述第一常数的乘积。
在一种可能的实现方式中,所述第一语音信号中的每一帧信号包含M个频点,所述M大于或等于1,所述目标噪声信号包括与所述M个频点一一对应的M个噪声复数频谱,所述目标噪声信号的幅值为所述M个噪声复数频谱对应的M个模的和。
在一种可能的实现方式中,所述基于所述第二相关系数对所述第一残差信号进行残余回声处理,获得第二语音信号,包括:基于所述第一残差信号的频谱与所述第二相关系数的乘积,得到残余回声信号;对所述第一残差信号做噪声估计,得到第一噪声信号;采用频减的方式去除所述第一残差信号中的所述残余回声信号和所述第一噪声信号,得到所述第二语音信号。
在一种可能的实现方式中,所述第一相关系数满足如下公式: 其中,所述η(n)用于表示所述第一相关系数,所述Pey(n)和所述Pyy(n)与所述第一语音信号相关,所述Pey(n-1)和所述Pyy(n-1)与第二语音信号相关,所述第一语音信号和所述第二语音信号分别属于同一段语音信号中的第n帧信号和第n-1帧信号,所述n大于或等于2;所述第一语音信号与所述第二语音信号均包含M个频点,所述M大于或等于1,所述k用于表示所述M个频点中的第k频点,所述k为大于1且小于M的正整数,所述Rey(n,k)为第k回声信号与第k残差信号的互功率谱,所述第k回声信号为与所述第一回声信号中所述第k频点对应的复数频谱,所述第k残差信号为所述第一残差信号中与所述第k频点对应的复数频谱,所述为所述第一语音信号的M个频点的互功率谱的和;所述β(n)为所述第一回声信号的能量与所述第一残差信号的能量的比值与第一常数的乘积,所述第一常数大于0且小于0.1;所述Ryy(n,k)为所述第k回声信号的自功率谱,所述用于表示所述第一语音信号的M个频点对应的M个所述自功率谱的和;其中,当n等于2时,所述Pey(n-1)为所述Pyy(n-1)为所述为所述第二语音信号的M个频点对应的残差信号与回声信号的互功率谱的和,所述为所述第二语音信号的M个频点对应的回声信号的自功率谱的和。
在一种可能的实现方式中,所述方法应用于第一终端与第二终端进行通话的场景,在所述获取第一残差信号与第一回声信号的第一相关系数之前,所述方法还包括:在所述通话的情境下,获取第一参考信号和所述第一语音信号,所述第一参考信号为所述第一终端接收到的来自所述第二终端的语音通话信号,所述第一语音信号为所述第一参考信号在所述第一终端播放之后所述第一终端的麦克风拾取到的语音通话信号,在不考虑时延的情况下,所述第一终端接收所述第一参考信号的时刻、所述第一终端播放所述第一参考信号的时刻、以及所述第一终端的麦克风拾取到所述第一语音信号的时刻属于同一时刻;基于所述自适应线性滤波的回声消除技术、所述第一参考信号、以及所述第一语音信号,获取所述第一回声信号和所述第一残差信号,所述第一回声信号为基于所述自适应线性滤波的回声消除技术从所述第一语音信号中获取到的线性回声信号,所述第一残差信号为所述第一语音信号中除了所述第一回声信号之外的其他信号。
第二方面,本申请实施例提供了一种声学回声处理装置,该声学回声处理装置包括用于实现上述第一方面或第一方面的任意可能的实现方式所示的方法的单元。
第三方面,本申请实施例提供了一种声学回声处理装置,该声学回声处理装置包括处理器和存储器,处理器和存储器相互连接,存储器用于存储指令,处理器用于调用该指令,使得如第一方面或第一方面的任意可能的实现方式所示的方法被实现。
第四方面,本申请实施例提供一种芯片系统,所述芯片系统包括一个或多个处理器,所述处理器用于调用计算机指令以使得如第一方面或第一方面的任意可能的实现方式所示的方法被实现。
第五方面,本申请实施例提供一种模组设备,该模组设备包括通信模组、电源模组、存储模组以及芯片模组,其中:该电源模组用于为该模组设备提供电能;该存储模组用于存储数据和指令;该通信模组用于进行模组设备内部通信,或者用于该模组设备与外部设备进行通信;该芯片模组用于执行如第一方面或第一方面的任意可能的实现方式所示的方法。
第六方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,所述计算机程序被执行时,如第一方面或第一方面的任意可能的实现方式所示的方法被实现。
第七方面,本申请实施例提供一种计算机程序,所述计算机程序被执行时,如第一方面或第一方面的任意可能的实现方式所示的方法被实现。
可以理解的,上述第二方面提供的声学回声处理装置、芯片、模组设备、计算机可读存储介质、计算机程序用于执行本申请实施例所提供的方法。因此,其所能达到的有益效果可参考对应方法中的有益效果,此处不再赘述。
附图说明
图1是本申请实施例提供的一种声学回声处理方法的流程示意图;
图2是本申请实施例提供的又一种声学回声处理方法的流程示意图;
图3是本申请实施例提供的又一种声学回声处理方法的流程示意图;
图4是本申请实施例提供的又一种声学回声处理方法的流程示意图;
图5是本申请实施例提供的第一终端中用于执行声学回声处理方法的的功能模块以及模块之间的信号流向的示意图;
图6是本申请实施例提供的一种声学回声处理装置的示意图;
图7是本申请实施例提供的又一种声学回声处理的示意图;
图8是本申请实施例提供的又一种声学回声处理的示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一不地描述。
本申请的说明书、权利要求书及附图中的术语“第一”和“第二”等仅用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备等,没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元等,或可选地还包括对于这些过程、方法、产品或设备等固有的其它步骤或单元。
在本文中提及的“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员可以显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上,“至少两个(项)”是指两个或三个及三个以上,“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”。
如图1所示的流程示意图为本申请提供的一种声学回声处理方法。如图1所示,该方法包括:
S101,第一终端获取第一残差信号与第一回声信号的第一相关系数。
在本申请实施例中,第一残差信号与第一回声信号对应第一语音信号。
示例性的,第一语音信号为在第一终端与第二终端进行通话的场景下,第一终端基于拾音设备(例如麦克风)获取到的帧信号。该通话的场景可以为电话应用的通话场景,也可以为其他社交应用的语音通话场景、或音视频通话场景,例如,微信应用中的语音通话场景或音视频通话场景。
在本申请实施例中,假设上述第一终端基于拾音设备(例如麦克风)获取到的帧信号记为麦克信号,第一语音信号为该麦克信号中的第n帧信号,该n为正整数。
在本申请实施例中,上述第一回声信号可以包括第一语音信号中的部分或全部线性回声信号,第一残差信号为该第一语音信号中除了第一回声信号之外的其他信号。示例性的,该第一残差信号可能包括第一语音信号中的线性回声成分和/或非线性回声成分,该第一残差信号还包括近端信号,该近端信号包括近端通话者讲话的语音信号和/或第一终端所处环境的噪声信号。
上述第一回声信号为第一终端基于自适应线性滤波的回声消除方法、以及第一参考信号从第一语音信号中获取的线性回声信号,该线性回声信号为第一语音信号中与该参考信号线性相关的部分或全部信号,该第一参考信号为第一终端接收到的第二终端向第一终端发送的语音通话信号。该第一语音信号为该第一参考信号在第一终端播放之后第一终端的麦克风拾取到的语音通话信号。在不考虑时延的情况下,第一终端接收第一参考信号的时刻、第一终端播放第一参考信号的时刻、以及第一终端的麦克风拾取第一语音信号的时刻属于同一时刻。
在一种可能的实现方式中,所述方法应用于第一终端与第二终端进行通话的场景,在所述获取第一残差信号与第一回声信号的第一相关系数之前,所述方法还包括:在所述通话的情境下,获取第一参考信号和所述第一语音信号,所述第一参考信号为所述第一终端接收到的来自所述第二终端的语音通话信号,所述第一语音信号为所述第一参考信号在所述第一终端播放之后所述近端的麦克风拾取到的语音通话信号;基于所述自适应线性滤波的回声消除技术、所述第一参考信号、以及所述第一语音信号,获取所述第一回声信号和所述第一残差信号,所述第一回声信号为基于所述自适应线性滤波的回声消除技术从所述第一语音信号中获取到的线性回声信号,所述第一残差信号为所述第一语音信号中除了所述第一回声信号之外的其他信号。
示例性的,上述自适应线性滤波的回声消除方法可以为基于时域的自适应线性滤波回声消除技术,例如,归一化最小均方自适应线性滤波(normalized least meansquare,NLMS)、递归最小二乘(recursive least square,RLS);或者,该自适应线性滤波的回声消除方法也可以为基于频域的自适应线性滤波回声消除技术,例如,频域自适应线性滤波(frequency domain adaptive filter,FDAF)。
在本申请实施例中,第一相关系数用于表示第一残差信号与第一回声信号的相似程度,第一残差信号与第一回声信号的相似程度越大表示第一残差信号中包含的残余回声信号的含量越多。该第一相关系数的取值大于0且小于1,第一相关系数越趋近于0表示第一残差信号与第一回声信号的相似程度越小,第一相关系数越趋近于1表示第一残差信号与第一回声信号的相似程度越大。关于第一相关系数的具体的计算方式可以参照下文步骤S202中的相关说明,在此不再详述。
在一种可能的实现方式中,所述第一相关系数满足如下公式: 其中,所述η(n)用于表示所述第一相关系数,所述Pey(n)和所述Pyy(n)与所述第一语音信号相关,所述Pey(n-1)和所述Pyy(n-1)与第二语音信号相关,所述第一语音信号和所述第二语音信号分别属于同一段语音信号中的第n帧信号和第n-1帧信号,所述n大于或等于2;所述第一语音信号与所述第二语音信号均包含M个频点,所述M大于或等于1,所述k用于表示所述M个频点中的第k频点,所述k为大于1且小于M的正整数,所述Rey(n,k)为第k回声信号与第k残差信号的互功率谱,所述第k回声信号为与所述第一回声信号中所述第k频点对应的复数频谱,所述第k残差信号为所述第一残差信号中与所述第k频点对应的复数频谱,所述为所述第一语音信号的M个频点的互功率谱的和;所述β(n)为所述第一回声信号的能量与所述第一残差信号的能量的比值与第一常数的乘积,所述第一常数大于0且小于0.1;所述Ryy(n,k)为所述第k回声信号的自功率谱,所述用于表示所述第一语音信号的M个频点对应的M个所述自功率谱的和;其中,当n等于2时,所述Pey(n-1)为所述Pyy(n-1)为所述为所述第二语音信号的M个频点对应的残差信号与回声信号的互功率谱的和,所述为所述第二语音信号的M个频点对应的回声信号的自功率谱的和。具体可以参照下文关于步骤S202的相关说明,在此不再详述。
S102,第一终端基于第一相关系数与衰减系数确定第二相关系数。
在本申请实施例中,第二相关系数小于或等于第一相关系数。可理解的,基于第一终端利用该第一相关系数与衰减系数确定第二相关系数具体所采用的方式,衰减系数可以有不同的取值范围。
示例性的,第一终端基于第一相关系数与衰减系数确定第二相关系数具体为:第一终端基于第一相关系数与衰减系数的乘积确定该第二相关系数,则上述衰减系数的取值大于0且小于或等于1。其中,当衰减系数取值大于0且小于1时,第二相关系数小于第一相关系数,当衰减系数取值为1时,第二相关系数与第一相关系数相等。例如,下文关于图2(具体参照步骤S204)或图4(具体参照步骤S401或步骤S402)所示的声学回声处理方法即为采用第一相关系数与衰减系数的乘积确定第二相关系数。
示例性的,第一终端基于第一相关系数与衰减系数确定第二相关系数具体为:第一终端基于第一相关系数关于该衰减系数的幂次方确定该第二相关系数,例如,第二相关系数等于第一相关系数的一次方、二次方、或三次方等。则上述衰减系数的取值可以为大于或等于1且小于或等于5的正整数。其中,当衰减系数取值为1时,第二相关系数与第一相关系数相等。
示例性的,第一终端基于第一相关系数与衰减系数确定第二相关系数具体为:第一终端基于第一相关系数与衰减系数的差值确定第二相关系数。则上述衰减系数的取值可以为大于或等于0且小于或等于第四阈值,例如该第四阈值可以取值为该第一相关系数的L分之一,例如该第四阈值可以取值为该第一相关系数的二分之一、三分之一、或四分之一等。其中,当衰减系数等于0时,第二相关系数与第一相关系数相等,当衰减系数大于0且小于或等于第四阈值时,第二相关系数小于第一相关系数。
示例性的,第一终端基于第一相关系数与衰减系数确定第二相关系数具体还可以为:第一终端基于第一相关系数与衰减系数的商确定第二相关系数。则上述衰减系数的取值可以为大于或等于1且小于或等于5。当衰减系数取值为1时,第二相关系数与第一相关系数相等,当衰减系数取值为大于1且小于5时(例如取值为3),第二相关系数小于第一相关系数。
可理解的,根据具体需求或设计,第一终端可以基于乘法、除法、减法、或幂次方等所有可以使得第二相关系数小于或等于第一相关系数的运算方式计算该第二相关系数,本文对此不做限定。
在本申请实施例中,基于第一终端利用确定第二相关系数具体所采用的方式,衰减系数的具体取值可以有以下几种可能。
示例性的,在第一终端基于第一相关系数与衰减系数的乘积确定第二相关系数的情况下,若第一语音信号对应的语音场景属于第一场景,则衰减系数大于0且小于1(例如衰减系数为0.3)。若第一语音信号对应的语音场景属于第二场景,则衰减系数等于1。
示例性的,在第一终端基于第一相关系数关于衰减系数的幂次方确定第二相关系数的情况下,若第一语音信号对应的语音场景属于第一场景,则衰减系数大于0且小于或等于5(例如衰减系数等于2)。若第一语音信号对应的语音场景属于第二场景,则衰减系数等于1。
示例性的,在第一终端基于第一相关系数与衰减系数的差值确定第二相关系数的情况下,若第一语音信号对应的语音场景属于第一场景,则衰减系数大于0且小于或等于第四阈值(例如衰减系数为第一相关系数的二分之一)。若第一语音信号对应的语音场景属于第二场景,则衰减系数等于0。
在本申请实施例中,第一场景可以理解为用于表示第一残差信号中存在除了残余的回声信号之外的其他信号与第一回声信号相关,也即若基于该第一相关系数估计第一残差信号中的残余回声信号,则会存在过估计问题,从而需要衰减第一相关系数,采用第二相关系数对第一残差信号进行残余回声处理,改善由于过估计给第一残差信号造成的失真影响。
示例性的,上述第一场景为大噪声场景或双讲场景,在本文其他描述中,该第一场景也称大近端干扰场景。第二场景为除了该第一场景之外的其他场景,也可以理解为第一语音信号对应的语音场景属于第二场景具体为:第一语音信号对应的语音场景不属于第一场景(也即第一语音信号对应的语音场景既不属于噪声场景也不属于双讲场景)。
关于具体如何确定第一语音信号对应的场景可以有如下实现方式。
在一种可能的实现方式中,在第一数值小于第一阈值的情况下,所述第一语音信号对应的语音场景属于所述第一场景,所述第一数值基于所述第一回声信号的能量、所述第一残差信号的能量、以及第一常数确定。
在本文的一些描述中,第一数值也称第一平滑系数,示例性的,该第一数值(β(n))满足公式其中,β0为第一常数,该β0的取值大于0且小于0.1,例如,该β0的取值大于或等于0.02且小于或等于0.05。Power(Y(n))为第一回声信号的能量,Power(E(n))为第一残差信号的能量。具体计算方式可以参照下文步骤S2022中关于公式5至公式7的相关说明。关于第一阈值的说明可以参照下文步骤S203中关于判断方式1.1的相关说明,在此不再详述。
可理解的,当第一语音信号包含较多的噪声信号时,由于自适应线性滤波的回声消除技术将噪声信号作为线性回声信号滤除到第一回声信号中的成分较少,大部分的噪声信号会遗留到第一残差信号中,也即第一残差信号的能量值变化较大,而第一回声信号的能量值变化较小,则上述β(n)的值越小。
可理解的,当第一语音信号对应的场景属于单讲状态时,第一语音信号可能包含噪声信号和回声信号;而当第一语音信号对应的场景属于双讲状态时,除了噪声信号和回声信号之外,第一语音信号还会包含第一终端的近端通话者讲话的语音信号。此时,由于自适应线性滤波的回声消除技术一般不会将近端通话者讲话的语音信号作为线性回声信号滤除到第一回声信号中,近端通话者讲话的语音信号会遗留到第一残差信号中,也即第一残差信号的能量值变化较大,而第一回声信号的能量值变化较小,则上述β(n)的值越小。
从而,可以基于β(n)值小于第一阈值确定当前处于大噪声场景或双讲场景。
在另外一些可能的实现方式中,在所述第一语音信号对应的第二数值小于第二阈值的情况下,所述第一语音信号对应的语音场景属于所述第一场景,所述第一语音信号对应的第二数值基于所述第一回声信号的能量、所述第一残差信号的能量、第一常数、第一语音信号、第二语音信号对应的第二数值、以及平滑系数确定,所述第二语音信号与所述第一语音信号属于同一段语音信号中相邻的两帧语音信号。
示例性的,在一种可能的实现方式中,所述第一语音信号对应的第二数值满足如下公式βsmooth(n)=β(n)*α+βsmooth(n-1)*(1-α);其中,所述βsmooth(n)为根据所述第一语音信号的参数确定的第二数值,所述βsmooth(n-1)为根据所述第二语音信号的参数确定的第二数值,所述第一语音信号和所述第二语音信号分别属于同一段语音信号中的第n帧信号和第n-1帧信号,所述n大于或等于2,所述β(n)为第一数值,所述第一数值基于所述第一回声信号的能量、所述第一残差信号的能量、以及第一常数确定,所述α为所述平滑系数。当所述n取值为2时,所述βsmooth(n-1)取值为β(n-1),所述β(n-1)为第二回声信号的能量与第二残差信号的能量的比值与所述第一常数的乘积,所述第二回声信号和所述第二残差信号与所述第二语音信号对应。示例性的,具体的计算方式以及第二阈值的说明可以下文步骤S203中关于判断方式1.2.1的公式11的相关说明,在此不再详述。
在本申请实施例中,若第一终端基于对β(n)进行平滑处理后得到的βsmooth(n)判断第一语音信号是否处于大近端干扰场景,由于该βsmooth(n)包含在该第一语音信号之前的n帧信号的场景特征,而不是仅包含当前帧信号也即第一语音信号的场景特征,从而基于该βsmooth(n)判断第一语音信号是否处于大近端干扰场景所得到的判断结果,具备较高的稳定性和准确性,可以降低未知的不稳定性因素对判断结果的干扰程度。
在另外一些可能的实现方式中,上述第二语音信号与所述第一语音信号属于同一段语音信号中相邻的两帧语音信号是指:第二语音信号为第一语音信号的上一帧信号,也即第一语音信号属于第n帧信号,则第二语音信号属于第n-1帧信号,则第一终端还可以基于下文步骤S203中关于判断方式1.2.2公式12确定上述第二数值,本文对此不做限定。
在另外一些可能的实现方式中,上述第二语音信号与所述第一语音信号属于同一段语音信号中相邻的两帧语音信号是指:第二语音信号为第一语音信号的下一帧信号,也即第一语音信号属于第n帧信号,则第二语音信号属于第n+1帧信号。对应的该第二数值的具体计算方式以及第二阈值的说明可以参照下文步骤S203中关于判断方式1.2.3的公式13的相关说明,在此不再详述。
关于基于第一数值或第二数值的确定第一语音信号是否处于第一场景的多种不同方式的有益效果在图2中下文步骤S203中有相关说明,在此不再详述。
在另外一些可能的实现方式中,在目标噪声信号的幅值大于第三阈值的情况下,所述第一语音信号对应的语音场景属于所述第一场景,所述目标噪声信号用于指示所述第一语音信号的噪声强度。
在一种可能的实现方式中,所述第一语音信号中的每一帧信号包含M个频点,所述M大于或等于1,所述目标噪声信号包括与所述M个频点一一对应的M个噪声复数频谱,所述目标噪声信号的幅值为所述M个噪声复数频谱对应的M个模的和。
示例性的,所述目标噪声信号为对所述第一语音信号进行噪声估计得到的噪声信号。具体的,该目标噪声信号的幅值为第一语音信号的噪声估计幅度谱中每个频点对应的幅度谱的和,具体参照下文步骤S203中关于判断方式2.1中公式14的相关说明,在此不再详述。
可理解的,第一回声信号中会包含部分噪声信号,会使得第一残差信号中包含的噪声信号相比于第一语音信号中包含的噪声信号减少了,并且对不同的两帧信号进行自适应线性滤波,得到的第一回声信号中的噪声信号占总的噪声信号的比重也会飘忽不定。也就是说,完整的第一语音信号相比于第一残差信号,第一语音信号中包含的噪声场景特征更完整,采用完整的第一语音信号的噪声估计判断第一语音信号所处场景是否处于大近端干扰场景,更具代表性,得到的判断结果准确性更高。
示例性的,所述目标噪声信号为对第二语音信号进行噪声估计得到的噪声信号,所述第二语音信号与所述第一语音信号属于同一段语音信号中相邻的两帧语音信号。例如,该目标噪声信号的幅值为第二语音信号(该第二语音信号为第一语音信号的上一帧信号)的噪声估计幅度谱中每个频点对应的幅度谱的和,具体参照下文步骤S203中关于判断方式2.2.1中公式15的相关说明。例如,该目标噪声信号的幅值为第二语音信号(该第二语音信号为第一语音信号的下一帧信号)的噪声估计幅度谱中每个频点对应的幅度谱的和,具体参照下文步骤S203中关于判断方式2.2.2中公式16的相关说明,在此不再详述。
示例性的,所述目标噪声信号为对所述第一残差信号进行噪声估计得到的噪声信号。具体的,该目标噪声信号的幅值为第一残差信号的噪声估计幅度谱中每个频点对应的幅度谱的和,具体参照下文步骤S203中关于判断方式2.3中公式17的相关说明,在此不再详述。
可理解的,一般第一回声信号中包含的噪声信号的含量较少,大部分的噪声信号会遗留在第一残差信号中,第一残差信号的噪声估计也足以用于表示第一语音信号所处噪声环境,而且相比于对第一回声信号进行噪声估计,对第一残差信号进行噪声估计的计算量更小,特别是在帧信号的数量较多的情况下,可以在一定程度上节省性能损耗。
示例性的,所述目标噪声信号为对第二残差信号进行噪声估计得到的噪声信号,所述第二残差信号与第二语音信号对应,所述第二语音信号与所述第一语音信号属于同一段语音信号中相邻的两帧语音信号。例如,该目标噪声信号的幅值为第二残差信号的噪声估计幅度谱中每个频点对应的幅度谱的和,具体参照下文步骤S203中关于判断方式2.4.1中公式18的相关说明。例如,该目标噪声信号的幅值为第三残差信号的噪声估计幅度谱中每个频点对应的幅度谱的和,具体参照下文步骤S203中关于判断方式2.4.2中公式19的相关说明。
在另外一些可能的实现方式中,也可以组合上述第一阈值和第三阈值的条件,或组合上述第二阈值与第三阈值的条件确定第一语音信号对应的语音场景是否属于第一场景。
示例性的,在第一数值小于第一阈值、且目标噪声信号的幅值大于第三阈值的情况下,所述第一语音信号对应的语音场景属于所述第一场景。
示例性的,在第一语音信号对应的第二数值小于第二阈值、且目标噪声信号的幅值大于第三阈值的情况下,所述第一语音信号对应的语音场景属于所述第一场景。
例如,在所述第一语音信号对应的第二数值小于第二阈值、且目标噪声信号的幅值大于第三阈值的情况下,所述第一语音信号对应的语音场景属于所述第一场景,所述目标噪声信号用于指示所述第一语音信号的噪声强度;其中,所述第二数值满足公式βsmooth(n)=β(n)*α+βsmooth(n-1)*(1-α);所述β(n)为第一数值,所述第一数值基于所述第一回声信号的能量、所述第一残差信号的能量、以及第一常数确定,所述βsmooth(n)用于表示所述第一语音信号对应的第二数值,所述βsmooth(n-1)用于表示第二语音信号对应的第二数值,所述第一语音信号和所述第二语音信号分别属于同一段语音信号中的第n帧信号和第n-1帧信号,所述n大于或等于2,所述α为所述平滑系数;以及,当所述n取值为2时,所述βsmooth(n-1)取值为β(n-1),所述β(n-1)为所述第二回声信号的能量与所述第二残差信号的能量的比值与所述第一常数的乘积。
S103、第一终端基于第二相关系数对第一残差信号进行残余回声处理,获得第二语音信号。
在一种可能的实现方式中,所述基于所述第二相关系数对所述第一残差信号进行残余回声处理,获得第二语音信号,包括:基于所述第一残差信号的频谱与所述第二相关系数的乘积,得到残余回声信号;对所述第一残差信号做噪声估计,得到第一噪声信号;用频减的方式去除所述第一残差信号中的所述残余回声信号和所述第一噪声信号,得到所述第二语音信号。具体可以参照下文关于步骤S205至S208的相关说明,在此不再详述。
可理解的,下文步骤S205至S208所描述的基于第二相关系数对第一残差信号进行残余回声处理包含了降噪和残余回声处理两个步骤,也称融合降噪,在另外一些可能的实现方式中,第一终端也可以先对第一残差信号进行残余回声处理,再对回声处理后得到的第二语音信号进行降噪处理,得到第三语音信号,该第三语音信号即为降噪和残余回声处理后得到的语音信号,第一终端可以将该第三语音信号作为近端通话者的语音信号发送至第二终端。或者,在另外一些可能的实现方式中,第一终端也可以先对第一残差信号进行见着处理,得到第三语音信号,再对降噪处理后得到的第三语音信号进行残余回声处理,得到第二语音信号,该第二语音信号即为降噪和残余回声处理后得到的语音信号,第一终端可以将该第二语音信号作为近端通话者的语音信号发送至第二终端。
以下结合图2详细介绍本申请图1提供的声学回声处理方法的具体实现方法。如图2所示,该方法包括:
S201,第一终端获取第一语音信号对应的第一回声信号和第一残差信号。
关于第一语音信号、第一残差信号、第一回声信号、以及第一相关系数的涵义可以参照本文其他相关说明,例如上文步骤S101中的相关描述。
S202,第一终端基于残余回声抑制的回声消除技术确定第一回声信号与第一残差信号的第一相关系数。
在本申请实施例中,第一相关系数用于表示第一残差信号与第一回声信号的相似程度。
示例性的,如图3所示,第一终端基于残余回声抑制的回声消除技术确定第一回声信号与第一残差信号的第一相关系数具体可以包括:
S2021、第一终端计算第一回声信号的第一自功率谱、计算第一回声信号与第一残差信号的第一互功率谱。
在本申请实施例中,一帧信号包含M个频点分别对应的M个复数频谱。也即,上述第一回声信号包含M个频点对应的复数频谱,第一残差信号包含M个频点对应的M个复数频谱。
示例性的,第一自功率谱为第一回声信号中的M个频点对应的M个自功率谱的和,也即该第一自功率谱满足如下公式1。第一互功率谱为第一残差信号中的M个频点对应的M个互功率谱的和,也即该第一互功率谱满足如下公式2。
其中,k用于表示M个频点中的第k频点,K为大于1且小于或等于M的正整数。Ryy(n,k)用于表示第一回声信号中第k频点对应的自功率谱,Rey(n,k)用于第一残差信号中的第k频点对应的互功率谱。该Ryy(n,k)和该Rey(n,k)分别满足如下公式3和公式4。
Ryy(n,k)=real(Y(n,k)*Y(n,k)*) 公式3
Rey(n,k)=real(E(n,k)*Y(n,k)*) 公式4
其中,Y(n,k)为第一回声信号中与第k频点对应的频点信号的复数频谱,Y(n,k)*为该Y(n,k)的共轭频谱,E(n,k)为第一残差信号中与第k频点对应的频点信号的复数频谱,real表示取复数的实部,也即该Ryy(n,k)为对E(n,k)与Y(n,k)*的乘积取实部得到的实数值,该Rey(n,k)为E(n,k)与Y(n,k)*的乘积取实部得到的实数值。
S2022、第一终端根据第一回声信号与第一残差信号的能量比、以及第一常数计算第一平滑系数。
在本申请中,第一平滑系数满足如下公式5。
其中,β0为第一常数,该β0的取值大于0且小于0.1,例如,该β0的取值大于或等于0.02且小于或等于0.05。Power(Y(n))为第一回声信号的能量,Power(E(n))为第一残差信号的能量。
在本申请实施例中,第一回声信号的能量为该第一回声信号包含的M个频点中每个频点对应的复数频谱的平方的总和,也即上述Power(Y(n))满足如下公式6。第一残差信号的能量为该第一残差信号包含的M个频点中每个频点对应的复数频谱的平方的总和,也即上述Power(E(n))满足如下公式7。
关于Y(n,k)与E(n,k)的说明可以参照上文公式3和公式4中的相关说明,在此不再赘述。
S2023、第一终端基于第一平滑系数、第一自功率谱、以及第二语音信号的相关参数计算数值A,以及,基于第一平滑系数、第一互功率谱、以及第二语音信号的相关参数计算数值B。
在本申请实施例中,上述参数A满足如下公式8,参数B满足如下公式9。
其中,Pey(n)用于表示参数A,Pyy(n)用于表示参数B,β(n)为上述第一平滑系数。
Pey(n-1)、Pyy(n-1)为与第二语音信号对应的相关参数,该第二语音信号为第一语音信号的上一帧信号,也即第二语音信号为第n-1帧信号。该Pyy(n-1)基于第二回声信号对应的第二自功率谱、第二回声信号与第二残差信号的能量比、以及上述第一常数确定,具体计算与Pyy(n)的计算原理一致,不再详述。该Pey(n-1)基于第二回声信号与第二残差信号对应的第二互功率谱、第二回声信号的与第二残差信号的能量比、以及上述第一常数确定,具体计算与Pey(n)的计算原理一致,不再详述。
在本申请实施例中,上述第二回声信号可以包括第二语音信号中的部分或全部线性回声信号,第二残差信号为该第二语音信号中除了第二回声信号之外的其他信号。示例性的,该第二残差信号可能包括第二语音信号中的线性回声成分和/或非线性回声成分,该第二残差信号还包括与该第n-1帧信号对应的近端信号,该近端信号包括近端通话者讲话的语音信号和/或第一终端所处环境的噪声信号。
上述第二回声信号为第一终端基于自适应线性滤波的回声消除方法、以及第二参考信号从第二语音信号中获取的线性回声信号,该线性回声信号为第二语音信号中与该第二参考信号线性相关的部分或全部信号,该第二参考信号为第一终端接收到的第二终端向第一终端发送的语音通话信号。第二语音信号为该第二参考信号在第一终端播放之后第一终端的麦克风拾取到的语音通话信号,在不考虑时延的情况下,第一终端接收第二参考信号的时刻、第一终端播放第二参考信号的时刻、以及第一终端的麦克风拾取到第二语音信号的时刻属于同一时刻。
可理解的,上述S2022与S2023可以同时执行也可以先后执行,且本文对其先后执行顺序不做限定。
S2024、第一终端基于数值A与数值B的比值确定上述第一相关系数。
在本申请实施例中,第一相关系数满足如下公式10,其中,η(n)用于表示该第一相关系数。
在本申请实施例中,上述步骤S2021、S2022可以同时执行也可以先后执行,且本文对其先后执行顺序不做限定。
S203,第一终端确定第一语音信号对应的语音场景是否属于大近端干扰场景。
在本申请实施例中,大近端干扰场景可以为大噪声场景和/或双讲场景。其中,大噪声场景是指信号强度高于一定阈值的场景,双讲场景是指第一终端的通话者和第二终端的通话者双方同时语音讲话的场景。
在本申请实施例中,第一终端可以通过如下两种方式(方式1和方式2)判断第一语音信号对应的语音场景是否属于大近端干扰场景。
方式1:
基于上述第一平滑系数也即β(n),确定第一语音信号对应的语音场景是否属于大近端干扰场景。
(判断方式1.1)示例性的,在确定上述β(n)小于第一阈值的情况下,确定第一语音信号对应的语音场景属于大近端干扰场景。示例性的,该第一阈值的取值大于0且小于或等于0.5,例如该第一阈值取值为0.1或0.2。
(判断方式1.2)示例性的,在确定第一语音信号对应的第二数值小于第二阈值的情况下,确定第一语音信号对应的语音场景属于大近端干扰场景,该第一语音信号对应的第二数值与该β(n)相关。示例性的,该第二阈值的取值大于0且小于或等于0.5,例如,该第二阈值取值为0.1或0.2。
(判断方式1.2.1)示例性的,上述第一语音信号对应的第二数值满足如下公式11,其中βsmooth(n)为第一语音信号对应的第二数值,βsmooth(n-1)为第二语音信号对应的第二数值,该第二语音信号为第一语音信号的上一帧信号(也即第n-1帧信号),该βsmooth(n-1)与β(n-1)相关。
βsmooth(n)=β(n)*α+βsmooth(n-1)*(1-α) 公式11
当n取值为2时,βsmooth(n-1)取值为β(n-1),该β(n-1)为第二回声信号的能量与第二残差信号的能量的比值与第一常数的乘积,第二回声信号和第二残差信号与第二语音信号对应。
可理解的,基于β(n)值小于第一阈值可以确定当前处于大噪声场景或双讲场景,则对该β(n)值进行平滑计算得到的βsmooth(n),基于该βsmooth(n)小于第二阈值也可以确定当前处于大噪声场景或双讲场景。
在本申请实施例中,若第一终端基于公式11中对β(n)进行平滑处理后得到的βsmooth(n)判断第一语音信号是否处于大近端干扰场景,由于该βsmooth(n)包含在该第一语音信号之前的n帧信号的场景特征,而不是仅包含当前帧信号也即第一语音信号的场景特征,从而基于该βsmooth(n)判断第一语音信号是否处于大近端干扰场景所得到的判断结果,具备较高的稳定性和准确性,可以降低未知的不稳定性因素对判断结果的干扰程度。
(判断方式1.2.2)示例性的,上述第一语音信号对应的第二数值满足如下公式12,其中βsmooth(n)为第一语音信号对应的第二数值,β(n-1)为第二语音信号对应的第二平滑系数,该第二平滑系数的计算方式与第一平滑系数的计算方式一致,在此不再详述。
βsmooth(n)=β(n)*α+β(n-1)*(1-α) 公式12
当第一语音信号为第一帧信号时,βsmooth(n)=β(n)。
可理解的,基于β(n)值小于第一阈值可以确定当前处于大噪声场景或双讲场景,则对该β(n)和β(n-1)进行平滑计算得到的βsmooth(n),基于该βsmooth(n)小于第二阈值也可以确定当前处于大噪声场景或双讲场景。
在本申请实施例中,若第一终端基于公式12中对β(n)进行平滑处理后得到的βsmooth(n)判断第一语音信号是否处于大近端干扰场景,由于该βsmooth(n)包含第一语音信号和在第一语音信号之前的一帧语音信号也即第二语音信号的场景特征,而不是仅包含当前帧信号也即第一语音信号的场景特征,从而基于该βsmooth(n)判断第一语音信号是否处于大近端干扰场景所得到的判断结果,具备较好的的稳定性和准确性,可以在一定程度上降低未知的不稳定性因素对判断结果的干扰程度。
(判断方式1.2.3)示例性的,第一语音信号不为最后一帧信号时,上述第一语音信号对应的第二数值满足如下公式12,其中βsmooth(n)为第一语音信号对应的第二数值,βsmooth(n+1)为第三语音信号对应的第二数值,该第三语音信号为第一语音信号的下一帧信号(也即第n+1帧信号),该βsmooth(n+1)与β(n+1)相关。
βsmooth(n)=β(n)*α+β(n+1)*(1-α) 公式13
当第一语音信号为最后一帧信号时,βsmooth(n)=β(n)。
可理解的,基于β(n)值小于第一阈值可以确定当前处于大噪声场景或双讲场景,则对该β(n)值进行平滑计算得到的βsmooth(n),基于该βsmooth(n)小于第二阈值也可以确定当前处于大噪声场景或双讲场景。
在本申请实施例中,若第一终端基于公式13中对β(n)进行平滑处理后得到的βsmooth(n)判断第一语音信号是否处于大近端干扰场景,由于该βsmooth(n)包含第一语音信号和在第一语音信号之后的一帧语音信号也即第三语音信号的场景特征,而不是仅包含当前帧信号也即第一语音信号的场景特征,从而基于该βsmooth(n)判断第一语音信号是否处于大近端干扰场景所得到的判断结果,具备较好的的稳定性和准确性,可以在一定程度上降低未知的不稳定性因素对判断结果的干扰程度。
方式2:
基于第一语音信号所处噪声环境的噪声强度确定第一语音信号对应的语音场景是否属于大近端干扰场景。
(判断方式2.1)示例性的,在确定第一语音信号的噪声估计幅度谱中每个频点对应的幅度谱的和大于第三阈值的情况下,确定第一语音信号对应的语音场景属于大近端干扰场景,该第一语音信号的噪声估计幅度谱中每个频点对应的幅度谱的和满足如下公式14。示例性的,该第三阈值的取值大于0且小于或等于0.5,例如,该第二阈值取值为0.1或0.2。
其中,S1(n,k)用于表示第一语音信号中的第k个频点对应的幅度谱,可理解的,幅度谱也可以理解为频点信号的幅值,该幅度谱为实数。
(2.2)示例性的,基于第一语音信号的相邻语音信号的噪声估计幅度谱中每个频点对应的幅度谱的和,确定第一语音信号对应的语音场景是否属于大近端干扰场景。
(判断方式2.2.1)例如,在确定第二语音信号的噪声估计幅度谱中每个频点对应的幅度谱的和大于第三阈值的情况下,确定第一语音信号对应的语音场景属于大近端干扰场景,该第二语音信号为第一语音信号的上一帧信号,也即该第二语音信号为第n-1帧信号,该第二语音信号的噪声估计幅度谱满足如下公式15。
其中,S1(n-1,k)用于表示第二语音信号的噪声估计幅度谱中的第k个频点对应的幅度谱。
(判断方式2.2.2)例如,在确定第三语音信号的噪声估计幅度谱中每个频点对应的幅度谱的和大于第三阈值的情况下,确定第一语音信号对应的语音场景属于大近端干扰场景,该第三语音信号为第一语音信号的下一帧信号,也即该第三语音信号为第n+1帧信号,该第二语音信号的噪声估计幅度谱满足如下公式16。
其中,S1(n+1,k)用于表示第二语音信号的噪声估计幅度谱中的第k个频点对应的幅度谱。
(判断方式2.3)示例性的,在确定第一残差信号的噪声估计幅度谱中每个频点对应的幅度谱的和大于第三阈值的情况下,确定第一语音信号对应的语音场景属于大近端干扰场景,该第一残差信号的噪声估计幅度谱满足如下公式17。
其中,S2(n,k)用于表示第一残差信号的噪声估计幅度谱中的第k个频点对应的幅度谱。
(2.4)示例性的,基于第一语音信号的相邻语音信号对应的残差信号的噪声估计幅度谱中每个频点对应的幅度谱的和,确定第一语音信号对应的语音场景是否属于大近端干扰场景。
(判断方式2.4.1)例如,在确定第二残差信号的噪声估计幅度谱中每个频点对应的幅度谱的和大于第三阈值的情况下,确定第一语音信号对应的语音场景属于大近端干扰场景,该第二残差信号为第二语音信号对应的残差信号,该第二语音信号为第n-1帧信号,该第二残差信号的噪声估计幅度谱满足如下公式18。
其中,S2(n-1,k)用于表示第二残差信号的噪声估计幅度谱中的第k个频点对应的幅度谱。
(判断方式2.4.2)例如,在确定第三残差信号的噪声估计幅度谱中每个频点对应的幅度谱的和大于第三阈值的情况下,确定第一语音信号对应的语音场景属于大近端干扰场景,该第三残差信号为第三语音信号对应的残差信号,该第三语音信号为第n+1帧信号,该第三残差信号的噪声估计幅度谱满足如下公式19。
其中,S2(n+1,k)用于表示第三残差信号的噪声估计幅度谱中的第k个频点对应的幅度谱。
示例性的,获取上述噪声估计幅度谱所采用的噪声估计方式可以为最小值跟踪法。可理解的,该噪声估计方式除该最小值跟踪法以外,其他任何可以获得噪声估计幅度谱的降噪方法均可行。
在本申请实施例中,第一终端可以通过β(n)满足方式1中其中一种判断方式中的条件、或通过第一语音信号所处噪声环境的噪声强度满足方式2中的其中一种判断方式中的条件,确定第一语音信号对应的语音场景属于大近端干扰场景。
在另外一些可能的实现方式中,第一终端也可以组合该方式1和方式2,在β(n)满足方式1中其中一种判断方式中的条件、以及第一语音信号所处噪声环境的噪声强度满足方式2中的其中一种判断方式中的条件的情况下,确定第一语音信号对应的语音场景属于大近端干扰场景。
可理解的,步骤S203可以与S201或S202同时执行或先后执行,且本文对其先后执行顺序不做限定。
第一终端确定第一语音信号对应的语音场景属于大近端干扰场景的情况下,执行步骤S204,第一终端在确定第一语音信号对应的语音场景不属于大近端干扰场景的情况下,执行步骤S206。
S204,第一终端基于衰减系数A与第一相关系数的乘积修正第一相关系数,得到第二相关系数。
在本申请实施例中,衰减系数A大于0且小于1,例如该衰减系数A为0.3,第二相关系数等于该衰减系数A与第一相关系数的乘积。
在本申请实施例中,当判断当前处于大近端干扰状态时,对第一相关系数η(n)进行衰减以防止残余回声过估计。示例性的,第二相关系数满足如下公式20,其中,η′(n)为第二相关系数,G为衰减系数A。
η′(n)=η(n)*G 公式20
在另外一些声学回声处理方法中,第一语音号处于大近端干扰场景或不处于大近端干扰场景对应的处理方式一致,均采用第一相关系数估计第一残差信号中的残余回声信号。而经技术人员研究发现,当第一语音号处于大近端干扰场景时采用该第一相关系数估计第一残差信号中的残余回声信号,并将该残余回声信号从第一残差信号中去除后最终得到第二语音信号,该第二语音信号中包含的近端通话者讲话的语音信号出现失真现象。说明采用该第一相关系数估计第一残差信号中的残余回声信号出现了过估计问题,也即在估算该第一相关系数时,第一相关系数的估算值过大,导致基于该第一相关系数计算的残余回声信号中包含了近端通话者讲话的语音信号。
然而,采用本申请提供的声学回声处理方法,当第一语音信号处于大近端干扰场景时,衰减第一相关系数,改善在大近端干扰场景中第一相关系数偏大的过估计问题导致近端通话者语音信号失真的问题,改善声学回声处理方式的效果。
S205,第一终端基于第二相关系数估计第一残差信号中的残余回声信号。
在本申请实施例中,若第一语音信号对应的语音场景属于大近端干扰场景,则第一终端基于上述第二相关系数估计第一残差信号中的残余回声信号。
可理解的,该残余回声信号包含与M个频点对应的复数频谱。
示例性的,残余回声信号中与第k频点对应的回声信号的复数频谱RES(n,k)满足如下公式21,其中η′(n)为上述第二相关系数,Y(n,k)为第一回声信号中与第k频点对应的频点信号的复数频谱。
RES(n,k)=η′(n)*Y(n,k) 公式21
S206,第一终端基于第一相关系数估计第一残差信号中的残余回声信号。
在本申请实施例中,若第一语音信号对应的语音场景不属于大近端干扰场景,则第一终端基于上述第一相关系数估计第一残差信号中的残余回声信号。
示例性的,残余回声信号中与第k频点对应的回声信号的复数频谱RES(n,k)满足如下公式22,其中η(n)为上述第一相关系数,Y(n,k)为第一回声信号中与第k频点对应的频点信号的复数频谱。
RES(n,k)=η(n)*Y(n,k) 公式22
S207,第一终端计算第一残差信号中的噪声信号。
可理解的,步骤S207可以与步骤S205同时执行或先后执行,且本文对其先后执行顺序不做限定。
S208,第一终端基于上述残余回声信号与噪声信号采用谱减方式对第一残差信号进行降噪以及残余回声处理,得到第二语音信号。
示例性的,基于如下公式23,合并残余回声信号中的第k频点的幅度值与噪声信号中的第k频点的幅度值。其中,abs用于表示对RES(n,k)取模,也即RES(n,k)的幅值,MER(n,k)为第k频点的噪声信号以及残余回声信号的幅度值的和。
MER(n,k)=S(n,k)+abs(RES(n,k)) 公式23
或者,也可以基于如下公式24,合并残余回声信号中的第k频点的幅度值与噪声信号中的第k频点的幅度值。其中,MER(n,k)为残余回声信号中的第k频点的幅度值与噪声信号中的第k频点的幅度值中较大的一个幅度值。
MER(n,k)=max(S(n,k),abs(RES(n,k))) 公式24
示例性的,第一终端基于如下公式25,采用频谱的方式将噪声信号和残余回声信号合并后得到的信号MER(n,k)从第一残余回声信号中除去,并使用第一残差信号在谱减前的相位将谱减后得到的实数频谱恢复为复数频谱。其中,OUT(n,k)用于表示第一残余回声信号谱减后得到的复数频谱中的第k频点对应的复数频谱,phase(E(n,k))用于表示第一残差信号在谱减前的相位。
OUT(n,k)=(abs(E(n,k))-MER(n,k))*phase(E(n,k)) 公式25
结合图4,本申请还提供另外一种图1所示的声学回声处理方法的具体实现方法,其中衰减系数的具体取值可以基于第一语音信号对应的语音场景是否属于大近端干扰场景而确定;在第一语音信号对应的语音场景不属于大近端干扰场景的情况下,也可以基于第二相关系数估计第一残差信号中的残余回声信号,其中,该衰减系数为1,且第二相关系数为第一相关系数与该衰减系数的乘积。
示例性的,如图4所示,上述步骤S204至S206可以被替换为图4所示的步骤S401至S403。如图4所示,在步骤S203之后,第一终端执行步骤S401至S403,具体包括:
第一终端在步骤S203中确定第一语音信号对应的语音场景属于大近端干扰场景之后,执行步骤S401,第一终端在步骤S203中确定第一语音信号对应的语音场景不属于大近端干扰场景之后,执行步骤S402。
S401,第一终端基于衰减系数B与第一相关系数的乘积确定第二相关系数。
在本申请实施例中,衰减系数B大于0且小于1,例如衰减系数B为0.3。该衰减系数B与上述衰减系数A可以相等也可以不相等,本文对此不做限定。
S402,第一终端基于衰减系数C与第一相关系数的乘积确定第二相关系数。
在本申请实施例中,衰减系数C为1,也可以理解为不对第一相关系数进行衰减操作。
关于第一相关系数的涵义及其计算方式可以参照本文其他相关说明,例如上文步骤S202的相关说明,在此不再详述。
S403,第一终端基于第二相关系数估计第一残差信号中的残余回声信号。
第一终端基于第二相关系数估计第一残差信号中的残余回声信号的具体计算方式,可以参照本文其他相关说明,例如上文步骤S205的相关说明,在此不再详述。
在步骤S403之后,执行上述步骤S207至S208。
示例性的,第一终端中用于执行图1至图4任一项所示的声学回声处理方法的的功能模块以及模块之间的信号流向可以如图5所示,具体包括:
麦克风51,用于拾取第一语音信号502,并将第一语音信号502发送至自适应线性滤波器(adaptive filter,AF)52以及减法器53,该第一语音信号502可以包括近端通话者的语音信号、噪声信号、或回声信号中的一项或多项。
自适应线性滤波器(AF)52,用于在接收到第一参考信号501以及第一语音信号502后,获取该第一语音信号502中的与第一参考信号501线性相关的部分或全部线性回声信号,得到第一回声信号503,并将该第一回声信号503发送至减法器53以及残余回声估计模块54。
减法器53,用于在接收到第一语音信号502以及第一回声信号503后,将第一回声信号503从该第一语音信号502中去除,得到第一残差信号504,并将该第一残差信号504发送至残余回声估计模块54、自适应滤波器(AF)52、以及残余回声抑制模块55。
上述自适应滤波器(AF)52,还用于在接收到该第一残差信号504后,基于该第一残差信号更新滤波器系数,基于更新后的滤波器系数对第三语音信号进行滤波,该第三语音信号为该第一语音信号的下一帧信号。
残余回声估计模块54,用于在接收到第一回声信号503和第一残差信号504后,估算第一回声信号503和第一残差信号504的相关系数,并基于相关系数获取该第一残差信号504中的残余回声信号505。
示例性的,该残余回声估计模块54具体用于执行如下方法步骤:
S541,残余回声估计模块54计算第一相关系数。
也即,残余回声估计模块54计算用于表示第一回声信号503和第一残差信号504的相似程度的第一相关系数,具体计算方式可以参照本文其他相关说明,例如上述步骤S202的相关说明,在此不再详述。
S542,残余回声估计模块54进行大近端干扰检测。
也即残余回声估计模块54确定第一语音信号502(或第一残差信号504)是否处于大近端干扰场景,具体确定方式可以参照本文其他相关说明,例如上述步骤S203的相关说明,在此不再详述。
可理解的,若残余回声估计模块54进行大近端干扰检测是所使用的语音信号为第一语音信号502,则麦克风51还需要将上述第一语音信号502发送至该残余回声估计模块54,该残余回声估计模块54接收到该第一语音信号502后,基于该第一语音信号502确定第一语音信号对应的语音场景是否属于大近端干扰场景。若残余回声估计模块54进行大近端干扰检测是所使用的语音信号为第一残差信号504,则麦克风51不需要将上述第一语音信号502发送至该残余回声估计模块54。
当确定属于大近端干扰场景时,残余回声估计模块54执行步骤S543;当确定不属于大近端干扰场景时,残余回声估计模块54执行步骤S545。
S543,残余回声估计模块54修正第一相关系数得到第二相关系数。
示例性的,残余回声估计模块54基于第一相关系数与衰减系数(例如上述衰减系数A或衰减系数B)的乘积确定该第二相关系数,具体可以参照本文其他相关说明,例如上述步骤S204或上述步骤S501,在此不再详述。
S544,残余回声估计模块54基于第二相关系数计算第一残差信号中的残余回声信号505。
当确定属于大近端干扰场景时,残余回声估计模块54基于第二相关系数计算第一残差信号中的残余回声信号。具体可以参照本文其他相关说明,例如上述步骤S205,在此不再详述。
S545,残余回声估计模块54基于第一相关系数计算残余回声信号505。
当确定不属于大近端干扰场景时,残余回声估计模块54基于第一相关系数计算第一残差信号中的残余回声信号。具体可以参照本文其他相关说明,例如上述步骤S206,在此不再详述。在执行完步骤S541至S545后,残余回声估计模块54可以获得残余回声信号505,并将该残余回声信号505输入残余回声抑制模块55。
残余回声抑制模块55,用于在接收到第一残差信号504以及残余回声信号505后,采用谱减方式对第一残差信号进行残余回声处理,得到第二语音信号506。
示例性的,在一种可能的实现方式中,残余回声抑制模块55,还用于接收降噪模块发送的关于该第一残差信号504对应的噪声信号,并采用谱减方式对第一残差信号进行降噪以及残余回声处理,得到第二语音信号506。具体可以参照本文其他相关说明,例如上述步骤S208,在此不再详述。
以下将介绍本发明实施例提供的声学回声处理装置。
请参见图6,为本发明实施例提供了一种声学回声处理装置的结构示意图。如图6所示,本发明实施例的声学回声处理装置可以包括:
第一处理单元601,用于获取第一残差信号与第一回声信号的第一相关系数,该第一残差信号与该第一回声信号对应第一语音信号;
第一处理单元601,还用于基于第一相关系数与衰减系数确定第二相关系数,该第二相关系数小于或等于第一相关系数;
第二处理单元602,用于基于上述第二相关系数对第一残差信号进行残余回声处理,获得第二语音信号。
示例性的,第一处理单元601中可以包含获取单元6011和确定单元6012,其中,获取单元6011用于获取第一残差信号与第一回声信号的第一相关系数,该第一残差信号与该第一回声信号对应第一语音信号;确定单元6012,用于基于第一相关系数与衰减系数确定第二相关系数,该第二相关系数小于或等于第一相关系数。
在一种可能的实现方式中,第一处理单元601,具体用于基于第一相关系数与衰减系数的乘积确定第二相关系数,衰减系数大于0且小于或等于1。
关于第一语音信号、第一残差信号、第一回声信号、第一相关系数、以及第二相关系数等的涵义还可以参照本文其他相关说明,在此不进行赘述。
需要说明的是,具体执行过程可以参见图1至图4所示的方法实施例的具体说明,在此不进行赘述。
示例性的,上述第一处理单元601,可以用于执行图5所示的自适应滤波器(AF)52、减法器53、以及残余回声估计模块54的任务;第二处理单元602,可以用于执行图5所示的残余回声抑制模块55的任务。
在本申请实施例中,声学回声处理装置可以为上述第一终端中的一个功能模块,或者该声学回声处理装置即为该第一终端,声学回声处理装置与第二终端之间可以进行语音通信连接。
在一种可能的实现方式中,图6所示的声学回声处理装置中,第一处理单元601、第二处理单元602可以用一个或多个处理器实现,另外,声学回声处理装置还可以包括接收器和发送器,该接收器可以用于基于语音通信连接接收第二终端发送的上述第一语音信号,发送器可以基于通信连接将声学回声处理及降噪处理后的第二语音信号发送至第二终端。本申请实施例中,处理器和收发器可以被耦合等,对于处理器和收发器的连接方式,本申请实施例不作限定。
如图7所示,该声学回声处理装置70包括一个或多个处理器720和收发器710。
示例性的,当声学回声处理装置70与第二终端进行语音通话时,收发器710,用于接收来自第二终端的第一语音信号。
处理器720,用于根据第一语音信号确定上述第一回声信号和第一残差信号的第一相关系数,并基于该第一相关系数与衰减系数确定第二相关系数,以及基于第二相关系数对第一残差信号进行残余回声处理,获得第二语音信号。
关于第一语音信号、第一残差信号、第一回声信号、第一相关系数、以及第二相关系数等的涵义可以参照本文其他相关说明,在此不进行赘述。
需要说明的是,具体执行过程可以参见图1至图4所示的实施例的具体说明,在此不进行赘述。
在图7所示的声学回声处理装置的各个实现方式中,收发器可以包括接收机和发射机,该接收机用于执行接收的功能(或操作),该发射机用于执行发射的功能(或操作)。以及收发器用于通过传输介质和其他设备/装置进行通信。
可选的,声学回声处理装置70还可以包括一个或多个存储器730,用于存储程序指令和/或数据等。存储器730和处理器720耦合。本申请实施例中的耦合是装置、单元或模块之间的间接耦合或通信连接,可以是电性,机械或其它的形式,用于装置、单元或模块之间的信息交互。处理器720可能和存储器730协同操作。处理器720可以执行存储器730中存储的程序指令。可选的,上述一个或多个存储器中的至少一个可以包括于处理器中。
本申请实施例中不限定上述收发器710、处理器720以及存储器730之间的具体连接介质。本申请实施例在图7中以存储器730、处理器720以及收发器710之间通过总线740连接,总线在图7中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
在本申请实施例中,处理器可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成等。
本申请实施例中,存储器可包括但不限于硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)等非易失性存储器,随机存储记忆体(Random AccessMemory,RAM)、可擦除可编程只读存储器(Erasable Programmable ROM,EPROM)、只读存储器(Read-Only Memory,ROM)或便携式只读存储器(Compact Disc Read-Only Memory,CD-ROM)等等。存储器是能够用于携带或存储具有指令或数据结构形式的程序代码,并能够由计算机(如本申请示出的声学回声处理装置等)读和/或写的任何存储介质,但不限于此。本申请实施例中的存储器还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
示例性的,处理器720主要用于对通信协议以及通信数据进行处理,以及对整个声学回声处理装置进行控制,执行软件程序,处理软件程序的数据。存储器730主要用于存储软件程序和数据。收发器710可以包括控制电路和天线,控制电路主要用于基带信号与射频信号的转换以及对射频信号的处理。天线主要用于收发电磁波形式的射频信号。
当声学回声处理装置开机后,处理器720可以读取存储器730中的软件程序,解释并执行软件程序的指令,处理软件程序的数据。当需要通过无线发送数据时,处理器720对待发送的数据进行基带处理后,输出基带信号至射频电路,射频电路将基带信号进行射频处理后将射频信号通过天线以电磁波的形式向外发送。当有数据发送到声学回声处理装置时,射频电路通过天线接收到射频信号,将射频信号转换为基带信号,并将基带信号输出至处理器720,处理器720将基带信号转换为数据并对该数据进行处理。
在另一种实现中,所述的射频电路和天线可以独立于进行基带处理的处理器而设置,例如在分布式场景中,射频电路和天线可以与独立于声学回声处理装置,呈拉远式的布置。
可理解,本申请实施例示出的声学回声处理装置还可以具有比图7更多的元器件等,本申请实施例对此不作限定。以上所示的处理器和收发器所执行的方法仅为示例,对于该处理器和收发器具体所执行的步骤可参照上文介绍的方法。
示例性的,上述收发器710用于获取图5所示的第一参考信号501,上述处理器720,可以用于执行图5所示的自适应滤波器(AF)52、减法器53、残余回声估计模块54、以及残余回声抑制模块55的任务。
如图8所示,图8是本申请实施例提供的一种模组设备的结构示意图。该模组设备800可以执行前述方法实施例中声学回声处理装置的相关步骤,该模组设备800包括:通信模组801、电源模组802、存储模组803以及芯片模组804。其中,电源模组802用于为模组设备提供电能;存储模组803用于存储数据和指令;通信模组801用于进行模组设备内部通信,或者用于模组设备与外部设备进行通信;芯片模组804可执行上述图1至图4所示的方法,以及相关实施方式所执行的步骤。
可理解,关于芯片模组的具体说明,还可以参考图6或图7等,这里不再详述。
示例性的,通信模组801用于获取图5所示的第一参考信号501,芯片模组804可以用于执行图5所示的自适应滤波器(AF)52、减法器53、残余回声估计模块54、以及残余回声抑制模块55的任务。
此外,本申请还提供一种计算机程序,该计算机程序用于实现本申请提供的方法。
本申请还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机代码,当计算机代码在计算机上运行时,使得计算机执行本申请提供的方法。
本申请还提供一种计算机程序产品,该计算机程序产品包括计算机代码或计算机程序,当该计算机代码或计算机程序在计算机上运行时,使得本申请提供的方法被执行。
本申请还提供一种片系统,所述芯片系统包括一个或多个处理器,所述处理器用于调用计算机指令以使得本申请提供的方法被执行。
所述计算机可读存储介质可以是前述任一实施例所述的声学回声处理装置的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述声学回声处理装置的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(smart mediacard,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,所述计算机可读存储介质还可以既包括所述声学回声处理装置的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述声学回声处理装置所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,高密度数字视频光盘(digital video disc,DVD))、或者半导体介质。半导体介质可以是固态硬盘。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和系统,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器等)执行本发明各个实施例所述方法的部分步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请一种较佳实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于申请所涵盖的范围。
Claims (16)
1.一种声学回声处理方法,其特征在于,所述方法包括:
获取第一残差信号与第一回声信号的第一相关系数,所述第一残差信号与所述第一回声信号对应第一语音信号;
基于所述第一相关系数与衰减系数确定第二相关系数,所述第二相关系数小于或等于所述第一相关系数;
基于所述第二相关系数对所述第一残差信号进行残余回声处理,获得第二语音信号。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一相关系数与衰减系数确定第二相关系数包括:
基于所述第一相关系数与所述衰减系数的乘积确定所述第二相关系数,所述衰减系数大于0且小于或等于1。
3.根据权利要求2所述的方法,其特征在于,
在所述第一语音信号对应的语音场景属于第一场景的情况下,所述衰减系数大于0且小于1。
4.根据权利要求3所述的方法,其特征在于,
在第一数值小于第一阈值的情况下,所述第一语音信号对应的语音场景属于所述第一场景,所述第一数值基于所述第一回声信号的能量、所述第一残差信号的能量、以及第一常数确定。
5.根据权利要求3所述的方法,其特征在于,
在所述第一语音信号对应的第二数值小于第二阈值的情况下,所述第一语音信号对应的语音场景属于所述第一场景,所述第一语音信号对应的第二数值基于所述第一回声信号的能量、所述第一残差信号的能量、第一常数、第一语音信号、第二语音信号对应的第二数值、以及平滑系数确定,所述第二语音信号与所述第一语音信号属于同一段语音信号中相邻的两帧语音信号。
6.根据权利要求5所述的方法,其特征在于,所述第一语音信号对应的第二数值满足如下公式:
βsmooth(n)=β(n)*α+βsmooth(n-1)*(1-α);
其中,所述βsmooth(n)为根据所述第一语音信号的参数确定的第二数值,所述βsmooth(n-1)为根据所述第二语音信号的参数确定的第二数值,所述第一语音信号和所述第二语音信号分别属于同一段语音信号中的第n帧信号和第n-1帧信号,所述n大于或等于2,所述β(n)为第一数值,所述第一数值基于所述第一回声信号的能量、所述第一残差信号的能量、以及第一常数确定,所述α为所述平滑系数。
7.根据权利要求6所述的方法,其特征在于,当所述n取值为2时,所述βsmooth(n-1)取值为β(n-1),所述β(n-1)为第二回声信号的能量与第二残差信号的能量的比值与所述第一常数的乘积,所述第二回声信号和所述第二残差信号与所述第二语音信号对应。
8.根据权利要求3至6任一项所述的方法,其特征在于,
在目标噪声信号的幅值大于第三阈值的情况下,所述第一语音信号对应的语音场景属于所述第一场景,所述目标噪声信号用于指示所述第一语音信号的噪声强度。
9.根据权利要求8所述的方法,其特征在于,
所述目标噪声信号为对所述第一语音信号进行噪声估计得到的噪声信号;或者,
所述目标噪声信号为对第二语音信号进行噪声估计得到的噪声信号,所述第二语音信号与所述第一语音信号属于同一段语音信号中相邻的两帧语音信号;或者,
所述目标噪声信号为对所述第一残差信号进行噪声估计得到的噪声信号;或者,
所述目标噪声信号为对第二残差信号进行噪声估计得到的噪声信号,所述第二残差信号与第二语音信号对应,所述第二语音信号与所述第一语音信号属于同一段语音信号中相邻的两帧语音信号。
10.根据权利要求1所述的方法,其特征在于,
在所述第一语音信号对应的语音场景属于第二场景的情况下,所述衰减系数取值为1;
所述基于所述第一相关系数与衰减系数确定第二相关系数包括:
基于所述第一相关系数与所述衰减系数的乘积确定所述第二相关系数。
11.根据权利要求2至9任一项所述的方法,其特征在于,所述第一场景为噪声场景或双讲场景。
12.一种声学回声处理装置,其特征在于,所述装置包括用于执行权利要求1-11任一项所述方法的单元。
13.一种电子设备,其特征在于,所述电子设备包括:一个或多个处理器和存储器;
所述存储器与所述一个或多个处理器耦合,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,所述一个或多个处理器调用所述计算机指令以使得如权利要求1至11任一项所述的方法被执行。
14.一种芯片系统,其特征在于,所述芯片系统包括一个或多个处理器,所述处理器用于调用计算机指令以使得如权利要求1至11中任一项所述的方法被执行。
15.一种模组设备,其特征在于,所述模组设备包括通信模组、电源模组、存储模组以及芯片模组,其中:
所述电源模组用于为所述模组设备提供电能;
所述存储模组用于存储数据和指令;
所述通信模组用于进行模组设备内部通信,或者用于所述模组设备与外部设备进行通信;
所述芯片模组用于执行如权利要求1至11任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括指令,当所述指令被执行时,如权利要求1至11中任一项所述的方法被执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211247637.1A CN115665328A (zh) | 2022-10-12 | 2022-10-12 | 一种声学回声处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211247637.1A CN115665328A (zh) | 2022-10-12 | 2022-10-12 | 一种声学回声处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115665328A true CN115665328A (zh) | 2023-01-31 |
Family
ID=84987776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211247637.1A Pending CN115665328A (zh) | 2022-10-12 | 2022-10-12 | 一种声学回声处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115665328A (zh) |
-
2022
- 2022-10-12 CN CN202211247637.1A patent/CN115665328A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111768796B (zh) | 一种声学回波消除与去混响方法及装置 | |
US8498407B2 (en) | Systems and methods for double-talk detection in acoustically harsh environments | |
CN110176244B (zh) | 回声消除方法、装置、存储介质和计算机设备 | |
EP2982101B1 (en) | Noise reduction | |
CN110782914B (zh) | 信号处理方法、装置、终端设备及存储介质 | |
CN111742541B (zh) | 声学回波抵消方法、装置、存储介质 | |
CN110602327B (zh) | 语音通话方法、装置、电子设备及计算机可读存储介质 | |
KR102517975B1 (ko) | 시간 상관 관계에 기초하여 잔여 에코를 추정하는 잔여 에코 추정기, 잔여 에코를 추정하는 프로그램 코드를 저장하는 비일시적 컴퓨터 판독 가능한 매체, 그리고 어플리케이션 프로세서 | |
CN110995951B (zh) | 基于双端发声检测的回声消除方法、装置及系统 | |
KR102190833B1 (ko) | 에코 억제 | |
US9191519B2 (en) | Echo suppressor using past echo path characteristics for updating | |
US8964967B2 (en) | Subband domain echo masking for improved duplexity of spectral domain echo suppressors | |
WO2020252629A1 (zh) | 残余回声检测方法、残余回声检测装置、语音处理芯片及电子设备 | |
CN110956975A (zh) | 回声消除方法及装置 | |
CN111524532B (zh) | 回声抑制方法、装置、设备及存储介质 | |
CN107910015A (zh) | 一种终端设备降噪方法及终端设备 | |
CN111028855B (zh) | 回声抑制方法、装置、设备及存储介质 | |
CN111917926B (zh) | 一种通信终端中的回声消除方法、装置及终端设备 | |
CN111756906B (zh) | 一种语音信号的回声抑制方法、装置和计算机可读介质 | |
CN113744748A (zh) | 一种网络模型的训练方法、回声消除方法及设备 | |
CN111355855B (zh) | 回声处理方法、装置、设备及存储介质 | |
US7031461B2 (en) | Robust adaptive filter for echo cancellation | |
CN115665328A (zh) | 一种声学回声处理方法及装置 | |
CN115834778A (zh) | 一种回声消除方法、装置、电子设备及存储介质 | |
CN111989934B (zh) | 回声消除装置、回声消除方法、信号处理芯片及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |