CN116980814A - 信号处理方法、装置、电子设备及存储介质 - Google Patents

信号处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116980814A
CN116980814A CN202310430721.5A CN202310430721A CN116980814A CN 116980814 A CN116980814 A CN 116980814A CN 202310430721 A CN202310430721 A CN 202310430721A CN 116980814 A CN116980814 A CN 116980814A
Authority
CN
China
Prior art keywords
signal
filter
error
echo
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310430721.5A
Other languages
English (en)
Inventor
陈日林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202310430721.5A priority Critical patent/CN116980814A/zh
Publication of CN116980814A publication Critical patent/CN116980814A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements

Landscapes

  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本申请提供了一种信号处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质;方法包括:获取滤波器的参考信号以及误差信号,其中,参考信号是由扬声器输出的远端信号,所述误差信号表征所述滤波器已经执行的回声消除处理存在的误差;分别对参考信号以及误差信号进行特征提取处理,对应得到参考音频特征以及误差音频特征;基于参考音频特征以及误差音频特征,预测滤波器的配置参数;基于配置参数更新滤波器;获取麦克风信号,其中,麦克风信号包括回声;基于更新后的滤波器对麦克风信号进行回声消除处理,得到消除回声后的麦克风信号。通过本申请,能够提升回声消除效果,并节约回声消除所需的计算资源。

Description

信号处理方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术,尤其涉及一种信号处理方法、装置、电子设备及存储介质。
背景技术
回声是由于扬声器和麦克风之间的耦合,导致麦克风接收到的信号中不仅包含近端语音信号,还包含扬声器造成的回声。如果不对麦克风信号进行处理,则回声信号会被传输到远端扬声器播放出来,远端通话者就会听到自己延迟后的声音,影响了通话效果。
现有技术中,传统滤波器误差估算不准确,导致收敛速度慢,稳态性能不足,卡尔曼(Kalman)滤波器稳态性能较好,但计算量相对较大。目前,相关技术暂无较好的方式降低回声消除所需的计算量,并提升回声消除效果。
发明内容
本申请实施例提供一种信号处理方法、装置、电子设备及计算机可读存储介质、计算机程序产品,能够提升回声消除效果,并节约回声消除所需的计算资源。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种信号处理方法,所述方法包括:
获取滤波器的参考信号以及误差信号,其中,所述参考信号是由扬声器输出的远端信号,所述误差信号表征所述滤波器已经执行的回声消除处理存在的误差;
分别对所述参考信号以及所述误差信号进行特征提取处理,对应得到参考音频特征以及误差音频特征;
基于所述参考音频特征以及所述误差音频特征,预测所述滤波器的配置参数;
基于所述配置参数更新所述滤波器;
获取麦克风信号;
基于更新后的所述滤波器对所述麦克风信号进行回声消除处理,得到消除回声后的麦克风信号。
本申请实施例提供一种信号处理装置,包括:
信号获取模块,配置为获取滤波器的参考信号以及误差信号,其中,所述参考信号是由扬声器输出的远端信号,所述误差信号表征所述滤波器已经执行的回声消除处理存在的误差;
参数获取模块,配置为分别对所述参考信号以及所述误差信号进行特征提取处理,对应得到参考音频特征以及误差音频特征;
所述参数获取模块,配置为基于所述参考音频特征以及所述误差音频特征,预测所述滤波器的配置参数;
回声消除模块,配置为基于所述配置参数更新所述滤波器;
所述信号获取模块,配置为获取麦克风信号;
所述回声消除模块,配置为基于更新后的所述滤波器对所述麦克风信号进行回声消除处理,得到消除回声后的麦克风信号。
本申请实施例提供一种电子设备,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的信号处理方法。
本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于被处理器执行时,实现本申请实施例提供的信号处理方法。
本申请实施例提供一种计算机程序产品,包括计算机程序或计算机可执行指令,述计算机程序或计算机可执行指令被处理器执行时,实现本申请实施例提供的信号处理方法。
本申请实施例具有以下有益效果:
基于参考信号以及滤波器已执行的回声消除处理的误差信号预测滤波器的配置参数,提升了获取滤波器的配置参数的准确性,基于配置参数更新滤波器,相较于传统的滤波器算法能够改善滤波器的收敛速度,能够提升滤波器声学回声的传播路径变化的响应效率,进而基于更新后的滤波器对麦克风信号进行回声消除,提升了回声消除的准确性。现有技术中通过卡尔曼滤波器进行滤波的方案所需的配置参数较多,本申请实施例相较于现有技术的方案,节约了计算量,同时能达到提升回声消除准确性的效果。
附图说明
图1是本申请实施例提供的信号处理方法的应用模式示意图;
图2是本申请实施例提供的电子设备的结构示意图;
图3A至图3E是本申请实施例提供的信号处理方法的流程示意图;
图4A是本申请实施例提供的信号处理方法的第一交互流程示意图;
图4B是本申请实施例提供的信号处理方法的第二交互流程示意图;
图5是本申请实施例提供的信号处理方法的原理示意图;
图6A至图6D是本申请实施例提供的回声消除模型的结构示意图;
图7是本申请实施例提供的实验效果示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
需要指出,在本申请实施例中,涉及到用户信息、用户反馈数据等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)近端与远端,双向通信(bidirectional communication)中近端和远端是相对而言的,假设:用户A与用户B通过终端设备进行通信,以用户B的终端设备为近端,则用户A的终端设备对应远端。反之,以用户B的终端设备为远端,则用户A的终端设备对应近端。本申请实施例中,以作为执行主体的终端设备的一侧为近端。
2)回声,双向通信中扬声器播放出来的声音被麦克风拾取后,声音的数据被发回远端,被称为“回声”。例如:用户A与用户B通过终端设备进行通信,用户A的声音由用户B一侧的扬声器播放出,用户B一侧的麦克风采集了扬声器中播放的用户A的声音,用户B的终端设备将用户A的声音的数据回传至用户A的终端设备,用户A通过终端设备可以听到自己的声音,形成了回声。
3)自适应回声消除(Adaptive Echo Cancellation,AEC)技术,基本原理是使用一个自适应滤波器对未知的回声信道(时域冲击响应函数)进行参数辨识,根据扬声器信号与产生的多路回声的相关性为基础,建立远端信号模型,模拟回声路径,通过自适应算法调整,使其冲击响应和真实回声路径相逼近。然后将麦克风接收到的信号减去估算的回声信号,即可实现回声消除功能。
4)回声消除后处理(Echo Cancellation Post-Processing,ECPP),对消除过一次回声的麦克风信号进行的二次消除处理。
5)回声返回损耗增益(Echo Return Loss Enhancement,ERLE),回声消除特有的评价准则,它表示回声信号与残留回声信号的比值,比值越高回声消除处理的性能越好。
6)单讲场景,参与对话的多个对象串行说话。
7)双讲场景,参与对话的多个对象中,至少两个对象同时说话。
8)循环神经网络(Recurrent Neural Network,RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。
9)自适应滤波器,自适应滤波器常称为时变性的非线性系统,在实际应用过程中,它有两个阶段:一是学习训练阶段,滤波器根据所处理信号的特点,不断修正自身的滤波器系数,以使均方误差最小(Least Mean Square,LMS)。二是使用阶段,均方误差已经达到最小值,意味着滤波器的系数达到最优,此时的滤波器由非线性系统变为了线性系统。
10)步长,指滤波器在滑动时的时间间隔,也即滤波器在数据上每次移动的距离。步长的大小决定了滤波器算法的收敛与稳态性能。步长越大,滤波器算法收敛越快,但稳态误差也越大;步长越小,滤波器算法收敛越慢,但稳态误差也越小。最优步长等于残余回声方差与误差信号方差之比。
11)马尔可夫过程,研究离散事件动态系统状态空间的重要方法,它的数学基础是随机过程理论。马尔可夫链(Markov Chain,MC)是概率论和数理统计中具有马尔可夫性质(Markov property)且存在于离散的指数集(index set)和状态空间(state space)内的随机过程(stochastic process)。即状态空间从一个状态到另一个状态的转换的随机过程。这个过程要求具备“无记忆”的性质,换句话说就是,下一状态的概率分布只能由当前状态决定,与时间序列中当前状态之前的事件都无关(马尔可夫性质)。
12)配置参数,用于调整滤波器回声消除处理效果的参数,例如:步长、转移系数。
自适应回声消除算法在通话语音和语音交互应用中都是最基本的算法,该算法将远端信号经扬声器播放后被麦克风接收的回声信号消除,旨在去除扬声器播放的远端信号,保留近端语音信号。传统的自适应回声消除算法在各种应用场合广泛使用,但传统算法仍然面临各种难题。在双讲场景下由于远端近端信号叠加,双讲判断不准确,导致滤波器收敛错误,使得双讲场景下近端损伤严重,同时滤波器无法收敛到最优状态,使得稳态性能不够理想;另一方面,在声学回声的传播路径(以下简称回声路径)突变的时候,回声路径突变例如:例如人手遮挡扬声器、人脸靠近电话手表等,遮挡物、扬声器和麦克风形成一个新的回声路径。滤波器的收敛不够迅速,导致路径突变时发生漏声(上近端语音信号和回声一起被消除掉)问题。
本申请实施例提供一种信号处理方法、信号处理装置、电子设备和计算机可读存储介质及计算机程序产品,能够提升回声消除效果,并节约回声消除所需的计算资源。
下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)、车载终端、虚拟现实(Virtual Reality,VR)设备、增强现实(Augmented Reality,AR)设备等各种类型的用户终端,也可以实施为终端设备与服务器的结合。下面,将说明设备实施为终端设备与服务器结合时的示例性应用。
参考图1,图1是本申请实施例提供的信号处理方法的应用模式示意图;示例的,图1中涉及服务器200、网络300及终端设备400-1、终端设备400-2。终端设备400-1、终端设备400-2通过网络300连接服务器200,终端设备400-1、终端设备400-2之间通过网络300进行通信,网络300可以是广域网或者局域网,又或者是二者的组合。
在一些实施例中,终端设备400-1、终端设备400-2可以是第一用户、第二用户分别使用的手机,服务器200是即时通讯软件的服务器,终端设备400-1中安装有即时通讯软件410-1,终端设备400-2中安装有即时通讯软件410-2。以下以语音通话场景为例,进行解释说明。
示例的,第二用户通过终端设备400-2中的即时通讯软件410-2向第一用户的终端设备400-1打语音电话,终端设备400-1中安装了即时通讯软件410-2的同款即时通讯软件410-1。第二用户的声音信号通过终端设备400-2的麦克风采集,得到第一语音信号,终端设备400-2通过网络300将第一语音信号发送给终端设备400-1,终端设备400-1的扬声器播放第一语音信号,终端设备400-1的麦克风采集第一用户对应的环境中的声音信号,并调用本申请实施例提供的信号处理方法对环境中的声音信号进行回声消除处理,得到回声消除的第二语音信号,终端设备400-1通过网络300将回声消除的第二语音信号发送给终端设备400-2,以使第一用户与第二用户进行无回声的通话。
在一些实施例中,本申请实施例的信号处理方法还可以应用在以下应用场景中:存在语音交流需求的视频会议;例如:近端的终端设备调用本申请实施例提供的信号处理方法对扬声器播放的信号进行消除,避免远端的终端设备播放存在回声的声音信号,提升了语音的清晰度,提升了用户的参会体验。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。语音技术(Speech Techno logy)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
本申请实施例,还可以通过云技术实现,云技术(Cloud Technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,将来每个物品都有可能存在自己的哈希编码识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
在一些实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。电子设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本发明实施例中不做限制。
参见图2,图2是本申请实施例提供的电子设备的结构示意图,电子设备可以是终端设备400,终端设备400包括图1中的终端设备400-1或者终端设备400-2,图2所示的终端设备400包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端设备400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memor y)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他电子设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图2示出了存储在存储器450中的信号处理装置455,其可以是程序和插件等形式的软件,包括以下软件模块:信号获取模块4551、参数获取模块4552、回声消除模块4553,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在一些实施例中,终端设备可以通过运行计算机程序来实现本申请实施例提供的信号处理方法。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,如线上会议APP或者即时通讯APP;也可以是可以嵌入至任意APP中的小程序,即只需要下载到浏览器环境中就可以运行的程序。总而言之,上述的计算机可执行指令可以是任意形式的指令,上述计算机程序可以是任意形式的应用程序、模块或插件。
下面,说明本申请实施例提供的信号处理方法,如前,实现本申请实施例的信号处理方法的电子设备可以是终端设备、又或者是终端设备与服务器的结合。因此下文中不再重复说明各个步骤的执行主体。
需要说明的是,下文中的回声消除的示例中,是以语音通话的应用场景为例说明的,本领域技术人员根据对下文的理解,可以将本申请实施例提供的信号处理方法应用于其他的应用场景。
参见图3A,图3A是本申请实施例提供的信号处理方法的流程示意图,将结合图3A示出的步骤进行说明。
在步骤301中,获取滤波器的参考信号以及误差信号。
这里,参考信号是由扬声器输出的远端信号,所述误差信号表征所述滤波器已经执行的回声消除处理存在的误差。
示例的,误差信号是理想的回声消除的信号(完全消除所携带的回声的信号)与实际的回声消除处理之后的信号之间的差异信号。
为便于理解,以下对回声消除的原理进行解释说明,参考图5,图5是本申请实施例提供的信号处理方法的原理示意图。假设两个用户分别通过终端设备A与终端设备B进行语音通话,以终端设备A侧为例进行说明。其中,每个终端设备包括扬声器、麦克风、模数转换器。扬声器是将电流信号转换为声波的装置,麦克风是将声波转换成电流信号的装置,模数转换器是将电流信号转换为数字信号、数字信号转换电流信号的装置。
终端设备B侧的麦克风采集终端设备B侧的用户的语音信号(电流信号),终端设备B的模数转换器将语音信号转换为数字信号,语音的数字信号经过网络传播给终端设备A,终端设备A将远端信号(终端设备B侧的用户的语音信号)作为参考信号x(n),扬声器A播放参考信号x(n),参考信号x(n)的声波经过环境回音路径h(n)的传播,形成回声。假设终端设备A所处环境中仅有回声、用户发出的语音,麦克风A接收回声与用户语音的声波,并将声波转换为电流信号,模数转换器将电流信号转换为数字信号,得到回声对应的回声信号以及用户语音对应的期望声音信号d(n)以及回声信号,自适应滤波器w(n)基于参考信号x(n)对麦克风A采集的信号(包括期望声音信号d(n)以及回声信号)进行回声消除处理,得到回声消除的声音信号传递给终端设备B。终端设备B的扬声器B播放回声消除的声音信号。
在一些实施例中,步骤301可以通过以下方式实现:将扬声器待输出的远端信号作为参考信号;将期望信号与估计信号之间的差异信号作为滤波器的误差信号,其中,期望信号是预配置的消除回声后的麦克风信号,估计信号是通过已经执行的回声消除处理得到的消除回声后的麦克风信号。
示例的,以下结合通话场景举例对步骤301的实施方式进行解释说明。继续参考图5,以图5中的终端设备A为近端进行说明。将由终端设备A的扬声器A播放的远端信号作为参考信号。期望信号可以是终端设备A所处环境中的近端语音信号,近端语音信号可以假设为白噪声。
本申请实施例以自适应滤波器为例进行说明,自适应滤波器能够进行迭代更新,通过上一次的迭代更新得到当前滤波器,根据生成时间,将当前滤波器所执行的回声消除处理得到的消除回声后的麦克风信号划分为时长相等的多个帧,在当前时刻的前一帧,当前滤波器对前一帧参考信号进行滤波处理得到预测回声信号,以预测回声信号为参考通过线性滤波将前一帧麦克风信号中的回声消除,得到前一帧消除回声后的麦克风信号,将前一帧消除回声后的麦克风信号作为估计信号,获取当前时刻的前一帧对应的期望信号。假设以信号对应的函数表征每个信号,将期望信号与估计信号分别对应的函数相减,得到表征误差信号的函数。
在步骤302中,分别对参考信号以及误差信号进行特征提取处理,对应得到参考音频特征以及误差音频特征。
在一些实施例中,步骤302可以通过以下方式实现:对参考信号的音频序列进行频域特征提取处理,得到参考频域特征;对参考信号的音频序列进行时域特征提取处理,得到参考时域特征;对参考频域特征以及参考时域特征进行融合处理,得到参考音频特征;对误差信号的音频序列进行频域特征提取处理,得到误差频域特征;对误差信号的音频序列进行时域特征提取处理,得到误差时域特征;对误差频域特征以及误差时域特征进行融合处理,得到误差音频特征。
示例的,时域特征提取指的是采用时间来提取输出信号的特征,而频域特征提取则是利用频率来提取输出信号的特征。参考信号、误差信号均以数字信号的形式表征,音频序列是数字信号对应的数据的音频序列。
示例的,针对参考信号、误差信号提取音频特征的原理是类似的,以下提取方式适用于参考信号、误差信号:获取参考信号或者误差信号的数字信号对应的音频数据的音频序列,对音频序列的声波波形进行傅里叶变换,得到音频的频率分布作为频域特征;获取音频序列随时间变化的参数(例如:幅值变化、相位延迟、频率)作为时域特征。其中,时域特征为一维特征,频域特征是二维特征,对时域特征进行缩放处理,将缩放处理后的时域特征与频域特征进行融合,例如:通过reshape函数对一维特征进行处理,得到不改变元素数量的二维特征。将转换为二维特征的时域特征与频域特征进行融合,融合方式可以是对二维的时域特征与频域特征进行叠加处理,对叠加处理得到的叠加特征进行二维卷积处理,得到二维卷积结果,将二维卷积结果作为信号的音频特征。
在步骤303中,基于参考音频特征以及误差音频特征,预测滤波器的配置参数。
配置参数是用于调整滤波器回声消除处理效果的参数,本申请实施例中以滤波器为自适应滤波器为例进行说明,自适应滤波器能够在回声消除中更新迭代,以达到更好的回声消除效果。自适应滤波器的配置参数包括步长,步长的大小决定了滤波器算法的收敛与稳态性能。步长越大,滤波器算法收敛越快,但稳态误差也越大;步长越小,滤波器算法收敛越慢,但稳态误差也越小。
在一些实施例中,配置参数包括:最优步长以及转移系数;步长的大小决定了滤波器算法的收敛与稳态性能,步长与滤波器算法收敛速度、稳态误差正相关,也即,步长越大则收敛速度越快,稳态误差越大,步长越小则收敛速度越慢,稳态误差越小,滤波器算法收敛速度、稳态误差之间存在矛盾。
示例的,预测得到的滤波器的配置参数,用于对滤波器的当前配置参数进行更新,以使更新后的滤波器所执行的回声消除处理存在的误差相较于已执行的回声消除处理存在的误差更小。也即,预测得到的配置参数是用于减小滤波器所执行的回声消除处理存在的误差的配置参数。
参考图3B,图3B是本申请实施例提供的信号处理方法的流程示意图;图3A中的步骤303可以通过图3B中的步骤3031至步骤3032实现,以下具体说明。
在步骤3031中,基于参考音频特征以及误差音频特征,预测滤波器的最优步长。
示例的,最优步长是残余回声方差与误差信号方差之比。基于参考音频特征以及误差音频特征可以确定残余回声方差。
在一些实施例中,步骤3031可以通过以下方式实现:获取参考音频特征以及误差音频特征之间的线性差异特征;获取线性差异特征对应的残差回声信号方差、误差音频特征对应的误差信号方差;对残差回声信号方差、误差信号方差之间的比值进行归一化处理,例如:通过sign函数进行归一化处理,得到最优步长。
作为获取线性差异特征的示例,音频特征以特征向量形式表征,将参考音频特征的特征向量与误差音频特征的特征向量相减,得到线性差异特征。
作为获取残差回声信号方差的示例,以下假设线性差异特征中每一个维度对应的参数为Xi,i为小于等于N的正整数,N是正整数,N是维度的数量。可以通过以下方式确定残差回声信号方差:获取线性差异特征中每一个维度对应的参数的平均值以及每个参数Xi与平均值/>之差的平方值/>获取平方值/>的平均值作为残差回声信号方差。确定误差信号方差的原理与确定残差回声信号方差的原理相同。
在步骤3032中,基于最优步长以及滤波器的滤波器函数,预测滤波器与更新后的滤波器之间的转移系数。
这里,转移系数表征滤波器与更新后的滤波器之间状态转移的概率。
在一些实施例中,将最优步长以及滤波器的滤波器函数,代入转移系数、滤波器函数与更新后的滤波器函数之间的关系公式,求解滤波器与更新后的滤波器之间的转移系数,以作为预测得到的滤波器与更新后的滤波器之间的转移系数。
其中,转移系数、滤波器函数与更新后的滤波器函数之间的关系公式可以表征为以下公式(3):
其中,A是转移系数,W(k)是滤波器函数。W(k+1)是表征更新后的滤波器的函数,是滤波器函数的迭代公式,系数μ为最优步长,X(k)是参考信号,E(k)是误差信号。
作为预测滤波器与更新后的滤波器之间的转移系数的示例,可以通过马尔可夫时变模型的原理,利用神经网络模型预测滤波器表征的状态、更新后的滤波器函数表征的状态之间的转移概率。其中,神经网络模型的训练样本包括滤波器函数样本对,每个样本对包括更新后的滤波器函数、初始的滤波器函数、二者之间的实际状态转移概率。
继续参考图3A,在步骤304中,基于配置参数更新滤波器。
示例的,配置参数包括:最优步长以及转移系数。以下对自适应滤波器的原理进行解释说明,自适应滤波器的迭代公式可以表征为以下公式(1):
E(k)=Y(k)-W(k)X(k) (2)
上述W(k+1)、W(k)为滤波器函数,系数μ为最优步长,X(k)是参考信号,E(k)是误差信号,误差信号由自适应滤波器输出。滤波器W(k+1)函数是初始滤波器W(k)、调整参数之间的加和,调整参数是参考信号X(k)、误差信号E(k)与之间的乘积。
Y(k)是期望的麦克风信号,实际的麦克风信号包括回声信号和语音信号,W(k)X(k)是滤波器基于参考信号对实际的麦克风信号进行滤波得到的估计信号,利用公式(2)获得线性滤波器输出的误差信号E(k),系数μ将决定自适应回声消除的整体性能。误差信号E(k)表征期望麦克风信号Y(k)、经过线性滤波器处理的参考信号W(k)X(k)之间的差异。
在一些实施例中,步骤304可以通过以下方式实现:基于最优步长配置滤波器;基于误差信号、参考信号以及最优步长,对滤波器进行迭代训练,迭代训练后的滤波器;基于转移系数对迭代训练后的滤波器进行参数更新,得到更新后的滤波器。
示例的,基于马尔可夫时变模型的原理,上文公式(1)可以转换为以下公式(3)。
其中,A是转移系数。W(k+1)是表征更新后的滤波器的函数。
继续参考图3A,在步骤305中,获取麦克风信号。
这里,麦克风信号包括回声。
示例的,以图1终端设备400-1一侧为例进行解释说明,终端设备400-1的麦克风采集到的信号是麦克风信号,麦克风信号包括回声信号、第一用户的语音信号、第一用户所处的环境中的其他声音信号。回声是由图1终端设备400-1的扬声器播放且由终端设备400-1的麦克风采集的声音信号。假设第一用户所处的环境中不存在额外的声音,麦克风信号包括回声信号、第一用户的语音信号。
在步骤306中,基于更新后的滤波器对麦克风信号进行回声消除处理,得到消除回声后的麦克风信号。
示例的,回声消除处理是以参考信号为参考,通过线性滤波方式将麦克风信号中的回声消除的处理。回声消除处理还可以分为两阶段进行,第一阶段通过参考信号抑制麦克风信号中的回声,第二阶段对抑制回声后的麦克风信号再次进行回声消除,得到消除残留回声的信号。
在一些实施例中,特征提取处理、预测滤波器的配置参数的处理是通过第一神经网络模型实现的;也即,步骤302以及步骤303可以通过调用神经网络模型实现。
参考图3C,图3C是本申请实施例提供的信号处理方法的流程示意图;图3A中的步骤306可以通过图3C中的步骤3061A至步骤3064A实现,以下具体说明。
在步骤3061A中,基于更新后的滤波器对参考信号进行滤波处理,得到预测回声信号。
示例的,预测回声信号用于表征参考信号经过回声路径传播后得到的信号,回声路径是扬声器与麦克风之间传递声音的路径。滤波器对参考信号进行滤波处理,得到模拟的经过回声路径传播的信号,也即预测回声信号。
在步骤3062A中,基于预测回声信号对麦克风信号中进行线性回声消除处理,得到抑制回声后的麦克风信号。
示例的,线性回声消除处理的原始数据与滤波结果是一种算术运算,即用加减乘除等运算实现。从麦克风信号中减去预测回声信号,得到抑制回声后麦克风的信号。
在步骤3063A中,基于参考信号与误差信号,调用第二神经网络模型进行信号预测处理,得到掩码信号。
示例的,信号预测处理可以通过以下方式实现:第二神经网络模型分别对参考信号与误差信号进行特征提取处理,对应得到参考音频特征以及误差音频特征,基于参考音频特征以及误差音频特征进行信号分离处理,得到掩码信号。掩码信号用于表征抑制回声后的麦克风信号中的残留回声信号。
示例的,特征提取处理的具体方式可以参考上文中的步骤302。信号分离处理可以通过以下方式实现:获取所述参考音频特征与所述误差音频特征的特征向量,获取所述参考音频特征的特征向量中每个维度的特征值、误差音频特征的特征向量中对应的特征值之间的比值,将每个比值组合为比值序列,对比值序列进行归一化处理,得到用于表征掩码信号的掩码特征的特征向量,掩码特征的特征向量中每个维度的特征值可以作为权重值。
在步骤3064A中,基于掩码信号对抑制回声后的麦克风信号进行非线性回声消除处理,得到消除回声后的麦克风信号。
示例的,非线性回声消除处理的原始数据与滤波结果是一种逻辑关系,即用逻辑运算实现,掩码信号对应的掩码特征用于表征抑制回声后的麦克风信号中的残留回声信号对应的权重值,将掩码信号对应的掩码特征中的每个权重值与抑制回声后的麦克风信号的音频特征对应的每个维度的特征进行相乘,得到消除回声后的麦克风信号的音频特征,将特征还原为对应的消除回声后的麦克风信号。
在一些实施例中,第一神经网络模型与第二神经网络模型是不同类型的模型,例如:第一神经网络模型是循环神经网络模型,第二神经网络模型是深度神经网络模型。
参考图6B,图6B是本申请实施例提供的回声消除模型的结构示意图;将实施本申请实施例信号处理方法的滤波器以及神经网络模型作为一个回声消除模型,表征为图6B,回声消除模型包括:循环神经网络602、深度神经网络603、自适应滤波器601。自适应滤波器601可以是归一化最小均方自适应滤波器(NMLS)。参考信号与误差信号作为循环神经网络602的输入,循环神经网络602输出最优步长μ和转移系数A,对自适应滤波器601配置最优步长μ和转移系数A,配置后的自适应滤波器601对麦克风采集到的麦克风信号(MIC)进行回声消除,得到抑制回声后的麦克风信号(图6B中的第一回声消除信号),又称为线路回声消除信号(Line Echo Cancellation,LEC)。深度神经网络603基于参考信号与误差信号获取掩码值(上文的掩码信号),基于掩码值对第一回声消除信号进行消除残留回声的处理,得到第二回声消除信号(上文的消除回声后的麦克风信号)。
本申请实施例中,通过不同的神经网络模型获取配置参数、掩码信号,对麦克风信号进行了二阶段的回声消除处理,提升了回声消除处理的准确性,提升了通话语音的清晰度,减少了语音信号中的干扰成分。
在一些实施例中,特征提取处理第一神经网络模型的第一分类器实现的,第一神经网络模型包括第一分类器以及第二分类器,预测滤波器的配置参数的处理是通过第一分类器实现的。
在步骤306之前,基于参考信号与误差信号,调用第一神经网络模型的第二分类器进行信号预测处理,得到掩码信号。
示例的,获取掩码信号的原理参考上文中的步骤3063A,此处不再赘述。
参考图3D,图3D是本申请实施例提供的信号处理方法的流程示意图;图3A中的步骤306可以通过图3D中的步骤3061B至步骤3063B实现,以下具体说明。
在步骤3061B中,基于更新后的滤波器对参考信号进行滤波处理,得到预测回声信号。
示例的,步骤3061B的原理参考上文中的步骤3061A。
在步骤3062B中,基于预测回声信号对麦克风信号中进行线性回声消除处理,得到抑制回声后的麦克风信号。
示例的,步骤3062B的原理参考上文中的步骤3062A。
在步骤3063B中,基于掩码信号对抑制回声后的麦克风信号进行非线性回声消除处理,得到消除回声后的麦克风信号。
示例的,步骤3063B的原理参考上文中的步骤3064A。当通过一个神经网络模型中的第一分类器以及第二分类器分别获取配置参数与掩码信号时,能够节约计算资源。
示例的,第一神经网络模型可以是深度神经网络,参考图6C以及图6D,图6C以及图6D是本申请实施例提供的回声消除模型的结构示意图,图6D是图6C的细化图;可以通过单个的深度神经网络604实现图6B中的深度神经网络603结合循环神经网络602的效果,通过单个的深度神经网络603获取最优步长μ、转移系数A与掩码信号(掩码值),可以进一步降低整体模型参数与计算复杂度。深度神经网络604中的特征提取网络6041用于对参考信号、误差信号进行特征提取处理,特征提取网络6041将提取的特征分别输出至第一分类器6042、第二分类器6043。第一分类器6042执行获取配置参数的处理,第二分类器6043执行获取掩码信号(掩码值)的处理。
本申请实施例中,通过单一的神经网络模型获取配置参数、掩码信号,对麦克风信号进行了二阶段的回声消除处理,节约了回声消除处理所需的计算资源,提升了回声消除处理的准确性,提升了通话语音的清晰度,减少了语音信号中的干扰成分。
在一些实施例中,参考图3E,图3E是本申请实施例提供的信号处理方法的流程示意图;图3A中的步骤306可以通过图3E中的步骤3061C至步骤3062C实现,以下具体说明。
在步骤3061C中,基于更新后的滤波器对参考信号进行滤波处理,得到预测回声信号。
示例的,步骤3061C的原理参考上文中的步骤3061A。
在步骤3062C中,基于预测回声信号对麦克风信号中进行线性回声消除处理,得到消除回声后的麦克风信号。
示例的,步骤3062C中线性回声消除的原理参考上文中的步骤3061A,将线性回声消除处理的结果直接作为消除回声后的麦克风信号,提升了回声消除的效率,节约了回声消除的计算资源。
示例的,步骤3061C至步骤3062C可以通过上文的第一神经网络模型实现,第一神经网络模型可以是深度神经网络模型或者循环神经网络模型。
本申请实施例中,通过神经网络模型获取滤波器的配置参数,提升了滤波器的配置效率,基于配置后的滤波器进行回声消除处理,降低了回声消除处理所需的计算资源,适用于各种不同的终端设备,能够节约回声消除所占用的内存,以便于终端设备的其他功能顺畅运行。
在一些实施例中,在步骤302之前,通过以下方式训练用于执行特征提取、预测配置参数的神经网络模型:获取样本信号数据集合,其中,样本信号数据集合包括多个样本信号组,每个样本信号组包括:样本误差信号、样本参考信号以及样本信号组对应的滤波器实际配置参数;基于每个样本信号组调用初始的第一神经网络模型进行预测处理,得到滤波器的预测配置参数;基于每个预测配置参数与对应的实际配置参数之间的差异,确定第一神经网络模型的损失函数;基于损失函数对第一神经网络模型进行反向传播处理,得到训练后的第一神经网络模型。
在一些实施例中,在步骤302之前,通过以下方式训练用于获取掩码信号的神经网络模型:获取样本信号数据集合,其中,样本信号数据集合包括多个样本信号组,每个样本信号组包括:样本误差信号、样本参考信号以及样本信号组对应的实际掩码信号;基于每个样本信号组调用初始的神经网络模型进行信号分离处理,得到预测掩码信号;基于每个预测掩码信号与对应的实际掩码信号之间的差异,确定神经网络模型的损失函数;基于损失函数对初始的神经网络模型进行反向传播处理,得到训练后的神经网络模型。
参考图4A,图4A是本申请实施例提供的信号处理方法的第一交互流程示意图;图4A中由终端设备执行本申请实施例提供的信号处理方法。以图1中的服务器200、终端设备400-1、终端设备400-2为例进行说明。服务器200是用于语音通话或者视频通话的服务器。终端设备400-1与终端设备400-2之间进行通话。
在步骤401A中,终端设备400-1发送第一语音信号至服务器200。
在步骤402A中,服务器200发送第一语音信号至终端设备400-2。
在步骤403A中,终端设备400-2的扬声器播放第一语音信号,麦克风接收环境中的环境声音信号。
假设第二用户所处的环境中不包含其他干扰声音信号,则环境声音信号包括扬声器播放且经过环境传播的第一语音信号、第二用户的语音。
在步骤404A中,终端设备400-2调用本申请实施例提供的信号处理方法对环境声音信号进行回声消除处理,得到第二语音信号。
在步骤405A中,终端设备400-2发送第二语音信号至服务器200。
在步骤406A中,服务器200发送第二语音信号至终端设备400-1。
示例的,通过上述回声消除过程,终端设备400-1接收到的第二语音信号中不包含终端设备400-1发往终端设备400-2的语音信号,提升了终端设备之间语音通话的体验,提升了语音通话的清晰度。
参考图4B,图4B是本申请实施例提供的信号处理方法的第二交互流程示意图;图4B中由终端设备与服务器协同执行本申请实施例提供的信号处理方法。以图1中的服务器200、网络300、终端设备400-1、终端设备400-2为例进行说明。服务器200是即时通讯软件的服务器,终端设备400-1与终端设备400-2通过网络300连接服务器200,终端设备400-1与终端设备400-2之间进行通话。
在步骤401B中,终端设备400-1发送第一语音信号至服务器200。
在步骤402B中,服务器200发送第一语音信号至终端设备400-2。
在步骤403B中,终端设备400-2的扬声器播放第一语音信号,麦克风接收环境中的环境声音信号。
示例的,假设第二用户所处的环境中不包含其他干扰声音信号,则环境声音信号包括扬声器播放且经过环境传播的第一语音信号、第二用户的语音。
在步骤404B中,终端设备400-2发送环境声音信号至服务器200。
在步骤405B中,服务器200调用本申请实施例提供的信号处理方法对环境声音信号进行回声消除处理,得到第二语音信号。
在步骤406B中,服务器200发送第二语音信号至终端设备400-1。
示例的,通过上述回声消除过程,终端设备400-1接收到的第二语音信号中不包含终端设备400-1发往终端设备400-2的语音信号,提升了终端设备之间语音通话的体验,提升了语音通话的清晰度。
本申请实施例基于参考信号以及滤波器已执行的回声消除处理的误差信号预测滤波器的配置参数,提升了获取滤波器的配置参数的准确性,基于配置参数更新滤波器,相较于传统的自适应滤波算法能够改善滤波器的收敛速度,能够提升滤波器声学回声的传播路径变化的响应效率,进而基于更新后的滤波器对麦克风信号进行回声消除,提升了回声消除的准确性。相关技术中通过卡尔曼滤波器进行滤波的方案所需的配置参数较多,本申请实施例相较于现有技术中通过卡尔曼滤波器实现回声消除的方案,节约了计算量,同时能达到提升回声消除准确性的效果。
下面,将说明本申请实施例信号处理方法在一个实际的应用场景中的示例性应用。
自适应回声消除算法在通话语音和语音交互应用中都是最基本的算法,自适应回声消除算法将远端信号经扬声器播放后被麦克风接收的回声信号消除,旨在去除扬声器信号,保留近端语音。传统的自适应回声消除算法在各种应用场合广泛使用,但仍然面临各种难题。在双讲场景下由于远端近端信号叠加,双讲判断不准确,导致滤波器收敛错误,使得双讲场景下近端损伤严重,同时滤波器无法收敛到最优状态,使得稳态性能不够理想;另一方面,在声学回声的传播路径(以下简称回声路径)突变的时候,回声路径突变例如:例如人手遮挡扬声器、人脸靠近电话手表等,遮挡物、扬声器和麦克风形成一个新的回声路径。滤波器的收敛不够迅速,导致路径突变时发生漏声问题,漏声问题也即近端语音信号和回声一起被消除掉。在前端处理系统中回声处理模块通常作为第一个模块执行相关的处理,一旦回声泄露严重将导致后续各个算法模块性能下降,因此回声处理模块性能将影响整体性能,同时回声处理通常在终端上处理,要求具有较低的计算复杂度。
现有技术中,传统滤波器算法由于误差估算不准确,导致收敛速度慢,稳态性能不足。卡尔曼(Kalman)滤波器稳态性能较好,利用神经网络估算卡尔曼滤波器的卡尔曼增益,从而提升卡尔曼滤波器的收敛速度,能够提升消除效果,但计算量相对较大。神经网络的回声消除方案中,需要的神经网络模型通常参数较多,计算复杂度较大,在移动端应用部署受到了很大限制。
本申请实施例提供的信号处理方法,采用一种神经网络模型和滤波器回声消除处理相融合的方案,利用小型神经网络,估算自适应回声消除的滤波器计算的参数,从而获得更快的收敛速度和更好的稳态性能。采用NLMS线性滤波算法又极大降低了线性滤波算法部分的计量复杂度。
为便于理解,以下对本申请实施例中回声消除的原理进行解释说明,参考图5,图5是本申请实施例提供的信号处理方法的原理示意图。假设两个用户分别通过终端设备A与终端设备B进行语音通话,以终端设备A侧为例进行说明。终端设备B侧的麦克风采集终端设备B侧的用户的语音信号,经过网络传播给终端设备A,终端设备A将远端信号(终端设备B侧的用户的语音信号)作为参考信号x(n),扬声器A播放参考信号x(n),参考信号x(n)经过环境回音路径h(n)的传播,形成回声信号,麦克风A采集期望声音信号d(n)以及回声信号,自适应滤波器w(n)基于参考信号x(n)对麦克风A采集的信号进行回声消除处理,得到回声消除的声音信号(n)传递给终端设备B。终端设备B的扬声器B播放回声消除的声音信号。
在一些实施例中,参考图6A,图6A是本申请实施例提供的回声消除模型的结构示意图;回声消除模型包括:循环神经网络602、自适应滤波器601。自适应滤波器601可以是归一化最小均方自适应滤波器(NMLS)。参考信号与误差信号作为循环神经网络602的输入,循环神经网络602输出最优步长μ和转移系数A,对自适应滤波器601配置最优步长μ和转移系数A,配置后的自适应滤波器601对麦克风采集到的麦克风信号(mic)进行回声消除,得到线路回声消除信号(Line Echo Cancellation,LEC),也即图6A中的第一回声消除信号。
示例的,迭代第k+1次的滤波器函数的迭代公式如(1)所示
E(k)=Y(k)-W(k)X(k) (2)
上述W(k+1)、W(k)为滤波器函数,系数μ为最优步长,X(k)是参考信号,E(k)是误差信号,误差信号也就是线性滤波器输出。滤波器W(k+1)函数是初始滤波器W(k)、调整参数之间的加和,调整参数是参考信号X(k)、误差信号E(k)与之间的乘积。
Y(k)是期望的麦克风信号,实际的麦克风信号包括回声信号、语音信号,W(k)X(k)是滤波器基于参考信号对实际的麦克风信号进行滤波得到的估计信号,利用公式(2)获得线性滤波器输出的误差信号E(k),系数μ将决定自适应回声消除的整体性能。误差信号E(k)表征期望麦克风信号Y(k)、经过线性滤波器处理的参考信号W(k)X(k)之间的差异。
示例的,基于马尔可夫时变模型的原理,上文公式(1)可以转换为以下公式(3)。
循环神经网络是一个简单的自回归网络,同时估算归一化最小均方自适应滤波器(NLMS)的最优步长μ和转移系数A,循环神经网络结合归一化最小均方自适应滤波器(以下简称RNN-NMLS滤波器)的最优步长μ与卡尔曼(Kalman)增益的作用一致,引入马尔可夫(Markov)时变模型的转移系数的概念,使RNN-NMLS滤波器可等效为数据驱动的最优卡尔曼滤波器。
本申请实施例利用小型神经网络,估算自适应回声消除的滤波器计算的参数,从而获得更快的收敛速度和更好的稳态性能。神经网络输入部分包括参考信号、滤波器利用前一帧信号进行预处理得到的预估误差信号,输入信号能够使模型更准确地估算所需参数,降低了模型估算的复杂度,同时信号部分利用转移系数的估算,仅需要较小的计算量就能获得接近卡尔曼(Kalman)滤波器的稳态性能。
本申请实施例能够达到卡尔曼滤波算法的性能,同时采用NLMS线性滤波算法又极大降低了线性滤波算法部分的计量复杂度。循环神经网络输入参考信号和误差信号从而降低模型估算最优步长的复杂度,因此可以利用较小的模型来估算相关参数,同时获得更加准确的最优步长和转移系数,获得与卡尔曼滤波器相同的稳态性能和更快的收敛速度。
参考图7,图7是本申请实施例提供的实验效果示意图。本申请实施例与传统卡尔曼滤波器(TFDKF)相比较,回声返回损耗增益(Echo Return Loss Enhancement,ERLE)变化显示,当回声路径在第9秒突变时,传统卡尔曼滤波器收敛较慢,需要经过较长时间才能重新收敛,而本申请实施例可以快速检测到路径变化,在滤波器稳定时也有更好的稳态性能。
在一些实施例中,参考图6B,图6B是本申请实施例提供的回声消除模型的结构示意图;在图6A的基础上,还可以通过回声消除后处理提升回声消除效果。深度神经网络603基于参考信号与误差信号获取掩码值(上文的掩码信号),基于掩码值对第一回声消除信号进行消除残留回声的处理,得到第二回声消除信号。
在一些实施例中,参考图6C,图6C是本申请实施例提供的回声消除模型的结构示意图;可以通过单个的深度神经网络603实现深度神经网络603结合循环神经网络602的效果,通过单个的深度神经网络603获取最优步长μ、转移系数A与掩码值mask,可以进一步降低整体模型参数与计算复杂度。
本申请实施例既可以利用单独的小型网络来估算参数,在利用模型进行回声消除后处理的系统中也可以利用给回声消除后处理网络增加参数估算模块,实现相同目的,从而进一步降低整体回声处理系统的运算复杂度和参数量。
在一些实施例中,本申请实施例利用了马尔可夫模型,让小计算量的线性处理算法大幅提升了收敛速度和稳态性能,在通话语音处理,智能语音交互等场景下可以获得系统性能的大幅提升。同时,本申请实施例的信号处理方法可以应用与不同的线性处理算法中,大幅提升不同算法线性处理的性能,同步加快收敛速度和稳态性能,例如:去混响处理,波束形成处理,盲源分离等处理算法中,特别在不同的线性传统函数(线性滤波器)突变的场景下,例如移动声源等场景,将大幅提升相关算法的性能。
在一些实施例中,本申请实施例提供的信号处理方法,可以用于消除麦克风信号中的回声信号,还能够应用到多种系统中,例如:基于IP的语音传输(Voice over InternetProtocol,VoIP),智能家居系统、视频会议系统、车载系统以及语音识别系统等,本申请实施例提供的信号处理方法同时具备性能好、计算复杂度低这两个特点,适合于在各种终端设备部署。减少了终端设备的回声消除功能的内存占用,确保终端设备的其他功能流畅运行。
本申请实施例可以实现以下有益效果:
利用回归网络模型估算线性回声消除算法的相关参数,在仅含有线性回声消除算法的情况下利用很小的模型,可以显著提升线性回声消除的性能,具有更快的收敛速度和更好的稳态性能。在系统包含神经网络模型的回声消除后处理的条件下,可以同步利用同一模型输出线性回声算法的相关参数,在线性部分的计算量在完全没有增加的情形下,性能得到大幅提升。同时通过线性部分和回声消除后处理部分模型的联合训练和获得整体系统的性能提升。
下面继续说明本申请实施例提供的信号处理装置455的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的信号处理装置455中的软件模块可以包括:信号获取模块4551,配置为获取滤波器的参考信号以及误差信号,其中,参考信号是由扬声器输出的远端信号,所述误差信号表征所述滤波器已经执行的回声消除处理存在的误差;参数获取模块4552,配置为分别对参考信号以及误差信号进行特征提取处理,对应得到参考音频特征以及误差音频特征;参数获取模块4552,配置为基于参考音频特征以及误差音频特征,预测滤波器的配置参数;回声消除模块4553,配置为基于配置参数更新滤波器;信号获取模块4551,配置为获取麦克风信号,其中,麦克风信号包括回声;回声消除模块4553,配置为基于更新后的滤波器对麦克风信号进行回声消除处理,得到消除回声后的麦克风信号。
在一些实施例中,参数获取模块4552,配置为对参考信号的音频序列进行频域特征提取处理,得到参考频域特征;对参考信号的音频序列进行时域特征提取处理,得到参考时域特征;对参考频域特征以及参考时域特征进行融合处理,得到参考音频特征;对误差信号的音频序列进行频域特征提取处理,得到误差频域特征;对误差信号的音频序列进行时域特征提取处理,得到误差时域特征;对误差频域特征以及误差时域特征进行融合处理,得到误差音频特征。
在一些实施例中,配置参数包括:最优步长以及转移系数;参数获取模块4552,配置为基于参考音频特征以及误差音频特征,预测滤波器的最优步长;基于最优步长以及滤波器的滤波器函数,预测滤波器与更新后的滤波器之间的转移系数,其中,转移系数表征滤波器与更新后的滤波器之间状态转移的概率。
在一些实施例中,特征提取处理第一神经网络模型的第一分类器实现的,第一神经网络模型包括第一分类器以及第二分类器,预测滤波器的配置参数的处理是通过第一分类器实现的;回声消除模块4553,配置为在基于更新后的滤波器对麦克风信号进行回声消除处理,得到消除回声后的麦克风信号之前,基于参考信号与误差信号,调用第一神经网络模型的第二分类器进行信号预测处理,得到掩码信号。
在一些实施例中,回声消除模块4553,配置为基于更新后的滤波器对参考信号进行滤波处理,得到预测回声信号;基于预测回声信号对麦克风信号中进行线性回声消除处理,得到抑制回声后的麦克风信号;基于掩码信号对抑制回声后的麦克风信号进行非线性回声消除处理,得到消除回声后的麦克风信号。
在一些实施例中,参数获取模块4552,配置为获取参考音频特征以及误差音频特征之间的线性差异特征;获取线性差异特征对应的残差回声信号方差、误差音频特征对应的误差信号方差;对残差回声信号方差、误差信号方差之间的比值进行归一化处理,得到最优步长。
在一些实施例中,特征提取处理、预测滤波器的配置参数的处理是通过第一神经网络模型实现的;回声消除模块4553,配置为基于更新后的滤波器对参考信号进行滤波处理,得到预测回声信号;基于预测回声信号对麦克风信号中进行线性回声消除处理,得到抑制回声后的麦克风信号;基于参考信号与误差信号,调用第二神经网络模型进行信号预测处理,得到掩码信号,其中,第一神经网络模型与第二神经网络模型是不同类型的模型;基于掩码信号对抑制回声后的麦克风信号进行非线性回声消除处理,得到消除回声后的麦克风信号。
在一些实施例中,第一神经网络模型是循环神经网络模型,第二神经网络模型是深度神经网络模型。
在一些实施例中,配置参数包括:最优步长以及转移系数;回声消除模块4553,配置为基于最优步长配置滤波器;基于误差信号、参考信号以及最优步长,对滤波器进行迭代训练,迭代训练后的滤波器;基于转移系数对迭代训练后的滤波器进行参数更新,得到更新后的滤波器。
在一些实施例中,回声消除模块4553,配置为基于更新后的滤波器对参考信号进行滤波处理,得到预测回声信号;基于预测回声信号对麦克风信号中进行线性回声消除处理,得到消除回声后的麦克风信号。
在一些实施例中,信号获取模块4551,配置为将扬声器待输出的远端信号作为参考信号;将期望信号与估计信号之间的差异信号作为滤波器的误差信号,其中,期望信号是预配置的消除回声后的麦克风信号,估计信号是通过已经执行的回声消除处理得到的消除回声后的麦克风信号。
在一些实施例中,参数获取模块4552,配置为在分别对参考信号以及误差信号进行特征提取处理,对应得到参考音频特征以及误差音频特征之前,获取样本信号数据集合,其中,样本信号数据集合包括多个样本信号组,每个样本信号组包括:样本误差信号、样本参考信号以及样本信号组对应的滤波器实际配置参数;基于每个样本信号组调用初始的第一神经网络模型进行预测处理,得到滤波器的预测配置参数;基于每个预测配置参数与对应的实际配置参数之间的差异,确定第一神经网络模型的损失函数;基于损失函数对第一神经网络模型进行反向传播处理,得到训练后的第一神经网络模型。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机可执行指令,该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例上述的信号处理方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令或者计算机程序,当计算机可执行指令或者计算机程序被处理器执行时,将引起处理器执行本申请实施例提供的信号处理方法,例如,如图3A示出的信号处理方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,HyperText Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上所述,通过基于参考信号以及滤波器已执行的回声消除处理的误差信号预测滤波器的配置参数,提升了获取滤波器的配置参数的准确性,基于配置参数更新滤波器,相较于传统的滤波器算法能够改善滤波器的收敛速度,能够提升滤波器声学回声的传播路径变化的响应效率,进而基于更新后的滤波器对麦克风信号进行回声消除,提升了回声消除的准确性。现有技术中通过卡尔曼滤波器进行滤波的方案所需的配置参数较多,本申请实施例相较于现有技术的方案,节约了计算量,同时能达到提升回声消除准确性的效果。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (16)

1.一种信号处理方法,其特征在于,所述方法包括:
获取滤波器的参考信号以及误差信号,其中,所述参考信号是由扬声器输出的远端信号,所述误差信号表征所述滤波器已经执行的回声消除处理存在的误差;
分别对所述参考信号以及所述误差信号进行特征提取处理,对应得到参考音频特征以及误差音频特征;
基于所述参考音频特征以及所述误差音频特征,预测所述滤波器的配置参数;
基于所述配置参数更新所述滤波器;
获取麦克风信号;
基于更新后的所述滤波器对所述麦克风信号进行回声消除处理,得到消除回声后的麦克风信号。
2.根据权利要求1所述的方法,其特征在于,所述分别对所述参考信号以及所述误差信号进行特征提取处理,对应得到参考音频特征以及误差音频特征,包括:
对所述参考信号的音频序列进行频域特征提取处理,得到参考频域特征;
对所述参考信号的音频序列进行时域特征提取处理,得到参考时域特征;
对所述参考频域特征以及所述参考时域特征进行融合处理,得到参考音频特征;
对所述误差信号的音频序列进行频域特征提取处理,得到误差频域特征;
对所述误差信号的音频序列进行时域特征提取处理,得到误差时域特征;
对所述误差频域特征以及所述误差时域特征进行融合处理,得到误差音频特征。
3.根据权利要求2所述的方法,其特征在于,所述配置参数包括:最优步长以及转移系数;
所述基于所述参考音频特征以及所述误差音频特征,预测所述滤波器的配置参数,包括:
基于所述参考音频特征以及所述误差音频特征,预测所述滤波器的最优步长;
基于所述最优步长以及所述滤波器的滤波器函数,预测所述滤波器与更新后的滤波器之间的转移系数,其中,所述转移系数表征所述滤波器与更新后的滤波器之间状态转移的概率。
4.根据权利要求2或3所述的方法,其特征在于,所述特征提取处理是通过第一神经网络模型的第一分类器实现的,所述预测所述滤波器的配置参数的处理是通过所述第一分类器实现的,所述第一神经网络模型还包括第二分类器;
在所述基于更新后的所述滤波器对所述麦克风信号进行回声消除处理,得到消除回声后的麦克风信号之前,所述方法还包括:
基于所述参考信号与所述误差信号,调用所述第一神经网络模型的所述第二分类器进行信号预测处理,得到掩码信号。
5.根据权利要求4所述的方法,其特征在于,所述基于更新后的所述滤波器对所述麦克风信号进行回声消除处理,得到消除回声后的麦克风信号,包括:
基于更新后的所述滤波器对所述参考信号进行滤波处理,得到预测回声信号;
基于所述预测回声信号对所述麦克风信号中进行线性回声消除处理,得到抑制回声后的麦克风信号;
基于所述掩码信号对所述抑制回声后的麦克风信号进行非线性回声消除处理,得到消除回声后的麦克风信号。
6.根据权利要求3所述的方法,其特征在于,所述基于所述参考音频特征以及所述误差音频特征,预测所述滤波器的最优步长,包括:
获取所述参考音频特征以及所述误差音频特征之间的线性差异特征;
获取所述线性差异特征对应的残差回声信号方差、所述误差音频特征对应的误差信号方差;
对所述残差回声信号方差、所述误差信号方差之间的比值进行归一化处理,得到最优步长。
7.根据权利要求3所述的方法,其特征在于,所述特征提取处理、所述预测所述滤波器的配置参数的处理是通过第一神经网络模型实现的;
所述基于更新后的所述滤波器对所述麦克风信号进行回声消除处理,得到消除回声后的麦克风信号,包括:
基于更新后的所述滤波器对所述参考信号进行滤波处理,得到预测回声信号;
基于所述预测回声信号对所述麦克风信号中进行线性回声消除处理,得到抑制回声后的麦克风信号;
基于所述参考信号与所述误差信号,调用第二神经网络模型进行信号预测处理,得到掩码信号,其中,所述第一神经网络模型与所述第二神经网络模型是不同类型的模型;
基于所述掩码信号对所述抑制回声后的麦克风信号进行非线性回声消除处理,得到消除回声后的麦克风信号。
8.根据权利要求7所述的方法,其特征在于,所述第一神经网络模型是循环神经网络模型,所述第二神经网络模型是深度神经网络模型。
9.根据权利要求1所述的方法,其特征在于,所述配置参数包括:最优步长以及转移系数;
所述基于所述配置参数更新所述滤波器,包括:
基于所述最优步长配置所述滤波器;
基于所述误差信号、所述参考信号以及所述最优步长,对所述滤波器进行迭代训练,得到迭代训练后的所述滤波器;
基于所述转移系数对迭代训练后的所述滤波器进行参数更新,得到更新后的所述滤波器。
10.根据权利要求1至3、6、9任一项所述的方法,其特征在于,所述基于更新后的所述滤波器对所述麦克风信号进行回声消除处理,得到消除回声后的麦克风信号,包括:
基于更新后的所述滤波器对所述参考信号进行滤波处理,得到预测回声信号;
基于所述预测回声信号对所述麦克风信号中进行线性回声消除处理,得到消除回声后的麦克风信号。
11.根据权利要求1至10任一项所述的方法,其特征在于,所述获取滤波器的参考信号以及误差信号,包括:
将所述扬声器待输出的远端信号作为参考信号;
将期望信号与估计信号之间的差异信号作为所述滤波器的误差信号,其中,所述期望信号是预配置的消除回声后的麦克风信号,所述估计信号是通过已经执行的回声消除处理得到的消除回声后的麦克风信号。
12.根据权利要求4、5、7、8任一项所述的方法,其特征在于,在所述分别对所述参考信号以及所述误差信号进行特征提取处理,对应得到参考音频特征以及误差音频特征之前,所述方法还包括:
获取样本信号数据集合,其中,所述样本信号数据集合包括多个样本信号组,每个所述样本信号组包括:样本误差信号、样本参考信号以及所述样本信号组对应的滤波器实际配置参数;
基于每个所述样本信号组调用初始的所述第一神经网络模型进行预测处理,得到滤波器的预测配置参数;
基于每个所述预测配置参数与对应的实际配置参数之间的差异,确定所述第一神经网络模型的损失函数;
基于所述损失函数对所述第一神经网络模型进行反向传播处理,得到训练后的第一神经网络模型。
13.一种信号处理装置,其特征在于,所述装置包括:
信号获取模块,配置为获取滤波器的参考信号以及误差信号,其中,所述参考信号是由扬声器输出的远端信号,所述误差信号表征所述滤波器已经执行的回声消除处理存在的误差;
参数获取模块,配置为分别对所述参考信号以及所述误差信号进行特征提取处理,对应得到参考音频特征以及误差音频特征;
所述参数获取模块,配置为基于所述参考音频特征以及所述误差音频特征,预测所述滤波器的配置参数;
回声消除模块,配置为基于所述配置参数更新所述滤波器;
所述信号获取模块,配置为获取麦克风信号;
所述回声消除模块,配置为基于更新后的所述滤波器对所述麦克风信号进行回声消除处理,得到消除回声后的麦克风信号。
14.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令或者计算机程序时,实现权利要求1至12任一项所述的信号处理方法。
15.一种计算机可读存储介质,存储有计算机可执行指令或者计算机程序,其特征在于,所述计算机可执行指令或者计算机程序被处理器执行时实现权利要求1至12任一项所述的信号处理方法。
16.一种计算机程序产品,包括计算机可执行指令或计算机程序,其特征在于,所述计算机可执行指令或计算机程序被处理器执行时实现权利要求1至12任一项所述的信号处理方法。
CN202310430721.5A 2023-04-14 2023-04-14 信号处理方法、装置、电子设备及存储介质 Pending CN116980814A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310430721.5A CN116980814A (zh) 2023-04-14 2023-04-14 信号处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310430721.5A CN116980814A (zh) 2023-04-14 2023-04-14 信号处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116980814A true CN116980814A (zh) 2023-10-31

Family

ID=88480367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310430721.5A Pending CN116980814A (zh) 2023-04-14 2023-04-14 信号处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116980814A (zh)

Similar Documents

Publication Publication Date Title
Enzner et al. Acoustic echo control
CN111951819A (zh) 回声消除方法、装置及存储介质
US10978086B2 (en) Echo cancellation using a subset of multiple microphones as reference channels
CN111968658B (zh) 语音信号的增强方法、装置、电子设备和存储介质
CN111524498B (zh) 滤波方法、装置及电子设备
CN111031448B (zh) 回声消除方法、装置、电子设备和存储介质
CN112634923B (zh) 基于指挥调度系统的音频回声消除方法、设备、存储介质
CN113763977A (zh) 消除回声信号的方法、装置、计算设备和存储介质
CN114283795A (zh) 语音增强模型的训练、识别方法、电子设备和存储介质
CN114792524B (zh) 音频数据处理方法、装置、程序产品、计算机设备和介质
CN111370016B (zh) 一种回声消除方法及电子设备
CN111989934B (zh) 回声消除装置、回声消除方法、信号处理芯片及电子设备
CN113763978B (zh) 语音信号处理方法、装置、电子设备以及存储介质
KR102374166B1 (ko) 원단 신호 정보를 이용한 반향 신호 제거 방법 및 장치
US20240135954A1 (en) Learning method for integrated noise echo cancellation system using multi-channel based cross-tower network
CN116980814A (zh) 信号处理方法、装置、电子设备及存储介质
CN113489854B (zh) 声音处理方法、装置、电子设备和存储介质
CN112489680B (zh) 声学回声消除算法的评估方法、装置及终端设备
CN111883155B (zh) 回声消除方法、装置及存储介质
CN114974299A (zh) 语音增强模型的训练、增强方法、装置、设备、介质
CN111654572A (zh) 音频处理方法、装置、电子设备及存储介质
CN117219107B (zh) 一种回声消除模型的训练方法、装置、设备及存储介质
CN115762552B (zh) 训练回声消除模型的方法、回声消除方法及对应装置
KR102505653B1 (ko) 심화신경망을 이용한 에코 및 잡음 통합 제거 방법 및 장치
CN116386655B (zh) 回声消除模型建立方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication