CN113436636A - 基于自适应滤波器和神经网络的声学回声消除方法及系统 - Google Patents

基于自适应滤波器和神经网络的声学回声消除方法及系统 Download PDF

Info

Publication number
CN113436636A
CN113436636A CN202110654926.2A CN202110654926A CN113436636A CN 113436636 A CN113436636 A CN 113436636A CN 202110654926 A CN202110654926 A CN 202110654926A CN 113436636 A CN113436636 A CN 113436636A
Authority
CN
China
Prior art keywords
signal
neural network
echo cancellation
adaptive filter
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110654926.2A
Other languages
English (en)
Inventor
胡程远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Boluosi Technology Co ltd
Original Assignee
Shenzhen Boluosi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Boluosi Technology Co ltd filed Critical Shenzhen Boluosi Technology Co ltd
Priority to CN202110654926.2A priority Critical patent/CN113436636A/zh
Publication of CN113436636A publication Critical patent/CN113436636A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明实施例公开了一种基于自适应滤波器和神经网络的声学回声消除方法及其系统。方法包括:获取待处理的语音信号;所述待处理的语音信号包括远端语音和近端麦克风语音;将所述待处理的语音信号输入自适应滤波器进行处理,得到残留信号;采用神经网络对所述残留信号进行进行二次处理,以消除所述残留信号中的非线性部分,得到回声消除后的近场音频信号。实施本发明的方法及其系统,针对声学回声,采用自适应滤波器+神经网络的方式,对自适应滤波器输出的残留信号进行二次处理,消除其中的非线性部分,可以得到清晰的回声消除后的近场音频信号,从而解决了传统回声消除方法所存在的技术问题。

Description

基于自适应滤波器和神经网络的声学回声消除方法及系统
技术领域
本发明涉及声音处理技术领域,具体涉及一种基于自适应滤波器和神经网络的声学回声消除方法及其系统。
背景技术
回声包括声学回声和线路回声。声学回声是由于在免提或会议应用中,扬声器的声音多次反馈到麦克风引起的。传统的声学回声消除方法是:通过自适应滤波器,以输入和输出信号的统计特性的估计为依据,采取特定算法自动地调整滤波系数,使其达到最佳滤波特性。
上述回声消除方法主要存在三个较难解决的问题点:(1)自适应滤波器收敛阶段,如果混有人声,那么收敛系数会发生偏差;(2)回声和参考信号之间非线性相关量部分不能通过自适应滤波器消除;(3)回声的路径一旦发生变化,自适应滤波器就会失效。这三个问题点将直接导致当前的大部分回声消除算法很难完全消除喇叭回声,尤其是在采用C/D类等非线性功放或参考信号延迟不稳定的情况下,传统的信号处理方法基本难以工作。
发明内容
针对上述技术缺陷,本发明实施例的目的在于提供一种基于自适应滤波器和神经网络的声学回声消除方法及其系统。
为实现上述目的,第一方面,本发明实施例提供了一种基于自适应滤波器和神经网络的声学回声消除方法,包括:
获取待处理的语音信号;所述待处理的语音信号包括远端语音和近端麦克风语音;
将所述待处理的语音信号输入自适应滤波器进行处理,得到残留信号;
采用神经网络对所述残留信号进行进行二次处理,以消除所述残留信号中的非线性部分,得到回声消除后的近场音频信号。
作为本申请的一种具体实施方式,得到回声消除后的近场音频信号,具体为:
对所述残留信号和参考信号进行短时傅里叶变换,以得到频域信号;
对所述频域信号进行卷积、滤波及归一化会处理,得到权重mask;
根据所述残留信号和权重mask计算回声消除后的近场音频信号=权重mask*残留信号。
作为本申请的一种优选实施方式,所述方法还包括对所述神经网络进行训练,具体为:
采用Adam优化器对所述神经网络进行模型实例化,对所述神经网络进行前向传播和反向传播训练,最终进行模型验证,根据验证集的损失和度量对模型的超参数进行调整。
第二方面,本发明实施例提供了一种基于自适应滤波器和神经网络的声学回声消除系统,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面所述的方法。
第三方面,本发明实施例还提供了另一种基于自适应滤波器和神经网络的声学回声消除系统,包括:
自适应滤波器,用于获取待处理的语音信号,对其进行滤波处理,得到残留信号;所述待处理的语音信号包括远端语音和近端麦克风语音;
二次处理模块,用于采用神经网络对所述残留信号进行进行二次处理,以消除所述残留信号中的非线性部分,得到回声消除后的近场音频信号。
实施本发明的方法及其系统,针对声学回声,采用自适应滤波器+神经网络的方式,对自适应滤波器输出的残留信号进行二次处理,消除其中的非线性部分,可以得到清晰的回声消除后的近场音频信号,从而解决了传统回声消除方法所存在的技术问题。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
图1是本发明实施例提供的基于自适应滤波器和神经网络的声学回声消除方法的流程图;
图2是本发明实施例提供的神经网络图;
图3是本发明第一实施例提供的基于自适应滤波器和神经网络的声学回声消除系统的结构图;
图4是本发明第二实施例提供的基于自适应滤波器和神经网络的声学回声消除系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,本发明实施例提供的基于自适应滤波器和神经网络的声学回声消除方法可以包括:
S1,获取待处理的语音信号。
其中,所述待处理的语音信号包括远端语音和近端麦克风语音。
S2,将所述待处理的语音信号输入自适应滤波器进行处理,得到残留信号。
S3,采用神经网络对所述残留信号进行进行二次处理,以消除所述残留信号中的非线性部分,得到回声消除后的近场音频信号。
具体地,请参考图2,获取残留信号e(n)和参考信号u(n),利用短时傅里叶变换将残留信号e(n)和参考信号u(n)转换为频域,串联后作为输入特征,经过卷积、滤波及归一化处理后,输出权重mask,根据所述残留信号和权重mask计算回声消除后的近场音频信号=权重mask*残留信号。
再请参考图2,为本发明实施例所采用的神经网络结构图。该神经网络中,STFT表示短时傅里叶变换,Conv表示卷积运算,Residual Bottle Neck表示滤波器,FC表示全连接层,Softmax表示分类回归函数,concatenate是网络结构设计中很重要的一种操作,经常用于将特征联合,多个卷积特征提取框架提取的特征融合或者是将输出层的信息进行融合。
该神经网络主要对自适应滤波器输出的残留信号进行二次处理,输出重mask和迭代系数DTD;权重mask用于回声消除后的近场音频信号的计算,迭代系数DTD作用于自适应滤波器。
进一步地,本发明实施例还包括对神经网络进行训练,具体为:首先进行模型实例化,采用Adam优化器进行实例化优化,再使用Tensorboard可视化,开始进行前向传播和反向传播训练,最终进行模型验证,根据验证集的损失和度量,对模型的超参数进行调整。
实施本发明基于自适应滤波器和神经网络的声学回声消除方法,针对声学回声,采用自适应滤波器+神经网络的方式,对自适应滤波器输出的残留信号进行二次处理,消除其中的非线性部分,可以得到清晰的回声消除后的近场音频信号,从而解决了传统回声消除方法所存在的技术问题。
基于相同的发明构思,本发明实施例提供了一种基于自适应滤波器和神经网络的声学回声消除系统。如图3示,该系统可以包括:一个或多个处理器101、一个或多个输入设备102、一个或多个输出设备103和存储器104,上述处理器101、输入设备102、输出设备103和存储器104通过总线105相互连接。存储器104用于存储计算机程序,所述计算机程序包括程序指令,所述处理器101被配置用于调用所述程序指令执行上述方法实施例部分的方法。
应当理解,在本发明实施例中,所称处理器101可以是中央处理单元(CentralProcessing Unit,CPU),深度学习显卡(如:华为NPU,英伟达GPU,谷歌TPU)该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备102可以包括键盘等,输出设备103可以包括显示器(LCD等)、扬声器等。
该存储器104可以包括只读存储器和随机存取存储器,并向处理器101提供指令和数据。存储器104的一部分还可以包括非易失性随机存取存储器。例如,存储器104还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行本发明实施例提供的基于自适应滤波器和神经网络的声学回声消除方法实施例中所描述的实现方式,在此不再赘述。
可选地,本发明实施例还提供了另一种基于自适应滤波器和神经网络的声学回声消除系统。如图4所示,该系统包括:
自适应滤波器100,用于获取待处理的语音信号,对其进行滤波处理,得到残留信号;所述待处理的语音信号包括远端语音和近端麦克风语音;
二次处理模块200,用于采用神经网络对所述残留信号进行进行二次处理,以消除所述残留信号中的非线性部分,得到回声消除后的近场音频信号。
其中,二次处理模块200具体用于:
对所述残留信号和参考信号进行短时傅里叶变换,以得到频域信号;
对所述频域信号进行卷积、滤波及归一化会处理,得到权重mask;
根据所述残留信号和权重mask计算回声消除后的近场音频信号=权重mask*残留信号。
进一步优选地,该消除系统还包括训练模块,用于对所述神经网络进行训练,具体为:
采用Adam优化器对所述神经网络进行模型实例化,对所述神经网络进行前向传播和反向传播训练,最终进行模型验证,根据验证集的损失和度量对模型的超参数进行调整。
需要说明的是,本发明实施例中声学回声消除系统更为具体工作流程及相关细节,请参考前述方法实施例部分,在此不再赘述。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种基于自适应滤波器和神经网络的声学回声消除方法,其特征在于,包括:
获取待处理的语音信号;所述待处理的语音信号包括远端语音和近端麦克风语音;
将所述待处理的语音信号输入自适应滤波器进行处理,得到残留信号;
采用神经网络对所述残留信号进行进行二次处理,以消除所述残留信号中的非线性部分,得到回声消除后的近场音频信号。
2.如权利要求1所述的声学回声消除方法,其特征在于,得到回声消除后的近场音频信号,具体为:
对所述残留信号和参考信号进行短时傅里叶变换,以得到频域信号;
对所述频域信号进行卷积、滤波及归一化会处理,得到权重mask;
根据所述残留信号和权重mask计算回声消除后的近场音频信号=权重mask*残留信号。
3.如权利要求1所述的声学回声消除方法,其特征在于,所述方法还包括对所述神经网络进行训练,具体为:
采用Adam优化器对所述神经网络进行模型实例化,对所述神经网络进行前向传播和反向传播训练,最终进行模型验证,根据验证集的损失和度量对模型的超参数进行调整。
4.如权利要求1所述的声学回声消除方法,其特征在于,所述神经网络的输出包括权重mask和迭代系数DTD;权重mask用于回声消除后的近场音频信号的计算,迭代系数DTD作用于所述自适应滤波器。
5.一种基于自适应滤波器和神经网络的声学回声消除系统,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-4任一项所述的方法。
6.一种基于自适应滤波器和神经网络的声学回声消除系统,其特征在于,包括:
自适应滤波器,用于获取待处理的语音信号,对其进行滤波处理,得到残留信号;所述待处理的语音信号包括远端语音和近端麦克风语音;
二次处理模块,用于采用神经网络对所述残留信号进行进行二次处理,以消除所述残留信号中的非线性部分,得到回声消除后的近场音频信号。
7.如权利要求6所述的声学回声消除系统,其特征在于,所述二次处理模块具体用于:
对所述残留信号和参考信号进行短时傅里叶变换,以得到频域信号;
对所述频域信号进行卷积、滤波及归一化会处理,得到权重mask;
根据所述残留信号和权重mask计算回声消除后的近场音频信号=权重mask*残留信号。
8.如权利要求6所述的声学回声消除系统,其特征在于,所述系统还包括训练模块,用于对所述神经网络进行训练,具体为:
采用Adam优化器对所述神经网络进行模型实例化,对所述神经网络进行前向传播和反向传播训练,最终进行模型验证,根据验证集的损失和度量对模型的超参数进行调整。
CN202110654926.2A 2021-06-11 2021-06-11 基于自适应滤波器和神经网络的声学回声消除方法及系统 Pending CN113436636A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110654926.2A CN113436636A (zh) 2021-06-11 2021-06-11 基于自适应滤波器和神经网络的声学回声消除方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110654926.2A CN113436636A (zh) 2021-06-11 2021-06-11 基于自适应滤波器和神经网络的声学回声消除方法及系统

Publications (1)

Publication Number Publication Date
CN113436636A true CN113436636A (zh) 2021-09-24

Family

ID=77755764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110654926.2A Pending CN113436636A (zh) 2021-06-11 2021-06-11 基于自适应滤波器和神经网络的声学回声消除方法及系统

Country Status (1)

Country Link
CN (1) CN113436636A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114283830A (zh) * 2021-12-17 2022-04-05 南京工程学院 基于深度学习网络的麦克风信号回声消除模型构建方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180040333A1 (en) * 2016-08-03 2018-02-08 Apple Inc. System and method for performing speech enhancement using a deep neural network-based signal
CN111885275A (zh) * 2020-07-23 2020-11-03 海尔优家智能科技(北京)有限公司 语音信号的回声消除方法、装置、存储介质以及电子装置
CN112037809A (zh) * 2020-09-09 2020-12-04 南京大学 基于多特征流结构深度神经网络的残留回声抑制方法
US20210098015A1 (en) * 2019-09-27 2021-04-01 Cypress Semiconductor Corporation Techniques for removing non-linear echo in acoustic echo cancellers
CN112689056A (zh) * 2021-03-12 2021-04-20 浙江芯昇电子技术有限公司 一种回声消除方法及使用该方法的回声消除装置
CN112863535A (zh) * 2021-01-05 2021-05-28 中国科学院声学研究所 一种残余回声及噪声消除方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180040333A1 (en) * 2016-08-03 2018-02-08 Apple Inc. System and method for performing speech enhancement using a deep neural network-based signal
US20210098015A1 (en) * 2019-09-27 2021-04-01 Cypress Semiconductor Corporation Techniques for removing non-linear echo in acoustic echo cancellers
CN111885275A (zh) * 2020-07-23 2020-11-03 海尔优家智能科技(北京)有限公司 语音信号的回声消除方法、装置、存储介质以及电子装置
CN112037809A (zh) * 2020-09-09 2020-12-04 南京大学 基于多特征流结构深度神经网络的残留回声抑制方法
CN112863535A (zh) * 2021-01-05 2021-05-28 中国科学院声学研究所 一种残余回声及噪声消除方法及装置
CN112689056A (zh) * 2021-03-12 2021-04-20 浙江芯昇电子技术有限公司 一种回声消除方法及使用该方法的回声消除装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AMIN FAZEL ET AL.: "Deep Multitask Acoustic Echo Cancellation", INTERSPEECH *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114283830A (zh) * 2021-12-17 2022-04-05 南京工程学院 基于深度学习网络的麦克风信号回声消除模型构建方法

Similar Documents

Publication Publication Date Title
US11315587B2 (en) Signal processor for signal enhancement and associated methods
US9768829B2 (en) Methods for processing audio signals and circuit arrangements therefor
US11475907B2 (en) Method and device of denoising voice signal
CN109065067A (zh) 一种基于神经网络模型的会议终端语音降噪方法
CN104158990A (zh) 用于处理音频信号的方法和音频接收电路
US10880440B2 (en) Echo canceller and method therefor
CN111768796A (zh) 一种声学回波消除与去混响方法及装置
CN106486135A (zh) 近端语音检测器
CN110211602B (zh) 智能语音增强通信方法及装置
US10839820B2 (en) Voice processing method, apparatus, device and storage medium
CN101213764A (zh) 回波抵消器
CN112863535A (zh) 一种残余回声及噪声消除方法及装置
EP2930917B1 (en) Method and apparatus for updating filter coefficients of an adaptive echo canceller
CN111883154B (zh) 回声消除方法及装置、计算机可读的存储介质、电子装置
Akhtar et al. Acoustic feedback cancellation in hearing aids using dual adaptive filtering and gain-controlled probe signal
CN109215672B (zh) 一种声音信息的处理方法、装置及设备
Zhang et al. A Robust and Cascaded Acoustic Echo Cancellation Based on Deep Learning.
CN110148421B (zh) 一种残余回声检测方法、终端和装置
CN113436636A (zh) 基于自适应滤波器和神经网络的声学回声消除方法及系统
Song et al. An integrated multi-channel approach for joint noise reduction and dereverberation
Comminiello et al. Functional link expansions for nonlinear modeling of audio and speech signals
CN112133324A (zh) 通话状态检测方法、装置、计算机系统和介质
CN112997249A (zh) 语音处理方法、装置、存储介质及电子设备
CN114302286A (zh) 一种通话语音降噪方法、装置、设备及存储介质
CN111883155B (zh) 回声消除方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination