CN111477238A - 一种回声消除方法、装置及电子设备 - Google Patents

一种回声消除方法、装置及电子设备 Download PDF

Info

Publication number
CN111477238A
CN111477238A CN202010173360.7A CN202010173360A CN111477238A CN 111477238 A CN111477238 A CN 111477238A CN 202010173360 A CN202010173360 A CN 202010173360A CN 111477238 A CN111477238 A CN 111477238A
Authority
CN
China
Prior art keywords
signal
echo
nonlinear
echo reference
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010173360.7A
Other languages
English (en)
Other versions
CN111477238B (zh
Inventor
王夏鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen Mobvoi Beijing Information Technology Co Ltd
Original Assignee
Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Volkswagen Mobvoi Beijing Information Technology Co Ltd filed Critical Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority to CN202010173360.7A priority Critical patent/CN111477238B/zh
Publication of CN111477238A publication Critical patent/CN111477238A/zh
Application granted granted Critical
Publication of CN111477238B publication Critical patent/CN111477238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本说明书一个或多个实施例提供一种回声消除方法、装置及电子设备,方法包括根据回声参考信号,构造回声参考输入样本;将所述回声参考输入样本输入预先训练的非线性信号转换模型中,得到与所述回声参考输入样本对应的非线性回声参考输出信号;对接收的声音信号结合所述非线性回声参考输出信号,通过回声消除算法进行回声消除处理,得到回声消除后的声音信号,从而解决非线性回声信号的回声消除问题。

Description

一种回声消除方法、装置及电子设备
技术领域
本说明书一个或多个实施例涉及声音处理技术领域,尤其涉及一种回声消除方法、装置及电子设备。
背景技术
回声是指远端说话者说话时,由扬声器播放出去的声音被近端的麦克风拾取后发回远端,使远端说话者能听到自己的声音的现象。回声消除是从接收的声音信号中减去远端的回声参考信号,以抵消远端的回声信号的干扰。
在车载语音系统中,回声消除是核心功能,车内音响等设备播出的声音往往受功率放大器等器件的性能、效果等因素的影响,形成为非线性回声信号,将接收的声音信号减去线性的回声参考信号,难以消除非线性回声信号,难以实现回声消除。
发明内容
有鉴于此,本说明书一个或多个实施例的目的在于提出一种回声消除方法、装置及电子设备,以解决非线性回声信号的回声消除问题。
基于上述目的,本说明书一个或多个实施例提供了一种回声消除方法,包括:
根据回声参考信号,构造回声参考输入样本;
将所述回声参考输入样本输入预先训练的非线性信号转换模型中,得到与所述回声参考输入样本对应的非线性回声参考输出信号;
对接收的声音信号结合所述非线性回声参考输出信号,通过回声消除算法进行回声消除处理,得到回声消除后的声音信号。
可选的,根据所述回声参考信号,构造回声参考输入样本,包括:
对所述回声参考信号进行语音信号处理,得到所述回声参考信号的频率、振幅特征;
根据所述回声参考信号的频率、振幅特征及音量,构造包括音量、频率、振幅特征的三维样本数据作为回声参考输入样本。
可选的,根据回声参考信号,构造回声参考输入样本之前,还包括:
构造训练样本;
获取与所述训练样本对应的非线性输出信号;
以所述非线性输出信号为实际输出,利用所述训练样本对机器学习模型进行训练,得到所述非线性信号转换模型。
可选的,所述构造训练样本,包括:
生成至少一个音频测试信号;各音频测试信号具有预定的振幅,并在预定的频率范围之内;
根据各音频测试信号的振幅、频率特征,构造包括音量、频率、振幅特征的三维样本数据作为训练样本,所述音量在预定的音量范围之内。
可选的,所述获取与训练样本对应的非线性输出信号,包括:
在所述音量范围之内输出各音频测试信号时,获取每个音频测试信号对应的采样音频信号;
对各采样音频信号进行语音信号处理,得到各采样音频信号的频率、振幅特征;
根据各采样音频信号的频率、振幅特征及对应的音量,构造包括音量、频率、振幅特征的三维样本数据作为非线性输出信号。
可选的,所述机器学习模型为深度神经网络模型;以所述非线性输出信号为实际输出,利用所述训练样本对机器学习模型进行训练,得到所述非线性信号转换模型,包括:
根据所述训练样本,确定所述深度神经网络模型的模型参数;
以所述训练样本为输入数据,以所述非线性输出信号为实际输出,利用梯度下降法对所述深度神经网络模型进行训练,得到所述非线性信号转换模型。
可选的,对接收的声音信号结合所述非线性回声参考输出信号,通过回声消除算法进行回声消除处理,得到回声消除后的声音信号,包括:
对所述非线性回声参考输出信号进行语音信号处理,得到非线性回声参考信号;
根据所述接收的声音信号和所述非线性回声参考信号,通过回声消除算法进行回声消除处理,得到回声消除后的声音信号。
本说明书实施例还提供一种回声消除装置,包括:
构造模块,用于根据回声参考信号,构造回声参考输入样本;
转换模块,用于将所述回声参考输入样本输入预先训练的非线性信号转换模型中,得到与所述回声参考输入样本对应的非线性回声参考输出信号;
回声消除模块,用于对接收的声音信号结合所述非线性回声参考输出信号,通过回声消除算法进行回声消除处理,得到回声消除后的声音信号
可选的,所述构造模块,用于对所述回声参考信号进行语音信号处理,得到所述回声参考信号的频率、振幅特征;根据所述回声参考信号的频率、振幅特征及音量,构造包括音量、频率、振幅特征的三维样本数据作为回声参考输入样本。
可选的,装置还包括:
模型训练模块,用于构造训练样本;获取与所述训练样本对应的非线性输出信号;以所述非线性输出信号为实际输出,利用所述训练样本对机器学习模型进行训练,得到所述非线性信号转换模型。
可选的,所述模型训练模块包括:
训练样本构造子模块,用于生成至少一个音频测试信号;各音频测试信号具有预定的振幅,并在预定的频率范围之内;根据各音频测试信号的振幅、频率特征,构造包括音量、频率、振幅特征的三维样本数据作为训练样本,所述音量在预定的音量范围之内。
可选的,所述模型训练模块还包括:
获取输出数据子模块,用于在所述音量范围之内输出各音频测试信号时,获取每个音频测试信号对应的采样音频信号;对各采样音频信号进行语音信号处理,得到各采样音频信号的频率、振幅、特征;根据各采样音频信号的频率、振幅特征及对应的音量,构造包括音量、频率、振幅特征的三维样本数据作为非线性输出信号。
可选的,所述机器学习模型为深度神经网络模型;所述模型训练模块还包括:
训练子模块,用于根据所述训练样本,确定所述深度神经网络模型的模型参数;以所述训练样本为输入数据,以所述非线性输出信号为实际输出,利用梯度下降法对所述深度神经网络模型进行训练,得到所述非线性信号转换模型。
可选的,所述回声消除模块,用于对所述非线性回声参考输出信号进行语音信号处理,得到非线性回声参考信号;根据所述接收的声音信号和所述非线性回声参考信号,通过回声消除算法进行回声消除处理,得到回声消除后的声音信号。
本说明书实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的回声消除方法。
从上面所述可以看出,本说明书一个或多个实施例提供的回声消除方法、装置及电子设备,根据回声参考信号,构造回声参考输入样本;将回声参考输入样本输入预先训练的非线性信号转换模型中,得到与回声参考输入样本对应的非线性回声参考输出信号;对接收的声音信号结合非线性回声参考输出信号,通过回声消除算法进行回声消除处理,得到回声消除后的声音信号,能够解决非线性回声信号的回声消除问题,提高语音质量。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例的回声消除方法的流程示意图;
图2为本说明书一个或多个实施例的准备训练样本和非线性输出信号的流程示意图;
图3为本说明书一个或多个实施例的训练深度神经网络模型的流程示意图;
图4为本说明书一个或多个实施例的语音识别系统中进行回声消除的流程示意图;
图5为本说明书一个或多个实施例的装置结构示意图;
图6为本说明书一个或多个实施例的电子设备的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
为达到上述目的,本说明书实施例提供了一种回声消除方法、装置及电子设备,该方法及装置可以应用于具有语音通信功能的终端设备,例如车载设备、手机、平板电脑等终端设备,终端设备可以安装有语音通信模块,或是安装有具有语音通信功能的应用程序,终端设备配置有声音采集单元(例如麦克风)和声音播放单元(例如听筒、扬声器等),终端设备的具体形式不做限定。为了方便描述,以下部分实施例中以车载设备为执行主体为例进行说明。
下面首先对本说明书实施例提供的回声消除方法进行详细说明。
图1为本说明书一个或多个实施例的回声消除方法的流程示意图,如图所示,本说明书提供的回声消除方法,包括:
S101:根据回声参考信号,构造回声参考输入样本;
一些实施例中,根据回声原理,为实现回声消除,从远端采集获取回声参考信号,根据回声参考信号,构造出回声参考输入样本。
其中,由于未涉及功率放大器等器件的影响,远端的回声参考信号一般为线性未失真信号,而近端实际接收的声音信号包括了近端信号与受器件影响造成的非线性失真信号。
S102:将回声参考输入样本输入预先训练的非线性信号转换模型中,得到与回声参考输入样本对应的非线性回声参考输出信号;
本实施例中,为实现非线性失真信号的消除,需将线性的回声参考信号转换为相应的非线性的回声参考信号,为实现上述转换,预先训练出非线性信号转换模型;基于获取的回声参考信号,构造出可输入非线性信号转换模型的回声参考输入样本,经过非线性信号转换模型后输出与回声参考输入样本对应的非线性回声参考输出信号,实现线性未失真信号到非线性失真信号的对应转换。
S103:对接收的声音信号结合非线性回声参考输出信号,通过回声消除算法进行回声消除处理,得到回声消除后的声音信号。
本实施例中,基于步骤S102获得转换后的非线性回声参考输出信号,利用回声消除原理,从接收的声音信号中消除非线性回声参考输出信号对应的信号部分,实现非线性的回声参考信号的消除,提高语音质量。
本实施例中,首先根据获取的回声参考信号,构造回声参考输入样本,将回声参考输入样本输入预先训练的非线性信号转换模型中,得到与回声参考输入样本对应的非线性回声参考输出信号,根据接收的声音信号与非线性回声参考输出信号,通过回声消除算法进行回声消除处理,得到回声消除后的声音信号。这样,利用能够实现线性的回声参考信号转换为非线性回声参考输出信号的非线性信号转换模型,在获取回声参考信号之后,将回声参考信号转换为对应的非线性回声参考输出信号,在此基础上,利用回声消除算法进行回声消除处理,即可从接收的声音信号中去除非线性的回声参考信号成分,实现理想的回声消除,提高语音质量。
一些实施例中,步骤S101中,根据回声参考信号,构造回声参考输入样本,包括:
对回声参考信号进行语音信号处理,得到回声参考信号的频率、振幅特征;
根据回声参考信号的频率、振幅特征及音量,构造包括音量、频率、振幅特征的三维样本数据作为回声参考输入样本。
本实施例中,考虑到频率、振幅等特征是表征声音信号的主要特征,对于预先训练出的非线性信号转换模型,其输入的样本数据为线性的回声参考信号的频率、振幅及音量特征,模型输出为对应的非线性的回声参考信号的频率、振幅及音量特征。为使获取的回声参考信号能够适于非线性信号转换模型处理,对回声参考信号进行语音信号处理,以得到回声参考信号的频率、振幅特征,根据回声参考信号的频率、振幅及音量,构造包括音量、频率、振幅特征的三维样本数据作为回声参考输入样本;之后,可将回声参考输入样本输入预先训练的非线性信号转换模型,以使模型根据输入的回声参考输入样本经过处理后输出与回声参考输入样本对应的非线性回声参考输出信号。
可选的,对回声参考信号进行语音信号处理,可以是对时域的回声参考信号进行傅里叶变换处理,得到频域的回声参考信号,根据频域的回声参考信号,得到回声参考信号的频率、振幅。对于音量,获取回声参考信号时,即可同时获取回声参考信号的音量值。
以下结合实施例对非线性信号转换模型进行详细说明。
本实施例中,在步骤S101所述根据回声参考信号,构造回声参考输入样本之前,还包括:
构造训练样本;
获取与训练样本对应的非线性输出信号;
以非线性输出信号为实际输出,利用训练样本对机器学习模型进行训练,得到非线性信号转换模型。
本实施例中,为实现利用非线性信号转换模型将线性的回声参考信号转换为对应的非线性的回声参考信号,首先需要构造用于训练非线性信号转换模型的训练样本,该训练样本与线性的回声参考信号对应;之后,获取与训练样本对应的非线性输出信号,在此基础上,以训练样本为机器学习模型的输入,以非线性输出信号为机器学习模型的实际输出,对机器学习模型进行训练,以得到非线性信号转换模型。
一些实施例中,构造训练样本的方法包括:
生成至少一个音频测试信号;各音频测试信号具有预定的振幅,并在预定的频率范围之内;
根据各音频测试信号的振幅、频率特征,构造包括音量、频率、振幅特征的三维样本数据作为训练样本,音量在预定的音量范围之内。
本实施例中,对于非线性信号转换模型的训练样本,构造方法可以是,利用特定的音频软件预先生成至少一个音频测试信号,各音频测试信号具有预定的振幅,并在预定的频率范围之内,音频测试信号可以在预定的音量范围之内播放;之后,根据每个音频测试信号的频率、振幅特征,构造包括音量、频率、振幅特征的三维样本数据作为训练样本。这样,通过生成不同频率、振幅并可在不同音量下播放的音频测试信号,可作为可能获取的线性的回声参考信号,提取出各音频测试信号的音量、频率、振幅特征用于训练机器学习模型。
一些实施例中,获取与训练样本对应的非线性输出信号包括:
在音量范围之内输出各音频测试信号时,获取每个音频测试信号对应的采样音频信号;
对各采样音频信号进行语音信号处理,得到各采样音频信号的频率、振幅特征;
根据各采样音频信号的频率、振幅特征及对应的音量,构造包括音量、频率、振幅特征的三维样本数据作为非线性输出信号。
本实施例中,基于生成的至少一个音频测试信号,在音量范围之内播放输出各音频测试信号,播放过程中,采集获取每个音频测试信号对应的采样音频信号,之后,对各采样音频信号进行语音信号处理,得到各采样音频信号的频率、振幅特征,根据各采样音频信号的频率、振幅特征及对应的音量,构造包括音量、频率、振幅特征的三维样本数据作为非线性输出信号。这样,在播放输出各音频测试信号的过程中,分别获取各音频测试信号对应的采样音频信号作为非线性的回声参考信号,提取出各采样音频信号的音量、频率、振幅特征,作为训练机器学习模型过程中的实际输出。
可选的,机器学习模型为深度神经网络模型。一些实施例中,以非线性输出信号为实际输出,利用训练样本对机器学习模型进行训练,得到非线性信号转换模型,包括:
根据训练样本,确定深度神经网络模型的模型参数;
以训练样本为输入数据,以非线性输出信号为实际输出,利用梯度下降法对深度神经网络模型进行训练,得到非线性信号转换模型。
本实施例中,训练样本为包括音量、频率、振幅特征的三维样本数据,非线性输出信号为包括音量、频率、振幅特征的三维数据,根据训练样本与非线性输出信号确定出深度神经网络模型的输入层、输出层、隐藏层,设置深度神经网络的各项参数,然后,以训练样本为输入,非线性输出信号为输出,利用梯度下降法对构建的深度神经网络进行训练,训练之后得到非线性信号转换模型。利用该非线性信号转换模型,能够根据获取的线性的回声参考信号,得到对应的非线性回声参考输出信号。
一些实施例中,步骤S103中,对接收的声音信号结合非线性回声参考输出信号,通过回声消除算法进行回声消除处理,得到回声消除后的声音信号,包括:
对非线性回声参考输出信号进行语音信号处理,得到非线性回声参考信号;
根据所述接收的声音信号和所述非线性回声参考信号,通过回声消除算法进行回声消除处理,得到回声消除后的声音信号。
本实施例中,接收到声音信号和回声参考信号之后,对于接收的回声参考信号,利用步骤S101、S102处理之后,得到对应的非线性回声参考输出信号,由于非线性回声参考输出信号为包含频率、振幅特征的频域信号,所以再对频域的非线性回声参考输出信号进行语音信号处理,得到时域的非线性回声参考信号;之后,根据接收的声音信号和非线性回声参考信号,利用回声消除算法进行回声消除处理,以从声音信号中去除非线性回声参考信号成分,从而实现非线性回声信号的消除,提升语音质量。
以下结合具体实施例对本说明书的回声消除方法进行详细说明。
如图2所示,先利用特定的音频软件生成若干音量相同、时长相同的音频测试信号,各音频测试信号的频率在人耳可听见的频率区间之内,相邻两音频测试信号具有预定的频率间隔。可选的,生成音量为60分贝,时长为3秒,频率间隔为1赫兹,频率区间在20赫兹到20千赫兹之内的共19980个音频测试信号。
然后,在可播放的音量范围之内,在每个音量下顺序播放输出每个音频测试信号。播放输出每个音频测试信号时,保证周围环境安静,采集获取每个音频测试信号对应的采样音频信号。可选的,对于车载设备,在0-100的音量范围之内,以1为音量调节步进值调节音量,在每个音量下,顺序播放输出每个音频测试信号,播放输出每个音频测试信号时,采集相应的采样音频信号,共获得1998000个采样音频信号。
之后,对各音频测试信号和各采样音频信号进行处理,包括:对于音频测试信号,根据音频测试信号的频率、振幅和播放输出时的音量,构造包括音量、频率、振幅特征的三维样本数据作为训练样本;对于采样音频信号,根据采样音频信号的频率、振幅和播放输出音频测试信号时的音量,构造包括音量、频率、振幅特征的三维样本数据作为非线性输出信号;
可选的,对于采样音频信号,若音量为V,计算振幅的平均值,得到平均振幅
Figure BDA0002409973270000101
计算频率对振幅的加权平均值
Figure BDA0002409973270000102
其中,频率对振幅的加权平均值计算公式为:
Figure BDA0002409973270000103
其中,n为采样音频信号的采样点总数,fi为第i个采样点的频率,Ai为第i个采样点的振幅。
之后,分别对音量V,平均振幅
Figure BDA0002409973270000104
频率对振幅的加权平均值
Figure BDA0002409973270000105
进行归一化处理,得到三维样本数据
Figure BDA0002409973270000106
将该三维样本数据作为非线性输出信号。可选的,以平均振幅为例,归一化处理的方法可以是,将平均振幅除以振幅最大值,得到的值乘以0.99再加0.01,即得到取值在0.01-1之间的归一化振幅值;对于音量,将音量值除以最大音量值(根据终端设备的最大音量确定),得到的值乘以0.99再加0.01,即得到取值在0.01-1之间的归一化音量值。对于音频测试信号,处理方法与采样音频信号相同,不再重复列举说明。
如图3所示,在构造的训练样本和非线性输出信号的基础上,建立深度神经网络模型,设置深度神经网络的输入层、隐藏层、输出层及各项参数。可选的,训练样本为包括音量、频率、振幅特征的三维样本数据,则设置输入层的神经元个数为三个,非线性输出信号为包括音量、频率、振幅特征的三维样本数据,则设置输出层的神经元个数为三个,隐藏层设置三层,五个神经元(也可根据经验灵活设置);设置深度神经网络模型的初始权重为
Figure BDA0002409973270000111
之间的随机数,学习速率设为0.1,激活函数为sigmoid()。
建立深度神经网络模型之后,以训练样本为输入,以非线性输出信号为实际输出,使用梯度下降法对深度神经网络进行训练,得到能够将音频测试信号(对应线性的回声参考信号)转换为对应的非线性的采样音频信号(对应非线性回声参考输出信号)的非线性信号转换模型。
训练得到非线性信号转换模型之后,即可利用非线性信号转换模型实现非线性回声信号的回声消除功能。
如图4所示,在一种应用场景中,于车载设备的语音识别系统中,系统接收到声音信号和回声参考信号,对于回声参考信号,先进行傅里叶变换得到频域的回声参考信号,用于构建回声参考输入样本,然后,将回声参考输入样本输入非线性信号转换模型中,输出得到与回声参考输入样本对应的非线性回声参考输出信号;之后,对非线性回声参考输出信号进行逆傅里叶变换,得到时域的非线性回声参考信号,在此基础上,根据接收到的声音信号和非线性回声参考信号,利用回声消除算法进行回声消除处理,以从声音信号中去除非线性回声参考信号成分,得到清晰的声音信号,之后,基于回声消除后的声音信号,进行语音识别,能够提高语音识别性能。其中,回声消除算法例如是基于DSP实现的自适应回声消除算法等,本说明书不做具体限定,也不对回声消除算法进行原理性说明。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
如图5所示,本说明另一个方面,提供一种回声消除装置,包括:
构造模块,用于根据回声参考信号,构造回声参考输入样本;
转换模块,用于将所述回声参考输入样本输入预先训练的非线性信号转换模型中,得到与所述回声参考输入样本对应的非线性回声参考输出信号;
回声消除模块,用于对接收的声音信号结合所述非线性回声参考输出信号,通过回声消除算法进行回声消除处理,得到回声消除后的声音信号
一些实施例中,所述构造模块,用于对所述回声参考信号进行语音信号处理,得到所述回声参考信号的频率、振幅特征;根据所述回声参考信号的频率、振幅特征及音量,构造包括音量、频率、振幅特征的三维样本数据作为回声参考输入样本。
一些实施例中,回声消除装置还包括:
模型训练模块,用于构造训练样本;获取与所述训练样本对应的非线性输出信号;以所述非线性输出信号为实际输出,利用所述训练样本对机器学习模型进行训练,得到所述非线性信号转换模型。
一些实施例中,所述模型训练模块包括:
训练样本构造子模块,用于生成至少一个音频测试信号;各音频测试信号具有预定的振幅,并在预定的频率范围之内;根据各音频测试信号的振幅、频率特征,构造包括音量、频率、振幅特征的三维样本数据作为训练样本,所述音量在预定的音量范围之内。
一些实施例中,所述模型训练模块还包括:
获取输出数据子模块,用于在所述音量范围之内输出各音频测试信号时,获取每个音频测试信号对应的采样音频信号;对各采样音频信号进行语音信号处理,得到各采样音频信号的频率、振幅、特征;根据各采样音频信号的频率、振幅特征及对应的音量,构造包括音量、频率、振幅特征的三维样本数据作为非线性输出信号。
一些实施例中,所述机器学习模型为深度神经网络模型;所述模型训练模块还包括:
训练子模块,用于根据所述训练样本,确定所述深度神经网络模型的模型参数;以所述训练样本为输入数据,以所述非线性输出信号为实际输出,利用梯度下降法对所述深度神经网络模型进行训练,得到所述非线性信号转换模型。
一些实施例中,所述回声消除模块,用于对所述非线性回声参考输出信号进行语音信号处理,得到非线性回声参考信号;根据所述接收的声音信号和所述非线性回声参考信号,通过回声消除算法进行回声消除处理,得到回声消除后的声音信号。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (15)

1.一种回声消除方法,其特征在于,包括:
根据回声参考信号,构造回声参考输入样本;
将所述回声参考输入样本输入预先训练的非线性信号转换模型中,得到与所述回声参考输入样本对应的非线性回声参考输出信号;
对接收的声音信号结合所述非线性回声参考输出信号,通过回声消除算法进行回声消除处理,得到回声消除后的声音信号。
2.根据权利要求1所述的方法,其特征在于,根据所述回声参考信号,构造回声参考输入样本,包括:
对所述回声参考信号进行语音信号处理,得到所述回声参考信号的频率、振幅特征;
根据所述回声参考信号的频率、振幅特征及音量,构造包括音量、频率、振幅特征的三维样本数据作为回声参考输入样本。
3.根据权利要求1所述的方法,其特征在于,根据回声参考信号,构造回声参考输入样本之前,还包括:
构造训练样本;
获取与所述训练样本对应的非线性输出信号;
以所述非线性输出信号为实际输出,利用所述训练样本对机器学习模型进行训练,得到所述非线性信号转换模型。
4.根据权利要求3所述的方法,其特征在于,所述构造训练样本,包括:
生成至少一个音频测试信号;各音频测试信号具有预定的振幅,并在预定的频率范围之内;
根据各音频测试信号的振幅、频率特征,构造包括音量、频率、振幅特征的三维样本数据作为训练样本,所述音量在预定的音量范围之内。
5.根据权利要求4所述的方法,其特征在于,所述获取与训练样本对应的非线性输出信号,包括:
在所述音量范围之内输出各音频测试信号时,获取每个音频测试信号对应的采样音频信号;
对各采样音频信号进行语音信号处理,得到各采样音频信号的频率、振幅特征;
根据各采样音频信号的频率、振幅特征及对应的音量,构造包括音量、频率、振幅特征的三维样本数据作为非线性输出信号。
6.根据权利要求3-5中任一项所述的方法,其特征在于,所述机器学习模型为深度神经网络模型;以所述非线性输出信号为实际输出,利用所述训练样本对机器学习模型进行训练,得到所述非线性信号转换模型,包括:
根据所述训练样本,确定所述深度神经网络模型的模型参数;
以所述训练样本为输入数据,以所述非线性输出信号为实际输出,利用梯度下降法对所述深度神经网络模型进行训练,得到所述非线性信号转换模型。
7.根据权利要求1所述的方法,其特征在于,对接收的声音信号结合所述非线性回声参考输出信号,通过回声消除算法进行回声消除处理,得到回声消除后的声音信号,包括:
对所述非线性回声参考输出信号进行语音信号处理,得到非线性回声参考信号;
根据所述接收的声音信号和所述非线性回声参考信号,通过回声消除算法进行回声消除处理,得到回声消除后的声音信号。
8.一种回声消除装置,其特征在于,包括:
构造模块,用于根据回声参考信号,构造回声参考输入样本;
转换模块,用于将所述回声参考输入样本输入预先训练的非线性信号转换模型中,得到与所述回声参考输入样本对应的非线性回声参考输出信号;
回声消除模块,用于对接收的声音信号结合所述非线性回声参考输出信号,通过回声消除算法进行回声消除处理,得到回声消除后的声音信号。
9.根据权利要求8所述的装置,其特征在于,
所述构造模块,用于对所述回声参考信号进行语音信号处理,得到所述回声参考信号的频率、振幅特征;根据所述回声参考信号的频率、振幅特征及音量,构造包括音量、频率、振幅特征的三维样本数据作为回声参考输入样本。
10.根据权利要求8所述的装置,其特征在于,装置还包括:
模型训练模块,用于构造训练样本;获取与所述训练样本对应的非线性输出信号;以所述非线性输出信号为实际输出,利用所述训练样本对机器学习模型进行训练,得到所述非线性信号转换模型。
11.根据权利要求10所述的装置,其特征在于,所述模型训练模块包括:
训练样本构造子模块,用于生成至少一个音频测试信号;各音频测试信号具有预定的振幅,并在预定的频率范围之内;根据各音频测试信号的振幅、频率特征,构造包括音量、频率、振幅特征的三维样本数据作为训练样本,所述音量在预定的音量范围之内。
12.根据权利要求11所述的装置,其特征在于,所述模型训练模块还包括:
获取输出数据子模块,用于在所述音量范围之内输出各音频测试信号时,获取每个音频测试信号对应的采样音频信号;对各采样音频信号进行语音信号处理,得到各采样音频信号的频率、振幅、特征;根据各采样音频信号的频率、振幅特征及对应的音量,构造包括音量、频率、振幅特征的三维样本数据作为非线性输出信号。
13.根据权利要求10-12所述的装置,其特征在于,所述机器学习模型为深度神经网络模型;所述模型训练模块还包括:
训练子模块,用于根据所述训练样本,确定所述深度神经网络模型的模型参数;以所述训练样本为输入数据,以所述非线性输出信号为实际输出,利用梯度下降法对所述深度神经网络模型进行训练,得到所述非线性信号转换模型。
14.根据权利要求8所述的装置,其特征在于,
所述回声消除模块,用于对所述非线性回声参考输出信号进行语音信号处理,得到非线性回声参考信号;根据所述接收的声音信号和所述非线性回声参考信号,通过回声消除算法进行回声消除处理,得到回声消除后的声音信号。
15.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。
CN202010173360.7A 2020-03-13 2020-03-13 一种回声消除方法、装置及电子设备 Active CN111477238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010173360.7A CN111477238B (zh) 2020-03-13 2020-03-13 一种回声消除方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010173360.7A CN111477238B (zh) 2020-03-13 2020-03-13 一种回声消除方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111477238A true CN111477238A (zh) 2020-07-31
CN111477238B CN111477238B (zh) 2023-09-01

Family

ID=71748236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010173360.7A Active CN111477238B (zh) 2020-03-13 2020-03-13 一种回声消除方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111477238B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489669A (zh) * 2020-11-30 2021-03-12 北京融讯科创技术有限公司 一种音频信号处理方法、装置、设备和介质
CN112687276A (zh) * 2021-03-11 2021-04-20 北京世纪好未来教育科技有限公司 一种音频信号处理方法、装置及存储介质
CN112863534A (zh) * 2020-12-31 2021-05-28 思必驰科技股份有限公司 噪声音频消除方法、语音识别方法
CN113516995A (zh) * 2021-06-23 2021-10-19 北京世纪好未来教育科技有限公司 声音处理方法和装置
CN113707166A (zh) * 2021-04-07 2021-11-26 腾讯科技(深圳)有限公司 语音信号处理方法、装置、计算机设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120237047A1 (en) * 2011-03-18 2012-09-20 Neal Timothy J Nonlinear reference signal processing for echo suppression
US20130003960A1 (en) * 2011-06-30 2013-01-03 Broadcom Corporation Full Duplex Speakerphone Design Using Acoustically Compensated Speaker Distortion
US20160352915A1 (en) * 2015-05-28 2016-12-01 Nxp B.V. Echo controller
US20170208391A1 (en) * 2016-01-14 2017-07-20 Knowles Electronics, Llc Acoustic echo cancellation reference signal
CN109040498A (zh) * 2018-08-12 2018-12-18 瑞声科技(南京)有限公司 一种提升回声抵消效果的方法及其系统
US20180367674A1 (en) * 2015-12-08 2018-12-20 Nuance Communications, Inc. System and method for suppression of non-linear acoustic echoes
US20190259408A1 (en) * 2018-02-21 2019-08-22 Bose Corporation Voice capture processing modified by back end audio processing state
CN110246515A (zh) * 2019-07-19 2019-09-17 腾讯科技(深圳)有限公司 回声的消除方法、装置、存储介质及电子装置
CN113012709A (zh) * 2019-12-20 2021-06-22 北京声智科技有限公司 一种回声消除方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120237047A1 (en) * 2011-03-18 2012-09-20 Neal Timothy J Nonlinear reference signal processing for echo suppression
US20130003960A1 (en) * 2011-06-30 2013-01-03 Broadcom Corporation Full Duplex Speakerphone Design Using Acoustically Compensated Speaker Distortion
US20160352915A1 (en) * 2015-05-28 2016-12-01 Nxp B.V. Echo controller
US20180367674A1 (en) * 2015-12-08 2018-12-20 Nuance Communications, Inc. System and method for suppression of non-linear acoustic echoes
US20170208391A1 (en) * 2016-01-14 2017-07-20 Knowles Electronics, Llc Acoustic echo cancellation reference signal
US20190259408A1 (en) * 2018-02-21 2019-08-22 Bose Corporation Voice capture processing modified by back end audio processing state
CN109040498A (zh) * 2018-08-12 2018-12-18 瑞声科技(南京)有限公司 一种提升回声抵消效果的方法及其系统
CN110246515A (zh) * 2019-07-19 2019-09-17 腾讯科技(深圳)有限公司 回声的消除方法、装置、存储介质及电子装置
CN113012709A (zh) * 2019-12-20 2021-06-22 北京声智科技有限公司 一种回声消除方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KEUNSANG LEE: "Nonlinear Acoustic Echo Cancellation Using a Nonlinear Postprocessor With a Linearly Constrained Affine Projection Algorithm" *
王建明: "声学回波消除方法及实现技术" *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489669A (zh) * 2020-11-30 2021-03-12 北京融讯科创技术有限公司 一种音频信号处理方法、装置、设备和介质
CN112489669B (zh) * 2020-11-30 2024-02-23 北京融讯科创技术有限公司 一种音频信号处理方法、装置、设备和介质
CN112863534A (zh) * 2020-12-31 2021-05-28 思必驰科技股份有限公司 噪声音频消除方法、语音识别方法
CN112863534B (zh) * 2020-12-31 2022-05-10 思必驰科技股份有限公司 噪声音频消除方法、语音识别方法
CN112687276A (zh) * 2021-03-11 2021-04-20 北京世纪好未来教育科技有限公司 一种音频信号处理方法、装置及存储介质
CN112687276B (zh) * 2021-03-11 2021-06-15 北京世纪好未来教育科技有限公司 一种音频信号处理方法、装置及存储介质
CN113707166A (zh) * 2021-04-07 2021-11-26 腾讯科技(深圳)有限公司 语音信号处理方法、装置、计算机设备和存储介质
CN113707166B (zh) * 2021-04-07 2024-06-07 腾讯科技(深圳)有限公司 语音信号处理方法、装置、计算机设备和存储介质
CN113516995A (zh) * 2021-06-23 2021-10-19 北京世纪好未来教育科技有限公司 声音处理方法和装置
CN113516995B (zh) * 2021-06-23 2021-12-10 北京世纪好未来教育科技有限公司 声音处理方法和装置

Also Published As

Publication number Publication date
CN111477238B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
CN111477238B (zh) 一种回声消除方法、装置及电子设备
CN111161752B (zh) 回声消除方法和装置
US11276414B2 (en) Method and device for processing audio signal using audio filter having non-linear characteristics to prevent receipt of echo signal
US20060206320A1 (en) Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers
CN112634923B (zh) 基于指挥调度系统的音频回声消除方法、设备、存储介质
US20140260906A1 (en) Musical Instrument Pickup Signal Processor
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
CN109979469B (zh) 信号处理方法、设备及存储介质
CN103546839B (zh) 音频信号处理系统及其回音信号去除方法
US10755728B1 (en) Multichannel noise cancellation using frequency domain spectrum masking
CN111863015A (zh) 一种音频处理方法、装置、电子设备和可读存储介质
CN110931035B (zh) 音频处理方法、装置、设备及存储介质
CN111883154B (zh) 回声消除方法及装置、计算机可读的存储介质、电子装置
CN113823304A (zh) 语音信号的处理方法、装置、电子设备及可读存储介质
CN107452398B (zh) 回声获取方法、电子设备及计算机可读存储介质
CN114758668A (zh) 语音增强模型的训练方法和语音增强方法
CN114302286A (zh) 一种通话语音降噪方法、装置、设备及存储介质
CN110808058B (zh) 语音增强方法、装置、设备及可读存储介质
CN113782043A (zh) 语音采集方法、装置、电子设备及计算机可读存储介质
CN116612778B (zh) 回声及噪声抑制方法、相关装置和介质
CN105261363A (zh) 一种语音识别的方法、装置及终端
CN115605952A (zh) 用于多麦克风信号处理的数据增强的系统和方法
CN110660399A (zh) 声纹识别的训练方法、装置、终端及计算机存储介质
CN115620737A (zh) 语音信号处理装置、方法、电子设备和扩音系统
CN111370017B (zh) 一种语音增强方法、装置、系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant