CN111755019A - 用深度多任务递归神经网络来声学回声消除的系统和方法 - Google Patents

用深度多任务递归神经网络来声学回声消除的系统和方法 Download PDF

Info

Publication number
CN111755019A
CN111755019A CN202010235125.8A CN202010235125A CN111755019A CN 111755019 A CN111755019 A CN 111755019A CN 202010235125 A CN202010235125 A CN 202010235125A CN 111755019 A CN111755019 A CN 111755019A
Authority
CN
China
Prior art keywords
far
features
signal
microphone
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010235125.8A
Other languages
English (en)
Inventor
A.法泽利
李正元
M.艾哈米
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/573,573 external-priority patent/US10803881B1/en
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN111755019A publication Critical patent/CN111755019A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Acoustics & Sound (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

一种用于执行回声消除的系统,包括:处理器,该处理器被配置为:接收远端信号;记录麦克风信号,该麦克风信号包括:近端信号、和对应于远端信号的回声信号;从远端信号中提取远端特征;从麦克风信号中提取麦克风特征;通过将麦克风特征和远端特征供应给声学回声消除模块来计算估计的近端特征,该声学回声消除模块包括递归神经网络,该递归神经网络包括:编码器,该编码器包括多个门控递归单元、和解码器,该解码器包括多个门控递归单元;从估计的近端特征计算估计的近端信号;并将估计的近端信号传输到远端设备。递归神经网络可以包括上下文注意力模块;并且递归神经网络可以取基于远端特征、麦克风特征和声学路径参数计算的多个误差特征作为输入。

Description

用深度多任务递归神经网络来声学回声消除的系统和方法
相关申请的交叉引用
本申请要求2019年9月17日向美国专利商标局提交的第16/573,573号 美国专利申请、2019年3月28日向美国专利商标局提交的第62/825,681号 美国临时专利申请和2019年4月24日向美国专利商标局提交的第62/838,146 号美国临时专利申请的优先权和权益,并且本申请要求2019年10月14日向 美国专利商标局提交的美国临时专利申请62/914,875的优先权和权益,其全 部公开内容通过引用结合于此。
技术领域
本公开的实施例的各方面涉及音频信号处理领域,具体地包括使用深度 多任务递归神经网络来提供声学回声消除的系统和方法。
背景技术
在实时或近实时音频或视频会议交互期间,远端参与者可能注意到从近 端参与者接收到的信号中的声学回声。当从近端扬声器播放出的远端信号耦 合回近端处的麦克风时,可能会生成声学回声。当来自近端麦克风的信号被 传输到远端时,远端用户将听到近端信号(例如,来自近端参与者的语音) 和作为声学回声的他们自己的远端声音的延迟和修改版本的混合。声学回声 消除器(acoustic echo canceller,AEC)或声学回声抑制器(acoustic echo suppressor,AES)试图减少或去除该回声,同时避免使近端用户的语音失真 (例如,不使近端信号失真)。
发明内容
本公开的实施例的各方面涉及使用深度多任务递归神经网络来消除音频 通信系统中的声学回声。
根据本公开的一个实施例,一种用于执行回声消除的系统包括:处理器; 以及存储器,该存储器存储指令,这些指令在被处理器执行时使得处理器: 在近端设备处从远端设备接收远端信号;在近端设备处记录麦克风信号,该 麦克风信号包括:近端信号、以及对应于远端信号的回声信号;从远端信号 中提取多个远端特征;从麦克风信号中提取多个麦克风特征;通过将麦克风 特征和远端特征提供给声学回声消除模块,从麦克风信号计算多个估计的近 端特征,该声学回声消除模块包括上下文注意力(contextual attention)神经 网络,该上下文注意力神经网络包括:编码器,该编码器包括多个门控递归 单元,该编码器被配置为将麦克风特征和远端特征编码为编码特征;上下文 注意力模块,该上下文注意力模块被配置为从编码特征计算上下文注意力特 征;以及解码器,该解码器包括多个门控递归单元,该解码器被配置为从上 下文注意力特征解码估计的近端特征;从估计的近端特征计算估计的近端信 号;并将估计的近端信号传输到远端设备。
编码器可以包括门控递归单元的一个或更多个层,并且编码特征可以对 应于编码器的门控递归单元的一个或更多个层中的最后一层的输出,编码特 征可以被供应给上下文注意力模块的多头自注意力层(multihead self-attention layer);并且解码器可以包括门控递归单元的一个或更多个层,并且估计的近 端特征对应于解码器的门控递归单元的一个或更多个层中的最后一层的输出。
上下文注意力模块可以进一步包括被配置为接收多头自注意力层的输出 的多头注意力层。
上下文注意力模块可以进一步包括在多头自注意力层和多头注意力层之 间的第一层归一化层(normalization layer)。
上下文注意力模块可以进一步包括第二层归一化层,该第二层归一化层 被配置为根据来自上下文注意力模块的其他层的输出来计算上下文注意力特 征。
该存储器可以进一步存储指令,当这些指令被处理器执行时使得处理器: 根据先前的声学路径参数、先前的远端特征以及先前的麦克风特征来计算多 个声学路径参数;以及基于远端特征、麦克风特征和声学路径参数计算多个 误差特征,并且声学回声消除模块可以进一步被配置为基于误差特征从麦克 风信号计算多个估计的近端特征。
被供应给上下文注意力神经网络的远端特征可以包括远端特征的当前帧(frame)和远端特征的多个先前帧的因果窗口(causal window),并且被供 应给上下文注意力神经网络的麦克风特征可以包括麦克风特征的当前帧和麦 克风特征的多个先前帧的因果窗口。
估计的近端特征可以包括估计的近端特征的当前帧和估计的近端特征的 多个先前帧的因果窗口,并且可以通过迭代地训练多个参数来训练上下文注 意力神经网络,该多个参数将上下文注意力神经网络配置为将估计的近端特 征和多个训练数据的多个真值(ground truth)近端特征之间的差异最小化。
训练数据可以通过以下方式生成:加载训练数据的语料库,该语料库包 括来自多个不同人类说话者的记录的话语;选择多对人类说话者;对于每对 人类说话者:级联该对人类说话者中的第一说话者的多个话语以生成训练远 端信号;变换级联的话语以模拟声学路径,从而生成训练回声信号;填充该 对人类说话者中的第二说话者的话语,以生成长度等于训练远端信号的训练 近端信号;以及将训练回声信号与训练近端信号混合以生成训练麦克风信号。
变换级联的话语可以包括将远端信号与模拟房间的房间脉冲响应进行卷 积。
变换级联的话语可以进一步包括:对远端信号应用硬削波以生成削波的 远端信号;并对削波的远端信号施加sigmoidal失真(S形失真)。
远端特征、麦克风特征和估计的近端特征可以包括对数谱空间中的对数 短时傅立叶变换特征。
根据本公开的一个实施例,一种用于执行回声消除的系统包括:处理器; 以及存储器,该存储器存储指令,这些指令在被处理器执行时使得处理器: 从远端设备接收远端信号;记录麦克风信号,该麦克风信号包括:近端信号、 以及对应于远端信号的回声信号;从远端信号中提取多个远端特征;从麦克 风信号中提取多个麦克风特征;根据先前声学路径参数、先前远端特征和先 前麦克风特征计算多个声学路径参数;基于远端特征、麦克风特征和声学路 径参数计算多个误差特征;通过将麦克风特征、远端特征和误差特征供应给声学回声消除模块,从麦克风信号计算多个估计的近端特征,该声学回声消 除模块包括递归神经网络,该递归神经网络包括:编码器,该编码器包括多 个门控递归单元,该编码器被配置为将麦克风特征和远端特征编码为编码特 征;以及解码器,该解码器包括多个门控递归单元,该解码器被配置为基于 编码特征对估计的近端特征进行解码;从估计的近端特征计算估计的近端信 号;并将估计的近端信号传输到远端设备。
声学回声消除模块可以进一步包括被配置为从编码特征计算上下文注意 力特征的上下文注意力模块,并且解码器可以被配置为基于上下文注意力特 征计算估计的近端特征。
被供应给声学回声消除模块的远端特征可以包括远端特征的当前帧和多 个远端特征的先前帧的因果窗口,被供应给声学回声消除模块的麦克风特征 可以包括麦克风特征的当前帧和多个麦克风特征的先前帧的因果窗口,并且 被供应给声学回声消除模块的误差特征可以包括误差特征的当前帧和多个误 差特征的先前帧的因果窗口。
估计的近端特征可以包括估计的近端特征的当前帧和估计的近端特征的 多个先前帧的因果窗口,并且可以通过迭代地训练多个参数来训练递归神经 网络,该多个参数将递归神经网络配置为将估计的近端特征和多个训练数据 的多个真值近端特征之间的差异最小化。
训练数据可以通过以下方式生成:加载训练数据的语料库,该语料库包 括来自多个不同人类说话者的记录的话语;选择多对人类说话者;对于每对 人类说话者:级联该对人类说话者中的第一说话者的多个话语以生成训练远 端信号;变换级联的话语以模拟声学路径,从而生成训练回声信号;填充该 对人类说话者中的第二说话者的话语,以生成长度等于训练远端信号的训练 近端信号;以及将训练回声信号与训练近端信号混合以生成训练麦克风信号。
变换级联的话语可以包括将远端信号与模拟房间的房间脉冲响应进行卷 积。
变换级联的话语可以包括:对远端信号应用硬削波以生成削波的远端信 号;并对削波的远端信号施加sigmoidal失真。
远端特征、麦克风特征和估计的近端特征可以包括对数谱空间中的对数 短时傅立叶变换特征。
附图说明
附图与说明书一起示出了本公开的示例性实施例,并且与描述一起用于 解释本公开的原理。
图1A是示出了如下通信系统的示意图,该通信系统包括被配置为减少 或去除声学回声的声学回声消除(AEC)模块。
图1B是示出如下通信系统的示意图,该通信系统包括被配置为减少或去 除声学回声的声学回声消除(AEC)模块和残余回声抑制(residual echo suppression,RES)模块。
图2是示出根据本公开的一个实施例的声学回声消除系统的框图。
图3是示出根据本公开的一个实施例的展开的深度门控递归单元(gatedrecurrent unit,GRU)网络的输入层的框图。
图4是示出根据本公开的一个实施例的声学回声消除(AEC)神经网络 的架构的框图。
图5A是描绘根据本公开的一个实施例的用于训练声学回声消除模块的 递归神经网络的方法的流程图。
图5B是根据本公开的一个实施例的用于生成训练数据的方法的流程图。
图5C是根据本公开的一个实施例的用于生成模拟回声信号y(t)的方法 的流程图。
图6A是示出根据本公开的一个实施例的以推理模式(inferencemode)操 作的声学回声消除(AEC)神经网络的架构的框图。
图6B是描绘根据本公开的一个实施例的用于在推理模式下使用神经网 络从接收的远端信号和麦克风信号计算估计的近端信号的方法的流程图。
图7是示出根据本公开的一个实施例的包括深度多任务声学回声消除系 统的混合系统的框图。
图8A是根据本公开的一个实施例的声学回声消除系统的示意性框图, 其中深度神经网络(表示为“EchoDNN”)用于消除来自麦克风信号的回声。
图8B是根据本公开的一个实施例的被配置为消除来自麦克风信号的回 声的深度神经网络的架构框图。
图9是示出根据本公开的一个实施例的使用生成性网络 (generativenetwork)的声学回声消除系统的框图。
图10是示出根据本公开的一个实施例的包括上下文注意力神经网络的 声学回声消除系统的框图。
图11A是描述根据本公开的一个实施例的上下文注意力感知神经网络的 框图。
图11B是根据本公开的一个实施例的描绘上下文注意力神经网络的层的 更详细的框图。
图11C是描绘根据本公开的一个实施例的上下文注意力模块的框图。
图12是描绘根据本公开的一个实施例的用于在推理模式下使用上下文 注意力神经网络从接收的远端信号和麦克风信号计算估计的近端信号的方法 的流程图。
图13是示出根据本公开的一个实施例的声学回声消除系统的框图,该声 学回声消除系统包括结合上下文注意力神经网络的频域归一化均方 (Frequency DomainNormalized Mean Square,FDNLMS)技术的混合。
图14A是描绘根据本公开的一个实施例的上下文注意力神经网络的框图, 其中,上下文注意力神经网络被配置为接受远端特征、误差特征和麦克风特 征作为输入。
图14B是根据本公开的一个实施例的描绘了被配置为接受远端特征、误 差特征和麦克风特征作为输入的上下文注意力神经网络的层的更详细的框图。
图15是描绘了根据本公开的一个实施例的用于在推理模式中使用经典 声学回声消除技术和上下文注意力神经网络的混合从接收的远端信号和麦克 风信号计算估计的近端信号的方法的流程图。
图16是根据本公开的一个实施例的近端设备的框图。
具体实施方式
在下面的详细描述中,仅通过说明,示出和描述了本公开的某些示例性 实施例。如本领域技术人员将认识到的那样,本公开可以以许多不同的形式 实现,并且不应该被解释为限于这里阐述的实施例。在附图和下面的讨论中, 相同的附图标记表示相同的组件。
图1A是示出了如下通信系统的示意图,该通信系统包括被配置为减少 或去除声学回声的声学回声消除(AEC)模块。如图1A所示,远端信号x(t)被 接收并在近端设备10的近端扬声器12上回放。通常,远端信号x(t)包含来 自远端用户或交互中的参与者的语音,其中远端信号x(t)由远端通信设备捕 获,该远端通信设备发送要由近端通信设备接收的远端信号x(t)(例如,通 过诸如蜂窝通信网络的通信网络)。由此,为了方便起见,远端信号x(t)在这 里有时可以被称为“远端语音”。由近端扬声器12产生的声音可以被近端麦 克风14检测为声学回声y(t),并且声音可以在多个不同的回声路径16上行 进到近端麦克风14,诸如在声音从近端设备10位于的物理环境中的墙壁和 其他表面18反弹之后行进到近端麦克风14。近端麦克风14还可以检测期望 的近端信号s(t),诸如来自近端用户或交互中的参与者的语音。因此,由近 端麦克风14产生的信号d(t)可能包含期望的近端信号s(t)和不期望的声学回 声y(t)两者。麦克风信号d(t)被提供给声学回声消除(AEC)模块100,该模 块试图消除回声信号y(t)并产生近似于期望的近端信号s(t)的输出信号 q(t)(例如,对应于去除了声学回声y(t)的麦克风信号d(t)的输出信号q(t)) 。然后,经处理的输出信号q(t)可以被发送到远端,作为去除了回声信号y(t)的 估计的期望近端信号s(t)。
为了清楚起见,如本文所用,给定v(t)作为在时间t处的任意时域信号: 在帧k和频率区间(frequencybin)f的短时傅立叶变换(short-time Fourier transform,STFT)复值谱v(t)由Vk,f表示;其相位由∠Vk,f表示:它的对数幅 值用
Figure BDA0002430705010000071
表示。
Figure BDA0002430705010000072
表示所有频率区间f和帧k处的对数幅值的矢量。
图1B是示出如下通信系统的示意图,该通信系统包括被配置为减少或去 除声学回声的声学回声消除(AEC)模块和残余回声抑制(residual echo suppression,RES)模块。麦克风信号d(t)包括近端语音信号s(t)和声学回声 y(t):
d(t)=s(t)+y(t)
在一些实施例中,麦克风信号d(t)还包括其他分量,诸如添加性噪声n(t) (例如,d(t)=s(t)+y(t)+n(t))。声学回声信号y(t)是远端语音信号x(t)的 修改版本,包括房间脉冲响应(room impulse response,RIR)和扬声器失真, 这两者可能导致x(t)和y(t)之间关系的非线性。
广义地,声学回声消除(AEC)问题是在由于近端麦克风14检测到远端 信号x(t)而去除声学回声之后,取回净近端信号s(t)。如图1B所示,比较系 统用线性自适应滤波器110估计回声路径的模型,并且然后从麦克风信号d(t) 中减去估计的回声v(t)。此外,为了实现回声估计,一些比较性AEC方法使 用双向通话检测器(DTD)在双向通话期间,当近端和远端信号两者同时存 在(与单向通话时段相比,在单向通话期间,只有近端信号或只有远端信号 存在或不可忽略)时,停止滤波器适配(filter adaptation)。通常,在应用AEC 后,在AEC方法的输出仍存在一定量的残余回声(d(t)-v(t))。比较性AEC 方法不能完全去除所有回声噪声的原因之一是即使当回声路径16是完全线 性的时,回声路径16也不是远端语音信号x(t)的线性函数。例如,音频放大 器(例如,功率放大器)和近端扬声器12会导致远端语音信号x(t)和回声信 号y(t)之间的关系的非线性性。此外,自适应线性滤波器的长度可能不足以 去除更长的回声(例如,在大房间或走廊中的回声)。因此,可以进一步应用 残余回声抑制器(RES)150来改善近端信号,其中,可以通过频域中的维纳 (Wiener)滤波器或谱减法来实现RES。AEC系统的最终输出是估计的近端 信号q(t)。
本公开的实施例的各方面涉及用于声学回声消除(AEC)的递归神经网 络(recurrent neural network,RNN)架构。一些实施例涉及在编码器/解码器 架构中使用深度门控递归单元(GRU)网络(例如,参见K.Cho,B.van
Figure BDA0002430705010000082
C.Gulcehre,D.Bahdanau,F.Bougares,H.Schwen和Y.Bengio 在Proc.Empirical Methods inNaturalLanguage Processing(自然语言处理中的 经验方法会刊),2014,pp.1724 1734中的“Learning Phrase Representations using RNN Encoder-Decoder for StatisticalMachine Translation”以及J.Chung, C.Gulcehre,K.Cho和Y.Bengio在Proc.NIPS DeepLearning Workshop(NIPS 深度学习研讨会会刊)2014年中的“Empirical evaluation ofgated recurrent neural networks on sequence modeling”)来将麦克风信号d(t)和远端信号x(t) 的谱特征映射到超空间(例如,诸如对数频空间的特征空间),并且然后从编码的超空间解码近端信号s(t)的目标谱特征。在一些实施例中,使用多任务 学习来训练RNN声学回声消除模块,以学习估计回声信号y(t)的辅助任务, 以便改进将净近端语音信号s(t)估计为估计的近端信号q(t)的主要任务。如下 文更详细讨论的那样,实验结果显示,本公开的实施例消除了具有非线性失 真的单向通话和双向通话时段两者中的声学回声,而不需要单独的双向通话 检测器。
图2是示出根据本公开的一个实施例的声学回声消除系统的框图。麦克 风信号d(t)=s(t)+y(t)被供应给声学回声消除系统200以消除或去除回声 信号y(t)。为了方便起见,本文将在以16kHz采样的音频信号的背景下描述 本公开的实施例的各方面。然而,本公开的实施例不限于此,并且可以与以 高于16kHz的速率或以低于16kHz的速率采样的音频信号一起应用。
在图2中示出的实施例中,麦克风信号d(t)被供应给麦克风信号特征提 取模块210,该麦克风信号特征提取模块210包括短时傅立叶变换(STFT) 模块212、用于去除STFT模块212的输出的共轭对称半的绝对值模块214、 以及用于计算“特征空间”或“超空间”或“对数谱空间”中的最终对数幅 值谱特征向量或对数谱特征或麦克风信号特征
Figure BDA0002430705010000081
的对数运算模块216。STFT 模块212还可以计算麦克风信号d(t)的相位∠Dk,f
为了方便起见,本文将描述本公开的实施例的各方面,其中使用具有256 点的帧偏移的512点短时傅立叶变换(STFT)来计算谱特征向量(假设16kHz 采样速率,每个帧对应于32毫秒,帧之间有16毫秒的偏移,导致帧之间的 16毫秒的重叠)。在一些实施例中,绝对值模块214通过去除共轭对称半将 512点STFT幅值向量减少到257点。在一些实施例中,使用根据训练数据计 算的标量,特征(例如,麦克风信号特征
Figure BDA0002430705010000091
)被标准化(standardized)为 具有零均值和单位方差,如下文更详细讨论的那样。如本领域技术人员将理 解的那样,谱特征向量可以用超过512个点或少于512个点以及利用更长或 更短的帧偏移(例如,帧之间更多的重叠或更少的重叠)来计算。
以类似于上面关于图1B讨论的比较系统的方式,本公开的实施例的一些 方面涉及使用接收的远端信号x(t)来估计声学回声。更详细地,在一些实施 例中,远端信号x(t)也可以被应用到远端信号特征提取模块220。在一些实施 例中,远端信号特征提取模块220基本上类似于麦克风信号特征提取模块210, 并且包括STFT模块222、绝对值模块224和对数运算模块226。远端信号特 征提取模块220从远端信号x(t)计算远端信号特征
Figure BDA0002430705010000092
(在特征空间或超空间 中)。根据本公开的一些实施例,远端信号特征
Figure BDA0002430705010000093
被供应给回声估计器230, 该回声估计器230被配置为计算估计的回声特征
Figure BDA0002430705010000094
(在特征空间或超空间 中)。
在本公开的一些实施例中,近端估计器250接受麦克风信号特征
Figure BDA0002430705010000095
远端信号特征
Figure BDA0002430705010000096
和估计的回声特征
Figure BDA0002430705010000097
(或回声估计器230的另一输出), 以计算估计的近端语音特征
Figure BDA0002430705010000098
估计的近端语音特征
Figure BDA0002430705010000099
然后可以被供应给 特征反演模块(或信号合成模块)270,该特征反演模块可以包括指数运算模 块272(以反演(invert)被应用于输入信号的对数运算)和逆短时傅立叶变 换(iSTFT)模块274,以将估计的近端语音特征
Figure BDA00024307050100000910
从特征空间或超空间变 换为时域信号q(t),该时域信号是估计的近端语音或近端信号s(t)。
在各种语音处理应用中,使用过去和/或未来的数据帧可以帮助计算当前 帧的估计特征。在一些这样的语音处理应用中,固定上下文窗口被用作深度 神经网络的全连接的第一层的输入。在这些比较性方法中,在这个第一层之 后,当信息流过更深的层时,上下文信息可能丢失。
因此,本公开的实施例的一些方面将上下文特征用于神经网络的输入和 输出两者,以便保持上下文信息在整个神经网络中可用。根据一些实施例, 当前帧的输入特征包括当前帧k的特征向量
Figure BDA0002430705010000101
和六个先前帧或因果帧(causal frame)(k-1,k-2,…,k-6)的特征向量
Figure BDA0002430705010000102
根据本公 开的一些实施例,因果窗口(仅使用来自先前帧的数据,而不是未来帧的数 据)被选择来防止额外的延迟(例如,当使用帧的因果窗口时,在处理当前 帧k之前不需要等待未来帧k+1,k+2,…的到达)。上面讨论的实施例的具有50%重叠的七个帧产生了112毫秒的感受野,这对于处理语音信号来说通常 足够长。为了结合上下文感知,本公开的实施例的一些方面涉及对回声估计 模块和近端估计模块两者使用具有七个时间步长(或帧)的展开的深度门控 递归单元(GRU)网络。然而,本公开的实施例不限于此,并且可以用多于 六个先前数据帧或者少于六个先前数据帧来实施。
图3是示出根据本公开的一个实施例的展开的深度门控递归单元(gatedrecurrent unit,GRU)网络的输入层的框图。如图3所示,输入GRU层232 的七个GRU中的每一个从对应于当前帧
Figure BDA0002430705010000103
和先前六帧
Figure BDA0002430705010000104
的 特征向量中接收相对应的输入特征向量。输入GRU层232的七个GRU中的 每一个计算隐藏特征向量或激活h。例如,对应于第k-6帧的输入GRU层 232的GRU接收相对应的特征向量
Figure BDA0002430705010000105
并计算激活
Figure BDA0002430705010000106
来自输入GRU层 232的每个先前GRU的激活被供应给序列中的下一GRU。例如,来自对应 于第k-6帧的GRU的激活
Figure BDA0002430705010000107
被供应作为第k-5帧的GRU的输入。因此, 第k-5帧的GRU从其相对应的输入特征向量
Figure BDA0002430705010000108
和来自前一帧的激活
Figure BDA0002430705010000109
计算其激活
Figure BDA00024307050100001010
这种递归排列允许在处理当前帧时使用来自先前帧的上下 文信息。
根据本公开的一些实施例,每个GRU根据下式计算其输出激活:
Figure BDA00024307050100001011
其中⊙是元素式乘法,并且更新门zk为:
其中σ是sigmoid函数。候选隐藏状态
Figure BDA00024307050100001013
通过下式计算
Figure BDA00024307050100001014
其中elu是指数线性单位函数,并且重置门rk由下式计算
Figure BDA00024307050100001015
式中U、W、Ur、Wr、Uz和Wz是GRU的内部权重矩阵。在一些实施例 中,给定层中的GRU中的每一个(例如,输入GRU层232中的GRU中的 每一个)使用相同的权重集(即,神经网络的“递归”性质)。在一些实施例 中,内部权重矩阵的值通过训练过程来学习,这将在下面更详细地描述。
图4是示出根据本公开的一个实施例的声学回声消除(AEC)神经网络 的架构的框图。声学回声消除(AEC)神经网络228包括深度神经网络模型, 该深度神经网络模型包括两个堆叠的GRU网络。第一堆叠对应于图2中示出 的回声估计器230,并且将上下文感知帧
Figure BDA0002430705010000111
作为输入GRU层232中的每个 GRU的输入,并且使用具有线性激活的全连接(fullyconnected,FC)输出 层236来估计回声特征
Figure BDA0002430705010000112
在图4中示出的实施例中,第一堆叠包括一个隐 藏的GRU层234。更详细地,第一GRU层或输入GRU层232计算第一激活
Figure BDA0002430705010000113
如上面关于图3所讨论的那样。第一激活被供应给第二GRU 层234以计算第二激活
Figure BDA0002430705010000114
在图4中示出的实施例中,第二GRU 层234也是堆叠的最后一个GRU层。由此,堆叠的最后一个GRU层的激活 (这里是第二激活
Figure BDA0002430705010000115
)被供应给全连接输出层236,以计算估计 的回声特征
Figure BDA0002430705010000116
然而,本公开的实施例不限于此,并且可以在 回声估计器230的神经网络中包括一个以上的隐藏层。例如,可以在输入GRU 层232和最后一个GRU层234之间插入一个或多个附加GRU层,其中每个 第i附加层将基于前一层的激活
Figure BDA0002430705010000117
来计算其自己的激活
Figure BDA0002430705010000118
在图2中示出的实施例中,来自第一堆叠(回声估计器230)的最后一 个GRU层234的输出
Figure BDA0002430705010000119
被供应给级联层251,以与对应于远端 信号
Figure BDA00024307050100001110
的特征和麦克风信号d(t)的特征
Figure BDA00024307050100001111
的上下文感知帧级联,从而创建到 第二堆叠(近端估计器250)的GRU层的级联输入c。在图4中示出的实施 例中,第二堆叠(近端估计器250)包括三个GRU层:第三GRU层253(其 接收级联的输入c)、第四GRU层254和第五GRU层255,它们计算相对应 的第三激活
Figure BDA00024307050100001112
第四激活
Figure BDA00024307050100001113
和第五激活
Figure BDA00024307050100001114
来自隐藏GRU层中的最后一个的激活(在图4中示出的实 施例中为来自第五GRU层255的第五激活
Figure BDA00024307050100001115
)被供应给全连接 输出层259,以估计估计的近端语音的特征的上下文感知帧
Figure BDA00024307050100001116
如图4所示, 网络还可以计算先前六帧
Figure BDA00024307050100001117
的估计近端语音,其可以用于根 据损耗函数计算训练期间的损耗,如下文更详细讨论的那样。
如上所述,在图4中示出的实施例中,来自当前帧k和六个先前帧 k-6,k-5,…,k-1的数据被用于计算估计的近端语音的特征
Figure BDA0002430705010000121
同样如上 所讨论的那样,图4中示出的实施例利用了257点特征向量。因此,总的来 说,远端信号x(t)的特征向量
Figure BDA0002430705010000122
的七个帧具有7×257的维度(dimension)。 在图4中示出的实施例中,GRU单元中的每一个的激活或输出h是长度为1000 的向量,但是本公开的实施例不限于此。因为图4的实施例使用七个数据帧,所以GRU层232和234中的每一个的输出或激活具有7×1000的维度。为了 匹配输入特征向量的形状,输出的估计回声特征
Figure BDA0002430705010000123
中的每一个具有257的长度, 并且因此回声估计器的全连接输出层236的输出具有7×257的维度。
在图4中示出的实施例中,麦克风信号d(t)被供应给与和远端信号x(t)一 起使用的特征提取器基本相同的特征提取器,并且因此,每个帧的麦克风信 号特征
Figure BDA0002430705010000124
对于每个帧来说也是长度为257个值的特征向量,使得麦克风信号 特征
Figure BDA0002430705010000125
的七个帧产生7×257的总维度(dimension)。级联层251的级联单元 中的每一个将第一堆叠的最后一个GRU层234的输出(具有长度1000)(例 如,输出激活h2)、远端信号特征
Figure BDA0002430705010000126
(具有257个值的长度)和相对应的帧的 麦克风信号特征
Figure BDA0002430705010000127
(具有长度257)级联,使得级联单元中的每一个的输出c具 有1000+257+257=1514的长度,并且级联层251的输出具有7×1514的 维度。
在图4中示出的实施例中,以类似于回声估计器230的方式,近端估计 器250的每个GRU层253、254和255产生7×1000的维度的输出激活h(例 如,每个GRU单元图(map)计算长度为1000个值的激活或激活向量),并 且最终的全连接层259产生当前帧和前六帧的估计近端语音的特征向量
Figure BDA0002430705010000128
(具 有长度257),其中全连接层259的输出的维度是7×257。
图5A是描绘根据本公开的一个实施例的用于训练声学回声消除模块的 递归神经网络的方法的流程图。通常,训练神经网络的监督学习过程包括通 过调整参数来计算神经网络的各种参数,诸如网络的神经元的权重和偏置, 以最小化神经网络的输出和训练数据中对于给定输入集的标记的训练数据集 的“真值(ground truth)”数据之间的损耗函数。训练可以由访问训练数据的 计算机系统来执行(该计算机系统包括处理器和存储器,并且可以使用诸如 图形处理单元的向量处理器来加速),其中训练数据可以被分成训练集、测试 集,并且在一些实施例中,还被分成验证集。通常,训练集用于学习网络的 参数,验证集用于确定网络的各种超参数(例如,架构参数,诸如每个单元 中的神经元的数量和神经网络中的层数),并且测试集用于评估经训练的系统 的整体性能。
在此描述的声学回声消除的特定域中,训练数据可以包括:远端信号x(t); 近端信号s(t);和回声信号y(t)。在本公开的一些实施例中,用于训练声学回 声消除模块的递归神经网络的方法500包括:在510,计算机系统以类似于 在H.Zhang和D.Wang在Proc.Annual Conference of the International Speech Communication Association,2018,pp.3239-3243中的“Deep Learning for Acoustic Echo Cancellation inNoisyand Double-Talk Scenarios”中描述的方式 生成训练数据。在一些实施例中,TIMIT数据集用于生成训练数据(例如, 参见F.Lamel、R.H.Kassel和S.Seneff在Speech Input/Output Assessment and Speech Databases,1989中的“Speech database development:Design and analysis of the acoustic-phonetic corpus,”)。
图5B是根据本公开的一个实施例的用于生成训练数据的方法的流程图。 更详细地,在一些实施例中,输入数据集可以包括来自多个不同人类说话者 或声音的记录的语音。用于生成训练数据的方法510包括:在511,可以选 择(例如,随机地)多对人类说话者以用作近端说话者和远端说话者。在513, 从每一对中,远端说话者的三个话语被随机选择并级联起来,以创建真值远 端信号x(t)。在515,对于每一对,通过模拟声学路径的效果,远端信号x(t)被 转换以产生相对应的回声信号y(t)。下面更详细讨论的图5C描述了根据本公开的一个实施例的用于生成模拟的真值回声信号y(t)的方法。
在517,通过在话语前后填零以具有与远端信号相同的大小来生成真值 近端信号s(t),将该对中的近端说话者的每个话语填充或扩展到与其相对应 的远端信号x(t)(例如,对于根据配对的远端人类说话者生成的每个级联的 远端信号)的长度相同的长度。(本公开的实施例不限于此,并且在一些实施 例中,噪声被添加到整个填充信号)。在一些实施例中,为每个近端远端对选 择多于一个的远端信号x(t)和近端信号s(t)对。
在519,计算机系统使真值回声信号y(t)和为每对计算的真值近端信号 s(t)混合(例如,相加),以生成相对应的训练麦克风信号d(t)。对于训练混 合物,在一些实施例中,在519,计算机系统通过混合近端语音信号和回声 信号,以从{6、3、0、3、6}dB中随机选择的信号与回声比(SER)水平生 成训练麦克风信号d(t)。在双向通话期间SER水平计算如下:
Figure BDA0002430705010000141
图5C是根据本公开的一个实施例的方法515的流程图,该方法用于以类 似于S.Malik和G.Enzner在IEEE Transactions on audio,speech,and language processing,vol.20,no.7,pp.2065 2079,2012中的“State-space frequency-domain adaptivefiltering for nonlinear acoustic echo cancellation,”中 描述的方式的方式生成模拟或真值回声信号y(t)。对于声学路径的非线性模 型,在515-1,计算机系统应用硬削波来模拟扬声器的功率放大器(在一个实 施例中,xmax被设置为输入信号的最大音量的80%):
Figure BDA0002430705010000142
在515-3,为了模拟扬声器失真,计算机系统应用sigmoidal函数,诸如:
Figure BDA0002430705010000143
其中,如果b(t)>0,则b(t)=1.5xclip(t)-0.3xclip(t)2和a=4,并且 否则a=0.5。
根据一个实施例,在515-5,从RIR集中随机选择房间脉冲响应(RIR) g(t),其中RIR中的每一个的长度为512,模拟房间大小为4米×4米×3米, 并且模拟的麦克风被固定在[2 2 1.5]米的位置处(在房间的中心处)。模拟的 扬声器被放置在距麦克风1.5米的距离的七个随机位置处。在本公开的一些 实施例中,还利用不同的房间大小和模拟的麦克风和/或模拟的扬声器的不同 放置来生成多个不同的RIR。
在一些实施例中,RIR是使用图像方法以200ms的混响时间(T60)生成 的(例如,参见J.B.Allen、D.A.Berkley在The Journal of Acoustic Society of America,vol.65,no.4,pp.943-950,1979中的“Image method for efficiently simulating small-roomacoustics”)。在一些实施例中,从生成的RIR中,RIR 中的一些用于生成训练数据(例如,可以随机选择),而其他RIR被保留用于 生成测试数据。
在515-7,将sigmoidal函数的输出与随机选择的房间脉冲响应(RIR)g(t) 进行卷积,以便模拟通过房间中的扬声器播放的失真(非线性)远端信号xnl(t) 的声学传输:
ynl(t)=xnl(t)*g(t)
其中*指示卷积运算。
在一些实施例中,仅通过将原始远端信号x(t)与RIRg(t)进行卷积来模拟 线性声学路径ylin(t),以生成回声信号,其中诸如削波和扬声器失真的非线 性性不适用于这个模型:
ylin(t)=x(t)*g(t)
回到图5A,在520,计算机系统使用如上所述的特征提取器,从训练数 据的各个部分(真值近端信号s(t)、真值远端信号x(t)、真值回声信号y(t)和 麦克风信号d(t))计算特征向量(真值近端特征
Figure BDA0002430705010000151
真值远端特征
Figure BDA0002430705010000152
真值回 声特征
Figure BDA0002430705010000153
和麦克风特征
Figure BDA0002430705010000154
)。
在530,计算机系统根据训练数据训练AEC 228的神经网络。更详细地 说,如上所讨论的那样,GRU中的每一个基于内部权重矩阵U、W、Ur、Wr、Uz和Wz从其输入计算其相对应的激活h。此外,全连接单元中的每一个包括多 个内部权重W和偏置b(例如,应用形式为Wx+b的仿射函数),用于将全连 接单元的输入映射到特征空间(例如,STFT空间)中的输出。
训练神经网络包括学习GRU和全连接单元的内部权重,使得输出特征向 量(估计的近端特征
Figure BDA0002430705010000155
和估计的回声特征
Figure BDA0002430705010000156
)接近真值特征向量(真值近端特征
Figure BDA0002430705010000157
和真值回声特征
Figure BDA0002430705010000158
)。输出特征向量
Figure BDA0002430705010000159
Figure BDA00024307050100001510
之间和真值特征向量
Figure BDA00024307050100001511
Figure BDA00024307050100001512
之间的 差异可以使用损耗函数来测量,该损耗函数表示用当前内部权重集配置的神 经网络接近基础数据的程度。
在一个实施例中,平均绝对误差(mean absolute error,MAE)损耗函数 用于训练神经网络。在特征域(例如,STFT域,如上所讨论的那样)中,计 算真值源(近端信号s(t))和网络估计输出(估计的近端信号q(t))之间的平 均绝对误差。一些实施例使用考虑了近端信号s(t)和回声路径信号y(t)的加权 损耗函数来计算网络权重。因此,在一个实施例中,给定帧k的损失是基于 当前帧和之前的六个帧根据下式计算的:
Figure BDA00024307050100001513
其中,β是与近端信号相关联的损失和与回声信号相关联的损耗之间的加 权因子,
Figure BDA00024307050100001514
对应于第i帧的真值近端特征,
Figure BDA00024307050100001515
对应于第i帧的估计的近端特征,
Figure BDA0002430705010000161
对应于第i帧的真值回声特征,并且
Figure BDA0002430705010000162
对应于第i帧的估计的回声特征。在m先 前数据帧被用于上下文的实施例中(例如,长度m帧的因果窗口),总和从 n=0到m。为了方便起见,在本文详细描述的实施例中,m=6。
在本公开的一些实施例中,使用梯度下降和反向传播来计算权重。特别 地,基于神经网络的当前输出和真值之间的差异来迭代地调整权重。在本公 开的一些实施例中,使用AMSGrad优化(例如,参见J.Reddi,S.Kale和S. Kumar在International Conference onLearning Representations(ICLR),2018中 的“On the convergence of Adam andbeyond”)以及特别是Adam变量(参见, 例如,D.P.Kingma和J.L.Ba在InternationalConference on Learning Representations(ICLR),2015中的“Adam:a method forstochastic optimization”) 通过针对100个时期(epoch)设置β1=0.9、β2=0.999和∈=10-3,同时批 次(batch)大小为100来训练模型。在一些实施例中,利用Xavier方法(例 如,参见X.Glorot和Y.Bengio在Proc.International Conference on ArtificialIntelligence and Statistics,2010,pp.249-256中的“Understanding the difficultyof training deep feedforward neural networks”)以及利用被初始化为零的偏置来初始化所有层的权重。在一些实施例中,使用正则化常数为0.000001的所有权 重的L2正则化来防止过拟合(overfit)。
在训练神经网络的权重之后,可以使用训练数据的测试集来测试经训练 的网络,以验证网络的准确性。如上所述,测试集可以使用未在训练集中使 用的来自说话者的话语和/或使用训练集中不存在的RIR和/或其他失真来形 成。因此,测试集可以用于评估训练过程是否已经训练了神经网络来执行声 学回声消除的泛化(generalized)功能,而不是过度拟合训练数据的特定特征 (例如,去除特定人类说话者的声学回声特征或训练数据的RIR)。
在训练神经网络并确定经训练的网络的性能足够(例如,基于测试集) 之后,可以保存权重并将其用于配置在终端用户设备(诸如智能手机或平板 电脑)上运行的神经网络。在本公开的各种实施例中,声学回声消除模块的 神经网络在近端设备10的至少一个处理器1620上实施(例如,参见图11), 其中处理器可以是:通用中央处理单元;图形处理单元(graphical processing unit,GPU);现场可编程门阵列(field programmable gatearray,FPGA);神 经处理单元(neural processing unit,NPU)或神经网络处理器(neuralnetwork processor,NNP)(例如,具有被定制为使用神经网络执行推理(inference) 的架构的处理器);或者神经形态处理器。例如,神经网络的参数(例如,权 重和偏置)和神经网络架构可以被存储在连接到处理器的非暂时性存储器中, 其中处理器通过从存储器加载参数和网络架构来使用网络执行推理。作为另 一示例,在FPGA的情况下,FPGA可以使用位文件以非暂时性的方式利用 网络架构和权重来配置。因为训练过程可以被认为是完整的或稳定的,所以 在本公开的一些实施例中,终端用户设备可以仅在推理模式下操作神经网络 来计算当前估计的近端特征
Figure BDA0002430705010000171
或估计的近端信号q(t)。
图6A是示出根据本公开的一个实施例的以推理模式操作的声学回声消 除(AEC)神经网络的架构的框图。如图6A所示,在推理期间,不必计算 先前帧
Figure BDA0002430705010000172
的估计的近端特征,例如,因为当在现场使用AEC 神经网络时,近端设备10只需要计算当前估计的帧并将其发送到远端(例如, 先前估计的近端帧已经被发送到远端)。(在训练期间,先前帧
Figure BDA0002430705010000173
有助于为损耗函数提供附加信息)。同样地,如图6A所示, 回声估计器230的第一堆叠的全连接输出层236可以从推理模式神经网络中 省略,因为在推理模式下的近端估计器250’的第二堆叠仅取决于回声估计 器230’的第一堆叠的最后一个GRU层234的输出
Figure BDA0002430705010000174
图6B是描绘根据本公开的一个实施例的用于在推理模式下使用神经网 络从接收的远端信号和麦克风信号计算估计的近端信号的方法600的流程图。 如图6B所示,在602,声学回声消除系统200接收远端信号x(t),并且在604, 远端信号特征提取模块220从远端信号x(t)中提取远端特征
Figure BDA0002430705010000175
此外,在606, 对应于回声估计器230’的神经网络的第一堆叠从远端特征
Figure BDA0002430705010000176
计算回声估计器 输出。(在一些实施例中,回声估计器输出对应于回声估计器230’的第一堆 叠的最后一个GRU层234的输出
Figure BDA0002430705010000177
)。
类似地,在612,声学回声消除系统200接收麦克风信号d(t),并且在 614,麦克风信号特征提取模块210从麦克风信号d(t)中提取麦克风信号特征
Figure BDA0002430705010000178
在620,对应于近端估计器250’的神经网络的第二堆叠从远端特征
Figure BDA0002430705010000179
回声估计器特征(例如,h)和麦克风特征
Figure BDA00024307050100001710
计算估计的近端特征
Figure BDA00024307050100001711
如图6A 所示,当计算当前帧k的估计的近端特征
Figure BDA00024307050100001712
时,除了当前帧k之外,来自先前 帧(例如,六个先前帧k-6,k-5,…,k-1)的上下文的特征也被供应给近 端估计器250’。特别地,如图6A所示,当计算当前帧k的估计的近端特征
Figure BDA00024307050100001713
时, 来自当前帧k和六个先前帧k-6,k-5,…,k-1的远端特征
Figure BDA0002430705010000181
回声估计器输 出h和麦克风特征
Figure BDA0002430705010000182
(例如,远端特征
Figure BDA0002430705010000183
回声估计器输出
Figure BDA0002430705010000184
和麦克风特征
Figure BDA0002430705010000185
)被用于估计的近端特征
Figure BDA0002430705010000186
在622,声学回声消除系统200的特征反演模块270从当前帧的估计的 近端特征
Figure BDA0002430705010000187
计算当前帧的估计的近端信号q(t)。如上所述,特征(例如,远端 信号特征
Figure BDA0002430705010000188
麦克风特征
Figure BDA0002430705010000189
和估计的近端特征
Figure BDA00024307050100001810
)可以在特征空间或超空间中, 诸如STFT空间(例如,谱特征或谱域)。因此,在一些实施例中,特征反演 模块270将估计的谱特征
Figure BDA00024307050100001811
从特征空间转换成适于在远端设备处的扬声器上 回放的时域信号q(t)。如图2所示,当计算估计的近端信号q(t)时,麦克风信 号d(t)的相位∠Dk,f也可以由逆短时傅立叶变换(iSTFT)模块274使用。
图7是示出根据本公开的一个实施例的包括深度多任务声学回声消除系 统的混合系统的框图。在这些实施例中,多任务GRU网络具有与上述相同的 架构。然而,对于该网络的训练和在推理期间,使用频域归一化最小均方 (NLMS)滤波器700的输出来代替麦克风信号d(t)。远端信号x(t)保持作为 声学回声消除系统200(包括多任务GRU网络)的另一输入,并且输出目标 仍然是近端特征
Figure BDA00024307050100001812
(如估计为
Figure BDA00024307050100001813
那样)和回声特征
Figure BDA00024307050100001814
(如估计为
Figure BDA00024307050100001815
那样)。
使用神经网络技术的实验结果
为了评估如上所述的声学回声消除系统200的性能,使用从TIMIT数据 集生成的训练数据来执行实验(例如,参见F.Lamel,R.H.Kassel和S.Seneff 在Speech Input/Output Assessment and Speech Databases,1989的“Speech database development:Design and analysis of the acoustic-phonetic corpus”)。在 本公开的一些实施例中,近端说话者的七个话语被用于生成3500个训练混合, 其中每个近端信号与五个不同的远端信号混合。从剩余的430个扬声器中, 随机选择100对扬声器作为远端扬声器和近端扬声器。为了生成300个测试 混合,使用与上述过程相同但只有三个近端扬声器的话语的过程,其中每个 近端信号与一个远端信号混合。因此,测试混合来自不是训练集的一部分的人类说话者。
线性和非线性模型(无回声消除)的未处理测试混合的语音质量感知评 估(Perceptual Evaluation of Speech Quality,PESQ)分数示出在表1中。未 处理的PESQ分数是通过在双向通话期间将麦克风信号与近端信号进行比较 来计算的。
表1:声学路径的线性和非线性模型中未处理测试混合的PESQ分数
Figure BDA0002430705010000191
在一些情况下,回声返回损耗增强(echo return loss enhancement,ERLE) 被用于评估在其中仅存在回声的单向通话情形下由根据本公开的实施例的声 学回声消除系统200实现的回声减少,其中ERLE被定义为:
Figure BDA0002430705010000192
其中E是通过平均化实现的统计期望运算。
为了评估系统在双向通话期间的性能,我们使用了语音质量感知评估 (PESQ)。在一些实施例中,通过将估计的近端语音q(t)与仅在双向通话时 段期间的真值近端语音s(t)进行比较来计算PESQ。PESQ分数范围从-0.5到 4.5,并且越高的分数指示越好的质量。
在下面的讨论中,频域归一化最小均方(frequency domain normalized leastmean square,FDNLMS)(例如,参见C.Faller和J.Chen在IEEE Transactions on Acoustic,Speech and Signal Processing,vol.13,no.5,pp.10481062,2005 中的“Suppressingacoustic echo in a spectral envelope space”)被用作比较示例。 基于麦克风信号d(t)和远端信号x(t)的能量,使用双向通话检测器 (double-talk detector,DTD)。在某些情形下,后处理算法进一步基于R.Martin 和S.Gustafsson在Speech Communication,vol.20,no.3-4,pp.181-190,1996中 的“The echo shaping approach to acoustic echocontrol””中呈现的方法。还将 本公开的实施例与H.Zhang和D.Wang在Proc.AnnualConference of the International Speech Communication Association,2018,pp.3239–3243中的 “Deep Learning for Acoustic Echo Cancellation in Noisy andDouble-Talk Scenarios”中描述的双向长短期记忆(bidirectional long short-termmemory, BLSTM)方法进行比较。
将本公开的实施例与使用声学路径的线性模型(例如,线性声学回声) 的比较方法进行比较。表2示出了传统NLMS滤波器、BLSTM和根据本公 开实施例的上下文感知多任务GRU(被表示为“CA多任务GRU”)的平均ERLE值和PESQ增益。PESQ增益被计算为每种方法的PESQ值相对于其未 处理的PESQ值的差。表2还示出了根据本公开的实施例的上下文感知单任 务GRU(被表示为“CA单任务GRU”)的结果,该上下文感知单任务GRU 仅使用具有
Figure BDA0002430705010000201
Figure BDA0002430705010000202
的GRU层的第二堆叠作为输入,其中损耗函数是通过仅 相对于近端语音s(t)的真值特征向量
Figure BDA0002430705010000203
来处罚网络输出来计算的。结果示出根 据本公开的一些实施例的多任务GRU在PESQ和ERLE两方面都优于根据本 公开的一些实施例的单任务GRU。其还示出了本公开的实施例在所有条件下 都优于传统的NLMS+后处理和BLSTM方法两者。
表2:声学路径的线性模型中的ERLE和PESQ分数
Figure BDA0002430705010000204
还将本公开的实施例与使用声学路径的非线性模型(例如,非线性声学 回声)的比较方法进行比较。在这组实验中,非线性真值回声信号ynl(t)用于 生成麦克风信号d(t),因此该模型包含功率放大器削波和扬声器失真两者(例 如,对应于图5C的515-3和515-7)。将本公开的实施例的结果与包括NLMS 的比较性ES+RES方法进行比较。在非线性声学路径中,也将性能与C.M.Lee, J.W.Shin和N.S.Kim在Proc.Annual Conference of theInternational Speech Communication Association,2015,pp.1775 1779中的“DNN-based residual echo suppression”中描述的并且在表中被记为“AES+DNN”的基于深度神经 网络(DNN)的残余回声抑制(RES)系统进行比较。表3中的结果显示, 本公开的实施例在PESQ和ERLE两者中优于其他两种比较方法。
表3:声学路径的非线性模型中的ERLE和PESQ分数
Figure BDA0002430705010000211
本公开的实施例实现了优良的回声减少,而没有显著的近端失真(例如, 对应于估计的近端信号和实际近端信号的谱非常相似)。
还在存在添加性噪声和声学路径的非线性模型的情况下评估了本公开的 实施例的性能。在这些实施例中,当生成训练数据时,SNR为10dB的白噪 声被添加到近端信号s(t),同时非线性声学路径处于3.5dB的SER水平。然 后将本公开的实施例与传统的NLMS+后处理系统进行比较。如下面的表4 所示,本公开的实施例的各方面以较大幅度优于比较方法。
表4:声学路径(SER=3.5dB)和添加性噪声(SNR=10dB)的非线性模型中的ERLE和 PESQ分数
Figure BDA0002430705010000212
此外,对于不同的混响时间和距麦克风的扬声器距离,针对未看见的RIR 对以上讨论的可替代的混合实施例进行了评估。在本次评估中,使用与以上 讨论的相同的RIR(对应于房间大小为4米×4米×3米、混响时间为200ms、 以及距麦克风的随机扬声器距离为1.5米、以及总长度为512个样本)对模 型进行了训练和测试。在根据本公开的实施例的混合系统的测试期间,扬声 器距离被改变为15cm。频域NLMS的以及用上述RIR训练的根据本公开的 实施例的NLMS和多任务GRU的混合方法的结果在表5中示出。多任务GRU 利用在多种房间大小(小、中、大)、不同混响时间(从250毫秒到900毫秒) 和15cm的扬声器距离下产生的RIR进行进一步的微调。微调结果也被示出 在下表5中。这些结果表明,如果利用目标设备(例如,目标终端用户近端 设备)的脉冲响应来微调模型,则根据本公开的一些实施例的混合方法可以 执行得更好。
表5:混合方法的ERLE和PESQ分数
Figure BDA0002430705010000221
附加实施例
本公开的一些实施例涉及声学回声消除系统200的神经网络的不同架构。 图8A是根据本公开的一个实施例的声学回声消除系统的示意性框图,其中 深度神经网络(表示为“EchoDNN”)用于消除来自麦克风信号d(t)的回声。 根据本公开的一些实施例,EchoDNN900仅使用多个全连接(FC)层。
图8B是根据本公开的一个实施例的被配置为消除来自麦克风信号的回 声的深度神经网络的架构框图。如图8B所示,从麦克风信号d(t)和远端信号 x(t)的所提取的特征
Figure BDA0002430705010000222
Figure BDA0002430705010000223
被馈送到全连接深度网络(EchoDNN)900中的输 入层902中。在图8B中示出的实施例中,网络包括三个隐藏层904、906和 908,以及输出层910。这些层中的每一层可以是实现例如仿射变换的全连接 层。在一些实施例中,三个全连接隐藏层904、906和908中的每一个都包括 4000个单元(例如,神经元)。在一些实施例中,输出层910也是具有257 个(等于所提取的Log-Mag特征的频率区间的数量)单元的全连接层。对于 Log-Mel-Mag征,在一些实施例中,输出层使用80个单元。在一些实施例中, 指数线性单元(exponential linear unit,ELU)被用作每个单元的激活函数。
近端信号的估计特征912直接从全连接深度网络(EchoDNN)900的输 出获得。在972,这些特征被转换回时域,以合成估计的近端语音信号,例 如,使用上述特征反演模块270。在一些实施例中,对于以16kHz的速率采 样的麦克风信号d(t)和近端信号s(t),使用具有50%的重叠的512个样本的帧 大小。然后将512点短时傅立叶变换(STFT)应用于输入信号的每个帧,产 生257个频率区间。在对幅度值计算对数运算后,计算最终的对数幅值(Log-Mag)特征。在本公开的一些实施例中,log-mel幅值(Log-Mel-Mag) 被用作最终特征912,以降低特征空间的维度,并因此降低在这些实施例中 应用的技术的复杂性。在一些实施例中,通过使用80维的Mel-变换矩阵来压 缩特征。
为了使用上下文信息,在一些实施例中,两个输入信号的上下文帧的特 征也被提取并级联为输入特征。
在各种实施例中,在训练期间,近端语音信号的对数幅值(Log-Mag) 特征或Log-mel幅值(或Log-Mel-Mag)被用作目标标签。
在一些实施例中,AMSGRAD在训练期间被用作优化器。在一些实施例 中,目标标签和网络的输出之间的平均绝对误差(MAE)被用作损耗函数。
图9是示出根据本公开的一个实施例的使用生成性网络的声学回声消除 系统的框图。在图9中示出的实施例中,生成性模型990,诸如,Wavenet(参 见,例如,Oord,Aaronvan den等人的“Wavenet:A generative model for raw audio.”arXiv preprint arXiv:1609.03499(2016))在AEC网络的输出处(例如, 在近端估计器250的输出处)代替特征反演模块270。生成性网络(诸如 WaveNet)可以基于由AEC输出或“Mel-spec”提供的信息(例如,mel-log- 幅值)来增强声学回声消除系统228的输出。与逆STFT(iSTFT)274相比, 该生成性模型990以高得多的精度重建近端语音信号q(t)。
使用上下文注意力神经网络的回声去除
基于注意力的模型提供了用于执行序列到序列学习任务(例如,从输入 音频帧的序列到输出音频帧的序列)的一类方法。本公开的实施例的一些方 面涉及用于声学回声消除(AEC)的上下文注意力神经网络(例如,多头注 意力网络(multi-head attentionnetwork))。一个示例实施例包括具有多头上下 文自注意力机制(或神经网络)的编码器/解码器架构,该架构映射麦克风信 号和远端信号的谱特征以估计近端信号。使用模拟和真实记录的房间脉冲响 应(RIR)两者的实验表明,与基准回声去除技术(诸如缺乏基于注意力的组 件的编码器/解码器架构)相比,根据本公开的一些实施例的上下文注意力方 法在回声返回损失增强(ERLE)分数和语音质量感知评估(PESQ)分数方 面获得了更好的性能。
图10是示出根据本公开的一个实施例的包括上下文注意力神经网络的 声学回声消除系统的框图。图10中示出的实施例大体上类似于图2中示出的 实施例,但是不同之处在于其回声消除器1028不包括分离的回声估计器(例 如,类似于图2和图4中示出的回声估计器230)。相反,如下面更详细描述 的那样,回声消除器1028包括上下文注意力神经网络,该上下文注意力神经 网络被配置为从麦克风信号特征
Figure BDA0002430705010000241
和远端信号特征
Figure BDA0002430705010000242
计算估计的近端语 音特征
Figure BDA0002430705010000243
而无需训练网络来也估计回声特征
Figure BDA0002430705010000244
图10中相似的附图标 记对应于图2中示出的实施例中相似的组件,并且因此图10的相似的组件将 不再详细描述。
如图10所示,类似于图2的实施例中,麦克风信号d(t)=s(t)+y(t)被 供应给声学回声消除系统1000以消除或去除回声信号y(t)。麦克风信号d(t) 被供应给麦克风信号特征提取模块1010,该麦克风信号特征提取模块1010 包括短时傅立叶变换(STFT)模块1012、用于去除STFT模块1012的输出 的共轭对称半的绝对值模块1014、以及用于计算“特征空间”或“超空间” 或“对数谱空间”中的最终对数幅值谱特征向量或对数谱特征或麦克风信号 特征
Figure BDA0002430705010000245
的对数运算模块1016。STFT模块1012还可以计算麦克风信号d(t)的 相位∠Dk,f
如图10所示,类似于图2的实施例中,远端信号x(t)也可以应用于远端 信号特征提取模块1020。在一些实施例中,远端信号特征提取模块1020基 本上类似于麦克风信号特征提取模块1010,并且包括STFT模块1022、绝对 值模块1024和对数运算模块1026。远端信号特征提取模块1020从远端信号 x(t)计算远端信号特征
Figure BDA0002430705010000246
(在特征空间或超空间中)。
在图10中示出的实施例中,麦克风信号特征
Figure BDA0002430705010000247
和远端信号特征
Figure BDA0002430705010000248
被 供应给回声消除器1028(或声学回声消除器),该回声消除器包括上下文注 意力神经网络(其可以被称为上下文注意力感知模型)。
图11A是描述根据本公开的一个实施例的上下文注意力神经网络的框图。 如上所述,在本公开的一些实施例中,上下文注意力神经网络1100是图10 中示出的回声消除器1028的组件,并且在基于图10、麦克风信号特征
Figure BDA0002430705010000249
和 远端信号特征
Figure BDA00024307050100002410
计算近端特征
Figure BDA00024307050100002411
的过程中使用。
图11B是根据本公开的一个实施例的描绘上下文注意力神经网络的门控 递归单元(GRU)的层的更详细的框图。
如图11A和图11B所示,上下文注意力神经网络1100包括编码器模块 1110、上下文注意力模块1130和解码器模块1190,其中,这些模块中的每一 个包括神经元的一个或多个层(例如,门控递归单元的层),如下文更详细讨 论的那样。编码器模块1110被配置成接收麦克风信号特征
Figure BDA0002430705010000251
和远端信号特 征
Figure BDA0002430705010000252
作为输入。在图11A中示出的实施例中,这两个输入中的每一个都具 有T×257的维度,其中T是因果窗口或上下文窗口中使用的输入的帧数。例 如,在上面关于图3、图4和图6A示出和描述的特定示例实施例中,帧数T被 设置为七帧(T=7),其中当前帧和六个先前因果帧被用于执行回声去除。 如上所述,本公开的实施例不限于窗口具有七帧(T=7)大小的情况。如上 所述,在此描述了本公开的实施例,其中特征被表示为257点向量。因此, 如图11A和图11B所示,麦克风信号特征
Figure BDA0002430705010000253
和远端信号特征
Figure BDA0002430705010000254
的每一帧 都包括257×2=514个特征,并且因此网络1100的输入总维度为T×514。
如图11A所示,编码器模块1110获取麦克风信号特征
Figure BDA0002430705010000255
和远端信号特征
Figure BDA0002430705010000256
的对数幅值,并将 它们映射到超空间或潜在空间以生成编码特征h,其中图11A中示出的实施 例中的编码特征具有T×1000的维度:
Figure BDA0002430705010000257
更详细地,在如图11B所示的本公开的一些实施例中,编码器模块1110 包括级联层1112,该级联层1112被配置为级联输入麦克风信号特征
Figure BDA0002430705010000258
和远 端信号特征
Figure BDA0002430705010000259
(各自具有T×257的维度)以计算维度为T×514的级联特征。 级联的特征然后被供应给基本上类似于图3中示出的GRU层的门控递归单元 (GRU)层1114,其中GRU层1114的每个单元根据下式计算编码特征h:
Figure BDA00024307050100002510
其中f表示GRU函数,并且ht表示GRU在时间t的输出。
上下文注意力模块1130采用编码特征h来计算识别超空间的重要区域的 上下文注意力(或上下文注意力特征)c,其中,图11A示出的实施例中的上 下文注意力c具有T×1000的维度:
c=Attention(h)
更详细地说,上下文注意力机制允许模型学习上下文中每个语音帧的重 要性。这是通过在超空间或潜在空间中构建帧的表示时对语音帧进行加权来 实现的。应用根据本公开的实施例的上下文注意力在双向通话时段特别有效。 如上所述,虽然注意力机制可以应用于过去帧和未来帧两者,但是为了避免 或减少延迟,本公开的一些实施例仅使用过去帧。
图11C是描绘根据本公开的一个实施例的上下文注意力模块的框图。图 11C中示出的上下午注意力模块1130包括两个多头注意力(multi-head attention,MHA)层(或模块)1131和1134,其中第一多头注意力层1131 实施上下文自注意力层。一般来说,上下文自注意力层(诸如多头自注意力 层1131)用于捕获语音帧相对于输入序列中所有过去相邻语音帧的任何超空 间表示的相似性。
为了方便起见,下面将在多头自注意力层1131的上下文下更详细地描述 由多头自注意力(multi-head self-attention,MHSA)层执行的计算。在一些 实施例中,多头注意力(MHA)模块1134在架构上基本上与MHSA模块1131 相同,但是使用与MHSA模块1131不同的输入,如图11C所示,并且如下 文更详细描述的那样。权重参数at,t′捕获分别在时间步长t和时间步长t′下作 为输入(例如,级联的语音帧对数幅值
Figure BDA0002430705010000261
Figure BDA0002430705010000262
的ht和ht′)供应给 层的隐藏状态表示之间的相似性。在一些实施例中,上下文自注意力机制根 据下式来计算权重参数at,t′
Figure BDA0002430705010000263
其中et,t′是针对每个时间步长计算的注意力重要性分数。在本公开的一些 实施例中,使用“添加性”法计算注意力重要性分数et,t′
Figure BDA0002430705010000264
在本公开的一些实施例中,使用“一般性”方法计算注意力重要性分数et,t′
Figure BDA0002430705010000265
在一些实施例中,注意力重要性分数et,t′在被计算以构建语音帧上的概率 分布之后被归一化(例如,通过对分数应用softmax激活函数)。
在一些实施例中,多头自注意力层1131的输出是由所有过去帧在时间步 长t′下的隐藏状态表示ht′以及其与当前帧的隐藏状态表示ht的相似性at,t′的 加权和给出的帧在时间步长t下的注意力集中的隐藏状态表示。更非正式地说, 多头自注意力层1131的输出表示基于相邻上下文,在任何时间步长下要关注 语音帧的程度:
t′at,t′ht′
为了改进用于计算重要性分数et,t′的一般性方法,在一些实施例中,在 softmax激活函数中使用温度参数,并且使用三个可学习权重(Wa,Wb,Wc) 来代替仅一个权重Wa
Figure BDA0002430705010000271
(参见,例如,G.Hinton、O.Vinyals和J.Dean在NIPS Deep Learning andRepresentation Learning Workshop,2015中的“Distilling the Knowledge in aNeural Network”)。
在本公开的一些实施例中,如图11C所示,多头自注意力层与多头注意 力层1134一起使用(例如,参见A.Vaswani等人在in Advances in Neural Information ProcessingSystems,I.Guyon,U.V Luxburg,S.Bengio,H.Wallach, R.Fergus,S.Vishwanathan,andR.Garnett,Eds.Curran Associates,Inc.,2017,pp. 5998 6008中的“Attention is Allyou Need”),其中多头自注意力层1131和 多头注意力层1134两者具有残差连接(skipconnection)和层归一化。
更详细地,如图11C所示,根据一个实施例的上下文注意力模块1130(或 上下文注意力层)包括多头自注意力模块1131,该多头自注意力模块1131 接收编码特征h的三个副本。多头自注意力模块1131的输出被供应给第一求 和节点1132,该第一求和节点1132将多头自注意力模块1131的输出添加到 编码特征h的另一副本。然后,第一求和节点1132的输出被供应给第一层归 一化模块1133(例如,参见Ba,Jimmy Lei、Jamie Ryan Kiros和Geoffrey E. Hinton.在arXiv preprint arXiv:1607.06450(2016)中的"Layernormalization"), 并且层归一化激活与编码特征h的两个附加副本一起作为输入被供应给多头 注意力模块1134。换句话说,对多头注意力层1134的查询是第一层归一化模 块1133的输出和编码器的输出(编码特征h)。多头注意力模块1134的输出 被供应给求和节点1135,该求和节点1135在将总和输出到第二层归一化层 1136之前添加第一层归一化模块1133的输出的副本。然后,第二层归一化层 的输出作为上下文注意力(或上下文注意力特征)c从上下文注意力模块1130 输出。
在本公开的一些实施例中,多头注意力模块1134和第二层归一化模块 1136被省略,使得第一层归一化模块1133的输出被视为上下文注意力模块 1130的输出c。
返回参考图11A和图11B,然后使用解码器模块1190从上下文注意力c计 算近端语音
Figure BDA0002430705010000281
的估计对数幅值,其中在图11A和图11B中示出的实施例中 近端语音
Figure BDA0002430705010000282
具有T×257的维度(例如,与输入麦克风信号特征和远端信号 特征相同的维度)。
更详细地说,在一些实施例中,诸如如图11B所示的实施例中,解码器 包括两个GRU层1192和1194。根据一个实施例,第一GRU层1192基于来 自上下文注意力模块1130的上下文注意力c(例如ck-T+1,ck-T+2,...,ck),根 据下式来计算其输出s(例如sk-T+1,sk-T+2,...,sk):
st=g1(ct,st-′)
并且第二GRU层1194根据下式计算估计的近端语音
Figure BDA0002430705010000283
(例如
Figure BDA0002430705010000284
)的谱特征:
Figure BDA0002430705010000285
在一些实施例中,指数线性单元(exponential linear unit,elu)激活函数 与第一GRU层1192一起使用,并且线性激活函数与第二GRU层1194一起 使用。
如图10所示,近端语音
Figure BDA0002430705010000286
的估计的特征被转换回估计的近端语音信号 q(t),该信号可以被发送到远端通信设备。
在一些实施例中,图11A、图11B和图11C中示出的上下文注意力神经 网络1100使用与以上相对于图5A、图5B和图5C描述的训练过程基本相同 的训练过程来训练,并且所得到的经训练的上下文注意力神经网络1100可以 以类似于以上描述的方式部署到通信设备(例如,诸如智能手机或平板电脑 的终端用户设备)中。
图6B是描绘根据本公开的一个实施例的用于在推理模式下使用上下文 注意力神经网络1100从接收的远端信号和麦克风信号计算估计的近端信号 的方法1200的流程图。如图12所示,在1202,声学回声消除系统1000接 收远端信号x(t),并且在1204,远端信号特征提取模块1020从远端信号x(t)中 提取远端特征
Figure BDA0002430705010000287
类似地,在1206,声学回声消除系统1000接收麦克风信号d(t),并且在 1208,麦克风信号特征提取模块1010从麦克风信号d(t)中提取麦克风信号特 征
Figure BDA0002430705010000288
在1210,上下文注意力神经网络1100(例如,回声消除器1028的组件) 从远端特征
Figure BDA0002430705010000291
和麦克风特征
Figure BDA0002430705010000292
计算估计的近端特征
Figure BDA0002430705010000293
例如,如图11B所示, 当计算当前帧k的估计的近端特征
Figure BDA0002430705010000294
时,除了当前帧k之外,来自先前T个帧 (例如,六个先前帧k-6,k-5,…,k-1)的上下文的特征也被供应给上下 文注意力神经网络1100。特别地,如图11B所示,当计算当前帧k的估计的 近端特征
Figure BDA0002430705010000295
时,来自当前帧k和T-1个先前帧k-T+1,k-T+2,…,k-1的 远端特征
Figure BDA0002430705010000296
和麦克风特征
Figure BDA0002430705010000297
(例如,远端特征
Figure BDA0002430705010000298
和麦克风特 征
Figure BDA0002430705010000299
)被用于计算估计的近端特征
Figure BDA00024307050100002910
在1212,声学回声消除系统1000的特征反演模块1070从当前帧的估计 的近端特征
Figure BDA00024307050100002911
来计算当前帧的估计的近端信号q(t)。如上所述,特征(例如, 远端信号特征
Figure BDA00024307050100002912
麦克风特征
Figure BDA00024307050100002913
和估计的近端特征
Figure BDA00024307050100002914
)可以在特征空间或超空 间中,诸如STFT空间(例如,谱特征或谱域)。因此,在一些实施例中,特 征反演模块1070将估计的谱特征
Figure BDA00024307050100002915
从特征空间转换成适于在远端通信设备的 扬声器上回放的时域信号q(t),其中特征反演模块1070可以包括指数模块 1072和逆短时傅立叶变换(iSTFT)模块1074。如图10所示,当计算估计的 近端信号q(t)时,麦克风信号d(t)的相位∠Dk,f也可以由逆短时傅立叶变换 (iSTFT)模块1074使用。
使用上下文注意力神经网络技术的回声消除的实验结果
根据本公开的实施例的使用上下文注意力神经网络1100来去除声学回 声的声学回声消除系统1000的实施例以类似于以上描述的用于测试声学回 声消除系统200的方式被训练和测试。
为了创建用于比较的基准,从TIMIT数据集生成的训练数据被用于利用 基于双向通话检测(DTD)的麦克风和远端信号能量来测量频域归一化最小 均方(FDNLMS)模型的性能(参见,例如,C.Faller和J.Chen,在IEEE Trans. Speech Audio Process.,vol.13,no.5,pp.1048 1061,2005中的“Suppressing acoustic echo in a spectral envelopespace”)。
基于R.Martin和S.Gustafsson在Speech Commun.,vol.20,no.3 4,pp. 181 190,1996中的“The echo shaping approach to acoustic echo control”,对 将后滤波方法应用于FDNMLS音频(FDNMLS+后滤波)的效果进行了一些 附加测试。使用深度神经网络(DNN)而不是后滤波、使用如C.M.Lee、J.W. Shin和N.S.Kim在INTERSPEECH,2015,vol.2015-Janua,pp.1775 1779中 的“DNN-based residual echo suppression”中描述的方法进行另外的测试,其 中DNN的参数是根据论文中给出的值设定的。(FDNLMS+DNN)。
第四基准使用基本上与图11A中示出相同的编码器/解码器GRU网络架 构,但是排除了上下文注意力模块1130(例如,编码器模块1110的输出被直 接作为输入供应给解码器模块1190)。(编码器/解码器GRU)。
对应于用于计算注意力的五种不同的变化的本公开的实施例如上所述。 其包括使用一般性注意力机制、添加性注意力机制或缩放点积注意力机制, 以及单独使用多头自注意力(MHSA)和与多头注意力一起使用MHSA (MHSA+MHA)。表6示出了使用合成RIR的声学路径的线性模型中的ERLE 和PESQ分数
表6:声学路径的线性模型中的ERLE和PESQ分数
Figure BDA0002430705010000301
Figure BDA0002430705010000311
如表6所示,根据本公开的实施例的使用上下文注意力的方法通常优于 基准回声去除系统,包括FDNLMS、FDNLMS+后滤波、FDNLMS+DNN以 及没有上下文注意力模块的裸编码器/解码器GRU。在本公开的实施例的变体 中,MHSA和MHA的一起使用展示了最好的ERLE和PESQ分数。
在去除由于非线性声学路径引起的回声(包括模拟功率放大器削波和扬 声器失真)时,还将本公开的实施例与FDNLMS+后滤波和编码器/解码器 GRU基准进行比较。表7显示了使用合成RIR的声学路径非线性模型 (SER=3.5dB)中的ERLE和PESQ分数。
表7:声学路径的非线性模型中的ERLE和PESQ分数
Figure BDA0002430705010000312
如上面的表7所示,当使用合成RIR进行实验时,根据本公开的实施例 的上下文注意力GRU回声消除器在ERLE和PESQ分数两者上均优于 FDNLMS+后滤波和编码器/解码器GRU(没有上下文注意力模块)。
下面的表8进一步示出了使用来自Aachen脉冲响应数据库(例如,参见 M.Jeub,M.
Figure BDA0002430705010000313
和P.Vary在International Conference on Digital Signal Processing,2009中的“A binaural room impulse response database for the evaluation ofdereverberation algorithms”)的真实(相对于合成的)记录的RIR, 与相同的FDNLMS+后滤波和编码器/解码器GRU(没有上下文注意力模块) 基线模型进行比较的上下文注意力GRU回声消除器的ERLE和PESQ分数。
表8:真实记录的房间脉冲反应方面的ERLE和PESQ分数
Figure BDA0002430705010000321
如上面的表8所示,当对真实记录的RIR进行测试时,根据本公开的实 施例的上下文注意力GRU回声消除器在ERLE和PESQ分数两者上均优于 FDNLMS+后滤波和编码器/解码器GRU(没有上下文注意力模块)。
因此,本公开的一些实施例涉及使用上下文注意力神经网络作为回声消 除系统的组件。这种上下文注意力神经网络提供了相比于比较性回声去除技 术增加的性能(例如,减少在传输的近端信号中感知到的回声)。
利用上下文注意力神经网络使用频域归一化均方(FDNLMS)的回声去 除
本公开的实施例的一些方面涉及结合类似于上述上下文注意力神经网络 的上下文注意力神经网络来使用频域归一化均方(FDNLMS)。
在一些比较性的声学回声消除(AEC)技术中,使用频域归一化均方 (FDNLMS)来估计声学路径。然后,接收到的远端信号被使用FDNLMS估 计的声学路径修改,以计算从麦克风信号中减去的估计的回声信号。
在本节中描述的本公开的实施例涉及一种混合方法,该方法将经典回声 估计技术(FDNLMS在此作为示例使用)与用于AEC的递归深度神经网络 相结合。更详细地,本公开的实施例的一些方面在特征域中使用远端信号和 麦克风信号以及它们之间的误差信号,以使用编码器/解码器门控递归单元 (GRU)网络来估计近端信号。在一些实施例中,编码器/解码器GRU网络 进一步包括编码器和解码器模块之间的上下文注意力模块。FDNLMS更新规 则被用于计算回声估计。使用混合方法将经典声学回声消除的优点(例如, 对之前看不到的环境能很好的处理)与深度学习方法的优越性能相结合。使 用模拟的和真实记录的房间脉冲响应(RIR)的实验表明,与各种基线经典和 深度学习技术相比,根据本公开的实施例的混合方法(例如,使用具有编码 器/解码器GRU网络的FDNLMS)可以在回声返回损耗增强(ERLE)和语音 质量的感知评估(PESQ)分数方面一致地实现更好的性能。
图13是示出根据本公开的一个实施例的声学回声消除系统的框图,该声 学回声消除系统包括结合上下文注意力神经网络的频域归一化均方 (Frequency DomainNormalized Mean Square,FDNLMS)技术的混合。图13 中示出的实施例总体上类似于图2中示出的实施例,但是不同之处在于其回 声消除器1328采用根据FDNLMS技术计算的误差特征
Figure BDA0002430705010000331
作为另外的输入。 根据本发明的一些实施例,回声消除器1328包括递归神经网络。如下文更详 细描述的那样,在一些实施例中,回声消除器1328的递归神经网络是上下文注意力神经网络,其被配置为从麦克风信号特征
Figure BDA0002430705010000332
远端信号特征
Figure BDA0002430705010000333
和误 差信号特征
Figure BDA0002430705010000334
来计算估计的近端语音特征
Figure BDA0002430705010000335
图13中相似的附图标记对 应于图2和图10中示出的实施例中相似的组件,并且因此图13的相似的组 件将不再详细描述。
如图13所示,类似于图2和图10的实施例中,麦克风信号d(t)=s(t)+ y(t)被供应给声学回声消除系统1300以消除或去除回声信号y(t)。麦克风信 号d(t)被供应给麦克风信号特征提取模块1310,该麦克风信号特征提取模块 1310包括短时傅立叶变换(STFT)模块1312、用于去除STFT模块1312的 输出的共轭对称半的绝对值模块1314、以及用于计算“特征空间”或“超空 间”或“对数谱空间”中的最终对数幅值谱特征向量或对数谱特征或麦克风 信号特征
Figure BDA0002430705010000336
的对数运算模块1316。STFT模块1312还可以计算麦克风信号 d(t)的相位∠Dk,f
如图13所示,如在图2和图10的实施例中,远端信号x(t)也可以应用 于远端信号特征提取模块1320。在一些实施例中,远端信号特征提取模块 1320基本上类似于麦克风信号特征提取模块1310,并且包括STFT模块1322、 绝对值模块1324和对数运算模块1326。远端信号特征提取模块1320从远端 信号x(t)计算远端信号特征
Figure BDA0002430705010000337
(在特征空间或超空间中)。
图13进一步描绘了被配置为计算误差特征
Figure BDA0002430705010000338
的经典回声估计器1330。 根据本公开的一个实施例,对数谱误差特征
Figure BDA0002430705010000339
是从远端信号x(t)、麦克风信 号d(t)和估计的声学路径计算的,在图13所示的实施例中,该估计的声学路 径是基于频域归一化均方(FDNLMS)估计的。更详细地说,绝对误差特征 |Ek,f|可以根据下式计算:
|Ek,f|=|Dk,f|-Gk,f|Xk,f|
其中,|Dk,f|是绝对麦克风特征(例如,麦克风信号特征提取模块1310 的绝对值模块1314的输出),|Xk,f|是绝对远端特征(例如,远端信号特征提 取模块1320的绝对值模块1324的输出),并且Gk,f是表示使用经典技术估计 的声路径的当前估计的参数。如图13所示,经典回声估计器1330的乘积节 点1332计算声路径参数Gk,f和绝对远端特征|Xk,f|的乘积Gk,f|Xk,f|。该乘积表 示回声信号y(t)的估计值,并且在图13中被描绘为绝对估计的回声特征
Figure BDA0002430705010000341
当使用FDNLMS时,根据下式,针对每个帧计算并更新声路径参数Gk,f
Figure BDA0002430705010000342
其中,步长大小μ由远端信号x(t)的平均功率Pk,f归一化,并通过下式递 归获得:
Pk,f=(1-α)Pk-1,f+α|Xk,f|2
其中α是在0和1之间的遗忘因子。
如图13所示,求和节点1334从绝对麦克风特征|Dk,f|中减去绝对估计的 回声特征
Figure BDA0002430705010000343
以计算绝对误差特征|Ek,f|,并且对数运算模块1336从绝对 误差特征|Ek,f|计算对数误差特征
Figure BDA0002430705010000344
在图13中示出的实施例中,麦克风信号特征
Figure BDA0002430705010000345
远端信号特征
Figure BDA0002430705010000346
和 误差特征
Figure BDA0002430705010000347
被提供给回声消除器1328。在本发明的一些实施例中,回声消 除器1328包括递归神经网络。如上所述,在一些实施例中,递归神经网络是 或包括上下文注意力感知模型或上下文注意力神经网络1400,例如,如图14A 和图14B所示。在本公开的一些实施例中,代替使用上下文注意力神经网络 1400,递归神经网络是或包括没有上下文注意力模块的编码器/解码器GRU 网络(例如,其中编码器将其输出直接供应给解码器)。
图14A是描绘根据本公开的一个实施例的上下文注意力神经网络的框图, 其中上下文注意力神经网络被配置为接受远端特征、误差特征和麦克风特征 作为输入。上下文注意力神经网络1400可以用作图13中示出的回声消除器 1328的组件,并且被配置为接受远端特征
Figure BDA0002430705010000348
误差特征
Figure BDA0002430705010000349
和麦克风特征
Figure BDA00024307050100003410
作为输入。图14B是根据本公开的一个实施例的描绘了被配置为接受远端特 征、误差特征和麦克风特征作为输入的上下文注意力神经网络的层的更详细 的框图。上下文注意力神经网络1400被配置为接受远端特征
Figure BDA0002430705010000351
误差特征
Figure BDA0002430705010000352
和麦克风特征
Figure BDA0002430705010000353
作为输入。图14A和14B中示出的上下文注意力神经 网络1400基本上类似于图11A和图11B中示出的上下文注意力神经网络1100, 并且因此本文将不再重复对基本组件的描述。
与图11A和图11B中示出的上下文注意力神经网络1100的一个不同之 处在于,上下文注意力神经网络1400获取以上讨论的麦克风信号特征
Figure BDA0002430705010000354
远端信号特征
Figure BDA0002430705010000355
和误差特征
Figure BDA0002430705010000356
作为输入。在图14A和图14B视图的示例 中,麦克风信号特征
Figure BDA0002430705010000357
远端信号特征
Figure BDA0002430705010000358
以及误差特征
Figure BDA0002430705010000359
中的每一个具 有T×257的维度。因此,当这些特征被级联(例如,通过上下文注意力神经 网络1400的编码器模块1410的级联层1412)时,得到的特征具有T×771的 维度。
以类似于图11A和图11B中示出的实施例的方式,图14A和14B中示出 的实施例的上下文注意力神经网络1400包括编码器模块1410、上下文注意 力模块1430和解码器模块1490,其中这些模块中的每一个包括神经元的一 个或多个层。编码器模块1410被配置为接收麦克风信号特征
Figure BDA00024307050100003510
远端信号 特征
Figure BDA00024307050100003511
和误差特征
Figure BDA00024307050100003512
作为输入。如上所述,在一些实施例中,回声消除器 1328的递归神经网络仅包括编码器/解码器GRU网络,该编码器/解码器GRU 网络具有直接连接到解码器模块1490的编码器模块1410(例如,其间没有 上下文注意力模块1430)。
如图14A所示,编码器模块1410获取麦克风信号特征
Figure BDA00024307050100003513
远端信号特征
Figure BDA00024307050100003514
和误差特征
Figure BDA00024307050100003515
的对数幅值,并将它们映射到超空间以生成编码特征h, 其中图11A中示出的实施例中的编码特征具有T×1000的维度:
Figure BDA00024307050100003516
更详细地,在如图14B示出的本公开的一些实施例中,编码器模块1410 (或编码器层)包括级联层1412,该级联层1412被配置为级联输入麦克风 信号特征
Figure BDA00024307050100003517
远端信号特征
Figure BDA00024307050100003518
和误差特征
Figure BDA00024307050100003519
(各自具有T×257的维度) 以计算维度为T×771的级联特征。级联的特征然后被供应给基本上类似于图 3和图11B中示出的GRU层的门控递归单元(GRU)层1114,其中GRU层 1414的每个单元根据下式计算编码特征h:
Figure BDA0002430705010000361
其中f表示GRU函数,并且ht表示GRU在时间t的输出。
在回声消除器1328包括上下文注意力神经网络的本公开的实施例中,上 下文注意力模块1430采用编码特征h来计算识别超空间的重要区域的上下文 注意力c,其中图14A中示出的实施例中的上下文注意力c具有T× 1000的维度:
c=Attention(h)
在一些实施例中,上下文注意力模块1430包括多头自注意力(MHSA) 层和附加的多头注意力(MHA)层,其基本上类似于图11C中示出的那样。 因此,参考图11C描述的上下文注意力模块1130的各种实施例也可以用于对 应于混合经典和上下文注意力神经网络的本公开的实施例中的上下文注意力 模块1430,并且上下文注意力模块1430在此将不附加详细地描述。
参考图14A和图14B,在回声消除器1328包括上下文注意力神经网络的 情况下,然后使用解码器模块1490从上下文注意力c计算近端语音
Figure BDA0002430705010000362
的估 计的对数幅值,其中图14A和图14B中示出的实施例中的近端语音
Figure BDA0002430705010000363
具有 T×257的维度(例如,与输入麦克风信号特征和远端信号特征相同的维度)。 在本公开的实施例中,其中回声消除器1328包括编码器/解码器GRU网络, 解码器基于编码特征h计算近端语音
Figure BDA0002430705010000364
的估计的对数幅值。
更详细地,在一些实施例中,诸如图14B中示出的实施例,解码器模块 1490(或解码器层)包括两个GRU层1492和1494。根据一个实施例,第一 GRU层1492基于来自上下文注意力层1430的上下文注意力c (ck-T+1,ck-T+2,...,ck)根据下式计算其输出s(sk-T+1,sk-T+2,...,sk):
st=g1(ct,st-′)
在一些实施例中,第一GRU层1492根据来自编码器模块1410的编码特 征h(hk-T+1,hk-T+2,...,hk)以下式计算其输出s(sk-T+1,sk-T+2,...,sk):
st=g1(ht,st-′)
第二GRU层1494根据下式计算估计的近端语音
Figure BDA0002430705010000365
Figure BDA0002430705010000366
的谱特征:
Figure BDA0002430705010000367
在一些实施例中,指数线性单元(exponential linear unit,elu)激活函数 与第一GRU层1492一起使用,并且线性激活函数与第二GRU层1494一起 使用。
如图13所示,近端语音
Figure BDA0002430705010000371
的估计特征被转换回估计近端语音信号q(t), 该信号可以被发送到远端通信设备。
在一些实施例中,图14A和图14B中示出的编码器/解码器GRU网络或 上下文注意力神经网络1400使用与以上相对于图5A、图5B和图5C描述的 训练过程基本相同的训练过程来训练,并且所得到的经训练的上下文注意力 神经网络1400可以以类似于以上描述的方式部署到通信设备(例如,诸如智 能手机或平板电脑的终端用户设备)中。
图15是描绘了根据本公开的一个实施例的用于在推理模式中使用经典 声学回声消除技术和深度卷积神经网络的混合从接收的远端信号和麦克风信 号计算估计的近端信号的方法的流程图。如上所述,在一些实施例中,深度 递归神经网络是编码器/解码器GRU网络,并且在一些实施例中,深度递归 神经网络是上下文注意力神经网络。如图15所示,在1502,声学回声消除 系统1300接收远端信号x(t),并且在1504,远端信号特征提取模块1320从 远端信号x(t)中提取远端特征
Figure BDA0002430705010000372
类似地,在1506,声学回声消除系统1300接收麦克风信号d(t),并且在 1508,麦克风近端信号特征提取模块1310从麦克风信号d(t)中提取麦克风信 号特征
Figure BDA0002430705010000373
在1510,使用适当的经典自动回声消除技术,诸如如上所的讨论的 FDNLMS,来计算声路径参数G。在1512,使用远端特征
Figure BDA0002430705010000374
麦克风信号特征
Figure BDA0002430705010000375
和声学路径参数G来计算误差特征
Figure BDA0002430705010000376
在1514,经训练的递归神经网络(例如,回声消除器1328的组件)从 远端特征
Figure BDA0002430705010000377
麦克风特征
Figure BDA0002430705010000378
和误差特征
Figure BDA0002430705010000379
计算估计的近端特征
Figure BDA00024307050100003710
例如,在图 14B中,当计算当前帧k的估计的近端特征
Figure BDA00024307050100003711
时,除了当前帧k之外,来自先 前T个帧(例如,六个先前帧k-6,k-5,…,k-1)的上下文的特征也被供应 给递归神经网络。特别地,如图14B所示,当计算当前帧k的估计的近端特 征
Figure BDA00024307050100003712
时,来自当前帧k和T-1先前帧k-T+1,k-T+2,…,k-1的远端特征
Figure BDA00024307050100003713
和麦克风特征
Figure BDA00024307050100003714
(例如,远端特征
Figure BDA00024307050100003715
麦克风特征
Figure BDA00024307050100003716
和误差特征
Figure BDA00024307050100003717
)被用于计算估计的近 端特征
Figure BDA00024307050100003718
在1516,声学回声消除系统1300的特征反演模块1370从当前帧的估计 的近端特征
Figure BDA0002430705010000381
来计算当前帧的估计的近端信号q(t)。如上所述,特征(例如, 远端信号特征
Figure BDA0002430705010000382
麦克风特征
Figure BDA0002430705010000383
和估计的近端特征
Figure BDA0002430705010000384
)可以在特征空间或超空 间中,诸如STFT空间(例如,谱特征或谱域)。因此,在一些实施例中,特 征反演模块1370将估计的谱特征
Figure BDA0002430705010000385
从特征空间转换成适于在远端通信设备的 扬声器上回放的时域信号q(t),其中特征反演模块1370可以包括指数模块 1372和逆短时傅立叶变换(iSTFT)模块1374。如图13所示,当计算估计的 近端信号q(t)时,麦克风信号d(t)的相位∠Dk,f也可以由逆短时傅立叶变换 (iSTFT)1074使用。
使用混合经典和上下文注意力神经网络技术的回声消除的实验结果
以类似于上述的方式,在下面的讨论中,频域归一化最小均方(frequencydomainnormalized least mean square,FDNLMS)(例如,参见C.Faller和J.Chen 在IEEETransactions on Acoustic,Speech and Signal Processing,vol.13,no.5, pp.10481062,2005中的“Suppressing acoustic echo in a spectral envelope space”)被用作比较示例,用于测量上下文注意力神经网络的影响。编码器/ 解码器GRU的另一比较示例(例如,没有上下文注意力模块1430的编码器 模块1410和解码器模块1490)也用于测量上下文注意力模块1430的影响。
特别地,训练数据根据如上所述的TIMIT数据集生成,并且然后根据合 成和真实房间脉冲响应(RIR)进行修改。在本文所述的实验中,对于NLMS 更新规则,当没有双向通话时μ被设置为0.5,否则被设置为非常小的值。遗 忘因子α被设置为0.6。
使用声学路径的线性模型来评估根据本公开的一些实施例的混合神经 AEC。在这组实验中,“办公室”、“会议室”、“楼梯1”、“楼梯2”、“浴室” 和“报告室”中的真实测量的RIR被用于混合神经AEC的训练,而“走廊” 状态被用于处于手持位置(HHP)的电话中的测试。这里,训练RIR和测试 RIR之间的不匹配很小,因为使用了相同的记录设备来捕获两个RIR。基于 平均归一化互相关(NCC)的训练和测试RIR之间的相似性为0.97。
表9示出了根据本公开的一些实施例的经典(FDNLMS)基准、编码器/ 解码器GRU和混合编码器/解码器的平均ERLE值和PESQ分数:
表9:声学路径的线性模型中的ERLE值和PESQ分数
Figure BDA0002430705010000386
Figure BDA0002430705010000391
如表9所示,混合编码器/解码器优于两个基准AEC模型,但优于编码 器/解码器GRU较小幅度,可能是因为训练集和测试集的条件在本实验中相 似,并且因此减小了使用FDNLMS预测器作为混合编码器/解码器的组件的 益处。
因此,在训练和测试条件不同的条件下,本公开的实施例的性能进一步 与编码器/解码器GRU基准进行比较。为此,生成了用于训练的七个合成RIR, 并对由真实测量的“走廊”RIR创建的数据再次进行测试。“走廊”环境被设 置为具有从{0.2、0.4、0.6、0.8、0.9、1.0、1.25}秒中选择的混响时间(T60)。 因此,在平均NCC约为0.58的情况下,本实验中的训练和测试RIR显著不 同。下表10中给出了比较结果。
表10:当在合成RIR上训练时的声学路径线性模型中的ERLE值和PESQ分数
Figure BDA0002430705010000392
如上面的表10所示,在这些实验中,根据本公开的一些实施例的混合方 法优于“编码器/解码器GRU”方法较大幅度。由此,与净近端语音相比,根 据本公开的一些实施例的混合编码器/解码器方法实现了优良的回声减少,而 没有显著的近端失真。
执行附加的实验来研究声学路径的非线性模型对本公开的实施例的影响。 在这组实验中,我们在生成麦克风信号时使用非线性(失真)回声信号ynl(t), 因此该模型包含功率放大器削波和扬声器失真两者。合成RIR用于训练,并 且“走廊”RIR用于测试。如前所述,将这些结果与单独的经典FDNLMS和 非混合编码器/解码器GRU进行比较。在以下表11中呈现的结果表明,本公 开的实施例优于两个基准:
表11:声学路径的非线性模型和实际测量的“走廊”RIR的ERLE和PESQ分数
Figure BDA0002430705010000401
由此,本公开的一些实施例涉及一种用于AEC的架构,该架构使用经典 AEC技术(例如,FDNLMS)的混合来通过提供自适应信息来引导编码器/ 解码器GRU网络(例如,上下文注意力神经网络)。在用于训练编码器/解码 器GRU网络的训练条件和测试条件(例如,现场的部署条件)之间存在不匹 配的情况下,特别地观察到根据本公开的实施例的混合技术的益处,并且本 公开的实施例提供了优于比较基准技术的性能益处。
图16是根据本公开的一个实施例的近端设备的框图。如上所述,在一些 实施例中,近端设备10是通信设备,诸如智能手机或平板电脑。近端设备 10可以包括调制解调器1610,该调制解调器1610被配置成发送和接收数据, 诸如语音通信数据。调制解调器可以包括信号处理器,该信号处理器被配置 成将接收的编码数据转换成对应于远端信号x(t)的音频数据(例如,脉冲编 码调制数据)。解码数据被供应给处理器1620,该处理器1620可以实施声学 回声消除系统200。如上所述,在本公开的各种实施例中,实现声学回声消 除系统200的处理器可以是:通用中央处理单元;图形处理单元(GPU);现 场可编程门阵列(FPGA);神经处理单元(NPU)或神经网络处理器(NNP) (例如,具有被定制为使用神经网络执行推理的架构的处理器);或神经形态 处理器,但是本公开的实施例不限于此。接收的远端信号x(t)可以通过扬声 器12播放,该扬声器将声波发射到环境中,其中声波中的一些可以被近端麦 克风14反射和接收,该近端麦克风也接收近端信号s(t)。生成的麦克风信号 d(t)被供应给处理器1620和声学回声消除系统200,以计算估计的近端信号 q(t),该近端信号经由调制解调器1610被发送到远端设备。通常,近端设备 10可以包括图10中未示出的其他组件,诸如用户界面组件(例如,按钮、 触摸屏显示器等)、电池或其他电源、附加的通用或专用处理器、临时和非临 时性存储器等。
因此,本公开的实施例的方面涉及用于声学回声消除(AEC)的递归神 经网络,包括深度多任务递归神经网络。如实验结果所示,本公开的实施例 在单向通话和双向通话期间两者中表现良好。本公开的实施例的一些方面涉 及同时对回声信号和近端信号进行端到端多任务学习,这提高了经训练的 AEC系统的整体性能。此外,实施例的一些方面涉及使用低延迟因果上下文 窗口来提高在去除声学回声的情况下估计近端信号时的上下文感知。当基于 参考数据集进行比较时,本公开的实施例可以比比较技术更显著地减少回声,并且对添加的背景噪声具有鲁棒性。进一步,根据本公开的一些实施例的混 合方法对于房间脉冲响应(RIR)方面的变化更具鲁棒性,并且在通过增加用 使用中的目标设备(例如,近端设备10)的脉冲响应模拟的数据进行微调的 情况下,可以执行得很好。
由此,本公开的实施例的各方面涉及使用经训练的深度递归神经网络的 回声消除或回声抑制。虽然已经结合某些示例性实施例描述了本公开,但是 应当理解的是,本公开不限于所公开的实施例,而是相反地,旨在覆盖包括 在所附权利要求及其等同物的范围内的各种修改和等同布置。

Claims (19)

1.一种用于执行回声消除的系统,所述系统包括:
处理器;以及
存储指令的存储器,当由所述处理器执行时,所述指令使所述处理器:
在近端设备处从远端设备接收远端信号;
在所述近端设备处记录麦克风信号,所述麦克风信号包括:
近端信号;以及
对应于所述远端信号的回声信号;
从所述远端信号中提取多个远端特征;
从所述麦克风信号中提取多个麦克风特征;
通过将所述麦克风特征和所述远端特征供应给声学回声消除模块,从所述麦克风信号计算多个估计的近端特征,所述声学回声消除模块包括上下文注意力神经网络,所述上下文注意力神经网络包括:
编码器,所述编码器包括多个门控递归单元,所述编码器被配置为将所述麦克风特征和所述远端特征编码为编码特征;
上下文注意力模块,所述上下文注意力模块被配置为从所述编码特征计算上下文注意力特征;以及
解码器,所述解码器包括多个门控递归单元,所述解码器被配置为从所述上下文注意力特征解码所述估计的近端特征;
从所述估计的近端特征计算估计的近端信号;并且
将所述估计的近端信号传输到所述远端设备。
2.根据权利要求1所述的系统,其中,所述编码器包括门控递归单元的一个或更多个层,并且所述编码特征对应于所述编码器的门控递归单元的一个或更多个层中的最后一层的输出,
其中,所述编码特征可以被供应给所述上下文注意力模块的多头自注意力层;并且
其中所述解码器包括门控递归单元的一个或更多个层,并且所述估计的近端特征对应于所述解码器的门控递归单元的一个或更多个层中的最后一层的输出。
3.根据权利要求2所述的系统,其中所述上下文注意力模块还包括被配置为接收所述多头自注意力层的输出的多头注意力层。
4.根据权利要求3所述的系统,其中,所述上下文注意力模块还包括在所述多头自注意力层和所述多头注意力层之间的第一层归一化层。
5.根据权利要求4所述的系统,其中,所述上下文注意力模块还包括第二层归一化层,所述第二层归一化层被配置为根据来自所述上下文注意力模块的其他层的输出来计算所述上下文注意力特征。
6.根据权利要求1所述的系统,其中所述存储器还存储指令,当由所述处理器执行时,所述指令使所述处理器:
根据先前的声学路径参数、先前的远端特征以及先前的麦克风特征来计算多个声学路径参数;以及
基于所述远端特征、所述麦克风特征和所述声学路径参数计算多个误差特征,并且
其中,所述声学回声消除模块还被配置为基于所述误差特征从所述麦克风信号计算所述多个估计的近端特征。
7.根据权利要求1所述的系统,其中,被供应给所述上下文注意力神经网络的所述远端特征包括远端特征的当前帧和远端特征的多个先前帧的因果窗口,并且
其中,被供应给所述上下文注意力神经网络的所述麦克风特征包括麦克风特征的当前帧和麦克风特征的多个先前帧的因果窗口。
8.根据权利要求7所述的系统,其中,所述估计的近端特征包括估计的近端特征的当前帧和估计的近端特征的多个先前帧的因果窗口,并且
其中,通过迭代地训练多个参数来训练所述上下文注意力神经网络,所述多个参数将上下文注意力神经网络配置为将所述估计的近端特征和所述多个训练数据的多个真值近端特征之间的差异最小化。
9.根据权利要求8所述的系统,其中,所述训练数据通过以下方式生成:
加载训练数据的语料库,所述语料库包括来自多个不同人类说话者的记录的话语;
选择多对人类说话者;
对于每对人类说话者:
级联所述对人类说话者中的第一说话者的多个话语以生成训练远端信号;
变换级联的话语以模拟声学路径,从而生成训练回声信号;
填充所述对人类说话者中的第二说话者的话语,以生成长度等于所述训练远端信号的训练近端信号;以及
将所述训练回声信号与所述训练近端信号混合以生成训练麦克风信号。
10.根据权利要求9所述的系统,其中,所述变换所述级联的话语包括将所述远端信号与模拟房间的房间脉冲响应进行卷积。
11.根据权利要求10所述的系统,其中,所述变换所述级联的话语还包括:
对所述远端信号应用硬削波以产生削波的远端信号;并且
对所述削波的远端信号施加sigmoidal失真。
12.一种用于执行回声消除的系统,所述系统包括:
处理器;以及
存储指令的存储器,当由所述处理器执行时,所述指令使所述处理器:
从远端设备接收远端信号;
记录麦克风信号,包括:
近端信号;以及
对应于所述远端信号的回声信号;
从所述远端信号中提取多个远端特征;
从所述麦克风信号中提取多个麦克风特征;
根据先前的声学路径参数、先前的远端特征以及先前的麦克风特征来计算多个声学路径参数;
基于所述远端特征、所述麦克风特征和所述声学路径参数计算多个误差特征;
通过将所述麦克风特征、所述远端特征和所述误差特征供应给声学回声消除模块,从所述麦克风信号计算多个估计的近端特征,所述声学回声消除模块包括递归神经网络,所述递归神经网络包括:
编码器,所述编码器包括多个门控递归单元,所述编码器被配置为将所述麦克风特征和所述远端特征编码为编码特征;以及
解码器,所述解码器包括多个门控递归单元,所述解码器被配置为基于所述编码特征对所述估计的近端特征进行解码;
从所述估计的近端特征计算估计的近端信号;并且
将所述估计的近端信号传输到所述远端设备。
13.根据权利要求12所述的系统,其中,所述声学回声消除模块还包括被配置为从所述编码特征计算上下文注意力特征的上下文注意力模块,并且
其中,所述解码器被配置为基于所述上下文注意力特征来计算所述估计的近端特征。
14.根据权利要求12所述的系统,其中,被供应给所述声学回声消除模块的所述远端特征包括远端特征的当前帧和远端特征的多个先前帧的因果窗口,
其中,被供应给所述声学回声消除模块的所述麦克风特征包括麦克风特征的当前帧和麦克风特征的多个先前帧的因果窗口,并且
其中,被供应给所述声学回声消除模块的所述误差特征包括误差特征的当前帧和误差特征的多个先前帧的因果窗口。
15.根据权利要求12所述的系统,其中,所述估计的近端特征包括估计的近端特征的当前帧和估计的近端特征的多个先前帧的因果窗口,并且
其中,通过迭代地训练多个参数来训练所述递归神经网络,所述多个参数将所述递归神经网络配置为将所述估计的近端特征和所述多个训练数据的多个真值近端特征之间的差异最小化。
16.根据权利要求15所述的系统,其中,所述训练数据通过以下方式生成:
加载训练数据的语料库,所述语料库包括来自多个不同人类说话者的记录的话语;
选择多对人类说话者;
对于每对人类说话者:
级联所述对人类说话者中的第一说话者的多个话语以生成训练远端信号;
变换级联的话语以模拟声学路径,从而生成训练回声信号;
填充所述对人类说话者中的第二说话者的话语,以生成长度等于所述训练远端信号的训练近端信号;以及
将所述训练回声信号与所述训练近端信号混合以生成训练麦克风信号。
17.根据权利要求16所述的系统,其中,所述变换所述级联的话语包括将所述远端信号与模拟房间的房间脉冲响应进行卷积。
18.根据权利要求17所述的系统,其中,所述变换所述级联的话语包括:
对所述远端信号应用硬削波以产生削波的远端信号;并且
对所述削波的远端信号施加sigmoidal失真。
19.根据权利要求12所述的系统,其中,所述远端特征、所述麦克风特征和所述估计的近端特征包括对数谱空间中的对数短时傅立叶变换特征。
CN202010235125.8A 2019-03-28 2020-03-27 用深度多任务递归神经网络来声学回声消除的系统和方法 Pending CN111755019A (zh)

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
US201962825681P 2019-03-28 2019-03-28
US62/825,681 2019-03-28
US201962838146P 2019-04-24 2019-04-24
US62/838,146 2019-04-24
US16/573,573 2019-09-17
US16/573,573 US10803881B1 (en) 2019-03-28 2019-09-17 System and method for acoustic echo cancelation using deep multitask recurrent neural networks
US201962914875P 2019-10-14 2019-10-14
US62/914,875 2019-10-14
US16/751,094 US11393487B2 (en) 2019-03-28 2020-01-23 System and method for acoustic echo cancelation using deep multitask recurrent neural networks
US16/751,094 2020-01-23

Publications (1)

Publication Number Publication Date
CN111755019A true CN111755019A (zh) 2020-10-09

Family

ID=72673446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010235125.8A Pending CN111755019A (zh) 2019-03-28 2020-03-27 用深度多任务递归神经网络来声学回声消除的系统和方法

Country Status (3)

Country Link
US (1) US11393487B2 (zh)
KR (1) KR20200115107A (zh)
CN (1) CN111755019A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420073A (zh) * 2020-10-12 2021-02-26 北京百度网讯科技有限公司 语音信号处理方法、装置、电子设备和存储介质
CN112489679A (zh) * 2020-11-20 2021-03-12 广州华多网络科技有限公司 声学回声消除算法的评估方法、装置及终端设备
CN112489680A (zh) * 2020-11-20 2021-03-12 广州华多网络科技有限公司 声学回声消除算法的评估方法、装置及终端设备
CN112634923A (zh) * 2020-12-14 2021-04-09 广州智讯通信系统有限公司 基于指挥调度系统的音频回声消除方法、设备、存储介质
CN112687288A (zh) * 2021-03-12 2021-04-20 北京世纪好未来教育科技有限公司 回声消除方法、装置、电子设备和可读存储介质
CN113607325A (zh) * 2021-10-09 2021-11-05 武汉地震工程研究院有限公司 一种钢结构螺栓群松动定位智能监测方法及系统
CN115565543A (zh) * 2022-11-24 2023-01-03 全时云商务服务股份有限公司 一种基于深度神经网络的单通道语音回声消除方法和装置
WO2023044961A1 (zh) * 2021-09-23 2023-03-30 武汉大学 基于自注意力变换网络的多特征融合回声消除方法及系统
WO2023092955A1 (zh) * 2021-11-29 2023-06-01 北京达佳互联信息技术有限公司 音频信号处理方法及装置

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3474280B1 (en) * 2017-10-19 2021-07-07 Goodix Technology (HK) Company Limited Signal processor for speech signal enhancement
GB201804129D0 (en) * 2017-12-15 2018-05-02 Cirrus Logic Int Semiconductor Ltd Proximity sensing
US11410667B2 (en) * 2019-06-28 2022-08-09 Ford Global Technologies, Llc Hierarchical encoder for speech conversion system
KR20210071471A (ko) * 2019-12-06 2021-06-16 삼성전자주식회사 뉴럴 네트워크의 행렬 곱셈 연산을 수행하는 장치 및 방법
CN111427932B (zh) * 2020-04-02 2022-10-04 南方科技大学 出行预测方法、装置、设备和存储介质
WO2022086274A1 (ko) * 2020-10-22 2022-04-28 삼성전자 주식회사 전자 장치 및 이의 제어 방법
CN112863535B (zh) * 2021-01-05 2022-04-26 中国科学院声学研究所 一种残余回声及噪声消除方法及装置
KR102316712B1 (ko) * 2021-01-21 2021-10-22 한양대학교 산학협력단 심화 신경망을 이용한 다채널 기반의 잡음 및 에코 신호 통합 제거 장치
KR102374167B1 (ko) * 2021-01-21 2022-03-14 한양대학교 산학협력단 어텐션 메커니즘을 이용한 음성 신호 추정 방법 및 장치
KR102316626B1 (ko) * 2021-01-21 2021-10-22 한양대학교 산학협력단 병렬 구조의 심화신경망을 이용한 잡음 및 에코 신호 통합 제거 방법 및 장치
CN113707166B (zh) * 2021-04-07 2024-06-07 腾讯科技(深圳)有限公司 语音信号处理方法、装置、计算机设备和存储介质
CN113257267B (zh) * 2021-05-31 2021-10-15 北京达佳互联信息技术有限公司 干扰信号消除模型的训练方法和干扰信号消除方法及设备
US11776556B2 (en) * 2021-09-27 2023-10-03 Tencent America LLC Unified deep neural network model for acoustic echo cancellation and residual echo suppression
US20230154480A1 (en) * 2021-11-18 2023-05-18 Tencent America LLC Adl-ufe: all deep learning unified front-end system
US11984110B2 (en) * 2022-03-07 2024-05-14 Mediatek Singapore Pte. Ltd. Heterogeneous computing for hybrid acoustic echo cancellation
CN114842863B (zh) * 2022-04-19 2023-06-02 电子科技大学 一种基于多分支-动态合并网络的信号增强方法
CN115359370B (zh) * 2022-10-21 2023-01-24 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种遥感图像云检测方法、装置、计算机装置及存储介质
CN115602152B (zh) * 2022-12-14 2023-02-28 成都启英泰伦科技有限公司 一种基于多阶段注意力网络的语音增强方法
CN116386655B (zh) * 2023-06-05 2023-09-08 深圳比特微电子科技有限公司 回声消除模型建立方法和装置
CN117437929B (zh) * 2023-12-21 2024-03-08 睿云联(厦门)网络通讯技术有限公司 一种基于神经网络的实时回声消除方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2728120B2 (ja) * 1995-01-24 1998-03-18 日本電気株式会社 エコーキャンセラ装置
US5737485A (en) * 1995-03-07 1998-04-07 Rutgers The State University Of New Jersey Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems
US7277538B2 (en) 2000-10-27 2007-10-02 Tandberg Telecom As Distortion compensation in an acoustic echo canceler
US7660713B2 (en) * 2003-10-23 2010-02-09 Microsoft Corporation Systems and methods that detect a desired signal via a linear discriminative classifier that utilizes an estimated posterior signal-to-noise ratio (SNR)
US7742608B2 (en) 2005-03-31 2010-06-22 Polycom, Inc. Feedback elimination method and apparatus
US8204210B2 (en) 2010-02-09 2012-06-19 Nxp B.V. Method and system for nonlinear acoustic echo cancellation in hands-free telecommunication devices
US8744340B2 (en) 2010-09-13 2014-06-03 Qualcomm Incorporated Method and apparatus of obtaining timing in a repeater
US10142084B2 (en) 2016-07-01 2018-11-27 Intel Corporation Full-duplex self-interference cancellation
US10074380B2 (en) 2016-08-03 2018-09-11 Apple Inc. System and method for performing speech enhancement using a deep neural network-based signal
US11133011B2 (en) * 2017-03-13 2021-09-28 Mitsubishi Electric Research Laboratories, Inc. System and method for multichannel end-to-end speech recognition
KR101934636B1 (ko) 2017-04-14 2019-01-02 한양대학교 산학협력단 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치
CN107481728B (zh) 2017-09-29 2020-12-11 百度在线网络技术(北京)有限公司 背景声消除方法、装置及终端设备
EP3474280B1 (en) * 2017-10-19 2021-07-07 Goodix Technology (HK) Company Limited Signal processor for speech signal enhancement
US10771621B2 (en) 2017-10-31 2020-09-08 Cisco Technology, Inc. Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications
US10803881B1 (en) * 2019-03-28 2020-10-13 Samsung Electronics Co., Ltd. System and method for acoustic echo cancelation using deep multitask recurrent neural networks

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420073A (zh) * 2020-10-12 2021-02-26 北京百度网讯科技有限公司 语音信号处理方法、装置、电子设备和存储介质
CN112420073B (zh) * 2020-10-12 2024-04-16 北京百度网讯科技有限公司 语音信号处理方法、装置、电子设备和存储介质
CN112489679A (zh) * 2020-11-20 2021-03-12 广州华多网络科技有限公司 声学回声消除算法的评估方法、装置及终端设备
CN112489680A (zh) * 2020-11-20 2021-03-12 广州华多网络科技有限公司 声学回声消除算法的评估方法、装置及终端设备
CN112489680B (zh) * 2020-11-20 2023-08-08 广州华多网络科技有限公司 声学回声消除算法的评估方法、装置及终端设备
CN112489679B (zh) * 2020-11-20 2023-08-08 广州华多网络科技有限公司 声学回声消除算法的评估方法、装置及终端设备
CN112634923B (zh) * 2020-12-14 2021-11-19 广州智讯通信系统有限公司 基于指挥调度系统的音频回声消除方法、设备、存储介质
CN112634923A (zh) * 2020-12-14 2021-04-09 广州智讯通信系统有限公司 基于指挥调度系统的音频回声消除方法、设备、存储介质
CN112687288A (zh) * 2021-03-12 2021-04-20 北京世纪好未来教育科技有限公司 回声消除方法、装置、电子设备和可读存储介质
WO2023044961A1 (zh) * 2021-09-23 2023-03-30 武汉大学 基于自注意力变换网络的多特征融合回声消除方法及系统
CN113607325A (zh) * 2021-10-09 2021-11-05 武汉地震工程研究院有限公司 一种钢结构螺栓群松动定位智能监测方法及系统
WO2023092955A1 (zh) * 2021-11-29 2023-06-01 北京达佳互联信息技术有限公司 音频信号处理方法及装置
CN115565543A (zh) * 2022-11-24 2023-01-03 全时云商务服务股份有限公司 一种基于深度神经网络的单通道语音回声消除方法和装置

Also Published As

Publication number Publication date
US20200312346A1 (en) 2020-10-01
KR20200115107A (ko) 2020-10-07
US11393487B2 (en) 2022-07-19
US20220293120A1 (en) 2022-09-15

Similar Documents

Publication Publication Date Title
CN111755019A (zh) 用深度多任务递归神经网络来声学回声消除的系统和方法
CN111756942B (zh) 执行回声消除的通信设备和方法及计算机可读介质
Zhang et al. Deep learning for environmentally robust speech recognition: An overview of recent developments
Zhang et al. Deep learning for acoustic echo cancellation in noisy and double-talk scenarios
Fazel et al. CAD-AEC: Context-aware deep acoustic echo cancellation
Fazel et al. Deep Multitask Acoustic Echo Cancellation.
Halimeh et al. Combining adaptive filtering and complex-valued deep postfiltering for acoustic echo cancellation
Richter et al. Speech Enhancement with Stochastic Temporal Convolutional Networks.
Zhang et al. Multi-task deep residual echo suppression with echo-aware loss
CN114283795A (zh) 语音增强模型的训练、识别方法、电子设备和存储介质
Tammen et al. Deep multi-frame MVDR filtering for single-microphone speech enhancement
CN114974280A (zh) 音频降噪模型的训练方法、音频降噪的方法及装置
US20240129410A1 (en) Learning method for integrated noise echo cancellation system using cross-tower nietwork
Pfeifenberger et al. Deep complex-valued neural beamformers
WO2022077305A1 (en) Method and system for acoustic echo cancellation
Ma et al. Multi-scale attention neural network for acoustic echo cancellation
Chung et al. Deep convolutional neural network-based inverse filtering approach for speech de-reverberation
US20240135954A1 (en) Learning method for integrated noise echo cancellation system using multi-channel based cross-tower network
US12033652B2 (en) System and method for acoustic echo cancelation using deep multitask recurrent neural networks
KR102374166B1 (ko) 원단 신호 정보를 이용한 반향 신호 제거 방법 및 장치
Schwartz et al. RNN-based step-size estimation for the RLS algorithm with application to acoustic echo cancellation
Brendel et al. Manifold learning-supported estimation of relative transfer functions for spatial filtering
Kim et al. U-convolution based residual echo suppression with multiple encoders
Alishahi et al. Echo Cancelation and Noise Suppression by Training a Dual-Stream Recurrent Network with a Mixture of Training Targets
Shah Implementation and Evaluation of Gated Recurrent Unit for Speech Separation and Speech Enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination