CN112542176A - 信号增强方法、装置及存储介质 - Google Patents
信号增强方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112542176A CN112542176A CN202011214781.6A CN202011214781A CN112542176A CN 112542176 A CN112542176 A CN 112542176A CN 202011214781 A CN202011214781 A CN 202011214781A CN 112542176 A CN112542176 A CN 112542176A
- Authority
- CN
- China
- Prior art keywords
- sub
- signal
- band
- band signal
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012545 processing Methods 0.000 claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 24
- 238000013527 convolutional neural network Methods 0.000 claims description 56
- 230000008569 process Effects 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 19
- 238000001228 spectrum Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 11
- 238000013434 data augmentation Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 11
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 4
- 230000004044 response Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000002592 echocardiography Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了信号增强方法、装置及存储介质,涉及深度学习及智能语音等人工智能领域,其中的方法可包括:对待处理的第一信号进行子带分解,得到第一子带信号,对第一信号对应的参考信号进行子带分解,得到第二子带信号;对第一子带信号进行线性声学回波消除,得到第三子带信号;将第三子带信号及第二子带信号输入预先训练得到的第一模型,根据第一模型的输出及第三子带信号生成去除噪声和残留回波的第四子带信号;根据第四子带信号生成增强后的第一信号。应用本申请所述方案,可避免前后模块的不匹配和处理冗余的问题,并能达到更好的去除噪声和残留回波的效果等。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及深度学习及智能语音领域的信号增强方法、装置及存储介质。
背景技术
噪声和残留回波会破坏语音信号的听感质量。其中,噪声主要来自于嘈杂的使用环境,残留回波主要是由于设备扬声器非线性等各种因素导致的线性声学回波消除(AEC,Acoustic Echo Canceller)无法抵消掉的设备自身播放的内噪。
为去除噪声和残留回波,目前通常需要设计两个独立的组件(模块)。近年来的研究表明,基于麦克风阵列的波束形成器(BF,Beamformer)可以进一步抑制噪声和残留回波。BF也是一个独立的组件。
三个组件之间通常采用级联的形式工作,后一级组件会受到前一级组件的输出的影响,这样可能导致前后模块的不匹配,处理也会存在冗余,而且去除噪声和残留回波的效果也不理想等。
发明内容
本申请提供了信号增强方法、装置及存储介质。
一种信号增强方法,包括:
对待处理的第一信号进行子带分解,得到第一子带信号,对所述第一信号对应的参考信号进行子带分解,得到第二子带信号;
对所述第一子带信号进行线性声学回波消除,得到第三子带信号;
将所述第三子带信号及所述第二子带信号输入预先训练得到的第一模型,根据所述第一模型的输出及所述第三子带信号生成去除噪声和残留回波的第四子带信号;
根据所述第四子带信号生成增强后的第一信号。
一种信号增强装置,包括:子带分解模块、线性处理模块、第一去除模块及信号生成模块;
所述子带分解模块,用于对待处理的第一信号进行子带分解,得到第一子带信号,对所述第一信号对应的参考信号进行子带分解,得到第二子带信号;
所述线性处理模块,用于对所述第一子带信号进行线性声学回波消除,得到第三子带信号;
所述第一去除模块,用于将所述第三子带信号及所述第二子带信号输入预先训练得到的第一模型,根据所述第一模型的输出及所述第三子带信号生成去除噪声和残留回波的第四子带信号;
所述信号生成模块,用于根据所述第四子带信号生成增强后的第一信号。
一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如以上所述的方法。
上述申请中的一个实施例具有如下优点或有益效果:可借助于第一模型同时达到去除噪声和残留回波的目的,即利用第一模型同时完成了现有技术中需要由三个组件完成的任务,从而避免了前后模块的不匹配和处理冗余的问题,并能够达到更好的去除噪声和残留回波的效果等。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请所述信号增强方法实施例的流程图;
图2为本申请所述麦克风阵列采集信号增强方法的实现过程及第一模型的结构示意图;
图3为本申请所述一段含有噪声和残留回波的麦克风阵列采集信号的时域波形图与频谱图;
图4为借助于本申请所述第一模型处理后的效果示意图;
图5为本申请所述信号增强装置实施例50的组成结构示意图;
图6为根据本申请实施例所述方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本申请所述信号增强方法实施例的流程图。如图1所示,包括以下具体实现方式。
在步骤101中,对待处理的第一信号进行子带分解,得到第一子带信号,对第一信号对应的参考信号进行子带分解,得到第二子带信号。
在步骤102中,对第一子带信号进行线性声学回波消除,得到第三子带信号。
在步骤103中,将第三子带信号及第二子带信号输入预先训练得到的第一模型,根据第一模型的输出及第三子带信号生成去除噪声和残留回波的第四子带信号。
在步骤104中,根据第四子带信号生成增强后的第一信号。
上述方法实施例中,可借助于第一模型同时达到去除噪声和残留回波的目的,即利用第一模型同时完成了现有技术中需要由三个组件完成的任务,从而避免了前后模块的不匹配和处理冗余的问题,并能够达到更好的去除噪声和残留回波的效果等。
优选地,所述第一信号可为麦克风阵列采集信号,以下即以麦克风阵列采集信号为例进行说明。
第一模型也可称为去噪&残留回波抑制&波束形成联合模型,其输入包含两部分,一部分是基于麦克风阵列采集信号处理得到的第三子带信号,另一部分是基于参考信号处理得到的第二子带信号。
麦克风阵列采集信号(也可称为多通道观测信号)y(t)可以表示为线性回波、非线性回波、噪声、混响语音等几部分的叠加:
y(t)=r(t)*h(t)+z(t)+x(t)+n(t);
其中,x(t)表示混响语音,r(t)表示远端的参考信号,h(t)表示扬声器到多个麦克风的房间脉冲响应(RIR,Room Impulse Response),z(t)表示非线性回波,n(t)表示噪声,*表示时域卷积操作。
如前所述,可对麦克风阵列采集信号进行子带分解,得到第一子带信号,同时,可对麦克风阵列采集信号对应的参考信号进行子带分解,得到第二子带信号。如何进行子带分解为现有技术。
麦克风阵列采集信号对应的参考信号即指公式(1)中的r(t),借助于参考信号,可以帮助第一模型更好的去除残留回波等。
之后,可对第一子带信号做子带域的线性声学回波消除,以去除线性回波内噪分量。
进一步地,还可将第三子带信号及第二子带信号输入第一模型,得到第一模型的输出。第一模型的输出可包括:第三子带信号中的各子带分别对应的语音存在概率。
相应地,第一模型可用于执行以下操作:利用第一复数(complex)卷积神经网络(CNN,Convolutional Neural Network)对第三子带信号进行复数CNN处理,利用第二复数CNN对第二子带信号进行复数CNN处理;将第一复数CNN和第二复数CNN的输出进行拼接;根据拼接结果,通过第一预定处理生成第三子带信号中的各子带分别对应的语音存在概率。
也就是说,可使用两个复数CNN,其中一个用来处理多通道的麦克风阵列采集信号,也可称为麦克支路(mic)复数CNN,用来模拟固定波束形成的操作,另外一个复数CNN用来处理单通道的参考信号,也可称为参考支路(ref)复数CNN,主要是为了模拟麦克支路的处理,使得参考支路的输出表现能够尽量和麦克支路匹配,同时也引入了参考通道的相位信息等。
本申请中通过引入麦克支路复数CNN和参考支路复数CNN,使得模型具备了波束形成以及残留回波抑制等能力。
可将两个复数CNN的输出进行拼接,即可将麦克支路复数CNN和参考支路复数CNN的输出拼接在一起。
进而可根据拼接结果,通过第一预定处理生成第三子带信号中的各子带分别对应的语音存在概率。第一预定处理可包括:依次进行的最大池化(Maxpooling)、取绝对值后的对数运算(log||)、至少两层实数CNN、至少两层循环神经网络(RNN,Recurrent NeuralNetwork)、全连接(FC,Full Connect)及S型函数(sigmoid)处理。其中,log||指先获取绝对值,再对绝对值进行log运算。RNN可以选用门控循环单元(GRU,Gated Recurrent Unit)或长短期记忆网络(LSTM,Long Short-Term Memory)等RNN模型的变体。各处理的具体实现均为现有技术,另外,各处理中涉及到的参数的具体取值均可根据实际需要而定。
通过Maxpooling处理可以减少拼接后数据的频带数量,降低后续模型的输入特征的维度,降低模型的计算复杂度等,如池化后的特征维度可下降为输入的1/N,N为池化参数。Maxpooling处理后的输出可进行log||处理,将复数输入转换为实数输出,同时可压缩输入的动态范围等。之后可进行多层实数CNN处理,实数CNN的引入可以融合麦克支路和参考支路的信息,卷积为非因果,因此可以为后续的处理提供未来信息的视野,提升模型预测语音存在概率的效果等。实数CNN后可为多层的RNN,可以增强模型对于时序特征的建模能力。
可根据第一模型的输出及第三子带信号生成去除噪声和残留回波的第四子带信号。比如,可用第一模型的输出点乘第三子带信号中的幅度谱,从而得到第四子带信号。
第三子带信号中同时包括相位和幅度信息,其中相位信息可保持不变,用第一模型的输出点乘第三子带信号中的幅度谱,从而得到第四子带信号。假设第三子带信号中包含M个子带,那么可得到M个语音存在概率,可将各语音存在概率分别与对应的幅度谱相乘。语音存在概率的取值可在0-1之间。
之后,可根据第四子带信号生成增强后的麦克风阵列采集信号,即得到去除噪声和残留回波后的麦克风阵列采集信号。如何根据第四子带信号生成增强后的麦克风阵列采集信号不作限制,比如,可对第四子带信号进行预定的后处理及子带合成等,从而得到增强后的麦克风阵列采集信号。
此外,本申请所述方案中还提出:还可分别获取第三子带信号中的各子带对应的去混响增益因子,并可用去混响增益因子点乘第四子带信号中的幅度谱,从而得到去除噪声、残留回波和混响的第五子带信号,进而可根据第五子带信号生成增强后的麦克风阵列采集信号。
如何获取第三子带信号中的各子带对应的去混响增益因子不作限制,可根据实际需要而定。比如,作为一种可能的实现方式,可将第三子带信号输入预先训练得到的预去混响模型,并得到其输出的第三子带信号中的各子带分别对应的含噪直达声语音存在概率,作为各子带分别对应的去混响增益因子。
其中,预去混响模型可用于执行以下操作:对第三子带信号进行右移(shift)操作;将右移操作结果与第三子带信号进行拼接(concat);对拼接结果中每个子带对应的部分分别执行第二预定处理,从而得到各子带对应的去混响增益因子。
通过右移操作,可形成“参考通道”,该处理可以将过去的观测信息对齐到当前时刻,从而便于网络利用过去信息消除当前信号中的混响,这一点参考了传统信号处理中加权预测误差算法。通过拼接操作,可将右移操作结果与第三子带信号进行拼接,将拼接结果作为后续处理的输入。
对于拼接结果中每个子带对应的部分,可分别通过执行第二预定处理,生成子带对应的去混响增益因子。第二预定处理可包括:依次进行的复数CNN、log||、至少两层realCNN、至少两层RNN、全连接及sigmoid处理。即针对拼接结果,可以每个子带为单位,分别经过复数CNN、log||、多层实数CNN、多层RNN、全连接以及sigmoid处理。各处理的具体实现均为现有技术,另外,各处理中涉及到的参数的具体取值均可根据实际需要而定。
可用去混响增益因子点乘第四子带信号中的幅度谱,从而得到第五子带信号,进而可对第五子带信号进行预定的后处理及子带合成等,从而得到增强后的麦克风阵列采集信号。
通过上述处理,可进一步去除麦克风阵列采集信号中的混响,从而进一步提升了去除效果,提升了听感质量等。
基于上述介绍,图2为本申请所述麦克风阵列采集信号增强方法的实现过程及第一模型的结构示意图。如图2所示,第一模型整体采用了复数CNN(如Conv2D)+Maxpooling+实数CNN+RNN+全连接+sigmoid的结构,全连接和sigmoid将RNN的输出映射为各个子带的语音存在概率,输出的语音存在概率会作为增益因子乘在第三子带信号的幅度谱上,从而得到增强后的幅度谱。如图2所示,作为一种可能的实现方式,第一模型中可包括4层实数CNN和2层RNN(即图中所示的GRU),另外,还可在实数CNN之后增加重塑(reshape)处理,再有,为了加快模型训练的收敛速度和模型的非线性建模能力,在每层的实数CNN之后还可分别进行贝叶斯网络(BN,Bayesian Network)和非线性激活(Relu6)的操作。第一模型中具体包括哪些操作可根据实际需要而定,不限于图中所示。图2中所示各步的具体实现请参照前述相关说明,不再赘述。
第一模型可为预先训练得到的,即可根据所构建的训练样本,训练得到第一模型。
比如,可用语音声源对应的房间脉冲响应卷积干净的目标语音,作为模型的预测的目标,同组中的噪声声源对应的房间脉冲响应卷积噪声,得到带混响噪声,多种设备录制的内噪数据集合经过线性声学回波消除后得到残留回波,目标、带混响噪声及残留回波通过随机信噪比混合形成模型的输入。
上述构建第一模型的输入和目标的方式仅为举例说明,并不用于限制本申请的技术方案,只要最终训练得到的第一模型能够完成本申请所述功能即可。
另外,上述构建的第一模型的输入和目标中所涉及到的语音声源对应的房间脉冲响应、噪声声源对应的房间脉冲响应以及内噪数据集合等均为按照预定方式预先获取的,如何获取不作限制。
以房间脉冲响应为例,可配置麦克风阵列间距,麦克风指向性,采样频率,房间尺寸,混响时间,声源位置,麦克风位置等各种参数,使用虚源法生成各种参数配置下的房间脉冲响应数据,每组房间脉冲响应中可包含有两个不同声源位置的房间脉冲响应,一个对应于语音声源(目标语音),另外一个对应于噪声声源,每组房间脉冲响应中的两个房间脉冲响应除了对应的声源不同之外,其它的参数配置相同。
在训练过程中,还可执行以下操作之一或任意组合:使用尺度不变信噪比(SI-SNR,Scale Invariant Source-to-Noise Ratio)作为损失函数,以提升模型的训练效果;使用长句训练;对模型的输入和目标采用包括随机均衡、随机增益处理和随机静音中的至少一种的数据增广策略。通过后两种方式,可增加数据的多样性,确保模型可以在复杂的场景下稳定工作等。
损失函数SI-SNR可表示如下:
图3为本申请所述一段含有噪声和残留回波的麦克风阵列采集信号的时域波形图与频谱图。图4为借助于本申请所述第一模型处理后的效果示意图。如图3所示,其中的最右侧框选区域中包含有残留回波,其它框选区域中包含有近讲语音,未框选的区域中包含有噪声等。可以看出,处理后的语音得到了很好的保留,同时噪声和残留回波均被大幅抑制。
需要说明的是,对于前述的方法实施例,为了简单描述,将其表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本申请所述方案进行进一步说明。
图5为本申请所述信号增强装置实施例50的组成结构示意图。如图5所示,包括:子带分解模块501、线性处理模块502、第一去除模块503及信号生成模块504。
子带分解模块501,用于对待处理的第一信号进行子带分解,得到第一子带信号,对第一信号对应的参考信号进行子带分解,得到第二子带信号。
线性处理模块502,用于对第一子带信号进行线性声学回波消除,得到第三子带信号。
第一去除模块503,用于将第三子带信号及第二子带信号输入预先训练得到的第一模型,根据第一模型的输出及第三子带信号生成去除噪声和残留回波的第四子带信号。
信号生成模块504,用于根据第四子带信号生成增强后的第一信号。
优选地,所述第一信号可为麦克风阵列采集信号,以下即以麦克风阵列采集信号为例进行说明。
第一模型也可称为去噪&残留回波抑制&波束形成联合模型,其输入包含两部分,一部分是基于麦克风阵列采集信号处理得到的第三子带信号,另一部分是基于参考信号处理得到的第二子带信号。
子带分解模块501可对麦克风阵列采集信号进行子带分解,得到第一子带信号,同时,可对麦克风阵列采集信号对应的参考信号进行子带分解,得到第二子带信号。
之后,线性处理模块502可对第一子带信号进行线性声学回波消除,从而得到第三子带信号。
进一步地,第一去除模块503可将第三子带信号及第二子带信号输入第一模型,得到第一模型的输出。第一模型的输出可包括:第三子带信号中的各子带分别对应的语音存在概率。
相应地,第一模型可用于执行以下操作:利用第一复数CNN对第三子带信号进行复数CNN处理,利用第二复数CNN对第二子带信号进行复数CNN处理;将第一复数CNN和第二复数CNN的输出进行拼接;根据拼接结果,通过第一预定处理生成第三子带信号中的各子带分别对应的语音存在概率。
也就是说,可使用两个复数CNN,其中一个用来处理多通道的麦克风阵列采集信号,也可称为麦克支路复数CNN,用来模拟固定波束形成的操作,另外一个复数CNN用来处理单通道的参考信号,也可称为参考支路复数CNN,主要是为了模拟麦克支路的处理,使得参考支路的输出表现能够尽量和麦克支路匹配,同时也引入了参考通道的相位信息等。
可将两个复数CNN的输出进行拼接,即可将麦克支路复数CNN和参考支路复数CNN的输出拼接在一起。进而可根据拼接结果,通过第一预定处理生成第三子带信号中的各子带分别对应的语音存在概率。第一预定处理可包括:依次进行的Maxpooling、log||、至少两层实数CNN、至少两层RNN、全连接及sigmoid处理等。
第一去除模块503可根据第一模型的输出及第三子带信号生成去除噪声和残留回波的第四子带信号。比如,可用第一模型的输出点乘第三子带信号中的幅度谱,从而得到第四子带信号。
信号生成模块504可根据第四子带信号生成增强后的麦克风阵列采集信号,即得到去除噪声和残留回波后的麦克风阵列采集信号。比如,可对第四子带信号进行预定的后处理及子带合成等,从而得到增强后的麦克风阵列采集信号。
如图5所示,所述装置中还可包括:第二去除模块505,用于分别获取第三子带信号中的各子带对应的去混响增益因子。
相应地,第一去除模块503可进一步用于,用去混响增益因子点乘第四子带信号中的幅度谱,从而得到去除噪声、残留回波和混响的第五子带信号。
信号生成模块504可进一步用于,根据第五子带信号生成增强后的麦克风阵列采集信号。
如图5所示,所述装置中还可包括:预处理模块500,用于根据所构建的训练样本,训练得到第一模型;其中,在训练过程中,还可执行以下操作之一或任意组合:使用尺度不变信噪比作为损失函数;使用长句训练;对模型的输入和目标采用包括随机均衡、随机增益处理和随机静音中的至少一种的数据增广策略。
图5所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明,不再赘述。
总之,采用本申请装置实施例所述方案,可借助于第一模型同时达到去除噪声和残留回波的目的,即利用第一模型同时完成了现有技术中需要由三个组件完成的任务,从而避免了前后模块的不匹配和处理冗余的问题,并能够达到更好的去除噪声和残留回波的效果等,在此基础上,还可进一步去除混响,从而进一步提升了去除效果等。
本申请所述方案可应用于人工智能领域,特别涉及深度学习及智能语音等领域。人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术,人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术,人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例所述方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器Y01、存储器Y02,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示图形用户界面的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器Y01为例。
存储器Y02即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的方法。
存储器Y02作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的方法对应的程序指令/模块。处理器Y01通过运行存储在存储器Y02中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
存储器Y02可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器Y02可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器Y02可选包括相对于处理器Y01远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、区块链网络、局域网、移动通信网及其组合。
电子设备还可以包括:输入装置Y03和输出装置Y04。处理器Y01、存储器Y02、输入装置Y03和输出装置Y04可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置Y03可接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置Y04可以包括显示设备、辅助照明装置和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器、发光二极管显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,阴极射线管或者液晶显示器监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网、广域网、区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (14)
1.一种信号增强方法,包括:
对待处理的第一信号进行子带分解,得到第一子带信号,对所述第一信号对应的参考信号进行子带分解,得到第二子带信号;
对所述第一子带信号进行线性声学回波消除,得到第三子带信号;
将所述第三子带信号及所述第二子带信号输入预先训练得到的第一模型,根据所述第一模型的输出及所述第三子带信号生成去除噪声和残留回波的第四子带信号;
根据所述第四子带信号生成增强后的第一信号。
2.根据权利要求1所述的方法,其中,
所述第一模型的输出包括:所述第三子带信号中的各子带分别对应的语音存在概率;
所述根据所述第一模型的输出及所述第三子带信号生成去除噪声和残留回波的第四子带信号包括:用所述第一模型的输出点乘所述第三子带信号中的幅度谱,得到所述第四子带信号。
3.根据权利要求2所述的方法,其中,
所述第一模型用于执行以下操作:利用第一复数卷积神经网络CNN对所述第三子带信号进行复数CNN处理,利用第二复数CNN对所述第二子带信号进行复数CNN处理;将所述第一复数CNN和所述第二复数CNN的输出进行拼接;根据所述拼接结果,通过第一预定处理生成所述第三子带信号中的各子带分别对应的所述语音存在概率。
4.根据权利要求3所述的方法,其中,
所述第一预定处理包括:依次进行的最大池化Maxpooling、取绝对值后的对数运算log||、至少两层实数CNN、至少两层循环神经网络RNN、全连接及S型函数sigmoid处理。
5.根据权利要求1所述的方法,还包括:
分别获取所述第三子带信号中的各子带对应的去混响增益因子;
用所述去混响增益因子点乘所述第四子带信号中的幅度谱,得到去除噪声、残留回波和混响的第五子带信号;
根据所述第五子带信号生成增强后的第一信号。
6.根据权利要求1所述的方法,还包括:
根据所构建的训练样本,训练得到所述第一模型;
其中,在训练过程中执行以下操作之一或任意组合:使用尺度不变信噪比作为损失函数;使用长句训练;对模型的输入和目标采用包括随机均衡、随机增益处理和随机静音中的至少一种的数据增广策略。
7.一种信号增强装置,包括:子带分解模块、线性处理模块、第一去除模块及信号生成模块;
所述子带分解模块,用于对待处理的第一信号进行子带分解,得到第一子带信号,对所述第一信号对应的参考信号进行子带分解,得到第二子带信号;
所述线性处理模块,用于对所述第一子带信号进行线性声学回波消除,得到第三子带信号;
所述第一去除模块,用于将所述第三子带信号及所述第二子带信号输入预先训练得到的第一模型,根据所述第一模型的输出及所述第三子带信号生成去除噪声和残留回波的第四子带信号;
所述信号生成模块,用于根据所述第四子带信号生成增强后的第一信号。
8.根据权利要求7所述的装置,其中,
所述第一模型的输出包括:所述第三子带信号中的各子带分别对应的语音存在概率;
所述第一去除模块用所述第一模型的输出点乘所述第三子带信号中的幅度谱,得到所述第四子带信号。
9.根据权利要求8所述的装置,其中,
所述第一模型用于执行以下操作:利用第一复数卷积神经网络CNN对所述第三子带信号进行复数CNN处理,利用第二复数CNN对所述第二子带信号进行复数CNN处理;将所述第一复数CNN和所述第二复数CNN的输出进行拼接;根据所述拼接结果,通过第一预定处理生成所述第三子带信号中的各子带分别对应的所述语音存在概率。
10.根据权利要求9所述的装置,其中,
所述第一预定处理包括:依次进行的最大池化Maxpooling、取绝对值后的对数运算log||、至少两层实数CNN、至少两层循环神经网络RNN、全连接及S型函数sigmoid处理。
11.根据权利要求7所述的装置,还包括:第二去除模块;
所述第二去除模块,用于分别获取所述第三子带信号中的各子带对应的去混响增益因子;
所述第一去除模块进一步用于,用所述去混响增益因子点乘所述第四子带信号中的幅度谱,得到去除噪声、残留回波和混响的第五子带信号;
所述信号生成模块进一步用于,根据所述第五子带信号生成增强后的第一信号。
12.根据权利要求7所述的装置,还包括:预处理模块;
所述预处理模块,用于根据所构建的训练样本,训练得到所述第一模型;其中,在训练过程中执行以下操作之一或任意组合:使用尺度不变信噪比作为损失函数;使用长句训练;对模型的输入和目标采用包括随机均衡、随机增益处理和随机静音中的至少一种的数据增广策略。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011214781.6A CN112542176B (zh) | 2020-11-04 | 2020-11-04 | 信号增强方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011214781.6A CN112542176B (zh) | 2020-11-04 | 2020-11-04 | 信号增强方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112542176A true CN112542176A (zh) | 2021-03-23 |
CN112542176B CN112542176B (zh) | 2023-07-21 |
Family
ID=75013725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011214781.6A Active CN112542176B (zh) | 2020-11-04 | 2020-11-04 | 信号增强方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112542176B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113345457A (zh) * | 2021-06-01 | 2021-09-03 | 广西大学 | 一种基于贝叶斯理论的声学回声消除自适应滤波器及滤波方法 |
CN114242098A (zh) * | 2021-12-13 | 2022-03-25 | 北京百度网讯科技有限公司 | 一种语音增强方法、装置、设备以及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69731573D1 (de) * | 1996-02-09 | 2004-12-23 | Texas Instruments Inc | Geräuschverminderungsanordnung |
US20060153360A1 (en) * | 2004-09-03 | 2006-07-13 | Walter Kellermann | Speech signal processing with combined noise reduction and echo compensation |
CN101958122A (zh) * | 2010-09-19 | 2011-01-26 | 杭州华三通信技术有限公司 | 一种回声消除的方法和装置 |
EP2701145A1 (en) * | 2012-08-24 | 2014-02-26 | Retune DSP ApS | Noise estimation for use with noise reduction and echo cancellation in personal communication |
CN103778920A (zh) * | 2014-02-12 | 2014-05-07 | 北京工业大学 | 数字助听器中语音增强和频响补偿相融合方法 |
CN106210368A (zh) * | 2016-06-20 | 2016-12-07 | 百度在线网络技术(北京)有限公司 | 消除多通道声回波的方法和装置 |
CN106412352A (zh) * | 2016-09-19 | 2017-02-15 | 东莞理工学院 | 一种时频记忆子带比例自适应回声消除方法及回馈方法 |
CN106601266A (zh) * | 2017-02-24 | 2017-04-26 | 喜大(上海)网络科技有限公司 | 回声消除方法、装置及系统 |
US20180040333A1 (en) * | 2016-08-03 | 2018-02-08 | Apple Inc. | System and method for performing speech enhancement using a deep neural network-based signal |
US10229698B1 (en) * | 2017-06-21 | 2019-03-12 | Amazon Technologies, Inc. | Playback reference signal-assisted multi-microphone interference canceler |
CN110838300A (zh) * | 2019-11-18 | 2020-02-25 | 紫光展锐(重庆)科技有限公司 | 回声消除的处理方法及处理系统 |
CN111489760A (zh) * | 2020-04-01 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 语音信号去混响处理方法、装置、计算机设备和存储介质 |
CN111768796A (zh) * | 2020-07-14 | 2020-10-13 | 中国科学院声学研究所 | 一种声学回波消除与去混响方法及装置 |
-
2020
- 2020-11-04 CN CN202011214781.6A patent/CN112542176B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69731573D1 (de) * | 1996-02-09 | 2004-12-23 | Texas Instruments Inc | Geräuschverminderungsanordnung |
US20060153360A1 (en) * | 2004-09-03 | 2006-07-13 | Walter Kellermann | Speech signal processing with combined noise reduction and echo compensation |
CN101958122A (zh) * | 2010-09-19 | 2011-01-26 | 杭州华三通信技术有限公司 | 一种回声消除的方法和装置 |
EP2701145A1 (en) * | 2012-08-24 | 2014-02-26 | Retune DSP ApS | Noise estimation for use with noise reduction and echo cancellation in personal communication |
CN103778920A (zh) * | 2014-02-12 | 2014-05-07 | 北京工业大学 | 数字助听器中语音增强和频响补偿相融合方法 |
CN106210368A (zh) * | 2016-06-20 | 2016-12-07 | 百度在线网络技术(北京)有限公司 | 消除多通道声回波的方法和装置 |
US20180040333A1 (en) * | 2016-08-03 | 2018-02-08 | Apple Inc. | System and method for performing speech enhancement using a deep neural network-based signal |
CN106412352A (zh) * | 2016-09-19 | 2017-02-15 | 东莞理工学院 | 一种时频记忆子带比例自适应回声消除方法及回馈方法 |
CN106601266A (zh) * | 2017-02-24 | 2017-04-26 | 喜大(上海)网络科技有限公司 | 回声消除方法、装置及系统 |
US10229698B1 (en) * | 2017-06-21 | 2019-03-12 | Amazon Technologies, Inc. | Playback reference signal-assisted multi-microphone interference canceler |
CN110838300A (zh) * | 2019-11-18 | 2020-02-25 | 紫光展锐(重庆)科技有限公司 | 回声消除的处理方法及处理系统 |
CN111489760A (zh) * | 2020-04-01 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 语音信号去混响处理方法、装置、计算机设备和存储介质 |
CN111768796A (zh) * | 2020-07-14 | 2020-10-13 | 中国科学院声学研究所 | 一种声学回波消除与去混响方法及装置 |
Non-Patent Citations (4)
Title |
---|
GUILLAUME CARBAJAL ET AL.: "Joint DNN-Based Multichannel Reduction of Acoustic Echo, Reverberation and Noise", ARXIV * |
张炜;戴旭初;许小东;: "基于非均匀子带分解的宽带线性盲均衡器", no. 04, pages 949 - 952 * |
栾书明;程龙彪;孙兴伟;李军锋;颜永红;: "基于深度学习的两阶段联合声学回波和混响抑制技术", no. 06, pages 949 - 952 * |
沈希忠;孟光;: "单通道的语音盲去混响", 上海交通大学学报, no. 02 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113345457A (zh) * | 2021-06-01 | 2021-09-03 | 广西大学 | 一种基于贝叶斯理论的声学回声消除自适应滤波器及滤波方法 |
CN114242098A (zh) * | 2021-12-13 | 2022-03-25 | 北京百度网讯科技有限公司 | 一种语音增强方法、装置、设备以及存储介质 |
CN114242098B (zh) * | 2021-12-13 | 2023-08-29 | 北京百度网讯科技有限公司 | 一种语音增强方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112542176B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6808069B2 (ja) | 音声認識システム | |
CN112489668B (zh) | 去混响方法、装置、电子设备和存储介质 | |
JP7214798B2 (ja) | 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体 | |
CN111933164B (zh) | 语音处理模型的训练方法、装置、电子设备和存储介质 | |
CN111968658A (zh) | 语音信号的增强方法、装置、电子设备和存储介质 | |
CN112542176B (zh) | 信号增强方法、装置及存储介质 | |
WO2022012206A1 (zh) | 音频信号处理方法、装置、设备及存储介质 | |
US20230186930A1 (en) | Speech enhancement method and apparatus, and storage medium | |
CN114974280A (zh) | 音频降噪模型的训练方法、音频降噪的方法及装置 | |
EP4172987A1 (en) | Speech enhancement | |
CN112491449A (zh) | 声回波消除方法、装置、电子设备和存储介质 | |
CN112466327B (zh) | 语音处理方法、装置和电子设备 | |
Paikrao et al. | Consumer Personalized Gesture Recognition in UAV Based Industry 5.0 Applications | |
Pertilä | Online blind speech separation using multiple acoustic speaker tracking and time–frequency masking | |
CN116868265A (zh) | 用于动态声学环境中的数据增强和语音处理的系统和方法 | |
CN112581933B (zh) | 语音合成模型获取方法、装置、电子设备及存储介质 | |
CN111681649B (zh) | 语音识别方法、交互系统及包括该系统的成绩管理系统 | |
Zhou et al. | A Novel Cross-Attention Fusion-Based Joint Training Framework for Robust Underwater Acoustic Signal Recognition | |
CN112542177B (zh) | 信号增强方法、装置及存储介质 | |
CN118613866A (zh) | 用于使用递归神经网络进行统一声学回声抑制的技术 | |
Krueger et al. | Bayesian Feature Enhancement for ASR of Noisy Reverberant Real-World Data. | |
Chen et al. | An End-to-End Speech Enhancement Method Combining Attention Mechanism to Improve GAN | |
CN114299977B (zh) | 混响语音的处理方法、装置、电子设备及存储介质 | |
US20230298612A1 (en) | Microphone Array Configuration Invariant, Streaming, Multichannel Neural Enhancement Frontend for Automatic Speech Recognition | |
Dehghan Firoozabadi et al. | Subband processing‐based approach for the localisation of two simultaneous speakers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |