CN111179920A - 一种端到端远场语音识别方法及系统 - Google Patents
一种端到端远场语音识别方法及系统 Download PDFInfo
- Publication number
- CN111179920A CN111179920A CN201911415037.XA CN201911415037A CN111179920A CN 111179920 A CN111179920 A CN 111179920A CN 201911415037 A CN201911415037 A CN 201911415037A CN 111179920 A CN111179920 A CN 111179920A
- Authority
- CN
- China
- Prior art keywords
- signal
- channel
- masking
- multichannel
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000000873 masking effect Effects 0.000 claims abstract description 74
- 238000005457 optimization Methods 0.000 claims abstract description 37
- 230000003595 spectral effect Effects 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims abstract description 13
- 230000002708 enhancing effect Effects 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000001228 spectrum Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 13
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 abstract description 5
- 230000007246 mechanism Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明提供一种端到端远场语音识别方法及系统。在一个实施例中,将多通道信号的频谱特征和空间特征进行融合,并输入掩蔽网络中计算多通道信号的掩蔽值;根据所述掩蔽值计算多通道信号的波束形成系数,并根据所述波束形成系数对多通道语音信号进行增强;将增强后的多通道信号输入到编码解码网络中进行声学建模和优化,并在优化过程中加入最大信噪比准则进行联合优化;将优化后的多通道信号作为最终识别结果,并输出。通过将神经网络波束形成和声学建模结合进行联合优化以及将最大信噪比优化准则和语音识别准则进行联合优化。解决了前端语音增强和语音识非一致优化的问题。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种端到端远场语音识别方法及系统。
背景技术
语音识别技术是将输入的语音转换成文本的重要技术,虽然神经网络声学模型很大程度上降低了近场语音识别系统的识别错误率,但识别系统对远场语音的识别准确率仍远低于对近场语音的识别准确率。远场语音中存在的背景噪声、混响以及人声干扰是影响语音识别技术广泛实用化的一个关键因素。
迄今为止,前人已经提出不少旨在提高远场语音识别性能的方法。这些方法大致可以概括成三类:一是采用两阶段训练算法,即先对语音信号进行增强,然后将增强后的信号进行后端声学建模;二是直接利用远场语音数据训练声学模型,并在训练过程中加入混响信息等以及使用更复杂的神经网络结构来进行声学建模;三是将语音信号增强和声学建模放在一个框架里面进行联合优化。
为此本发明提出一种基于空间特征和最大信噪比准则的端到端远场语音识别方法。首先将多通道语音的频谱特征和空间特征进行融合作为时频掩蔽网络的输入,然后利用估计出来的掩蔽值来计算波束形成的系数,进而进行多通道语音增强。最后,将增强后的信号送入基于连接主义分类和注意力机制的编码解码网络中进行声学建模,并在优化过程中加入最大信噪比准则进行联合优化,最终得到识别的结果。
发明内容
有鉴于此,本申请实施例提供了一种端到端远场语音识别方法及系统。
第一方面,本发明申请提供一种端到端远场语音识别方法,包括:
将多通道信号的频谱特征和空间特征进行融合,并输入掩蔽网络中计算多通道信号的掩蔽值;
根据所述掩蔽值计算多通道信号的波束形成系数,并根据所述波束形成系数对多通道语音信号进行增强;
将增强的多通道信号输入到编码解码网络中进行声学建模和优化,并在优化过程中加入最大信噪比准则进行联合优化;
将优化后的多通道信号作为最终识别结果,并输出。
可选地,所述空间特征包括:幅值平方相干系数、多通道相位差和多通道幅度差中的一种或多种。
可选地,所述计算多通道信号的掩蔽值包括:分别计算多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值。
可选地,所述根据所述掩蔽值计算多通道信号的波束形成系数包括:
分别对多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值求平均值;
根据多通道语音信号和多通道噪声信号的平均掩蔽值计算多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵;
根据所述多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵计算多通道信号的波束形成系数。
可选地,所述编码解码网络为基于连接主义和注意力机制的编码解码网络。
第二方面,本发明申请提供一种端到端语音识别系统,包括:
采集单元:用于获取多通道信号,并将多通道信号的频谱特征和空间特征进行融合后输入掩蔽网络中;
处理单元:用于计算多通道信号的掩蔽值;根据所述掩蔽值计算多通道信号的波束形成系数,并根据所述波束形成系数对多通道语音信号进行增强;将增强的多通道信号输入到编码解码网络中进行声学建模和优化,并在优化过程中加入最大信噪比准则进行联合优化。
输出单元:用于将优化后的多通道信号最终识别结果,并输出。
可选地,所述空间特征包括:幅值平方相干系数、多通道相位差和多通道幅度差中的一种或多种。
可选地,所述计算多通道信号的掩蔽值包括:分别计算多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值。
可选地,所述根据所述掩蔽值计算多通道信号的波束形成系数包括:
分别对多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值求平均值;
根据多通道语音信号和多通道噪声信号的平均掩蔽值计算多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵;
根据所述多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵计算多通道信号的波束形成系数。
可选地,所述编码解码网络为基于连接主义和注意力机制的编码解码网络。
本申请实施例提供端到端远场语音识别方法系统。在一个实施例中,首先将多通道语音的频谱特征和空间特征进行融合作为时频掩蔽网络的输入,然后利用估计出来的掩蔽值来计算波束形成的系数,进而进行多通道语音增强。最后,将增强后的信号送入基于连接主义分类和注意力机制的编码解码网络中进行声学建模,并在优化过程中加入最大信噪比准则进行联合优化,最终得到识别的结果。通过将神经网络波束形成和声学建模结合进行联合优化以及将最大信噪比优化准则和语音识别准则进行联合优化。解决了前端语音增强和语音识非一致优化的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明申请一种端到端远场语音识别系统的结构示意图;
图2为本发明申请一种端到端远场语音识别系统的又一结构示意图;
图3为本发明申请一种端到端远场语音识别方法的流程图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
图1为本发明申请一种端到端远场语音识别系统的结构示意图,参见图1,本申请实施例中的一种端到端远场语音识别系统包括:采集单元101、处理单元102和输出单元103。
采集单元101用于采集多通道信号,并将多通道信号的频谱特征和空间特征进行融合后输入到掩蔽网络中。
为了进一步提高系统性能,将空间特征和频谱特征进行融合,从而提高掩蔽网络估计的精度。在一个可能的实施例中,针对远场信号中的散射噪声(背景噪声、混响)以及直达声,提出了三种空间特征:
幅值平方相干系数:
多通道相位差:
多通道幅度差:
幅值相关特征主要从时频点相关性的角度区分散射噪声和直达声。而多通道相位差和幅度差主要反映直达声的方向。
处理单元102包括:第一处理单元1021、第二处理单元1022和第三处理单元1023。
第一处理单元102用于计算多通道信号的掩蔽值。将多通道信号的频谱特征和空间特征进行融合后输入到掩蔽网络后,分别计算多通道信号和多通道噪声信号的掩蔽值。其中对第C个多通道信号和第C个多通道噪声信号的掩蔽网络和掩蔽值的计算如下:
对C个通道的掩蔽值求平均:
在得到每个通道的掩蔽值之后,计算多通道语音信号和多通道噪声信号的功率谱矩阵如下:
根据计算出的多通道语音信号和多通道噪声信号的功率谱矩阵,对多通道信号的波束形成系数的估计如下:
其中,u是波束形成的参考向量,估计如下:
vc=WTtanh(Wqqc+Wrrc+b) (18)
其中,qc、rc、vc为在形成通道信号掩蔽估计网络和通道噪声掩蔽估计网络过程中中间层的输出特征,并将其作为波束形成系数估计过程中的输入特征。
根据计算得到的多通道信号的波束形成系数对多通道语音信号进行增强。增强后的多通道信号Y表示为:
Y=GHX (20)
其中,X为输入信号,G是波束形成系数矩阵。
进一步地,输出信号的能量可以表示为:
ΦYY=GHXXHG
=GHΦXXG
=GHΦSSG+GHΦNNG (21)
其中,GHΦSSG和GHΦNNG分别代表干净信号的能量和噪声的能量,因此信噪比可以表示为:
第三处理单元103用于对增强后的多通道信号进行声学建模。将增强后的多通道信号送入基于连接主义和注意力机制的编码解码网络中进行声学建模。
在一个可能的实施例中,对基于连接主义和注意力机制的编码解码网络的准则进行联合优化,在训练过程中,利用连接主义分类准则的前后向算法来强制输入语音特征和输出标签之间的单调对齐。优化准则如下所示:
LMTL=λLctc+(1-λ)Lattention (23)
其中,λ是插值系数,Lctc和Lattention分别是连接主义分类准则和基于注意力编解码器准则。
将公式(22)加入到公式(23)中,得到最终的代价函:
根据公式(24)中的代价函数对多通道信号进行优化,得到最终的识别结果。
在一个可能的实施例中,对于连接主义分类准则而言,为了解决输出序列长度小于输入序列长度的问题,在输出符号集中加入一个blank符号,并允许blank符号的重复出现。连接主义分类准则预测整个输出序列的条件概率:
通过帧之间相互独立的假设公式(8)可以分解成:
其中x代表输入语音特征,y代表输出序列。L代表输出符号集合,T代表语音总帧数。π1:T=(π1,...,πT)代表每一帧的输出符号,πt∈L'并且L'=L∪blank。P(πt|x)是t时刻的条件概率。B是映射函数,完成输出路径到输出符号序列的映射。
对于基于注意力机制的编码解码网络而言,它并未有任何条件独立的假设直接估计最终的后验概率。它使用了两个网络:编码网络和解码网络。编码网络的作用是将输入特征x映射成隐含层向量h,解码网络的作用是将隐含层向量h解码成输出符号序列y。因此后验概率可以表示为:
其中,cu是输入特征x的函数。U是输出序列的长度和输入帧长不相等。因此,P(yu|y1:u-1,cu)可以表示为:
ht=Encoder(x) (28)
aut=Attend(su-1,au-1,ht) (29)
P(yu|y1:u-1,cu)=Decoder(yu-1,su-1,cu) (31)
其中,Encoder()和Decoder()分别表示编码网络和解码网络。s是解码网络的隐含状态向量,h是编码网络的隐含状态向量。Attend()是注意力网络,注意力权重aut计算如下:
eut=Score(su-1,au-1,ht) (32)
其中,Score()既可以是基于内容的注意力也可以是基于位置的注意力:
eut=vTtanh(Ksu-1+Wht) (34)
eut=vTtanh(Ksu-1+Q(F*au-1)+Wht) (35)
在本申请实施例中,通过将空间特征和频谱特征进行融合,从而提高掩蔽网络估计的精度。将神经网络波束形成和声学建模结合进行联合优化、将最大信噪比准则和语音识别准则进行联合优化解决了前端语音增强和语音识别非一致优化的问题。
在一个可能的实施例中,本发明申请一种远场语音识别系统的基本框架还可以如图2所示。
图3为本发明申请一种远场语音识别方法的流程示意图,如图3所示,包括步骤:
步骤S301:将多通道信号的频谱特征和空间特征进行融合,并输入掩蔽网络中计算多通道信号的掩蔽值。
其中,多通道信号的空间特征包括:幅值平方相干系数、多通道相位差和多通道幅度差。幅值相关特征主要从时频点相关性的角度区分散射噪声和直达声。而多通道相位差和幅度差主要反映直达声的方向,因此将不同空间特征进行融合并输入到掩蔽网络中可以进一步提高掩蔽网络的估计精度。
分别计算多通道语音信号和多通道噪声信号的的掩蔽估计网络和掩蔽值,其计算公式与公式(7)~(10)相同。对多个多通道语音信号和多通道噪声信号的掩蔽值求平均值,其计算公式与公式(11)~(12)相同。
步骤S302:根据所述掩蔽值计算多通道语音信号的波束形成系数,并根据所述波束形成系数对多通道语音信号增强。
在得到每个通道信号的掩蔽值之后,根据该掩蔽值可以计算出相应通道语音信号和噪声信号的功率谱矩阵。根据计算出的通道语音信号和噪声信号的功率谱矩阵,计算通道信号的波束形成的系数。并根据计算得到的多通道信号的波束形成系数对多通道语音信号进行增强。
通过增强后的多通道信号,计算出多通道信号的信噪比。
步骤S303:将增强的信号输入到编码解码网络中进行声学建模和优化,并在优化过程中加入最大信噪比准则进行联合优化。
将增强后的多通道语音信号输入到基于连接主义和注意力机制的编码解码网络。并对连接主义分类准则和编解码网络的准则进行联合优化。在训练过程中,利用连接主义分类准则的前后向算法来强制输入语音特征和输出标签之间的单调对齐,其优化准则和公式(23)相同。
将步骤S302中计算得出的多通道信号的信噪比即公式(22)加入到公式(23)中得到最终的代价函数。
根据代价函数对多通道信号进行优化,得到最终的识别结果。
步骤S304:将优化后的多通道信号最终识别结果,并输出。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (10)
1.一种端到端远场语音识别方法,包括:
将多通道信号的频谱特征和空间特征进行融合,并输入掩蔽网络中计算多通道信号的掩蔽值;
根据所述掩蔽值计算多通道信号的波束形成系数,并根据所述波束形成系数对多通道语音信号进行增强;
将增强的多通道信号输入到编码解码网络中进行声学建模和优化,并在优化过程中加入最大信噪比准则进行联合优化;
将优化后的多通道信号作为最终识别结果,并输出。
2.根据权利要求1所述的方法,其特征在于,所述空间特征包括:幅值平方相干系数、多通道相位差和多通道幅度差中的一种或多种。
3.根据权利要求1所述的方法,其特征在于,所述计算多通道信号的掩蔽值包括:分别计算多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值。
4.根据权利要求1或3所述的方法,其特征在于,所述根据所述掩蔽值计算多通道信号的波束形成系数包括:
分别对多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值求平均值;
根据多通道语音信号和多通道噪声信号的平均掩蔽值计算多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵;
根据所述多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵计算多通道信号的波束形成系数。
5.根据权利要求1所述的方法,其特征在于,所述编码解码网络为基于连接主义和注意力机制的编码解码网络。
6.一种端到端语音识别系统,包括:
采集单元:用于获取多通道信号,并将多通道信号的频谱特征和空间特征进行融合后输入掩蔽网络中;
处理单元:用于计算多通道信号的掩蔽值;根据所述掩蔽值计算多通道信号的波束形成系数,并根据所述波束形成系数对多通道语音信号进行增强;将增强的多通道信号输入到编码解码网络中进行声学建模和优化,并在优化过程中加入最大信噪比准则进行联合优化;
输出单元:用于将优化后的多通道信号最终识别结果,并输出。
7.根据权利要求6所述的系统,其特征在于,所述空间特征包括:幅值平方相干系数、多通道相位差和多通道幅度差中的一种或多种。
8.根据权利要求6所述的系统,其特征在于,所述计算多通道信号的掩蔽值包括:分别计算多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值。
9.根据权利要求6或8所述的系统,其特征在于,所述根据所述掩蔽值计算多通道信号的波束形成系数包括:
分别对多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值求平均值;
根据多通道语音信号和多通道噪声信号的平均掩蔽值计算多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵;
根据所述多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵计算多通道信号的波束形成系数。
10.根据权利要求6所述的系统,其特征在于,所述编码解码网络为基于连接主义和注意力机制的编码解码网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911415037.XA CN111179920B (zh) | 2019-12-31 | 2019-12-31 | 一种端到端远场语音识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911415037.XA CN111179920B (zh) | 2019-12-31 | 2019-12-31 | 一种端到端远场语音识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111179920A true CN111179920A (zh) | 2020-05-19 |
CN111179920B CN111179920B (zh) | 2023-01-24 |
Family
ID=70655961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911415037.XA Active CN111179920B (zh) | 2019-12-31 | 2019-12-31 | 一种端到端远场语音识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111179920B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112927707A (zh) * | 2021-01-25 | 2021-06-08 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN113611323A (zh) * | 2021-05-07 | 2021-11-05 | 北京至芯开源科技有限责任公司 | 一种基于双通道卷积注意力网络的语音增强方法及系统 |
CN113921027A (zh) * | 2021-12-14 | 2022-01-11 | 北京清微智能信息技术有限公司 | 一种基于空间特征的语音增强方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109166590A (zh) * | 2018-08-21 | 2019-01-08 | 江西理工大学 | 一种基于空域相关性的二维时频掩模估计建模方法 |
CN110383377A (zh) * | 2017-03-13 | 2019-10-25 | 三菱电机株式会社 | 语音识别系统 |
DE102019110272A1 (de) * | 2018-05-18 | 2019-11-21 | Intel Corporation | Neuronalnetzwerkbasierte zeit-frequenzmaskenschätzung und strahlformung zur sprachvorverarbeitung |
-
2019
- 2019-12-31 CN CN201911415037.XA patent/CN111179920B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110383377A (zh) * | 2017-03-13 | 2019-10-25 | 三菱电机株式会社 | 语音识别系统 |
DE102019110272A1 (de) * | 2018-05-18 | 2019-11-21 | Intel Corporation | Neuronalnetzwerkbasierte zeit-frequenzmaskenschätzung und strahlformung zur sprachvorverarbeitung |
CN109166590A (zh) * | 2018-08-21 | 2019-01-08 | 江西理工大学 | 一种基于空域相关性的二维时频掩模估计建模方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112927707A (zh) * | 2021-01-25 | 2021-06-08 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN112927707B (zh) * | 2021-01-25 | 2023-10-03 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN113611323A (zh) * | 2021-05-07 | 2021-11-05 | 北京至芯开源科技有限责任公司 | 一种基于双通道卷积注意力网络的语音增强方法及系统 |
CN113611323B (zh) * | 2021-05-07 | 2024-02-20 | 北京至芯开源科技有限责任公司 | 一种基于双通道卷积注意力网络的语音增强方法及系统 |
CN113921027A (zh) * | 2021-12-14 | 2022-01-11 | 北京清微智能信息技术有限公司 | 一种基于空间特征的语音增强方法、装置及电子设备 |
CN113921027B (zh) * | 2021-12-14 | 2022-04-29 | 北京清微智能信息技术有限公司 | 一种基于空间特征的语音增强方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111179920B (zh) | 2023-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Deep learning for environmentally robust speech recognition: An overview of recent developments | |
CN111179920B (zh) | 一种端到端远场语音识别方法及系统 | |
CN111243620B (zh) | 语音分离模型训练方法、装置、存储介质和计算机设备 | |
KR20200115107A (ko) | 심층 멀티태스킹 반복 신경망을 이용한 음향 에코 제거 시스템 및 방법 | |
US20180358003A1 (en) | Methods and apparatus for improving speech communication and speech interface quality using neural networks | |
CN110728989B (zh) | 一种基于长短时记忆网络lstm的双耳语音分离方法 | |
US20060053002A1 (en) | System and method for speech processing using independent component analysis under stability restraints | |
CN107221336A (zh) | 一种增强目标语音的装置及其方法 | |
CN111292759A (zh) | 一种基于神经网络的立体声回声消除方法及系统 | |
CN103229234B (zh) | 音频编码装置、方法以及音频解码装置、方法 | |
JPH02160298A (ja) | 雑音除去方法、それに用いるニューラルネットワークの学習方法 | |
TW201248613A (en) | System and method for monaural audio processing based preserving speech information | |
Shi et al. | Deep Attention Gated Dilated Temporal Convolutional Networks with Intra-Parallel Convolutional Modules for End-to-End Monaural Speech Separation. | |
CN111899756B (zh) | 一种单通道语音分离方法和装置 | |
CN103152500A (zh) | 多方通话中回音消除方法 | |
CN113870874A (zh) | 基于自注意力变换网络的多特征融合回声消除方法及系统 | |
CN110610718A (zh) | 一种提取期望声源语音信号的方法及装置 | |
CN111798875A (zh) | 一种基于三值量化压缩的vad实现方法 | |
CN110867192A (zh) | 基于门控循环编解码网络的语音增强方法 | |
CN111816200B (zh) | 一种基于时频域二值掩膜的多通道语音增强方法 | |
CN112289338A (zh) | 信号处理方法及装置、计算机设备以及可读存储介质 | |
US20240105199A1 (en) | Learning method based on multi-channel cross-tower network for jointly suppressing acoustic echo and background noise | |
US20240129410A1 (en) | Learning method for integrated noise echo cancellation system using cross-tower nietwork | |
Girin et al. | Audio source separation into the wild | |
JP5235725B2 (ja) | 発話向き推定装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |