CN113628614A - 一种自组织麦克风语音识别的逐层通道选择方法 - Google Patents
一种自组织麦克风语音识别的逐层通道选择方法 Download PDFInfo
- Publication number
- CN113628614A CN113628614A CN202110775871.0A CN202110775871A CN113628614A CN 113628614 A CN113628614 A CN 113628614A CN 202110775871 A CN202110775871 A CN 202110775871A CN 113628614 A CN113628614 A CN 113628614A
- Authority
- CN
- China
- Prior art keywords
- channel
- layer
- vector
- output
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Abstract
本发明公开了一种自组织麦克风语音识别的逐层通道选择方法,该方法基于conformer语音识别架构,具体框架如下:(1)采用编码器‑解码器架构,其中编码器基于Conformer框架,解码器基于Transformer框架,并在编码器‑解码器模块中引入多头注意力机制;(2)对于单通道语音识别系统,采用干净语音单独训练;(3)对于多通道语音识别系统,将各个通道语音编码后共享同一个解码器,并训练多层流注意力机制,对通道进行逐层筛选。本发明方法在大规模自组织麦克风阵列下较其他基于流注意力的方法语音识别准确率更高,计算复杂度更低。
Description
技术领域
本发明属于语音识别技术领域,具体涉及一种语音识别的逐层通道选择方法。
背景技术
远距离语音识别是一个极具挑战性的问题。基于麦克风阵列的多通道语音识别是提升性能的一种重要方法。然而,当说话人与麦克风阵列的距离增大时,语音的质量会急剧下降,导致无论阵列上加入多少通道,自动语音识别(Automatic Speech Recognition,ASR)的性能都会存在一个物理上界。自组织麦克风阵列是解决上述问题的一个方法,其包含一系列麦克风节点随机散布在声场中,麦克风节点可以是一个麦克风或一个麦克风阵列。利用通道权重分配和通道选择,可以自动将说话人周围的麦克风组织为一个局部阵列,从而减少远距离场景出现的可能性。目前已有的通道选择和权重分配标准可以分为两种:(1)基于信号层面的标准,如信噪比等;(2)基于识别层面的标准,如词错误率(WER)等。
第一种通道选择机制是设计与语音识别系统独立的估计器,其根据每个通道的估计语音质量进行通道选择,如信噪比、距离、方向、包络方差和房间脉冲响应。在通道选择后,或通过自适应波束形成将所选的多个通道融合到一个通道,或直接选择一个最佳通道输入到ASR系统中。虽然基于语音质量的估计在大多数情况下与ASR性能强相关,但优化语音质量并不代表能得到最优的ASR性能。
第二种方法基于优化ASR性能来设计通道选择和通道融合。较早的方法考虑选择ASR解码后输出似然概率最大的通道。由于基于注意力机制的编码器-解码器这种新领域结构出现,通道选择任务可以在ASR系统内部进行。有研究者设计了一个带有多层注意力机制的多通道编码器结构,多层注意力的第一层用于对每个通道的输入进行时间对齐,然后经过称为"流注意力"的第二层注意力,对所有通道的输出进行权重分配和融合。基于上述方法,有研究者设计了一个两阶段的训练方法,第一阶段训练一个单通道的编码器,然后将参数分享到所有通道的编码器上并固定;第二阶段用多通道数据微调流注意力。这种训练方法使得该结构能泛化到任意数量的通道上。然而,上述方法只考虑了少量自组织节点的通道权重分配(不超过10个麦克风节点),并且没有探究通道选择的问题。当声场环境变大和变复杂,同时自组织节点变多时,一方面由于某些通道受噪声影响极大,需要丢弃某些对性能没有帮助的通道,另一方面由于通道数的增多,会导致网络计算量增大,因此需要探究降低计算复杂的的通道选择方法。
发明内容
为了克服现有技术的不足,本发明提供了一种自组织麦克风语音识别的逐层通道选择方法,该方法基于conformer语音识别架构,具体框架如下:(1)采用编码器-解码器架构,其中编码器基于Conformer框架,解码器基于Transformer框架,并在编码器-解码器模块中引入多头注意力机制;(2)对于单通道语音识别系统,采用干净语音单独训练;(3)对于多通道语音识别系统,将各个通道语音编码后共享同一个解码器,并训练多层流注意力机制,对通道进行逐层筛选。本发明方法在大规模自组织麦克风阵列下较其他基于流注意力的方法语音识别准确率更高,计算复杂度更低。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:构建基于多头注意力机制的单通道ASR系统;
步骤1-1:多头注意力机制MHA;
多头注意力机制表达为下式:
MHA(Q,K,V)=Concat(U1,…,Un)WO
第i个头Ui的运算表达为:
步骤1-2:单通道ASR系统;
最后,通过一个线性变换将cl映射为输出向量yl;
单通道ASR系统采用干净语音进行学习,优化目标是最大化下式:
其中ol是输出文本序列O的第l个时间步的文本向量;
步骤1-3:将多头注意力机制加入单通道ASR系统的编码器和解码器中,得到基于多头注意力机制的单通道ASR系统;
步骤2:基于Scaling Sparsemax的多层流注意力机制的多通道ASR系统;
步骤2-1:基于Scaling Sparsemax的多层流注意力机制;
流注意力的计算定义为:
StreamAttention(Q,K,V)=Z+FeedForward(Z)
其中,Z=MHA(Q,K,V),FeedForward(·)是前向输出模块;
流注意力将每个通道的高维语义向量Cl和导向矢量gl作为输入,得到融合语义向量rl:
将融合语义向量rl通过输出层,获取当前时间步的输出向量yl;
流注意力在自组织麦克风阵列任务下存在一定的局限:对于任意的输入向量z和通道i,Softmaxi(z)≠0,导致不能进行通道选择;而基于Sparsemax能够得到稀疏的解,从而达到通道选择的目的,其中Sparsemax的定义如下:
Sparsemax是将输入向量z投影到设定的单纯形上,能够得到一个稀疏的输出向量,同时,这个稀疏的输出向量的求解有一个近似解:
基于Sparsemax的流注意力能够进行通道选择,但不能控制得到解的稀疏程度,从而会将过多通道置零,因此,通过一个网络输出缩放因子s以控制Sparsemax的输出稀疏程度,网络表达如下:
s=1+ReLU(Linear([||z||,C]T))
其中||z||是输入向量的L2范数,Linear(·)代表两层可学习线性变换,其维度分别为2×2和1×2;
Scaling Sparsemax的具体算法表述如下:
缩放因子与通道数成正比,即通道数越少,输出的稀疏程度越低,若当层通道分配权重为0,则直接丢弃而不再输入下一层,使得通道数逐层减少,稀疏程度逐层下降,直到该层不再置零后,到达平衡状态;
步骤2-2:多通道ASR系统;
多通道系统的结构描述如下:
每一个通道单独的编码器和步骤1中的单通道ASR系统的编码器相同;
将高维表征Hk输入流注意力解码器,在第m层解码器时间步l得到的每个通道的语义向量进行拼接:
是经过解码器第1到N2-1层后的输出,是第1到第m层流注意力解码层;每一层的解码器和单通道ASR系统的解码器相同,在解码过程中根据步骤2-1中基于Sparsemax的流注意力进行通道选择的方法使用缩放因子s对通道进行选择;
最终将每个通道的高维语义向量Cl和导向矢量gl作为输入,得到融合语义向量rl,再通过输出层,获取当前时间步的输出向量yl;
步骤3:对ASR系统进行训练;
首先用干净的语音数据训练单通道ASR,然后用多通道带噪语音数据训练基于Scaling Sparsemax的流注意力机制网络;在训练过程不进行通道丢弃操作,仅将未置零的通道数输入缩放因子网络,在解码阶段进行通道丢弃操作,且将实际剩余通道数作为缩放因子网络的输入。
本发明的有益效果如下:
本发明设计了一个利用scaling sparsemax算子在解码器部分进行多层通道筛选的算法,相比于单层通道选择,可以针对每一层的情况自适应调整可缩放因子,并提前将过噪通道权重置零并丢弃,有效地降低了解码阶段的计算复杂度,获得了一定程度的识别性能提升。
附图说明
图1为本发明的单通道ASR系统和多通道ASR系统结构示意图,其中(a)单通道ASR系统,(b)多通道ASR系统。
图2为本发明方法中缩放因子与L2范数和通道数关系图。
图3为本发明方法的基于Scaling Sparsemax多层流注意力结构图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明提出了基于Conformer框架的ASR系统中的逐层通道选择方法,以优化自组织麦克风语音识别的性能并降低计算复杂度。发明的目的如下:
1).设计了一个基于Scaling Sparsemax算子的流注意力网络,并利用ScalingSparsemax中缩放因子与通道数量的关系,设计了一个用于计算缩放因子的网络,该网络输入向量L2范数以及通道数,获取可缩放因子。
2).设计了一种基于conformer的逐层通道选择ASR系统,对conformer解码器各层添加基于Scaling Sparsemax的流注意力机制网络,并加入一个各层共享的计算缩放因子的网络。
3).最后,针对自组织麦克风数据的特点以及达到逐层通道选择的效果,本发明采用了新的训练方式,首先用干净的语音数据训练单通道ASR,然后用多通道带噪语音数据训练基于Scaling Sparsemax的流注意力机制网络。为使训练稳定,训练过程不进行通道丢弃操作,仅将未置零的通道数输入缩放因子网络,在解码阶段进行通道丢弃操作,且将实际剩余通道数作为缩放因子网络的输入。
一种自组织麦克风语音识别的逐层通道选择方法,包括如下步骤:
步骤1:构建基于多头注意力机制的单通道ASR系统;
步骤1-1:多头注意力机制MHA;
多头注意力(Multi-Head Attention,MHA)机制在编码器和解码器中都扮演重要的角色,同时也是conformer结构相较于双向长短时记忆结构的关键不同点。多头注意力机制表达为下式:
MHA(Q,K,V)=Concat(U1,…,Un)WO
第i个头Ui的运算表达为:
步骤1-2:单通道ASR系统;
最后,通过一个线性变换将cl映射为输出向量yl;
单通道ASR系统采用干净语音进行学习,优化目标是最大化下式:
其中ol是输出文本序列O的第l个时间步的文本向量;
步骤1-3:将多头注意力机制加入单通道ASR系统的编码器和解码器中,得到基于多头注意力机制的单通道ASR系统;
步骤2:基于Scaling Sparsemax的多层流注意力机制的多通道ASR系统;
步骤2-1:基于Scaling Sparsemax的多层流注意力机制;
流注意力的计算定义为:
StreamAttention(Q,K,V)=Z+FeedForward(Z)
其中,Z=MHA(Q,K,V),FeedForward(·)是前向输出模块;
流注意力将每个通道的高维语义向量Cl和导向矢量gl作为输入,得到融合语义向量rl:
将融合语义向量rl通过输出层,获取当前时间步的输出向量yl;
流注意力在自组织麦克风阵列任务下存在一定的局限:对于任意的输入向量z和通道i,Softmaxi(z)≠0,导致不能进行通道选择;而基于Sparsemax能够得到稀疏的解,从而达到通道选择的目的,其中Sparsemax的定义如下:
Sparsemax是将输入向量z投影到设定的单纯形上,能够得到一个稀疏的输出向量,同时,这个稀疏的输出向量的求解有一个近似解:
基于Sparsemax的流注意力能够进行通道选择,但不能控制得到解的稀疏程度,从而会将过多通道置零,因此,通过一个网络输出缩放因子s以控制Sparsemax的输出稀疏程度,网络表达如下:
s=1+ReLU(Linear([||z||,C]T))
其中||z||是输入向量的L2范数,Linear(·)代表两层可学习线性变换,其维度分别为2×2和1×2;
如图3所示,Scaling Sparsemax的具体算法表述如下:
对于缩放因子的结果,图2展示了缩放因子与通道数及L2范数的关系,从图中可以看出,缩放因子与通道数成正比,即通道数越少,输出的稀疏程度越低,若当层通道分配权重为0,则直接丢弃而不再输入下一层,使得通道数逐层减少,稀疏程度逐层下降,直到该层不再置零后,到达平衡状态;该结构不仅可以提高识别性能,且可以降低计算复杂度,加快解码速度。
步骤2-2:多通道ASR系统;
如图1(b)所示,多通道系统的结构描述如下:
每一个通道单独的编码器和步骤1中的单通道ASR系统的编码器相同;
将高维表征Hk输入流注意力解码器,在第m层解码器时间步l得到的每个通道的语义向量进行拼接:
是经过解码器第1到N2-1层后的输出,是第1到第m层流注意力解码层;每一层的解码器和单通道ASR系统的解码器相同,在解码过程中根据步骤2-1中基于Sparsemax的流注意力进行通道选择的方法使用缩放因子s对通道进行选择;
最终将每个通道的高维语义向量Cl和导向矢量gl作为输入,得到融合语义向量rl,再通过输出层,获取当前时间步的输出向量yl;
步骤3:对ASR系统进行训练;
首先用干净的语音数据训练单通道ASR,然后用多通道带噪语音数据训练基于Scaling Sparsemax的流注意力机制网络;在训练过程不进行通道丢弃操作,仅将未置零的通道数输入缩放因子网络,在解码阶段进行通道丢弃操作,且将实际剩余通道数作为缩放因子网络的输入。
具体实施例:
本实施例使用了三个数据集:Librispeech语料库、基于Librispeech仿真得到的自组织麦克风阵列环境下的Libri-adhoc-simu数据集、以及40个分布式麦克风在真实环境中回放Librispeech的Libri-adhoc40。Libri-adhoc-simu和Libri-adhoc40的自组织麦克风阵列的每个节点均为单麦克风,一个通道代表一个节点。Librispeech包含了2484名演讲者1000多小时的英语演讲。实施例中选择了960小时的数据来训练单通道ASR系统,并选择了10小时的数据进行验证。
对于仿真数据,Libri-adhoc-simu使用Librispeech数据的100小时“train-100”子集作为训练数据。使用“dev-clean”子集作为验证数据,总共包含10个小时的数据。将“test-clean”子集作为两个单独的测试集,分别包含5小时的测试数据。所模拟的房间的长度和宽度从[5,25]米的范围内随机选择,高度从[2.7,4]中随机选取,多个麦克风和一个扬声器源被随机放置在房间里。将声源与墙之间的距离限制为大于0.2米,声源和麦克风之间的距离至少为0.3米。使用了理想源模型模拟混响环境,并从[0.2,0.4]s范围内选择T60,背景噪声产生模型用于模拟不相关的背景噪声。用于训练和验证的噪声源是一个包含超过20000个噪声段的大规模噪声库,用于测试的噪声源是来自CHIME-3数据集和NOISEX-92语料库的噪声段,实验中为训练和验证集随机生成了16个通道,为测试集分别生成了10和20个通道。
对于实测数据,Libri-adhoc40是通过在一个房间里回放Librispeech的“trainclean-100”、“dev-clean”和“test-clean”语料库来收集的。录音环境是真实环境中的办公室,有一个扬声器和40个麦克风,混响强、加性噪声小。扬声器和麦克风的位置在训练和测试集中是不同的,在训练、验证和测试集中,扬声器分别放置在9、4和4个不同位置。扬声器和麦克风之间的距离在[0.8,7.4]米。训练集和验证集每句话语随机选择20个通道,测试集每句话语随机选择16和32个通道,对应于两个测试场景。
特征及模型结构详见表一。在训练阶段,首先用干净的Librispeech数据训练了基于单通道的ASR模型。当模型训练完毕后,参数被固定并送到基于多通道的ASR模型。最后,用多通道带噪数据训练了多层流注意力机制网络,训练阶段不进行通道丢弃,只改变计算缩放因子网络的输入。在测试阶段,进行通道逐层丢弃,不使用语言模型,采用贪婪解码,采用WER作为评价指标。
表一.声学特征及模型设置
实施例比较了所提出的Sparsemax和Scaling Sparsemax与Softmax流注意力机制。此外构建了一个“理想最优通道”算法,它选择物理上最接近声源的通道,并作为单通道ASR模型的输入。关键字“理想”意味着扬声器和麦克风之间的距离是事先知道的。
表二.Libri-adhoc-simu仿真数据集的结果(WER(%))
表三.Libri-adhoc40真实数据集的结果(WER(%))
表二列出了比较方法在Libri-adhoc-simu上的性能。从表中可得:(1)所有三种流注意方法在两种测试场景中都表现良好,并且测试场景都是训练阶段未见过的通道数,证明了流注意力的泛化性能。(2)Sparsemax和多层Scaling Sparsemax都比Softmax有显著的性能改进。例如,在20通道测试场景中,基于多层Scaling Sparsemax的流注意力在“test-clean”数据集下,较基于Softmax的流注意力方法WER相对降低30.90%。
表三显示了Libri-adhoc40真实数据的结果。从表中可以看出,提出的多层ScalingSparsemax表现良好。在32通道测试场景中,它实现了WER相对降低20.1%;较“理想最优通道”WER相对降低10.4%。
Claims (1)
1.一种自组织麦克风语音识别的逐层通道选择方法,其特征在于,包括以下步骤:
步骤1:构建基于多头注意力机制的单通道ASR系统;
步骤1-1:多头注意力机制MHA;
多头注意力机制表达为下式:
MHA(Q,K,V)=Concat(U1,…,Un)WO
第i个头Ui的运算表达为:
步骤1-2:单通道ASR系统;
最后,通过一个线性变换将cl映射为输出向量yl;
单通道ASR系统采用干净语音进行学习,优化目标是最大化下式:
其中ol是输出文本序列O的第l个时间步的文本向量;
步骤1-3:将多头注意力机制加入单通道ASR系统的编码器和解码器中,得到基于多头注意力机制的单通道ASR系统;
步骤2:基于Scaling Sparsemax的多层流注意力机制的多通道ASR系统;
步骤2-1:基于Scaling Sparsemax的多层流注意力机制;
流注意力的计算定义为:
StreamAttention(Q,K,V)=Z+FeedForward(Z)
其中,Z=MHA(Q,K,V),FeedForward(.)是前向输出模块;
流注意力将每个通道的高维语义向量Cl和导向矢量gl作为输入,得到融合语义向量rl:
将融合语义向量rl通过输出层,获取当前时间步的输出向量yl;
流注意力在自组织麦克风阵列任务下存在一定的局限:对于任意的输入向量z和通道i,Softmaxi(z)≠0,导致不能进行通道选择;而基于Sparsemax能够得到稀疏的解,从而达到通道选择的目的,其中Sparsemax的定义如下:
Sparsemax是将输入向量z投影到设定的单纯形上,能够得到一个稀疏的输出向量,同时,这个稀疏的输出向量的求解有一个近似解:
Sparsemaxi(z)=max(zi-τ(z),0)
基于Sparsemax的流注意力能够进行通道选择,但不能控制得到解的稀疏程度,从而会将过多通道置零,因此,通过一个网络输出缩放因子s以控制Sparsemax的输出稀疏程度,网络表达如下:
s=1+ReLU(Linear([||z||,C]T))
其中||z|是输入向量的L2范数,Linear(.)代表两层可学习线性变换,其维度分别为2×2和1×2;
Scaling Sparsemax的具体算法表述如下:
缩放因子与通道数成正比,即通道数越少,输出的稀疏程度越低,若当层通道分配权重为0,则直接丢弃而不再输入下一层,使得通道数逐层减少,稀疏程度逐层下降,直到该层不再置零后,到达平衡状态;
步骤2-2:多通道ASR系统;
多通道系统的结构描述如下:
每一个通道单独的编码器和步骤1中的单通道ASR系统的编码器相同;
将高维表征Hk输入流注意力解码器,在第m层解码器时间步l得到的每个通道的语义向量进行拼接:
是经过解码器第1到N2-1层后的输出,是第1到第m层流注意力解码层;每一层的解码器和单通道ASR系统的解码器相同,在解码过程中根据步骤2-1中基于Sparsemax的流注意力进行通道选择的方法使用缩放因子s对通道进行选择;
最终将每个通道的高维语义向量Cl和导向矢量gl作为输入,得到融合语义向量rl,再通过输出层,获取当前时间步的输出向量yl;
步骤3:对ASR系统进行训练;
首先用干净的语音数据训练单通道ASR,然后用多通道带噪语音数据训练基于ScalingSparsemax的流注意力机制网络;在训练过程不进行通道丢弃操作,仅将未置零的通道数输入缩放因子网络,在解码阶段进行通道丢弃操作,且将实际剩余通道数作为缩放因子网络的输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110775871.0A CN113628614A (zh) | 2021-07-09 | 2021-07-09 | 一种自组织麦克风语音识别的逐层通道选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110775871.0A CN113628614A (zh) | 2021-07-09 | 2021-07-09 | 一种自组织麦克风语音识别的逐层通道选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113628614A true CN113628614A (zh) | 2021-11-09 |
Family
ID=78379556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110775871.0A Pending CN113628614A (zh) | 2021-07-09 | 2021-07-09 | 一种自组织麦克风语音识别的逐层通道选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113628614A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114495968A (zh) * | 2022-03-30 | 2022-05-13 | 北京世纪好未来教育科技有限公司 | 语音处理方法、装置、电子设备及存储介质 |
CN114501238A (zh) * | 2022-03-28 | 2022-05-13 | 广州迈聆信息科技有限公司 | 一种麦克风通道确定方法、装置、会议终端及介质 |
CN117473400A (zh) * | 2023-12-28 | 2024-01-30 | 中南大学 | 基于多通道层级变换网络结构的设备故障诊断方法 |
-
2021
- 2021-07-09 CN CN202110775871.0A patent/CN113628614A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114501238A (zh) * | 2022-03-28 | 2022-05-13 | 广州迈聆信息科技有限公司 | 一种麦克风通道确定方法、装置、会议终端及介质 |
CN114495968A (zh) * | 2022-03-30 | 2022-05-13 | 北京世纪好未来教育科技有限公司 | 语音处理方法、装置、电子设备及存储介质 |
CN114495968B (zh) * | 2022-03-30 | 2022-06-14 | 北京世纪好未来教育科技有限公司 | 语音处理方法、装置、电子设备及存储介质 |
CN117473400A (zh) * | 2023-12-28 | 2024-01-30 | 中南大学 | 基于多通道层级变换网络结构的设备故障诊断方法 |
CN117473400B (zh) * | 2023-12-28 | 2024-03-26 | 中南大学 | 基于多通道层级变换网络结构的设备故障诊断方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113628614A (zh) | 一种自组织麦克风语音识别的逐层通道选择方法 | |
Vasquez et al. | Melnet: A generative model for audio in the frequency domain | |
Haeb-Umbach et al. | Far-field automatic speech recognition | |
Sainath et al. | Multichannel signal processing with deep neural networks for automatic speech recognition | |
Chiu et al. | State-of-the-art speech recognition with sequence-to-sequence models | |
Qian et al. | Single-channel multi-talker speech recognition with permutation invariant training | |
Zhao et al. | Monaural speech dereverberation using temporal convolutional networks with self attention | |
Qian et al. | Very deep convolutional neural networks for noise robust speech recognition | |
Yoshioka et al. | The NTT CHiME-3 system: Advances in speech enhancement and recognition for mobile multi-microphone devices | |
Chang et al. | End-to-end multi-channel transformer for speech recognition | |
CN109949821B (zh) | 一种利用cnn的u-net结构进行远场语音去混响的方法 | |
Pandey et al. | Dual application of speech enhancement for automatic speech recognition | |
Ganapathy et al. | 3-D CNN models for far-field multi-channel speech recognition | |
Zhang et al. | Improving end-to-end single-channel multi-talker speech recognition | |
Nakatani et al. | Speech dereverberation based on maximum-likelihood estimation with time-varying Gaussian source model | |
Kang et al. | Multimodal speaker diarization of real-world meetings using d-vectors with spatial features | |
CN116092501B (zh) | 语音增强方法、语音识别方法、说话人识别方法和系统 | |
Wang et al. | Stream attention-based multi-array end-to-end speech recognition | |
Yoshioka et al. | VarArray: Array-geometry-agnostic continuous speech separation | |
Shi et al. | FurcaNet: An end-to-end deep gated convolutional, long short-term memory, deep neural networks for single channel speech separation | |
Chhetri et al. | Multichannel audio front-end for far-field automatic speech recognition | |
Wang et al. | Exploring end-to-end multi-channel ASR with bias information for meeting transcription | |
Wang et al. | Enhanced Spectral Features for Distortion-Independent Acoustic Modeling. | |
CN113823273B (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
Chen et al. | Scaling sparsemax based channel selection for speech recognition with ad-hoc microphone arrays |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |