CN113628614A - 一种自组织麦克风语音识别的逐层通道选择方法 - Google Patents

一种自组织麦克风语音识别的逐层通道选择方法 Download PDF

Info

Publication number
CN113628614A
CN113628614A CN202110775871.0A CN202110775871A CN113628614A CN 113628614 A CN113628614 A CN 113628614A CN 202110775871 A CN202110775871 A CN 202110775871A CN 113628614 A CN113628614 A CN 113628614A
Authority
CN
China
Prior art keywords
channel
layer
vector
output
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110775871.0A
Other languages
English (en)
Inventor
张晓雷
陈俊淇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Shenzhen Institute of Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Shenzhen Institute of Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University, Shenzhen Institute of Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110775871.0A priority Critical patent/CN113628614A/zh
Publication of CN113628614A publication Critical patent/CN113628614A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

本发明公开了一种自组织麦克风语音识别的逐层通道选择方法,该方法基于conformer语音识别架构,具体框架如下:(1)采用编码器‑解码器架构,其中编码器基于Conformer框架,解码器基于Transformer框架,并在编码器‑解码器模块中引入多头注意力机制;(2)对于单通道语音识别系统,采用干净语音单独训练;(3)对于多通道语音识别系统,将各个通道语音编码后共享同一个解码器,并训练多层流注意力机制,对通道进行逐层筛选。本发明方法在大规模自组织麦克风阵列下较其他基于流注意力的方法语音识别准确率更高,计算复杂度更低。

Description

一种自组织麦克风语音识别的逐层通道选择方法
技术领域
本发明属于语音识别技术领域,具体涉及一种语音识别的逐层通道选择方法。
背景技术
远距离语音识别是一个极具挑战性的问题。基于麦克风阵列的多通道语音识别是提升性能的一种重要方法。然而,当说话人与麦克风阵列的距离增大时,语音的质量会急剧下降,导致无论阵列上加入多少通道,自动语音识别(Automatic Speech Recognition,ASR)的性能都会存在一个物理上界。自组织麦克风阵列是解决上述问题的一个方法,其包含一系列麦克风节点随机散布在声场中,麦克风节点可以是一个麦克风或一个麦克风阵列。利用通道权重分配和通道选择,可以自动将说话人周围的麦克风组织为一个局部阵列,从而减少远距离场景出现的可能性。目前已有的通道选择和权重分配标准可以分为两种:(1)基于信号层面的标准,如信噪比等;(2)基于识别层面的标准,如词错误率(WER)等。
第一种通道选择机制是设计与语音识别系统独立的估计器,其根据每个通道的估计语音质量进行通道选择,如信噪比、距离、方向、包络方差和房间脉冲响应。在通道选择后,或通过自适应波束形成将所选的多个通道融合到一个通道,或直接选择一个最佳通道输入到ASR系统中。虽然基于语音质量的估计在大多数情况下与ASR性能强相关,但优化语音质量并不代表能得到最优的ASR性能。
第二种方法基于优化ASR性能来设计通道选择和通道融合。较早的方法考虑选择ASR解码后输出似然概率最大的通道。由于基于注意力机制的编码器-解码器这种新领域结构出现,通道选择任务可以在ASR系统内部进行。有研究者设计了一个带有多层注意力机制的多通道编码器结构,多层注意力的第一层用于对每个通道的输入进行时间对齐,然后经过称为"流注意力"的第二层注意力,对所有通道的输出进行权重分配和融合。基于上述方法,有研究者设计了一个两阶段的训练方法,第一阶段训练一个单通道的编码器,然后将参数分享到所有通道的编码器上并固定;第二阶段用多通道数据微调流注意力。这种训练方法使得该结构能泛化到任意数量的通道上。然而,上述方法只考虑了少量自组织节点的通道权重分配(不超过10个麦克风节点),并且没有探究通道选择的问题。当声场环境变大和变复杂,同时自组织节点变多时,一方面由于某些通道受噪声影响极大,需要丢弃某些对性能没有帮助的通道,另一方面由于通道数的增多,会导致网络计算量增大,因此需要探究降低计算复杂的的通道选择方法。
发明内容
为了克服现有技术的不足,本发明提供了一种自组织麦克风语音识别的逐层通道选择方法,该方法基于conformer语音识别架构,具体框架如下:(1)采用编码器-解码器架构,其中编码器基于Conformer框架,解码器基于Transformer框架,并在编码器-解码器模块中引入多头注意力机制;(2)对于单通道语音识别系统,采用干净语音单独训练;(3)对于多通道语音识别系统,将各个通道语音编码后共享同一个解码器,并训练多层流注意力机制,对通道进行逐层筛选。本发明方法在大规模自组织麦克风阵列下较其他基于流注意力的方法语音识别准确率更高,计算复杂度更低。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:构建基于多头注意力机制的单通道ASR系统;
步骤1-1:多头注意力机制MHA;
多头注意力机制表达为下式:
MHA(Q,K,V)=Concat(U1,…,Un)WO
其中
Figure BDA0003155244270000021
分别称为质询矩阵、键矩阵和值矩阵;Concat(·)是矩阵拼接操作,n代表头的数量,
Figure BDA0003155244270000022
是可学习的变换矩阵;
第i个头Ui的运算表达为:
Figure BDA0003155244270000023
Figure BDA0003155244270000028
其中
Figure BDA0003155244270000024
都是可学习的变换矩阵,Dk=Dh/n是每个头的特征向量维度;
步骤1-2:单通道ASR系统;
给定一个语料的输入声学特征
Figure BDA0003155244270000025
及其目标输出文本序列
Figure BDA0003155244270000026
其中T和Dx分别是输入X的长度和特征维度,L和Dv分别是输出的长度和字典大小;
首先,输入X经过卷积下采样层,得到下采样后的输入
Figure BDA0003155244270000027
然后经过编码器Enc(·)和解码器Dec(·):
Figure BDA0003155244270000031
Figure BDA00031552442700000312
其中下标N1和N2分别代表编码器和解码器的块数量,Emb(·)代表线性变换和位置编码;
Figure BDA0003155244270000032
为当前解码时间步l之前的输出,
Figure BDA0003155244270000033
为解码时间步l的语义向量,
Figure BDA0003155244270000034
是由编码器提取得到的高维表征;
最后,通过一个线性变换将cl映射为输出向量yl
单通道ASR系统采用干净语音进行学习,优化目标是最大化下式:
Figure BDA0003155244270000035
其中ol是输出文本序列O的第l个时间步的文本向量;
步骤1-3:将多头注意力机制加入单通道ASR系统的编码器和解码器中,得到基于多头注意力机制的单通道ASR系统;
步骤2:基于Scaling Sparsemax的多层流注意力机制的多通道ASR系统;
步骤2-1:基于Scaling Sparsemax的多层流注意力机制;
流注意力的计算定义为:
StreamAttention(Q,K,V)=Z+FeedForward(Z)
其中,Z=MHA(Q,K,V),FeedForward(·)是前向输出模块;
流注意力将每个通道的高维语义向量Cl和导向矢量gl作为输入,得到融合语义向量rl
Figure BDA0003155244270000036
将融合语义向量rl通过输出层,获取当前时间步的输出向量yl
流注意力在自组织麦克风阵列任务下存在一定的局限:对于任意的输入向量z和通道i,Softmaxi(z)≠0,导致不能进行通道选择;而基于Sparsemax能够得到稀疏的解,从而达到通道选择的目的,其中Sparsemax的定义如下:
Figure BDA00031552442700000310
其中
Figure BDA0003155244270000037
代表一个K-1维的单纯形,p表示输出向量。;
Sparsemax是将输入向量z投影到设定的单纯形上,能够得到一个稀疏的输出向量,同时,这个稀疏的输出向量的求解有一个近似解:
Figure BDA00031552442700000311
其中
Figure BDA0003155244270000038
代表一个搜寻软阈值的函数;
基于Sparsemax的流注意力能够进行通道选择,但不能控制得到解的稀疏程度,从而会将过多通道置零,因此,通过一个网络输出缩放因子s以控制Sparsemax的输出稀疏程度,网络表达如下:
s=1+ReLU(Linear([||z||,C]T))
其中||z||是输入向量的L2范数,Linear(·)代表两层可学习线性变换,其维度分别为2×2和1×2;
Scaling Sparsemax的具体算法表述如下:
首先对输入向量z进行排序,得到z(1)≥…≥z(K);然后从k=K开始搜索到k=1,当出现k满足条件
Figure BDA0003155244270000041
时,令
Figure BDA0003155244270000042
最后输出向量p,其中第i维元素值表示为
Figure BDA0003155244270000043
缩放因子与通道数成正比,即通道数越少,输出的稀疏程度越低,若当层通道分配权重为0,则直接丢弃而不再输入下一层,使得通道数逐层减少,稀疏程度逐层下降,直到该层不再置零后,到达平衡状态;
步骤2-2:多通道ASR系统;
多通道系统的结构描述如下:
给定一个语料所有通道的输入声学特征
Figure BDA00031552442700000411
其中下标k指定某个特定通道,C代表总输入通道数,每一个通道的输入声学特征分别经过单独的编码器得到每一个通道的高维表征Hk:
Figure BDA0003155244270000045
每一个通道单独的编码器和步骤1中的单通道ASR系统的编码器相同;
将高维表征Hk输入流注意力解码器,在第m层解码器时间步l得到的每个通道的语义向量进行拼接:
Figure BDA0003155244270000046
其中
Figure BDA0003155244270000047
由下式获取:
Figure BDA0003155244270000048
Figure BDA0003155244270000049
是经过解码器第1到N2-1层后的输出,
Figure BDA00031552442700000410
是第1到第m层流注意力解码层;每一层的解码器和单通道ASR系统的解码器相同,在解码过程中根据步骤2-1中基于Sparsemax的流注意力进行通道选择的方法使用缩放因子s对通道进行选择;
同时,由之前时间步的输出向量通过第一层流注意力解码层的多头注意力机制提取导向矢量
Figure BDA0003155244270000051
Figure BDA0003155244270000052
最终将每个通道的高维语义向量Cl和导向矢量gl作为输入,得到融合语义向量rl,再通过输出层,获取当前时间步的输出向量yl
步骤3:对ASR系统进行训练;
首先用干净的语音数据训练单通道ASR,然后用多通道带噪语音数据训练基于Scaling Sparsemax的流注意力机制网络;在训练过程不进行通道丢弃操作,仅将未置零的通道数输入缩放因子网络,在解码阶段进行通道丢弃操作,且将实际剩余通道数作为缩放因子网络的输入。
本发明的有益效果如下:
本发明设计了一个利用scaling sparsemax算子在解码器部分进行多层通道筛选的算法,相比于单层通道选择,可以针对每一层的情况自适应调整可缩放因子,并提前将过噪通道权重置零并丢弃,有效地降低了解码阶段的计算复杂度,获得了一定程度的识别性能提升。
附图说明
图1为本发明的单通道ASR系统和多通道ASR系统结构示意图,其中(a)单通道ASR系统,(b)多通道ASR系统。
图2为本发明方法中缩放因子与L2范数和通道数关系图。
图3为本发明方法的基于Scaling Sparsemax多层流注意力结构图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明提出了基于Conformer框架的ASR系统中的逐层通道选择方法,以优化自组织麦克风语音识别的性能并降低计算复杂度。发明的目的如下:
1).设计了一个基于Scaling Sparsemax算子的流注意力网络,并利用ScalingSparsemax中缩放因子与通道数量的关系,设计了一个用于计算缩放因子的网络,该网络输入向量L2范数以及通道数,获取可缩放因子。
2).设计了一种基于conformer的逐层通道选择ASR系统,对conformer解码器各层添加基于Scaling Sparsemax的流注意力机制网络,并加入一个各层共享的计算缩放因子的网络。
3).最后,针对自组织麦克风数据的特点以及达到逐层通道选择的效果,本发明采用了新的训练方式,首先用干净的语音数据训练单通道ASR,然后用多通道带噪语音数据训练基于Scaling Sparsemax的流注意力机制网络。为使训练稳定,训练过程不进行通道丢弃操作,仅将未置零的通道数输入缩放因子网络,在解码阶段进行通道丢弃操作,且将实际剩余通道数作为缩放因子网络的输入。
一种自组织麦克风语音识别的逐层通道选择方法,包括如下步骤:
步骤1:构建基于多头注意力机制的单通道ASR系统;
步骤1-1:多头注意力机制MHA;
多头注意力(Multi-Head Attention,MHA)机制在编码器和解码器中都扮演重要的角色,同时也是conformer结构相较于双向长短时记忆结构的关键不同点。多头注意力机制表达为下式:
MHA(Q,K,V)=Concat(U1,…,Un)WO
其中
Figure BDA0003155244270000061
分别称为质询矩阵、键矩阵和值矩阵;Concat(·)是矩阵拼接操作,n代表头的数量,
Figure BDA0003155244270000062
是可学习的变换矩阵;
第i个头Ui的运算表达为:
Figure BDA0003155244270000063
Figure BDA0003155244270000068
其中
Figure BDA0003155244270000064
都是可学习的变换矩阵,Dk=Dh/n是每个头的特征向量维度;
步骤1-2:单通道ASR系统;
如图1(a)所示,给定一个语料的输入声学特征
Figure BDA0003155244270000065
及其目标输出文本序列
Figure BDA0003155244270000066
其中T和Dx分别是输入X的长度和特征维度,L和Dv分别是输出的长度和字典大小;
首先,输入X经过卷积下采样层,得到下采样后的输入
Figure BDA0003155244270000067
然后经过编码器Enc(·)和解码器Dec(·):
Figure BDA0003155244270000071
Figure BDA0003155244270000072
其中下标N1和N2分别代表编码器和解码器的块数量,Emb(·)代表线性变换和位置编码;
Figure BDA0003155244270000073
为当前解码时间步l之前的输出,
Figure BDA0003155244270000074
为解码时间步l的语义向量,
Figure BDA0003155244270000075
是由编码器提取得到的高维表征;
最后,通过一个线性变换将cl映射为输出向量yl
单通道ASR系统采用干净语音进行学习,优化目标是最大化下式:
Figure BDA0003155244270000076
其中ol是输出文本序列O的第l个时间步的文本向量;
步骤1-3:将多头注意力机制加入单通道ASR系统的编码器和解码器中,得到基于多头注意力机制的单通道ASR系统;
步骤2:基于Scaling Sparsemax的多层流注意力机制的多通道ASR系统;
步骤2-1:基于Scaling Sparsemax的多层流注意力机制;
流注意力的计算定义为:
StreamAttention(Q,K,V)=Z+FeedForward(Z)
其中,Z=MHA(Q,K,V),FeedForward(·)是前向输出模块;
流注意力将每个通道的高维语义向量Cl和导向矢量gl作为输入,得到融合语义向量rl
Figure BDA0003155244270000077
将融合语义向量rl通过输出层,获取当前时间步的输出向量yl
流注意力在自组织麦克风阵列任务下存在一定的局限:对于任意的输入向量z和通道i,Softmaxi(z)≠0,导致不能进行通道选择;而基于Sparsemax能够得到稀疏的解,从而达到通道选择的目的,其中Sparsemax的定义如下:
Figure BDA0003155244270000078
其中
Figure BDA0003155244270000079
代表一个K-1维的单纯形,p表示输出向量。;
Sparsemax是将输入向量z投影到设定的单纯形上,能够得到一个稀疏的输出向量,同时,这个稀疏的输出向量的求解有一个近似解:
Figure BDA00031552442700000710
其中
Figure BDA00031552442700000711
代表一个搜寻软阈值的函数;
基于Sparsemax的流注意力能够进行通道选择,但不能控制得到解的稀疏程度,从而会将过多通道置零,因此,通过一个网络输出缩放因子s以控制Sparsemax的输出稀疏程度,网络表达如下:
s=1+ReLU(Linear([||z||,C]T))
其中||z||是输入向量的L2范数,Linear(·)代表两层可学习线性变换,其维度分别为2×2和1×2;
如图3所示,Scaling Sparsemax的具体算法表述如下:
首先对输入向量z进行排序,得到z(1)≥…≥z(K);然后从k=K开始搜索到k=1,当出现k满足条件
Figure BDA0003155244270000081
时,令
Figure BDA0003155244270000082
最后输出向量p,其中第i维元素值表示为
Figure BDA00031552442700000810
对于缩放因子的结果,图2展示了缩放因子与通道数及L2范数的关系,从图中可以看出,缩放因子与通道数成正比,即通道数越少,输出的稀疏程度越低,若当层通道分配权重为0,则直接丢弃而不再输入下一层,使得通道数逐层减少,稀疏程度逐层下降,直到该层不再置零后,到达平衡状态;该结构不仅可以提高识别性能,且可以降低计算复杂度,加快解码速度。
步骤2-2:多通道ASR系统;
如图1(b)所示,多通道系统的结构描述如下:
给定一个语料所有通道的输入声学特征
Figure BDA0003155244270000083
其中下标k指定某个特定通道,C代表总输入通道数,每一个通道的输入声学特征分别经过单独的编码器得到每一个通道的高维表征Hk:
Figure BDA0003155244270000084
每一个通道单独的编码器和步骤1中的单通道ASR系统的编码器相同;
将高维表征Hk输入流注意力解码器,在第m层解码器时间步l得到的每个通道的语义向量进行拼接:
Figure BDA0003155244270000085
其中
Figure BDA0003155244270000086
由下式获取:
Figure BDA0003155244270000087
Figure BDA0003155244270000088
是经过解码器第1到N2-1层后的输出,
Figure BDA0003155244270000089
是第1到第m层流注意力解码层;每一层的解码器和单通道ASR系统的解码器相同,在解码过程中根据步骤2-1中基于Sparsemax的流注意力进行通道选择的方法使用缩放因子s对通道进行选择;
同时,由之前时间步的输出向量通过第一层流注意力解码层的多头注意力机制提取导向矢量
Figure BDA0003155244270000091
Figure BDA0003155244270000092
最终将每个通道的高维语义向量Cl和导向矢量gl作为输入,得到融合语义向量rl,再通过输出层,获取当前时间步的输出向量yl
步骤3:对ASR系统进行训练;
首先用干净的语音数据训练单通道ASR,然后用多通道带噪语音数据训练基于Scaling Sparsemax的流注意力机制网络;在训练过程不进行通道丢弃操作,仅将未置零的通道数输入缩放因子网络,在解码阶段进行通道丢弃操作,且将实际剩余通道数作为缩放因子网络的输入。
具体实施例:
本实施例使用了三个数据集:Librispeech语料库、基于Librispeech仿真得到的自组织麦克风阵列环境下的Libri-adhoc-simu数据集、以及40个分布式麦克风在真实环境中回放Librispeech的Libri-adhoc40。Libri-adhoc-simu和Libri-adhoc40的自组织麦克风阵列的每个节点均为单麦克风,一个通道代表一个节点。Librispeech包含了2484名演讲者1000多小时的英语演讲。实施例中选择了960小时的数据来训练单通道ASR系统,并选择了10小时的数据进行验证。
对于仿真数据,Libri-adhoc-simu使用Librispeech数据的100小时“train-100”子集作为训练数据。使用“dev-clean”子集作为验证数据,总共包含10个小时的数据。将“test-clean”子集作为两个单独的测试集,分别包含5小时的测试数据。所模拟的房间的长度和宽度从[5,25]米的范围内随机选择,高度从[2.7,4]中随机选取,多个麦克风和一个扬声器源被随机放置在房间里。将声源与墙之间的距离限制为大于0.2米,声源和麦克风之间的距离至少为0.3米。使用了理想源模型模拟混响环境,并从[0.2,0.4]s范围内选择T60,背景噪声产生模型用于模拟不相关的背景噪声。用于训练和验证的噪声源是一个包含超过20000个噪声段的大规模噪声库,用于测试的噪声源是来自CHIME-3数据集和NOISEX-92语料库的噪声段,实验中为训练和验证集随机生成了16个通道,为测试集分别生成了10和20个通道。
对于实测数据,Libri-adhoc40是通过在一个房间里回放Librispeech的“trainclean-100”、“dev-clean”和“test-clean”语料库来收集的。录音环境是真实环境中的办公室,有一个扬声器和40个麦克风,混响强、加性噪声小。扬声器和麦克风的位置在训练和测试集中是不同的,在训练、验证和测试集中,扬声器分别放置在9、4和4个不同位置。扬声器和麦克风之间的距离在[0.8,7.4]米。训练集和验证集每句话语随机选择20个通道,测试集每句话语随机选择16和32个通道,对应于两个测试场景。
特征及模型结构详见表一。在训练阶段,首先用干净的Librispeech数据训练了基于单通道的ASR模型。当模型训练完毕后,参数被固定并送到基于多通道的ASR模型。最后,用多通道带噪数据训练了多层流注意力机制网络,训练阶段不进行通道丢弃,只改变计算缩放因子网络的输入。在测试阶段,进行通道逐层丢弃,不使用语言模型,采用贪婪解码,采用WER作为评价指标。
表一.声学特征及模型设置
Figure BDA0003155244270000101
实施例比较了所提出的Sparsemax和Scaling Sparsemax与Softmax流注意力机制。此外构建了一个“理想最优通道”算法,它选择物理上最接近声源的通道,并作为单通道ASR模型的输入。关键字“理想”意味着扬声器和麦克风之间的距离是事先知道的。
表二.Libri-adhoc-simu仿真数据集的结果(WER(%))
Figure BDA0003155244270000102
Figure BDA0003155244270000111
表三.Libri-adhoc40真实数据集的结果(WER(%))
Figure BDA0003155244270000112
表二列出了比较方法在Libri-adhoc-simu上的性能。从表中可得:(1)所有三种流注意方法在两种测试场景中都表现良好,并且测试场景都是训练阶段未见过的通道数,证明了流注意力的泛化性能。(2)Sparsemax和多层Scaling Sparsemax都比Softmax有显著的性能改进。例如,在20通道测试场景中,基于多层Scaling Sparsemax的流注意力在“test-clean”数据集下,较基于Softmax的流注意力方法WER相对降低30.90%。
表三显示了Libri-adhoc40真实数据的结果。从表中可以看出,提出的多层ScalingSparsemax表现良好。在32通道测试场景中,它实现了WER相对降低20.1%;较“理想最优通道”WER相对降低10.4%。
同时,从表二表三中可以发现,基于Scaling Sparsemax的多层流注意力不仅得到了性能提升,并且计算复杂度由
Figure BDA0003155244270000113
降低至
Figure BDA0003155244270000114
证明本发明提出的多层Scaling Sparsemax结构在有效降低解码计算复杂度的同时,还能提前丢弃无用的通道,一定程度地提升性能。

Claims (1)

1.一种自组织麦克风语音识别的逐层通道选择方法,其特征在于,包括以下步骤:
步骤1:构建基于多头注意力机制的单通道ASR系统;
步骤1-1:多头注意力机制MHA;
多头注意力机制表达为下式:
MHA(Q,K,V)=Concat(U1,…,Un)WO
其中
Figure FDA0003155244260000011
分别称为质询矩阵、键矩阵和值矩阵;Concat(·)是矩阵拼接操作,n代表头的数量,
Figure FDA0003155244260000012
是可学习的变换矩阵;
第i个头Ui的运算表达为:
Figure FDA0003155244260000013
Figure FDA0003155244260000014
其中
Figure FDA0003155244260000015
都是可学习的变换矩阵,Dk=Dh/n是每个头的特征向量维度;
步骤1-2:单通道ASR系统;
给定一个语料的输入声学特征
Figure FDA0003155244260000016
及其目标输出文本序列
Figure FDA0003155244260000017
其中T和Dx分别是输入X的长度和特征维度,L和Dv分别是输出的长度和字典大小;
首先,输入X经过卷积下采样层,得到下采样后的输入
Figure FDA0003155244260000018
然后经过编码器Enc(·)和解码器Dec(·):
Figure FDA0003155244260000019
Figure FDA00031552442600000110
其中下标N1和N2分别代表编码器和解码器的块数量,Emb(·)代表线性变换和位置编码;
Figure FDA00031552442600000111
为当前解码时间步l之前的输出,
Figure FDA00031552442600000112
为解码时间步l的语义向量,
Figure FDA00031552442600000113
是由编码器提取得到的高维表征;
最后,通过一个线性变换将cl映射为输出向量yl
单通道ASR系统采用干净语音进行学习,优化目标是最大化下式:
Figure FDA00031552442600000114
其中ol是输出文本序列O的第l个时间步的文本向量;
步骤1-3:将多头注意力机制加入单通道ASR系统的编码器和解码器中,得到基于多头注意力机制的单通道ASR系统;
步骤2:基于Scaling Sparsemax的多层流注意力机制的多通道ASR系统;
步骤2-1:基于Scaling Sparsemax的多层流注意力机制;
流注意力的计算定义为:
StreamAttention(Q,K,V)=Z+FeedForward(Z)
其中,Z=MHA(Q,K,V),FeedForward(.)是前向输出模块;
流注意力将每个通道的高维语义向量Cl和导向矢量gl作为输入,得到融合语义向量rl
Figure FDA0003155244260000021
将融合语义向量rl通过输出层,获取当前时间步的输出向量yl
流注意力在自组织麦克风阵列任务下存在一定的局限:对于任意的输入向量z和通道i,Softmaxi(z)≠0,导致不能进行通道选择;而基于Sparsemax能够得到稀疏的解,从而达到通道选择的目的,其中Sparsemax的定义如下:
Figure FDA0003155244260000026
其中
Figure FDA0003155244260000022
代表一个K-1维的单纯形,p表示输出向量;
Sparsemax是将输入向量z投影到设定的单纯形上,能够得到一个稀疏的输出向量,同时,这个稀疏的输出向量的求解有一个近似解:
Sparsemaxi(z)=max(zi-τ(z),0)
其中
Figure FDA0003155244260000023
代表一个搜寻软阈值的函数;
基于Sparsemax的流注意力能够进行通道选择,但不能控制得到解的稀疏程度,从而会将过多通道置零,因此,通过一个网络输出缩放因子s以控制Sparsemax的输出稀疏程度,网络表达如下:
s=1+ReLU(Linear([||z||,C]T))
其中||z|是输入向量的L2范数,Linear(.)代表两层可学习线性变换,其维度分别为2×2和1×2;
Scaling Sparsemax的具体算法表述如下:
首先对输入向量z进行排序,得到z(1)≥…≥z(K);然后从k=K开始搜索到k=1,当出现k满足条件
Figure FDA0003155244260000024
时,令
Figure FDA0003155244260000025
最后输出向量p,其中第i维元素值表示为pi=max(zi-τ(z),0)/s;
缩放因子与通道数成正比,即通道数越少,输出的稀疏程度越低,若当层通道分配权重为0,则直接丢弃而不再输入下一层,使得通道数逐层减少,稀疏程度逐层下降,直到该层不再置零后,到达平衡状态;
步骤2-2:多通道ASR系统;
多通道系统的结构描述如下:
给定一个语料所有通道的输入声学特征
Figure FDA0003155244260000031
其中下标k指定某个特定通道,C代表总输入通道数,每一个通道的输入声学特征分别经过单独的编码器得到每一个通道的高维表征Hk
Figure FDA0003155244260000032
每一个通道单独的编码器和步骤1中的单通道ASR系统的编码器相同;
将高维表征Hk输入流注意力解码器,在第m层解码器时间步l得到的每个通道的语义向量进行拼接:
Figure FDA0003155244260000033
其中
Figure FDA0003155244260000034
由下式获取:
Figure FDA0003155244260000035
Figure FDA0003155244260000036
是经过解码器第1到N2-1层后的输出,
Figure FDA0003155244260000037
是第1到第m层流注意力解码层;每一层的解码器和单通道ASR系统的解码器相同,在解码过程中根据步骤2-1中基于Sparsemax的流注意力进行通道选择的方法使用缩放因子s对通道进行选择;
同时,由之前时间步的输出向量通过第一层流注意力解码层的多头注意力机制提取导向矢量
Figure FDA0003155244260000038
Figure FDA0003155244260000039
最终将每个通道的高维语义向量Cl和导向矢量gl作为输入,得到融合语义向量rl,再通过输出层,获取当前时间步的输出向量yl
步骤3:对ASR系统进行训练;
首先用干净的语音数据训练单通道ASR,然后用多通道带噪语音数据训练基于ScalingSparsemax的流注意力机制网络;在训练过程不进行通道丢弃操作,仅将未置零的通道数输入缩放因子网络,在解码阶段进行通道丢弃操作,且将实际剩余通道数作为缩放因子网络的输入。
CN202110775871.0A 2021-07-09 2021-07-09 一种自组织麦克风语音识别的逐层通道选择方法 Pending CN113628614A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110775871.0A CN113628614A (zh) 2021-07-09 2021-07-09 一种自组织麦克风语音识别的逐层通道选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110775871.0A CN113628614A (zh) 2021-07-09 2021-07-09 一种自组织麦克风语音识别的逐层通道选择方法

Publications (1)

Publication Number Publication Date
CN113628614A true CN113628614A (zh) 2021-11-09

Family

ID=78379556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110775871.0A Pending CN113628614A (zh) 2021-07-09 2021-07-09 一种自组织麦克风语音识别的逐层通道选择方法

Country Status (1)

Country Link
CN (1) CN113628614A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495968A (zh) * 2022-03-30 2022-05-13 北京世纪好未来教育科技有限公司 语音处理方法、装置、电子设备及存储介质
CN114501238A (zh) * 2022-03-28 2022-05-13 广州迈聆信息科技有限公司 一种麦克风通道确定方法、装置、会议终端及介质
CN117473400A (zh) * 2023-12-28 2024-01-30 中南大学 基于多通道层级变换网络结构的设备故障诊断方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114501238A (zh) * 2022-03-28 2022-05-13 广州迈聆信息科技有限公司 一种麦克风通道确定方法、装置、会议终端及介质
CN114495968A (zh) * 2022-03-30 2022-05-13 北京世纪好未来教育科技有限公司 语音处理方法、装置、电子设备及存储介质
CN114495968B (zh) * 2022-03-30 2022-06-14 北京世纪好未来教育科技有限公司 语音处理方法、装置、电子设备及存储介质
CN117473400A (zh) * 2023-12-28 2024-01-30 中南大学 基于多通道层级变换网络结构的设备故障诊断方法
CN117473400B (zh) * 2023-12-28 2024-03-26 中南大学 基于多通道层级变换网络结构的设备故障诊断方法

Similar Documents

Publication Publication Date Title
CN113628614A (zh) 一种自组织麦克风语音识别的逐层通道选择方法
Vasquez et al. Melnet: A generative model for audio in the frequency domain
Haeb-Umbach et al. Far-field automatic speech recognition
Sainath et al. Multichannel signal processing with deep neural networks for automatic speech recognition
Chiu et al. State-of-the-art speech recognition with sequence-to-sequence models
Qian et al. Single-channel multi-talker speech recognition with permutation invariant training
Zhao et al. Monaural speech dereverberation using temporal convolutional networks with self attention
Qian et al. Very deep convolutional neural networks for noise robust speech recognition
Yoshioka et al. The NTT CHiME-3 system: Advances in speech enhancement and recognition for mobile multi-microphone devices
Chang et al. End-to-end multi-channel transformer for speech recognition
CN109949821B (zh) 一种利用cnn的u-net结构进行远场语音去混响的方法
Pandey et al. Dual application of speech enhancement for automatic speech recognition
Ganapathy et al. 3-D CNN models for far-field multi-channel speech recognition
Zhang et al. Improving end-to-end single-channel multi-talker speech recognition
Nakatani et al. Speech dereverberation based on maximum-likelihood estimation with time-varying Gaussian source model
Kang et al. Multimodal speaker diarization of real-world meetings using d-vectors with spatial features
CN116092501B (zh) 语音增强方法、语音识别方法、说话人识别方法和系统
Wang et al. Stream attention-based multi-array end-to-end speech recognition
Yoshioka et al. VarArray: Array-geometry-agnostic continuous speech separation
Shi et al. FurcaNet: An end-to-end deep gated convolutional, long short-term memory, deep neural networks for single channel speech separation
Chhetri et al. Multichannel audio front-end for far-field automatic speech recognition
Wang et al. Exploring end-to-end multi-channel ASR with bias information for meeting transcription
Wang et al. Enhanced Spectral Features for Distortion-Independent Acoustic Modeling.
CN113823273B (zh) 音频信号处理方法、装置、电子设备及存储介质
Chen et al. Scaling sparsemax based channel selection for speech recognition with ad-hoc microphone arrays

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination