CN111524519A - 采用高级特征融合的端到端多通道语音识别方法 - Google Patents

采用高级特征融合的端到端多通道语音识别方法 Download PDF

Info

Publication number
CN111524519A
CN111524519A CN202010468201.XA CN202010468201A CN111524519A CN 111524519 A CN111524519 A CN 111524519A CN 202010468201 A CN202010468201 A CN 202010468201A CN 111524519 A CN111524519 A CN 111524519A
Authority
CN
China
Prior art keywords
channel
level feature
level
feature sequence
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010468201.XA
Other languages
English (en)
Other versions
CN111524519B (zh
Inventor
郭武
刘谭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202010468201.XA priority Critical patent/CN111524519B/zh
Publication of CN111524519A publication Critical patent/CN111524519A/zh
Application granted granted Critical
Publication of CN111524519B publication Critical patent/CN111524519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种采用高级特征融合的端到端多通道语音识别方法,包括:对于多通道语音输入,采用与通道数目相同的编码器单独对一个通道的语音输入进行编码;所述编码器为多层金字塔结构的神经网络,神经网络最后一层输出的声学特征序列称为高级特征序列;对于每一通道的高级特征序列,通过得分函数来计算相应的注意力权重,从而将所有通道的高级特征序列融合为一个增强的高级特征序列;将所述增强的高级特征序列输入至解码器,由解码器根据之前预测到的字符以及当前输入的所述增强的高级特征序列中当前字符来计算当前当前字符的概率分布,最终得到所述增强的高级特征序列的识别结果。该方法能够达到相对单通道语音输入的识别率更高的目的。

Description

采用高级特征融合的端到端多通道语音识别方法
技术领域
本发明涉及语音信号处理领域,尤其涉及一种采用高级特征融合的端到端多通道语音识别方法。
背景技术
近年来,随着神经网络在语音识别领域中的广泛应用,语音识别系统的性能得到了显著的改善。目前主流的语音识别系统主要有两种,一种是基于HMM的语音识别系统,另一种则是端到端语音识别系统。相比于基于HMM的语音识别系统,端到端语音识别系统结构更加简单,通过神经网络直接把输入语音特征序列转化成文字序列,不需要HMM系统的一套发音词典、决策树、字级别标注对齐信息,由于其实现简单且性能优异,因此成为了当前研究的热点。
基于注意力机制的“编码-解码”框架是端到端语音识别系统中一种主流的结构,它包括编码网络、解码网络和注意力计算网络,编码网络首先将输入的声学特征序列转化成高级特征序列,然后注意力计算网络计算解码器当前位置与高级特征序列每个元素的注意力权重,即相关程度,将这些元素加权求和得到一个上下文向量(Context Vector),最后解码网络根据之前的预测结果和上下文向量预测当前位置的标签分布概率。
语音识别系统在近场干净语音识别任务上已经实现了很高的准确率,进入了实用阶段;但是在远场语音识别任务中性能不佳。多通道语音识别系统综合利用每个麦克风采集的信息,对信号进行增强,提高了远场语音识别准确率,因此被广泛应用到远场语音识别任务中。传统的综合多通道语音的方法是基于语音增强实现的,利用波束形成(beamforming)算法,例如延迟相加(Delay-sum)、最小方差无失真响应(MVDR)等对多通道语音信号进行增强,但是这些算法需要知道关于麦克风阵列的先验知识,比如阵列的形状、到声源的距离等,而且其实现过程并不是以语音识别准确率为目标。
基于注意力机制的多通道语音融合方法已经被应用到语音识别系统,如文献(Braun S,Neil D,Anumula J,et al.Multi-channelattention for end-to-end speechrecognition[J].2018Interspeech,2018:17-21),使用基于注意力机制的多通道语音融合方法在声学特征层面进行融合,即根据每个通道语音的声学特征质量,为其分配一个权重,再将所有通道的声学特征加权求和,得到一个增强的声学特征,输入到端到端语音识别系统中。相比于每个通道语音单独训练识别的结果,该系统在识别准确率上有了一定的提升。然而在深度网络中存在内部协变量移位(Internal Covariate Shift)的问题,不同通道语音特征的差异性会随着网络的加深而发生变化。因此单纯的在输入特征层面对不同通道的特征进行融合无法利用各通道深层特征的信息。
发明内容
本发明的目的是提供一种采用高级特征融合的端到端多通道语音识别方法,在端到端识别框架,将多通道语音信号作为输入,完成语音识别的任务,能够达到相对单通道语音输入的识别率更高的目的。
本发明的目的是通过以下技术方案实现的:
一种采用高级特征融合的端到端多通道语音识别方法,包括:
对于多通道语音输入,采用与通道数目相同的编码器单独对一个通道的语音输入进行编码;所述编码器为多层金字塔结构的神经网络,神经网络最后一层输出的声学特征序列称为高级特征序列;对于每一通道的高级特征序列,通过得分函数来计算相应的注意力权重,从而将所有通道的高级特征序列融合为一个增强的高级特征序列;
将所述增强的高级特征序列输入至解码器,由解码器根据之前预测到的字符以及输入的所述增强的高级特征序列来计算当前字符的概率分布,最终得到所述增强的高级特征序列的识别结果。
由上述本发明提供的技术方案可以看出,通过注意力机制动态地为每个通道的高级特征分配注意力权重,将所有通道的高级特征加权求和,使得各个通道的高级特征互补,得到一个增强的高级特征序列,从而提高识别性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的典型的LAS结构图;
图2为本发明实施例提供的一种采用高级特征融合的端到端多通道语音识别方法的结原理图;
图3为本发明实施例提供的多通道高级特征融合示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
由于噪声和回声的影响,单一通道的远场语音特征经过编码器生成的高级特征会受到干扰,降低了识别的准确率。语音识别的声学建模方法是通过大量的语音数据来训练一个概率模型,测试的语音进入这个概率模型之后,通过解码输出就是对应的文本。在实际应用中,采用麦克风阵列来同时采集语音,并将多通道的语音信号用于语音识别的建模,从理论上而言,可以提升识别准确率,关键是如何利用这多路信号进行识别的建模。
目前,基于深度学习的语音识别系统成为了主流,而采用端到端技术也就是直接输入语音输出文本的识别技术,由于系统实现简单,性能几乎与传统方法相当甚至更好,解码速度快,成为了研究的热点;采用单路语音输入的端到端识别器已经基本成熟。本发明就是在端到端识别框架,将多通道语音信号作为输入,完成语音识别的任务,从而达到相对单通道语音输入的识别率更高的目的。
所述的端到端识别框架是指基于“编码-解码”的端到端识别框架,具体而言,就是采用注意力(Attention)机制的端到端系统,又被称为LAS(Listen attend and Spell)端到端构架。在LAS框架的编码器我们实现将多通道的语音输入进行融合,通过注意力机制来实现不同通道的加权合成一个更优的编码输入,从而达到优于单通道输入的信号,获得更高的识别准确率。
“编码-解码”框架(Encoder-Decoder)由编码器(Encoder)和解码器(Decoder)组成,是一种端到端的框架结构,直接进行序列转换。在语音识别模型训练中,输入就是一段语音对应的声学特征参数,输出就是这段语音对应的文本;在识别解码中,将训练好的模型输入语音对应的声学特征参数,通过搜索算法可以得到对应的文本。在语音识别中通常采用LSTM网络作为Encoder(编码器)和Decoder(解码器)。
在Encoder-Decoder框架中,Encoder端的输入是语音的声学特征序列X={x1,x2,…xT},Encoder将原始的声学特征序列编码成高级特征序列H={h1,h2,…hU}:
H=Encoder(X)
在每个时刻,Decoder端根据Encoder的输出H和前一时刻的标签yi-1来预测当前时刻标签的概率分布:
ci=AttentionContext(si,H)
P(yi|X,y<i)=Decoder(yi-1,ci)
其中,ci是上下文向量,si是Decoder当前时刻的隐状态,AttentionContext函数计算si和Encoder输出H每个元素之间的注意力权重,将hu加权求和得到ci
ei,u=<si,hu>
Figure BDA0002513356920000041
ci=∑uαi,uhu
其中,<>是用来计算si和hu相关性的函数,αi,u则是hu对应的注意力权重。
LAS(Listen attend and Spell)结构是一种典型的编码-解码框架,可以应用在很多模式识别中,典型的有语音识别,机器翻译。如图1所示,LAS包含了两个组件:Listener和Speller,Listener对应的是Encoder,Speller对应的是Decoder。输入就是语音特征X={x1,x2,…xT},输出是对应的文本序列Y={y1,y2,…ys}
Listener采用三层金字塔结构的BLSTM(pBLSTM),每层帧数递减2倍,从而使得最上层的运算降低到只有原来的1/8。任一编码器第j层第i时刻的隐状态
Figure BDA0002513356920000042
来自于第j层第i-1时刻的隐状态
Figure BDA0002513356920000043
和第j-1层第2i时刻的隐状态
Figure BDA0002513356920000044
与第2i+1时刻的隐状态
Figure BDA0002513356920000045
Figure BDA0002513356920000046
Speller采用两层BLSTM,每次基于之前的输出字符和Listener的输出计算当前字符的分布概率P(yi):
ci=AttentionContext(si,H)
si=RNN(si-1,yi-1,ci-1)
P(yi|X,y<i)=CharacterDistribution(si,ci)
其中,si代表当前时刻Speller的隐状态,yi-1代表前一个预测字符。CharacterDistribution函数是一个带有softmax输出层的多层感知器,RNN函数是一个两层的LSTM。
本发明所提出的采用高级特征融合的端到端多通道语音识别方法就是以LAS结构为基础实现的。具体来说:
对于多通道语音输入,采用与通道数目相同的编码器单独对一个通道的语音输入进行编码;所述编码器为多层金字塔结构的神经网络,神经网络最后一层输出的声学特征序列称为高级特征序列;对于每一通道的高级特征序列,通过得分函数来计算相应的注意力权重,从而将所有通道的高级特征序列融合为一个增强的高级特征序列;
将所述增强的高级特征序列输入至解码器,由解码器根据之前预测到的字符以及输入的所述增强的高级特征序列来计算当前字符的概率分布,最终得到所述增强的高级特征序列的识别结果。
图2为实现本发明相关的方案的原理图,其中的编码器为多层金字塔结构的双向长短时记忆网络,实现方式及相关原理与图1中的编码器(Listener组件)相同,故不再赘述。
在本发明实施例中,将最后一层输出的隐状态序列表示为{h1,h2,…,hU},U为序列长度,也即总时刻数,高级特征序列H={h1,h2,…,hU}。由于本发明实施例考虑多通道输入,因而将第l个通道的高级特征序列记为
Figure BDA0002513356920000051
并且,通过自动选择权重,将将各通道形成的高级特征序列进行融合生成一个更稳健的高级特征序列(也即增强的高级特征序列)。
如图3所示,为多通道高级特征融合示意图,图3仅示例性的以二通道为例进行说明,在实际应用中具体的通道数目C可根据实际情况考虑,按照图3所示的原理即可实现多通道高级特征的融合。
在多通道高级特征融合过程中,将每个通道的语音特征
Figure BDA0002513356920000052
输入到对应的Encoder中,得到其对应的高级特征序列
Figure BDA0002513356920000053
Hl=Encoder(Xl)
对于其中的每一个高级特征
Figure BDA0002513356920000061
计算注意力权重,再将所有通道的高级特征加权求和,得到增强的高级特征序列:
Figure BDA0002513356920000062
Figure BDA0002513356920000063
Figure BDA0002513356920000064
其中,C表示通道总数,Z表示得分函数,
Figure BDA0002513356920000065
表示通过得分函数Z计算出的高级特征
Figure BDA0002513356920000066
的得分;注意力权重
Figure BDA0002513356920000067
是所有通道的得分经过softmax函数得到,这样就可以使得
Figure BDA0002513356920000068
u=1,2,…,U,U为增强的高级特征序列长度;mu为增强的高级特征序列M={m1,m2,…,mU}中的一个高级特征。
本发明实施例中,所述得分函数可以通过神经网络来实现,所述神经网络可以Z包含三个线性层和一个非线性层:
Figure BDA0002513356920000069
其中,
Figure BDA00025133569200000610
表示前一个高级特征的注意力权重,相邻两个高级特征之间存在一定的联系,引入前一个高级特征的注意力权重可以更准确的计算当前高级特征的注意力权重;W*表示权重参数,*=f,h,a。通过上述可以看出,得分函数先将
Figure BDA00025133569200000611
Figure BDA00025133569200000612
映射到同一个维度为Dms(Dimensionof mapping space)的空间进行相加,经过一个非线性函数后再映射到一个得分。
之后,将增强的高级特征序列M输入到Decoder进行解码,即可得到对应的文本,原理与前述介绍的LAS结构中的解码器过程相同,即:
基于之前的输出字符和Listener的输出计算当前字符的分布概率:
cu=AttentionContext(su,M)
su=RNN(su-1,yu-1,cu-1)
P(yu|X,y<u)=CharacterDistribution(su,cu)
其中,cu是上下文向量,su代表当前时刻解码器的隐状态,yu-1代表前一个预测字符;CharacterDistribution函数是一个带有softmax输出层的多层感知器,RNN函数是一个两层的LSTM,u=1时,初始的s0与c0为随机值,X包含所有通道输入的语音特征X={X1,X2,…XC}。
图1与图2中解码器的sos,eos,分别是start of sequence,end of sequence的简写,在训练的时候需要标注一句话的开始和结尾;此外,输入输出序列的数目不一定相等,因此使用了不同的角标。
本发明实施例提供的上述方案,相对于传统的端到端语音识别建模方法主要具有如下优点:
1)相较于传统的波束形成算法,该发明动态地根据每个通道的高级特征质量为其分配注意力权重,可选择地提取质量好的高级特征,融合后得到更高质量的高级特征,提高了系统的识别性能。同时,每个通道高级特征的权重是由注意力机制自动得到,不需要任何关于麦克风阵列的先验信息。
2)相较于基于声学特征融合的多通道语音识别系统,本发明利用了每个通道的高级特征信息,相对底层特征信息而言,鲁棒性更强。
本领域技术人员可以理解,此处所说的高级特征信息与底层特征信息是相对概念,神经网络是多层结构,传统方案采用底层输出的特征进行融合,本申请所述的高级特征是高层输出的特征信息。
如之前所述,本发明实施例提供的方案中,对编码器生成的高层特征进行融合,而不是简单地将底层的声学特征进行融合,从而保证融合后的高层特征更加稳健;在融合的权重中,采用注意力机制来动态生成各通道对应的融合权重,同时实现了自动的通道选择,不需要任何麦克风阵列的信息。为了验证本发明所提出方法的有效性,设计了如下实验。
1、实验设置。
在中文数据集King-ASR-120上进行实验,选择两个麦克风的语音进行实验。所有语音数据均为16KHZ采样率,16bit量化的格式存储。本实验中以汉字为建模单位,转录文本所形成的字典共包含3896个单元。挑选了66318条语音作为训练集,4319条语音作为开发集,5200条语音作为测试集。
本实验采用的声学特征是108维的MFCC特征,由36维的MFCC特征结合其一阶差分和二阶差分所形成。以pytorch、kaldi作为实验平台,比较了不同模型的实验结果,探究本文所提出的方法的性能。
2、实验结果
本实验中总共测试了4个系统模型:LAS,LAS-AF(LAS based on acousticfeature fusion),LAS-AVG(LAS based on acoustic feature fusion using averageweight),LAS-HLF(LAS based on high level feature fusion)。所有的模型都包含一个相同参数的LAS结构,LAS中的Listener是由三层双向LSTM网络组成,每层隐藏节点均为512。Speller由两层双向LSTM和一个全连接层组成,每层LSTM隐藏节点数均为1024,全连接层输出节点为3898,所有可学习参数均是通过ADAM优化器进行优化。
1)LAS模型是在单通道数据上采用标准的编解码机制进行语音识别,其结果作为基线。
2)LAS-AF是文献(Braun S,Neil D,Anumula J,et al.Multi-channelattentionfor end-to-end speech recognition[J].2018Interspeech,2018:17-21)提出的一种结构,是在声学特征层面进行融合的多通道语音识别系统,由前端特征增强部分和后端识别部分组成。前端特征增强部分利用注意力机制为每个通道的声学特征分配权重,将所有通道声学特征加权求和得到增强的声学特征,再将增强的声学特征送到后端进行识别。该系统的后端识别部分采用的是LAS结构。
3)LAS-AVG与LAS-AF结构相似,不同的是前端特征增强部分,它将每个通道声学特征的注意力权重设成固定的相同的值1/C,C是总通道数,这仅仅是作为一种对比系统。
4)LAS-HLF就是本发明所提出的基于高级特征融合的多通道语音识别方法对应的系统结构(也即图2所示结构)。
各个系统模型的实验结果如表1所示,其中的“CH1”“CH2”分别表示第一通道、第二通道的数据,各系统模型的参数都已经调节到最优的情况。采用字错误率(CER%)来衡量系统的性能,数值越小表示识别性能越高。
模型 训练数据 测试数据 字错误率(CER%)
LAS CH1 CH1 17.75%
LAS CH2 CH2 15.32%
LAS-AVG CH1,CH2 CH1,CH2 15.86%
LAS-AF CH1,CH2 CH1,CH2 14.09%
LAS-HLF CH1,CH2 CH1,CH2 13.47%
表1不同系统模型的实验结果
由于LAS-AVG模型只是简单地将两个通道的声学特征进行求和平均,这是一种很直接的算法,所以性能较差。LAS-AF模型是在声学特征层面进行融合,综合利用多通道语音信息,动态地为每个通道的声学特征分配注意力权重,其字错误率达降低到14.09%,要高于每个通道数据独立训练、识别的准确率。相比于LAS-AF,LAS-HLF利用了高级特征的信息,进一步提高了识别性能,CER进一步下降了0.62%。
本实验中对于注意力权重的计算,是通过将上一个高级特征的注意力权重和当前高级特征映射到同一维度为Dms的空间,如前文提供的
Figure BDA0002513356920000091
计算公式,进行相加再映射到一维空间得到的。Dms作为一个超参,对实验结果是有直接影响的,表2列出了不同的Dms情况下的实验结果。
Dms 字错误率(CER%)
250 14.19
300 13.47
384 13.68
512 13.81
768 14.17
表2不同Dms取值的实验结果
可以看出,Dms为300时,系统性能最佳,CER为13.47%。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (4)

1.一种采用高级特征融合的端到端多通道语音识别方法,其特征在于,包括:
对于多通道语音输入,采用与通道数目相同的编码器单独对一个通道的语音输入进行编码;所述编码器为多层金字塔结构的神经网络,神经网络最后一层输出的声学特征序列称为高级特征序列;对于每一通道的高级特征序列,通过得分函数来计算相应的注意力权重,从而将所有通道的高级特征序列融合为一个增强的高级特征序列;
将所述增强的高级特征序列输入至解码器,由解码器根据之前预测到的字符以及输入的所述增强的高级特征序列来计算当前字符的概率分布,最终得到所述增强的高级特征序列的识别结果。
2.根据权利要求1所述的一种采用高级特征融合的端到端多通道语音识别方法,其特征在于,所述编码器为多层金字塔结构的双向长短时记忆网络,编码器每层帧数递减2倍,从而使得最上层的运算降低到只有输入的1/8;
任一编码器第j层第i时刻的隐状态
Figure FDA0002513356910000011
来自于第j层第i-1时刻的隐状态
Figure FDA0002513356910000012
和第j-1层第2i时刻的隐状态
Figure FDA0002513356910000013
与第2i+1时刻的隐状态
Figure FDA0002513356910000014
Figure FDA0002513356910000015
将最后一层输出的隐状态序列表示为{h1,h2,...,hU},U为序列长度,也即总时刻数,高级特征序列H={h1,h2,...,hU}。
3.根据权利要求1所述的一种采用高级特征融合的端到端多通道语音识别方法,其特征在于,对于每一通道的高级特征序列,通过得分函数来计算相应的注意力权重,从而将所有通道的高级特征序列融合为一个增强的高级特征序列包括:
将第l个通道的高级特征序列记为
Figure FDA0002513356910000016
对于其中的每一个高级特征
Figure FDA0002513356910000017
计算注意力权重,再将所有通道的高级特征加权求和,得到增强的高级特征序列:
Figure FDA0002513356910000018
Figure FDA0002513356910000019
Figure FDA00025133569100000110
其中,C表示通道总数,Z表示得分函数,
Figure FDA00025133569100000111
表示通过得分函数Z计算出的高级特征
Figure FDA00025133569100000112
的得分;u=1,2,...,U,U为增强的高级特征序列长度;mu为增强的高级特征序列M={m1,m2,...,mU}中的一个高级特征。
4.根据权利要求3所述的一种采用高级特征融合的端到端多通道语音识别方法,其特征在于,所述得分函数通过神经网络来实现,表示为:
Figure FDA0002513356910000021
其中,
Figure FDA0002513356910000022
表示前一个高级特征的注意力权重;W*表示权重参数,*=f,h,a。
CN202010468201.XA 2020-05-28 2020-05-28 采用高级特征融合的端到端多通道语音识别方法 Active CN111524519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010468201.XA CN111524519B (zh) 2020-05-28 2020-05-28 采用高级特征融合的端到端多通道语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010468201.XA CN111524519B (zh) 2020-05-28 2020-05-28 采用高级特征融合的端到端多通道语音识别方法

Publications (2)

Publication Number Publication Date
CN111524519A true CN111524519A (zh) 2020-08-11
CN111524519B CN111524519B (zh) 2022-09-30

Family

ID=71912782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010468201.XA Active CN111524519B (zh) 2020-05-28 2020-05-28 采用高级特征融合的端到端多通道语音识别方法

Country Status (1)

Country Link
CN (1) CN111524519B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113611323A (zh) * 2021-05-07 2021-11-05 北京至芯开源科技有限责任公司 一种基于双通道卷积注意力网络的语音增强方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170289624A1 (en) * 2016-04-01 2017-10-05 Samsung Electrônica da Amazônia Ltda. Multimodal and real-time method for filtering sensitive media
CN110211574A (zh) * 2019-06-03 2019-09-06 哈尔滨工业大学 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
CN110603583A (zh) * 2017-05-11 2019-12-20 三菱电机株式会社 语音识别系统和用于语音识别的方法
CN110675860A (zh) * 2019-09-24 2020-01-10 山东大学 基于改进注意力机制并结合语义的语音信息识别方法及系统
US20200065379A1 (en) * 2012-09-10 2020-02-27 Google Llc Speech recognition and summarization
CN110853630A (zh) * 2019-10-30 2020-02-28 华南师范大学 面向边缘计算的轻量级语音识别方法
CN110853680A (zh) * 2019-11-05 2020-02-28 河南工业大学 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构
US20200118547A1 (en) * 2018-10-15 2020-04-16 Tencent America LLC Input-feeding architecture for attention based end-to-end speech recognition

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200065379A1 (en) * 2012-09-10 2020-02-27 Google Llc Speech recognition and summarization
US20170289624A1 (en) * 2016-04-01 2017-10-05 Samsung Electrônica da Amazônia Ltda. Multimodal and real-time method for filtering sensitive media
CN110603583A (zh) * 2017-05-11 2019-12-20 三菱电机株式会社 语音识别系统和用于语音识别的方法
US20200118547A1 (en) * 2018-10-15 2020-04-16 Tencent America LLC Input-feeding architecture for attention based end-to-end speech recognition
CN110211574A (zh) * 2019-06-03 2019-09-06 哈尔滨工业大学 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
CN110675860A (zh) * 2019-09-24 2020-01-10 山东大学 基于改进注意力机制并结合语义的语音信息识别方法及系统
CN110853630A (zh) * 2019-10-30 2020-02-28 华南师范大学 面向边缘计算的轻量级语音识别方法
CN110853680A (zh) * 2019-11-05 2020-02-28 河南工业大学 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
FERAS E. ABUALADAS ET AL.: "Speaker identification based on curvlet transform technique", 《IEEE》 *
杨鸿武等: "基于改进混合CTC/attention架构的端到端普通话语音识别", 《西北师范大学学报(自然科学版)》 *
耿佳佳: "基于人脸和语音深度特征融合的说话人识别与标注算法研究", 《万方数据库》 *
苗晓晓等: "基于降噪自动编码器的语种特征补偿方法", 《计算机研究与发展》 *
陈士心: "基于Android平台的语音识别系统的设计", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113611323A (zh) * 2021-05-07 2021-11-05 北京至芯开源科技有限责任公司 一种基于双通道卷积注意力网络的语音增强方法及系统
CN113611323B (zh) * 2021-05-07 2024-02-20 北京至芯开源科技有限责任公司 一种基于双通道卷积注意力网络的语音增强方法及系统

Also Published As

Publication number Publication date
CN111524519B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
EP3680894B1 (en) Real-time speech recognition method and apparatus based on truncated attention, device and computer-readable storage medium
Xiong et al. Toward human parity in conversational speech recognition
Bhangale et al. Survey of deep learning paradigms for speech processing
Haridas et al. A critical review and analysis on techniques of speech recognition: The road ahead
CN107077842B (zh) 用于语音转录的系统和方法
US11227579B2 (en) Data augmentation by frame insertion for speech data
CN112599128B (zh) 一种语音识别方法、装置、设备和存储介质
Georgescu et al. Performance vs. hardware requirements in state-of-the-art automatic speech recognition
Abdelhamid et al. End-to-end arabic speech recognition: A review
Chen et al. Sequence discriminative training for deep learning based acoustic keyword spotting
CN117099157A (zh) 用于端到端自动语音识别置信度和删除估计的多任务学习
Kim et al. Lip-to-speech synthesis in the wild with multi-task learning
CN111524519B (zh) 采用高级特征融合的端到端多通道语音识别方法
Walker et al. Semi-supervised model training for unbounded conversational speech recognition
Serafini et al. An experimental review of speaker diarization methods with application to two-speaker conversational telephone speech recordings
Biswas et al. Speech recognition using weighted finite-state transducers
Wang et al. Direct posterior confidence for out-of-vocabulary spoken term detection
Liu et al. Deriving disyllabic word variants from a Chinese conversational speech corpus
Mendelev et al. Robust voice activity detection with deep maxout neural networks
Kadyan et al. Developing in-vehicular noise robust children ASR system using Tandem-NN-based acoustic modelling
Ravi et al. Phoneme segmentation-based unsupervised pattern discovery and clustering of speech signals
Poncelet et al. Unsupervised Accent Adaptation Through Masked Language Model Correction of Discrete Self-Supervised Speech Units
Errattahi et al. Recent advances in LVCSR: a benchmark comparison of performances
Tarján et al. N-gram approximation of lstm recurrent language models for single-pass recognition of hungarian call center conversations
Meng Discriminative and adaptive training for robust speech recognition and understanding.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant