CN110473529A - 一种基于自注意力机制的流式语音转写系统 - Google Patents

一种基于自注意力机制的流式语音转写系统 Download PDF

Info

Publication number
CN110473529A
CN110473529A CN201910850127.5A CN201910850127A CN110473529A CN 110473529 A CN110473529 A CN 110473529A CN 201910850127 A CN201910850127 A CN 201910850127A CN 110473529 A CN110473529 A CN 110473529A
Authority
CN
China
Prior art keywords
attention
network module
module
streaming
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910850127.5A
Other languages
English (en)
Other versions
CN110473529B (zh
Inventor
温正棋
田正坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Zhiji Technology Co ltd
Original Assignee
Limit Element (hangzhou) Intelligent Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Limit Element (hangzhou) Intelligent Polytron Technologies Inc filed Critical Limit Element (hangzhou) Intelligent Polytron Technologies Inc
Priority to CN201910850127.5A priority Critical patent/CN110473529B/zh
Publication of CN110473529A publication Critical patent/CN110473529A/zh
Application granted granted Critical
Publication of CN110473529B publication Critical patent/CN110473529B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于自注意力机制的流式语音转写系统,包括特征前端处理模块,自注意力音频编码网络模块,自注意力预测网络模块,联合网络模块;特征前端处理模块:用于接收输入声学特征,并转换为特定维度的向量;自注意力音频编码网络模块:与特征前端处理模块相连,用于接收处理后的声学特征,得到编码后的声学状态向量;自注意力预测网络模块:用于根据输入的上一时刻预测标记,生成一个语言状态向量。联合网络模块:与自注意力音频编码网络模块和自注意力预测网络模块相连,用来结合声学状态和语言状态,并计算新的预测标记的概率。本发明提供了一种基于自注意力机制的流式前馈语音编码器,以提高传统语音编码器的计算效率和精度。

Description

一种基于自注意力机制的流式语音转写系统
技术领域
本发明涉及电子行业信号处理技术领域,具体涉及一种基于自注意力机制的流式语音转写系统。
背景技术
语音作为人类交流信息的主要手段之一,语音识别技术主要是让计算机能够识别人类语音并转写为对应的文本。在语音识别技术的发展过程中,早期的研究主要是采用基于混合高斯模型和隐马尔科夫模型的方法,深度神经网络的发展使得高斯模型被深度神经网络所替代。近年来,随着计算机技术的发展,端到端模型因为简化的流程,优雅的模型结构,受到了越来越多人的关注。
循环神经网络语音转写系统采用循环神经网络作为基本的网络框架。基于循环神经网络进行语音识别建模,具有很多优点,模型能够建模长距离的文本依赖关系,提高模型的精度。但是循环神经网络递归的进行计算在训练过程中效率比较低下。自注意力机制也能够建模长距离的依赖关系,但是需要以完整的序列作为输入,虽然具有很高的计算效率,但是并不能应用于流式序列建模任务。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于自注意力机制的流式语音转写系统,本发明提供了一种基于自注意力机制的流式前馈语音编码器,以提高传统语音编码器的计算效率和精度。
为了解决上述技术问题,采用如下技术方案:
一种基于自注意力机制的流式语音转写系统,包括特征前端处理模块,自注意力音频编码网络模块,自注意力预测网络模块,联合网络模块;
所述特征前端处理模块:用于接收输入声学特征,并转换为特定维度的向量;
所述自注意力音频编码网络模块:与特征前端处理模块相连,用于接收处理后的声学特征,得到编码后的声学状态向量St
所述自注意力预测网络模块:所述自注意力预测网络模块为一个神经网络语言模型,用于根据输入的上一时刻预测标记,生成一个语言状态向量。
所述联合网络模块:与自注意力音频编码网络模块和自注意力预测网络模块相连,用来结合声学状态和语言状态,并计算新的预测标记的概率。
进一步,所述特征前端处理模块采用两个1维卷积结构对输入的声学特征进行处理。
进一步,所述声学状态向量St=FFN(MultiHeadAttention(X,X,X))。
进一步,所述自注意力音频编码网络模块包括多头流式自注意力层和前馈网络层,
所述多头流式自注意力层分别与特征前端处理模块和前馈网络层相连接,所述多头流式自注意力层用于在固定的窗口内部计算自注意力信息以建模上下文信息;
所述前馈网络层与所述多头流式自注意力层相连接,所述前馈网络层用于对自注意力机制输出的信息进行非线性变换。
进一步,所述多头流式自注意力层的计算方式如下:
MultiHeadAttention(Q,K,V)=Concat(head1,...,headh)WO
其中MultiHeadAttention表示多头注意力机制,其将多个自注意力机制的输出向量headi接到一起后经过线性层映射到一个固定维度。然后通过前馈网络FFN得到输出结果。公式中WO都是权重矩阵都是权重矩阵,X是自注意力模块的输入,dk是向量K的维度。
进一步,所述前馈网络层的计算方式如下:
FFN(x)=max(0,xW1+b1)W2+b2
其中W1和W2都是权重矩阵,b1和b2是权重偏置向量。
进一步,所述自注意力预测网络模块包括文本编码模块、位置编码模块、多头自注意力层和前馈网络层,
文本编码模块用于接收上一时刻预测标记作为输入,通过词嵌入的方式编码为固定维度的向量;
所述位置编码模块根据特征矩阵的行列信息进行正弦余弦编码,以使得输入文本信息中具有位置信息;
所述多头自注意力层:与文本编码模块、位置编码模块和前馈网络层相连,通过建模先前预测的标记的信息,抽取对预测当前解码状态有关的信息;
所述前馈网络层用于对多头自注意力机制的输出进行非线性编码,抽取有用的高层表示。
进一步,所述联合网络模块与自注意力音频编码网络模块和自注意力预测网络模块分别相连接,所述联合网络模块用于结合声学编码状态向量和语言编码状态向量,计算出一个新标记的概率,并将预测得到的非空标记输入到自注意力预测网络模块中计算新的语言编码状态向量。
进一步,所述新的预测标记的概率的公式如下:
SJ=Linear(Concat(St,Su))
P(k|t,u)=softmax(Linear(Tanh(Sj)))
联合网络模块接收自注意力音频编码网络模块产生的声学状态St和自注意力预测网络模块产生的语言状态Su作为输入,将两个状态拼接在一起产生联合状态Sj,并根据联合状态预测基于第t时刻的声学状态和第u位置的语言状态预测出词表中第k个标记的概率。
进一步,所述自注意力机制内设有流式自注意力机制,所述流式自注意力机制用于对输入的音频信息增加一个滑动的窗口,计算每个中心节点的自注意力信息只考虑窗口内部的节点,多层网络的堆叠实现了建模长距离依赖信息。
从上述技术方案可以看出,本发明具有以下有益效果:
(1)本发明中,模型中没有任何循环网络结构,完全使用前馈网络结构,大大提高了模型的训练和计算效率;
(2)本发明中,使用流式自注意力机制代替循环神经网络进行局部上下文建模,通过多层流式注意力机制堆叠来建模长距离的上下文依赖关系,并实现了时延可控的流式建模;
(3)本发明中,没有将音频特征直接输入流式自注意力机制,而是经过了一个特征处理前端,一方面是对特征进行维度变化,另一方面对特征进行抽象表示,提高模型的建模能力。
附图说明
图1是本发明实施例基于自注意力机制的流式语音转写系统中整体结构示意图;
图2是本发明实施例基于自注意力机制的流式语音转写系统中特征前端处理模块的结构示意图;
图3本发明实施例基于自注意力机制的流式语音转写系统中自注意力音频编码网络模块的结构示意图;
图4本发明实施例基于自注意力机制的流式语音转写系统中自注意力预测网络模块的结构示意图;
图5本发明实施例基于自注意力机制的流式语音转写系统中联合网络模块的结构示意图。
图6本发明实施例基于自注意力机制的流式语音转写系统中流式自注意力机制的结构示意图。
【主要符号说明】
1-特征前端处理模块; 2-自注意力音频编码网络模块;
3-自注意力预测网络模块; 4-联合网络模块;
11-1维卷积模块; 12-1维卷积模块;
31-文本编码模块; 32-位置编码模块;
33-多头自注意力层; 34-前馈网络层。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
本发明基于自注意力机制的流式语音转写系统中,使用自注意力机制代替循环神经网络来建模时序信息,通过限制自注意力机制的范围和堆叠多层结构实现了流式语音建模而仅仅有很少的性能损失,本发明是一种端到端的语音识别系统,能够直接将输入特征序列转写为对应的文本序列。
在本发明的一个示例性实施例中,如图1所示,一种基于自注意力机制的流式语音转写系统,包括特征前端处理模块1,自注意力音频编码网络模块2,自注意力预测网络模块3,联合网络模块4;
所述特征前端处理模块1:用于接收输入声学特征,并转换为特定维度的向量;
所述自注意力音频编码网络模块2:与特征前端处理模块1相连,用于接收处理后的声学特征,得到编码后的声学状态向量St
所述自注意力预测网络模块3:所述自注意力预测网络模块3为一个神经网络语言模型,用于根据输入的上一时刻预测标记,生成一个语言状态向量。
所述联合网络模块4:与自注意力音频编码网络模块2和自注意力预测网络模块3相连,用来结合声学状态和语言状态,并计算新的预测标记的概率。
本发明中,使用自注意力机制代替循环神经网络来建模时序信息,通过限制自注意力机制的范围和堆叠多层结构实现了流式语音建模而仅仅有很少的性能损失。以下分别对各个模块进行详细说明。
在本实施例中,参看图2,所述特征前端处理模块1采用1维卷积结构11和1维卷积结构12对输入的声学特征进行处理。一方面用来将特征映射为特定的维度,另一方面通过卷积结构对特征编码位置信息,最终得到包含位置信息的特征序列;
具体地,在本实施例中,所述声学状态向量St=FFN(MultiHeadAttention(X,X,X))。
具体地,在本实施例中,所述自注意力音频编码网络模块2包括多头流式自注意力层和前馈网络层,
所述多头流式自注意力层分别与特征前端处理模块1和前馈网络层相连接,所述多头流式自注意力层用于在固定的窗口内部计算自注意力信息以建模上下文信息;
所述前馈网络层与所述多头流式自注意力层相连接,所述前馈网络层用于对自注意力机制输出的信息进行非线性变换。
具体地,在本实施例中,所述多头流式自注意力层的计算方式如下:
MultiHeadAttention(Q,K,V)=Concat(head1,...,headh)WO
其中MultiHeadAttention表示多头注意力机制,其将多个自注意力机制的输出向量headi拼接到一起后经过线性层映射到一个固定维度。然后通过前馈网络FFN得到输出结果。公式中WO都是权重矩阵都是权重矩阵,X是自注意力模块的输入,dk是向量K的维度。
具体地,在本实施例中,所述前馈网络层的计算方式如下:
FFN(x)=max(0,xW1+b1)W2+b2
其中W1和W2都是权重矩阵,b 1和b2是权重偏置向量。
具体地,在本实施例中,如图4所示,所述自注意力预测网络模块3包括文本编码模块31、位置编码模块32、多头自注意力层33和前馈网络层34,
文本编码模块31,接受上一时刻预测标记作为输入,通过词嵌入
Embedding的方式编码为固定维度的向量Xu;Xu=Embedding(indexu)
位置编码模块3232,根据特征矩阵的行列信息进行正弦余弦编码
POS(Xu),以使得输入文本信息中具有位置信息;
Eu=Xu+POS(Xu);
所述多头自注意力层33:与文本编码模块31、位置编码模块32和前馈网络层34相连,通过建模先前预测的标记的信息,抽取对预测当前解码状态有关的信息;抽取对预测当前解码状态有关的信息,其计算方式与自注意力音频编码网络模块2的多头自注意力层33完全相同
所述前馈网络层34用于对多头自注意力机制的输出进行非线性编码,抽取有用的高层表示。其计算方式与自注意力音频编码网络模块2的前馈网络层34完全相同。
自注意力预测网络采用
Su=FFN(MultiHeadAttention(E0:u,E0:u,E0:u))
具体地,在本实施例中,所述联合网络模块4与自注意力音频编码网络模块2和自注意力预测网络模块3分别相连接,所述联合网络模块4用于结合声学编码状态向量和语言编码状态向量,计算出一个新标记的概率,并将预测得到的非空标记输入到自注意力预测网络模块3中计算新的语言编码状态向量。
具体地,在本实施例中,所述新的预测标记的概率的公式如下:
Sj=Linear(Concat(St,Su))
P(k|t,u)=softmax(Linear(Tanh(Sj)))
联合网络模块4接收自注意力音频编码网络模块2产生的声学状态St和自注意力预测网络模块3产生的语言状态Su作为输入,将两个状态拼接在一起产生联合状态Sj,并根据联合状态预测基于第t时刻的声学状态和第u位置的语言状态预测出词表中第k个标记的概率。
具体地,在本实施例中,所述自注意力机制内设有流式自注意力机制,所述流式自注意力机制用于对输入的音频信息增加一个滑动的窗口,计算每个中心节点的自注意力信息只考虑窗口内部的节点,多层网络的堆叠实现了建模长距离依赖信息。
流式注意力机制是自注意力机制的一个子集,考虑的长度信息不太一样。
具体公式如下:
其中,ht表示注意力中的一个头在第t时刻的自注意力向量,Nl表示上文的计算状态数量,Nr表示下文的状态计算数量,ατ表示注意力权重,sτ表示注意力机制层的输入向量。
本发明基于自注意力机制的流式语音编码器以python语言编写在深度学习框架pytorch下编写,在windows平台下和在linux平台下均可运行,当然也可以采用其他的编程语言编写和深度学习框架进行实现,在其他平台上运行。此外,本发明可以应用于电脑终端、手持式移动设备或其它形式的移动设备。
以上仅为本发明的具体实施例,但本发明的技术特征并不局限于此。任何以本发明为基础,为解决基本相同的技术问题,实现基本相同的技术效果,所作出地简单变化、等同替换或者修饰等,皆涵盖于本发明的保护范围之中。

Claims (10)

1.一种基于自注意力机制的流式语音转写系统,其特征在于:包括特征前端处理模块,自注意力音频编码网络模块,自注意力预测网络模块,联合网络模块;
所述特征前端处理模块:用于接收输入声学特征,并转换为特定维度的向量;
所述自注意力音频编码网络模块:与特征前端处理模块相连,用于接收处理后的声学特征,得到编码后的声学状态向量St
所述自注意力预测网络模块:所述自注意力预测网络模块为一个神经网络语言模型,用于根据输入的上一时刻预测标记,生成一个语言状态向量。
所述联合网络模块:与自注意力音频编码网络模块和自注意力预测网络模块相连,用来结合声学状态和语言状态,并计算新的预测标记的概率。
2.根据权利要求1所述的一种基于自注意力机制的流式语音转写系统,其特征在于:所述特征前端处理模块采用两个1维卷积结构对输入的声学特征进行处理。
3.根据权利要求1所述的一种基于自注意力机制的流式语音转写系统,其特征在于:所述声学状态向量St=FFN(MultiHeadAttention(X,X,X))。
4.根据权利要求1或3所述的一种基于自注意力机制的流式语音转写系统,其特征在于:所述自注意力音频编码网络模块包括多头流式自注意力层和前馈网络层,
所述多头流式自注意力层分别与特征前端处理模块和前馈网络层相连接,所述多头流式自注意力层用于在固定的窗口内部计算自注意力信息以建模上下文信息;
所述前馈网络层与所述多头流式自注意力层相连接,所述前馈网络层用于对自注意力机制输出的信息进行非线性变换。
5.根据权利要求4所述的一种基于自注意力机制的流式语音转写系统,其特征在于:所述多头流式自注意力层的计算方式如下:
MultiHeadAttention(Q,K,V)=Concat(head1,...,headh)WO
其中MultiHeadAttention表示多头注意力机制,其将多个自注意力机制的输出向量headi拼接到一起后经过线性层映射到一个固定维度。然后通过前馈网络FFN得到输出结果。公式中 WO都是权重矩阵都是权重矩阵,X是自注意力模块的输入,dk是向量K的维度。
6.根据权利要求4所述的一种基于自注意力机制的流式语音转写系统,其特征在于:所述前馈网络层的计算方式如下:
FFN(x)=max(0,xW1+b1)W2+b2
其中W1和W2都是权重矩阵,b1和b2是权重偏置向量。
7.根据权利要求1所述的一种基于自注意力机制的流式语音转写系统,其特征在于:所述自注意力预测网络模块包括文本编码模块、位置编码模块、多头自注意力层和前馈网络层,
文本编码模块用于接收上一时刻预测标记作为输入,通过词嵌入的方式编码为固定维度的向量;
所述位置编码模块根据特征矩阵的行列信息进行正弦余弦编码,以使得输入文本信息中具有位置信息;
所述多头自注意力层:与文本编码模块、位置编码模块和前馈网络层相连,通过建模先前预测的标记的信息,抽取对预测当前解码状态有关的信息;
所述前馈网络层用于对多头自注意力机制的输出进行非线性编码,抽取有用的高层表示。
8.根据权利要求1所述的一种基于自注意力机制的流式语音转写系统,其特征在于:所述联合网络模块与自注意力音频编码网络模块和自注意力预测网络模块分别相连接,所述联合网络模块用于结合声学编码状态向量和语言编码状态向量,计算出一个新标记的概率,并将预测得到的非空标记输入到自注意力预测网络模块中计算新的语言编码状态向量。
9.根据权利要求8所述的一种基于自注意力机制的流式语音转写系统,其特征在于:所述新的预测标记的概率的公式如下:
Sj=Linear(Concat(St,Su))
P(k|t,u)=softmax(Linear(Tanh(Sj)))
联合网络模块接收自注意力音频编码网络模块产生的声学状态St和自注意力预测网络模块产生的语言状态Su作为输入,将两个状态拼接在一起产生联合状态Sj,并根据联合状态预测基于第t时刻的声学状态和第u位置的语言状态预测出词表中第k个标记的概率。
10.根据权利要求1所述的一种基于自注意力机制的流式语音转写系统,其特征在于:所述自注意力机制内设有流式自注意力机制,所述流式自注意力机制用于对输入的音频信息增加一个滑动的窗口,计算每个中心节点的自注意力信息只考虑窗口内部的节点,多层网络的堆叠实现了建模长距离依赖信息。
CN201910850127.5A 2019-09-09 2019-09-09 一种基于自注意力机制的流式语音转写系统 Active CN110473529B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910850127.5A CN110473529B (zh) 2019-09-09 2019-09-09 一种基于自注意力机制的流式语音转写系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910850127.5A CN110473529B (zh) 2019-09-09 2019-09-09 一种基于自注意力机制的流式语音转写系统

Publications (2)

Publication Number Publication Date
CN110473529A true CN110473529A (zh) 2019-11-19
CN110473529B CN110473529B (zh) 2021-11-05

Family

ID=68515178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910850127.5A Active CN110473529B (zh) 2019-09-09 2019-09-09 一种基于自注意力机制的流式语音转写系统

Country Status (1)

Country Link
CN (1) CN110473529B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048082A (zh) * 2019-12-12 2020-04-21 中国电子科技集团公司第二十八研究所 一种改进的端到端语音识别方法
CN111063365A (zh) * 2019-12-13 2020-04-24 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN111128191A (zh) * 2019-12-31 2020-05-08 中国科学院声学研究所 一种在线端对端语音转写方法及系统
CN111276131A (zh) * 2020-01-22 2020-06-12 厦门大学 一种基于深度神经网络的多类声学特征整合方法和系统
CN111415667A (zh) * 2020-03-25 2020-07-14 极限元(杭州)智能科技股份有限公司 一种流式端到端语音识别模型训练和解码方法
CN111833848A (zh) * 2020-05-11 2020-10-27 北京嘀嘀无限科技发展有限公司 用于识别语音的方法、装置、电子设备和存储介质
CN111933115A (zh) * 2020-10-12 2020-11-13 腾讯科技(深圳)有限公司 语音识别方法、装置、设备以及存储介质
CN113129867A (zh) * 2019-12-28 2021-07-16 中移(上海)信息通信科技有限公司 语音识别模型的训练方法、语音识别方法、装置和设备
CN113140220A (zh) * 2021-04-12 2021-07-20 西北工业大学 基于卷积自注意力变换网络的轻量级端到端语音识别方法
CN113257248A (zh) * 2021-06-18 2021-08-13 中国科学院自动化研究所 一种流式和非流式混合语音识别系统及流式语音识别方法
CN113593539A (zh) * 2020-04-30 2021-11-02 阿里巴巴集团控股有限公司 流式端到端语音识别方法、装置及电子设备
CN113838468A (zh) * 2021-09-24 2021-12-24 中移(杭州)信息技术有限公司 流式语音识别方法、终端设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700828A (zh) * 2015-03-19 2015-06-10 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
US9799327B1 (en) * 2016-02-26 2017-10-24 Google Inc. Speech recognition with attention-based recurrent neural networks
US20190057683A1 (en) * 2017-08-18 2019-02-21 Google Llc Encoder-decoder models for sequence to sequence mapping
CN110168531A (zh) * 2016-12-30 2019-08-23 三菱电机株式会社 用于多模态融合模型的方法和系统
CN110211568A (zh) * 2019-06-03 2019-09-06 北京大牛儿科技发展有限公司 一种语音识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700828A (zh) * 2015-03-19 2015-06-10 清华大学 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法
US9799327B1 (en) * 2016-02-26 2017-10-24 Google Inc. Speech recognition with attention-based recurrent neural networks
CN110168531A (zh) * 2016-12-30 2019-08-23 三菱电机株式会社 用于多模态融合模型的方法和系统
US20190057683A1 (en) * 2017-08-18 2019-02-21 Google Llc Encoder-decoder models for sequence to sequence mapping
CN110211568A (zh) * 2019-06-03 2019-09-06 北京大牛儿科技发展有限公司 一种语音识别方法及装置

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048082B (zh) * 2019-12-12 2022-09-06 中国电子科技集团公司第二十八研究所 一种改进的端到端语音识别方法
CN111048082A (zh) * 2019-12-12 2020-04-21 中国电子科技集团公司第二十八研究所 一种改进的端到端语音识别方法
CN111063365A (zh) * 2019-12-13 2020-04-24 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN111063365B (zh) * 2019-12-13 2022-06-07 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN113129867A (zh) * 2019-12-28 2021-07-16 中移(上海)信息通信科技有限公司 语音识别模型的训练方法、语音识别方法、装置和设备
CN113129867B (zh) * 2019-12-28 2024-05-24 中移(上海)信息通信科技有限公司 语音识别模型的训练方法、语音识别方法、装置和设备
CN111128191B (zh) * 2019-12-31 2023-03-28 中国科学院声学研究所 一种在线端对端语音转写方法及系统
CN111128191A (zh) * 2019-12-31 2020-05-08 中国科学院声学研究所 一种在线端对端语音转写方法及系统
CN111276131A (zh) * 2020-01-22 2020-06-12 厦门大学 一种基于深度神经网络的多类声学特征整合方法和系统
CN111276131B (zh) * 2020-01-22 2021-01-12 厦门大学 一种基于深度神经网络的多类声学特征整合方法和系统
US11217225B2 (en) 2020-01-22 2022-01-04 Xiamen University Multi-type acoustic feature integration method and system based on deep neural networks
CN111415667A (zh) * 2020-03-25 2020-07-14 极限元(杭州)智能科技股份有限公司 一种流式端到端语音识别模型训练和解码方法
CN111415667B (zh) * 2020-03-25 2024-04-23 中科极限元(杭州)智能科技股份有限公司 一种流式端到端语音识别模型训练和解码方法
WO2021218843A1 (zh) * 2020-04-30 2021-11-04 阿里巴巴集团控股有限公司 流式端到端语音识别方法、装置及电子设备
CN113593539A (zh) * 2020-04-30 2021-11-02 阿里巴巴集团控股有限公司 流式端到端语音识别方法、装置及电子设备
CN111833848B (zh) * 2020-05-11 2024-05-28 北京嘀嘀无限科技发展有限公司 用于识别语音的方法、装置、电子设备和存储介质
CN111833848A (zh) * 2020-05-11 2020-10-27 北京嘀嘀无限科技发展有限公司 用于识别语音的方法、装置、电子设备和存储介质
WO2022078146A1 (zh) * 2020-10-12 2022-04-21 腾讯科技(深圳)有限公司 语音识别方法、装置、设备以及存储介质
CN111933115A (zh) * 2020-10-12 2020-11-13 腾讯科技(深圳)有限公司 语音识别方法、装置、设备以及存储介质
CN113140220A (zh) * 2021-04-12 2021-07-20 西北工业大学 基于卷积自注意力变换网络的轻量级端到端语音识别方法
CN113257248A (zh) * 2021-06-18 2021-08-13 中国科学院自动化研究所 一种流式和非流式混合语音识别系统及流式语音识别方法
CN113838468A (zh) * 2021-09-24 2021-12-24 中移(杭州)信息技术有限公司 流式语音识别方法、终端设备及介质

Also Published As

Publication number Publication date
CN110473529B (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN110473529A (zh) 一种基于自注意力机制的流式语音转写系统
CN109543667B (zh) 一种基于注意力机制的文本识别方法
CN110737764B (zh) 一种个性化对话内容生成方法
CN109785824A (zh) 一种语音翻译模型的训练方法及装置
Zeyer et al. CTC in the context of generalized full-sum HMM training
CN107464559A (zh) 基于汉语韵律结构和重音的联合预测模型构建方法及系统
CN111415667A (zh) 一种流式端到端语音识别模型训练和解码方法
CN108170686A (zh) 文本翻译方法及装置
CN112037773B (zh) 一种n最优口语语义识别方法、装置及电子设备
CN113257248B (zh) 一种流式和非流式混合语音识别系统及流式语音识别方法
CN114443827A (zh) 基于预训练语言模型的局部信息感知对话方法及系统
CN112182191A (zh) 多轮口语理解的结构化记忆图网络模型
Ogawa et al. Rescoring N-best speech recognition list based on one-on-one hypothesis comparison using encoder-classifier model
CN113241075A (zh) 一种基于残差高斯自注意力的Transformer端到端语音识别方法
CN111460800A (zh) 一种事件生成方法、装置、终端设备及存储介质
CN110992943B (zh) 基于词混淆网络的语义理解方法及系统
CN111312228A (zh) 一种基于端到端的应用于电力企业客服的语音导航方法
HK1045396A1 (en) Method and apparatus for interleaving line spectral information quantization methods in a speech coder.
CN107452374A (zh) 基于单向自标注辅助信息的多视角语言识别方法
CN105895104B (zh) 说话人自适应识别方法及系统
CN115394287A (zh) 混合语种语音识别方法、装置、系统及存储介质
Watanabe et al. High speed speech recognition using tree-structured probability density function
Wu et al. Dual-mode NAM: Effective top-k context injection for end-to-end asr
CN113642862A (zh) 基于bert-mbigru-crf模型的电网调度指令命名实体识别方法及系统
CN117238279A (zh) 一种基于语音识别和端点检测的管制语音切分方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 310000 room 1105, floor 11, building 4, No. 9, Jiuhuan Road, Jianggan District, Hangzhou City, Zhejiang Province

Applicant after: Zhongke extreme element (Hangzhou) Intelligent Technology Co.,Ltd.

Address before: 310000 room 1105, floor 11, building 4, No. 9, Jiuhuan Road, Jianggan District, Hangzhou City, Zhejiang Province

Applicant before: Limit element (Hangzhou) intelligent Polytron Technologies Inc.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211009

Address after: No. 4083, 4th floor, building 4, No. 7, Fengxian Middle Road, Haidian District, Beijing 100089

Applicant after: Beijing Zhongke Zhiji Technology Co.,Ltd.

Address before: 310000 room 1105, floor 11, building 4, No. 9, Jiuhuan Road, Jianggan District, Hangzhou City, Zhejiang Province

Applicant before: Zhongke extreme element (Hangzhou) Intelligent Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant