CN106328122A - 一种利用长短期记忆模型递归神经网络的语音识别方法 - Google Patents

一种利用长短期记忆模型递归神经网络的语音识别方法 Download PDF

Info

Publication number
CN106328122A
CN106328122A CN201610693730.3A CN201610693730A CN106328122A CN 106328122 A CN106328122 A CN 106328122A CN 201610693730 A CN201610693730 A CN 201610693730A CN 106328122 A CN106328122 A CN 106328122A
Authority
CN
China
Prior art keywords
output
sequence
layer
lstm
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201610693730.3A
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201610693730.3A priority Critical patent/CN106328122A/zh
Publication of CN106328122A publication Critical patent/CN106328122A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

本发明中提出了一种利用长短期记忆模型递归神经网络的语音识别方法,其主要内容包括:训练和识别,其训练过程为,首先导入语音和文本数据,从而产生一个共同训练的声学和语言模型。接着使用RNN传感器进行解码形成模型参数。其识别过程为,首先将语音输入通过傅立叶变换转化为频谱图,再利用含长短期记忆模型(LSTM)递归神经网络进行定向搜索解码,最后产生识别结果。本发明采用递归神经网络(RNNs),通过端到端的训练方法,采用连接时间分类(CTC)训练RNNs,这些结合长短期记忆LSTM单元,效果很好。结合多层表达在深度网络中证明有效,使用灵活。从语音特征(输入端)到文字串(输出端)就只有一个神经网络模型(这就叫“端到端”模型),可以直接用WER的某种代理作为目标函数来训练这个神经网络,避免了花费无用功去优化个别的目标函数。

Description

一种利用长短期记忆模型递归神经网络的语音识别方法
技术领域
本发明涉及语音识别领域,尤其是涉及了一种利用长短期记忆模型递归神经网络的语音识别方法。
背景技术
语音识别常用于各种智能设备智能家居等领域中,迄今为止语音识别的误差较大,效果不理想。递归神经网络(RNNs)模型可以用来对两个序列之间的关系进行建模。但是,传统的RNNs,标注序列和输入的序列是一一对应的。不适合语音识别中的序列建模:识别出的字符序列或者音素序列长度远小于输入的特征帧序列。所以不能直接用RNN来建模。
本发明采用递归神经网络(RNNs),通过端到端的训练方法,采用连接时间分类(CTC)训练RNNs,这些结合长短期记忆模型LSTM单元,效果很好。结合多层表达在深度网络中证明有效,使用灵活。根据TIMIT语音识别基准,深长短期记忆RNNs实现16.8%的测试集误差。传统的语音识别系统,是由语音模型、词典、语言模型构成的,而其中的语音模型和语言模型是分别训练的,这就造成每一部分的训练目标都与整个系统的训练目标不一致。而本专利从语音特征(输入端)到文字串(输出端)就只有一个神经网络模型(这就叫“端到端”模型),可以直接用WER的某种代理作为目标函数来训练这个神经网络,避免花费无用功去优化个别的目标函数。
发明内容
针对网络性能在语音识别的问题和传统语音识别系统每一部分的训练目标都与整个系统的训练目标不一致等问题,本发明的目的在于提供一种利用长短期记忆模型递归神经网络的语音识别方法,可以通过训练获取模型参数,之后用于语音和文本数据的识别。
为解决上述问题,本发明提供一种利用长短期记忆模型递归神经网络的语音识别方法,其主要内容包括:
(一)训练
(二)识别
其中,所述的一种利用长短期记忆模型递归神经网络的语音识别方法,通过端到端的训练方法,和长短期记忆模型(LSTM)结合,实现了16.8%的测试集误差,使用灵活,效果好。
其中,所述的递归神经网络(RNNs),给定输入序列x=(x1,…,xT),计算隐藏的向量序列h=(h1,…,hT),通过以下方程t=1~T输出向量序列y=(y1,…,yT),
yt=Whyht+by
W表示重量矩阵,代表输入-隐藏重量矩阵,b代表偏差向量,bh是指隐藏偏差向量,是指隐藏层功能,通常是一个sigmoid函数的对应元素的应用。
其中,所述的含LSTM单元,使用的是双向LSTM,得到双向LSTM的步骤如下:
(1)长短期记忆模型(LSTM)架构,使用内置的存储单元来存储信息,更好地发现和利用深度范围的内容,是由以下的复合函数实现:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
ht=ottanh(ct)
σ是逻辑sigmoid函数,I,f,o和c分别为输入门,forget门,输出门和激活载体,所有这些都和隐藏的向量h相同的大小;
(2)深度卷积RNNs的一个缺点是他们只能够利用以前的背景,在语音识别中,所有的话语都在一次被转录,双向RNNs(BRNNs)在两个方向上有两个独立的隐藏层处理数据,然后提供给相同的输出层;BRNN计算前置隐藏序列向后隐藏序列输出序列y通过重复后置层,t=1~T,前置层t=1~T然后更新输出层:
y t = W h → y h → t + W h ← y h ← t + b y
结合BRNNS和LSTM给出了双向LSTM,在两个输入方向上获得远距离内容,深度RNNs可以通过堆叠彼此的顶部的多个递归神经网络隐层来获得,随着一个层的输出序列,形成下一个的输入序列;
(3)假设相同的隐藏层函数用于堆叠中的所有n层,隐藏的向量序列hn通过n=1~N和t=1~T的迭代计算获得:
定义h0=x,网络输出yt
y t = W h N y h t N + b y
双向深RNNs通过更换每一个隐藏序列hn前向序列和后向序列实现,保证每一个隐藏层收到前向层和后向层的输入;如果LSTM应用于隐藏层,我们得到双向LSTM,是这里用到的主要的结构,双向LSTM效果明显好于单向LSTM。
其中,所述的训练,包括语音数据和文本数据,声学模型和语言模型,RNN传感器,解码,模型参数。
其中,所述的识别,包括语音输入,频谱图,双层LSTM的RNNs,CTC,定向搜索解码,识别结果。
进一步的,所述的语音数据和文本数据,是对语音数据和文本数据进行训练。
进一步的,所述的声学模型和语言模型,是将语音数据和文本数据利用声学模型和语言模型处理。
进一步的,所述的RNN传感器,它预测每个音素和之前音素的对应,从而产生一个共同训练的声学和语言模型,RNN传感器对每一个输入间隔t和输出时间间隔u的每个组合确定了一个单独的分布Pr(k|t,u),对于一个长度U和目标序列z,全套的TU共同决定了x和z之间的所有可能的排列,可以通过向前-向后的算法来决定logPr(z|x);RNN传感器可以从随机初始权重训练。
进一步的,所述的解码,是RNN传感器通过定向搜索解码,产生一个转录的n-best列表,定向搜索作为传感器,随着输出标签概率Pr(k|t,u)的改进,不依赖于以前的输出,因此Pr(k|t,u)=Pr(k|t),我们发现定向搜索比CTC前缀搜索更快更有效,注意转录的n-best列表起初通过长度归一化log概率分类logPr(y)/|y|。
进一步的,所述的模型参数,是使用RNN传感器进行解码形成的,利用训练好的参数对识别模型进行初始化。
进一步的,所述的频谱图,是通过将语音输入通过傅立叶变换转化得到的。
进一步的,所述的双层LSTM的RNNs,是在转化为频谱图后将利用含LSTM单元的RNNs网络进行定向搜索解码。
进一步的,所述的接时间分类(CTC),定义了一个只基于声学输入序列x的音素序列的分布,它是一个声学模型,在输入序列过程中在每一时间步使用软件函数层来定义的输出分布Pr(k|t),分布覆盖了K音节加上额外的空白符号代表非输出,因此软件函数层尺寸为K+1;这个结果定义了输入和输出序列之间的连线分布,CTC使用前置-后置算法来总结所有的排列可能,确定给出的输入序列中目标序列的正常化概率Pr(z|x),采用馈入隐藏激活代替将两种网络组成一个独立的前馈输出网络,输出用softmax函数使其正常化,产生Pr(k|t,u),用代表CTC网络的最高的向前和向后的隐藏序列,p代表预测网络的隐藏序列,在每一步t,u,输出网络通过馈入到一个线性层生成向量lt,然后馈入lt和pu到隐层函数生成ht,u,最后馈入ht,u,到一个尺寸为K+1的softmax层来确定Pr(k|t,u)
l t = W h → N l h → t N + W h ← N l h ← t N + b l
ht,u=tanh(Wlhlt,u+Wpbpu+bh)
yt,u=Whyht,u+by
Pr ( k | t , u ) = exp ( y t , u [ k ] ) Σ k ′ = 1 K exp ( y t , u [ k ′ ] ) ′
yt,u[k]是指长度为K+1的非正常化输出向量的第kth元素,为了简化,我们限制所有的非输出层为相同的尺寸然而,它们是可以独立变化的;
用CTC训练的RNNs通常是双向的,为了确保每个Pr(k|t)依据全部的输入序列,不止是输入到t,这里,我们关注深度双向网络,Pr(k|t)的定义如下:
y t = W h → N y h → t N + W h ← N y h ← t N + b y
Pr ( k | t ) = exp ( y t [ k ] ) Σ k ′ = 1 K exp ( y t [ k ′ ] ) ′
这里yt[k]是K+1非正常输出向量yt的kth元素,N是指双向级别的数量。
进一步的,所述的定向搜索解码是使用傅立叶变换对数据集进行解码滤波器,音素识别实验TIMIT语料库进行,隐藏层的数量为1~5。
进一步的,所述的识别结果,深度网络的优势非常明显,CTC的错误率从23.9%降到了18.4%,隐藏层的数量从1增加到了5。
进一步的,所述的训练,是利用随机梯度下降训练所有的网络,学习率为10-4,动量0.9,随机初始权值[-0.1,0.1],从开发集中的最高log-概率点开始,再用高斯权重噪声训练(σ=0.075),直到开发集中音素错误率最低。
进一步的,所述的识别,是使用TIMIT语料库进行,定向搜索解码的定向宽度为100。
附图说明
图1是本发明训练过程的流程图。
图2是本发明识别过程的流程图。
图3是长短期记忆模型(LSTM)记忆单元。
图4是双向RNNs(BRNNs)在两个方向上的两个独立的隐藏层处理数据。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明训练过程的流程图,包括语音数据和文本数据,声学模型和语言模型,RNN传感器,解码,模型参数。
语音数据和文本数据,是对语音数据和文本数据进行训练。
声学模型和语言模型,是将语音数据和文本数据利用声学模型和语言模型处理。
RNN传感器预测每个音素和之前音素的对应,从而产生一个共同训练的声学和语言模型,RNN传感器对每一个输入间隔t和输出时间间隔u的每个组合确定了一个单独的分布Pr(k|t,u),对于一个长度U和目标序列z,全套的TU共同决定了x和z之间的所有可能的排列,可以通过向前-向后的算法来决定logPr(z|x);RNN传感器可以从随机初始权重训练。
RNN传感器通过定向搜索解码,产生一个转录的n-best列表,定向搜索作为传感器,随着输出标签概率Pr(k|t,u)的改进,不依赖于以前的输出,因此Pr(k|t,u)=Pr(k|t),我们发现定向搜索比CTC前缀搜索更快更有效,注意转录的n-best列表起初通过长度归一化log概率分类logPr(y)/|y|。
模型参数,是使用RNN传感器进行解码形成的,利用训练好的参数对识别模型进行初始化。
训练过程利用随机梯度下降训练所有的网络,学习率为10-4,动量0.9,随机初始权值[-0.1,0.1],从开发集中的最高log-概率点开始,再用高斯权重噪声训练(σ=0.075),直到开发集中音素错误率最低。
图2是本发明识别过程的流程图,包括语音输入,频谱图,双层LSTM的RNNs,CTC,定向搜索解码,识别结果。
频谱图,是将语音输入通过傅立叶变换转化为频谱图。
双层LSTM的RNNs,是转化为频谱图后将利用含LSTM单元的RNNs网络进行定向搜索解码。
连接时间分类(CTC)定义了一个只基于声学输入序列x的音素序列的分布,它是一个声学模型,在输入序列过程中在每一时间步使用软件函数层来定义的输出分布Pr(k|t),分布覆盖了K音节加上额外的空白符号代表非输出,因此软件函数层尺寸为K+1;这个结果定义了输入和输出序列之间的连线分布,CTC使用前置-后置算法来总结所有的排列可能,确定给出的输入序列中目标序列的正常化概率Pr(z|x),采用馈入隐藏激活代替将两种网络组成一个独立的前馈输出网络,输出用softmax函数使其正常化,产生Pr(k|t,u),用代表CTC网络的最高的向前和向后的隐藏序列,p代表预测网络的隐藏序列,在每一步t,u,输出网络通过馈入到一个线性层生成向量lt,然后馈入lt和pu到隐层函数生成ht,u,最后馈入ht,u,到一个尺寸为K+1的softmax层来确定Pr(k|t,u)
l t = W h → N 1 h → t N + W h ← N l h ← t N + b l
ht,u=tanh(Wlhlt,u+Wpbpu+bh)
yt,u=Whyht,u+by
Pr ( k | t , u ) = exp ( y t , u [ k ] ) Σ k ′ = 1 K exp ( y t , u [ k ′ ] ) ′
yt,u[k]是指长度为K+1的非正常化输出向量的第kth元素,为了简化,我们限制所有的非输出层为相同的尺寸然而,它们是可以独立变化的;
用CTC训练的RNNs通常是双向的,为了确保每个Pr(k|t)依据全部的输入序列,不止是输入到t,这里,我们关注深度双向网络,Pr(k|t)的定义如下:
y t = W h → N y h → t N + W h ← N y h ← t N + b y
Pr ( k | t ) = exp ( y t [ k ] ) Σ k ′ = 1 K exp ( y t [ k ′ ] ) ′
这里yt[k]是K+1非正常输出向量yt的kth元素,N是指双向级别的数量。
定向搜索解码,是使用傅立叶变换对数据集进行解码滤波器,音素识别实验TIMIT语料库进行,隐藏层的数量为1~5。
识别结果,深度网络的优势非常明显,CTC的错误率从23.9%降到了18.4%,隐藏层的数量从1增加到了5。
识别过程使用TIMIT语料库进行,定向搜索解码的定向宽度为100。
图3是长短期记忆模型(LSTM)记忆单元。图4是双向RNNs(BRNNs)在两个方向上的两个独立的隐藏层处理数据。
给定输入序列x=(x1,…,xT),计算隐藏的向量序列h=(h1,…,hT),通过以下方程t=1~T输出向量序列y=(y1,…,yT),
yt=Whyht+by
W表示重量矩阵,代表输入-隐藏重量矩阵,b代表偏差向量,bh是指隐藏偏差向量,是指隐藏层功能,通常是一个sigmoid函数的对应元素的应用。
得到双向LSTM的步骤如下:
(1)长短期记忆模型(LSTM)架构,使用内置的存储单元来存储信息,更好地发现和利用深度范围的内容,如图3所示,是由以下的复合函数实现:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
ht=ottanh(ct)
σ是逻辑sigmoid函数,I,f,o和c分别为输入门,forget门,输出门和激活载体,所有这些都和隐藏的向量h相同的大小;
(2)深度卷积RNNs的一个缺点是他们只能够利用以前的背景,在语音识别中,所有的话语都在一次被转录,双向RNNs(BRNNs)在两个方向上有两个独立的隐藏层处理数据,然后提供给相同的输出层;如图4所示,BRNN计算前置隐藏序列向后隐藏序列输出序列y通过重复后置层,t=1~T,前置层t=1~T然后更新输出层:
结合BRNNS和LSTM给出了双向LSTM,在两个输入方向上获得远距离内容,深度RNNs可以通过堆叠彼此的顶部的多个递归神经网络隐层来获得,随着一个层的输出序列,形成下一个的输入序列;
(3)假设相同的隐藏层函数用于堆叠中的所有n层,隐藏的向量序列hn通过n=1~N和t=1~T的迭代计算获得:
定义h0=x,网络输出yt
y t = W h N y h t N + b y
双向深RNNs通过更换每一个隐藏序列hn前向序列和后向序列实现,保证每一个隐藏层收到前向层和后向层的输入;如果LSTM应用于隐藏层,我们得到双向LSTM,是这里用到的主要的结构,双向LSTM效果明显好于单向LSTM。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (8)

1.一种利用长短期记忆模型递归神经网络的语音识别方法,其特征在于,主要包括训练(一)和识别(二)。
2.基于权利要求书1所述的一种利用长短期记忆模型递归神经网络的语音识别方法,其特征在于,通过端到端的训练方法,和长短期记忆模型(LSTM)结合,实现了16.8%的测试集误差,使用灵活,效果好。
3.基于权利要求书1所述的递归神经网络(RNNs),其特征在于,包括给定输入序列x=(x1,...,xT),计算隐藏的向量序列h=(h1,...,hT),通过以下方程t=1~T输出向量序列y=(y1,...,yT),
yt=Whyht+by
W表示重量矩阵,Wxh代表输入-隐藏重量矩阵,b代表偏差向量,bh是指隐藏偏差向量,是指隐藏层功能,通常是一个sigmoid函数的对应元素的应用。
4.基于权利要求书1所述的LSTM单元,其特征在于,使用的是双向LSTM,得到双向LSTM的步骤如下:
(1)长短期记忆模型(LSTM)架构,使用内置的存储单元来存储信息,更好地发现和利用深度范围的内容,是由以下的复合函数实现:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
ct=ftct-1+it tanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
ht=ot tanh(ct)
σ是逻辑sigmoid函数,I,f,o和c分别为输入门,forget门,输出门和激活载体,所有这些都和隐藏的向量h相同的大小;
(2)深度卷积RNNs的一个缺点是他们只能够利用以前的背景,在语音识别中,所有的话语都一次被转录,双向RNNs(BRNNs)在两个方向上有两个独立的隐藏层处理数据,然后提供给相同的输出层;BRNN计算前置隐藏序列向后隐藏序列输出序列y通过重复后置层,t=1~T,前置层t=1~T然后更新输出层:
y t = W h → y h → t + W h ← y h ← t + b y
结合BRNNS和LSTM给出了双向LSTM,在两个输入方向上获得远距离内容,深度RNNs可以通过堆叠彼此的顶部的多个递归神经网络隐层来获得,随着一个层的输出序列,形成下一个的输入序列;
(3)假设相同的隐藏层函数用于堆叠中的所有n层,隐藏的向量序列h n通过n=1~N和t=1~T的迭代计算获得:
定义h0=x,网络输出yt
y t = W h N y h t N + b y
双向深RNNs通过更换每一个隐藏序列hn前向序列和后向序列实现,保证每一个隐藏层收到前向层和后向层的输入;如果LSTM应用于隐藏层,我们得到双向LSTM,是这里用到的主要的结构,双向LSTM效果明显好于单向LSTM。
5.基于权利要求书1所述的训练(一),其特征在于,主要步骤包括
1)语音数据和文本数据,对语音数据和文本数据进行训练;
2)将语音数据和文本数据利用声学模型和语言模型处理;
3)RNN传感器
RNN传感器预测每个音素和之前音素的对应,从而产生一个共同训练的声学和语言模型,RNN传感器对每一个输入间隔t和输出时间间隔u的每个组合确定了一个单独的分布Pr(k|t,u),对于一个长度U和目标序列z,全套的TU共同决定了x和z之间的所有可能的排列,可以通过向前-向后的算法来决定RNN传感器可以从随机初始权重训练;
4)解码
RNN传感器通过定向搜索解码,产生一个转录的n-best列表,定向搜索作为传感器,随着输出标签概率Pr(k|t,u)的改进,不依赖于以前的输出,因此Pr(k|t,u)=Pr(k|t),我们发现定向搜索比CTC前缀搜索更快更有效,注意转录的n-best列表起初通过长度归一化log概率分类logPr(y)/|y|;
5)模型参数,是使用RNN传感器进行解码形成的,利用训练好的参数对识别模型进行初始化。
6.基于权利要求书1所述的识别(二),其特征在于,主要步骤包括
1)语音输入;
2)频谱图,是将语音输入通过傅立叶变换转化为频谱图;
3)双层LSTM的RNNs,转化为频谱图后将利用含LSTM单元的RNNs网络进行定向搜索解码;
4)连接时间分类(CTC)
CTC定义了一个只基于声学输入序列x的音素序列的分布,它是一个声学模型,在输入序列过程中在每一时间步使用软件函数层来定义的输出分布Pr(k|t),分布覆盖了K音节加上额外的空白符号代表非输出,因此软件函数层尺寸为K+1;这个结果定义了输入和输出序列之间的连线分布,CTC使用前置-后置算法来总结所有的排列可能,确定给出的输入序列中目标序列的正常化概率Pr(z|x),采用馈入隐藏激活代替将两种网络组成一个独立的前馈输出网络,输出用softmax函数使其正常化,产生Pr(k|t,u),用代表CTC网络的最高的向前和向后的隐藏序列,p代表预测网络的隐藏序列,在每一步t,u,输出网络通过馈入到一个线
性层生成向量lt,然后馈入lt和pu到隐层函数生成ht,u,最后馈入ht,u,到一个尺寸为K+1的softmax层来确定Pr(k|t,u)
l t = W h → N l h → t N + W h ← N l h ← t N + b l
ht,u=tanh(Wlhlt,u+Wpbpu+bh)
yt,u=Whyht,u+by
Pr ( k | t , u ) = exp ( y t , u [ k ] ) Σ k ′ = 1 K exp ( y t , u [ k ′ ] ) ′
yt,u[k]是指长度为K+1的非正常化输出向量的第kth元素,为了简化,我们限
制所有的非输出层为相同的尺寸然而,它们是可以独立变化的;
用CTC训练的RNNs通常是双向的,为了确保每个Pr(k|t)依据全部的输入序列,不止是输入到t,这里,我们关注深度双向网络,Pr(k|t)的定义如下:
y t = W h → N y h → t N + W h ← N y h ← t N + b y
Pr ( k | t ) = exp ( y t [ k ] ) Σ k ′ = 1 K exp ( y t [ k ′ ] ) ′
这里yt[k]是K+1非正常输出向量yt的kth元素,N是指双向级别的数量;
5)定向搜索解码
使用傅立叶变换对数据集进行解码滤波器,音素识别实验TIMIT语料库进行,隐藏层的数量为1~5;
6)识别结果
深度网络的优势非常明显,CTC的错误率从23.9%降到了18.4%,隐藏层的数量从1增加到了5。
7.基于权利要求书5所述的训练,其特征在于,利用随机梯度下降训练所有的网络,学习率为10-4,动量0.9,随机初始权值[-0.1,0.1],从开发集中的最高log-概率点开始,再用高斯权重噪声训练(σ=0.075),直到开发集中音素错误率最低。
8.基于权利要求书6所述识别,其特征在于,使用TIMIT语料库进行,定向搜索解码的定向宽度为100。
CN201610693730.3A 2016-08-19 2016-08-19 一种利用长短期记忆模型递归神经网络的语音识别方法 Withdrawn CN106328122A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610693730.3A CN106328122A (zh) 2016-08-19 2016-08-19 一种利用长短期记忆模型递归神经网络的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610693730.3A CN106328122A (zh) 2016-08-19 2016-08-19 一种利用长短期记忆模型递归神经网络的语音识别方法

Publications (1)

Publication Number Publication Date
CN106328122A true CN106328122A (zh) 2017-01-11

Family

ID=57743856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610693730.3A Withdrawn CN106328122A (zh) 2016-08-19 2016-08-19 一种利用长短期记忆模型递归神经网络的语音识别方法

Country Status (1)

Country Link
CN (1) CN106328122A (zh)

Cited By (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106875007A (zh) * 2017-01-25 2017-06-20 上海交通大学 用于语音欺骗检测的基于卷积长短期记忆端对端深度神经网络
CN107068167A (zh) * 2017-03-13 2017-08-18 广东顺德中山大学卡内基梅隆大学国际联合研究院 融合多种端到端神经网络结构的说话人感冒症状识别方法
CN107179700A (zh) * 2017-07-03 2017-09-19 杭州善居科技有限公司 一种基于Alljoyn和机器学习的智能家居控制系统和方法
CN107293288A (zh) * 2017-06-09 2017-10-24 清华大学 一种残差长短期记忆循环神经网络的声学模型建模方法
CN107452374A (zh) * 2017-07-11 2017-12-08 上海交通大学 基于单向自标注辅助信息的多视角语言识别方法
CN107590138A (zh) * 2017-08-18 2018-01-16 浙江大学 一种基于词性注意力机制的神经机器翻译方法
CN107595243A (zh) * 2017-07-28 2018-01-19 深圳和而泰智能控制股份有限公司 一种病症评估方法及终端设备
CN107633842A (zh) * 2017-06-12 2018-01-26 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN107993636A (zh) * 2017-11-01 2018-05-04 天津大学 基于递归神经网络的乐谱建模与生成方法
CN107992812A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇语识别方法及装置
CN108184135A (zh) * 2017-12-28 2018-06-19 泰康保险集团股份有限公司 字幕生成方法及装置、存储介质及电子终端
CN108182259A (zh) * 2018-01-03 2018-06-19 华南理工大学 一种基于深度长短期记忆神经网络对多变量时间序列分类的方法
CN108229659A (zh) * 2017-12-29 2018-06-29 陕西科技大学 基于深度学习的钢琴单键音识别方法
CN108320732A (zh) * 2017-01-13 2018-07-24 阿里巴巴集团控股有限公司 生成目标说话人语音识别计算模型的方法和装置
CN108346434A (zh) * 2017-01-24 2018-07-31 中国移动通信集团安徽有限公司 一种语音质量评估的方法和装置
CN108417202A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语音识别方法及系统
WO2018153200A1 (zh) * 2017-02-21 2018-08-30 中兴通讯股份有限公司 基于hlstm模型的声学建模方法、装置和存储介质
CN108510985A (zh) * 2017-02-24 2018-09-07 百度(美国)有限责任公司 用于减小生产语音模型中的原则性偏差的系统和方法
CN108510983A (zh) * 2017-02-24 2018-09-07 百度(美国)有限责任公司 用于序列标注的自动单元选择和目标分解的系统和方法
CN108510980A (zh) * 2018-03-08 2018-09-07 深圳旭康科技有限公司 一种可学习的语音识别控制方法
CN108664460A (zh) * 2018-04-16 2018-10-16 北京天使软件技术有限公司 语音填表装置、方法、系统及存储介质
CN108694382A (zh) * 2018-05-14 2018-10-23 电子科技大学 一种基于超宽带雷达传感器的土壤pH分类方法
CN108710904A (zh) * 2018-05-10 2018-10-26 上海交通大学 基于递归神经网络的图像匹配方法及系统
CN109003601A (zh) * 2018-08-31 2018-12-14 北京工商大学 一种针对低资源土家语的跨语言端到端语音识别方法
CN109086864A (zh) * 2018-06-07 2018-12-25 中国科学技术大学 一种独立化长短期记忆网络模型的构建方法
CN109147766A (zh) * 2018-07-06 2019-01-04 北京爱医声科技有限公司 基于端到端深度学习模型的语音识别方法及系统
CN109151692A (zh) * 2018-07-13 2019-01-04 南京工程学院 基于深度学习网络的助听器自验配方法
CN109215637A (zh) * 2017-06-30 2019-01-15 三星Sds株式会社 语音识别方法
CN109243424A (zh) * 2018-08-28 2019-01-18 合肥星空物联信息科技有限公司 一种一键语音翻译终端及翻译方法
CN109346064A (zh) * 2018-12-13 2019-02-15 苏州思必驰信息科技有限公司 用于端到端语音识别模型的训练方法及系统
CN109360553A (zh) * 2018-11-20 2019-02-19 华南理工大学 一种用于语音识别的新型时延递归神经网络
CN109377540A (zh) * 2018-09-30 2019-02-22 网易(杭州)网络有限公司 面部动画的合成方法、装置、存储介质、处理器及终端
CN109409195A (zh) * 2018-08-30 2019-03-01 华侨大学 一种基于神经网络的唇语识别方法及系统
CN109523991A (zh) * 2017-09-15 2019-03-26 阿里巴巴集团控股有限公司 语音识别的方法及装置、设备
CN109523995A (zh) * 2018-12-26 2019-03-26 出门问问信息科技有限公司 语音识别方法、语音识别装置、可读存储介质和电子设备
CN109754789A (zh) * 2017-11-07 2019-05-14 北京国双科技有限公司 语音音素的识别方法及装置
CN109767759A (zh) * 2019-02-14 2019-05-17 重庆邮电大学 基于改进型cldnn结构的端到端语音识别方法
CN109841226A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 一种基于卷积递归神经网络的单通道实时降噪方法
CN109918493A (zh) * 2019-03-19 2019-06-21 重庆邮电大学 一种基于长短期记忆神经网络的对话生成方法
CN110047480A (zh) * 2019-04-22 2019-07-23 哈尔滨理工大学 用于社区医院科室查询的辅助管理机器人头部装置及控制
CN110189748A (zh) * 2019-05-31 2019-08-30 百度在线网络技术(北京)有限公司 模型构建方法和装置
WO2019179036A1 (zh) * 2018-03-19 2019-09-26 平安科技(深圳)有限公司 深度神经网络模型、电子装置、身份验证方法和存储介质
CN110321755A (zh) * 2018-03-28 2019-10-11 中移(苏州)软件技术有限公司 一种识别方法及装置
CN110353729A (zh) * 2019-07-30 2019-10-22 北京航空航天大学 一种基于双向长短期记忆网络的声波渡越时间检测方法
CN110399522A (zh) * 2019-07-03 2019-11-01 中国传媒大学 一种基于lstm与分层匹配的音乐哼唱检索方法及装置
CN110431566A (zh) * 2017-03-15 2019-11-08 易享信息技术有限公司 基于概率的引导器
CN110476206A (zh) * 2017-03-29 2019-11-19 谷歌有限责任公司 端到端文本到语音转换
CN110517666A (zh) * 2019-01-29 2019-11-29 腾讯科技(深圳)有限公司 音频识别方法、系统、机器设备和计算机可读介质
CN110556100A (zh) * 2019-09-10 2019-12-10 苏州思必驰信息科技有限公司 端到端语音识别模型的训练方法及系统
WO2019232851A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 语音区分模型训练方法、装置、计算机设备及存储介质
CN110752973A (zh) * 2018-07-24 2020-02-04 Tcl集团股份有限公司 一种终端设备的控制方法、装置和终端设备
CN111009236A (zh) * 2019-11-20 2020-04-14 武汉水象电子科技有限公司 一种基于dblstm+ctc声学模型的语音识别方法
CN111279359A (zh) * 2017-09-19 2020-06-12 拉莫特特拉维夫大学有限公司 用于图像内容识别的方法及系统
CN111489745A (zh) * 2019-01-28 2020-08-04 上海菲碧文化传媒有限公司 一种应用于人工智能的汉语语音识别系统
CN111557029A (zh) * 2017-12-15 2020-08-18 三菱电机株式会社 用于训练多语言语音识别网络的方法和系统以及用于执行多语言语音识别的语音识别系统
CN111613215A (zh) * 2019-02-22 2020-09-01 浙江大学 一种语音识别的方法及其装置
CN111771213A (zh) * 2018-02-16 2020-10-13 杜比实验室特许公司 语音风格迁移
WO2020238045A1 (zh) * 2019-05-29 2020-12-03 平安科技(深圳)有限公司 智能语音识别方法、装置及计算机可读存储介质
CN112466282A (zh) * 2020-10-22 2021-03-09 北京仿真中心 一种面向航天专业领域的语音识别系统和方法
WO2021051544A1 (zh) * 2019-09-16 2021-03-25 平安科技(深圳)有限公司 语音识别方法及其装置
CN112633463A (zh) * 2019-09-24 2021-04-09 辉达公司 用于建模序列数据中长期依赖性的双重递归神经网络架构
CN112767926A (zh) * 2021-04-09 2021-05-07 北京世纪好未来教育科技有限公司 一种端到端语音识别二遍解码方法及装置
CN113055715A (zh) * 2019-12-28 2021-06-29 中移(成都)信息通信科技有限公司 播放资源的处理方法、装置、设备及存储介质
CN113689887A (zh) * 2020-05-18 2021-11-23 辉达公司 使用一个或更多个神经网络的语音检测结束
CN113780610A (zh) * 2020-12-02 2021-12-10 北京沃东天骏信息技术有限公司 一种客服画像构建方法和装置
CN113811946A (zh) * 2019-05-03 2021-12-17 谷歌有限责任公司 数字序列的端到端自动语音识别
CN114330369A (zh) * 2022-03-15 2022-04-12 深圳文达智通技术有限公司 基于智能语音分析的地产营销管理方法、装置及设备
WO2022144630A1 (en) * 2020-12-29 2022-07-07 International Business Machines Corporation Customization of recurrent neural network transducers for speech recognition
US11538455B2 (en) 2018-02-16 2022-12-27 Dolby Laboratories Licensing Corporation Speech style transfer
WO2023087234A1 (en) * 2021-11-19 2023-05-25 Intel Corporation Artificial intelligence (ai) -assisted context-aware pipeline creation
CN116362418A (zh) * 2023-05-29 2023-06-30 天能电池集团股份有限公司 一种高端电池智能工厂应用级制造能力在线预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104952448A (zh) * 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
CN105513591A (zh) * 2015-12-21 2016-04-20 百度在线网络技术(北京)有限公司 用lstm循环神经网络模型进行语音识别的方法和装置
CN105679317A (zh) * 2014-12-08 2016-06-15 三星电子株式会社 用于训练语言模型并识别语音的方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
CN105679317A (zh) * 2014-12-08 2016-06-15 三星电子株式会社 用于训练语言模型并识别语音的方法和设备
CN104952448A (zh) * 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统
CN105513591A (zh) * 2015-12-21 2016-04-20 百度在线网络技术(北京)有限公司 用lstm循环神经网络模型进行语音识别的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALEX GRAVES ET AL.: ""SPEECH RECOGNITION WITH DEEP RECURRENT NEURAL NETWORKS"", 《ICASSP 2013 – 2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》 *
ALEX GRAVES ET AL.: ""Towards End-to-End Speech Recognition with Recurrent Neural Networks"", 《PROCEEDINGS OF 31ST INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *

Cited By (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108320732A (zh) * 2017-01-13 2018-07-24 阿里巴巴集团控股有限公司 生成目标说话人语音识别计算模型的方法和装置
CN108346434A (zh) * 2017-01-24 2018-07-31 中国移动通信集团安徽有限公司 一种语音质量评估的方法和装置
CN106875007A (zh) * 2017-01-25 2017-06-20 上海交通大学 用于语音欺骗检测的基于卷积长短期记忆端对端深度神经网络
WO2018153200A1 (zh) * 2017-02-21 2018-08-30 中兴通讯股份有限公司 基于hlstm模型的声学建模方法、装置和存储介质
CN108510985A (zh) * 2017-02-24 2018-09-07 百度(美国)有限责任公司 用于减小生产语音模型中的原则性偏差的系统和方法
CN108510983A (zh) * 2017-02-24 2018-09-07 百度(美国)有限责任公司 用于序列标注的自动单元选择和目标分解的系统和方法
CN108510983B (zh) * 2017-02-24 2022-11-18 百度(美国)有限责任公司 用于序列标注的自动单元选择和目标分解的系统和方法
CN107068167A (zh) * 2017-03-13 2017-08-18 广东顺德中山大学卡内基梅隆大学国际联合研究院 融合多种端到端神经网络结构的说话人感冒症状识别方法
WO2018166316A1 (zh) * 2017-03-13 2018-09-20 佛山市顺德区中山大学研究院 融合多种端到端神经网络结构的说话人感冒症状识别方法
CN110431566A (zh) * 2017-03-15 2019-11-08 易享信息技术有限公司 基于概率的引导器
CN110431566B (zh) * 2017-03-15 2024-03-19 硕动力公司 基于概率的引导器
US11862142B2 (en) 2017-03-29 2024-01-02 Google Llc End-to-end text-to-speech conversion
US11107457B2 (en) 2017-03-29 2021-08-31 Google Llc End-to-end text-to-speech conversion
CN110476206B (zh) * 2017-03-29 2021-02-02 谷歌有限责任公司 将文本转换为语音的系统及其存储介质
CN110476206A (zh) * 2017-03-29 2019-11-19 谷歌有限责任公司 端到端文本到语音转换
CN107293288A (zh) * 2017-06-09 2017-10-24 清华大学 一种残差长短期记忆循环神经网络的声学模型建模方法
WO2018227780A1 (zh) * 2017-06-12 2018-12-20 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
US11062699B2 (en) 2017-06-12 2021-07-13 Ping An Technology (Shenzhen) Co., Ltd. Speech recognition with trained GMM-HMM and LSTM models
CN107633842A (zh) * 2017-06-12 2018-01-26 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN109215637A (zh) * 2017-06-30 2019-01-15 三星Sds株式会社 语音识别方法
CN109215637B (zh) * 2017-06-30 2023-09-01 三星Sds株式会社 语音识别方法
CN107179700A (zh) * 2017-07-03 2017-09-19 杭州善居科技有限公司 一种基于Alljoyn和机器学习的智能家居控制系统和方法
CN107452374B (zh) * 2017-07-11 2020-05-05 上海交通大学 基于单向自标注辅助信息的多视角语言识别方法
CN107452374A (zh) * 2017-07-11 2017-12-08 上海交通大学 基于单向自标注辅助信息的多视角语言识别方法
CN107595243A (zh) * 2017-07-28 2018-01-19 深圳和而泰智能控制股份有限公司 一种病症评估方法及终端设备
CN107595243B (zh) * 2017-07-28 2021-08-17 深圳和而泰智能控制股份有限公司 一种病症评估方法及终端设备
CN107590138A (zh) * 2017-08-18 2018-01-16 浙江大学 一种基于词性注意力机制的神经机器翻译方法
CN107590138B (zh) * 2017-08-18 2020-01-31 浙江大学 一种基于词性注意力机制的神经机器翻译方法
CN109523991B (zh) * 2017-09-15 2023-08-18 阿里巴巴集团控股有限公司 语音识别的方法及装置、设备
CN109523991A (zh) * 2017-09-15 2019-03-26 阿里巴巴集团控股有限公司 语音识别的方法及装置、设备
CN111279359A (zh) * 2017-09-19 2020-06-12 拉莫特特拉维夫大学有限公司 用于图像内容识别的方法及系统
CN107993636B (zh) * 2017-11-01 2021-12-31 天津大学 基于递归神经网络的乐谱建模与生成方法
CN107993636A (zh) * 2017-11-01 2018-05-04 天津大学 基于递归神经网络的乐谱建模与生成方法
CN109754789A (zh) * 2017-11-07 2019-05-14 北京国双科技有限公司 语音音素的识别方法及装置
CN109754789B (zh) * 2017-11-07 2021-06-08 北京国双科技有限公司 语音音素的识别方法及装置
CN107992812A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇语识别方法及装置
CN111557029A (zh) * 2017-12-15 2020-08-18 三菱电机株式会社 用于训练多语言语音识别网络的方法和系统以及用于执行多语言语音识别的语音识别系统
CN108184135A (zh) * 2017-12-28 2018-06-19 泰康保险集团股份有限公司 字幕生成方法及装置、存储介质及电子终端
CN108229659A (zh) * 2017-12-29 2018-06-29 陕西科技大学 基于深度学习的钢琴单键音识别方法
CN108182259A (zh) * 2018-01-03 2018-06-19 华南理工大学 一种基于深度长短期记忆神经网络对多变量时间序列分类的方法
CN108182259B (zh) * 2018-01-03 2020-06-19 华南理工大学 基于深度长短期记忆神经网络对多变量时间序列分类方法
CN108417202A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语音识别方法及系统
CN111771213A (zh) * 2018-02-16 2020-10-13 杜比实验室特许公司 语音风格迁移
US11538455B2 (en) 2018-02-16 2022-12-27 Dolby Laboratories Licensing Corporation Speech style transfer
CN111771213B (zh) * 2018-02-16 2021-10-08 杜比实验室特许公司 语音风格迁移
CN108510980A (zh) * 2018-03-08 2018-09-07 深圳旭康科技有限公司 一种可学习的语音识别控制方法
WO2019179036A1 (zh) * 2018-03-19 2019-09-26 平安科技(深圳)有限公司 深度神经网络模型、电子装置、身份验证方法和存储介质
CN110321755A (zh) * 2018-03-28 2019-10-11 中移(苏州)软件技术有限公司 一种识别方法及装置
CN108664460A (zh) * 2018-04-16 2018-10-16 北京天使软件技术有限公司 语音填表装置、方法、系统及存储介质
CN108710904A (zh) * 2018-05-10 2018-10-26 上海交通大学 基于递归神经网络的图像匹配方法及系统
CN108694382B (zh) * 2018-05-14 2022-03-25 电子科技大学 一种基于超宽带雷达传感器的土壤pH分类方法
CN108694382A (zh) * 2018-05-14 2018-10-23 电子科技大学 一种基于超宽带雷达传感器的土壤pH分类方法
WO2019232851A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 语音区分模型训练方法、装置、计算机设备及存储介质
CN109086864A (zh) * 2018-06-07 2018-12-25 中国科学技术大学 一种独立化长短期记忆网络模型的构建方法
CN109147766B (zh) * 2018-07-06 2020-08-18 北京爱医声科技有限公司 基于端到端深度学习模型的语音识别方法及系统
CN109147766A (zh) * 2018-07-06 2019-01-04 北京爱医声科技有限公司 基于端到端深度学习模型的语音识别方法及系统
CN109151692A (zh) * 2018-07-13 2019-01-04 南京工程学院 基于深度学习网络的助听器自验配方法
CN110752973A (zh) * 2018-07-24 2020-02-04 Tcl集团股份有限公司 一种终端设备的控制方法、装置和终端设备
CN110752973B (zh) * 2018-07-24 2020-12-25 Tcl科技集团股份有限公司 一种终端设备的控制方法、装置和终端设备
CN109243424A (zh) * 2018-08-28 2019-01-18 合肥星空物联信息科技有限公司 一种一键语音翻译终端及翻译方法
CN109409195A (zh) * 2018-08-30 2019-03-01 华侨大学 一种基于神经网络的唇语识别方法及系统
CN109003601A (zh) * 2018-08-31 2018-12-14 北京工商大学 一种针对低资源土家语的跨语言端到端语音识别方法
CN109841226A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 一种基于卷积递归神经网络的单通道实时降噪方法
CN109841226B (zh) * 2018-08-31 2020-10-16 大象声科(深圳)科技有限公司 一种基于卷积递归神经网络的单通道实时降噪方法
CN109377540B (zh) * 2018-09-30 2023-12-19 网易(杭州)网络有限公司 面部动画的合成方法、装置、存储介质、处理器及终端
CN109377540A (zh) * 2018-09-30 2019-02-22 网易(杭州)网络有限公司 面部动画的合成方法、装置、存储介质、处理器及终端
CN109360553B (zh) * 2018-11-20 2023-06-20 华南理工大学 一种用于语音识别的时延递归神经网络
CN109360553A (zh) * 2018-11-20 2019-02-19 华南理工大学 一种用于语音识别的新型时延递归神经网络
CN109346064A (zh) * 2018-12-13 2019-02-15 苏州思必驰信息科技有限公司 用于端到端语音识别模型的训练方法及系统
CN109346064B (zh) * 2018-12-13 2021-07-27 思必驰科技股份有限公司 用于端到端语音识别模型的训练方法及系统
CN109523995A (zh) * 2018-12-26 2019-03-26 出门问问信息科技有限公司 语音识别方法、语音识别装置、可读存储介质和电子设备
CN109523995B (zh) * 2018-12-26 2019-07-09 出门问问信息科技有限公司 语音识别方法、语音识别装置、可读存储介质和电子设备
CN111489745A (zh) * 2019-01-28 2020-08-04 上海菲碧文化传媒有限公司 一种应用于人工智能的汉语语音识别系统
CN110517666A (zh) * 2019-01-29 2019-11-29 腾讯科技(深圳)有限公司 音频识别方法、系统、机器设备和计算机可读介质
US11900917B2 (en) 2019-01-29 2024-02-13 Tencent Technology (Shenzhen) Company Limited Audio recognition method and system and machine device
CN109767759A (zh) * 2019-02-14 2019-05-17 重庆邮电大学 基于改进型cldnn结构的端到端语音识别方法
CN109767759B (zh) * 2019-02-14 2020-12-22 重庆邮电大学 一种应用到端到端语音识别的cldnn结构的建立方法
CN111613215B (zh) * 2019-02-22 2023-06-23 浙江大学 一种语音识别的方法及其装置
CN111613215A (zh) * 2019-02-22 2020-09-01 浙江大学 一种语音识别的方法及其装置
CN109918493A (zh) * 2019-03-19 2019-06-21 重庆邮电大学 一种基于长短期记忆神经网络的对话生成方法
CN110047480A (zh) * 2019-04-22 2019-07-23 哈尔滨理工大学 用于社区医院科室查询的辅助管理机器人头部装置及控制
CN113811946A (zh) * 2019-05-03 2021-12-17 谷歌有限责任公司 数字序列的端到端自动语音识别
WO2020238045A1 (zh) * 2019-05-29 2020-12-03 平安科技(深圳)有限公司 智能语音识别方法、装置及计算机可读存储介质
CN110189748B (zh) * 2019-05-31 2021-06-11 百度在线网络技术(北京)有限公司 模型构建方法和装置
CN110189748A (zh) * 2019-05-31 2019-08-30 百度在线网络技术(北京)有限公司 模型构建方法和装置
CN110399522A (zh) * 2019-07-03 2019-11-01 中国传媒大学 一种基于lstm与分层匹配的音乐哼唱检索方法及装置
CN110353729A (zh) * 2019-07-30 2019-10-22 北京航空航天大学 一种基于双向长短期记忆网络的声波渡越时间检测方法
CN110353729B (zh) * 2019-07-30 2022-02-15 北京航空航天大学 一种基于双向长短期记忆网络的声波渡越时间检测方法
CN110556100A (zh) * 2019-09-10 2019-12-10 苏州思必驰信息科技有限公司 端到端语音识别模型的训练方法及系统
WO2021051544A1 (zh) * 2019-09-16 2021-03-25 平安科技(深圳)有限公司 语音识别方法及其装置
CN112633463A (zh) * 2019-09-24 2021-04-09 辉达公司 用于建模序列数据中长期依赖性的双重递归神经网络架构
CN111009236A (zh) * 2019-11-20 2020-04-14 武汉水象电子科技有限公司 一种基于dblstm+ctc声学模型的语音识别方法
CN113055715A (zh) * 2019-12-28 2021-06-29 中移(成都)信息通信科技有限公司 播放资源的处理方法、装置、设备及存储介质
CN113689887A (zh) * 2020-05-18 2021-11-23 辉达公司 使用一个或更多个神经网络的语音检测结束
CN112466282B (zh) * 2020-10-22 2023-11-28 北京仿真中心 一种面向航天专业领域的语音识别系统和方法
CN112466282A (zh) * 2020-10-22 2021-03-09 北京仿真中心 一种面向航天专业领域的语音识别系统和方法
CN113780610A (zh) * 2020-12-02 2021-12-10 北京沃东天骏信息技术有限公司 一种客服画像构建方法和装置
AU2021414510B2 (en) * 2020-12-29 2023-10-05 International Business Machines Corporation Customization of recurrent neural network transducers for speech recognition
GB2617501A (en) * 2020-12-29 2023-10-11 Ibm Customization of recurrent neural network transducers for speech recognition
WO2022144630A1 (en) * 2020-12-29 2022-07-07 International Business Machines Corporation Customization of recurrent neural network transducers for speech recognition
US11908458B2 (en) 2020-12-29 2024-02-20 International Business Machines Corporation Customization of recurrent neural network transducers for speech recognition
CN112767926B (zh) * 2021-04-09 2021-06-25 北京世纪好未来教育科技有限公司 一种端到端语音识别二遍解码方法及装置
CN112767926A (zh) * 2021-04-09 2021-05-07 北京世纪好未来教育科技有限公司 一种端到端语音识别二遍解码方法及装置
WO2023087234A1 (en) * 2021-11-19 2023-05-25 Intel Corporation Artificial intelligence (ai) -assisted context-aware pipeline creation
CN114330369A (zh) * 2022-03-15 2022-04-12 深圳文达智通技术有限公司 基于智能语音分析的地产营销管理方法、装置及设备
CN116362418A (zh) * 2023-05-29 2023-06-30 天能电池集团股份有限公司 一种高端电池智能工厂应用级制造能力在线预测方法
CN116362418B (zh) * 2023-05-29 2023-08-22 天能电池集团股份有限公司 一种高端电池智能工厂应用级制造能力在线预测方法

Similar Documents

Publication Publication Date Title
CN106328122A (zh) 一种利用长短期记忆模型递归神经网络的语音识别方法
CN103049792B (zh) 深层神经网络的辨别预训练
CN106126507B (zh) 一种基于字符编码的深度神经翻译方法及系统
CN109492227A (zh) 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN109785824A (zh) 一种语音翻译模型的训练方法及装置
CN111274362B (zh) 一种基于transformer架构的对话生成方法
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN106856092A (zh) 基于前向神经网络语言模型的汉语语音关键词检索方法
CN112348911B (zh) 基于语义约束的堆叠文本生成细粒度图像方法及系统
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN110751944A (zh) 构建语音识别模型的方法、装置、设备和存储介质
CN111814489A (zh) 口语语义理解方法及系统
Zhang et al. Feedforward sequential memory neural networks without recurrent feedback
CN113641819A (zh) 基于多任务稀疏共享学习的论辩挖掘系统及方法
CN112347756A (zh) 一种基于序列化证据抽取的推理阅读理解方法及系统
CN113935489A (zh) 基于量子神经网络的变分量子模型tfq-vqa及其两级优化方法
CN110992943A (zh) 基于词混淆网络的语义理解方法及系统
Morioka et al. Multiscale recurrent neural network based language model.
CN106875944A (zh) 一种语音控制家庭智能终端的系统
CN114281954A (zh) 一种基于关系图注意力网络的多轮对话回复生成系统及方法
CN116310770A (zh) 基于梅尔倒谱和注意力残差网络的水声目标识别方法和系统
CN115796029A (zh) 基于显式及隐式特征解耦的nl2sql方法
CN115168864A (zh) 一种基于特征交叉的智能交叉合约漏洞检测方法
Chien et al. Variational sequential modeling, learning and understanding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20170111

WW01 Invention patent application withdrawn after publication