CN109523995A - 语音识别方法、语音识别装置、可读存储介质和电子设备 - Google Patents
语音识别方法、语音识别装置、可读存储介质和电子设备 Download PDFInfo
- Publication number
- CN109523995A CN109523995A CN201811601636.6A CN201811601636A CN109523995A CN 109523995 A CN109523995 A CN 109523995A CN 201811601636 A CN201811601636 A CN 201811601636A CN 109523995 A CN109523995 A CN 109523995A
- Authority
- CN
- China
- Prior art keywords
- vector
- primary
- acoustic feature
- feature vector
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 256
- 238000003062 neural network model Methods 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 8
- 230000008901 benefit Effects 0.000 claims description 2
- 230000001737 promoting effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 101100275473 Caenorhabditis elegans ctc-3 gene Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 210000003733 optic disk Anatomy 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种语音识别方法、语音识别装置、可读存储介质和电子设备。本发明实施例通过将输入序列输入预定的神经网络模型获取多个第一向量,根据所述多个第一向量和多个投影矩阵获取一个所述声学特征向量的多个第二向量,并根据所述多个第二向量获取对应的所述声学特征向量的第三向量,进而根据所述第三向量确定所述输入序列对应的概率分布序列,从而根据所述概率分布序列确定每个声学特征向量对应的标签。由此,通过多个投影矩阵能够使得标签识别的准确率提升,从而在后续提升语音识别的准确率。
Description
技术领域
本发明公开涉及信息处理技术领域,具体涉及一种语音识别方法、语音识别装置、可读存储介质和电子设备。
背景技术
随着信息技术的不断发展,语音识别技术也在迅速地发展。现有的语音识别技术通常使用HMM(Hidden Markov Model,隐马尔科夫模型)混合语音识别系统获取语音识别信息。由于HMM混合语音识别系统需要根据现有的声学模型(例如,高斯混合模型)来对语音训练数据的状态进行校准,并根据从状态对齐产生的声学特征和训练目标,训练神经网络获取状态后验概率,这种分离的方式会导致HMM混合语音识别系统的语音识别准确率较低。
发明内容
有鉴于此,本发明实施例提出了一种语音识别方法、语音识别装置、可读存储介质和电子设备,能够提高语音识别的准确率。
第一方面,本发明实施例提供了一种语音识别方法,所述方法包括:
将输入序列输入预定的神经网络模型获取多个第一向量,其中,所述输入序列为声学特征向量的序列,所述第一向量为所述神经网络模型的最后一个隐层输出的隐藏特征向量,每个隐藏特征向量对应于一个声学特征向量;
根据所述第一向量和多个投影矩阵获取一个所述声学特征向量对应的多个第二向量;
根据所述多个第二向量获取对应的所述声学特征向量的第三向量;
根据所述第三向量确定所述输入序列对应的概率分布序列;
根据所述概率分布序列确定每个声学特征向量对应的标签。
优选地,所述第二向量通过如下公式计算:
(li,1,…,li,n)=tanh([M1,…,Mn]Thi)
其中,li,j为所述第二向量,(li,1,…,li,n)为所述第二向量的序列,tanh为第一激活函数,Mj为所述投影矩阵,j=1…n为所述投影矩阵的数量,hi为所述第一向量,i=1…t为所述第一向量的数量,所述投影矩阵通过预先训练获得。
优选地,所述根据所述多个第二向量获取对应的所述声学特征向量的第三向量包括:
根据所述第一向量和权重矩阵获取对应的多个第四向量;
根据所述多个第四向量和所述多个第二向量获取对应的所述第三向量。
优选地,所述根据所述第一向量和权重矩阵获取对应的多个第四向量包括:
根据所述第一向量和所述权重矩阵获取第五向量;
根据所述第五向量和第二激活函数获取对应的所述第四向量。
优选地,所述第五向量通过如下公式计算:
其中,为所述第五向量,W为所述权重矩阵,hi为所述第一向量,i=1…t为所述第一向量的数量,所述权重矩阵通过预先训练获得。
优选地,所述第四向量通过如下公式计算:
其中,wi,j为所述第四向量,和为所述第五向量中的元素,k=1…n为所述元素的数量。
优选地,所述第三向量通过如下公式计算:
其中,li为所述第三向量,λ为预定的比例因子,wi,j为所述第四向量,li,j为所述第二向量。
第二方面,本发明实施例提供了一种语音识别装置,所述装置包括:
第一获取单元,用于将输入序列输入预定的神经网络模型获取多个第一向量,其中,所述输入序列为声学特征向量的序列,所述第一向量为所述神经网络模型的最后一个隐层输出的隐藏特征向量,每个隐藏特征向量对应于一个声学特征向量;
第二获取单元,用于根据所述第一向量和多个投影矩阵获取一个所述声学特征向量对应的多个第二向量;
第三获取单元,用于根据所述多个第二向量获取对应的所述声学特征向量的第三向量;
第一确定单元,用于根据所述第三向量确定所述输入序列对应的概率分布序列;
第二确定单元,用于根据所述概率分布序列确定每个声学特征向量对应的标签。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,其中,所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。
第四方面,本发明实施例提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。
本发明实施例通过将输入序列输入预定的神经网络模型获取多个第一向量,根据所述多个第一向量和多个投影矩阵获取一个所述声学特征向量的多个第二向量,并根据所述多个第二向量获取对应的所述声学特征向量的第三向量,进而根据所述第三向量确定所述输入序列对应的概率分布序列,从而根据所述概率分布序列确定每个声学特征向量对应的标签。由此,通过多个投影矩阵能够使得标签识别的准确率提升,从而在后续提升语音识别的准确率。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明第一实施例的语音识别方法的流程图;
图2是本发明第一实施例的方法获取第三向量的流程图;
图3是本发明第一实施例的方法获取第三向量的数据流向图;
图4是本发明第二实施例的语音识别装置的示意图;
图5是本发明第三实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
现有的语音识别技术通常使用HMM混合语音识别系统获取语音识别信息。由于HMM混合语音识别系统需要根据现有的声学模型来对语音训练数据的状态进行校准,并根据从状态对齐产生的声学特征和训练目标,训练神经网络获取状态后验概率,这种多次迭代以对齐的方式会导致HMM混合语音识别系统的语音识别准确率较低。
图1是本发明第一实施例的语音识别方法的流程图。如图1所示,本实施例的方法包括如下步骤:
步骤S100,将输入序列输入预定的神经网络模型获取多个第一向量。
其中,输入序列为声学特征向量的序列,第一向量为神经网络模型的最后一个隐层输出的隐藏特征向量,每个隐藏特征向量对应于一个声学特征向量。具体地,输入序列的长度与采集周期有关,每个声学特征向量对应于一个采集时刻(也即,时刻)。可选地,可以根据语音的波形图获得声学特征向量。
在本实施例中,预定的神经网络模型为E2E(end to end,端到端)模型。具体地,为LSTM-CTC(Long Short-Term Memory-Connectionist temporal classification,长短期记忆网络-联结时间分类模型)。其中,LSTM为RNN(Recurrent Neural Network,循环神经网络)的一种,但与RNN不同的是,LSTM中包括用于判断信息是否有用的“处理器”,也即cell。一个cell中包括三扇门,分别为输入门、输出门和遗忘门。一个信息输入LSTM后,可以根据上下文等判断信息是否有用(具体地,用[0,1]之间的数来表示,0为完全遗忘,1为完全保留),被模型判定为有用的信息会通过输出门保留,而无用的信息会通过遗忘门被遗忘。且LSTM的适应性较高,能够适应多种可能变化,因此,LSTM是解决长(时)序问题的有效技术。在本实施例中,LSTM模型可以为多层LSTM,也可以为双向LSTM。
将声学特征向量的输入序列输入到LSTM-CTC模型后,LSTM可以获取每个声学特征对应的第一向量。具体地,第一向量为LSTM模型的最后一个隐层输出的隐藏特征向量。CTC模型可以根据第一向量和投影层获得标签序列Y。Y的长度通常小于输入序列的长度,而CTC中引入了空标签ε,同时允许出现重复标签,并且,CTC会将ε插在连续的重复标签之间,由此可以将Y扩展为Ω(Y)。其中,空标签可以对应于输入序列中信息较少的声学特征向量。例如,“hello”对应的扩展后的标签序列Ω(Y)可以为hheεεlllεllo。Ω(Y)的长度与输入序列的长度相同,较好地解决了对齐的问题。因此LSTM-CTC语音识别的准确率较高。
步骤S200,根据第一向量和多个投影矩阵获取一个声学特征向量对应的多个第二向量。
将第一向量输入CTC后,CTC会根据投影层获得每个声学特征向量对应的多个第二向量。在现有技术中,投影层为单个投影矩阵,通过单个投影矩阵获得的第二向量的维数通常小于第一向量的维数,因此会对语音识别的准确率产生一定影响。在本实施例中,使用多个投影矩阵代替单个投影矩阵,能够提升第二向量的维数,因此能够提升语音识别的准确率。具体地,第二向量可以通过如下公式计算获得:
(li,1,…,li,n)=tanh([M1,…,Mn]Thi)
其中,li,j为第二向量,(li,1,…,li,n)为第二向量的序列,tanh为第一激活函数,Mj为投影矩阵,j=1…n为投影矩阵的数量,hi为第一向量,i=1…t为第一向量的数量。也即,hi为i时刻对应的第一向量。其中,每个hi的维数为H,每个投影矩阵的维数为H×N。应理解,每个投影矩阵均通过预先训练获得,也就是说,投影矩阵中的每个元素已知。
步骤S300,根据多个第二向量获取对应的声学特征向量的第三向量。
在本实施例中,由于第二向量li,j通过多个投影矩阵获得,因此,为了在后续获得多个第二向量li,j对应的第一向量hi的概率分布向量,需要获得每个第二向量li,j对应的权重向量wi,j。
图2是本发明第一实施例的方法获取第三向量的流程图。如图2所示,在本实施例中,步骤S300可以包括如下步骤:
步骤S310,根据第一向量和权重矩阵获取对应的多个第四向量。
应理解,权重矩阵均通过预先训练获得,也就是说,权重矩阵中的每个元素已知。具体地,权重矩阵可以和投影矩阵共同训练获得。
可选地,步骤S310包括如下步骤:
步骤S311,根据第一向量和权重矩阵获取多个第五向量。
具体地,第五向量可以通过如下公式计算获得:
其中,为第五向量,W为权重矩阵,hi为第一向量,i=1…t为第一向量的数量。
步骤S312,根据第五向量和第二激活函数获取对应的第四向量。
在本步骤中,可以通过softmax函数(也即,第二激活函数)获得第五向量对应的第四向量。softmax函数用于将有限项离散概率分布的梯度对数归一化,使得归一化后的向量中的每个元素的范围在(0,1)之间,且所有元素的总和为1。也就是说,将第五向量通过对数归一化得到对应的第四向量(也即,上述权重向量)。具体地,第四向量可以通过如下公式计算获得:
其中,wi,j为第四向量,为第五向量中的元素,k=1…n为第五向量中的元素的数量。
步骤S320,根据多个第四向量和多个第二向量获取对应的第三向量。
具体地,第三向量通过如下公式计算获得:
其中,li为第三向量,λ为预定的比例因子,wi,j为第四向量,li,j为第二向量。优选地,在本实施例中,λ的取值范围为[10,20]。
图3是本发明第一实施例的方法获取第三向量的数据流向图。如图3所示,第三向量通过如下步骤获取:
步骤S1000,根据第一向量hi和权重矩阵W获得多个第四向量wi,j。
具体地,根据第一向量hi和权重矩阵W获得多个第五向量然后将每个第五向量对数归一化(也即,通过softmax函数计算)获得对应的第四向量wi,j。
步骤S2000,根据第一向量hi和多个投影矩阵Mj获得多个第二向量li,j。
具体地,根据第一向量hi和多个投影矩阵Mj以及激活函数tanh获得多个第二向量。
应理解,步骤S1000和步骤S2000可以同时执行,也可以先后执行,不必区分执行顺序。
步骤S3000,根据多个第二向量li,j和对应的多个第四向量wi,j获得第三向量li。
步骤S400,根据第三向量确定输入序列对应的概率分布序列。
具体地,CTC可以通过softmax函数将每个第三向量li对数归一化获取对应的概率分布向量p(yi|X),从而根据每个p(yi|X)确定输入队列对应的概率分布序列p(Y|X)。优选地,在模型的训练过程中,可以通过最小化损失函数的方式使得模型提升每个第三向量对应正确标签的概率。具体地,损失函数的公式如下:
其中,πi为每个第一向量对应的多个输出路径,p(πi|X)为输入第一向量且输出路径为πi的概率。
步骤S500,根据概率分布序列确定每个声学特征向量对应的标签。
在本实施例中,标签包括音素和空标签。可选地,音素可以被替换为字符。具体地,在本步骤中,可以根据概率分布序列中每个概率分布向量中概率最大的值确定每个声学特征向量对应的标签。例如,声学特征向量1对应的概率分布向量为(0.04,0.01,0.85,0.07,0.03),CTC中包括的标签为(a,b,c,d,ε),则声学特征向量对应的标签为c。
后续,在获取每个声学特征向量对应的标签后,CTC还可以将连续且相同的标签进行合并,并去除空标签,由此,可以输出输入序列对应的语音识别信息。例如,标签序列为hheεεlllεllo,CTC会获取不含连续且相同的标签的标签序列heεεlεlo,然后去除ε,由此可以获得语音识别信息为hello。
现有技术的语音识别方法中LSTM-CTC与本实施例的语音识别方法中LSTM-CTC的WER(word error rate,字错误率)对比如下表所示:
模型 | Dev93 | Eval92 |
LSTM-CTC 1 | 11.3% | 7.4% |
LSTM-CTC 2 | 11.3% | 7.5% |
LSTM-CTC 3 | 10.2% | 7.2% |
其中,LSTM-CTC 1为现有技术的LSTM-CTC模型,LSTM-CTC 2为去除本实施例的投影层中的softmax激活函数以及预定的比例因子λ的LSTM-CTC模型,LSTM-CTC 3是本实施例的的LSTM-CTC模型。Dev93和Eval92均为华尔街日报的语料库。通过上表可以看出,LSTM-CTC 3在两个语料库中的WER均为最低,也就是说,本实施例的语音识别方法对于语音识别的准确率最高。
本发明实施例通过将输入序列输入预定的神经网络模型获取多个第一向量,根据所述多个第一向量和多个投影矩阵获取一个所述声学特征向量的多个第二向量,并根据所述多个第二向量获取对应的所述声学特征向量的第三向量,进而根据所述第三向量确定所述输入序列对应的概率分布序列,从而根据所述概率分布序列确定每个声学特征向量对应的标签。由此,通过多个投影矩阵能够使得标签识别的准确率提升,从而在后续提升语音识别的准确率。
图4是本发明第二实施例的语音识别装置的示意图。如图4所示,本实施例的语音识别装置包括第一获取单元41、第二获取单元42、第三获取单元43、第一确定单元44和第二确定单元45。
其中,第一获取单元41用于将输入序列输入预定的神经网络模型获取多个第一向量,其中,所述输入序列为声学特征向量的序列,所述第一向量为所述神经网络模型的最后一个隐层输出的隐藏特征向量,每个隐藏特征向量对应于一个声学特征向量。第二获取单元42用于根据所述第一向量和多个投影矩阵获取一个声学特征向量对应的多个第二向量。第三获取单元43用于根据所述多个第二向量获取对应的所述声学特征向量的第三向量。第一确定单元44用于根据所述第三向量确定所述输入序列对应的概率分布序列。第二确定单元45用于根据所述概率分布序列确定每个声学特征向量对应的标签。
本发明实施例通过将输入序列输入预定的神经网络模型获取多个第一向量,根据所述多个第一向量和多个投影矩阵获取一个所述声学特征向量的多个第二向量,并根据所述多个第二向量获取对应的所述声学特征向量的第三向量,进而根据所述第三向量确定所述输入序列对应的概率分布序列,从而根据所述概率分布序列确定每个声学特征向量对应的标签。由此,通过多个投影矩阵能够使得标签识别的准确率提升,从而在后续提升语音识别的准确率。
图5是本发明第三实施例的电子设备的示意图。图5所示的电子设备为通用数据处理装置,其包括通用的计算机硬件结构,其至少包括处理器51和存储器52。处理器51和存储器52通过总线53连接。存储器52适于存储处理器51可执行的指令或程序。处理器51可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器51通过执行存储器52所存储的命令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线53将上述多个组件连接在一起,同时将上述组件连接到显示控制器54和显示装置以及输入/输出(I/O)装置55。输入/输出(I/O)装置55可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出(I/O)装置55通过输入/输出(I/O)控制器56与系统相连。
其中,存储器52可以存储软件组件,例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。
上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应理解,流程图和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器,以产生机器,使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。
同时,如本领域技术人员将意识到的,本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此,本发明实施例的各个方面可以采取如下形式:完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外,本发明的方面可以采取如下形式:在一个或多个计算机可读介质中实现的计算机程序产品,计算机可读介质具有在其上实现的计算机可读程序代码。
可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置,或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项:具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中,计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。
计算机可读信号介质可以包括传播的数据信号,所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式,包括但不限于:电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质:不是计算机可读存储介质,并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。
用于执行针对本发明各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写,所述编程语言包括:面向对象的编程语言如Java、Smalltalk、C++、PHP、Python等;以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行;部分地在用户计算机上且部分地在远程计算机上执行;或者完全地在远程计算机或服务器上执行。在后一种情况下,可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机,或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音识别方法,其特征在于,所述方法包括:
将输入序列输入预定的神经网络模型获取多个第一向量,其中,所述输入序列为声学特征向量的序列,所述第一向量为所述神经网络模型的最后一个隐层输出的隐藏特征向量,每个隐藏特征向量对应于一个声学特征向量;
根据所述第一向量和多个投影矩阵获取一个所述声学特征向量对应的多个第二向量;
根据所述多个第二向量获取对应的所述声学特征向量的第三向量;
根据所述第三向量确定所述输入序列对应的概率分布序列;
根据所述概率分布序列确定每个声学特征向量对应的标签。
2.根据权利要求1所述的方法,其特征在于,所述第二向量通过如下公式计算:
(li,1,…,li,n)=tanh([M1,…,Mn]Thi)
其中,li,j为所述第二向量,(li,1,…,li,n)为所述第二向量的序列,tanh为第一激活函数,Mj为所述投影矩阵,j=1…n为所述投影矩阵的数量,hi为所述第一向量,i=1…t为所述第一向量的数量,所述投影矩阵通过预先训练获得。
3.根据权利要求1所述的方法,其特征在于,所述根据所述多个第二向量获取对应的所述声学特征向量的第三向量包括:
根据所述第一向量和权重矩阵获取对应的多个第四向量;
根据所述多个第四向量和所述多个第二向量获取对应的所述第三向量。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一向量和权重矩阵获取对应的多个第四向量包括:
根据所述第一向量和所述权重矩阵获取第五向量;
根据所述第五向量和第二激活函数获取对应的所述第四向量。
5.根据权利要求4所述的方法,其特征在于,所述第五向量通过如下公式计算:
其中,为所述第五向量,W为所述权重矩阵,hi为所述第一向量,i=1…t为所述第一向量的数量,所述权重矩阵通过预先训练获得。
6.根据权利要求4所述的方法,其特征在于,所述第四向量通过如下公式计算:
其中,wi,j为所述第四向量,和为所述第五向量中的元素,k=1…n为所述元素的数量。
7.根据权利要求3所述的方法,其特征在于,所述第三向量通过如下公式计算:
其中,li为所述第三向量,λ为预定的比例因子,wi,j为所述第四向量,li,j为所述第二向量。
8.一种语音识别装置,其特征在于,所述装置包括:
第一获取单元,用于将输入序列输入预定的神经网络模型获取多个第一向量,其中,所述输入序列为声学特征向量的序列,所述第一向量为所述神经网络模型的最后一个隐层输出的隐藏特征向量,每个隐藏特征向量对应于一个声学特征向量;
第二获取单元,用于根据所述第一向量和多个投影矩阵获取一个所述声学特征向量对应的多个第二向量;
第三获取单元,用于根据所述多个第二向量获取对应的所述声学特征向量的第三向量;
第一确定单元,用于根据所述第三向量确定所述输入序列对应的概率分布序列;
第二确定单元,用于根据所述概率分布序列确定每个声学特征向量对应的标签。
9.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-7中任一项所述的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811601636.6A CN109523995B (zh) | 2018-12-26 | 2018-12-26 | 语音识别方法、语音识别装置、可读存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811601636.6A CN109523995B (zh) | 2018-12-26 | 2018-12-26 | 语音识别方法、语音识别装置、可读存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109523995A true CN109523995A (zh) | 2019-03-26 |
CN109523995B CN109523995B (zh) | 2019-07-09 |
Family
ID=65797159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811601636.6A Active CN109523995B (zh) | 2018-12-26 | 2018-12-26 | 语音识别方法、语音识别装置、可读存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109523995B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110160210A (zh) * | 2019-05-15 | 2019-08-23 | 北京上格云技术有限公司 | 风机盘管的故障检测方法、装置、存储介质和电子设备 |
CN110263820A (zh) * | 2019-05-29 | 2019-09-20 | 深圳大学 | 识别方法、装置、设备以及存储介质 |
CN110288995A (zh) * | 2019-07-19 | 2019-09-27 | 出门问问(苏州)信息科技有限公司 | 基于语音识别的交互方法、装置、存储介质和电子设备 |
CN110310662A (zh) * | 2019-05-21 | 2019-10-08 | 平安科技(深圳)有限公司 | 音节自动标注方法、装置、计算机设备及存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104376842A (zh) * | 2013-08-12 | 2015-02-25 | 清华大学 | 神经网络语言模型的训练方法、装置以及语音识别方法 |
CN104700828A (zh) * | 2015-03-19 | 2015-06-10 | 清华大学 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
CN105513591A (zh) * | 2015-12-21 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 用lstm循环神经网络模型进行语音识别的方法和装置 |
CN106328122A (zh) * | 2016-08-19 | 2017-01-11 | 深圳市唯特视科技有限公司 | 一种利用长短期记忆模型递归神经网络的语音识别方法 |
US20170220925A1 (en) * | 2016-02-03 | 2017-08-03 | Google Inc. | Compressed recurrent neural network models |
CN107293291A (zh) * | 2016-03-30 | 2017-10-24 | 中国科学院声学研究所 | 一种基于自适应学习率的端到端的语音识别方法 |
CN107301860A (zh) * | 2017-05-04 | 2017-10-27 | 百度在线网络技术(北京)有限公司 | 基于中英文混合词典的语音识别方法及装置 |
CN108028043A (zh) * | 2015-09-24 | 2018-05-11 | 微软技术许可有限责任公司 | 在参与者之间的对话中检测可行动项 |
CN108292305A (zh) * | 2015-12-04 | 2018-07-17 | 三菱电机株式会社 | 用于处理语句的方法 |
CN108417207A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 一种深度混合生成网络自适应方法及系统 |
US20180261213A1 (en) * | 2017-03-13 | 2018-09-13 | Baidu Usa Llc | Convolutional recurrent neural networks for small-footprint keyword spotting |
CN108615525A (zh) * | 2016-12-09 | 2018-10-02 | 中国移动通信有限公司研究院 | 一种语音识别方法及装置 |
CN108831447A (zh) * | 2018-09-29 | 2018-11-16 | 广东工业大学 | 基于hmm和pnn的语音识别方法、装置及存储介质 |
CN108962247A (zh) * | 2018-08-13 | 2018-12-07 | 南京邮电大学 | 基于渐进式神经网络多维语音信息识别系统及其方法 |
CN108960407A (zh) * | 2018-06-05 | 2018-12-07 | 出门问问信息科技有限公司 | 递归神经网路语言模型训练方法、装置、设备及介质 |
-
2018
- 2018-12-26 CN CN201811601636.6A patent/CN109523995B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104376842A (zh) * | 2013-08-12 | 2015-02-25 | 清华大学 | 神经网络语言模型的训练方法、装置以及语音识别方法 |
CN104700828A (zh) * | 2015-03-19 | 2015-06-10 | 清华大学 | 基于选择性注意原理的深度长短期记忆循环神经网络声学模型的构建方法 |
CN108028043A (zh) * | 2015-09-24 | 2018-05-11 | 微软技术许可有限责任公司 | 在参与者之间的对话中检测可行动项 |
CN108292305A (zh) * | 2015-12-04 | 2018-07-17 | 三菱电机株式会社 | 用于处理语句的方法 |
CN105513591A (zh) * | 2015-12-21 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 用lstm循环神经网络模型进行语音识别的方法和装置 |
US20170220925A1 (en) * | 2016-02-03 | 2017-08-03 | Google Inc. | Compressed recurrent neural network models |
CN107293291A (zh) * | 2016-03-30 | 2017-10-24 | 中国科学院声学研究所 | 一种基于自适应学习率的端到端的语音识别方法 |
CN106328122A (zh) * | 2016-08-19 | 2017-01-11 | 深圳市唯特视科技有限公司 | 一种利用长短期记忆模型递归神经网络的语音识别方法 |
CN108615525A (zh) * | 2016-12-09 | 2018-10-02 | 中国移动通信有限公司研究院 | 一种语音识别方法及装置 |
US20180261213A1 (en) * | 2017-03-13 | 2018-09-13 | Baidu Usa Llc | Convolutional recurrent neural networks for small-footprint keyword spotting |
CN107301860A (zh) * | 2017-05-04 | 2017-10-27 | 百度在线网络技术(北京)有限公司 | 基于中英文混合词典的语音识别方法及装置 |
CN108417207A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 一种深度混合生成网络自适应方法及系统 |
CN108960407A (zh) * | 2018-06-05 | 2018-12-07 | 出门问问信息科技有限公司 | 递归神经网路语言模型训练方法、装置、设备及介质 |
CN108962247A (zh) * | 2018-08-13 | 2018-12-07 | 南京邮电大学 | 基于渐进式神经网络多维语音信息识别系统及其方法 |
CN108831447A (zh) * | 2018-09-29 | 2018-11-16 | 广东工业大学 | 基于hmm和pnn的语音识别方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
JINYU LI ET AL.: "Advancing Acoustic-to-Word CTC Model", 《ARXIV》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110160210A (zh) * | 2019-05-15 | 2019-08-23 | 北京上格云技术有限公司 | 风机盘管的故障检测方法、装置、存储介质和电子设备 |
CN110310662A (zh) * | 2019-05-21 | 2019-10-08 | 平安科技(深圳)有限公司 | 音节自动标注方法、装置、计算机设备及存储介质 |
CN110263820A (zh) * | 2019-05-29 | 2019-09-20 | 深圳大学 | 识别方法、装置、设备以及存储介质 |
CN110288995A (zh) * | 2019-07-19 | 2019-09-27 | 出门问问(苏州)信息科技有限公司 | 基于语音识别的交互方法、装置、存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109523995B (zh) | 2019-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109523995B (zh) | 语音识别方法、语音识别装置、可读存储介质和电子设备 | |
WO2019153737A1 (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
EP3046053B1 (en) | Method and apparatus for training language model | |
US9552549B1 (en) | Ranking approach to train deep neural nets for multilabel image annotation | |
CN108536679A (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN110457675A (zh) | 预测模型训练方法、装置、存储介质及计算机设备 | |
EP3144860A2 (en) | Subject estimation system for estimating subject of dialog | |
CN107491547A (zh) | 基于人工智能的搜索方法和装置 | |
CN107133202A (zh) | 基于人工智能的文本校验方法和装置 | |
CN110472229A (zh) | 序列标注模型训练方法、电子病历处理方法及相关装置 | |
CN109726396A (zh) | 问答文本的语义匹配方法、装置、介质及电子设备 | |
CN108170749A (zh) | 基于人工智能的对话方法、装置及计算机可读介质 | |
CN107729300A (zh) | 文本相似度的处理方法、装置、设备和计算机存储介质 | |
CN110110062A (zh) | 机器智能问答方法、装置与电子设备 | |
CN104765996B (zh) | 声纹密码认证方法及系统 | |
CN110457682A (zh) | 电子病历词性标注方法、模型训练方法及相关装置 | |
CN111414746B (zh) | 一种匹配语句确定方法、装置、设备及存储介质 | |
CN107590127A (zh) | 一种题库知识点自动标注方法及系统 | |
CN109817201A (zh) | 一种语言学习方法、装置、电子设备及可读存储介质 | |
CN108735199A (zh) | 一种声学模型的自适应训练方法及系统 | |
CN109766557A (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
CN107437111A (zh) | 基于神经网络的数据处理方法、介质、装置和计算设备 | |
CN110211571A (zh) | 错句检测方法、装置及计算机可读存储介质 | |
CN110489727B (zh) | 人名识别方法及相关装置 | |
CN110264996A (zh) | 语音标注质量确定方法、装置、设备及计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |