CN107615376B - 声音识别装置及计算机程序记录介质 - Google Patents

声音识别装置及计算机程序记录介质 Download PDF

Info

Publication number
CN107615376B
CN107615376B CN201680029440.7A CN201680029440A CN107615376B CN 107615376 B CN107615376 B CN 107615376B CN 201680029440 A CN201680029440 A CN 201680029440A CN 107615376 B CN107615376 B CN 107615376B
Authority
CN
China
Prior art keywords
voice recognition
sequence
probability
posterior probability
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201680029440.7A
Other languages
English (en)
Other versions
CN107615376A (zh
Inventor
神田直之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Research Institute For Research In Human Communication
Original Assignee
National Research Institute For Research In Human Communication
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Research Institute For Research In Human Communication filed Critical National Research Institute For Research In Human Communication
Publication of CN107615376A publication Critical patent/CN107615376A/zh
Application granted granted Critical
Publication of CN107615376B publication Critical patent/CN107615376B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

提供能有效利用神经网络的特性来提高识别精度的声音识别装置。声音识别装置包含:基于RNN(循环神经网络)的声学模型(308),其按每个状态序列算出给出由从声音信号得到的给定的声音特征量构成的观测序列时的状态序列的后验概率;基于S‑1HCLG的WFST(320),其针对各单词串算出给出状态序列时的单词串的后验概率;和假设选择部(322),其使用针对输入观测序列由声学模型(308)以及WFST(320)分别算出的后验概率,基于按与声音信号对应的单词串的每个假设算出的评分来进行针对声音信号的声音识别。

Description

声音识别装置及计算机程序记录介质
技术领域
本发明涉及声音识别装置,特别涉及使用神经网络来进行高精度的声音识别的声音识别装置及其计算机程序。
背景技术
使用基于声音的输入输出来作为人与计算机的接口的装置以及服务不断增加。例如在便携式电话的操作中也利用了基于声音的输入输出。在基于声音的输入输出中,需要尽可能提高构成其基础的声音识别装置的识别精度。
作为声音识别,一般的技术使用通过统计学上的机器学习而得到的模型。例如作为声学模型而使用HMM(隐马尔可夫模型)。另外,还使用:用于算出在声音识别的过程中生成的字符串能以何种程度的概率从HMM 的状态串中得到的单词发声辞典;以及用于算出某语言的单词串以何种程度的概率出现的语言模型等。
为了进行这样的处理,现有的声音识别装置包含:帧化处理部,其将声音信号帧化;特征量生成部,其从各帧算出梅尔频率倒谱系数等特征量,生成多维的特征量矢量的序列;和解码器,其使用该特征量矢量的序列,输出用声学模型和语言模型给出该特征量矢量的序列的似然性最高的单词串,作为声音识别结果。在似然性计算中,来自构成声学模型的HMM 的各状态的输出概率和状态过渡概率起到重要作用。这些都能通过机器学习而得到。输出概率用通过学习得到的高斯混合模型算出。
参考图1来说明现有的声音识别装置中的声音识别的基本思路。过去,认为单词串30(单词串W)会历经各种噪声的影响而作为观测序列36(观测序列X)被观测到,并输出给出最终的观测序列X的似然性最高那样的单词串作为声音识别的结果。在该过程中,用P(W)表征生成单词串W 的概率。将从该单词串W起经过中间生成物即发声串32而生成HMM的状态序列S(状态序列34)的概率设为P(S|W)。进而,将从状态序列S 得到观测X的概率用P(X|S)表征。
在声音识别的过程中,如图2的第1式所示那样,在给出开头到时刻 T的观测序列X1:T时,将给出这样的观测序列的似然性成为最大那样的单词串作为声音识别的结果输出。即,声音识别的结果的单词串~W通过下式求取。另外,数学表达式中标记在字符的正上方的记号“~”在说明书中记载于紧挨字符之前的地方。
[数学表达式1]
Figure BDA0001476052300000021
若将该式右边通过贝叶斯式变形,则得到如下数学表达式。
[数学表达式2]
Figure BDA0001476052300000022
进而,该式的分子的第1项目能通过HMM如下那样求取。
[数学表达式3]
Figure BDA0001476052300000025
在该式中,状态序列S1:T表示HMM的状态序列S1、...、ST。式(3) 的右边的第1项表示HMM的输出概率。利用式(1)~式(3),声音识别的结果的单词串~W由下式求取。
[数学表达式4]
Figure BDA0001476052300000023
在HMM中,时刻t下的观测值xt仅依赖于状态st。因此,式(4)中的HMM的输出概率P(X1:T|S1:T)能通过下式算出。
[数学表达式5]
Figure BDA0001476052300000024
概率P(xt|st)通过高斯混合模型(GMM)算出。
式(4)的其他项当中的P(S1:T|W)通过HMM的状态过渡概率与单词的发声概率之积算出,P(W)通过语言模型算出。分母的P(X1:T)是对于各假设都共同的值,因此在arg max运算的执行时能够忽视。
最近,研究了不是通过GMM而是通过深度神经网络(DNN)算出 HMM中的输出概率这样被称作DNN-HMM混合方式的框架。通过 DNN-HMM混合方式达成了比利用GMM的声学模型高的精度,因而受到关注。这时,原本是DNN的输出表征后验概率P(St|Xt),因此并不直接适合于利用了使用输出概率P(Xt|St)的HMM的现有的机制。为了解决该问题,对DNN输出的后验概率P(St|Xt)应用贝叶斯法则,变形成使用输出概率P(Xt|St)的形式来使用。
现有技术文献
非专利文献
非专利文献1:C.Weng,D.Yu,S.Watanabe,and B.-H.F.Juang,“Recurrent deepneural networks for robust speech recognition,”in Acoustics,Speech and SignalProcessing(ICAS SP),2014IEEE International Conference on.IEEE,2014,pp.5532-5536.
发明内容
发明要解决的课题
最近,作为应用于声学模型的神经网络,循环神经网络(RNN)受到关注。所谓RNN,是如下结构的神经网络:不仅包含从输入层侧向输出层侧的一个方向的节点间的结合,还包含了从输出侧的层向相邻的输入侧的层的节点间的结合、相同层内的节点间的结合、以及自回归结合等。由于该结构,RNN具备了能表征依赖于时间的信息这样的通常的神经网络中没有的特性。声音是典型的作为依赖于时间的信息。因此,认为RNN 适于声学模型。
但是,在现有的研究中,利用RNN的声音识别装置的性能不太高。在非专利文献1中,报告了通过用将误差逆传播法改良后的学习方法进行学习的RNN,使用Sigmoid型判别函数,相比过去得到4~7%的精度的提高。但是,非专利文献1公开的RNN的性能提高是与更小规模的DNN之间的比较,在与相同程度规模的DNN的比较中能得到怎样的结果,并不明确。另一方面,若并不限于RNN,对DNN也能用同样的手法来提高精度,则更加优选。
因此,本发明的目的在于,提供一种能有效利用神经网络的特性来提高声音识别精度的声音识别装置。
用于解决课题的手段
本发明的第1局面所涉及的声音识别装置包含:第1后验概率算出单元,其按每个状态序列算出给出由从声音信号得到的给定的声音特征量构成的观测序列时的状态序列的后验概率;第2后验概率算出单元,其针对各单词串算出给出状态序列时的单词串的后验概率;和用于以下处理的单元,即,使用针对输入观测序列由第1后验概率算出单元以及第2后验概率算出单元分别算出的后验概率,基于按与声音信号对应的单词串的每个假设算出的评分来进行针对声音信号的声音识别。
也可以,第2后验概率算出单元包含用于以下处理的单元,即,根据基于语言模型的单词串的发生概率、构成声学模型的HMM的状态过渡概率、和由第1后验概率算出单元算出的状态序列的发生概率,针对与声音信号对应的单词串的各假设算出后验概率。
优选地,构成状态序列的各状态是构成声学模型的HMM的状态。
更优选地,第1后验概率算出单元包含:神经网络,其是将观测序列作为输入并算出产生该观测序列的状态的后验概率那样的学习完毕的神经网络;和第1概率算出单元,其用于通过利用神经网络算出的后验概率的序列算出状态序列所发生的概率。
进一步优选地,神经网络是RNN或DNN。
本发明的第2局面所涉及的计算机程序使计算机作为上述任意的声音识别装置的全部单元起作用。
附图说明
图1是表示现有的声音识别的思路的图。
图2是表示构成现有的声音识别的基础的数学表达式的图。
图3是示意表示通常的DNN的构成的图。
图4是示意表示RNN的构成和不同时刻的RNN的节点间的结合的示例的图。
图5是表示本发明的1个实施方式中的声音识别的思路的图。
图6是表示构成本发明的1个实施方式中的声音识别的基础的数学表达式的图。
图7是表示本发明的1个实施方式所涉及的声音识别装置的构成的框图。
图8是表示实现本发明的1个实施方式所涉及的声音识别装置的计算机的外观的图。
图9是表示图8所示的计算机的硬件构成的框图。
具体实施方式
在以下的说明以及附图中,对同一部件标注同一参考编号。因此,不再重复对它们的详细说明。
最初,说明DNN与RNN的不同。参考图3,DNN70包含输入层72 以及输出层78、和设置于输入层72与输出层78之间的多个隐含层74以及76。在该示例中,隐含层仅示出2层,但隐含层的数量并不限定于2。各层具有多个节点。在图3中,各层中的节点数都是5个,是相同的,但它们的数量通常各种各样。相邻的节点间相互结合。但是,数据仅从输入层侧向输出层侧在一个方向上流动。对各结合分配权重以及偏置。这些权重以及偏置通过使用了学习数据的误差逆传播法来学习。
在DNN70中,若在时刻t对输入层72给出时刻t下的声音特征量Xt,就从输出层78输出状态预测值St。在声学模型的情况下,输出层78的节点数大多设计成与成为对象的语言的音素的数量一致,在该情况下,各节点表示所输入的声音特征量是该节点所表征的音素的概率。因此,若将输出层78的各节点输出的状态预测值相加,则成为1。
另一方面,图4示出RNN的构成的示例。图4表示时刻t-1下的 RNN100(t-1)、时刻t下的RNN100(t)、和时刻t+1下的RNN(t+1) 之间的关系。在该示例中,RNN100(t)的隐含层内的各节点不仅接受输入层的各节点的输出,还接受RNN100(t-1)的自己本身的输出。即,RNN100能生成针对所输入的声音特征量的时间序列的输出。
通过DNN求得的是P(St|Xt)。即,是在时刻t观测特征量Xt时的 HMM的状态St的概率。HMM的状态St与音素对应。另一方面,通过RNN 求得的是P(St|X1,...,Xt)。即,是观测观测序列X1:t时的HMM的状态St的概率。
若将其与式(5)比较,则可知,在DNN的情况下,不能将该输出直接应用到式(5)中。因此,过去如以下所示那样使用贝叶斯法则将DNN 的输出变换成P(Xt|St)。
[数学表达式6]
Figure BDA0001476052300000061
在式(6)中,P(xt)在各HMM的状态中是共同的,因此在arg max 运算中能够忽视。P(st)能通过在被校准后的学习数据中数出各状态的数量来估计。
结果是,在DNN-HMM混合方式的情况下,通过用DNN的输出P (St|Xt)除以概率P(St),从而在现有的利用HMM的机制中使用DNN 来计算识别评分。
另一方面,若取代DNN而利用RNN,就能将声音的时间序列的信息有效利用于声音识别中,能期待提高精度。但是,已知,在现有的DNN-HMM混合方式中单纯将DNN置换成RNN的尝试除了一部分以外,其他都只能带来比DNN精度低的结果。虽然也有非专利文献1那样相比利用DNN的情况提高了精度的报告,但是与比RNN规模小的DNN 进行比较等,由于使用了RNN,因此不能实现精度变高。如此,在RNN 中精度不能变高被认为是出于以下那样的理由。
给出观测序列X1:t的情况下的RNN的输出成为与状态相关的后验概率P(St|X1:t)。若与DNN-HMM混合方式同样地用该输出除以概率P (St),则如下式(7)所示那样,求得的不是本来需要的P(Xt|St)(由上述式(6)的左边表征),而是P(X1:t|St)。
[数学表达式7]
Figure BDA0001476052300000071
P(X1:t|St)由于并不与P(Xt|St)成正比,因此不能用在式(5)中。这是因为在时刻t下的状态St与这以前的观测序列X1:t之间存在强的依赖关系。该评分本身包含丰富的信息,但在HMM的机制中无法很好地处理。
出于这样的原因,在RNN的情况下,认为即使要在与DNN-HMM 混合方式相同的机制下计算评分,精度也会变低。
因此,为了有效利用RNN的特征来进行精度高的声音识别,需要使用DNN-HMM混合方式以外的机制。图5示出这样的新的机制。本实施方式涉及按照该机制进行声音识别的装置。如前述那样,RNN的输出是后验概率P(St|X1:t)。在本实施方式中,采用有效利用这样的RNN的特性来进行声音识别的思路。
参考图5,在本实施方式中,从观测序列36(观测序列X)中求取状态序列34的概率,进而从各状态串34经过发声串32求取单词串W30的概率,最终输出概率成为最大的单词串W30作为声音识别结果。从观测序列36(观测序列X1:T)得到状态序列S1:T的概率是P(S1:T|X1:T),从状态序列S1:T得到单词串W的概率是P(W|S1:T)。即,通过图6中也示出的以下式子得到针对观测序列X1:T的声音识别结果的单词串~W。
[数学表达式8]
Figure BDA0001476052300000072
该式子的前半部分意味着通过求取在观测特征量X1:T时成为概率最大的单词串~W来进行声音识别。式子的后半部分意味着单词串W的概率P(W|X1:T)用从特征量X生成状态序列S1:T的概率P(S1:T|X1:T)与从状态序列S1:T生成单词串W的概率P(W|S1:T)之积求得。
在该式中,图6中以参考标号122示出的项目即P(W|S1:T)能通过以下的式(8)计算。
[数学表达式9]
Figure BDA0001476052300000081
式(8)当中的分子是在现有的手法的式(4)中也出现的式子,能与过去同样计算。分母是状态序列S1:T的语言概率,能通过下式(9)进行近似。若使用该式,P(S1:T)就能使用N元语言模型计算。
[数学表达式10]
Figure BDA0001476052300000082
另一方面,由图6的参考标号120示出的项目即P(S1:T|X1:T)能如下那样进行近似。
[数学表达式11]
Figure BDA0001476052300000083
上式的前半部分遵循贝叶斯法则严格成立。后半部分的近似设想了状态St不依赖于未来的观测序列X(t+1):T。虽然通常不能这样进行近似,但若以观测值Xt中充分反映了未来的观测序列这点为前提,该近似就成立。因此,在该概率的学习时,利用将包含成为对象的时间点之后的时间点的矢量的连续的特征量矢量(例如对象时间点的矢量和其前后的矢量)衔接在一起而生成的大的特征量矢量,或者将附加在观测序列的标签向后错开。在本实施方式中,使用将对象时间点的矢量与其前后的矢量结合后得到的矢量,进而使用将标签向后错开的矢量。
该最后的式子能进一步如下那样进行近似。
[数学表达式12]
Figure BDA0001476052300000084
在该变形中,设想了后验概率P(St|S1:t-1,X1:t)能以RNN输出的概率P(St|X1:t)充分近似。这不一定非要以St和S1:t-1是独立的这点为前提。即使在两者之间存在强的依赖关系,RNN只要有足以从观测序列X1:t算出状态St的能力,该近似就成立。实际上,若在理论上考虑,该近似是非常粗略的近似,但如后述那样,在模拟中,能通过该方法提高声音识别的精度。
若将图6所示的式子和式(8)~式(10)综合,则结果是,在现有方法中,如式(6)所示那样,在各时刻进行用各时刻t下的DNN的输出除以概率P(St),来算出识别评分,与此相对,在本实施方式所涉及的手法中,如下式(12)所示那样,通过用关于某假设的RNN的输出(的积)除以概率P(S1:t)来算出假设的识别评分。
[数学表达式13]
Figure BDA0001476052300000091
即,使用用RNN的输出除以P(S1:T)而得到的值来算出各假设的识别评分。在式(12)中,RNN的输出在各时间点得到,但其他值全都能基于事前的学习算出。在该计算中直接使用RNN的输出,不需要如现有的DNN-HMM混合方式那样强制将DNN的输出变换成HMM的输出形式。将这样的方式在这里称作直接解码方式。
另外,还能取代基于式(9)的近似而采用其他近似。例如还能使用如下那样粗略的近似。
[数学表达式14]
Figure BDA0001476052300000092
或者还能使用如下那样的近似。
[数学表达式15]
Figure BDA0001476052300000093
其他还考虑各种近似的方法。
本实施方式所涉及的声音识别装置如上述那样将RNN作为声学模型利用,采用使用了其输出的直接解码方式。
参考图7,本实施方式所涉及的声音识别装置280具备进行针对输入声音282的声音识别并将其输出为声音识别文本284的功能。声音识别装置280包含:A/D变换电路300,其对输入声音282进行模拟/数字(A/D) 变换并输出为数字信号;帧化处理部302,其将A/D变换电路300输出的数字化的声音信号帧化,以给定长度以及给定移位量重复一部分地进行帧化;和特征量提取部304,其通过对帧化处理部302输出的各帧进行给定的声学处理来提取该帧的声音特征量,并输出特征量矢量。在各帧以及特征量矢量中附加输入声音282的例如相对于开头的相对时刻等信息。作为特征量而使用MFCC(Mel-Frequency CepstrumCoefficient:梅尔频率倒谱系数)、其一次微分、二次微分、以及功率等。
声音识别装置280还包含:特征量存储部306,其用于临时存储特征量提取部304输出的特征量矢量;声学模型308,其由RNN构成,将存储于特征量存储部306的特征量矢量作为输入,输出按每个音素表示各时刻下的各帧与某音素对应的后验概率的矢量;和解码器310,其用于使用声学模型308输出的矢量,通过WFST(加权有限状态转换机)输出作为与输入声音282对应的声音识别文本284概率最高的单词串,且基于如后述那样在本说明书中命名为S-1HCLG的WFST。采用由RNN构成的声学模型308这一点和作为声音识别解码器而使用遵循直接解码方式预先构成的WFST这一点与以往不同。
声音识别解码器310包含:WFST320,其基于S-1HCLG,使用利用声学模型算出的状态序列的后验概率来算出多个假设(单词串)发生的概率,并作为识别评分输出;和假设选择部322,其基于利用WFST320算出的识别评分来输出概率最高的假设作为声音识别文本284。
基于WFST的声音识别如以下那样。作为状态过渡机的模型,已知有限自动机。有限自动机是形成计算理论的基础的概念,作为其一种而有:对所输入的记号串进行基于预先确定的规则的状态过渡,根据状态过渡的结果来决定是否受理所输入的记号串。WFST从这样的自动机派生而来,是受理某记号串来进行状态过渡且同时输出其他记号串的变换机。WFST 能表征为由节点和连结节点间的弧构成的图表。节点表征状态,弧表征状态过渡。对各弧赋予输入记号和输出记号。能通过对各弧进一步附加权重来表征概率这样的概念。通过从根节点顺着各弧前进来生成假设,通过与分配给这些弧的权重(概率)相乘,从而能计算该假设的发生概率。
在声音识别中使用各种模型。HMM、单词发声辞典以及语言模型都能以WFST表征。进而,近年来,为了表征音素的上下文关系而利用基于音素单位的三音素HMM,这也能以WFST表征。单词发声辞典是将音素串变换成单词串的WFST,为了求取词汇而使用。语言模型例如是三元的语言模型,是输出输入单词串和同一输出单词串的WFST,表征语言的语法。
在WFST中存在合成这样的运算。通过将2个WFST合成,能用1 次合成后WFST进行阶段性应用2个WFST的处理。因此,能将上述的 HMM、单词发声辞典、语言模型以及三音素HMM的WFST的组合合成来做出1个WFST。解码器310是使用如此预先进行学习而合成的WFST 的解码器。这里使用的WFST是由与语言相关的知识预先构建的图表,使用被称作HCLG的知识源。HCLG是4个WFST(H,C,L,G)的合成。分别是,H表征HMM,C表征上下文关系,L表征词汇,G表征语法。本实施方式的声音识别解码器的WFST进一步合成嵌入了用于进行上述的基于P(S1:T)的除法计算(P(S1:T)-1)的WFST。该WFST是从HMM 的状态序列向HMM的状态序列的WFST,对各弧赋予对P(S1:T)-1进行近似的P(St|S(t-N+1):(t-1))-1。因此,将该WFST在这里简记为“S- 1HCLG”。
构成本实施方式所涉及的声学模型308的RNN的输入层的节点的数量与特征量矢量的要素的数量一致。RNN的输出层的节点的数量与以声音识别装置280所处理的语言来设想的音素的数量一致。即,各节点表征基于HMM的声学模型的各状态。对输出层的各节点输出在某时刻输入的声音是该节点所表征的音素的概率。因此,声学模型308的输出是以该时刻下的输入声音是各节点所表征的音素的概率为要素的矢量。
基于S-1HCLG的解码器310利用基于所述S-1HCLG的WFST320针对声学模型308输出的矢量的各要素进行音素串的概率计算,一边适当地进行剪枝一边顺着WFST的图表前进,由此来进行包含假设和概率计算的识别评分的计算。假设选择部322最终输出识别评分最高的(发生概率高的) 单词串作为声音识别文本284。这时,WFST320一边直接使用RNN的输出一边计算识别评分。不需要如现有的DNN-HMM框架那样配合HMM 的输出形式来对RNN的输出进行变换,能提高识别的效率。
[实验1]
为了确认上述实施方式所涉及的利用RNN的直接解码方式的效果,针对利用DNN的现有方式、利用RNN的现有方式、以及上述实施方式所涉及的利用RNN的直接解码方式使用相同的学习数据进行学习,使用相同的测试数据来调查单词错误率。将其结果在以下的表格1中示出。
[表1]
Figure BDA0001476052300000121
如从表格1所明确的那样,若使用上述实施方式的直接解码方式,在参数数量7M的RNN中也会发挥参数数量35M的现有手法以上的性能。另外,在利用RNN的直接解码方式中,还可知至少在实验的范围中,通过增加参数数量而提高了识别性能。
[实施方式的效果]
上述实施方式涉及取代DNN-HMM混合方式而利用RNN的直接解码方式的声音识别装置。根据实验结果可知,直接解码方式的声音识别手法以比DNN-HMM混合方式小的构成示出同等以上的性能。
[基于计算机的实现]
本发明的实施方式所涉及的声音识别装置280能通过计算机硬件和在该计算机硬件上执行的计算机程序来实现。图8表示该计算机系统330的外观,图9表示计算机系统330的内部构成。
参考图8,该计算机系统330包括:具有存储器端口352以及DVD (DigitalVersatile Disc,数字多功能盘)驱动器350的计算机340、键盘 346、鼠标348、和监视器342。
参考图9,计算机340除了存储器端口352以及DVD驱动器350以外,还具备:CPU(中央处理装置)356;与CPU356、存储器端口352以及DVD驱动器350连接的总线366;存储引导程序等的读出专用存储器 (ROM)358;与总线366连接并存储程序命令、系统程序以及作业数据等的随机存取存储器(RAM)360;和硬盘354。计算机系统330还包含提供向能与其他终端通信的网络368连接的网络接口(I/F)344。
用于使计算机系统330作为上述的实施方式所涉及的声音识别装置 280的各功能部起作用的计算机程序存储在安装于DVD驱动器350或存储器端口352的DVD362或可移动存储器364中,进而被转发给硬盘354。或者,程序也可以经过网络368发送到计算机340,并存储到硬盘354。程序在执行时被载入到RAM360。也可以从DVD362、从可移动存储器364 或经过网络368直接将程序载入到RAM360。
该程序包含由用于使计算机340作为上述实施方式所涉及的声音识别装置280的各功能部起作用的多个命令构成的命令串。使计算机340进行该动作所需的基本的功能中的几个通过在计算机340上动作的操作系统或第三方的程序或安装在计算机340的可动态链接的各种编程工具包或程序库提供。因此,该程序本身不一定非要包含实现本实施方式的系统、装置以及方法所需的全部功能。该程序通过以命令当中的被控制成能得到期望的结果的做法在执行时动态调用合适的功能或编程工具包或程序库内的合适的程序,从而仅包含实现作为上述的系统、装置或方法的功能的命令即可。当然,也可以仅用程序来提供全部所需的功能。
本次公开的实施方式仅是例示,本发明并不仅限制在上述的实施方式。本发明的范围在参酌发明的详细的说明的记载的基础上由权利要求书的各项权利要求示出,包含与其中所记载的语句等同的意义以及范围内的全部变更。
产业上的可利用性
本发明能利用在使用RNN的人工智能的构建以及动作中,特别能利用在高精度地提供声音识别等复杂的功能的装置的制造产业以及提供利用这样的功能的服务的产业中。
标号的说明
30 单词串
32 发声串
34 状态序列
36 观测序列
70 DNN
72 输入层
74、76 隐含层
78 输出层
100 RNN
280 声音识别装置
282 输入声音
284 声音识别文本
300 A/D变换电路
302 帧化处理部
304 特征量提取部
306 特征量存储部
308 声学模型
310 解码器
320 基于S-1HCLG的WFST
330 计算机系统
340 计算机
354 硬盘
356 CPU
358 ROM
360 RAM。

Claims (6)

1.一种声音识别装置,包含:
第1后验概率算出单元,其按每个状态序列算出给出由从声音信号得到的给定的声音特征量构成的观测序列时的状态序列的后验概率;
第2后验概率算出单元,其针对各单词串算出给出状态序列时的单词串的后验概率;和
用于以下处理的单元,即,使用针对输入观测序列由所述第1后验概率算出单元以及所述第2后验概率算出单元分别算出的后验概率,基于按与所述声音信号对应的单词串的每个假设算出的评分来进行针对所述声音信号的声音识别。
2.根据权利要求1所述的声音识别装置,其中,
所述第2后验概率算出单元包含:
用于以下处理的单元,即,根据基于语言模型的单词串的发生概率、构成声学模型的隐马尔可夫模型的状态过渡概率、和由所述第1后验概率算出单元算出的状态序列的发生概率,针对与所述声音信号对应的单词串的各假设算出后验概率。
3.根据权利要求1或2所述的声音识别装置,其中,
所述状态序列的各状态是构成声学模型的隐马尔可夫模型的状态。
4.根据权利要求1或2所述的声音识别装置,其中,
所述第1后验概率算出单元包含:
神经网络,其是将所述观测序列作为输入并算出产生该观测序列的状态的后验概率那样的学习完毕的神经网络;和
第1概率算出单元,其用于通过利用所述神经网络算出的后验概率的序列算出产生所述状态序列的概率。
5.根据权利要求4所述的声音识别装置,其中,
所述神经网络是循环神经网络。
6.一种记录介质,存储有使计算机作为权利要求1~5任一项所述的全部单元起作用的计算机程序。
CN201680029440.7A 2015-05-22 2016-05-10 声音识别装置及计算机程序记录介质 Expired - Fee Related CN107615376B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015-104336 2015-05-22
JP2015104336A JP6614639B2 (ja) 2015-05-22 2015-05-22 音声認識装置及びコンピュータプログラム
PCT/JP2016/063818 WO2016190077A1 (ja) 2015-05-22 2016-05-10 音声認識装置及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
CN107615376A CN107615376A (zh) 2018-01-19
CN107615376B true CN107615376B (zh) 2021-05-25

Family

ID=57393215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680029440.7A Expired - Fee Related CN107615376B (zh) 2015-05-22 2016-05-10 声音识别装置及计算机程序记录介质

Country Status (5)

Country Link
US (1) US10607602B2 (zh)
EP (1) EP3300075A4 (zh)
JP (1) JP6614639B2 (zh)
CN (1) CN107615376B (zh)
WO (1) WO2016190077A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6614639B2 (ja) 2015-05-22 2019-12-04 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
US10229672B1 (en) * 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
JP6727607B2 (ja) 2016-06-09 2020-07-22 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
KR20180080446A (ko) * 2017-01-04 2018-07-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
JP6728083B2 (ja) * 2017-02-08 2020-07-22 日本電信電話株式会社 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム
US11024302B2 (en) * 2017-03-14 2021-06-01 Texas Instruments Incorporated Quality feedback on user-recorded keywords for automatic speech recognition systems
JP6699945B2 (ja) * 2017-04-17 2020-05-27 日本電信電話株式会社 音響モデル学習装置、その方法、及びプログラム
JP6789455B2 (ja) * 2018-08-24 2020-11-25 三菱電機株式会社 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム
JP7063779B2 (ja) * 2018-08-31 2022-05-09 国立大学法人京都大学 音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法
US11694062B2 (en) 2018-09-27 2023-07-04 Nec Corporation Recurrent neural networks having a probabilistic state component and state machines extracted from the recurrent neural networks
TWI698857B (zh) * 2018-11-21 2020-07-11 財團法人工業技術研究院 語音辨識系統及其方法、與電腦程式產品
US11869529B2 (en) 2018-12-26 2024-01-09 Nippon Telegraph And Telephone Corporation Speaking rhythm transformation apparatus, model learning apparatus, methods therefor, and program
CN113707135B (zh) * 2021-10-27 2021-12-31 成都启英泰伦科技有限公司 一种高精度连续语音识别的声学模型训练方法
CN114267337B (zh) * 2022-03-02 2022-07-19 合肥讯飞数码科技有限公司 一种语音识别系统及实现前向运算的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411931A (zh) * 2010-09-15 2012-04-11 微软公司 用于大词汇量连续语音识别的深度信任网络
US8442821B1 (en) * 2012-07-27 2013-05-14 Google Inc. Multi-frame prediction for hybrid neural network/hidden Markov models
CN103578464A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
US20150039301A1 (en) * 2013-07-31 2015-02-05 Google Inc. Speech recognition using neural networks
CN104575490A (zh) * 2014-12-30 2015-04-29 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2996926B2 (ja) * 1997-03-11 2000-01-11 株式会社エイ・ティ・アール音声翻訳通信研究所 音素シンボルの事後確率演算装置及び音声認識装置
US6397179B2 (en) * 1997-12-24 2002-05-28 Nortel Networks Limited Search optimization system and method for continuous speech recognition
JP2009080309A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体
US9431008B2 (en) * 2013-05-29 2016-08-30 Nuance Communications, Inc. Multiple parallel dialogs in smart phone applications
US10867597B2 (en) * 2013-09-02 2020-12-15 Microsoft Technology Licensing, Llc Assignment of semantic labels to a sequence of words using neural network architectures
US9412365B2 (en) * 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9378731B2 (en) * 2014-09-25 2016-06-28 Google Inc. Acoustic model training corpus selection
US9824684B2 (en) * 2014-11-13 2017-11-21 Microsoft Technology Licensing, Llc Prediction-based sequence recognition
JP6628350B2 (ja) * 2015-05-11 2020-01-08 国立研究開発法人情報通信研究機構 リカレント型ニューラルネットワークの学習方法及びそのためのコンピュータプログラム、並びに音声認識装置
JP6614639B2 (ja) 2015-05-22 2019-12-04 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
KR102371188B1 (ko) 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411931A (zh) * 2010-09-15 2012-04-11 微软公司 用于大词汇量连续语音识别的深度信任网络
US8442821B1 (en) * 2012-07-27 2013-05-14 Google Inc. Multi-frame prediction for hybrid neural network/hidden Markov models
US20150039301A1 (en) * 2013-07-31 2015-02-05 Google Inc. Speech recognition using neural networks
CN103578464A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
CN104575490A (zh) * 2014-12-30 2015-04-29 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition;George E. Dahl etc.;《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》;20120131;第20卷(第1期);30-42 *
Integrating Deep Neural Networks into Structured Classification Approach based on Weighted Finite-State Transducers;Yotaro Kubo etc.;《INTERSPEECH 2012 ISCA"s 13th Annual Conference》;20120913;2594-2597 *
Towards End-to-End Speech Recognition with Recurrent Neural Networks;Alex Graves etc.;《Proceedings of the 31st International Conference on Machine Learning》;20141231 *

Also Published As

Publication number Publication date
CN107615376A (zh) 2018-01-19
WO2016190077A1 (ja) 2016-12-01
US10607602B2 (en) 2020-03-31
EP3300075A1 (en) 2018-03-28
JP6614639B2 (ja) 2019-12-04
EP3300075A4 (en) 2019-01-02
JP2016218309A (ja) 2016-12-22
US20180204566A1 (en) 2018-07-19

Similar Documents

Publication Publication Date Title
CN107615376B (zh) 声音识别装置及计算机程序记录介质
JP6727607B2 (ja) 音声認識装置及びコンピュータプログラム
US8762142B2 (en) Multi-stage speech recognition apparatus and method
US8301445B2 (en) Speech recognition based on a multilingual acoustic model
JP6293912B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP6884946B2 (ja) 音響モデルの学習装置及びそのためのコンピュータプログラム
Tokuda et al. Temporal modeling in neural network based statistical parametric speech synthesis.
AU2018271242A1 (en) Method and system for real-time keyword spotting for speech analytics
Williams Knowing what you don't know: roles for confidence measures in automatic speech recognition
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP4861912B2 (ja) 知識源を組込むための確率計算装置及びコンピュータプログラム
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP2005156593A (ja) 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
JP7469015B2 (ja) 学習装置、音声合成装置及びプログラム
WO2023157066A1 (ja) 音声合成学習方法、音声合成方法、音声合成学習装置、音声合成装置及びプログラム
JP2018013721A (ja) 音声合成パラメータ生成装置及びそのためのコンピュータプログラム
Kumar et al. Speech Recognition Using Hmm and Combinations: A Review
GUANGSEN Context-Dependent Acoustic Modelling for Speech Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210525