CN101622660A - 语音识别装置、语音识别方法及语音识别程序 - Google Patents

语音识别装置、语音识别方法及语音识别程序 Download PDF

Info

Publication number
CN101622660A
CN101622660A CN200880006579A CN200880006579A CN101622660A CN 101622660 A CN101622660 A CN 101622660A CN 200880006579 A CN200880006579 A CN 200880006579A CN 200880006579 A CN200880006579 A CN 200880006579A CN 101622660 A CN101622660 A CN 101622660A
Authority
CN
China
Prior art keywords
detail
level
model
speech
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200880006579A
Other languages
English (en)
Inventor
荒川隆行
花泽健
辻川刚范
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN101622660A publication Critical patent/CN101622660A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明提供一种语音识别装置、语音识别方法及语音识别程序。本发明的目的在于能够利用较少的计算成本且利用使识别精度高的适当参数进行语音识别。语音模型存储部(7)预先存储具有表现语音特征性质的多个详细度的语音模型。详细度判断部(9)在语音模型存储部(7)存储的语音模型具有的详细度中,选择与输入信号的特征性质最接近的详细度。并且,参数设定部(10)根据选择的详细度来控制语音识别相关的参数。通过该构成,在比较语音模型的较高的详细度和较低的详细度时,在较高的详细度一方对输入信号较为接近的情况下,利用计算成本较低的参数进行语音识别。相反,在较低的详细度的一方对输入信号较为接近的情况下,利用使精度更高的参数进行语音识别。

Description

语音识别装置、语音识别方法及语音识别程序
技术领域
【0001】
本发明主张在先的日本专利申请2007-048898号(2007年2月28日申请)的优先权,所述在先申请的全部记载内容被认为在本说明书中通过引用而编入记载。
本发明涉及一种识别语音的语音识别装置、语音识别方法及语音识别程序,特别是涉及一种通过判断音响特性来控制语音识别相关的参数从而用较少的计算成本就能提高语音识别的识别精度的语音识别装置、语音识别方法及语音识别程序。
背景技术
【0002】
一般,利用语音识别装置来进行:对输入的语音进行语音识别并变换为文本(text)等加以利用。作为以往的语音识别装置,例如在专利文献1中记载了如下的装置:不增加计算成本,抑制对正解剪枝,从而以较高的识别精度进行语音识别。另外,例如在非专利文献1中记载了一般的语音识别技术的手法及语音识别的实时技术。
【0003】
专利文献1:日本特开2001-75596号公告(段落0063~0070、图6~8)
非专利文献1:安藤彰男著、「リアルタイム音声認識」、電子情報通信学会、pp.28-p.143
【0004】
以上的专利文献1及非专利文献1的公开事项在本说明中通过引用而编入记载。以下给出本发明关联技术的分析。
图12是表示利用了非专利文献1中记载的语音识别技术的一般语音识别装置的构成例的框图。如图12所示,一般,语音识别装置包括:输入信号取得部91、特征量计算部92、音响模型93、语言模型94、网络搜索部95、和识别结果输出部96。
【0005】
输入信号取得部91将输入信号(语音信号)按每单位时间进行切分并取得(输入)。特征量计算部92根据输入信号取得部91输入的输入信号计算特性量。音响模型93预先存储音响模型。语言模型94预先存储语言模型。网络搜索部95基于用特征量计算部92计算的特征量、音响模型93存储的音响模型、及语言模型94存储的语言模型来搜索作为语音识别结果的单词串的候补。识别结果输出部96输出在网络搜索部中搜索到的单词串的候补。
【0006】
在图12示出的一般的语音识别装置中,在用网络搜索部95搜索单词串时,利用用特征量计算部92计算的特征量、存储在音响模型存储部93中的音响模型、及存储在语言模型存储部94中的语言模型。首先,网络搜索部95通过进行单词串的搜索处理求出公式(1)中所示似然度最高的单词串。
【0007】
【公式1】
ω ^ = ω 0 , . . . , ω m 式(1)
【0008】
此时,若利用在非专利文献1中公开的搜索(search)方法(参照非专利文献1的第6章),则在按照时间序列顺序给出输入信号x=x
0,...,x T时,网络搜索部95能够利用式(2)求出似然度最高的单词串。
【0009】
【公式2】
ω ^ = arg max { log P ( x | ω ) + λ log P ( ω ) } 式(2)
【0010】
其中,λ是被称为“语言权重”的参数。若增大该语言权重λ则着重于语言模型进行搜索,相反若减小该语言权重λ则着重于音响模型进行搜索。另外,P(x|ω)是利用音响模型求出的单词串ω相对于输入信号x的似然度,P(ω)是利用语言模型求出的单词串ω出现的概率。
【0011】
另外,式(2)中argmax意思是对于产生的全部单词串的组合求出似然度最高的单词串的运算。但是,由于在对全部单词串进行上述运算中需要非常多的计算成本,因此实际上进行单词串的候补(假想结果)的剪枝。在单词串的候补的剪枝中需要对假想结果数或似然度宽度等剪枝参数进行设定。
【0012】
在上述示出的一般语音识别装置中存在上述语言权重和上述剪枝参数等应设定的多个参数。在语音识别装置中通过控制这些参数能够变更计算成本或识别精度。
【0013】
另外,如果利用专利文献1中记载的语音识别装置则能够控制上述语音识别相关的参数。图13是表示专利文献1中记载的语音识别装置的构成例的框图。如图13所示,专利文献1中记载的语音识别装置具备:语音数据存储机构911、音响分析机构912、音响模型存储机构913、单词词典存储机构914、似然度运算机构915、剪枝机构916、识别结果输出机构917、简易音响模型存储机构921、简易音响模型概率运算机构922、位次变动计算机构923及语言权重变更机构931。
【0014】
语音数据存储机构911存储输入的语音。另外,音响分析机构912对语音数据存储机构911存储的语音数据进行音响分析并输出音响特征向量。再有,音响模型存储机构913存储各音素的音响模型。另外,单词词典存储机构914存储单词词典。再有,似然度运算机构915基于从音响分析机构912输出的音响特征向量、音响模型存储机构913存储的音响模型、及单词词典存储机构914存储的单词词典计算作为识别候补的假想结果的似然度。另外,剪枝机构916根据似然度运算机构915计算的假想结果的似然度求出最大似然度,并从求出的最大似然度中抛弃规定的束宽(beam width)以下的假想结果。并且,识别结果输出机构917将由剪枝机构916残留的假想结果作为识别候补输出。
【0015】
另外,在具备上述的构成要素的语音识别装置中,简易音响模型存储机构921存储各音素的简易的音响模型。再有,简易音响模型概率运算机构922基于从音响分析机构912输出的音响特征向量和简易音响模型存储机构921存储的简易的音响模型,来计算包括当前时刻在内的规定时间内的各时刻的各HMM状态的简易音响输出概率。另外,位次变动计算机构923求出简易音响模型概率运算机构922求出的各时刻的各HMM状态的简易音响输出概率的位次,计算包括当前时刻在内的规定时间内的各HMM状态的位次变动幅度,并计算HMM状态的位次变动幅度的平均值。并且,专利文献1中记载的语音识别装置基于位次变动计算机构923计算的位次变动幅度的平均值来调整语音识别相关的参数。
【0016】
且有,作为参数的例子,在图13中示出的专利文献1中记载的语音识别装置中,构成为:具备变更语言权重的语言权重变更机构931。
【0017】
通过上述的构成,在专利文献1中记载的语音识别装置中,在规定的计算成本中能够进行使识别精度最大的参数的控制。
【0018】
但是,在专利文献1中记载的语音识别装置的方法中,在位次变动计算机构923中需要求出包括关注时刻在内的长时间的平均值以便求出各HMM状态的位次变动。由此,存在发生为了求出最优参数而产生的处理延迟的问题。另外,在专利文献1中记载的语音识别装置的方法中,因为对简易音响模型和音响模型分别进行计算成本相关的似然度运算,所以存在计算成本未必减少的问题。
【0019】
如上述,作为利用了专利文献1或非专利文献1中记载的语音识别技术的语音识别系统(语音识别装置),具有以下的问题点。首先,作为第一问题点,在利用简易语音模型求出各HMM状态的位次变动来调整参数的语音识别方法中,因为为了求出位次变动而求出长时间的平均值,所以产生处理延迟的问题。另外,作为第二问题点,在利用简易语音模型求出各HMM状态的位次变动来调整参数的语音识别方法中,因为必须对简易音响模型进行多余的计算成本相关的似然度运算,所以存在计算成本增加的问题。
发明内容
【0020】
因此,本发明目的在于提供一种能够判断音响特性,并利用较少的计算成本且利用使识别精度高的适当的参数进行语音识别的语音识别装置、语音识别方法及语音识别程序。另外,本发明的目的在于提供一种通过考虑同一时刻的竞争候补的数目而能无处理延迟地设定适当参数的语音识别装置、语音识别方法及语音识别程序。再有,本发明的目的在于提供一种能够利用较少的运算量求出适当的参数的语音识别装置、语音识别方法及语音识别程序。
【0021】
基于本发明的第一观点,提供一种对输入的语音信号进行语音识别的语音识别装置,该语音识别装置具备:语音模型存储机构(例如,由语音模型存储部7实现),其预先存储具有多个详细度的规定语音模型,所述详细度是表示语音模型对应的语音的特征性质的信息;详细度选择机构(例如,由详细度判断部9实现),其在语音模型存储机构存储的语音模型具有的详细度中,选择与输入的语音信号的特征性质最接近的详细度;和参数设定机构(例如,由参数设定部10实现),其根据详细度选择机构选择的详细度,来设定用于对输入的语音进行语音识别的参数。
【0022】
另外,在上述的语音识别装置中,详细度选择机构也可以按每单位时间求出详细度,并选择与输入的语音信号的特征性质最接近的详细度。
【0023】
且有,在上述的语音识别装置中,详细度选择机构也可以历经多个单位时间对按每单位时间求出的详细度进行统计分析,并求出关注的单位时间的详细度。
【0024】
另外,上述的语音识别装置也可以具备距离计算机构(例如,由距离计算部8实现),该距离计算机构计算表示语音模型存储机构存储的语音模型与输入的语音信号的特征性质之差的距离信息;距离计算机构由详细度较低的距离信息至详细度更高的距离信息依次计算距离信息,或者由详细度较高的距离信息至详细度更低的距离信息依次计算距离信息;详细度选择机构求出使距离计算机构求出的距离信息成为极小的详细度。
【0025】
且有,在上述的语音识别装置中,语音模型存储机构也可以预先存储具有母子结构的语音模型。
【0026】
另外,上述的语音识别装置也可以具备:音响模型存储机构(例如,由音响模型存储部3实现),其预先存储规定的音响模型;和单词串搜索机构(例如,由网络搜索部5实现),其基于由参数设定机构设定的参数来搜索并提取单词串作为语音的识别结果;音响模型存储机构预先存储与语音模型存储机构存储的语音模型具有规定关联性的音响模型;单词串搜索机构利用语音模型和音响模型之间的关联性来搜索并提取单词串。
【0027】
且有,在上述的语音识别装置中,参数设定机构也可以根据详细度选择机构选择的详细度,来设定语言的加权、或用于进行规定的剪枝处理的剪枝参数中的至少一个。
【0028】
另外,上述的语音识别装置也可以具备:音响模型存储机构(例如,由音响模型存储部13实现),其预先存储多个规定的音响模型;语言模型存储机构(例如,由语言模型存储部14实现),其预先存储多个规定的语言模型;和模型选择机构(例如,由模型选择部12实现),其根据详细度选择机构选择的详细度,在音响模型存储机构存储的多个音响模型和语言模型存储机构存储的多个语言模型中,选择一组音响模型和语言模型。
【0029】
且有,上述的语音识别装置也可以具备输出变更机构(例如,由动作/响应设定部15实现),其根据详细度选择机构选择的详细度,变更输入的语音信号的语音识别结果的输出方法或输出内容。
【0030】
另外,上述的语音识别装置也可以具备语音模型更新机构(例如,由模型学习部16实现),其根据详细度选择机构选择的详细度,更新语音模型存储机构存储的语音模型。
【0031】
基于本发明的第二观点,提供一种对输入的语音信号进行语音识别的语音识别方法,该语音识别方法包括:详细度选择步骤,在预先存储的规定的语音模型具有的多个详细度中,选择与输入的语音信号的特征性质最接近的详细度,所述详细度是表示语音模型对应的语音的特征性质的信息;和参数设定步骤,根据选择的详细度设定用于对输入的语音进行语音识别的参数。
【0032】
另外,上述的语音识别方法也可以在详细度选择步骤中,按每单位时间求出详细度,并选择与输入的语音信号的特征性质最接近的详细度。
【0033】
且有,上述的语音识别方法也可以在详细度选择步骤中,历经多个单位时间对按每单位时间求出的详细度进行统计分析,并求出关注的单位时间的详细度。
【0034】
另外,上述的语音识别方法也可以包括距离计算步骤,在该距离计算步骤中,计算表示预先存储的语音模型与输入的语音信号的特征性质之差的距离信息;在距离计算步骤中,由详细度较低的距离信息至详细度更高的距离信息依次计算距离信息,或者由详细度较高的距离信息至详细度更低的距离信息依次计算距离信息;在详细度选择步骤中,求出使求出的距离信息成为极小的详细度。
【0035】
且有,上述的语音识别方法也可以基于预先存储的具有母子结构的语音模型选择与输入的语音信号的特征性质最接近的详细度。
【0036】
另外,上述的语音识别方法也可以包括单词串搜索步骤,在该单词串搜索步骤中,基于设定的参数搜索并提取单词串作为语音识别的结果;预先存储与语音模型具有规定的关联性的音响模型;在单词串搜索步骤中,利用语音模型与音响模型之间的关联性来搜索并提取单词串。
【0037】
且有,上述的语音识别方法也可以在参数设定步骤中,根据选择的详细度来设定语言的加权、或用于进行规定的剪枝处理的剪枝参数中的至少一个。
【0038】
另外,上述的语音识别方法也可以包括模型选择步骤,在该模型选择步骤中,根据选择的详细度,在预先存储的多个音响模型和预先存储的多个语言模型中,选择一组音响模型和语言模型。
【0039】
且有,上述的语音识别方法也可以包括输出变更步骤,在该输出变更步骤中,根据选择的详细度来变更输入的语音信号的语音识别结果的输出方法或输出内容。
【0040】
另外,上述的语音识别方法也可以包括语音模型更新步骤,在该语音模型更新步骤中,根据选择的详细度来更新预先存储的语音模型。
【0041】
根据本发明的第三观点,提供一种用于在计算机中对输入的语音信号进行语音识别的语音识别程序,该语音识别程序用于使计算机执行:详细度选择处理,在预先存储的规定的语音模型具有的多个详细度中,选择与输入的语音信号的特征性质最接近的详细度,所述详细度是表示语音模型对应的语音的特征性质的信息;和参数设定处理,根据选择的详细度设定用于对输入的语音进行语音识别的参数。
【0042】
另外,上述的语音识别程序也可以使计算机利用详细度选择处理,执行按每单位时间求出详细度,并选择与输入的语音信号的特征性质最接近的详细度的处理。
【0043】
且有,上述的语音识别程序也可以使计算机利用详细度选择处理,执行历经多个单位时间对按每单位时间求出的详细度进行统计分析,并求出关注的单位时间的详细度的处理。
【0044】
且有,上述的语音识别程序也可以使计算机,执行计算表示预先存储的语音模型与输入的语音信号的特征性质之差的距离信息的距离计算处理;利用距离计算处理,执行由详细度较低的距离信息至详细度更高的距离信息依次计算距离信息,或者由详细度较高的距离信息至详细度更低的距离信息依次计算距离信息的处理;利用详细度选择处理,执行求出使求出的距离信息成为极小的详细度的处理。
【0045】
另外,上述的语音识别程序也可以使计算机,执行基于预先存储的具有母子结构的语音模型选择与输入的语音信号的特征性质最接近的详细度的处理。
【0046】
且有,上述的语音识别程序也可以使具备预先存储与语音模型具有规定的关联性的音响模型的存储机构(例如,音响模型存储部3)的计算机,执行基于设定的参数来搜索并提取单词串作为语音识别的结果的单词串搜索处理;利用单词串搜索处理,执行利用语音模型与音响模型之间的关联性来搜索并提取单词串的处理。
【0047】
另外,上述的语音识别程序也可以使计算机,利用参数设定处理,执行根据选择的详细度来设定语言的加权、或用于进行规定的剪枝处理的剪枝参数中的至少一个的处理。
【0048】
且有,上述的语音识别程序也可以使计算机,执行根据选择的详细度在预先存储的多个音响模型和预先存储的多个语言模型中选择一组音响模型和语言模型的模型选择处理。
【0049】
另外,上述的语音识别程序也可以使计算机,执行根据选择的详细度对输入的语音信号的语音识别结果的输出方法或输出内容进行变更的输出变更处理。
【0050】
且有,上述的语音识别程序也可以使计算机,执行根据选择的详细度对预先存储的语音模型进行更新的语音模型更新处理。由此,使语音模型适应说话者和噪音环境。
【0051】
总之,本发明的语音识别装置为了解决上述课题大致如下构成。即,语音识别装置保持具有表现语音的特征性质的多个详细度的语音模型,选择与输入信号的特征性质最接近的详细度,并根据选择的详细度对语音识别相关的参数进行控制。
【0052】
根据上述构成,在比较语音模型的较高的详细度和较低的详细度时,在较高高的详细度的一方对输入信号较为接近的情况下,因为输入信号的特征性质接近学习音响模型时的数据的特征性质,所以信赖语音特征性质并利用计算成本低的参数进行语音识别。相反,在较低的详细度的一方对输入信号较为接近的情况下,因为输入信号的特征性质远离学习数据的特征性质,所以不信赖语音的特征性质,而利用使精度更高的参数进行语音识别。由此,通过根据详细度来动态控制参数,始终能够利用最优计算成本来进行精度较高的语音识别,能够达成本发明的第一目的。
【0053】
另外,因为只基于关注时刻的输入信号对应的详细度的信息,就能够决定最优参数,所以能够消除处理延迟并能够达成本发明的第二目的。
【0054】
且有,具有多个详细度的语音模型因为能够选择与音响模型相比充分小的尺寸,所以与利用简易音响模型求出各HMM状态的位次变动而调整参数的语音识别方法(参照专利文献1)相比,能够减少计算成本并能够达成本发明的第三目的。
(发明效果)
【0055】
根据本发明,在语音模型具有的详细度中,选择与输入的语音信号的特征性质最接近的详细度,并根据选择的详细度来设定用于对输入的语音进行语音识别的参数。因此,能够判断音响的特性,并利用较少的计算成本且利用使识别精度高的适当的参数进行语音识别。即,根据本发明,能够根据输入的语音信号属于语音模型的哪个详细度的信息,来考虑输入的语音信号的特征性质是否接近音响模型学习时的语音数据并能够信赖。由此,能够设定语音识别相关的参数来进行语音识别。
【0056】
另外,根据本发明,通过考虑同一时刻中进行竞争的候补的数目,从而能够无处理延迟地设定适当的参数。即,根据本发明,为了求得输入的语音信号属于语音模型的哪个详细度的信息,也可以只考虑关注时刻,而不取长时间的平均值。由此,能够无处理延迟地设定参数来进行语音识别。
【0057】
且有,根据本发明,能够利用较少的运算量求出适当的参数。即,根据本发明,具有多个详细度的语音模型能够与音响模型相比选择充分小的尺寸。由此,能够用较少计算成本的增加来设定参数进行语音识别。
附图说明
【0058】
图1是表示本发明的语音识别装置构成的一个例子的框图。
图2是表示示意包括多个详细度的GMM例子的说明图。
图3是表示语音识别装置执行的语音识别处理的一个例子的流程图。
图4是表示语音模型的详细度与语言权重之间关系的说明图。
图5是表示语音模型的详细度与距离之间关系的说明图。
图6是表示第三实施方式中的语音识别装置的构成例的框图。
图7是表示具有有母子结构的多个详细度的语音模型的示意图。
图8是表示具有多个详细度的语音模型与音响模型之间的关联性的说明图。
图9是表示第五实施方式中的语音识别装置的构成例的框图。
图10是表示第六实施方式中的语音识别装置的构成例的框图。
图11是表示第七实施方式中的语音识别装置的构成例的框图。
图12是表示利用了在非专利文献1中记载的语音识别技术的一般的语音识别装置的构成例的框图。
图13是表示在专利文献1中记载的语音识别装置的构成例的框图。
【0059】
图中:1-输入信号取得部,2-特征量计算部,3、13-音响模型存储部,4、14-语言模型存储部,5-网络搜索部,6-识别结果输出部,7、11-语音模型存储部,8-距离计算部,9-详细度判断部,10-参数设定部,12-模型选择部,15-动作/响应设定部,16-模型学习部。
具体实施方式
【0060】
实施方式1.
以下,参照附图对本发明的第一实施方式进行说明。图1是表示本发明的语音识别装置的构成的一例的框图。如图1所示,语音识别装置包括:输入信号取得部1、特征量计算部2、音响模型存储部3、语言模型存储部4、网络搜索部5、识别结果输出部6、语音模型存储部7、距离计算部8、详细度判断部9及参数设定部10。且有,语音识别装置具体是由个人计算机等信息处理装置实现的。
【0061】
输入信号取得部1具体地由按照程序动作的信息处理装置的CPU来实现。输入信号取得部1具备按每单位时间切分并取得(输入)输入信号的功能。例如,输入信号取得部1将语音信号作为输入信号从麦克风等语音输入装置进行输入。另外,例如输入信号取得部1将预先存储在数据库中的语音信号作为输入信号进行提取。
【0062】
特征量计算部2具体是由按照程序动作的信息处理装置的CPU来实现的。特征量计算部2具备基于输入信号取得部1输入的输入信号来计算表示输入语音的特征性质的特征量的功能。
【0063】
音响存储部3及语言模型存储部4具体是由磁盘装置或光盘装置等存储装置来实现的。音响模型存储部3预先存储规定的音响模型。另外,语言模型存储部4预先存储规定的语言模型。
【0064】
网络搜索部5具体是由按照程序动作的信息处理装置的CPU来实现的。网络搜索部5具备基于利用特征量计算部2计算的特征量、音响模型存储部3存储的音响模型、及语言模型存储部4存储的语言模型来搜索单词串的候补的功能。另外,网络搜索部5具备基于单词串的候补的搜索结果来提取单词串的候补作为输入语音的语音识别结果的功能。
【0065】
识别结果输出部6具体是由按照程序动作的信息处理装置的CPU来实现的。识别结果输出部6具备输出由网络搜索部5搜索到的单词串的候补的功能。例如,识别结果输出部6将单词串的候补作为输入语音的语音识别结果在显示器装置等显示装置中进行显示。另外,例如识别结果输出部6将包括单词串的候补的文件作为输入语音的语音识别结果进行输出。
【0066】
另外,在具备上述的构成要素的语音识别系统(语音识别装置)中,语音模型存储部7、距离计算部8、详细度判断部9及参数设定部10具备以下的功能。
【0067】
语音模型存储部7具体是由磁盘装置或光盘装置等存储装置来实现的。语音模型存储部7预先存储具有多个详细度的语音模型。且有,所谓“详细度”是指利用语音模型确定是粗略表现语音现象还是细腻表现语音现象的尺度。
【0068】
距离计算部8具体是由按照程序动作的信息处理装置的CPU来实现的。距离计算部8具备计算由特征量计算部2计算出的特征量相对于语音模型存储部7存储的语音模型具有的各详细度的距离的功能。具体地说,距离计算部8通过分别计算表示输入语音的特征量与各详细度之差的值,从而计算输入语音的特征量与各详细度之间的距离。
【0069】
详细度判断部9具体是由按照程序动作的信息处理装置的CPU来实现的。详细度判断部9具备对距离计算部8求出的详细度与特征量的距离中最小距离进行确定,并求出(判断)与特征量计算部2求出的特征量的距离变得最小的详细度的功能。即,详细度判断部9在语音模型存储部7存储的语音模型具有的详细度中,选择最接近输入的语音信号的特征性质的详细度。
【0070】
参数设定部10具体是由按照程序动作的信息处理装置的CPU来实现的。参数设定部10具备根据详细度判断部9求出的详细度的值来设定网络搜索部5搜索单词串时需要的参数的功能。
【0071】
作为特征量,特征量计算部2计算例如表示输入语音的倒谱(cepstrum)或对数频谱、频谱、共振峰(formant)位置、音高(pitch)、频谱能量、或该输入语音的多个帧中的变化部分等语音的特征的值。且有,对于在此记载的特征量及特征量的计算方法而言,例如在非专利文献1的第2章中的记载。在此,非专利文献1的第2章记载的事项在此引用并包括在本说明书中。
【0072】
作为音响模型,音响模型存储部3存储了例如HMM(Hidden MarkovModel)等数据。且有,对于在此记载的音响模型而言,例如在非专利文献1的第3章的记载。另外,对于在此记载的音响模型的生成方法而言,例如在非专利文献1的第14章中的记载。其中,非专利文献1的第3章及第4章中记载的事项在此引用并包括在本说明书中。
【0073】
作为语言模型,语言模型存储部4存储了例如N-gram或单词词典、上下文自由文法等数据。且有,对于在此记载的语言模型及利用了语言模型的语音识别算法而言,例如在非专利文献1的第5章中的记载。其中,非专利文献1的第5章中记载的事项在此引用并包括在本说明书中。
【0074】
作为搜索单词串的方法,网络搜索部5例如通过进行束搜索(beamsearch)等方法,从而提取单词串的候补作为输入语音的语音识别结果,其中,上述束搜索等方法从由存储在语言模型存储部4中的语言模型表现的单词串网络中,利用存储在音响模型存储部3中的音响模型来搜索正确单词串。且有,对于在此记载的单词串搜索方法而言,例如在非专利文献1的第6章中的记载。其中,非专利文献1的第6章中记载的事项在此引用并包括在本说明书中。
【0075】
语音模型存储部7存储包括多个详细度的语音模型。作为语音模型,语音模型存储部7存储了例如HMM或GMM(Gaussian Mixture Model)等数据。
【0076】
HMM或GMM通过组合多个概率分布函数而构成。概率分布函数虽然一般利用高斯分布,但也可以利用高斯分布以外的函数。概率分布函数的参数通过用EM算法等手法对语音进行学习而确定。且有,在此记载的EM算法例如在非专利文献1的第4章中的记载。其中,在非专利文献1的第4章中记载的事项在此引用并包括在本说明书中。
【0077】
另外,作为详细度,语音模型具有例如概率分布函数的混合数、或对概率分布函数的分布进行平均后得到的值等。图2是是表示示意包括多个详细度的GMM的例子的说明图。在图2中,实线包围的椭圆表示概率分布函数。如图2所示,GMM在详细度较低时用少量的混合数的概率分布函数来表示,在详细度较高时用大量的混合数的概率分布函数来表示。
【0078】
作为制作详细度不同的语音模型的方法,考虑了自上而下生成的方法和自下而上生成的方法。作为自上而下的生成方法,有以下的方法。例如,在学习相对学习数据较少的混合数的语音模型而生成后,分割构成语音模型的概率分布函数等而使混合数增加。并且,再次学习增加了该混合数后的模型。由此,通过反复执行学习及分割的处理直到得到需要的混合数的语音模型为止,从而能够生成详细度不同的语音模型。
【0079】
另外,例如,通过改变单音素、双音素、三音素、五音素等音素组合的详细度而生成语音模型,也可以生成详细度不同的语音模型。
【0080】
作为自下而上生成语音模型的方法,例如存在以下的方法:将由利用一些学习手段学习的多个概率分布函数的混合而构成的语音模型,通过利用k-means法等并根据距离进行总结,从而生成详细度不同的语音模型的方法。且有,在此记载的k-means法例如在文献(Richard O.Duda,PetterE.Hart,David G.Stork著,尾上守夫監訳,「パタ一ン認識」,Joh Willey&Sons.新技術コミユニケ一シヨン,pp.528-529)中的记载。
【0081】
另外,具有上述示出的多个详细度的语音模型例如由系统设计者等预先生成并存储在语音模型存储部7中。
【0082】
且有,在本实施方式中,实现语音识别装置的信息处理装置的存储装置存储了用于执行语音识别处理的各种程序。例如,实现语音识别装置的信息处理装置的存储装置存储了用于在计算机中执行如下处理的语音识别程序:在预先存储的规定的语音模型具有的、作为表示语音模型对应的语音的特征性质的信息的多个详细度中,选择与输入的语音信号的特征性质最接近的详细度的详细度选择处理;和根据选择的详细度设定用于对输入的语音进行语音识别的参数的参数设定处理。
【0083】
接着,对动作进行说明。图3是表示语音识别装置执行的语音识别处理的一个例子的流程图。首先,输入信号取得部1将利用麦克风等器件而取得(输入)的输入信号(语音信号)按每单位时间进行隔断(窓掛け)处理而进行切分(步骤S1)。
【0084】
接着,特征量计算部2基于输入信号取得机构1求出的每个单位时间的输入信号来计算输入语音的特征量(步骤S2)。例如,特征量计算部2求出第t单位时间的输入信号的特征量向量xt作为特征量。
【0085】
接着,距离计算部8对语音模型的多个详细度分别求出与每个单位时间的输入信号的特征量之间的距离(步骤S3)。此时,距离计算部8在作为语音模型而利用HMM或GMM的情况下,计算用公式(3)表示的似然度或对数似然度以便求出特征量与详细度之间的距离。
【0086】
【公式3】
似然度 P ( x t | k ) = 1 ( 2 π ) n | Σ k | exp [ - 1 2 ( x t - μ k ) ′ Σ k - 1 ( x t - μ k ) ] 式(3)
【0087】
【公式4】
对数似然度 log P ( x t | k ) = - 1 2 [ ( x t - μ k ) ′ Σ k - 1 ( x t - μ k ) + log | Σ k | ] + C
式(4)
【0088】
其中,μk是表示第k个概率密度函数的平均。另外,∑k是表示第k个概率密度函数的方差。再有,C是表示常数项。且有,n是表示特征量向量xt的维数。
【0089】
在利用似然度或对数似然度的情况下,似然度或对数似然度的值越大则特征量与详细度之间的距离越小。且有,在求特征量与详细度之间距离的情况下,距离计算部8并不限定为似然度或对数似然度,例如也可以求欧几里德(Euclid)距离等距离尺度。各详细度对应的语音模型利用多个概率密度函数的混合进行表示,但是每个单位时间的输入信号的特征量与详细度之间的距离可以在多个概率密度函数中采用距离最近的一个来代表。
【0090】
接着,详细度判断部9比较距离计算部8求出的语音模型的各详细度对应的距离,并求出与特征量计算部2求出的特征量之间的距离最小的详细度(步骤S4)。即,详细度判断部9基于距离计算部8求出的各距离,来判断在语音模型存储部7存储的语音模型具有的多个详细度中与特征量计算部2求出的特征量之间的距离最小的详细度。
【0091】
且有,在步骤S4中,除了按每单位时间求出详细度的方法以外,详细度判断部9还可以进行求出历经多个单位时间或一个发声进行平均后的距离为最小的详细度等统计分析。即,详细度判断部9也可以按每单位时间求出详细度,并选择与输入的语音信号的特征性质最接近的详细度。另外,详细度判断部9也可以基于等统计分析的结果来求出特征量最小的详细度。即,详细度判断部9也可以历经多个单位时间对按每单位时间求出的详细度进行统计分析,并求出关注的单位时间的详细度。
【0092】
接着,参数设定部10利用由详细度判断部9判断的详细度来设定在用网络搜索部5搜索单词串时使用的参数(步骤S5)。此时,作为参数,参数设定部10例如设定语言权重(例如,权重系数)或剪枝参数等。即,参数设定部10根据详细度判断部9选择的详细度来设定语言的加权、或用于进行规定的剪枝处理的剪枝参数中的至少一个。且有,参数设定部10也可以控制语言权重或剪枝参数以外的在搜索单词串时使用的参数。
【0093】
且有,所谓“剪枝”是指在作为单词串的候补的假想结果中取消规定的似然度幅度(阈值)以下的假想结果的处理等。另外,将剪枝参数设定为例如在进行剪枝处理的情况下作为阈值使用的似然度幅度的值等。
【0094】
在根据详细度设定语言权重的情况下,如图4所示,在详细度较低时,因为语音信息的可靠性低,所以参数设定部10将语言权重设定为较大(例如,使权重系数的值较大)。相反,在详细度较高时,因为语音信息的可靠性高,所以参数设定部10将语言权重设定为较小(例如,使权重系数的值较小)。
【0095】
在设定单词串搜索时的剪枝参数的情况下,在详细度较低时,因为语音信息的可靠性低,所以参数设定部10设定剪枝参数以便假想结果变多。另外,在详细度较高时,因为语音信息的可靠性高,所以参数设定部10设定剪枝参数以便假想结果变少。
【0096】
接着,网络搜索部5基于由参数设定部10设定的参数来搜索单词串(步骤S6)。此时,网络搜索部5利用由特征量计算部2计算的特征量、存储在音响模型存储部3中的音响模型、及存储在语言模型存储部4中的语言模型,基于公式(2)搜索并求出似然度最高的单词串。
【0097】
最终,识别结果输出部6进行由网络搜索部5搜索到的单词串的输出(例如显示)(步骤S7)。
【0098】
以上,根据本实施方式,能够判断音响的特性,利用较少的计算成本且利用使识别精度较高的适当的参数来进行语音识别。
【0099】
例如,如图5所示,一般在输入信号的特征性质与学习语音模型时的学习数据的特征性质接近的情况下,详细度更高的语音模型对应的距离变小。其原因在于:例如,在自上而下生成语音模型时,在增加混合数时,相对学习数据,总是增加概率分布函数而生成,以便距离变的更小。相反,如图5(b)所示,在输入信号的特征性质远离学习数据的特征性质的情况下,详细度越高的语音模型其距离会变得越大。由此,在由详细度判断部9对输入信号选择了详细度较高的语音模型时,能够与学习数据的特征性质接近,相反在选择了详细度较低的语音模型时,能够远离学习数据的特征性质。
【0100】
利用上述的性质,通过根据详细度动态控制语音识别相关的参数,例如,在详细度较高的情况下,能够谋求减少假想结果数来降低计算量等措施,并能够利用最优计算成本来进行识别精度高的语音识别。
【0101】
另外,所谓选择与输入语音之间的距离最近的详细度是表示,直到选择了详细度最高的状态的状态为止总结的语音模型表现输入语音最佳。由此,根据最接近的详细度的信息能够得到在关注时刻有多少对立的单词串的候补进行竞争的信息,并能够进行考虑了对立的候补的数目的参数设定,而无须取得长时间平均值。
【0102】
另外,具有多个详细度的语音模型能够选择与音响模型相比充分小的尺寸,因此与利用以往的简易音响模型比较,能够减少计算成本。
【0103】
实施方式2.
接着对本发明的第二实施方式进行说明。且有,在本实施方式中,语音识别装置的基本构成与在第一实施方式中示出的语音识别装置的构成相同。
【0104】
详细度判断部9在第一实施方式中示出的步骤S4中,对具有多个详细度的语音模型由较低的详细度至较高的详细度依次进行计算,并求出与特征量计算部2求出的特征量之间的距离成为极小的详细度。另外,详细度判断部9也可以由较高的详细度至较低的详细度依次进行计算,并求出与特征量计算部2求出的特征量之间的距离成为极小的详细度。
【0105】
在本实施方式中,距离计算部8按照由详细度较低至详细度较高的顺序依次计算距离,或者按照由详细度较高至详细度较低的顺序依次计算距离。并且,详细度判断部9求出距离计算部8求出的距离变得最小的详细度。
【0106】
如上述,根据本实施方式,通过求出与特征量计算部2计算的特征量之间的距离成为极小的详细度,从而能够有效求出距离变成最小的详细度。
【0107】
例如,如图5(a)所示,在输入信号的特征性质与学习数据的特征性质接近的情况下,随着详细度变大,距离单调减少,在详细度最高时距离最小。另外,如图5(b)所示,在输入信号的特征性质与学习数据的特征性质远离的情况下,随着详细度变大,距离从最初单调减少的过程中变为单调增大。根据这样的性质,对具有多个详细度的语音模型,通过由较低的详细度至较高的详细度依次计算并求出距离变为极小的详细度,从而能够有效求出距离变为最小的详细度。
【0108】
实施方式3.
接着,参照附图对本发明的第三实施方式进行说明。图6是表示第三实施方式中的语音识别装置的构成例的框图。如图6所示,在本实施方式中,语音识别装置在如下一点上与第一实施方式不同,即代替图1中示出的存储具有多个详细度的语音模型的语音模型存储部7,而包括存储具有有母子结构的多个详细度的语音模型的语音模型存储部11。
【0109】
语音模型存储部11具体是由磁盘装置或光盘装置等存储装置来实现的。语音模型存储部11对具有有母子结构的多个详细度的语音模型进行存储。
【0110】
在本实施方式中,存储在语音模型存储部11中的具有多个详细度的语音模型的各详细度具有树结构等母子结构。且有,所谓在此说的母子结构是例如,如图7所示,在属于较高的详细度的概率分布函数(子)与属于较低的详细度的概率分布函数(母)之间存在依存关系。在图7中,连接椭圆与椭圆的实线表示母分布与子分布之间的关系。
【0111】
作为母子关系的生成方法,例如在自上而下生成语音模型时能够通过分割母分布来生成子分布。另外,例如,在自下而上生成语音模型时能够汇集子分布来生成母分布。且有,具有这些母子结构的语音模型例如由系统的设计者等预先生成并存储在语音模型存储部11中。
【0112】
接着,对动作进行说明。在本实施方式中,详细度判断部9在第一实施方式中示出的步骤S4中,对具有有母子结构的多个详细度的语音模型,由较低的详细度至较高的详细度依次进行计算,并求出与特征量计算部2求出的特征量之间的距离变得最小的详细度。此时,详细度判断部9因为在属于各详细度间的分布中存在母子结构,所以在利用某个详细度得到距离最小的分布时,在对比该距离变为最小的详细度更高的详细度进行计算的情况下,可以只考虑该距离成为最小的分布的子分布而进行计算。例如,距离计算部8或详细度判断部9之后也可以只对距离变为最小的分布的子分布进行距离计算或变为最小的详细度的判断处理。
【0113】
在本实施方式中,通过上述构成能够利用较少的计算成本进行距离计算部8所进行的距离计算,也能够比在第一实施方式中示出的语音识别系统更减小计算成本。
【0114】
实施方式4.
接着,参照附图对本发明的第四实施方式进行说明。且有,在本实施方式中,语音识别装置的基本构成与在第一实施方式中示出的语音识别装置的构成相同。
【0115】
在本实施方式中,在如下一点上与第一实施方式不同,即语音模型存储部7存储的具有多个详细度的语音模型与音响模型存储部3存储的音响模型之间具有规定的关联性。
【0116】
在本实施方式中,音响模型存储部3预先存储与语音模型存储部7存储的语音模型具有规定的关联性的音响模型。另外,语音模型存储部7预先存储与音响模型存储部3存储的音响模型具有规定的关联性的语音模型。再有,网络搜索部5利用语音模型与音响模型之间的关联性搜索并提取单词串的候补。
【0117】
在本实施方式中,为使在具有多个详细度的语音模型与音响模型之间建立关联性,例如,如图8所示可知,在构成具有多个详细度的语音模型的多个概率密度函数与构成音响模型的多个概率密度函数中,相同或近似的概率密度函数具有关联性。例如,通过给相同或类似的语音模型和音响模型赋予链接信息等,从而预先建立链接。在图8中示出的例子中,连接语音模型与音响模型的虚线表示语音模型与音响模型之间的关联性。
【0118】
另外,这些语音模型与音响模型之间的关联性(例如,建立链接),例如,由系统设计者等预先处理,且实施处理后的语音数据或音响数据分别存储在语音模型存储部7及音响模型存储部3中。
【0119】
在本实施方式中,通过上述构成,在第一实施方式中示出的步骤S6中,通过利用预先赋予语音模型及音响模型的关联性,能够将在搜索单词串时进行的输入信号的音响模型对应的距离的计算省略,而利用在步骤S3中求出的输入信号的多个详细度的语音模型对应的距离。因此,能够减轻步骤S6处理中的网络搜索部5的处理负担。
【0120】
实施方式5.
接着,参照附图对本发明的第五实施方式进行说明。图9是表示第五实施方式中的语音识别装置的构成例的框图。如图9所示,在本实施方式中,语音识别装置在如下一点上与第一实施方式不同,即代替音响模型存储部3,而包括存储多个音响模型的音响模型存储部13。另外,语音识别装置在如下一点上也与第一实施方式不同,即代替语音模型存储部4,而包括存储多个语言模型的语言模型存储部14。再有,语音识别装置在如下一点上还与第一实施方式不同,即代替按照由详细度判断部9计算出的详细度来设定参数的参数设定部10,而包括模型选择部12。
【0121】
模型选择部12具体是由按照程序动作的信息处理装置的CPU来实现的。模型选择部12具备根据详细度判断部9计算的详细度来选择音响模型与语言模型的功能。即,模型选择部12根据详细度判断部9选择的详细度,在音响模型存储部3存储的多个音响模型和语言模型存储部4存储的多个语言模型中选择一组音响模型和语言模型。
【0122】
接着,对动作进行说明。在第一实施方式中,在图3示出的步骤S5中,参数设定部10利用由详细度判断部9判断的详细度,进行对在网络搜索部5搜索单词串时使用的参数进行设定的处理。在本实施方式中,若由详细度判断部9判断(计算)详细度,则代替图3中示出的步骤S5的处理,模型选择部12利用由详细度判断部9判断的详细度,执行选择在网络搜索部5搜索单词串时使用的音响模型和语言模型的模型选择处理。并且,网络搜索部5基于由模型选择部12选择的音响模型和语言模型来搜索并提取单词串的候补。
【0123】
在本实施方式中,通过上述的构成,在由详细度判断部9判断为详细度较低的情况下,通过或者选择尺寸较小的音响模型、或者将语言模型切换为词汇数较少的语言模型,从而能够提高语音识别的精度。由此,在本实施方式中,语音识别装置根据输入语音等条件控制选择语音模型及语言模型。
【0124】
实施方式6.
接着,参照附图对本发明的第六实施方式进行说明。图10是表示第六实施方式中的语音识别装置的构成例的框图。如图10所示,在本发明的实施方式中,语音识别装置在如下一点上与第一实施方式不同,即代替根据由详细度判断部9计算的详细度来设定参数的参数设定部10,而包括动作/响应设定部15。
【0125】
动作/响应设定部15具体是由按照程序动作的信息处理装置的CPU来实现的。动作/响应设定部15具备根据由详细度判断部9判断的详细度来变更输出机构或输出内容的功能。即,动作/响应设定部15根据详细度判断部9选择的详细度来变更输入的语音信号的语音识别结果的输出方法或输出内容。
【0126】
在本实施方式中,动作/响应设定部15例如在由详细度判断部9判断为详细度较低的情况下,在识别结果输出部6中显示使用户再次发声而促使语音输入的消息。另外,例如,动作/响应设定部15在识别结果输出部6中显示需要说话者学习的意图。再有,例如,动作/响应设定部15在识别结果输出部6中显示依赖语音识别结果是否正确的确认的意图。且有,例如,动作/响应设定部15为使在识别结果输出部6中不只是显示由详细度判断部9判断为详细度较低的情况的识别结果而进行控制。
【0127】
在本实施方式中,通过以上构成能够只显示可靠性较高的识别结果。
【0128】
实施方式7.
接着,参照附图对本发明的第七实施方式进行说明。图11是表示第七实施方式中的语音识别装置的构成例的框图。如图11所示,在本实施方式中,语音识别装置在如下一点上与第一实施方式不同,即代替根据由详细度判断部9计算的详细度来设定参数的参数设定部10,而包括模型学习部16。
【0129】
模型学习部16具体是由按照程序动作的信息处理装置的CPU来执行的。模型学习部16具备根据由详细度判断部9计算的详细度来进行具有多个详细度的语音模型和音响模型的学习的功能。即,模型学习部16通过根据详细度判断部9选择的详细度来更新语音模型存储部7存储的模型,从而使语音模型适应说话者或噪音环境。
【0130】
在本实施方式中,音响模型学习部16在由详细度判断部9判断为详细度较低的情况下,控制详细度变高,使具有多个详细度的语音模型和音响模型适应噪音环境或说话者环境。具体地说,在具有多个详细度的语音模型由于对输入信号平均来看存在偏差从而详细度降低的情况下,模型学习部16进行修正该语音模型的偏差的处理,控制详细度变高。另外,模型学习部16为配合语音模型的修正而进行也修正音响模型侧的偏差的处理。
【0131】
在本实施方式中,通过上述的构成,即使在噪音环境或说话者环境与学习时大不相同的情况下,也能输出适当的语音识别结果。
【0132】
且有,在语音识别装置中,也可以对上述的各实施方式中示出的构成进行相互组合。例如,也可以组合上述的第一实施方式~第七实施方式中示出的语音识别装置构成的其中两个以上来构成语音识别装置。
【0133】
在其他本发明全部公开(包括权利要求书)的范围内,还可以基于其基本技术思想来变更·调整实施方式乃至实施例。另外,在本发明的权利要求书的范围内,也可以对种种公开要素进行多样的组合乃至选择。
【01344】
本发明适用于对输入语音进行语音识别的语音识别装置的用途。特别是适用于利用预先给予的计算成本来实现最优的语音识别的识别性能的语音识别装置。

Claims (30)

1.一种语音识别装置,其对输入的语音信号进行语音识别,
该语音识别装置,具备:
语音模型存储机构,其预先存储具有多个详细度的规定的语音模型,所述详细度是表示所述语音模型对应的语音的特征性质的信息;
详细度选择机构,其在所述语音模型存储机构存储的语音模型具有的详细度中,选择与输入的语音信号的特征性质最接近的详细度;和
参数设定机构,其根据所述详细度选择机构选择的详细度,设定用于对输入的语音进行语音识别的参数。
2.根据权利要求1所述的语音识别装置,其特征在于,
所述详细度选择机构按每单位时间求出详细度,并选择与输入的语音信号的特征性质最接近的详细度。
3.根据权利要求2所述的语音识别装置,其特征在于,
所述详细度选择机构历经多个单位时间对按每单位时间求出的详细度进行统计分析,并求出关注的单位时间的详细度。
4.根据权利要求1~3中任一项所述的语音识别装置,其特征在于,
该语音识别装置具备距离计算机构,该距离计算机构计算表示语音模型存储机构存储的语音模型与输入的语音信号的特征性质之差的距离信息,
所述距离计算机构由详细度较低的距离信息至详细度更高的距离信息依次计算距离信息,或者由详细度较高的距离信息至详细度更低的距离信息依次计算距离信息,
所述详细度选择机构求出使所述距离计算机构求出的所述距离信息成为极小的详细度。
5.根据权利要求1~4中任一项所述的语音识别装置,其特征在于,
所述语音模型存储机构预先存储具有母子结构的语音模型。
6.根据权利要求1~5中任一项所述的语音识别装置,其特征在于,
该语音识别装置具备:
音响模型存储机构,其预先存储规定的音响模型;和
单词串搜索机构,其基于由参数设定机构设定的参数来搜索并提取单词串作为语音识别的结果,
所述音响模型存储机构预先存储与所述语音模型存储机构存储的语音模型具有规定的关联性的音响模型,
所述单词串搜索机构利用所述语音模型和所述音响模型之间的关联性来搜索并提取单词串。
7.根据权利要求1~6中任一项所述的语音识别装置,其特征在于,
所述参数设定机构根据详细度选择机构选择的详细度来设定语言的加权、或用于进行规定的剪枝处理的剪枝参数中的至少一个。
8.根据权利要求1~7中任一项所述的语音识别装置,其特征在于,
该语音识别装置,具备:
音响模型存储机构,其预先存储多个规定的音响模型;
语言模型存储机构,其预先存储多个规定的语言模型;和
模型选择机构,其根据所述详细度选择机构选择的详细度,在所述音响模型存储机构存储的多个音响模型和所述语言模型存储机构存储的多个语言模型中,选择一组音响模型和语言模型。
9.根据权利要求1~8中任一项所述的语音识别装置,其特征在于,
该语音识别装置具备输出变更机构,该输出变更机构根据所述详细度选择机构选择的详细度,对输入的语音信号的语音识别结果的输出方法或输出内容进行变更。
10.根据权利要求1~9中任一项所述的语音识别装置,其特征在于,
该语音识别装置具备语音模型更新机构,该语音模型更新机构根据所述详细度选择机构选择的详细度,对所述语音模型存储机构存储的语音模型进行更新。
11.一种语音识别方法,其对输入的语音信号进行语音识别,
该语音识别方法,包括:
详细度选择步骤,在预先存储的规定的语音模型具有的多个详细度中,选择与输入的语音信号的特征性质最接近的详细度,所述详细度是表示所述语音模型对应的语音的特征性质的信息;和
参数设定步骤,根据选择的详细度设定用于对输入的语音进行语音识别的参数。
12.根据权利要求11所述的语音识别方法,其特征在于,
在所述详细度选择步骤中,按每单位时间求出详细度,并选择与输入的语音信号的特征性质最接近的详细度。
13.根据权利要求12所述的语音识别方法,其特征在于,
在所述详细度选择步骤中,历经多个单位时间对按每单位时间求出的详细度进行统计分析,并求出关注的单位时间的详细度。
14.根据权利要求11~13中任一项所述的语音识别方法,其特征在于,
该语音识别方法包括距离计算步骤,在该距离计算步骤中,计算表示预先存储的语音模型与输入的语音信号的特征性质之差的距离信息,
在所述距离计算步骤中,由详细度较低的距离信息至详细度更高的距离信息依次计算距离信息,或者由详细度较高的距离信息至详细度更低的距离信息依次计算距离信息,
在所述详细度选择步骤中,求出使求出的所述距离信息成为极小的详细度。
15.根据权利要求11~14中任一项所述的语音识别方法,其特征在于,
基于预先存储的具有母子结构的语音模型选择与输入的语音信号的特征性质最接近的详细度。
16.根据权利要求11~15中任一项所述的语音识别方法,其特征在于,
该语音识别方法包括单词串搜索步骤,在该单词串搜索步骤中,基于设定的参数搜索并提取单词串作为语音识别的结果,
预先存储与语音模型具有规定的关联性的音响模型,
在所述单词串搜索步骤中,利用所述语音模型与所述音响模型之间的关联性来搜索并提取单词串。
17.根据权利要求11~16中任一项所述的语音识别方法,其特征在于,
在所述参数设定步骤中,根据选择的详细度设定语言的加权、或用于进行规定的剪枝处理的剪枝参数中的至少一个。
18.根据权利要求11~17中任一项所述的语音识别方法,其特征在于,
该语音识别方法包括模型选择步骤,在该模型选择步骤中,根据选择的详细度,在预先存储的多个音响模型和预先存储的多个语言模型中,选择一组音响模型和语言模型。
19.根据权利要求11~18中任一项所述的语音识别方法,其特征在于,
该语音识别方法包括输出变更步骤,在该输出变更步骤中,根据选择的详细度变更输入的语音信号的语音识别结果的输出方法或输出内容。
20.根据权利要求11~19中任一项所述的语音识别方法,其特征在于,
该语音识别方法包括语音模型更新步骤,在该语音模型更新步骤中,根据选择的详细度更新预先存储的语音模型。
21.一种语音识别程序,其用于对输入的语音信号进行语音识别,
该语音识别程序用于使计算机执行:
详细度选择处理,在预先存储的规定的语音模型具有的多个详细度中,选择与输入的语音信号的特征性质最接近的详细度,所述详细度是表示所述语音模型对应的语音的特征性质的信息;和
参数设定处理,根据选择的详细度设定用于对输入的语音进行语音识别的参数。
22.根据权利要求21所述的语音识别程序,其特征在于,
使所述计算机,利用所述详细度选择处理,执行按每单位时间求出详细度,并选择与输入的语音信号的特征性质最接近的详细度的处理。
23.根据权利要求22所述的语音识别程序,其特征在于,
使所述计算机,利用所述详细度选择处理,执行历经多个单位时间对按每单位时间求出的详细度进行统计分析,并求出关注的单位时间的详细度的处理。
24.根据权利要求21~23中任一项所述的语音识别程序,其特征在于,使所述计算机,
执行计算表示预先存储的语音模型与输入的语音信号的特征性质之差的距离信息的距离计算处理,
利用所述距离计算处理,执行由详细度较低的距离信息至详细度更高的距离信息依次计算距离信息,或者由详细度较高的距离信息至详细度更低的距离信息依次计算距离信息的处理,
利用所述详细度选择处理,执行求出使求出的所述距离信息成为极小的详细度的处理。
25.根据权利要求21~24中任一项所述的语音识别程序,其特征在于,
使所述计算机,执行基于预先存储的具有母子结构的语音模型选择与输入的语音信号的特征性质最接近的详细度的处理。
26.根据权利要求21~25中任一项所述的语音识别程序,其特征在于,
使具备预先存储与语音模型具有规定的关联性的音响模型的存储机构的计算机,
执行基于设定的参数搜索并提取单词串作为语音识别的结果的单词串搜索处理,
利用所述单词串搜索处理,执行采用所述语音模型与所述音响模型之间的关联性来搜索并提取单词串的处理。
27.根据权利要求21~26中任一项所述的语音识别程序,其特征在于,
使所述计算机,
利用所述参数设定处理,执行根据选择的详细度来设定语言的加权、或用于进行规定的剪枝处理的剪枝参数中的至少一个的处理。
28.根据权利要求21~27中任一项所述的语音识别程序,其特征在于,
使所述计算机,
执行根据选择的详细度在预先存储的多个音响模型和预先存储的多个语言模型中,选择一组音响模型和语言模型的模型选择处理。
29.根据权利要求21~28中任一项所述的语音识别程序,其特征在于,
使所述计算机,
执行根据选择的详细度对输入的语音信号的语音识别结果的输出方法或输出内容进行变更的输出变更处理。
30.根据权利要求21~29中任一项所述的语音识别程序,其特征在于,
使所述计算机,
执行根据选择的详细度对预先存储的语音模型进行更新的语音模型更新处理。
CN200880006579A 2007-02-28 2008-02-26 语音识别装置、语音识别方法及语音识别程序 Pending CN101622660A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2007048898 2007-02-28
JP048898/2007 2007-02-28

Publications (1)

Publication Number Publication Date
CN101622660A true CN101622660A (zh) 2010-01-06

Family

ID=39738118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200880006579A Pending CN101622660A (zh) 2007-02-28 2008-02-26 语音识别装置、语音识别方法及语音识别程序

Country Status (4)

Country Link
US (1) US8612225B2 (zh)
JP (1) JP5229216B2 (zh)
CN (1) CN101622660A (zh)
WO (1) WO2008108232A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766607A (zh) * 2015-03-05 2015-07-08 广州视源电子科技股份有限公司 一种电视节目推荐方法与系统
CN104899240A (zh) * 2014-03-05 2015-09-09 卡西欧计算机株式会社 声音检索装置、声音检索方法
CN105719643A (zh) * 2014-12-22 2016-06-29 卡西欧计算机株式会社 声音检索装置、声音检索方法
CN105869641A (zh) * 2015-01-22 2016-08-17 佳能株式会社 语音识别装置及语音识别方法
CN110647367A (zh) * 2019-09-23 2020-01-03 苏州随身玩信息技术有限公司 一种讲解内容自适应切换方法和导游讲解机
CN112997247A (zh) * 2018-11-05 2021-06-18 株式会社赛斯特安国际 利用大数据的最佳语言模型生成方法及用于其的装置

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2464093B (en) * 2008-09-29 2011-03-09 Toshiba Res Europ Ltd A speech recognition method
JP2010204274A (ja) * 2009-03-02 2010-09-16 Toshiba Corp 音声認識装置、その方法及びそのプログラム
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
FR2964223B1 (fr) * 2010-08-31 2016-04-01 Commissariat Energie Atomique Procede de configuration d'un dispositif de detection a capteur, programme d'ordinateur et dispositif adaptatif correspondants
CN103650033B (zh) 2011-06-30 2016-10-26 谷歌公司 使用可变长度语境的语音识别
US9620128B2 (en) 2012-05-31 2017-04-11 Elwha Llc Speech recognition adaptation systems based on adaptation data
US20130325447A1 (en) * 2012-05-31 2013-12-05 Elwha LLC, a limited liability corporation of the State of Delaware Speech recognition adaptation systems based on adaptation data
US20130325449A1 (en) 2012-05-31 2013-12-05 Elwha Llc Speech recognition adaptation systems based on adaptation data
US9899040B2 (en) 2012-05-31 2018-02-20 Elwha, Llc Methods and systems for managing adaptation data
US10431235B2 (en) 2012-05-31 2019-10-01 Elwha Llc Methods and systems for speech adaptation data
US9336771B2 (en) * 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
US9646605B2 (en) * 2013-01-22 2017-05-09 Interactive Intelligence Group, Inc. False alarm reduction in speech recognition systems using contextual information
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
KR102292546B1 (ko) 2014-07-21 2021-08-23 삼성전자주식회사 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR102492318B1 (ko) 2015-09-18 2023-01-26 삼성전자주식회사 모델 학습 방법 및 장치, 및 데이터 인식 방법
WO2017104272A1 (ja) * 2015-12-18 2017-06-22 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP6495850B2 (ja) * 2016-03-14 2019-04-03 株式会社東芝 情報処理装置、情報処理方法、プログラムおよび認識システム
CN105957516B (zh) * 2016-06-16 2019-03-08 百度在线网络技术(北京)有限公司 多语音识别模型切换方法及装置
US9984688B2 (en) 2016-09-28 2018-05-29 Visteon Global Technologies, Inc. Dynamically adjusting a voice recognition system
US11620982B2 (en) * 2020-06-01 2023-04-04 Rovi Guides, Inc. Systems and methods for improving content discovery in response to a voice query using a recognition rate which depends on detected trigger terms

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3467556B2 (ja) * 1992-06-19 2003-11-17 セイコーエプソン株式会社 音声認識装置
US5515475A (en) 1993-06-24 1996-05-07 Northern Telecom Limited Speech recognition method using a two-pass search
US6301555B2 (en) * 1995-04-10 2001-10-09 Corporate Computer Systems Adjustable psycho-acoustic parameters
US5842163A (en) * 1995-06-21 1998-11-24 Sri International Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech
US5899973A (en) * 1995-11-04 1999-05-04 International Business Machines Corporation Method and apparatus for adapting the language model's size in a speech recognition system
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
JPH10149192A (ja) * 1996-09-20 1998-06-02 Nippon Telegr & Teleph Corp <Ntt> パターン認識方法、装置およびその記憶媒体
US6018708A (en) * 1997-08-26 2000-01-25 Nortel Networks Corporation Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies
US6208964B1 (en) * 1998-08-31 2001-03-27 Nortel Networks Limited Method and apparatus for providing unsupervised adaptation of transcriptions
JP3973789B2 (ja) 1999-03-09 2007-09-12 三菱電機株式会社 要素分布の探索方法,ベクトル量子化方法,パターン認識方法,音声認識方法,音声認識装置及び認識結果を決定するためのプログラムが記録された記録媒体
JP2001075596A (ja) 1999-09-03 2001-03-23 Mitsubishi Electric Corp 音声認識装置、音声認識方法及び音声認識プログラムを記録した記録媒体
CA2387079C (en) * 1999-10-19 2011-10-18 Sony Electronics Inc. Natural language interface control system
US8392188B1 (en) * 1999-11-05 2013-03-05 At&T Intellectual Property Ii, L.P. Method and system for building a phonotactic model for domain independent speech recognition
US6754626B2 (en) * 2001-03-01 2004-06-22 International Business Machines Corporation Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
US6839667B2 (en) * 2001-05-16 2005-01-04 International Business Machines Corporation Method of speech recognition by presenting N-best word candidates
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
JP3920749B2 (ja) * 2002-09-24 2007-05-30 日本電信電話株式会社 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JP2005004018A (ja) * 2003-06-13 2005-01-06 Mitsubishi Electric Corp 音声認識装置
JPWO2005010868A1 (ja) * 2003-07-29 2006-09-14 三菱電機株式会社 音声認識システム及びその端末とサーバ
EP1685554A1 (en) * 2003-10-09 2006-08-02 TEAC America, Inc. Method, apparatus, and system for synthesizing an audio performance using convolution at multiple sample rates
JP4394972B2 (ja) * 2004-02-19 2010-01-06 日本電信電話株式会社 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体
US7228278B2 (en) * 2004-07-06 2007-06-05 Voxify, Inc. Multi-slot dialog systems and methods
JP4860962B2 (ja) 2004-08-26 2012-01-25 旭化成株式会社 音声認識装置、音声認識方法、及び、プログラム
GB0420464D0 (en) * 2004-09-14 2004-10-20 Zentian Ltd A speech recognition circuit and method
US8234116B2 (en) * 2006-08-22 2012-07-31 Microsoft Corporation Calculating cost measures between HMM acoustic models

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899240A (zh) * 2014-03-05 2015-09-09 卡西欧计算机株式会社 声音检索装置、声音检索方法
CN104899240B (zh) * 2014-03-05 2018-06-22 卡西欧计算机株式会社 声音检索装置、声音检索方法
CN105719643A (zh) * 2014-12-22 2016-06-29 卡西欧计算机株式会社 声音检索装置、声音检索方法
CN105719643B (zh) * 2014-12-22 2019-10-11 卡西欧计算机株式会社 声音检索装置、声音检索方法
CN105869641A (zh) * 2015-01-22 2016-08-17 佳能株式会社 语音识别装置及语音识别方法
CN104766607A (zh) * 2015-03-05 2015-07-08 广州视源电子科技股份有限公司 一种电视节目推荐方法与系统
CN112997247A (zh) * 2018-11-05 2021-06-18 株式会社赛斯特安国际 利用大数据的最佳语言模型生成方法及用于其的装置
CN110647367A (zh) * 2019-09-23 2020-01-03 苏州随身玩信息技术有限公司 一种讲解内容自适应切换方法和导游讲解机

Also Published As

Publication number Publication date
JPWO2008108232A1 (ja) 2010-06-10
US8612225B2 (en) 2013-12-17
US20100070277A1 (en) 2010-03-18
WO2008108232A1 (ja) 2008-09-12
JP5229216B2 (ja) 2013-07-03

Similar Documents

Publication Publication Date Title
CN101622660A (zh) 语音识别装置、语音识别方法及语音识别程序
US11887582B2 (en) Training and testing utterance-based frameworks
US10388274B1 (en) Confidence checking for speech processing and query answering
US10332508B1 (en) Confidence checking for speech processing and query answering
US10489393B1 (en) Quasi-semantic question answering
US10319365B1 (en) Text-to-speech processing with emphasized output audio
US10713289B1 (en) Question answering system
CN101000765B (zh) 基于韵律特征的语音合成方法
US8019602B2 (en) Automatic speech recognition learning using user corrections
KR100563365B1 (ko) 계층적 언어 모델
CN104021784B (zh) 基于大语料库的语音合成方法和装置
US20090048841A1 (en) Synthesis by Generation and Concatenation of Multi-Form Segments
US10832668B1 (en) Dynamic speech processing
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
US11158307B1 (en) Alternate utterance generation
Wang et al. Towards automatic assessment of spontaneous spoken English
US10515637B1 (en) Dynamic speech processing
US11030999B1 (en) Word embeddings for natural language processing
KR20180038707A (ko) 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법
Narendra et al. Optimal weight tuning method for unit selection cost functions in syllable based text-to-speech synthesis
US10157608B2 (en) Device for predicting voice conversion model, method of predicting voice conversion model, and computer program product
JP4758919B2 (ja) 音声認識装置及び音声認識プログラム
US11955112B1 (en) Cross-assistant command processing
US20040006469A1 (en) Apparatus and method for updating lexicon
Li An improved machine learning algorithm for text-voice conversion of English letters into phonemes

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20100106