JP4219603B2

JP4219603B2 - 音声認識装置

Info

Publication number: JP4219603B2
Application number: JP2002057793A
Authority: JP
Inventors: 道弘山崎
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2002-03-04
Filing date: 2002-03-04
Publication date: 2009-02-04
Anticipated expiration: 2022-03-04
Also published as: JP2003255972A

Description

【０００１】
【発明の属する技術分野】
この発明は音声信号を入力し認識結果を出力する音声認識装置に関するものである。
【０００２】
【従来の技術】
音声認識を行う場合に、入力した音声信号の音声区間を検出し、検出された音声区間に対して認識対象の語彙（以後、認識対象語彙と呼ぶ）との照合を行うものとして、特開昭５９−２１０９７９７号公報に開示されたものが一般的であり、図５はこのような音声認識装置の構成を示すブロック図である。
【０００３】
図５において、１１は入力した音声信号の音声区間を検出する音声区間検出手段、１２は音声区間検出手段１１で検出された音声区間の音声信号に対して音響分析を行う音響分析手段、１３は認識対象となる認識対象語彙と各認識対象語彙の接続関係を定義する構文情報とを記憶する認識対象語彙辞書記憶手段、１４は認識の最小単位となる音響モデルと各音響モデルの待ち時間情報を記憶する音響モデル記憶手段、１５は音響分析手段１２による音響分析結果と、認識対象語彙辞書記憶手段１３に記憶されている認識対象語彙と、音響モデル記憶手段１４に記憶されている音響モデルとを用いて照合を行い、尤度を演算して認識結果を出力する照合手段である。
【０００４】
次に動作について説明する。
音声区間検出手段１１は入力した音声信号の音声区間を検出する。ここで、音声区間は、例えば、音声信号のパワーの所定の閾値により検出するものとする。図６は音声区間の始終端検出アルゴリズムを説明する図である。音声区間検出手段１１は、図６に示すように、入力した音声信号のパワーが所定の閾値以上の区間を音声区間候補として検出し、その音声区間候補間のポーズ区間が所定の闘値、例えば３５０ｍｓｅｃ未満ならば、その二つの音声区間候補を一つの音声区間として検出し、音響分析手段１２に検出した音声区間の音声信号を出力する。
【０００５】
認識対象語彙辞書記憶手段１３が記憶している認識対象語彙は、例えば“とうきょうと”、“かながわけん”、“かまくらし”、“けせんぬま”、“ゆくはし”、・・・という単語と、“かながわけん”から“かまくらし”への接続、“とうきょうと”から“まるのうち”への接続等の、各認識対象語彙の接続関係を定義する構文情報である。この認識対象語彙辞書記憶手段１３に記憶する認識対象語彙は認識毎に入れ替えてもかまわない。
【０００６】
図７はＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）の例を示す図であり、ここでは、“かながわけん”“かまくらし”と接続された場合のＨＭＭを示している。図において、各丸印がＨＭＭの各状態を表し音響モデル記憶手段１４に記憶され、矢印が遷移を表し認識対象語彙辞書記憶手段１３に記憶されている。また、／Ｌ１／は語頭（発声前）の無音区間に対応する音響モデルを表わし、／Ｌ２／は語尾（発声後）の無音区間に対応する音響モデルを表わし、／Ｌ３／は単語間（発声中）の無音区間に対応する音響モデルを表わしている。
【０００７】
音響分析手段１２は、音声区間検出手段１１で検出された音声区間の音声信号を一定長の長さ（フレーム長）で一定周期（フレーム周期）毎に切り出し、この切り出された音声データ（フレーム毎の音声データ）を分析して、音響分析結果である時系列データを照合手段１５に出力する。
【０００８】
照合手段１５は、音響分析手段１２による音響分析結果と、認識対象語彙辞書記憶手段１３に記憶されている認識対象語彙と、音響モデル記憶手段１４で記憶されている音響モデルとを用いて照合を行い、全認識対象語彙の最終状態での尤度を求め、最終状態で最大尤度を取る認識対象語彙を認識結果として出力する。
【０００９】
ここで、照合手段１５は、例えば以下のような演算をして尤度を求める。
認識対象語彙辞書記憶手段１３に記憶している認識対象語彙ｌのｎ番目の状態に対応する音響モデルをｄｉｃ（ｌ，ｎ）とし、時刻（フレーム）ｔのときに認識対象語彙ｌがｎ番目の状態にあったと仮定し、このときの分析結果の１フレーム分の尤度をｌｋｌｈｄ（ｌ，ｔ，ｎ）とする。
【００１０】
図８は認識対象語彙ｌに対する認識パスの例を示す図であり、入力された時刻（フレーム）と、ある認識対象語彙ｌの状態での経路を示している。この経路は複数考えられるが、図８はそのうちの１つの経路を示しており、認識対象語彙ｌに対してフレームｔでの状態がｎ番目のときの尤度をｌｋｌｈｄ（ｌ，ｔ，ｎ）としている。
【００１１】
例えば、図８に示すような経路をとった場合の尤度は、以下の式により演算する。音声区間検出手段１１で検出された音声区間の長さがＴフレームであったとすると、認識対象語彙ｌのｎ番目の状態までのある経路に対する累積尤度Ｌｋｌｈｄ’（ｌ，ｎ）は次式で表される。
【数１】

ここで、ｋ（ｔ）はフレームｔに対して割り当てられた状態が何番目であるかを示す。
【００１２】
ここで、この入力音声に対する認識対象語彙ｌのｎ番目の状態に到達する経路の中で最大尤度となる累積尤度Ｌｋｌｈｄ（ｌ，ｎ）は、次式で表わされる。
【数２】

また、認識対象語彙ｌの尤度ＬＫ（ｌ）は最終状態をＮ（ｌ）とすると、
ＬＫ（ｌ）＝Ｌｋｌｈｄ（ｌ，Ｎ（ｌ））（３）
となる。各認識対象語彙の尤度中で最大尤度ＬＫ（Ｌ）を取る認識対象語彙Ｌを認識結果として出力する。
【数３】

【００１３】
このように、図５に示す従来の音声認識装置では、音声区間検出手段１１が入力した音声信号の音声区間を検出し、音響分析手段１２が、音声区間検出手段１１で検出された音声区間の音声信号をフレーム毎に切り出し、この切り出されたフレーム毎の音声データを分析してその分析結果を照合手段１５に出力し、照合手段１５はフレーム毎に認識対象語彙辞書記憶手段１３に記憶されている認識対象語彙と、音響モデル記憶手段１４に記憶されている音響モデルとを用いて照合を行い、全認識対象語彙の最終状態での尤度を求め、最終状態で最大尤度を取る認識対象語彙を認識結果として出力している。
【００１４】
【発明が解決しようとする課題】
従来の音声認識装置は、以上のように構成されているので、連続した単語を認識させる場合にポーズ等で音声が途切れると、その後に続く音声を認識できず認識精度が劣化するという課題があった。また、これに対処するため、次の音声区間の入力を一定時間待つ方法を用いると、発声から音声認識結果を出力するまでの応答時間が遅くなると共に、音声の後ろに続くポーズ区間の雑音を拾って認識してしまい認識精度が劣化するという課題があった。
【００１５】
この発明は上記のような課題を解決するためになされたもので、連続した単語を認識させる場合にポーズ等で音声が途切れても、認識精度を向上させることができる音声認識装置を得ることを目的とする。
【００１６】
【課題を解決するための手段】
この発明に係る音声認識装置は、照合手段からの各部分仮説の尤度と、各部分仮説の構文上の位置又は認識対象語彙上の位置とを入力し、最大尤度となる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して次の音声区間までの待ち時間を設定し、最大尤度となる部分仮説が構文上又は認識対象語彙上、後続する語彙が存在しない位置にある最終結果の場合には、待ち時間を０として最終結果を認識結果として出力し、最大尤度となる部分仮説が予めポーズとして指定されている位置にある中間結果の場合には、０より長い次の音声区間までの第１の待ち時間を設定し、音声区間検出手段からの音声区間検出確定通知を受けて、設定した第１の待ち時間未満に次の音声区間が検出された場合には、照合手段に次の音声区間を継続して照合を行うよう指示し、設定した第１の待ち時間未満に次の音声区間が検出されない場合には、中間結果を認識結果として出力する次音声区間待ち判定手段を備えたものである。
【００１７】
この発明に係る音声認識装置は、次音声区間待ち判定手段が、最大尤度となる部分仮説が、構文上又は認識対象語彙上、後続する語彙が存在しない位置にある最終結果以外で、かつ中間結果以外の中間状態の場合には、第１の待ち時間より短い次の音声区間までの第２の待ち時間を設定し、設定した第２の待ち時間未満に次の音声区間が検出された場合には、照合手段に次の音声区間を継続して照合を行うよう指示し、設定した第２の待ち時間未満に次の音声区間が検出されない場合には、中間状態を認識結果として出力するか、又は認識結果なしを出力するものである。
【００１８】
この発明に係る音声認識装置は、照合手段からの各部分仮説の尤度と、音響モデル記憶手段に記憶されている各音響モデルの待ち時間情報と、認識対象語彙辞書記憶手段に記憶されている各認識対象語彙の接続関係を定義する構文情報とを入力し、最大尤度となる部分仮説の最後の音響モデルの待ち時間情報により、次の音声区間までの待ち時間を設定し、最大尤度となる部分仮説の最後の音響モデルが語尾の無音区間に対応する音響モデルである場合には、待ち時間を０とし、最大尤度となる部分仮説の最後の音響モデルが単語間の無音区間に対応する音響モデルである場合には、０より長い次の音声区間までの第１の待ち時間を設定し、音声区間検出手段からの音声区間検出確定通知を受けて、設定した待ち時間未満に次の音声区間が検出された場合には、照合手段に次の音声区間を継続して照合を行うよう指示し、設定した待ち時間未満に次の音声区間が検出されない場合には、最大尤度となる部分仮説を認識結果として出力する次音声区間待ち判定手段とを備えたものである。
【００１９】
この発明に係る音声認識装置は、次音声区間待ち判定手段が、設定した待ち時間未満に次の音声区間が検出されない場合には、最大尤度となる部分仮説が各認識対象語彙の接続関係を定義する構文情報により認識結果として採用可能かを判断して採用可能な場合に、最大尤度となる部分仮説を認識結果として出力するものである。
【００２０】
この発明に係る音声認識装置は、次音声区間待ち判定手段が、最大尤度となる部分仮説が認識結果として採用不可能な場合に、次に尤度が高い部分仮説の最後の音響モデルに対応して次の音声区間までの待ち時間を設定するものである。
【００２１】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態１．
図１はこの発明の実施の形態１による音声認識装置の構成を示すブロック図であり、図において、１は入力した音声信号の音声区間を検出し、検出した音声区間の音声信号を出力すると共に、音声区間を確定したことを示す音声区間確定通知を出力する音声区間検出手段、２は音声区間検出手段１で検出された音声区間の音声信号に対して音響分析を行う音響分析手段、３は認識対象となる認識対象語彙と各認識対象語彙の接続関係を定義する構文情報とを記憶する認識対象語彙辞書記憶手段、４は認識の最小単位となる音響モデルと各音響モデルの待ち時間情報を記憶する音響モデル記憶手段である。
【００２２】
また、図１において、５は音響分析手段２による音響分析結果と、認識対象語彙辞書記憶手段３に記憶されている認識対象語彙と、音響モデル記憶手段４に記憶されている音響モデルとを用いて照合を行い、各認識対象語彙の各状態を示す各部分仮説における尤度を演算し、認識対象語彙辞書記憶手段３に記憶されている各認識対象語彙の接続関係を定義する構文情報から、各部分仮説の構文上の位置又は認識対象語彙上の位置を求める照合手段である。
【００２３】
さらに、図１において、６は照合手段５からの各部分仮説の尤度と、各部分仮説の構文上の位置又は認識対象語彙上の位置とを入力し、最大尤度となる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して次の音声区間までの待ち時間を設定し、音声区間検出手段１からの音声区間検出確定通知を受けて、設定した待ち時間未満に次の音声区間が検出された場合には、照合手段５に次の音声区間を継続して照合を行うよう指示し、設定した待ち時間未満に次の音声区間が検出されない場合には、最大尤度となる部分仮説を認識結果として出力する次音声区間待ち判定手段である。
【００２４】
このように、音響分析手段２、認識対象語彙辞書記憶手段３及び音響モデル記憶手段４は、従来の図５に示す音響分析手段１２、認識対象語彙辞書記憶手段１３及び音響モデル記憶手段１４と同等のものである。
【００２５】
次に動作について説明する。
音声区間検出手段１は、図６に示すように、入力した音声信号のパワーが所定の閾値以上の区間を音声区間候補として検出し、その音声区間候補間のポーズ区間が所定の闘値、例えば３５０ｍｓｅｃ未満ならば、その二つの音声区間候補を一つの音声区間として検出し、検出した音声区間の音声信号を音響分析手段２に出力する。また、音声区間検出手段１は、音声区間の開始を検出して、所定の闘値以上の音声信号のパワーが所定時間、例えば５０ｍｓｅｃ続いた時点で音声区間であることを確定し、音声区間確定通知を次音声区間待ち判定手段６に出力する。
【００２６】
音響分析手段２は、従来と同様に、音声区間検出手段１で検出された音声区間の音声信号に対して音響分析を行う。すなわち、音響分析手段２は、音声区間検出手段１が検出した音声区間の音声信号をフレーム長でフレーム周期毎に切り出し、この切り出されたフレーム毎の音声データを分析して、音響分析結果である時系列データを照合手段５に出力する。
【００２７】
従来の照合手段１５は最終状態が最大尤度を取る認識対象語彙を認識結果として出力するのに対し、この照合手段５は、認識対象語彙辞書記憶手段３に記憶されている全認識対象語彙のＨＭＭの各状態に対応する音響モデル記憶手段４に記憶されている音響モデルと、音響分析手段２による音響分析結果を用いて、各認識対象語彙の各状態を示す各部分仮説における尤度を演算し、認識対象語彙辞書記憶手段３に記憶されている各認識対象語彙の接続関係を定義する構文情報から、各部分仮説の構文上の位置又は認識対象語彙上の位置を求めて、各部分仮説における尤度と、各部分仮説の構文上の位置又は認識対象語彙上の位置とを次音声区間待ち判定手段６に出力する。
【００２８】
ここで、各部分仮説における尤度の演算では、例えば図７において、／ｋａ／までの部分仮説における尤度、／ｋａ／，／ｎａ／までの部分仮説における尤度、／ｋａ／，／ｎａ／，／ｇａ／までの部分仮説における尤度というように、順次演算し、／ｋａ／，／ｎａ／，／ｇａ／，／ｗａ／，／ｋｅ／，／Ｎ／，／Ｌ３／，／ｋａ／，／ｍａ／，／ｋｕ／，／ｒａ／，／ｓｉ／，／Ｌ２／までの部分仮説における尤度を演算していく。
【００２９】
次音声区間待ち判定手段６は、照合手段５から受け取った部分仮説のうち、最大尤度をとる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して、次の音声区間までの待ち時間を設定し、音声区間検出手段１からの音声区間検出確定通知を受けて、設定した待ち時間未満に次の音声区間が検出された場合には、照合手段５に次の音声区間を継続して照合を行うよう指示し、設定した待ち時間未満に次の音声区間が検出されない場合には、最大尤度となる部分仮説を認識結果として出力する。
【００３０】
図２は次音声区間待ち判定手段の判定処理を示すフローチャートであり、ここでは、最大尤度となる部分仮説が構文上又は認識対象語彙上、後続する語彙が存在しない位置にある場合を最終結果とし、認識対象語彙辞書記憶手段３で予めポーズとして指定されている位置にある部分仮説を中間結果とし、それ以外の位置にある部分仮説を中間状態としている。すなわち、図７の例では、最大尤度となる部分仮説が／Ｌ２／の位置にある場合には最終結果とし、／Ｌ３／の位置にある場合には中間結果とし、／Ｌ１／，／Ｌ２／，／Ｌ３／以外の位置にある場合には中間状態とする。
【００３１】
次音声区間待ち判定手段６は、最大尤度となる部分仮説が構文上又は認識対象語彙上の位置に対応して、照合を行った音声区間の終端から次の音声区間の始端までの待ち時間を設定している。例えば、次音声区間待ち判定手段６は、最大尤度となる部分仮説が、最終結果である場合には、続の音声区間を継続して認識する必要がないために待ち時間を０に設定し、中間結果である場合には待ち時間ＴｈＴｉｍｅ１を例えば３秒に設定し、中間状態である場合には待ち時間ＴｈＴｉｍｅ２を例えば１秒に設定している。
【００３２】
図２のステップＳＴ１１において、次音声区間待ち判定手段６は照合手段５から、部分仮説における尤度、部分仮説の構文上の位置又は認識対象語彙上の位置を受け取る。ステップＳＴ１２において、受け取った各部分仮説における尤度の中で最大尤度となる部分仮説を判定用部分仮説とする。ステップＳＴ１３において、受け取った各部分仮説の構文上の位置又は認識対象語彙上の位置から、判定用部分仮説が最終結果であるかを判定し、判定用部分仮説が最終結果の場合には、待ち時間が０であるため、ステップＳＴ１４において、判定用部分仮説を即座に認識結果として出力する。
【００３３】
ステップＳＴ１３で、判定用部分仮説が最終結果でなければ、ステップＳＴ１５にいて、判定用部分仮説が中間結果であるかを判定し、中間結果であればステップＳＴ１６に進み、中間結果でなければ、すなわち、中間状態であれば、ステップＳＴ１９に進む。判定用部分仮説が中間結果の場合には、ステップＳＴ１６において、音声区間検出手段１からの音声区間確定通知を受けて、照合を行った音声区間の終端から次の音声区間の始端までの待ち時間がＴｈＴｉｍｅ１未満、例えばＴｈＴｉｍｅ１＝３秒未満であるかをチェックする。
【００３４】
ステップＳＴ１６で、次の音声区間が検出されないまま待ち時間ＴｈＴｉｍｅ１を経過した場合、ステップＳＴ１７において、タイムアウト処理として中間結果を認識結果として出力する。一方、ステップＳＴ１６で、ＴｈＴｉｍｅ１未満で次音声区間が検出されていれば、ステップＳＴ１８において、照合手段５に以前の照合状態から継続して認識を行うように指示する。
【００３５】
ここで、中間結果のときに、次の音声区間の待ち時間（ＴｈＴｉｍｅ１）を、例えば３秒と長めに設定しているのは、部分仮説が中間結果の場合、もともとポーズ（無音区間）が挿入されることが予想されているため、無音区間が長い可能性が高いためである。
【００３６】
また、ステップＳＴ１５で、判定用部分仮説が中間状態の場合には、ステップＳＴ１９において、音声区間検出手段１からの音声区間確定通知を受けて、照合を行った音声区間の終端から次の音声区間の始端までの待ち時間がＴｈＴｉｍｅ２未満、例えばＴｈＴｉｍｅ２＝１秒未満であるかをチェックして、ＴｈＴｉｍｅ１未満で次音声区間が検出されていれば、ステップＳＴ１８において、照合手段５に以前の照合状態から継続して認識を行うように指示する。
【００３７】
ステップＳＴ１９で、次の音声区間が検出されないまま待ち時間が一定時間ＴｈＴｉｍｅ２を経過した場合、ステップＳＴ２０においてタイムアウト処理を行う。このタイムアウト処理では、前の音声区間での部分仮説の中で認識結果として出力することができる最大尤度のものを認識結果として出力する。また、このタイムアウト処理では、認識結果なしということでリジェクトとしても良い。
【００３８】
ここで、中間状態のときの次の音声区間の待ち時間ＴｈＴｉｍｅ２を、中間結果のときの待ち時間ＴｈＴｉｍｅ１より短めに設定しているのは、文章や単語の区切り等、予めポーズが想定されている場所に比べて、それ程長いポーズが入らないと想定されるためである。
【００３９】
なお、この実施の形態１では、説明の便宜上、構文上の位置又は認識対象語彙上の位置を、最終結果、中間結果、中間状態の３種類としたが、例えば、図７に示す認識対象語彙“かながわけん”の“かながわ”と“けん”の間に別の待ち時間を設定する等、さらに細かい設定をしても良い。
【００４０】
以上のように、この実施の形態１によれば、最大尤度となる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して、次の音声区間までの待ちの時間を設定することにより、連続した単語を認識させる場合にポーズ等で音声が途切れても、認識精度を向上させることができるという効果が得られる。
【００４１】
また、この実施の形態１によれば、構文の最後まで発声が終了している場合には、発声から音声認識結果を出力するまでの応答時間を早くすることができるという効果が得られる。
【００４２】
実施の形態２．
図３はこの発明の実施の形態２による音声認識装置の構成を示すブロック図である。図において、５ａは音響分析手段２による音響分析結果と、認識対象語彙辞書記憶手段３に記憶されている認識対象語彙と、音響モデル記憶手段４に記憶されている音響モデルとを用いて照合を行い、各認識対象語彙の各状態を示す各部分仮説における尤度を演算する照合手段である。
【００４３】
また、図３において、６ａは照合手段５ａからの部分仮説の尤度と、音響モデル記憶手段４からの各音響モデルの待ち時間情報と、認識対象語彙辞書記憶手段３からの各認識対象語彙の接続関係を定義する構文情報とを入力し、最大尤度となる部分仮説の最後の音響モデルの待ち時間情報により、次の音声区間までの待ち時間を設定し、音声区間検出手段１からの音声区間検出確定通知を受けて、設定した待ち時間未満に次の音声区間が検出された場合には、照合手段５ａに次の音声区間を継続して照合を行うよう指示し、設定した待ち時間未満に次の音声区間が検出されない場合には、認識対象語彙辞書記憶手段３からの構文情報により、最大尤度となる部分仮説が認識結果として採用可能かを判断して、認識結果を出力する次音声区間待ち判定手段である。
【００４４】
さらに、図３において、音声区間検出手段１、音響分析手段２、認識対象語彙辞書記憶手段３、音響モデル記憶手段４は実施の形態１の図１に示す構成と同等である。
【００４５】
次に動作について説明する。
上記実施の形態１では、最大尤度となる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して、次の音声区間までの待ち時間を設定していたが、この実施の形態２では、最大尤度となる部分仮説の最後の音響モデルに対応して、次の音声区間までの待ち時間を設定するものである。
【００４６】
例えば、図７において、語頭（発声前）の無音区間に対応する音響モデル／Ｌ１／に対しては音声区間の待ち時間を１秒とし、語尾（発声後）の無音区間に対応する音響モデル／Ｌ２／に対しては音声区間の待ち時間を０秒とし、単語間（発声中）の無音区間に対応する音響モデル／Ｌ３／に対しては音声区間の待ち時間を３秒とし、それ以外の／ｋａ／，／ｎａ／等の音響モデルに対しては１秒等とする。また、拗音に対応する音響モデルに対しては例えば２秒とし、さらに、騒音下環境で音声区間検出で誤って無音区間と判断されやすい音響モデル、例えば無声化しやすい「し」、「ひ」、「ふ」、「ち」等に対しては、例えば１．５秒とする。これらの待ち時間は音響モデル記憶手段４に各音響モデルの待ち時間情報として記憶されている。
【００４７】
図４は次音声区間待ち判定手段の判定処理を示すフローチャートである。ステップＳＴ２１において、次音声区間待ち判定手段６ａは照合手段５ａから、各部分仮説における尤度を受け取る。ステップＳＴ２２において、受け取った部分仮説の中で最大尤度を取る部分仮説を判定用部分仮説とする。
【００４８】
ステップＳＴ２３において、判定用部分仮説の最後の音響モデルｐの待ち時間情報を音響モデル記憶手段４から抽出し、抽出した待ち時間情報により、次の音声区間の待ち時間ＴｈＴｉｍｅ（ｐ）を設定する。例えば、図７において、最後の音響モデルが／Ｌ２／の場合にはＴｈＴｉｍｅ（ｐ）＝０秒と設定し、／Ｌ３／の場合にはＴｈＴｉｍｅ（ｐ）＝３秒と設定する。
【００４９】
ステップＳＴ２４において、音声区間検出手段１からの音声区間確定通知を受けて、照合を行った音声区間の終端からの次の音声区間の始端までの待ち時間が、ＴｈＴｉｍｅ（ｐ）を超えていないかをチェックする。ステップＳＴ２４で、待ち時間ＴｈＴｉｍｅ（ｐ）未満で次の音声区間が検出されていれば、ステップＳＴ２５において、照合手段５ａに以前の照合状態から継続して認識を行うように指示する。
【００５０】
一方、ステップＳＴ２４で、次の音声区間が検出されないまま待ち時間ＴｈＴｉｍｅ（ｐ）を経過した場合、次のステップＳＴ２６からステップＳＴ２９までのタイムアウト処理を行う。このタイムアウト処理として、例えば以下のような処理を行う。
【００５１】
ステップＳＴ２６において、判定用部分仮説が認識結果として採用できるものであるか判定する。判定用部分仮説が認識結果として採用できるかは、認識対象語彙辞書記憶手段３に各認識対象語彙の接続関係を定義する構文情報として記憶されている。この構文情報としては、例えば図７において、語尾（発声後）の無音区間に対応する音響モデル／Ｌ２／に到達している部分仮説だけを認識結果として採用するとか、語尾（発声後）の無音区間に対応する音響モデル／Ｌ２／、又は単語間（発声中）の無音区間に対応する音響モデル／Ｌ３／に到達している部分仮説を認識結果として採用するというものである。
【００５２】
ステップＳＴ２６の判定結果で、認識結果として採用可能であれば、ステップＳＴ２７において、判定用部分仮説を認識結果として出力する。ステップＳＴ２６の判定結果で、認識結果として採用不可能であれば、ステップＳＴ２８において、判定用部分仮説の次に尤度が高い部分仮説が存在するかチェックする。
【００５３】
ステップＳＴ２８で、次に尤度が高い部分仮説が存在していれば、ステップＳＴ２９において、次に尤度が高い部分仮説を新たな判定部分用部分仮説とし、ステップＳＴ２３に戻り、上記の処理を繰り返す。一方、ステップＳＴ２８で、次に尤度が高い部分仮説が存在しなければ、認識結果なしとしてリジェクトし終了する。
【００５４】
ここで、次に尤度が高い部分仮説が存在しない場合があるのは、全ての部分仮説の演算量は膨大になるため、ビームサーチと呼ばれる方法等により、フレーム毎に、最大尤度から一定以上の尤度の差がある部分仮説の演算をしなかったり、最大尤度となる部分仮説から上位ｎ個までの部分仮説の演算しかしないことにより演算量を削減しているからである。
【００５５】
以上のように、この実施の形態２によれば、最大尤度となる部分仮説の最後の音響モデルに対応して、次の音声区間までの待ち時間を設定することにより、連続した単語を認識させる場合にポーズ等で音声が途切れても、認識精度を向上させることができると共に、ポーズや、拗音等で想定される無音区間が異なることに対応でき、無声化しやすい音声を音声区間検出で誤って無音区間とした場合にも対応でき、認識精度を向上させることができるという効果が得られる。
【００５６】
また、この実施の形態２によれば、最大尤度となる部分仮説の最後の音響モデルに対応して次の音声区間までの待ち時間を設定することにより、最大尤度となる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して、次の音声区間待ちの時間を設定するよりも、構文や認識対象語彙を変更する際に、細かく待ち時間を設定する必要がなくなるという効果が得られる。
【００５７】
上記実施の形態１及び実施の形態２の音声認識装置の各手段については、ハードウェア、ソフトウェアのいずれでも構成できることはいうまでもない。また、ソフトウェアによって構成する場合には、そのソフトウェアを記録した媒体が必要となる。
【００５８】
【発明の効果】
以上のように、この発明によれば、照合手段からの各部分仮説の尤度と、各部分仮説の構文上の位置又は認識対象語彙上の位置とを入力し、最大尤度となる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して次の音声区間までの待ち時間を設定し、最大尤度となる部分仮説が構文上又は認識対象語彙上、後続する語彙が存在しない位置にある最終結果の場合には、待ち時間を０として最終結果を認識結果として出力し、最大尤度となる部分仮説が予めポーズとして指定されている位置にある中間結果の場合には、０より長い次の音声区間までの第１の待ち時間を設定し、音声区間検出手段からの音声区間検出確定通知を受けて、設定した第１の待ち時間未満に次の音声区間が検出された場合には、照合手段に次の音声区間を継続して照合を行うよう指示し、設定した第１の待ち時間未満に次の音声区間が検出されない場合には、中間結果を認識結果として出力する次音声区間待ち判定手段を備えるように構成したので、構文の最後まで発声が終了している場合には、発声から音声認識結果を出力するまでの応答時間を早くすることができ、また、連続した単語を認識させる場合にポーズ等で音声が途切れても、認識精度を向上させることができるという効果がある。
【００５９】
この発明によれば、次音声区間待ち判定手段が、最大尤度となる部分仮説が、構文上又は認識対象語彙上、後続する語彙が存在しない位置にある最終結果以外で、かつ中間結果以外の中間状態の場合には、第１の待ち時間より短い次の音声区間までの第２の待ち時間を設定し、設定した第２の待ち時間未満に次の音声区間が検出された場合には、照合手段に次の音声区間を継続して照合を行うよう指示し、設定した第２の待ち時間未満に次の音声区間が検出されない場合には、中間状態を認識結果として出力するか、又は認識結果なしを出力するように構成したので、連続した単語を認識させる場合に中間状態等で音声が途切れても、認識精度を向上させることができるという効果がある。
【００６０】
この発明によれば、照合手段からの各部分仮説の尤度と、音響モデル記憶手段に記憶されている各音響モデルの待ち時間情報と、認識対象語彙辞書記憶手段に記憶されている各認識対象語彙の接続関係を定義する構文情報とを入力し、最大尤度となる部分仮説の最後の音響モデルの待ち時間情報により、次の音声区間までの待ち時間を設定し、最大尤度となる部分仮説の最後の音響モデルが語尾の無音区間に対応する音響モデルである場合には、待ち時間を０とし、最大尤度となる部分仮説の最後の音響モデルが単語間の無音区間に対応する音響モデルである場合には、０より長い次の音声区間までの第１の待ち時間を設定し、音声区間検出手段からの音声区間検出確定通知を受けて、設定した待ち時間未満に次の音声区間が検出された場合には、照合手段に次の音声区間を継続して照合を行うよう指示し、設定した待ち時間未満に次の音声区間が検出されない場合には、最大尤度となる部分仮説を認識結果として出力する次音声区間待ち判定手段とを備えるように構成したので、構文の最後まで発声が終了している場合には、発声から音声認識結果を出力するまでの応答時間を早くすることができ、また、連続した単語を認識させる場合にポーズ等で音声が途切れても、認識精度を向上させることができると共に、ポーズや、拗音等で想定される無音区間が異なることに対応でき、無声化しやすい音声を音声区間検出で誤って無音区間とした場合にも対応でき、認識精度を向上させることができるという効果がある。
【００６１】
この発明によれば、次音声区間待ち判定手段が、設定した待ち時間未満に次の音声区間が検出されない場合には、最大尤度となる部分仮説が各認識対象語彙の接続関係を定義する構文情報により認識結果として採用可能かを判断して採用可能な場合に、最大尤度となる部分仮説を認識結果として出力するように構成したので、認識精度を向上させることができるという効果がある。
【００６２】
この発明によれば、次音声区間待ち判定手段が、次音声区間待ち判定手段が、最大尤度となる部分仮説が認識結果として採用不可能な場合に、次に尤度が高い部分仮説の最後の音響モデルに対応して次の音声区間までの待ち時間を設定するように構成したので、無声化しやすい音声を音声区間検出で誤って無音区間とした場合にも対応でき、認識精度を向上させることができるという効果がある。
【図面の簡単な説明】
【図１】この発明の実施の形態１による音声認識装置の構成を示すブロック図である。
【図２】この発明の実施の形態１による音声認識装置の次音声区間待ち判定手段の判定処理を示すフローチャートである。
【図３】この発明の実施の形態２による音声認識装置の構成を示すブロック図である。
【図４】この発明の実施の形態２による音声認識装置の次音声区間待ち判定手段の判定処理を示すフローチャートである。
【図５】従来の音声認識装置の構成を示すブロック図である。
【図６】音声区間の始終端検出アルゴリズムを説明する図である。
【図７】ＨＭＭの例を示す図である。
【図８】認識対象語彙に対する認識パスの例を示す図である。
【符号の説明】
１音声区間検出手段、２音響分析手段、３認識対象語彙辞書記憶手段、４音響モデル記憶手段、５，５ａ照合手段、６，６ａ次音声区間待ち判定手段。

Claims

入力した音声信号の音声区間を検出すると共に、音声区間を確定したことを示す音声区間確定通知を出力する音声区間検出手段と、
上記音声区間検出手段で検出された音声区間の音声信号に対して音響分析を行う音響分析手段と、
認識対象となる認識対象語彙と各認識対象語彙の接続関係を定義する構文情報とを記憶する認識対象語彙辞書記憶手段と、
認識の最小単位となる音響モデルを記憶する音響モデル記憶手段と、
上記音響分析手段による音響分析結果と、上記認識対象語彙辞書記憶手段に記憶されている認識対象語彙と、上記音響モデル記憶手段に記憶されている音響モデルとを用いて照合を行い、各認識対象語彙の各状態を示す各部分仮説における尤度を演算し、上記認識対象語彙辞書記憶手段に記憶されている各認識対象語彙の接続関係を定義する構文情報から、上記部分仮説の構文上の位置又は認識対象語彙上の位置を求める照合手段と、
上記照合手段からの上記各部分仮説の尤度と、上記各部分仮説の構文上の位置又は認識対象語彙上の位置とを入力し、最大尤度となる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して次の音声区間までの待ち時間を設定し、最大尤度となる部分仮説が構文上又は認識対象語彙上、後続する語彙が存在しない位置にある最終結果の場合には、待ち時間を０として上記最終結果を認識結果として出力し、最大尤度となる部分仮説が予めポーズとして指定されている位置にある中間結果の場合には、０より長い次の音声区間までの第１の待ち時間を設定し、上記音声区間検出手段からの音声区間検出確定通知を受けて、設定した上記第１の待ち時間未満に次の音声区間が検出された場合には、上記照合手段に次の音声区間を継続して照合を行うよう指示し、設定した上記第１の待ち時間未満に次の音声区間が検出されない場合には、上記中間結果を認識結果として出力する次音声区間待ち判定手段とを備えた音声認識装置。
次音声区間待ち判定手段は、最大尤度となる部分仮説が、構文上又は認識対象語彙上、後続する語彙が存在しない位置にある最終結果以外で、かつ中間結果以外の中間状態の場合には、第１の待ち時間より短い次の音声区間までの第２の待ち時間を設定し、設定した上記第２の待ち時間未満に次の音声区間が検出された場合には、照合手段に次の音声区間を継続して照合を行うよう指示し、設定した上記第２の待ち時間未満に次の音声区間が検出されない場合には、上記中間状態を認識結果として出力するか、又は認識結果なしを出力することを特徴とする請求項１記載の音声認識装置。
入力した音声信号の音声区間を検出すると共に、音声区間を確定したことを示す音声区間確定通知を出力する音声区間検出手段と、
上記音声区間検出手段で検出された音声区間の音声信号に対して音響分析を行う音響分析手段と、
認識対象となる認識対象語彙と各認識対象語彙の接続関係を定義する構文情報とを記憶する認識対象語彙辞書記憶手段と、
認識の最小単位となる音響モデルと各音響モデルの待ち時間情報を記憶する音響モデル記憶手段と、
上記音響分析手段による音響分析結果と、上記認識対象語彙辞書記憶手段に記憶されている認識対象語彙と、上記音響モデル記憶手段に記憶されている音響モデルとを用いて照合を行い、各認識対象語彙の各状態を示す各部分仮説における尤度を演算する照合手段と、
上記照合手段からの上記各部分仮説の尤度と、上記音響モデル記憶手段に記憶されている各音響モデルの待ち時間情報と、上記認識対象語彙辞書記憶手段に記憶されている各認識対象語彙の接続関係を定義する構文情報とを入力し、最大尤度となる部分仮説の最後の音響モデルの待ち時間情報により、次の音声区間までの待ち時間を設定し、最大尤度となる部分仮説の最後の音響モデルが語尾の無音区間に対応する音響モデルである場合には、待ち時間を０とし、最大尤度となる部分仮説の最後の音響モデルが単語間の無音区間に対応する音響モデルである場合には、０より長い次の音声区間までの第１の待ち時間を設定し、上記音声区間検出手段からの音声区間検出確定通知を受けて、設定した待ち時間未満に次の音声区間が検出された場合には、上記照合手段に次の音声区間を継続して照合を行うよう指示し、設定した待ち時間未満に次の音声区間が検出されない場合には、上記最大尤度となる部分仮説を認識結果として出力する次音声区間待ち判定手段とを備えた音声認識装置。
次音声区間待ち判定手段は、設定した待ち時間未満に次の音声区間が検出されない場合には、最大尤度となる部分仮説が各認識対象語彙の接続関係を定義する構文情報により認識結果として採用可能かを判断して採用可能な場合に、上記最大尤度となる部分仮説を認識結果として出力することを特徴とする請求項３記載の音声認識装置。
次音声区間待ち判定手段は、最大尤度となる部分仮説が認識結果として採用不可能な場合に、次に尤度が高い部分仮説の最後の音響モデルに対応して次の音声区間までの待ち時間を設定することを特徴とする請求項４記載の音声認識装置。