JP2005227555A

JP2005227555A - 音声認識装置

Info

Publication number: JP2005227555A
Application number: JP2004036465A
Authority: JP
Inventors: Masahiko Ikeda; 雅彦池田
Original assignee: Renesas Technology Corp
Current assignee: Renesas Technology Corp
Priority date: 2004-02-13
Filing date: 2004-02-13
Publication date: 2005-08-25

Abstract

【課題】音声が再入力された場合においても、音声を精度良く認識する。
【解決手段】音声認識装置１は、音響分析器２、複数の辞書５，６、間隔計測器１１、辞書選択器４、照合処理器３、認識結果補正器７及び補正テーブル８を備える。音響分析器２は、入力された音声の音響的特徴を得る。複数の辞書５，６は、各々において音響的特徴と語彙との関連付けがなされ、関連付けが音響的特徴によって相互に異なる。間隔計測器１１は、音声の発話間隔を設定する。辞書選択器４は、発話間隔が所定の範囲内にある場合に、辞書５，６の複数を切り替える。照合処理器３は、辞書選択器４によって選択された一の辞書と音声とを照合して、音声に対応する語彙を、スコアを付加して、少なくとも一つ抽出する。認識結果補正器７は、補正テーブル８及から得られる、語彙の使用履歴に基づいてスコア補正する。そして、最も妥当な語彙をシステム１０へと出力する。
【選択図】図１

Description

本発明は、音声認識装置に関する。

従来の音声認識装置は、例えば入力された音声を分析したデータと辞書とを照合して、入力された音声に対応する妥当な語彙を抽出する。辞書は、互いに関連付けられた音声データと語彙等を含む。抽出された語彙は、温度や気圧等の環境に応じて補正される。そして、音声認識装置は、補正された語彙に基づいて音声を認識していた。このような技術は、例えば特許文献１に開示されている。

また、音声認識装置は、入力された音声が言い直しによる再入力であるか否かを、例えば直前に入力された音声との時間間隔により判断している。時間間隔が、ある閾値よりも小さい場合に再入力であると判断する技術が、例えば特許文献２に開示されている。

なお、語彙のデータベースから照合に必要な語彙を抽出し、抽出した語彙数によってその後の認識処理方法を異ならせる技術が、特許文献３に開示されている。また、入力された音声の認識に誤りが生じた場合に、その音声の特徴を表すデータを学習して、音声認識の精度を向上させる技術が、特許文献４に開示されている。

特開平８−２９７４９８号公報特開２００１−８３９９０号公報特開２０００−３０５５９５号公報特開平６−２８９８９９号公報

音声の再入力があった場合には、音声のリズム等が変化しやすい。従来の技術では、音声データと語彙とが一対一で関連付けられた辞書を一つしか設けていなかった。このため、同じ語彙であっても辞書内にない音声データをもつ音声が入力された場合には、その語彙を認識できないことがあった。

本発明は、上述の事情に鑑みてなされたものであり、音声が再入力された場合においても、音声を精度良く認識することが目的とされる。

この発明にかかる第１の音声認識装置は、音響分析器と、複数の辞書と、間隔計測器と、辞書選択器と、照合処理器とを備える。前記音響分析器は、入力された音声の音響的特徴を得る。複数の前記辞書は、各々において前記音響的特徴と語彙との関連付けがなされ、前記関連付けが前記音響的特徴によって相互に異なる。前記間隔計測器は、前記音声の発話間隔を設定する。前記辞書選択器は、前記発話間隔が所定の範囲内にある場合に、前記辞書の複数を切り替える。前記照合処理器は、前記辞書選択器によって選択された一の前記辞書と前記音声とを照合して、前記音声に対応する語彙を少なくとも一つ抽出する。

この発明にかかる第２の音声認識装置は、音響分析器と、辞書と、照合処理器と、位置センサと、加速度センサと、記憶部と、認識結果補正器とを備える。前記音響分析器は、入力された音声の音響的特徴を得る。前記辞書は、各々において前記音響的特徴と語彙との関連付けがなされる。前記照合処理器は、前記辞書と前記音声とを照合して、前記音声に対応する語彙を前記音声に対する妥当性に基づくスコアを付加して少なくとも一つ抽出する。前記位置センサは位置を測定する。前記加速度センサは加速度を測定する。前記記憶部は、前記位置と前記加速度とを履歴として記憶する。前記認識結果補正器は、前記スコアを、前記位置及び前記加速度並びにこれらの履歴に基づいて補正する。

この発明にかかる第１の音声認識装置によれば、誤った音声を入力したことによる言い直し（以下、「再入力」という）があるか否かが、間隔計測器が計測する時間間隔によって判断されるので、再入力された音声の認識が容易になる。また、再入力と判断した場合に、予め用意された複数の辞書から一つを辞書選択器によって選択して照合処理器に与えるので、再入力された音声のリズム等が変化した場合においても、その音声を精度良く認識することができる。

この発明にかかる第２の音声認識装置によれば、例えば地名が音声として入力された場合に、その地名と同一又は類似した地名が存在する場合においても、動作位置と動作状況並びにこれまでの履歴とから、入力された地名を正しく認識する。

実施の形態１．
図１は、本実施の形態にかかる音声認識装置１を概念的に示すブロック図である。音声認識装置１は、音響分析器２、照合処理器３、辞書選択器４、辞書群５０、認識結果補正器７、補正テーブル８、出力データ記憶部９及び間隔計測器１１を備える。

音響分析器２は、入力された音声を分析して音響的特徴を求める。例えば、音声をフレーム化処理することで音響的特徴として離散的なパワースペクトルを得る、スペクトル分析を採用することができる。離散的なパワースペクトルはベクトル列として表現することもできる。音響的特徴は照合処理器３に与えられる。

辞書群５０は辞書５，６を含む。辞書５，６は音響的特徴と語彙とが予め登録されている。辞書５，６の各々において音響的特徴と語彙とが関連付けられおり、例えば一対一で対応付けられている。辞書５と辞書６とは上記の関連付けが音響的特徴によって相互に異なっている。例えば、同じ語彙についての音響的特徴が相互に異なっている。辞書５，６に登録される語彙は、すべての辞書で同じでなくともよい。

辞書選択器４は、辞書群５０から一つの辞書５，６を選択する。選択された辞書５，６は照合処理器３に与えられる。

照合処理器３は、辞書選択器４から入力される一つの辞書５（６）と、照合処理器３から入力される音響的特徴とを照合する。そして、照合処理器３は、入力された音声に対する妥当性に基づくスコアが付加された語彙を出力する。

図２は、照合処理器３の動作をフローチャートにより概念的に示す。入力待ち状態にある照合処理器３に（ステップ３１１）、音響分析器２から音響的特徴が与えられる。照合処理器３は、入力された音響的特徴を、辞書５（６）に登録された音響的特徴と照合する（ステップ３１２）。そして、音響的特徴の相関の強さに基づき、対応する語彙にスコアを付加する。語彙には、スコアに基づいて設定される順位を、スコアとともに付加してもよい。そして、スコアが所定の値よりも大きい語彙は、入力された音声と一致する語彙とされ、その他は不一致とされる（ステップ３１３）。スコアが付加された語彙のうち一致するものは、認識結果補正器７に与えられる（ステップ３１４）。その後、照合処理器７は入力待ち状態になる（ステップ３１１）。

図３は、ステップ３１３において語彙にスコアを付加する方法が例示される。語彙「あいうえを」の音響的特徴が照合処理器３に入力される。辞書５（６）には、語彙「あいうえお」，「あいうえを」など複数の語彙が、それらの音響的特徴とともに登録されている。照合処理器３は、語彙「あいうえを」の音響的特徴と、辞書に登録された音響的特徴とを照合する。そして相関の強さに基づき、音響的特徴に対応する語彙「あいうえお」にスコア５０、語彙「あいうえを」にスコア３０、以下すべての語彙にスコアがそれぞれ付加される。そして、スコアが所定の値（図３ではスコア１が所定の値とされる）よりも大きい語彙を一致する語彙とされ、その他を不一致とする。図３では、更にスコアに基づいて順位も付加されている。

認識結果補正器７は、各語彙に付加されたスコアをそれぞれ補正する。図４は、認識結果補正器７の動作をフローチャートにより概念的に示す。認識結果補正器７の動作はステップ２０１，２０２を備える。ステップ２０１は、スコアが付加された語彙を補正して、入力された音声に対して妥当な語彙を抽出する。ステップ２０２は、補正に用いる補正テーブル８の内容を更新する。

ステップ２０１では、入力待ち状態にある認識結果補正器７に（ステップ２２）、スコアが付加された語彙もしくはキャンセル信号Ｓ３が与えられる。認識結果補正器７がこの信号Ｓ３を受けたときの動作（すなわち、ステップ２３においてＹｅｓと判断する場合）及びキャンセル信号Ｓ３の内容については後述する。スコアが付加された語彙が与えられると（すなわち、ステップ２３においてＮｏと判断すると）、認識結果補正器７は、補正テーブル８から頻度補正テーブルを取得して（ステップ２４）、スコアを補正する（ステップ２５）。頻度補正テーブルは、語彙と、その語彙の頻度に対応した値とを含む。例えば、頻度の大きい語彙については大きな値が、頻度の小さい語彙については小さい値が対応している。そして、認識結果補正器７は、語彙に付加されているスコアに、その語彙の頻度に対応する値を加算する。語彙に順位も付加されている場合には、スコアの補正に伴ってその順位を補正する。

図５は、頻度補正テーブル（ａ）によって、スコアを補正する方法（ｂ）が例示される。図５では、認識結果補正器７に入力される語彙として、図３で示される語彙のうち一致した語彙が用いられる。頻度補正テーブルは、頻度が５０回である語彙「あいうえお」には値１７が、頻度が１００回である「あいうえを」には値３０が、それぞれ対応している。そして、頻度補正テーブルに含まれる全ての語彙に、その頻度に基づく値が対応している。

認識結果補正器７は、照合処理器３から入力された語彙のうち、語彙「あいうえお」についてはスコア５０に値１７を、語彙「あいうえを」についてはスコア３０に値３０を、それぞれ加算する（図５（ｂ））。つまり、語彙「あいうえお」には補正されたスコア６７が、語彙「あいうえを」には補正されたスコア６０が、それぞれ付加される。このようにして、すべての語彙のスコアに、頻度補正テーブルに基づく値をそれぞれ加算する。つまり、それぞれの語彙に、補正されたスコアを付加する。図５（ｂ）では、順位は図３で示される順位と変わらない。

ステップ２５の後、認識結果補正器７は、出力データ記憶部９から履歴情報を（ステップ２６）、補正テーブル８から履歴情報補正テーブルを（ステップ２７）、それぞれ取得する。認識結果補正器７は、取得した履歴情報と履歴情報補正テーブルとからスコアを補正する（ステップ２８）。履歴情報は、例えば一連の音声を入力する過程において、最初に入力された音声から直前に入力された音声までの認識結果の全て若しくはその一部を含む。履歴情報補正テーブルは、履歴情報の次に続く語彙と、その語彙の頻度に対応した値とを含む。例えば、履歴情報の次に続く語彙のうち頻度の大きい語彙については大きな値が、頻度の小さい語彙については小さい値が対応する。そして、認識結果補正器７は、語彙に付加されているスコアに、その語彙の頻度に対応した値を加算する。語彙に順位も付加されている場合には、スコアの補正に伴ってその順位を補正する。

図６は、履歴情報補正テーブル（ａ）によって、スコアを補正する方法（ｂ）が例示される。図６では、図３で示される語彙のうち一致した語彙を用いるとともに、それらの語彙のスコアについては、図５（ｂ）で示される補正されたスコアを用いる。履歴情報補正テーブルは、語彙「あいうえお」については、その直前に入力された一連の語彙Ａに対しての頻度が１０回であって値５が、一連の語彙Ｂに対しての頻度が４０回であって値３０が、それぞれ対応している。また、語彙「あいうえを」については、一連の語彙Ａに対しては頻度が９０回であって値５０が、一連の語彙Ｂに対しては頻度が１０回であって値５が、それぞれ対応している。そして、履歴情報補正テーブルに含まれる全ての語彙に、一連の語彙Ａ，Ｂに対してその語彙が使用される頻度に基づく値が、それぞれ対応している。

認識結果補正器７は、取得した履歴情報が履歴Ａであった場合には、履歴情報補正テーブルに基づいて、語彙「あいうえお」についてはスコア６７に値５を、語彙「あいうえを」についてはスコア６０に値５０を、それぞれ加算する。つまり、語彙「あいうえお」には補正されたスコア７２が、語彙「あいうえを」には補正されたスコア１１０が、それぞれ付加される。このようにして、すべての語彙のスコアに、履歴情報補正テーブルに基づく値をそれぞれ加算する。つまり、それぞれの語彙に、補正されたスコアを付加する。図６（ｂ）では、スコアに基づいて順位も補正されている。

ステップ２０１で行われるスコアの補正において、ステップ２６〜２８の補正をステップ２４，２５の補正の前に行ってもよいし、それらの補正を並行して行ってもよい。

認識結果補正器７が語彙を補正する上述の動作は、語彙に付加されたスコアを、認識結果補正器がその語彙の使用履歴に基づいて補正する、と把握できる。また、頻度補正テーブルは語彙の使用頻度を含んだ使用履歴と把握できる。図６を用いて説明された履歴Ａ，Ｂを認証済みの語彙と把握すると、履歴情報補正テーブルは認証済みの語彙との関連性を含んだ語彙の使用履歴と把握できる。

ステップ２８の後、認識結果補正器７は、補正されたスコアが付加された語彙のうち最も大きいスコアが付加されている語彙、つまり入力された音声に対して妥当な語彙を抽出する（ステップ２９）。例えば図６（ｂ）で示される、スコアが補正された語彙においては、語彙「あいうえを」が抽出される。

図７は、図２で示されるステップ３０に含まれる動作を示す。ステップ２９の後、抽出された語彙は、出力データ記憶部９及びシステム１０に与られる（ステップ３０１）。このときを、入力された音声の認識と把握できる。出力データ記憶部９は、抽出された語彙を履歴として記憶する。システム１０は、例えば与えられた語彙を画面等に表示する。認識結果補正器７は信号Ｓ１を出力する（ステップ３０２）。信号Ｓ１は、ステップ２９で抽出した語彙を、出力データ記憶部９及びシステム１０に与えたことを知らせる。出力された信号Ｓ１は間隔計測器１１に与えられる。

ステップ２０２では、新しく認識した音声を含む履歴情報に基づいて、頻度補正テーブルと履歴情報補正テーブルとを更新する（図４）。まず、認識結果補正器７は、出力データ記憶部９から履歴情報を取得する（ステップ３１）。履歴情報は、出力データ記憶部９に新しく記憶された語彙と、過去の音声の認識結果とを含む。取得した履歴情報から、語彙と、その語彙の出力頻度とを対応させた出力頻度情報を作成する（ステップ３２）。そして、その出力頻度情報に基づいて頻度補正テーブルを更新する（ステップ３３）。

図８は、図５（ａ）で示される頻度補正テーブルを更新する場合が例示される。例えば、語彙「あいうえを」が新しく認識された場合、認識結果補正器７は、語彙「あいうえを」の頻度を１００回から１０１回に更新した出力頻度情報を作成する。そして、この情報に基づいて頻度補正テーブルは、語彙「あいうえを」についての値が３０から３０．３に更新される。

ステップ３３の後、一連の語彙の次に続く語彙を、履歴情報に含まれる語彙から抽出する（ステップ３４）。一連の語彙は、新しく記憶された語彙を含む一連の音声入力のうち、最初に入力された音声から直前に入力された音声までの語彙を、入力順に含む。また、一連の語彙は、検索によって履歴情報から選択される。そして、選択された一連の語彙の次に続く語彙が抽出される。

抽出された語彙から、語彙と、その語彙の出力頻度とを対応させた出力頻度情報を作成する（ステップ３５）。ここで作成された出力頻度情報は、一連の語彙に続くことを前提としている。この出力頻度情報に基づいて履歴情報補正テーブルを更新する（ステップ３６）。その後、認識結果補正器７は結果の入力待ち状態になる（ステップ２２）。

図９は、図６（ａ）の履歴情報補正テーブルを更新する場合が例示される。例えば、履歴Ａの次の語彙として語彙「あいうえを」が新しく認識された場合、認識結果補正器７は、履歴Ａの次に語彙「あいうえを」が使用される頻度を９０回から９１回に更新した出力頻度情報を作成する。そして、この情報に基づいて履歴情報補正テーブルは、履歴Ａの次の語彙「あいうえを」についての値が、５０から５０．３に更新される。

図１０は、間隔計測器１１の動作をフローチャートにより概念的に示す。入力待ちの状態にある間隔計測器１１（ステップ１２）は、信号Ｓ１を検出すると（ステップ１３）、カウンタをリセットして計測を開始する（ステップ１４）。その後、音響分析器２に次の音声が入力されると、そのことを知らせる信号Ｓ２が音響分析器２から間隔計測器１１に与えられる。間隔計測器１１は、信号Ｓ２を検出すると（ステップ１５）、計測を停止する（ステップ１６）。

そして、計測の開始から計測の停止までの時間間隔の値を求め、その値によって入力された音声が再入力か否かを判断する（ステップ１７）。この時間間隔は発話間隔と把握することができる。ステップ１７における判断は、例えば予め閾値を設けておいて、時間間隔が閾値より小さい場合には再入力とし、大きい場合には新しい入力とする。ただし、閾値より小さくても一つの単語として認識できる場合、例えばある単語を発声したときに、その単語を構成する一つの文字を発声してから次の文字を発声するまでの時間間隔程度である場合には、再入力と判断しない。つまり、発話間隔が所定の範囲内にある場合に、間隔計測器は再入力と判断する。

再入力と判断した場合（ステップ１７においてＹｅｓと判断する場合）には、間隔計測器１１は、キャンセル信号Ｓ３を認識結果補正器７に与え（ステップ１８）、辞書を切り替える信号Ｓ４を辞書選択器４に与える（ステップ１９）。その後、間隔計測器１１は入力待ちの状態になる（ステップ１２）。

新しい入力と判断した場合（ステップ１７においてＮｏと判断する場合）には、間隔計測器１１は信号Ｓ３，Ｓ４を活性することなく、入力待ちの状態になる（ステップ１２）。

認識結果補正器７は、キャンセル信号Ｓ３を受けた場合には、図４で示されるステップ２３でＹｅｓと判断する。そして、認識結果補正器７は、キャンセル信号Ｓ５を出力データ記憶部９及びシステム１０に与える（ステップ３０３（図７））。キャンセル信号Ｓ５が入力されたシステム１０は、直前に入力された認識結果（抽出された語彙）をキャンセル（例えば、消去）して、次の語彙の入力を待つ。システム１０におけるキャンセルは、例えば、直前に入力された語彙を画面に表示しないことや、画面に表示したとしてもそれを消すことである。

また、キャンセル信号Ｓ５が入力された出力データ記憶部９は、認識結果補正器７の動作がステップ３１を経てから、直前に入力された認識結果（抽出された語彙）をキャンセル（例えば、消去）する。

その後、認識結果補正器７は、ステップ２０２（ステップ３１〜３６）において頻度補正テーブル及び履歴情報補正テーブルを更新する。ステップ３１において取得する履歴情報は、ステップ３１を経た後に出力データ記憶部においてキャンセルされる語彙も含む。また、ステップ３３，３６では、それぞれのテーブルは、例えばキャンセルされた語彙に対応する値が小さくなるように更新される。

辞書選択器４は、辞書切替信号Ｓ４を受けた場合には、照合処理器３に与える辞書を辞書５から辞書６に変更する。そして、照合処理器３は、再入力された音声に対して辞書６を用いて照合を行う。再入力された音声は、直前に入力した音声と、語彙が同じでもリズム等が異なることが多い。辞書６は、辞書５とは、関連付けが音響的特徴によって相互に異なっているので、そのような再入力された音声についても精度よい照合を可能にする。

上述した音声認識装置が備える辞書群５０は、二つに限らず複数の辞書を含んでいてもよく、再々入力、更には複数の再入力に対応して辞書を切り替えてもよい。

辞書選択器４は、その後辞書切替信号Ｓ４が入力されない場合には、辞書５を選択する。つまり、照合処理器３は、新しく入力された音声については辞書５を用いて照合する。

上述した音声認識装置によれば、再入力であるか否かが、間隔計測器１１が計測する時間間隔によって判断されるので、再入力された音声の認識が容易になる。また、再入力と判断した場合に、予め用意された複数の辞書５，６から一つを辞書選択器４によって選択して照合処理器３に与えるので、再入力された音声のリズム等が変化した場合においてもその音声を精度良く認識することができる。

また、認識結果補正器７は、補正テーブルが有する語彙の使用履歴（頻度補正テーブル及び履歴情報補正テーブル）を用いて語彙のスコアを修正するので、音声をより精度よく認識できる。

実施の形態２．
図１１は、本実施の形態にかかる音声認識装置１０１を概念的に示すブロック図である。音声認識装置１０１は、音響分析器２、照合処理器３、辞書５、認識結果補正器７、補正テーブル８、位置センサ３８，加速度センサ３９及び履歴記憶部４０を備える。

音響分析器２は、入力された音声を分析して音響的特徴を求める。音声の分析方法は、例えば実施の形態１で示される方法と同様である。音響的特徴は照合処理器３に与えられる。

辞書５は、音響的特徴と語彙とが予め登録されている。音響的特徴と語彙とは、例えば一対一で関連付けられている。本実施の形態では、語彙は地名を表す場合が多く、以下においても地名と記載する場合がある。

照合処理器３は、音響分析器４から入力される音響的特徴と、辞書５とを照合する。そして、照合処理器３は、入力された音声に対する妥当性に基づくスコアが付加された語彙を出力する。

図１２は、照合処理器３の動作をフローチャートにより概念的に示す。図１２では、図２で示されるステップと同じ内容のステップには、同符号が付されている。本実施の形態においては、照合処理器３は、ステップ３１２において辞書５のみを用いて照合する。そして、実施の形態１と同様の方法により語彙にスコアを付加する。語彙には、スコアに基づいて設定される順位を、スコアとともに付加してもよい。スコア及び順位を語彙に付加する方法が、図３に示されている。スコアが付加された語彙は、認識結果補正器７に与えられる。

認識結果補正器７は、各語彙に付加されたスコアを補正して、入力された音声に対して妥当な語彙を抽出する。図１３は、認識結果補正器７の動作をフローチャートにより概念的に示す。入力待ちの状態にある認識結果補正器７（ステップ４１）に、スコアが付加された語彙が与えられる。その語彙が与えられた認識結果補正器７は、位置センサ３８及び加速度センサ３９から現在の位置及び加速度を取得し（ステップ４２）、履歴記憶部４０から位置及び加速度に関する履歴情報を取得する（ステップ４３）。また、補正テーブル８を取得する（ステップ４４）。そして、補正テーブル８に基づいて、現在の位置及び加速度並びに履歴情報からスコアを補正する（ステップ４５）。

図１４は、補正テーブル（ａ）によって、スコアを補正する方法（ｂ）が例示される。図１４では、認識結果補正器７に入力される語彙として、図３で示される語彙のうち一致した語彙が用いられる。補正テーブルは、地名「あいうえお」には、地名「あいうえお」からの距離が１００ｋｍ未満である場合に値５０、１００ｋｍ以上である場合に値１０がそれぞれ対応している。また、地名「あいうえを」についても同様に、地名「あいうえを」からの距離が１００ｋｍ未満である場合に値５０、１００ｋｍ以上である場合に値１０がそれぞれ対応している。そして、補正テーブルに含まれる全ての地名についても同様に、その地名からの距離に基づいた値がそれぞれ対応している。

認識結果補正器７は、照合処理器３から入力された語彙（地名）と現在の位置との距離を計算する。この結果例えば、現在の位置と地名「あいうえを」との距離が１００ｋｍ未満であり、それ以外の地名（例えば地名「あいうえお」）との距離が１００ｋｍ以上であるとする。認識結果補正器７は、地名「あいうえを」についてはスコア３０に値５０を加算する（図１４（ｂ））。その他の地名については、各々のスコアに値１０を加算する。図１４（ｂ）では、スコアに基づいて順位も補正されている。

上述した補正テーブル８は、地名からの距離が小さい程、その地名に大きい値が対応していたが、距離が大きい程、その地名に大きい値を対応させてもよい。このように対応した補正テーブル８に基づくスコアの補正は、音声認識装置１０１を用いている者が現在位置及びその周辺のことを良く知っている場合に、特に望ましい。良く知っている地名を認識させる場合は少ないと考えられるからである。その者が現在位置及びその周辺のことを良く知っているかどうかは、その地域の情報が、履歴記憶部４０において頻繁に記憶されているかどうかで判断することできる。

認識結果補正器７が語彙を補正する上述の動作は、語彙に付加されたスコアを、位置及び加速度並びにこれらの履歴に基づいて補正すると把握することができる。

ステップ４５の後、認識結果補正器７は、補正されたスコアが付加された語彙のうち最も大きいスコアが付加されている語彙、つまり入力された音声に対して妥当な語彙を抽出する（ステップ４６）。例えば図１４（ｂ）で示される、スコア補正された語彙においては、語彙「あいうえを」が抽出される。そして、抽出した語彙をシステム４１に与える（ステップ４７）。システム４１は、例えば与えられた語彙を画面等に表示する。

認識結果補正器７の動作において、ステップ４１とステップ４２との間に、若しくはステップ４５とステップ４６との間に、実施の形態１で説明される頻度補正テーブルに基づくスコアの補正（図４で示されるステップ２４，２５）を行ってもよい。この補正を行う場合には、音声認識装置１０１は、認識した語彙を記憶する出力データ記憶部９を備える。そして、認識結果補正器７は、出力データ記憶部９から得られる履歴情報（認識された語彙）に基づいて頻度補正テーブルを更新する（図４で示されるステップ３１〜３３）。

上述した音声認識装置によれば、例えば地名が音声として入力された場合に、その地名と同一又は類似した地名が存在する場合においても、動作位置と動作状況並びにこれまでの履歴とから、入力された地名を正しく認識する。

本実施の形態において、音声認識装置１０１は、補正テーブル８に替えて補正テーブル群を採用してもよい。図１５は、補正テーブル群８０を備える音声認識装置１０２を概念的に示す。補正テーブル群８０は、補正テーブルを複数有する。一つの補正テーブルは特定の話者について作成される。図１１で示される音声認識装置１０１を構成する要素と同内容のものには、同じ符号が付されている。

音声認識装置１０２は、入力された音声によって話者を特定する。そして、その話者に対応した補正テーブルを補正テーブル群８０から選択して認識結果補正器７に与える。

図１６〜図１８は、入力された音声から話者を特定する方法が、ブロック図により示されている。音声認識装置１０２は、話者特定器７０を更に備える。図１６〜図１８では、図１５で示される音声認識装置１０２のうち、音響分析器２、照合処理器３、辞書５、認識結果補正器７、補正テーブル群８０だけが示されている。

図１６では、音響分析器２で分析された音響的特徴が、話者特定器７０に与えられる。話者特定器７０は、音響的特徴に基づいて話者を特定する。例えば、音響的特徴のピッチから話者を特定する。話者特定器７は話者特定信号Ｓ６を出力する。話者特定信号Ｓ６は、例えば特定の話者についてのデータを含む。話者特定信号Ｓ６は、認識結果補正器７に与えられる。話者特定信号Ｓ６が入力された認識結果補正器７は、話者特定信号Ｓ６に基づいて、補正テーブル群８０から特定の話者の補正テーブルを取得する。

図１７では、音響分析器２で分析された音響的特徴と、辞書５に登録された音響的特徴とが、話者特定器７０に与えられる。話者特定器７０は、前者の音響的特徴と後者の音響的特徴とを比較して、例えば両者のずれによって話者を特定する。以下の動作は図１６で示される音声認識装置１０２と同様である。

図１８では、音響分析器２を介さずに、入力された音声が話者特定器７０に与えられる。この場合、話者特定器７０では、例えば話者認識装置であり、音響分析器２の出力する音響的特徴とは異なる特徴を用いて話者を特定する。

上述した話者特定器７０を備える音声認識装置１０２によれば、入力された音声ごとに話者を特定し、その話者に対応した補正テーブルを用いて音声を認識するので、音声をより精度良く認識することができる。

実施の形態１で説明される、音声認識装置を概念的に示すブロック図である。照合処理器３の動作を示すフローチャート図である。語彙にスコアを付加する方法を示す図である。認識結果補正器７の動作を示すフローチャート図である。（ａ）頻度補正テーブルと、（ｂ）スコアの補正方法とを示す図である。（ａ）履歴情報補正テーブルと、（ｂ）スコアの補正方法とを示す図である。ステップ３０に含まれる動作を示すフローチャート図である。頻度補正テーブルを更新する方法を示す図である。履歴情報補正テーブルを更新する方法を示す図である。間隔計測器１１の動作を示すフローチャート図である。実施の形態２で説明される、音声認識装置１０１を概念的に示すブロック図である。照合処理器３の動作を示すフローチャート図である。認識結果補正器７の動作を示すフローチャート図である。（ａ）補正テーブルと、（ｂ）スコアの補正方法とを示す図である。実施の形態２で説明される、音声認識装置１０２を概念的に示すブロック図である。話者特定器７０を備える音声認識装置１０２を概念的に示すブロック図である。話者特定器７０を備える音声認識装置１０２を概念的に示すブロック図である。話者特定器７０を備える音声認識装置１０２を概念的に示すブロック図である。

符号の説明

１，１０１，１０２音声認識装置、２音響分析器、３照合処理器、４辞書選択器、５，６辞書、７認識結果補正器、８補正テーブル、１１間隔計測器、３８位置センサ、３９加速度センサ、４０履歴記憶部。

Claims

入力された音声の音響的特徴を得る音響分析器と、
各々において前記音響的特徴と語彙との関連付けがなされ、前記関連付けが前記音響的特徴によって相互に異なる複数の辞書と、
前記音声の発話間隔を設定する間隔計測器と、
前記発話間隔が所定の範囲内にある場合に、前記辞書の複数を切り替える辞書選択器と、
前記辞書選択器によって選択された一の前記辞書と前記音声とを照合して、前記音声に対応する語彙を少なくとも一つ抽出する照合処理器と
を備える、音声認識装置。
前記照合処理器から複数の語彙が、前記音声に対する妥当性に基づくスコアが付加されて抽出され、
前記スコアを、前記語彙の使用履歴に基づいて補正する認識結果補正器
を更に備える、請求項１記載の音声認識装置。
前記語彙の使用頻度を含んだ前記語彙の前記使用履歴を前記認識結果補正器に与える補正テーブル
を更に備える、請求項２記載の音声認識装置。
既に認証済みの前記語彙との関連性を含んだ前記語彙の前記使用履歴を前記認識結果補正器に与える補正テーブル
を更に備える、請求項２記載の音声認識装置。
入力された音声の音響的特徴を得る音響分析器と、
各々において前記音響的特徴と語彙との関連付けがなされる辞書と、
前記辞書と前記音声とを照合して、前記音声に対応する語彙を前記音声に対する妥当性に基づくスコアを付加して少なくとも一つ抽出する照合処理器と、
位置を測定する位置センサと、
加速度を測定する加速度センサと、
前記位置と前記加速度とを履歴として記憶する記憶部と、
前記スコアを、前記位置及び前記加速度並びにこれらの履歴に基づいて補正する認識結果補正器と
を備える、音声認識装置。