JP6724511B2

JP6724511B2 - 音声認識装置、音声認識方法および音声認識プログラム

Info

Publication number: JP6724511B2
Application number: JP2016079481A
Authority: JP
Inventors: 昭二早川
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-04-12
Filing date: 2016-04-12
Publication date: 2020-07-15
Anticipated expiration: 2036-04-12
Also published as: US10733986B2; JP2017191166A; US20170294188A1

Description

本発明は、音声認識装置等に関する。

運転中の利用者の利便性を向上させるために、音声でカーナビ等の車載機器を操作することができる音声インターフェースが開発されている。例えば、利用者が音声インターフェースを用いて、車載機器の操作を開始する場合には、決められたコマンド単語を発声して、音声操作を行うことが一般的である。

なお、利用者がコマンド単語を覚えていない場合または発声する環境・条件等が原因で音声認識に失敗している場合には、利用者がコマンド単語以外の単語を繰り返し発声するという事態が起こりうる。このため、利用者が同じ単語を繰り返し発声していることを検出して、利用者に通知することが望ましい。同じ発声の繰り返しを検出する従来技術の一例について説明する。

従来技術１は、語彙数１７００語以上の大規模な単語辞書を用いて、利用者が発声した音声情報に類似する単語を判定する処理を順次実行し、判定した各単語を比較することで、同じ発声の繰り返しを検出する技術である。

しかし、従来技術１では、大規模な単語辞書を用いることが前提となっており、車載機器のような小規模なコマンド単語を用いる装置に設置することは適切でない。また、小規模な単語辞書を用いて、従来技術１の処理を行うと、利用者が発声した音声情報に類似する単語を判定することが難しくなる。これに対して、大規模な単語辞書を用いないで、同じ発声の繰り返しを検出する従来技術２がある。

従来技術２は、利用者が発声した音声情報から、単語辞書にヒットしない音声情報の特徴量を検出・登録する処理を繰り返し実行する。従来技術２は、単語辞書にヒットしない音声情報の特徴量と、既に登録した特徴量とのＤＰ（Dynamic Programming）マッチングを行うことで、同じ発声の繰り返しを検出する。従来技術２では、例えば、音声情報の特徴量として、ＭＦＣＣ（Mel Frequency Cepstrum Coefficients）を用いる。

特開昭６２−１７３４９８号公報特開２００２−６８８３号公報

しかしながら、上述した従来技術では、処理負荷を上げずに、同じ発声の繰り返しを検出することができないという問題がある。

例えば、従来技術２では、大規模な単語辞書を用いなくて良いものの、音声情報の特徴量に含まれる情報量が多く、この特徴量をそのまま用いてＤＰマッチングを実行すると、処理量が大きくなってしまう。

１つの側面では、本発明は、例えば認識語彙が少ない場合であったとしても、処理負荷を上げずに仮の文字列にて繰り返し発声を検出することができる音声認識装置、音声認識方法および音声認識プログラムを提供することを目的とする。

第１の案では、音声認識装置は、変換部と、照合部と、マッチング部と、判定部とを有する。変換部は、音声情報を、該音声情報の特徴量に対応する各音素の文字で表現した音素系列に変換する。照合部は、音声情報の特徴量および音素系列に基づく尤度と、音声情報の特徴量および所定のキーワードの音素系列に基づく尤度とを基にして、照合に成功したか否かを判定する。マッチング部は、照合結果を基にして、照合に失敗した際の前記音声情報の音素系列の各音素と、過去の音声情報の音素系列の各音素とを対応付ける。判定部は、対応付けた結果を基にして、繰り返し発声か否かを判定する。

認識語彙が少なくても、処理負荷を上げずに仮の文字列にて繰り返し発声を検出することができる。

図１は、本実施例１に係る音声認識装置の構成を示す機能ブロック図である。図２は、音素グループデータのデータ構造の一例を示す図である。図３は、本実施例１に係る音声認識装置の処理手順を示すフローチャートである。図４は、音素系列を補正する処理手順を示すフローチャートである。図５は、本実施例２に係る音声認識装置の構成を示す機能ブロック図である。図６は、ガイダンステーブルのデータ構造の一例を示す図である。図７は、本実施例２に係る出力部の処理手順を示すフローチャートである。図８は、本実施例３に係る音声認識システムの構成を示す図である。図９は、本実施例３に係る音声認識装置の構成を示す機能ブロック図である。図１０は、本実施例３に係る音声認識装置の処理手順を示すフローチャートである。図１１は、認識依頼処理の処理手順を示すフローチャートである。図１２は、本実施例４に係る音声認識システムの構成を示す図である。図１３は、本実施例４に係る音声認識装置の構成を示す機能ブロック図である。図１４は、本実施例４に係る音声認識装置の処理手順を示すフローチャートである。図１５は、オペレータ呼び出し処理の処理手順を示すフローチャートである。図１６は、本実施例５に係る音声認識システムの構成を示す図である。図１７は、本実施例５に係る音声認識装置の構成を示す機能ブロック図である。図１８は、本実施例５に係る音声認識装置の処理手順を示すフローチャートである。図１９は、選択処理の処理手順を示すフローチャートである。図２０は、音声認識装置のハードウェア構成の一例を示す図である。

以下に、本願の開示する音声認識装置、音声認識方法および音声認識プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

図１は、本実施例１に係る音声認識装置の構成を示す機能ブロック図である。図１に示すように、この音声認識装置１００は、マイク５０に接続される。図示を省略するが、音声認識装置１００は、利用者が運転する車両等に設置され、カーナビゲーションシステムに接続される。

マイク５０は、車内等に設置される。マイク５０は、車内の音を集音し、集音した音の情報を、音声認識装置１００に出力する。以下の説明では、音の情報を音声情報と表記する。

音声認識装置１００は、音声区間検出部１０１、特徴量抽出部１０２、最尤音素系列探索部１０３、単語照合部１０４、キーワード検出部１０５、記憶部１０６、補正部１０７、登録部１０８、マッチング部１０９、判定部１１０を有する。最尤音素系列探索部１０３は、変換部の一例である。単語照合部１０４およびキーワード検出部１０５は、照合部の一例である。

音声区間検出部１０１は、マイク５０から音声情報を取得し、音声情報に含まれる音声区間を検出する処理部である。音声区間検出部１０１は、音声区間の情報と音声情報とを、特徴量抽出部１０２に出力する。

例えば、音声区間検出部１０１は、音声情報の振幅と零交差に基づいて、音声区間を検出する。音声区間検出部１０１は、一定のレベルを越える振幅について零交差数が一定数を越えたタイミングを、音声区間の開始点とする。そして、音声区間検出部１０１は、一定のレベルを越える振幅について零交差数が一定数未満となる区間が予め決められた時間継続した場合に音声区間の終了とみなし、零交差数が一定数未満となった時点を終了点とする。音声区間検出部１０１は、上記処理を繰り返し実行することで、音声区間を検出する。なお、音声区間検出部１０１は、ガウス混合分布モデル等を用いて、音声区間を検出しても良い。

特徴量抽出部１０２は、音声区間の音声情報から特徴量を抽出する処理部である。特徴量抽出部１０２は、特徴量の情報を、最尤音素系列探索部１０３に出力する。例えば、特徴量抽出部１０２が抽出する特徴量は、ＭＦＣＣ（Mel Frequency Cepstrum Coefficients）およびMFCCの動的特徴であるΔMFCC、ΔΔMFCCである。

例えば、特徴量抽出部１０２は、下記の処理を実行して、特徴量を抽出する。特徴量抽出部１０２は、音声区間の音声情報を所定の長さのフレームで切り出し、窓がけを行い、フーリエ変換を実行して対数振幅スペクトルを求める。特徴量抽出部１０２は、対数振幅スペクトルにメル周波数軸上において中心周波数を等間隔に配置したフィルタバンク（メルフィルタバンクと呼ばれる）を掛けて、その各フィルタバンク出力に対し離散コサイン変換（DCT）を行い、０次を除く低次のDCTの値を特徴量（ＭＦＣＣ）として求める。なお、特徴量抽出部１０２は、その他の処理を行って、音声区間の音声情報から特徴量を抽出してもよい。

最尤音素系列探索部１０３は、音響モデルと音声情報の特徴量とを基にして、特徴量に対応する音素を探索する。例えば、音響モデルは、先行音素と後続音素の違い関係なく中心音素が一致する特徴量を用いて学習したモノフォンモデルである。また、音響モデルは、先行音素と後続音素別に対応する特徴量を用いて学習したトライフォンモデルである。最尤音素系列探索部１０３は、モノフォンモデルを用いた探索結果を基にして、音声情報の特徴量に含まれる最も確からしい音素系列（最尤音素系列）を推定する。音素系列は、母音の音素、子音の音素、半母音、長母音の音素、単語直前の無音を示す音素、単語直後の無音を示す音素、ショートポーズ等を示す音素が含まれる。最尤音素系列探索部１０３は、最尤音素系列の情報を、単語照合部１０４、補正部１０７に出力する。また、最尤音素系列探索部１０３は、音声情報の特徴量を、単語照合部１０４に出力する。

例えば、音声情報「２９５（にい、きゅう、ご）」は、最尤音素系列探索部１０３により、音素系列「sp i i: i: silE ky u u: o o: N k o o : sp」が含まれると推定される。

単語照合部１０４は、下記に示す照合処理を実行することで、所定のキーワードが音声情報に含まれているか否かを判定する処理部である。単語照合部１０４は、照合結果を、キーワード検出部１０５に出力する。

単語照合部１０４が実行する照合処理の一例について説明する。単語照合部１０４は、単語辞書において定義されている各単語の音素の組み合わせに対応する前述の各トライフォンモデルと、音声情報の特徴量とを基にして、各単語の音素の組み合わせに対する尤度をそれぞれ算出する。

また、単語照合部１０４は、音声情報の特徴量と、最尤音素系列の各音素とを基にして、各音素が音声情報に含まれる確率をそれぞれ乗算することで、最尤音素系列に対する尤度を算出する。以下の説明では、適宜、単語辞書に定義される単語の音素の組み合わせに対する尤度を、第１尤度と表記し、最尤音素系列に対する尤度を第２尤度と表記する。なお計算速度を考慮して、第１尤度、第２尤度とも尤度に対して対数を掛けた対数尤度であるとする。

例えば、単語照合部１０４は、各第１尤度について、第１尤度と第２尤度との差分を算出し、差分が閾値未満となる第１尤度が存在するか否かを判定する。単語照合部１０４は、差分が閾値未満となる第１尤度が存在しない場合には、照合に失敗したと判定する。一方、単語照合部１０４は、差分が閾値未満となる第１尤度が存在する場合には、差分が閾値未満となる第１尤度のうち、最も第２尤度に近い第１尤度を選択し、選択した第１尤度に対応する単語を、照合結果として、キーワード検出部１０５に出力する。

なお、単語照合部１０４は、単語の音素の組み合わせのトライフォンと、音声情報の特徴量とを基にして、最尤パスを算出する途中の探索段階において、最終的な尤度が閾値よりも低くなることが確定した場合には、尤度の算出を打ち切り、照合に失敗したと判定する。

キーワード検出部１０５は、単語照合部１０４による照合が成功し、照合結果を取得した場合には、照合結果となる単語の情報を、カーナビゲーションシステム等に通知する。一方、キーワード検出部１０５は、単語照合部１０４による照合が失敗した旨の情報を取得した場合には、照合に失敗した最尤音素系列を、補正部１０７を介してマッチング部１０９に出力する制御命令を、最尤音素系列探索部１０３に出力する。最尤音素系列探索部１０３は、キーワード検出部１０５から上記の制御命令を取得した場合に、照合に失敗した際の最尤音素系列の情報を、補正部１０７を介して、マッチング１０９に出力する。

記憶部１０６は、リファレンスデータ１０６ａと、音素グループデータ１０６ｂとを有する。記憶部１０６は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

リファレンスデータ１０６ａは、最尤音素系列探索部１０３により、過去に探索された音素系列の情報を保持するデータである。音素系列は、後述する補正部１０７によって補正された後、登録部１０８によって、リファレンスデータ１０６ａに登録される。

音素グループデータ１０６ｂは、類似する音素のグループと、この音素グループを代表する音素とを対応付ける情報である。図２は、音素グループデータのデータ構造の一例を示す図である。図２に示すように、この音素グループデータ１０６ｂは、置換ルールと、音素グループと、代表音素とを対応付ける。置換ルールは、音素グループと代表音素との組を一意に識別する情報である。音素グループは、同一のグループに含まれる複数の音素を示すものである。同一の音素グループには、類似する音素が含まれる。代表音素は、同一の音素グループに含まれる音素のうち、代表する音素を示すものである。

例えば、音素グループデータ１０６ｂの１行目のレコードについて説明する。置換ルール「１」の音素グループは「s、z」であり、代表音素は「s」となる。

補正部１０７は、音素グループデータ１０６ｂを基にして、最尤音素系列探索部１０３から取得する音素系列を補正する処理部である。また、補正部１０７は、音素系列に含まれる所定の音素を削除する補正も実行する。以下の説明では、適宜、音素グループデータ１０６ｂを基にして補正する処理を、第１補正処理と表記し、所定の音素を削除する補正を、第２補正処理と表記する。

第１補正処理について説明する。補正部１０７は、最尤音素系列探索部１０３から取得した音素系列のうち、音素グループデータ１０６ｂの音素グループに含まれる音素を検出し、検出した音素を代表音素に変換する処理を繰り返し実行する。

例えば、最尤音素系列探索部１０３から取得した音素系列を「sp i i: k silE silE ky u u: o o: N o sp g o sp」とする。補正部１０７は、この音素系列と音素グループデータ１０６ｂの音素グループとを比較すると、各音素のうち「k，g」が、置換ルール「５」に該当する。音素グループ「k，g」の代表音素が「k」であるため、補正部１０７は、音素「g」を「k」に変換する補正を行う。例えば、補正部１０７は、音素系列「sp i i: k silE silE ky u u: o o: N o sp g o sp」を音素系列「sp i i: k silE silE ky u u: o o: N o sp k o sp」に補正する。

続いて、第２補正処理について説明する。削除対象となる所定の音素には、単語の直前の無音を示す音素「silB」、単語の直後の無音を示す音素「silE」、ショートポーズを示す音素「sp」が含まれる。

例えば、音素系列を「sp i i: k silE silE ky u u: o o: N o sp k o sp」とする。補正部１０７は、この音素系列に含まれる「silE」、「sp」を削除する補正を行う。補正後の音素系列は、音素系列「i i: k ky u u: o o: N o k o」となる。

補正部１０７は、最尤音素系列探索部１０３から取得した音素系列に対して、第１補正処理および第２補正処理を実行し、補正した音素系列の情報を、登録部１０８に出力する。なお、補正部１０７は、最尤音素系列探索部１０３から、マッチング部１０９に出力する指示を受けた音素系列については、補正した音素系列の情報を、マッチング部１０９に出力する。

登録部１０８は、補正部１０７から補正された音素系列を取得し、取得した音素系列を、リファレンスデータ１０６ａに登録する処理部である。登録部１０８は、リファレンスデータ１０６ａに最新の音素系列を登録し、リファレンスデータ１０６ａに登録された音素系列の組数が閾値以上であるか否かを判定する。登録部１０８は、リファレンスデータ１０６ａに登録された音素系列の組数が閾値以上である場合には、最古の音素系列を、リファレンスデータ１０６ａから削除する。

マッチング部１０９は、補正部１０７から取得する照合に失敗した音素系列と、リファレンスデータ１０６ａに登録された各音素系列の組との一致率を算出する処理部である。マッチング部１０９は、一致率の情報を、判定部１１０に出力する。なお、照合に失敗した音素系列は、尤度を算出する途中の段階において、最終的な尤度が閾値よりも低くなることが確定した場合の、音素系列を含む。

ここで、マッチング部１０９の処理の一例について説明する。以下の説明では、説明の便宜上、補正部１０７から取得した音素系列を、第１音素系列と表記する。また、リファレンスデータ１０６ａの音素系列の組を、第２音素系列と表記する。

マッチング部１０９は、リファレンスデータ１０６ａから未選択の第２音素系列を取得し、第１音素系列と第２音素系列とのＤＰ（Dynamic Programming）マッチングを実行する。例えば、マッチング部１０９は、第１音素系列の各音素と、第２音素系列の各音素とを比較し、一致する音素を対応付ける。対応付けの方法としては、例えば、第１音素系列と第２音素系列に先頭から序数をそれぞれ割り当て、対応づけた音素間の序数の差の絶対値を距離として算出し、最も距離が小さくなる対応付けをＤＰマッチングにより算出する。第１音素系列の音素の数が、第２音素系列の音素の数よりも多い場合には、第１音素系列の音素のうち、第２音素系列の音素に対応付けられない音素が発生する。

マッチング部１０９は、上記のマッチング処理を実行することで、第１音素系列の各音素を、第１音素、第２音素、第３音素に分類する。第１音素は、第２音素系列の音素と一致する音素である。第２音素は、第２音素系列の音素と対応付けられ、対応付けられた音素と異なる音素である。第３音素は、第２音素系列の音素と対応付けられていない音素である。

マッチング部１０９は、式（１）に基づいて、第１音素系列の一致率Ｐを算出する。式（１）において、Ｃは、第１音素の数を示す。Ｓは、第２音素の数を示す。Ｄは、第３音素の数を示す。

一致率Ｐ＝Ｃ／（Ｃ＋Ｄ＋Ｓ）×１００（％）・・・（１）

マッチング部１０９は、第１音素系列を取得した場合に、未選択の第２音素系列を、リファレンスデータ１０６ａから取得して、一致率を算出する処理を繰り返し実行し、各一致率の情報を、判定部１１０に出力する。なお、マッチング部１０９は、同一の第１音素系列について、各第２音素系列に対する一致率を算出し、算出した各一致率のうち、最大の一致率の情報を、判定部１１０に出力しても良い。

例えば、第１音素系列を「i i: k ky u u: o o: N o k o」とし、第２音素系列を「i i: i: ky u u: o o: N k o o:」とする。この場合には、Ｃ＝１１、Ｄ＝１、Ｓ＝０となり、マッチング部１０９が式（１）に基づき一致率を算出すると、一致率Ｐ＝８０％となる。

判定部１１０は、マッチング部１０９のマッチング結果を基にして、繰り返し発声か否かを判定する処理部である。判定部１１０は、繰り返し発声と判定した場合には、カーナビゲーションシステム等に、繰り返し発声を検出した旨の情報を通知する。

具体的に、判定部１１０は、マッチング部１０９から、一致率の情報を取得し、一致率が閾値以上となった場合に、繰り返し発声であると判定する。

次に、本実施例１に係る音声認識装置１００の処理手順について説明する。図３は、本実施例１に係る音声認識装置の処理手順を示すフローチャートである。図３に示すように、この音声認識装置１００の音声区間検出部１０１は、音声情報の音声区間を検出する（ステップＳ１０１）。音声認識装置１００の特徴量抽出部１０２は、特徴量を抽出する（ステップＳ１０２）。

音声認識装置１００の最尤音素系列探索部１０３は、最尤音素系列を探索する（ステップＳ１０３）。音声認識装置１００の単語照合部１０４は、音声情報の特徴量を基にして単語照合を実行する（ステップＳ１０４）。音声認識装置１００のキーワード検出部１０５は、単語照合結果を基にして、キーワード検出を実行する（ステップＳ１０５）。

キーワード検出部１０５は、登録されている所定のキーワードを検出した場合には（ステップＳ１０６，Ｙｅｓ）、リファレンスデータ１０６ａの音素系列の全ての組をクリアし（ステップＳ１０７）、処理を終了する。一方、キーワード検出部１０５は、登録されている所定のキーワードを検出しない場合には（ステップＳ１０６，Ｎｏ）、ステップＳ１０８に移行する。

音声認識装置１００の補正部１０７は、音素系列の結果を取得し（ステップＳ１０８）、音素系列を補正する（ステップＳ１０９）。音声認識装置１００のマッチング部１０９は、リファレンスデータ１０６ａに登録されているＮ組の音素系列を取得する（ステップＳ１１０）。

マッチング部１０９は、音素系列のＤＰマッチングを実行し（ステップＳ１１１）、一致率を算出する（ステップＳ１１２）。音声認識装置１００の判定部１１０は、一致率が閾値以上であるか否かを判定する（ステップＳ１１３）。

判定部１１０は、一致率が閾値以上である場合には（ステップＳ１１３，Ｙｅｓ）、繰り返し発声を検出し（ステップＳ１１４）、処理を終了する。一方、判定部１１０は、一致率が閾値未満である場合には（ステップＳ１１３，Ｎｏ）、リファレンスデータ１０６ａの全ての音素系列の組について、一致率を算出したか否かを判定する（ステップＳ１１５）。

判定部１１０は、リファレンスデータ１０６ａの全ての音素系列の組について、一致率を算出した場合には（ステップＳ１１５，Ｙｅｓ）、処理を終了する。一方、判定部１１０は、リファレンスデータ１０６ａの全ての音素系列の組について、一致率を算出していない場合には（ステップＳ１１５，Ｎｏ）、ステップＳ１１１に移行する。

次に、図３のステップＳ１０９に示した音素系列を補正する処理の処理手順について説明する。図４は、音素系列を補正する処理手順を示すフローチャートである。図４に示すように、音声認識装置１００の補正部１０７は、音素グループデータ１０６ｂを読み込む（ステップＳ２０１）。補正部１０７は、未チェックの音素が存在するか否かを判定する（ステップＳ２０２）。補正部１０７は、未チェックの音素が存在しない場合には（ステップＳ２０２，Ｎｏ）、処理を終了する。

補正部１０７は、未チェックの音素が存在する場合には（ステップＳ２０２，Ｙｅｓ）、音素系列から未チェックの音素を１個取り出す（ステップＳ２０３）。補正部１０７は、音素グループに含まれる音素であるか否かを判定する（ステップＳ２０４）。補正部１０７は、音素グループに含まれる音素である場合には（ステップＳ２０５，Ｙｅｓ）、音素系列における、取り出した音素に該当する音素を、代表音素に置き換え（ステップＳ２０５）、ステップＳ２０２に移行する。

一方、補正部１０７は、音素グループに含まれる音素でない場合には（ステップＳ２０４，Ｎｏ）、音素が無音を表す音素であるか否かを判定する（ステップＳ２０６）。補正部１０７は、無音を表す音素でない場合には（ステップＳ２０６，Ｎｏ）、取り出した音素に対して何も補正を加えずにステップＳ２０２に移行する。一方、補正部１０７は、無音を表す音素である場合には（ステップＳ２０６，Ｙｅｓ）、音素系列における、取り出した音素に該当する音素を削除し（ステップＳ２０７）、ステップＳ２０２に移行する。

次に、本実施例１に係る音声認識装置１００の効果について説明する。音声認識装置１００は、ワードスポッティングの処理過程で生成される音素系列をリファレンスデータ１０６ａに登録しておく。そして、音声認識装置１００は、単語辞書にヒットしないもしくはキーワード検出に失敗した音素系列を順次検出し、検出した音素系列の音素と、リファレンスデータ１０６ａの音素系列の組を構成する音素系列とＤＰマッチングし、各音素系列の組に対する音素の一致度を基にして、繰り返し発音を検出する。本実施例１では、特徴量から探索される音素系列ベースで、ＤＰマッチングを実行するため、特徴量ベースでＤＰマッチングを行う場合と比較して、処理量を軽減することができる。また、単語辞書に大規模な単語数を登録していなくても、繰り返し発声を検出することができる。

音声認識装置１００は、音素系列と、音素グループデータ１０６ｂとを基にして、音素グループに対応する音素を、代表音素に補正する処理を実行する。このように、類似する音素を同一の音素に補正することで、一致率を精度良く算出することができる。

音声認識装置１００は、音素系列のうち、無音を示す音素を削除する補正を行う。無音を表す音素は、発声の速さや間の取り方等により検出数が発話ごとに大きく異なり安定せず、さらに繰り返し発声検出のための有用な情報があまり無音を表す音素にはないため、無音を表す音素を考慮すると音素一致度の算出時には悪影響となる。このため無音を表す音素を削除する補正を行うことで、一致率を精度良く算出することができる。

図５は、本実施例２に係る音声認識装置の構成を示す機能ブロック図である。図５に示すように、この音声認識装置２００は、マイク５０に接続される。音声認識装置２００は、音声認識装置１００と同様に、利用者が運転する車両等に設置され、カーナビゲーションシステムに接続される。マイク５０に関する説明は、図１に示したマイク５０に関する説明と同様である。

音声認識装置２００は、音声区間検出部１０１、特徴量抽出部１０２、最尤音素系列探索部１０３、単語照合部１０４、キーワード検出部１０５、補正部１０７、登録部１０８、マッチング部１０９、判定部１１０、記憶部２１０、出力部２２０を有する。音声認識装置２００の各処理部１０１〜１０５、１０７〜１１０に関する説明は、図１に示した各処理部１０１〜１０５、１０７〜１１０に関する説明と同様である。

記憶部２１０は、リファレンスデータ１０６ａと、音素グループデータ１０６ｂと、ガイダンステーブル２１０ａとを有する。記憶部２１０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

リファレンスデータ１０６ａおよび音素グループデータ１０６ｂに関する説明は、図１に示したリファレンスデータ１０６ａおよび音素グループデータ１０６ｂに関する説明と同様である。

ガイダンステーブル２１０ａは、繰り返し発声を検出した場合に、利用者に通知するガイダンスの情報を保持するテーブルである。図６は、ガイダンステーブルのデータ構造の一例を示す図である。図６に示すように、このガイダンステーブル２１０ａは、環境情報と、ガイダンス内容と、優先順位とを対応付ける。

環境情報は、利用者が運転する自動車の環境を特定する情報である。ガイダンス内容は、利用者に通知するガイダンスの内容であり、音声入力時の環境や条件の改善を促すものである。優先順位は、ガイダンス内容の優先順位を示すものであり、優先順位の値が小さい（上位）ほど、優先順位が高いことを示す。

出力部２２０は、判定部１１０が繰り返し発声であると判定した場合に、環境情報を取得し、環境情報と、ガイダンステーブル２１０ａとを基にして、ガイダンス内容を判定する。出力部２２０は、判定したガイダンス内容を、図示しないスピーカに出力させる。

例えば、出力部２２０は、環境情報を、ＣＡＮ（Controller Area Network）通信を介して取得する。このＣＡＮ通信を介して得られる環境情報は、エアコンがＯＮであるか否かの情報、自動車の走行速度、自動車の窓が開いているか否かの情報が含まれる。また、出力部２２０は、音声区間検出部１０１から、音声区間の平均パワーと、音声区間を検出するために推定した背景雑音の平均パワーの情報を取得し、ＳＮＲ（Signal Noise Ratio）を算出する。

出力部２２０は、取得した環境情報と、ガイダンステーブル２１０ａとを比較して、ヒットするガイダンス内容を特定し、特定したガイダンス内容のうち、優先順位の値が最も大きいガイダンス内容を選択する。出力部２２０は、選択したガイダンス内容をスピーカから出力させる。

なお、出力部２２０は、判定部１１０によって、再度、繰り返し発声であると判定された場合には、未選択のガイダンス内容を対象として、上記処理を再度実行する。

次に、本実施例２に係る音声認識装置２００の処理手順について説明する。音声認識装置２００が、繰り返し発声を検出する処理手順は、図３に示した処理手順と同様であるため、説明を省略する。ここでは、音声認識装置２００の判定部１１０が、繰り返し発声を検出した場合の、出力部２２０の処理について説明する。

図７は、本実施例２に係る出力部の処理手順を示すフローチャートである。図７に示すように、この出力部２２０は、環境情報を取得し（ステップＳ３０１）、ガイダンステーブル２１０ａに、合致する環境情報が存在するか否かを判定する（ステップＳ３０２）。

出力部２２０は、ガイダンステーブル２１０ａに、合致する環境情報が存在しない場合には（ステップＳ３０２，Ｎｏ）、処理を終了する。

一方、出力部２２０は、ガイダンステーブル２１０ａに、合致する環境情報が存在する場合には（ステップＳ３０２，Ｙｅｓ）、合致する環境情報が複数存在するか否かを判定する（ステップＳ３０３）。

出力部２２０は、合致する環境情報が複数存在する場合には（ステップＳ３０３，Ｙｅｓ）、優先順位の高いガイダンス内容を選択し（ステップＳ３０４）、ステップＳ３０６に移行する。

一方、出力部２２０は、合致する環境情報が複数存在しない場合には（ステップＳ３０４，Ｎｏ）、環境情報に対応するガイダンスを選択し（ステップＳ３０５）、ステップＳ３０６に移行する。出力部２２０は、ガイダンス内容を再生する（ステップＳ３０６）。

次に、本実施例２に係る音声認識装置２００の効果について説明する。音声認識装置２００は、繰り返し発声を検出した場合に、環境情報と、ガイダンステーブル２１０ａとを比較して、音声入力時の環境や条件の改善を促すためのガイダンスを再生する。このガイダンスを聞いた利用者が、ガイダンスの内容に従って、音声入力時の環境や条件を改善することで、音声認識を成功させる音声入力を適切に実行することができる。

図８は、本実施例３に係る音声認識システムの構成を示す図である。図８に示すように、この音声認識システムは、音声認識装置３００と、サーバ７０とを有する。音声認識装置３００は、ネットワーク６０を介して、サーバ７０に接続される。例えば、サーバ７０は、クラウド上のサーバであってもよい。

音声認識装置３００は、繰り返し発声を検出し、連続して検出した回数を計数する。以下の説明では、適宜、繰り返し発声を連続して検出した回数を、繰り返し発声検出回数と表記する。音声認識装置３００は、繰り返し発声検出回数が閾値を超えた場合に、サーバ７０とコネクションを確立し、音声情報を、サーバ７０に送信する。音声情報の代わりに音声情報の特徴量を送信してもよい。

サーバ７０は、例えば、音声認識装置３００が有する単語辞書よりも語彙数の多い単語辞書を用いて、音声認識装置３００から送信される音声情報の音声認識を実行する装置である。あるいはサーバ７０における潤沢な計算資源を用いたより高精度な音声認識を実行する装置である。サーバ７０は、音声情報の音声認識結果を、音声認識装置３００に通知する。

次に、図８に示した音声認識装置３００の構成について説明する。図９は、本実施例３に係る音声認識装置の構成を示す機能ブロック図である。図９に示すように、この音声認識装置３００は、マイク５０に接続される。音声認識装置３００は、音声認識装置１００と同様に、利用者が運転する車両等に設置され、カーナビゲーションシステムに接続される。マイク５０に関する説明は、図１に示したマイク５０に関する説明と同様である。

音声認識装置３００は、音声区間検出部１０１、特徴量抽出部１０２、最尤音素系列探索部１０３、単語照合部１０４、キーワード検出部１０５、記憶部１０６、補正部１０７、登録部１０８、マッチング部１０９、判定部１１０、送信部３１０、受信部３２０を有する。音声認識装置３００の各処理部１０１〜１０５、１０７〜１１０に関する説明は、図１に示した各処理部１０１〜１０５、１０７〜１１０に関する説明と同様である。また、記憶部１０６に関する説明は、図１に示した記憶部１０６の説明と同様である。

送信部３１０は、判定部１１０が繰り返し発声であると連続して判定した繰り返し発声検出回数を計数する。送信部３１０は、繰り返し発声検出回数が閾値を超えた場合に、サーバ７０とコネクションを確立し、音声情報をサーバ７０に送信する。送信部３１０が送信した音声情報に対して、サーバ７０は、音声認識を実行する。

受信部３２０は、サーバ７０から音声情報の音声認識結果を受信する処理部である。受信部３２０は、音声情報の音声認識結果を、カーナビゲーションシステム等に通知する。

次に、本実施例３に係る音声認識装置３００の処理手順について説明する。図１０は、本実施例３に係る音声認識装置の処理手順を示すフローチャートである。図１０に示すように、この音声認識装置３００の音声区間検出部１０１は、音声情報の音声区間を検出する（ステップＳ４０１）。音声認識装置３００の特徴量抽出部１０２は、特徴量を抽出する（ステップＳ４０２）。

音声認識装置３００の最尤音素系列探索部１０３は、最尤音素系列を探索する（ステップＳ４０３）。音声認識装置３００の単語照合部１０４は、音声情報の特徴量を基にして単語照合を実行する（ステップＳ４０４）。音声認識装置３００のキーワード検出部１０５は、単語照合結果を基にして、キーワード検出を実行する（ステップＳ４０５）。

キーワード検出部１０５は、登録されている所定のキーワードを検出した場合には（ステップＳ４０６，Ｙｅｓ）、リファレンスデータ１０６ａの音素系列の全ての組をクリアする（ステップＳ４０７）。キーワード検出部１０５は、繰り返し発声検出回数をクリアし（ステップＳ４０８）、処理を終了する。一方、キーワード検出部１０５は、登録されている所定のキーワードを検出しない場合には（ステップＳ４０６，Ｎｏ）、ステップＳ４０９に移行する。

音声認識装置３００の補正部１０７は、音素系列の結果を取得し（ステップＳ４０９）、音素系列を補正する（ステップＳ４１０）。音声認識装置３００のマッチング部１０９は、リファレンスデータ１０６ａに登録されているＮ組の音素系列を取得する（ステップＳ４１１）。

マッチング部１０９は、音素系列のＤＰマッチングを実行し（ステップＳ４１２）、一致率を算出する（ステップＳ４１３）。音声認識装置３００の判定部１１０は、一致率が閾値以上であるか否かを判定する（ステップＳ４１４）。

判定部１１０は、一致率が閾値以上である場合には（ステップＳ４１４，Ｙｅｓ）、繰り返し発声を検出し（ステップＳ４１５）、音声認識装置３００の送信部３１０は、認識依頼処理を実行する（ステップＳ４１６）。

一方、判定部１１０は、一致率が閾値未満である場合には（ステップＳ４１４，Ｎｏ）、リファレンスデータ１０６ａの全ての音素系列の組について、一致率を算出したか否かを判定する（ステップＳ４１７）。

判定部１１０は、リファレンスデータ１０６ａの全ての音素系列の組について、一致率を算出した場合には（ステップＳ４１７，Ｙｅｓ）、処理を終了する。一方、判定部１１０は、リファレンスデータ１０６ａの全ての音素系列の組について、一致率を算出していない場合には（ステップＳ４１７，Ｎｏ）、ステップＳ４１２に移行する。

次に、図１０のステップＳ４１６に示した認識依頼処理の処理手順について説明する。図１１は、認識依頼処理の処理手順を示すフローチャートである。図１１に示すように、音声認識装置３００の送信部３１０は、繰り返し発声検出回数を１個増やし（ステップＳ５０１）、繰り返し発声検出回数が閾値Ｌを超えたか否かを判定する（ステップＳ５０２）。

送信部３１０は、繰り返し発声検出回数が閾値Ｌを超えていない場合には（ステップＳ５０２，Ｎｏ）、処理を終了する。送信部３１０は、繰り返し発声検出回数が閾値Ｌを超えた場合には（ステップＳ５０２，Ｙｅｓ）、サーバ７０と通信可能な電波状態であるか否かを判定する（ステップＳ５０３）。

送信部３１０は、サーバ７０と通信可能な電波状態でない場合には（ステップＳ５０３，Ｎｏ）、処理を終了する。送信部３１０は、サーバ７０と通信可能な電波状態である場合には（ステップＳ５０３，Ｙｅｓ）、サーバ７０とコネクションを確立する（ステップＳ５０４）。

送信部３１０は、音声情報をサーバ７０に送信し（ステップＳ５０５）、音声認識装置３００の受信部３２０は、サーバ７０から認識結果を受信する（ステップＳ５０６）。

次に、本実施例３に係る音声認識装置３００の効果について説明する。音声認識装置３００は、繰り返し発声検出回数が閾値を超えた場合に、サーバ７０とコネクションを確立し、音声情報をサーバ７０に送信することで、音声情報の認識処理を依頼する。これにより、音声認識装置３００は、自装置で認識することが難しい音声情報を、サーバ７０を利用して、認識することが可能になる。

図１２は、本実施例４に係る音声認識システムの構成を示す図である。図１２に示すように、この音声認識システムは、音声認識装置４００と、オペレータ端末８０とを有する。音声認識装置４００は、ネットワーク６０を介して、オペレータ端末８０に接続される。

音声認識装置４００は、繰り返し発声を検出し、連続して検出した回数を計数する。以下の説明では、適宜、繰り返し発声を連続して検出した回数を、繰り返し発声検出回数と表記する。音声認識装置４００は、繰り返し発声検出回数が閾値を超えた場合に、オペレータ端末８０を操作するオペレータを呼び出し、車内の利用者と、オペレータとの通話経路を確立する。

オペレータ端末８０は、オペレータが操作する端末装置であり、通話機能を有するＰＣ（Personal Computer）等に対応する。オペレータ端末８０と音声認識装置４００との通信経路が確立されると、オペレータは利用者と通話を行う。

次に、図１２に示した音声認識装置４００の構成について説明する。図１３は、本実施例４に係る音声認識装置の構成を示す機能ブロック図である。図１３に示すように、この音声認識装置４００は、マイク５０に接続される。音声認識装置４００は、音声認識装置１００と同様に、利用者が運転する車両等に設置され、カーナビゲーションシステムに接続される。マイク５０に関する説明は、図１に示したマイク５０に関する説明と同様である。

音声認識装置４００は、音声区間検出部１０１、特徴量抽出部１０２、最尤音素系列探索部１０３、単語照合部１０４、キーワード検出部１０５、記憶部１０６、補正部１０７、登録部１０８、マッチング部１０９、判定部１１０、接続部４１０を有する。音声認識装置４００の各処理部１０１〜１０５、１０７〜１１０に関する説明は、図１に示した各処理部１０１〜１０５、１０７〜１１０に関する説明と同様である。また、記憶部１０６に関する説明は、図１に示した記憶部１０６の説明と同様である。

接続部４１０は、判定部１１０が繰り返し発声であると連続して判定した繰り返し発声検出回数を計数する。接続部４１０は、繰り返し発声検出回数が閾値を超えた場合に、オペレータ端末８０と通信経路を確立する。例えば、接続部４１０は、マイク５０の音声情報を、オペレータ端末８０に送信し、オペレータ端末８０から送信される音声情報を、スピーカ等を用いて再生する。

次に、本実施例４に係る音声認識装置４００の処理手順について説明する。図１４は、本実施例４に係る音声認識装置の処理手順を示すフローチャートである。図１４に示すように、この音声認識装置４００の音声区間検出部１０１は、音声情報の音声区間を検出する（ステップＳ６０１）。音声認識装置４００の特徴量抽出部１０２は、特徴量を抽出する（ステップＳ６０２）。

音声認識装置４００の最尤音素系列探索部１０３は、最尤音素系列を探索する（ステップＳ６０３）。音声認識装置４００の単語照合部１０４は、音声情報の特徴量を基にして単語照合を実行する（ステップＳ６０４）。音声認識装置４００のキーワード検出部１０５は、単語照合結果を基にして、キーワード検出を実行する（ステップＳ６０５）。

キーワード検出部１０５は、登録されている所定のキーワードを検出した場合には（ステップＳ６０６，Ｙｅｓ）、リファレンスデータ１０６ａの音素系列の全ての組をクリアする（ステップＳ６０７）。キーワード検出部１０５は、繰り返し発声検出回数をクリアし（ステップＳ６０８）、処理を終了する。一方、キーワード検出部１０５は、登録されている所定のキーワードを検出しない場合には（ステップＳ６０６，Ｎｏ）、ステップＳ６０９に移行する。

音声認識装置４００の補正部１０７は、音素系列の結果を取得し（ステップＳ６０９）、音素系列を補正する（ステップＳ６１０）。音声認識装置４００のマッチング部１０９は、リファレンスデータ１０６ａに登録されているＮ組の音素系列を取得する（ステップＳ６１１）。

マッチング部１０９は、音素系列のＤＰマッチングを実行し（ステップＳ６１２）、一致率を算出する（ステップＳ６１３）。音声認識装置４００の判定部１１０は、一致率が閾値以上であるか否かを判定する（ステップＳ６１４）。

判定部１１０は、一致率が閾値以上である場合には（ステップＳ６１４，Ｙｅｓ）、繰り返し発声を検出し（ステップＳ６１５）、音声認識装置４００の接続部４１０は、オペレータ呼び出し処理を実行する（ステップＳ６１６）。

一方、判定部１１０は、一致率が閾値未満である場合には（ステップＳ６１４，Ｎｏ）、リファレンスデータ１０６ａの全ての音素系列の組について、一致率を算出したか否かを判定する（ステップＳ６１７）。

判定部１１０は、リファレンスデータ１０６ａの全ての音素系列の組について、一致率を算出した場合には（ステップＳ６１７，Ｙｅｓ）、処理を終了する。一方、判定部１１０は、リファレンスデータ１０６ａの全ての音素系列の組について、一致率を算出していない場合には（ステップＳ６１７，Ｎｏ）、ステップＳ６１２に移行する。

次に、図１４のステップＳ６１６に示したオペレータ呼び出し処理の処理手順について説明する。図１５は、オペレータ呼び出し処理の処理手順を示すフローチャートである。図１５に示すように、音声認識装置４００の接続部４１０は、繰り返し発声検出回数を１個増やす（ステップＳ７０１）。

接続部４１０は、繰り返し発声検出回数が閾値Ｍを超えたか否かを判定する（ステップＳ７０２）。接続部４１０は、繰り返し発声検出回数が閾値Ｍを超えていない場合には（ステップＳ７０２，Ｎｏ）、処理を終了する。

一方、接続部４１０は、繰り返し発声検出回数が閾値Ｍを超えた場合には（ステップＳ７０２，Ｙｅｓ）、オペレータ端末８０と通信可能な電波状況であるか否かを判定する（ステップＳ７０３）。接続部４１０は、オペレータ端末８０と通信可能な電波状況でない場合には（ステップＳ７０３，Ｎｏ）、処理を終了する。

一方、接続部４１０は、オペレータ端末８０と通信可能な電波状況である場合には（ステップＳ７０３，Ｙｅｓ）、オペレータを呼び出し（ステップＳ７０４）、利用者とオペレータ間の通信経路を確立する（ステップＳ７０５）。

次に、本実施例４に係る音声認識装置４００の効果について説明する。音声認識装置４００は、繰り返し発声検出回数が閾値を超えた場合に、オペレータ端末８０と通信経路を確立し、オペレータに利用者の対応を依頼する。これにより、音声認識装置４００は、自装置で認識することが難しい音声情報が存在する場合に、オペレータに依頼することで、利用者の要求に効率的に対応することができる。

図１６は、本実施例５に係る音声認識システムの構成を示す図である。図１６に示すように、この音声認識システムは、音声認識装置５００と、サーバ７０と、オペレータ端末８０とを有する。音声認識装置５００は、ネットワーク６０を介して、サーバ７０と、オペレータ端末８０と接続される。サーバ７０は、クラウド上のサーバであっても良い。

音声認識装置５００は、繰り返し発声を検出し、連続して検出した回数を計数する。以下の説明では、適宜、繰り返し発声を連続して検出した回数を、繰り返し発声検出回数と表記する。音声認識装置５００は、繰り返し発声検出回数に応じて、下記の処理を実行する。

音声認識装置５００は、繰り返し発声検出回数が第１閾値を超えた場合には、実施例２で説明した出力部２２０の処理を実行する。例えば、音声認識装置５００は、環境情報に応じたガイダンスを、利用者に通知する。

音声認識装置５００は、繰り返し発声検出回数が第２閾値を超えた場合には、実施例３で説明した送信部３１０の処理を実行する。例えば、音声認識装置５００は、サーバ７０とコネクションを確立し、音声情報をサーバ７０に送信する。

音声認識装置５００は、繰り返し発声検出回数が第３閾値を超えた場合には、実施例４で説明した接続部４１０の処理を実行する。例えば、音声認識装置５００は、オペレータ端末８０を操作するオペレータを呼び出し、車内の利用者と、オペレータとの通話経路を確立する。

図１６に示すサーバ７０に関する説明は、図８に示したサーバ７０に関する説明と同様である。図１６に示すオペレータ端末８０に関する説明は、図１２に示したオペレータ端末８０に関する説明と同様である。

次に、図１６に示した音声認識装置５００の構成について説明する。図１７は、本実施例５に係る音声認識装置の構成を示す機能ブロック図である。図１７に示すように、この音声認識装置５００は、マイク５０に接続される。音声認識装置５００は、音声認識装置１００と同様に、利用者が運転する車両等に設置され、カーナビゲーションシステムに接続される。マイク５０に関する説明は、図１に示したマイク５０に関する説明と同様である。

音声認識装置５００は、音声区間検出部１０１、特徴量抽出部１０２、最尤音素系列探索部１０３、単語照合部１０４、キーワード検出部１０５、補正部１０７、登録部１０８、マッチング部１０９、判定部１１０、記憶部２１０を有する。音声認識装置５００は、選択部５１０、送信部５２０、受信部５３０、接続部５４０、出力部５５０を有する。音声認識装置５００の各処理部１０１〜１０５、１０７〜１１０に関する説明は、図１に示した各処理部１０１〜１０５、１０７〜１１０に関する説明と同様である。また、記憶部２１０に関する説明は、図５に示した記憶部２１０の説明と同様である。

選択部５１０は、判定部１１０が繰り返し発声であると連続して判定した繰り返し発声検出回数を計数する。選択部５１０は、繰り返し発声検出回数に応じて、送信部５２０、接続部５４０、出力部５５０のいずれかの処理部を選択し、選択した処理部に処理を実行させる。

例えば、選択部５１０は、繰り返し発声検出回数が第１閾値を超えた場合には、出力部５５０を選択し、出力部５５０に処理を実行させる。選択部５１０は、繰り返し発声検出回数が第２閾値を超えた場合には、送信部５２０を選択し、送信部５２０に処理を実行させる。選択部５１０は、繰り返し発声検出回数が第３閾値を超えた場合には、接続部５４０を選択し、接続部５４０に処理を実行させる。例えば、第１閾値を「３回」、第２閾値を「４回」、第３閾値を「５回」とする。

送信部５２０の処理は、図９に示した送信部３１０の処理に対応する。受信部５３０の処理は、図９に示した受信部３２０の処理に対応する。

接続部５４０の処理は、図１３に示した接続部４１０の処理に対応する。

出力部５５０の処理は、図５に示した出力部２２０の処理に対応する。

次に、本実施例５に係る音声認識装置５００の処理手順について説明する。図１８は、本実施例５に係る音声認識装置の処理手順を示すフローチャートである。図１８に示すように、この音声認識装置５００の音声区間検出部１０１は、音声情報の音声区間を検出する（ステップＳ８０１）。音声認識装置５００の特徴量抽出部１０２は、特徴量を抽出する（ステップＳ８０２）。

音声認識装置５００の最尤音素系列探索部１０３は、最尤音素系列を探索する（ステップＳ８０３）。音声認識装置５００の単語照合部１０４は、音声情報の特徴量を基にして単語照合を実行する（ステップＳ８０４）。音声認識装置５００のキーワード検出部１０５は、単語照合結果を基にして、キーワード検出を実行する（ステップＳ８０５）。

キーワード検出部１０５は、登録されている所定のキーワードを検出した場合には（ステップＳ８０６，Ｙｅｓ）、リファレンスデータ１０６ａの音素系列の全ての組をクリアする（ステップＳ８０７）。キーワード検出部１０５は、繰り返し発声検出回数をクリアし（ステップＳ８０８）、処理を終了する。一方、キーワード検出部１０５は、登録されている所定のキーワードを検出しない場合には（ステップＳ８０６，Ｎｏ）、ステップＳ８０９に移行する。

音声認識装置５００の補正部１０７は、音素系列の結果を取得し（ステップＳ８０９）、音素系列を補正する（ステップＳ８１０）。音声認識装置５００のマッチング部１０９は、リファレンスデータ１０６ａに登録されているＮ組の音素系列を取得する（ステップＳ８１１）。

マッチング部１０９は、音素系列のＤＰマッチングを実行し（ステップＳ８１２）、一致率を算出する（ステップＳ８１３）。音声認識装置５００の判定部１１０は、一致率が閾値以上であるか否かを判定する（ステップＳ８１４）。

判定部１１０は、一致率が閾値以上である場合には（ステップＳ８１４，Ｙｅｓ）、繰り返し発声を検出し（ステップＳ８１５）、音声認識装置５００の選択部５１０は、選択処理を実行する（ステップＳ８１６）。

一方、判定部１１０は、一致率が閾値未満である場合には（ステップＳ８１４，Ｎｏ）、リファレンスデータ１０６ａの全ての音素系列の組について、一致率を算出したか否かを判定する（ステップＳ８１７）。

判定部１１０は、リファレンスデータ１０６ａの全ての音素系列の組について、一致率を算出した場合には（ステップＳ８１７，Ｙｅｓ）、処理を終了する。一方、判定部１１０は、リファレンスデータ１０６ａの全ての音素系列の組について、一致率を算出していない場合には（ステップＳ８１７，Ｎｏ）、ステップＳ８１２に移行する。

次に、図１８のステップＳ８１６に示した選択処理の処理手順について説明する。図１９は、選択処理の処理手順を示すフローチャートである。図１９に示すように、音声認識装置５００の選択部５１０は、繰り返し発声検出回数を１個増やす（ステップＳ９０１）。選択部５１０は、繰り返し発声検出回数が３回以上であるか否かを判定する（ステップＳ９０２）。選択部５１０は、繰り返し発声検出回数が３回以上でない場合には（ステップＳ９０２，Ｎｏ）、処理を終了する。

一方、選択部５１０は、繰り返し発声検出回数が３回以上である場合には（ステップＳ９０２，Ｙｅｓ）、ステップＳ９０３に移行する。選択部５１０は、繰り返し発声検出回数が３回である場合には（ステップＳ９０３、３回）、出力部５５０によるガイダンス出力処理を実行させる（ステップＳ９０４）。ガイダンス出力処理は、図７に示した処理手順と同様である。

選択部５１０は、繰り返し発声検出回数が４回である場合には（ステップＳ９０３、４回）、送信部５２０による認識依頼処理を実行させる（ステップＳ９０５）。

選択部５１０は、繰り返し発声検出回数が５回である場合には（ステップＳ９０３、５回）、接続部５４０によるオペレータ呼び出し処理を実行させる（ステップＳ９０６）。

次に、本実施例５に係る音声認識装置５００の効果について説明する。音声認識装置５００は、繰り返し発声検出回数を計数し、繰り返し発声検出回数に応じて、ガイダンス出力処理、認識依頼処理、オペレータ呼び出し処理を実行する。このため、繰り返し発声検出回数に応じて段階的に、最適な処理を実行することができる。

次に、上記実施例に示した音声認識装置１００，２００，３００，４００，５００と同様の機能を実現するコンピュータのハードウェア構成について説明する。図２０は、音声認識装置のハードウェア構成の一例を示す図である。

図２０に示すように、コンピュータ６００は、各種演算処理を実行するＣＰＵ６０１と、利用者からのデータの入力を受け付ける入力装置６０２と、ディスプレイ６０３を有する。また、コンピュータ６００は、記憶媒体からプログラム等を読取る読み取り装置６０４と、ネットワークを介して他のコンピュータとの間でデータの授受を行うインターフェース装置６０５とを有する。また、コンピュータ６００は、各種情報を一時記憶するＲＡＭ６０６と、ハードディスク装置６０７を有する。そして、各装置６０１〜６０７は、バス６０８に接続される。

ハードディスク装置６０７は、変換プログラム６０７ａ、照合プログラム６０７ｂ、マッチングプログラム６０７ｃ、判定プログラム６０７ｄを有する。ＣＰＵ６０１は、各プログラム６０７ａ〜６０７ｄを読み出してＲＡＭ６０６に展開する。変換プログラム６０７ａは、変換プロセス６０６ａとして機能する。照合プログラム６０７ｂは、照合プロセス６０６ｂとして機能する。マッチングプログラム６０７ｃは、マッチングプロセス６０６ｃとして機能する。判定プログラム６０７ｄは、判定プロセス６０６ｄとして機能する。

例えば、変換プロセス６０６ａの処理は、最尤音素系列探索部１０３の処理に対応する。照合プロセス６０６ｂの処理は、単語照合部１０４、キーワード検出部１０５の処理に対応する。マッチングプロセス６０６ｃの処理は、マッチング部１０９の処理に対応する。判定プロセス６０６ｄの処理は、判定部１１０の処理に対応する。

なお、各プログラム６０７ａ〜６０７ｄについては、必ずしも最初からハードディスク装置６０７に記憶させておかなくても良い。例えば、コンピュータ６００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ６００がこれらから各プログラム６０７ａ〜６０７ｄを読み出して実行するようにしてもよい。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）音声情報を、該音声情報の特徴量に対応する各音素の文字で表現した音素系列に変換する変換部と、
前記音声情報の特徴量および前記音素系列に基づく尤度と、前記音声情報の特徴量および所定のキーワードの音素系列に基づく尤度とを基にして、照合に成功したか否かを判定する照合部と、
照合結果を基にして、照合に失敗した際の前記音声情報の音素系列の各音素と、過去の音声情報の音素系列の各音素とを対応付けるマッチング部と、
対応付けた結果を基にして、繰り返し発声か否かを判定する判定部と
を有することを特徴とする音声認識装置。

（付記２）類似する複数の音素をまとめた音素グループと代表音素の文字とを対応付けたテーブルを基にして、前記音素系列に含まれる音素を代表音素の文字に補正する補正部を更に有することを特徴とする付記１に記載の音声認識装置。

（付記３）前記補正部は、前記音素系列に含まれる音素のうち、無音を示す音素の文字を削除する補正を更に実行することを特徴とする付記２に記載の音声認識装置。

（付記４）前記マッチング部は、ＤＰ（Dynamic Programming）マッチングを実行することで、前記音素系列の各音素と、過去の音声情報の音素系列の各音素とを対応付け、対応付けられた音素と一致する音素の数と、対応する音素が存在しない音素の数と、対応付けられた音素と異なる音素の数とを基にして、一致率を算出し、前記判定部（１１０）は、前記一致率が閾値を超えた場合に、繰り返し発声であると判定することを特徴とする付記１、２または３に記載の音声認識装置。

（付記５）前記判定部が、繰り返し発声であると判定した場合に、優先度と、音声入力の改善を促すメッセージとを対応付けた情報から、未選択のメッセージを優先度に基づき選択し、選択したメッセージを出力する出力部を更に有することを特徴とする付記１〜４のいずれか一つに記載の音声認識装置。

（付記６）前記判定部が、繰り返し発声であると連続で判定した回数が所定回数以上となった場合に、前記音声情報をサーバに送信する送信部を更に有することを特徴とする付記１〜５のいずれか一つに記載の音声認識装置。

（付記７）前記判定部が、繰り返し発声であると連続で判定した回数が所定回数以上となった場合に、ネットワークを介して、前記音声認識装置と、オペレータが操作する端末装置とを接続する接続部を更に有することを特徴とする付記１〜６のいずれか一つに記載の音声認識装置。

（付記８）前記判定部が、繰り返し発声であると連続して判定した回数を基にして、優先度と、音声入力の改善を促すメッセージとを対応付けた情報から、未選択のメッセージを優先度に基づき選択し、選択したメッセージを出力する処理、前記音声情報をサーバに送信する処理、ネットワークを介して、前記音声認識装置と、オペレータが操作する端末装置とを接続する処理のいずれかを選択する選択部を有することを特徴とする付記１〜７のいずれか一つに記載の音声認識装置。

（付記９）コンピュータが実行する音声認識方法であって、
音声情報を、該音声情報の特徴量に対応する各音素の文字で表現した音素系列に変換し、
前記音声情報の特徴量および前記音素系列に基づく尤度と、前記音声情報の特徴量および所定のキーワードの音素系列に基づく尤度とを基にして、照合に成功したか否かを判定し、
照合結果を基にして、照合に失敗した際の前記音声情報の音素系列の各音素と、過去の音声情報の音素系列の各音素とを対応付け、
対応付けた結果を基にして、繰り返し発声か否かを判定する
処理を実行することを特徴とする音声認識方法。

（付記１０）類似する複数の音素をまとめた音素グループと代表音素の文字とを対応付けたテーブルを基にして、前記音素系列に含まれる音素を代表音素の文字に補正する処理を更に実行することを特徴とする付記９に記載の音声認識方法。

（付記１１）前記補正する処理は、前記音素系列に含まれる音素のうち、無音を示す音素の文字を削除する補正を更に実行することを特徴とする付記１０に記載の音声認識方法。

（付記１２）前記対応付ける処理は、ＤＰ（Dynamic Programming）マッチングを実行することで、前記音素系列の各音素と、過去の音声情報の音素系列の各音素とを対応付け、対応付けられた音素と一致する音素の数と、対応する音素が存在しない音素の数と、対応付けられた音素と異なる音素の数とを基にして、一致率を算出し、前記判定する処理は、前記一致率が閾値を超えた場合に、繰り返し発声であると判定することを特徴とする付記９、１０または１１に記載の音声認識方法。

（付記１３）前記判定する処理によって、繰り返し発声であると判定した場合に、優先度と、音声入力の改善を促すメッセージとを対応付けた情報から、未選択のメッセージを優先度に基づき選択し、選択したメッセージを出力する処理を更に実行することを特徴とする付記９〜１２のいずれか一つに記載の音声認識方法。

（付記１４）前記判定する処理によって、繰り返し発声であると連続で判定した回数が所定回数以上となった場合に、前記音声情報をサーバに送信する処理を更に実行することを特徴とする付記９〜１３のいずれか一つに記載の音声認識方法。

（付記１５）前記判定する処理によって、繰り返し発声であると連続で判定した回数が所定回数以上となった場合に、ネットワークを介して、オペレータが操作する端末装置とを接続する処理を更に有することを特徴とする付記９〜１４のいずれか一つに記載の音声認識方法。

（付記１６）前記判定する処理によって、繰り返し発声であると連続して判定した回数を基にして、優先度と、音声入力の改善を促すメッセージとを対応付けた情報から、未選択のメッセージを優先度に基づき選択し、選択したメッセージを出力する処理、前記音声情報をサーバに送信する処理、ネットワークを介して、前記音声認識装置と、オペレータが操作する端末装置とを接続する処理のいずれかを選択する処理を更に実行することを特徴とする付記９〜１５のいずれか一つに記載の音声認識方法。

（付記１７）コンピュータに、
音声情報を、該音声情報の特徴量に対応する各音素の文字で表現した音素系列に変換し、
前記音声情報の特徴量および前記音素系列に基づく尤度と、前記音声情報の特徴量および所定のキーワードの音素系列に基づく尤度とを基にして、照合に成功したか否かを判定し、
照合結果を基にして、照合に失敗した際の前記音声情報の音素系列の各音素と、過去の音声情報の音素系列の各音素とを対応付け、
対応付けた結果を基にして、繰り返し発声か否かを判定する
処理を実行させることを特徴とする音声認識プログラム。

（付記１８）類似する複数の音素をまとめた音素グループと代表音素の文字とを対応付けたテーブルを基にして、前記音素系列に含まれる音素を代表音素の文字に補正する処理を更に実行することを特徴とする付記１７に記載の音声認識プログラム。

（付記１９）前記補正する処理は、前記音素系列に含まれる音素のうち、無音を示す音素の文字を削除する補正を更に実行することを特徴とする付記１８に記載の音声認識プログラム。

（付記２０）前記対応付ける処理は、ＤＰ（Dynamic Programming）マッチングを実行することで、前記音素系列の各音素と、過去の音声情報の音素系列の各音素とを対応付け、対応付けられた音素と一致する音素の数と、対応する音素が存在しない音素の数と、対応付けられた音素と異なる音素の数とを基にして、一致率を算出し、前記判定する処理は、前記一致率が閾値を超えた場合に、繰り返し発声であると判定することを特徴とする付記１７、１８または１９に記載の音声認識プログラム。

（付記２１）前記判定する処理によって、繰り返し発声であると判定した場合に、優先度と、音声入力の改善を促すメッセージとを対応付けた情報から、未選択のメッセージを優先度に基づき選択し、選択したメッセージを出力する処理を更に実行することを特徴とする付記１７〜２０のいずれか一つに記載の音声認識プログラム。

（付記２２）前記判定する処理によって、繰り返し発声であると連続で判定した回数が所定回数以上となった場合に、前記音声情報をサーバに送信する処理を更に実行することを特徴とする付記１７〜２１のいずれか一つに記載の音声認識プログラム。

（付記２３）前記判定する処理によって、繰り返し発声であると連続で判定した回数が所定回数以上となった場合に、ネットワークを介して、オペレータが操作する端末装置とを接続する処理を更に有することを特徴とする付記１７〜２２のいずれか一つに記載の音声認識プログラム。

（付記２４）前記判定する処理によって、繰り返し発声であると連続して判定した回数を基にして、優先度と、音声入力の改善を促すメッセージとを対応付けた情報から、未選択のメッセージを優先度に基づき選択し、選択したメッセージを出力する処理、前記音声情報をサーバに送信する処理、ネットワークを介して、前記音声認識装置と、オペレータが操作する端末装置とを接続する処理のいずれかを選択する処理を更に実行することを特徴とする付記１７〜２３のいずれか一つに記載の音声認識プログラム。

５０マイク
６０ネットワーク
７０サーバ
８０オペレータ端末
１００，２００，３００，４００，５００音声認識装置
１０１音声区間検出部
１０２特徴量抽出部
１０３最尤音素系列探索部
１０４単語照合部
１０５キーワード検出部
１０６記憶部
１０６ａリファレンスデータ
１０６ｂ音素グループデータ
１０７補正部
１０８登録部
１０９マッチング部
１１０判定部
２１０記憶部
２１０ａガイダンステーブル
３１０，５２０送信部
３２０，５３０受信部
４１０，５４０接続部
５１０選択部

Claims

音声情報を、該音声情報の特徴量に対応する各音素の文字で表現した音素系列に変換する変換部と、
前記音声情報の特徴量および前記音素系列に基づく尤度に対数を掛けた対数尤度と、前記音声情報の特徴量および所定のキーワードの音素系列に基づく尤度に対数を掛けた対数尤度との差分をそれぞれ算出し、差分が閾値未満となる前記音素系列に基づく尤度が存在しない場合に、照合に失敗したと判定する照合部と、
照合結果を基にして、照合に失敗した際の前記音声情報の音素系列の各音素と、過去の音声情報の音素系列の各音素とを対応付けるマッチング部と、
対応付けた結果を基にして、繰り返し発声か否かを判定する判定部と
を有することを特徴とする音声認識装置。
類似する複数の音素をまとめた音素グループと代表音素の文字とを対応付けたテーブルを基にして、前記音素系列に含まれる音素を代表音素の文字に補正する補正部を更に有することを特徴とする請求項１に記載の音声認識装置。
前記補正部は、前記音素系列に含まれる音素のうち、無音を示す音素の文字を削除する補正を更に実行することを特徴とする請求項２に記載の音声認識装置。
前記マッチング部は、ＤＰ（Dynamic Programming）マッチングを実行することで、前記音素系列の各音素と、過去の音声情報の音素系列の各音素とを対応付け、対応付けられた音素と一致する音素の数と、対応する音素が存在しない音素の数と、対応付けられた音素と異なる音素の数とを基にして、一致率を算出し、前記判定部は、前記一致率が閾値を超えた場合に、繰り返し発声であると判定することを特徴とする請求項１、２または３に記載の音声認識装置。
前記判定部が、繰り返し発声であると判定した場合に、優先度と、音声入力の改善を促すメッセージとを対応付けた情報から、未選択のメッセージを優先度に基づき選択し、選択したメッセージを出力する出力部を更に有することを特徴とする請求項１〜４のいずれか一つに記載の音声認識装置。
前記判定部が、繰り返し発声であると連続で判定した回数が所定回数以上となった場合に、前記音声情報をサーバに送信する送信部を更に有することを特徴とする請求項１〜５のいずれか一つに記載の音声認識装置。
前記判定部が、繰り返し発声であると連続で判定した回数が所定回数以上となった場合に、ネットワークを介して、前記音声認識装置と、オペレータが操作する端末装置とを接続する接続部を更に有することを特徴とする請求項１〜６のいずれか一つに記載の音声認識装置。
前記判定部が、繰り返し発声であると連続して判定した回数を基にして、優先度と、音声入力の改善を促すメッセージとを対応付けた情報から、未選択のメッセージを優先度に基づき選択し、選択したメッセージを出力する処理、前記音声情報をサーバに送信する処理、ネットワークを介して、前記音声認識装置と、オペレータが操作する端末装置とを接続する処理のいずれかを選択する選択部を有することを特徴とする請求項１〜７のいずれか一つに記載の音声認識装置。
コンピュータが実行する音声認識方法であって、
音声情報を、該音声情報の特徴量に対応する各音素の文字で表現した音素系列に変換し、
前記音声情報の特徴量および前記音素系列に基づく尤度に対数を掛けた対数尤度と、前記音声情報の特徴量および所定のキーワードの音素系列に基づく尤度に対数を掛けた対数尤度との差分をそれぞれ算出し、差分が閾値未満となる前記音素系列に基づく尤度が存在しない場合に、照合に失敗したと判定し、
照合結果を基にして、照合に失敗した際の前記音声情報の音素系列の各音素と、過去の音声情報の音素系列の各音素とを対応付け、
対応付けた結果を基にして、繰り返し発声か否かを判定する
処理を実行することを特徴とする音声認識方法。
コンピュータに、
音声情報を、該音声情報の特徴量に対応する各音素の文字で表現した音素系列に変換し、
前記音声情報の特徴量および前記音素系列に基づく尤度に対数を掛けた対数尤度と、前記音声情報の特徴量および所定のキーワードの音素系列に基づく尤度に対数を掛けた対数尤度との差分をそれぞれ算出し、差分が閾値未満となる前記音素系列に基づく尤度が存在しない場合に、照合に失敗したと判定し、
照合結果を基にして、照合に失敗した際の前記音声情報の音素系列の各音素と、過去の音声情報の音素系列の各音素とを対応付け、
対応付けた結果を基にして、繰り返し発声か否かを判定する
処理を実行させることを特徴とする音声認識プログラム。