JP2006215317A

JP2006215317A - 音声認識システム、音声認識装置及び音声認識プログラム

Info

Publication number: JP2006215317A
Application number: JP2005028715A
Authority: JP
Inventors: Toshihiro Kujirai; 俊宏鯨井; Takahisa Tomota; 孝久友田; Minoru Togashi; 実冨樫; Takeshi Ono; 健大野
Original assignee: Hitachi Ltd; Xanavi Informatics Corp; Nissan Motor Co Ltd
Current assignee: Hitachi Ltd; Nissan Motor Co Ltd; Faurecia Clarion Electronics Co Ltd
Priority date: 2005-02-04
Filing date: 2005-02-04
Publication date: 2006-08-17
Anticipated expiration: 2025-02-04
Also published as: JP4639094B2

Abstract

【課題】
音声認識技術を用いて、ユーザの音声による特定の機能の指示を受け付ける音声認識システム、音声認識装置及び音声認識プログラムを提供する。
【解決手段】
音声データに基づいて算出された信頼度は所定条件を満たさない場合に、音声認識部は、当該音声データを記憶し、応答部は、ユーザの指示が受理できない旨を通知し、通知後に入力された音声データに基づいて算出された信頼度が所定条件を満たす場合、又は、操作部によって機能を特定する指示がされた場合に、応答部は、音声認識部に記憶された音声データを音声認識対象の語彙データとして認識辞書記憶部に記憶させるか否かをユーザに問い合わせ、音声認識部は、問い合わせに対応するユーザの指示に基づいて、当該音声データを音声認識対象の語彙データとして前記認識辞書記憶部に記憶することを特徴とする。
【選択図】図２

Description

本発明は、音声認識技術を用いて、ユーザの音声による特定の機能の指示を受け付ける音声認識システム、音声認識装置及び音声認識プログラムに関するものである。

現在の音声認識技術は、認識対象語彙として登録された語彙の中からユーザの発声に最も類似しているものを選択し認識結果とするとともに、その認識結果の信頼性尺度である信頼度を出力するものが一般的である。

認識結果の信頼度を計算する方法としては、例えば、比較照合部２で、入力音声の特徴ベクトルＶと予め登録しておいた複数の標準パターンとの類似度を計算する。このとき、類似度の最大値Ｓを与える標準パターンを認識結果として求める。並行して、参照類似度計算部４で、特徴ベクトルＶと単位標準パターン記憶部３の単位標準パターンを結合した標準パターンと比較照合する。ここで、類似度の最大値を参照類似度Ｒとして出力する。次に類似度補正部５において、参照類似度Ｒを用いて類似度Ｓを補正する音声認識装置がある（例えば、特許文献１参照。）。この類似度によって信頼度が算出できる。

このような音声認識エンジンを利用した音声認識システムは、認識結果の信頼度が高い場合は認識結果を受理し、信頼度が低い場合は誤動作を防ぐために認識結果を棄却するのが一般的である。

認識結果が棄却される場合としては、ユーザの発声は認識対象語彙に対応するものであるが、周囲雑音の影響や、発声様態の変化等により、ユーザの発声と認識対象語彙を表現する標準パターンとの類似度が低くなり、信頼度も低くなる場合がある。また、ユーザの発声そのものが認識対象語彙以外であるために、信頼度が低くなる場合がある。

また、多数の機能を持つシステムにおいては、機能を選択するためのメニュー等を画面上にすべて表示することは困難なため、メニューを階層化することが一般的である。音声認識を用いたシステムにおいては、画面上に表示されていない機能に関しても、ユーザがその機能を直接呼び出すコマンド名を知っていれば、メニュー階層に従わず直接操作ができるという利点がある。一方で、語彙を増やすことで認識率が低下することを防ぐために、すべての機能の直接操作を許さず、一部の直接操作及びメニュー階層に対応した操作を音声で行えるようにする場合もある。
特開平４−２５５９００号公報

前記のようなシステムでは、ユーザの意図する機能の選択を音声で行うためには、機能に対応した認識対象語彙をあらかじめユーザが知っている必要がある。機能が直接操作で選択できる場合は、１つの語彙を知っていれば良く、メニュー階層に従って選択を行う場合は、メニュー階層ごとの語彙を知っている必要がある。メニュー階層に従った語彙の場合、画面上に語彙を表示しておくことでユーザは語彙を知っている必要はなくなるが、運転中など画面を見ることができない場合は、やはり語彙を知っている必要がある。このような語彙はシステムのマニュアルに記載されているのが一般的だが、実際にはマニュアルを読んで認識対象語彙を記憶してから利用するユーザはまれである。

システムの設計者は認識対象語彙を知らないユーザでもシステムが利用できるように、できるだけ一般的な語彙を利用したり、様々な言いまわしを用意したりするのが一般的であるが、システム設計者が想定しない発声がなされる可能性は常にある。また、カーナビゲーションシステムのような組込みシステムでは処理量やメモリ容量の制限により、言い回しを大量に用意することは難しいという問題がある。

さらに重要な問題点として、認識対象語彙を知らないユーザが音声認識システムを利用した場合、上手く操作が行えないことに不満を持ち、システムを利用するのをやめてしまうという問題がある。

本発明は、上記の問題を鑑みてなされたものであり、ユーザが認識対象語彙以外の発声を行った場合、単に認識結果を棄却するのではなく、その後にユーザが行った機能選択操作と棄却したユーザ発声の対応付けることで、ユーザにとって直感的な発声内容を、当該機能に対する語彙として登録することを特徴とする。

本発明は、ユーザが発した音声の入力によって、機能を特定する指示を受け付ける音声認識システムであって、ユーザが発した音声を音声データに変換する音声入力部と、音声データを一時的に記憶する音声記憶部と、音声認識対象の語彙データを記憶する認識辞書記憶部と、音声データに対応する語彙データを認識し、当該音声データの認識の信頼度を算出する音声認識部と、信頼度と所定条件との比較結果に基づいて、認識された語彙データを特定の機能の選択の指示として受理するか否かを判定する判定部と、ユーザに情報を伝達する応答部と、ユーザの操作入力を受け付ける操作部と、を備え、音声データに基づいて算出された信頼度は所定条件を満たさない場合に、音声認識部は、当該音声データを記憶し、応答部は、ユーザの指示が受理できない旨を通知し、通知後に入力された音声データに基づいて算出された信頼度が所定条件を満たす場合、又は、操作部によって機能を特定する指示がされた場合に、応答部は、音声認識部に記憶された音声データを音声認識対象の語彙データとして認識辞書記憶部に記憶させるか否かをユーザに問い合わせ、音声認識部は、問い合わせに対応するユーザの指示に基づいて、当該音声データを音声認識対象の語彙データとして前記認識辞書記憶部に記憶することを特徴とする。

本発明によると、ユーザがマニュアル等を参照して認識対象語彙を覚えなくても、ユーザが直感的に思いついたコマンドを発声した後に、リモコンやタッチパネルなどで対応する機能を選択することで、次回からはそのコマンドを利用できるようになり、ユーザの利便性が増す。

以下に本発明の実施の形態の音声認識システムを、図面を参照して説明する。

本発明の実施の形態の音声認識システムは、ユーザの発生した音声による指示又はユーザからのタッチパネルやリモコン等による指示を受け付け、受け付けた指示に対応した処理を実行する。この音声認識システムは、例えばカーナビゲーションシステムのユーザーインターフェース部に用いられる。

図１は、本発明の第１の実施例の音声認識システムの構成のブロック図である。

本発明の第１の実施例の音声認識システムは、音声入力部１０１、音声認識部１０２、判定部１０３、応答部１０４、音声記憶部１０５、認識辞書記憶部１０６及び操作部１０７によって構成される。

音声入力部１０１は、ユーザの発声した音声を取り込み、デジタル信号形式の音声データに変換する。音声入力部１０１は、例えばマイクロフォンとＡ／Ｄコンバータで構成されており、マイクロフォンによって入力された音声信号がＡ／Ｄコンバータによってデジタル信号に変換される。変換されたデジタル信号（音声データ）は、音声認識部１０２及び音声記憶部１０５に送られる。

認識辞書記憶部１０６は、認識対象語彙のデータが予め記憶されている記憶装置であり、例えばＨＤＤやＲＯＭによって構成される。この認識対象語彙のデータは、音声認識部１０２によって音声認識が行われる際に、音声認識部１０２に備えられているＲＡＭに読み出される。

認識対象語彙は、音声認識のためのパターンマッチ用の標準データである。この標準データは、読み登録形式と音声登録形式との２つの形式で記録されている。

読み登録形式は、認識対象語彙の読みをテキストデータで登録しておき、そのテキストデータに、その読みに対応した音響モデルをつなぎ合わせた標準データである。なお、音響モデルには、ＨＭＭ（Hidden Markov Model）によって表現された音素片などが用いられる。

音声登録形式は、人間が発声した音声から変換された音声データを、ＦＦＴケプストラム分析などの分析手法を用いて短時間ごとに分析された時系列データを用いて構成された標準データである。

音声認識部１０２は、音声入力部１０１から入力された音声データと認識辞書記憶部１０６から読み出された認識対象語彙（標準データ）とを比較して、類似度を計算する。そして、最も類似度の高い認識対象語彙を認識結果として選択する。なお、最も類似度の高いものだけではなく、類似度の上位の複数の語彙を認識結果として選択することもできる。類似度の計算方法は、認識対象語彙が読み登録形式の場合は、ＨＭＭのデコード方式であるＶｉｔｅｒｂｉアルゴリズムが用いられる。また、認識対象語彙が音声登録形式の場合は、ダイナミックプログラミングアルゴリズムが用いられる。

また、音声認識部１０２は、入力された音声データの認識結果に対して信頼度を計算する。信頼度の計算には、例えば、特許文献１に記載の類似度の計算方法を用いることができる。

判定部１０３は、音声データを受理するか否かを判定する。具体的には、音声認識部１０２が選択した認識結果の認識対象語彙のうち、信頼度の値が高い語彙を受理し、信頼度の値が低い認識結果を棄却する。この判定部１０３の受理した認識対象語彙によって、特定の機能が指示される。

応答部１０４は、ユーザに情報を伝達する。特に、音声認識部１０２の認識結果や判定部１０３の判定結果等を受け取って、その結果に基づいてユーザに適切な応答を行う。応答部１０４は、例えば液晶ディスプレイ、スピーカ等を備え、画面上に表示される文字や画像、スピーカから再生される音声等によって、ユーザに情報を伝達する。

音声記憶部１０５は、音声入力部１０１によって変換された音声データを一時的に記憶する。音声記憶部１０５は、例えば、ＲＡＭによって構成される。

操作部１０７は、ユーザからの音声によらない指示を受け付ける。操作部１０７は、例えばタッチパネルやリモコン等で構成される。なお、図１に示す音声認識システムが一つの操作部として実現されていてもよい。

なお、図１の各部は、ハードウェアで構成されていてもよいし、ソフトウェアによって各部の機能が実現されるものであってもよい。

図２は、本実施例の音声認識システムの音声認識処理のフローチャートである。

本実施の形態の音声認識システムは、ユーザからの音声入力又はユーザからの操作部１０７（例えばリモコンやタッチパネル）の操作によって指示が入力される。また、ユーザがシステムの特定の機能を選択するために、階層的なメニュー構成がとられている。ユーザは、音声入力又はリモコンやタッチパネルの操作等いずれかの方法を用いて、メニュー階層を辿る指示を行い、所望の機能を選択する指示を行う。また、ユーザはメニュー階層を辿らずに、直接機能を選択する指示をすることもできる。

これらを実現するために、階層的なメニューを辿るためのコマンド、機能を直接選択するためのコマンドに対応する認識対象語彙のデータが、予め認識辞書記憶部１０６に記憶されている。

本処理は、音声入力部１０１によってユーザの発生が検出されたか、操作部１０７によってユーザの操作が検出されたかによって、ステップ１００１とステップ１００２が振り分けられる。

まず、ユーザの操作が音声で行われた場合は（Ｓ１００１）、音声入力部１０１によって入力された音声が音声データに変換される。そして、音声認識部１０２によって、音声データに対応する認識対象語彙が認識され、その信頼度が計算される。

次に、判定部１０３は、計算された信頼度が所定の閾値以上であるか否かを判定する（Ｓ１００３）。信頼度が閾値以下の場合は、入力された音声データに対応する認識対象語彙がない。例えば、認識対象語彙に対応するコマンドを知らないユーザが、直感的に思いついた言い回しで機能を呼び出そうとした場合などである。

認識結果の信頼度が閾値より低いと判定した場合は、判定部１０３は、認識失敗フラグが設定されているか否かを判定する（Ｓ１００４）。認識失敗フラグは、音声認識には失敗したが、その発声がユーザにとって直感的な音声コマンドである可能性を考慮して、音声記憶部１０５に前記ユーザ発声が記憶されていることを示すフラグである。認識失敗フラグは、判定部１０３に備えられているメモリ等に設定される。

認識失敗フラグが設定されていないと判定した場合はステップ１００５に移行する。認識失敗フラグが設定されていない場合とは、例えば、現在ユーザが選択しようとしている操作において初めの認識失敗であると想定される。この発声は、該当機能を呼び出すのにユーザが直感的に思いついた言葉である可能性が高い。すなわち、この認識に失敗した音声は、ユーザが直感的に思いついた言葉であり、ある程度の具体性を持った音声である。この音声を登録することで、以降は、ユーザがその言葉を利用して指示を行うことが可能となる。

そこで、この音声データを認識対象語彙に登録する候補とする。判定部１０３は、音声認識部１０２に音声記憶の指示を出し、音声認識部１０２は当該音声データを音声記憶部１０５に記憶する（Ｓ１００５）。次に、判定部１０３は認識失敗フラグを設定する（Ｓ１００６）。次に、応答部１０４は、ユーザに音声認識が失敗したことを応答音声によって通知する（Ｓ１００７）。

なお、最初に音声認識部１０２に入力された音声が周囲の騒音などの場合は、この音声を音声記憶部１０５に登録しておく利点はない。そのため、音声認識部１０２は、ユーザの発声したものではないと考えられる音声データは、認識結果と信頼度を出力せず、当該音声データは破棄する。

一方、Ｓ１００４において、既に認識失敗フラグが設定されていると判定した場合は、ステップ１００７に移行する。

既に認識失敗フラグが設定されている場合とは、例えば、現在ユーザが選択しようとしている操作において、二度目以降の認識失敗である。例えば、（１）認識できない同じ言い回しを再度発声した、（２）同じメニュー階層において認識できない別の言いまわしを試した、（３）別のメニュー階層において認識できない別の発声を行った、などが想定される。いずれの場合も、二度目以降の認識失敗は、前述したような初めの認識失敗となったユーザの音声の言い回しよりも、ユーザにとって直感的ではないと考えられる。そこで、当該音声データは、音声記憶部１０５には記憶せず、ステップ１００７に進む。

認識フラグが設定されている場合、認識フラグが設定されていない場合のいずれにおいても、結果として、ユーザによる指示によっては有効な機能が選択されていない。その後、ユーザからの入力の待ち受け処理に移行し（Ｓ１００８）、音声の入力（Ｓ１００１）又はリモコン等による操作（Ｓ１００２）に備える。

ユーザからリモコンやタッチパネル等で指示が入力された場合（Ｓ１００２）、又は、ユーザの音声による指示の認識結果の信頼度が閾値以上である場合は、入力された指示が特定の機能の選択であるか否かを判定する（Ｓ１００９）。

入力された指示が、メニュー階層の移動のみであり、特定の機能の選択ではないと判定した場合は、指示された階層に移動する処理をして、次の入力を待ち受ける処理に移行し（Ｓ１０１０）、移動後の階層において、音声の入力（Ｓ１００１）又はリモコン等による操作（Ｓ１００２）に備える。

一方、特定の機能が選択されたと判定した場合は、認識失敗フラグが設定されているか否かを判定する（Ｓ１０１１）。

認識失敗フラグが設定されていると判定した場合はステップ１０１２に移行し、認識フラグが設定されていないと判定した場合はステップ１０１３に移行する。

認識失敗フラグが設定されている場合は、例えば、初回にユーザが直感的に思い付いた言い回しを用いて指示をして、認識に失敗した場合である。すなわち、一度音声による指示を失敗し、再度別の音声、又はリモコン操作等によって有効な機能の選択が行われた場合である。この場合、前述したステップ１００５において、ユーザの音声データが音声記憶部１０５に記憶されている。そこで、音声記憶部１０５に記憶されている音声データを、正しい操作の指示音声として登録する。

具体的には、当該音声データを、選択された機能とその音声データの言い回しを対応付けるかどうかをユーザに問い合わせる対応付け処理を行う（Ｓ１０１２）。この処理は図３で後述する。

対応付け処理の終了後、ユーザの指示によって選択された特定の機能が実行される（ステップ１０１３）。

ステップ１０１１において、認識失敗フラグが設定されていないと判定した場合は、音声記憶部１０５には音声データが記憶されていないので、対応付け処理を行うことなく、ユーザによって指示された処理を実行する（ステップ１０１３）。

図３は、本実施例の音声認識システムの対応付け処理のフローチャートである。

まず、応答部１０４によって音声記憶部１０５に記憶された音声データを再生し、選択された機能とその音声データの言い回しを対応付けるかどうかをユーザに問い合わせる（Ｓ２００１）。

問い合わせの結果、音声認識部１０２は、ユーザが対応付けることを決定したか否かを判定する（Ｓ２００２）。すなわち、ユーザが当該音声と機能を対応付ける指示を選択したか否かを判定する。この指示は音声又はリモコン等によって行われる。

ユーザが対応付けることを選択した場合は、音声認識部１０２は、音声記憶部１０２に記憶されている音声データの音響特徴量列を認識対象語彙として認識辞書記憶部１０６に登録する（Ｓ２００３）。次に、認識失敗フラグを解除して（Ｓ２００４）、図２のフローチャートに復帰する。

一方、ユーザが対応付けることを選択しなかった場合は、音声認識部１０２は、音声データを登録することなく認識失敗フラグを解除して（Ｓ２００４）、図２のフローチャートに復帰する。

この図２及び図３に示す処理によって、ユーザの指示した未登録の音声データが、認識対象語彙として登録される。

以上説明した本発明の第１の実施例の音声認識システムは、特定の機能を呼び出すためにユーザが直感的に思いついた言い回しによる音声データが、認識辞書記憶部１０６に登録されている認識対象語彙によっては認識できない場合であっても、その音声データを登録することで、ユーザが一度失敗した言い回しが次回から認識対象となる。このようにすることで、ユーザの言い回しが新たに蓄積されてゆき、ユーザの利便性を増すことができる。

次に、第２の実施例の音声認識システムについて説明する。

第２の実施例では、第１の実施例と比較して、対応付け処理の方法が異なる。なお、第１の実施例と同一の構成には同一の符号を付し、その説明は省略する。

図４は、本発明の第２の実施例の音声認識システムの構成ブロック図である。

第２の実施例の音声認識システムは、音声入力部１０１、音声認識部１０２、判定部１０３、応答部１０４、音声記憶部１０５、認識辞書記憶部３０２、操作部１０７、追加認識辞書記憶部３０１によって構成される。

追加認識辞書記憶部３０１は、読み登録形式の追加認識対象語彙が予め記憶されている。この追加認識対処語彙には、機能毎にユーザが発声しうるさまざまな言い回しの音声に対応する語彙データが含まれる。また、認識辞書記憶部３０２には、追加認識辞書記憶部３０１に記憶されている追加認識対象語彙を、認識対象語彙として認識辞書記憶部３０２に追加することができる。音声認識部１０２は、それらを認識対象語彙とすることができる。

図５は第２の実施例の音声認識システムの対応付け処理のフローチャートである。

なお、音声認識処理は第１の実施例の図２のフローチャートと共通であり、図２のステップ１０１１において、認識失敗フラグが設定されていると判定した場合に、本フローチャートに移行する。

音声認識部１０２は、まず、ユーザが選択した機能に対応した言い回しの追加認識対象語彙のリストを追加認識辞書記憶部３０１から読み出す。そして、読み出した追加対象認識語彙のリストを認識対象とする（Ｓ３００１）。

音声認識部１０２は、この読み出した追加認識対象語彙を用いて、ユーザから指示され音声記憶部１０５に記憶された音声データの認識を行う（Ｓ３００２）。なお、音声認識部１０２によって当該音声データの認識結果と信頼度が得られると、認識対象を認識辞書記憶部３０２の認識対象語彙に戻す（Ｓ３００３）。

次に、判定部１０３は、認識結果の信頼度が所定の閾値以上であるか否かを判定する（Ｓ３００４）。信頼度が閾値以上であると判定した場合はステップ３００５に移行し、閾値よりも小さいと判定した場合はステップ３００８に移行する。

信頼度が閾値以上である場合は、追加認識辞書記憶部３０１から読み出された追加認識対象語彙のリストの中に、ユーザの発声した指示に対応したものがある可能性が高い。そこで、認識結果であるユーザの指示に対応する追加認識対象語彙を、ユーザの指示した機能と対応付けるかをユーザに問い合わせる。

具体的には、応答部１０４によって当該追加認識対象語彙を音声合成してユーザに提示する。そして、当該追加認識対象語彙と選択した機能とを対応付けるかを問い合わせる（Ｓ３００５）。

問い合わせの結果、ユーザが対応付けることを決定したか否かを判定する（Ｓ３００６）。すなわち、ユーザが当該追加認識対象語彙と機能を対応付ける指示を選択したか否かを判定する。この指示は音声又はリモコン等によって行われる。

ユーザが対応付けることを選択した場合は、音声認識部１０２は、ユーザに提示した追加認識対象語彙を認識対象語彙として、読み登録形式で認識辞書記憶部１０６に登録する（Ｓ３００７）。次に、認識失敗フラグを解除して（Ｓ２００４）、図２のフローチャートに復帰する。

一方、ユーザが対応付けることを選択しなかった場合は、音声認識部１０２は、当該語彙を登録することなく認識失敗フラグを解除して（Ｓ２００４）、図２のフローチャートに復帰する。

ステップ３００４において、信頼度が閾値より低い場合は、追加認識辞書記憶部３０１から読み出された語彙のリストの中に、ユーザが発声した指示に対応したものがある可能性が低い。そこで、前述した第１の実施の形態の図３と同様に、ユーザの発声した音声データをユーザの選択した機能と対応付けるかを問い合わせる。

具体的には、応答部１０４によって、音声記憶部１０５に記憶されているユーザの発声した音声データを再生し、選択された機能とその音声データの言い回しを対応付けるかどうかをユーザに問い合わせる（Ｓ２００１）。

そして、問い合わせの結果、ユーザが対応付けることを決定したか否かを判定する（Ｓ２００２）。すなわち、ユーザが当該音声データと機能を対応付ける指示を選択したか否かを判定する。この指示は音声又はリモコン等によって行われる。

なお、ステップ３００３の処理は、対応付ける追加認識辞書内の語彙やユーザ発声があった場合、図５のフローチャートが終了した時点で認識対象語彙として追加されているようにするための処理であるため、かならずしもこの時点で行う必要はない。ステップ３００７やステップ２００３で、認識辞書記憶部への追加を行った後で、認識対象としても良い。

この図５の処理によって、ユーザの指示した未登録の音声データを、システムに登録できる。

一般的に、音声認識率は（１）同じ発声を繰り返す音声登録形式、（２）読み登録形式、（３）１回のみの発声の音声登録形式、の順に認識率が高いことが知られている。従って、ユーザが複数回の発声を厭わないのであれば、例えば、図５のステップ３００７の処理の前に、ユーザに複数回同じ発声をさせるように指示することで、ユーザの発声の認識率を向上できる。しかし、ユーザはこのような登録を煩雑として敬遠する傾向があるため、ユーザの１回目の発声の認識率を向上させることが望ましい。

そこで、予め追加認識辞書記憶部３０１に考えられ得るさまざまな言い回しの認識対象語彙をあらかじめ登録しておく。そして、ユーザが機能を選択した後で、機能に対応した言い回しの中から対応する語彙を選択して、当該語彙を読み登録形式として認識辞書記憶部３０２に登録する。当然、最初から考えられ得るさまざまな言い回しの語彙を、予め認識辞書記憶部３０２に登録し、認識対象としておく方法も考えられる。が、認識対象の語彙が増えると認識の処理量が大きくなるため、カーナビゲーションシステムなどの組込みシステムには本実施例の方が望ましい。さらに、ユーザが発声する可能性が極めて小さい言い回しまで音声認識対象としてしまうと、認識率が低下し得ることに対しても本実施例の構成は効果を奏する。

このように、本発明の第２の実施例では、ユーザの指示の音声認識を、初めは、認識対象語彙を限定して、高い認識率が達成できるようにしておき、ユーザの選択し機能が判明してから、その機能に対応する認識対象語彙を認識対象として追加することで、ユーザの言い回しが新たに蓄積されてゆき、ユーザの利便性が増すと共に、音声認識率を高く維持できる。

なお、認識に失敗し、当該音声データが音声記憶部１０５に記憶された場合（図２のステップ１００５）、ユーザがその音声を発したのはメニュー階層の最上層であったときは、そのユーザの発声は状況にかかわらず直接該当する機能を呼び出すことを意図した発声である可能性が高い。一方、ユーザがその音声を発したのはメニュー階層の中間層であったときは、ユーザは、そのメニュー階層の位置におけるコンテキストを認識し、所望する機能を呼び出すことを意図した発声、又は、状況にかかわらず直接所望する機能を呼び出すことを意図した発声、の何れかである可能性が高い。

例えば、メニュー階層の最上層で、ユーザが、「目的地の周辺でレストランを検索」と発声した場合を考える。なお、この指示は、メニュー階層の「検索」→「施設」→「レストラン」→「範囲限定」→「目的地周辺」と機能選択したことに対応する。この場合、このメニュー階層の何れかの中間層を選択した時点で発声されたとしても、「目的地周辺」という機能を呼び出すことを意図していることが想定される。

また、前述のメニュー階層において、「検索」→「施設」→「レストラン」までメニュー階層を選択したときに、ユーザが「目的地周辺」と発声した場合は、そのメニュー位置では、前述の機能を呼び出すことを意図している可能性が高い。

一方、メニュー階層の最上層で「目的地周辺」という発声した場合は、前述の「目的地周辺でのレストランを検索」という機能を呼び出すことを意図している可能性は低い。従って、メニュー階層の中間層や最下層で発声された音声を認識対象語彙として追加する場合は、その階層で用いられる機能に限定した方が良い場合、最上層で呼び出される認識対象語彙として追加した方が良い場合、の二通りが考えられる。

そこで、第２の実施例において、読み登録形式の追加認識対象語彙の登録（図５、Ｓ３００７）は、追加認識辞書記憶部３０１に登録されているさまざまな言い回しに対して、どのメニュー階層に登録すべきかといった情報をあらかじめ付与してもよい。

なお、第１の実施例及び第２の実施例において、ユーザの発声した音声データの音声特徴量列の登録（図３又は図５の、Ｓ２００３）は、ユーザの発声した内容は、メニュー階層の位置に依存しているかどうかを判断できない。従って、対応付けの問い合わせ時に、ユーザに、メニュー階層のどの位置での認識対象語彙として登録するかを問い合わせることが好ましい。この問い合わせの方法としては、「『ユーザの発声した音声データの再生』を、トップメニューから利用できるようにしますか？それともこのコマンドを発声したメニュー階層だけで利用できるようにしますか？」とユーザに問い合わせてもよい。

本発明の第１の実施例の音声認識システムの構成ブロック図である。本発明の第１の実施例の音声認識処理のフローチャートである。本発明の第１の実施例の対応付け処理のフローチャートである。本発明の第２の実施例の音声認識システムの構成ブロック図である。本発明の第２の実施例の対応付け処理のフローチャートである。

符号の説明

１０１音声入力部
１０２音声認識部
１０３判定部
１０４応答部
１０５音声記憶部
１０６、３０２認識辞書記憶部
１０７操作部
３０１追加認識辞書記憶部

Claims

ユーザが発した音声の入力によって、機能を特定する指示を受け付ける音声認識システムであって、
ユーザが発した音声を音声データに変換する音声入力部と、
前記音声データを一時的に記憶する音声記憶部と、
音声認識対象の語彙データを記憶する認識辞書記憶部と、
前記音声データに対応する前記語彙データを認識し、当該音声データの認識の信頼度を算出する音声認識部と、
前記信頼度と所定条件との比較結果に基づいて、前記認識された語彙データを特定の機能の選択の指示として受理するか否かを判定する判定部と、
ユーザに情報を伝達する応答部と、
ユーザの操作入力を受け付ける操作部と、を備え、
前記音声データに基づいて算出された信頼度は所定条件を満たさない場合に、
前記音声認識部は、当該音声データを記憶し、
前記応答部は、ユーザの指示が受理できない旨を通知し、
前記通知後に入力された音声データに基づいて算出された信頼度が所定条件を満たす場合、又は、前記操作部によって機能を特定する指示がされた場合に、
前記応答部は、前記音声認識部に記憶された音声データを音声認識対象の語彙データとして前記認識辞書記憶部に記憶させるか否かをユーザに問い合わせ、
前記音声認識部は、前記問い合わせに対応するユーザの指示に基づいて、当該音声データを音声認識対象の語彙データとして前記認識辞書記憶部に記憶することを特徴とする音声認識システム。
前記語彙データは、音声の発音を表す識別子、及び／又は、人の発声から得られた音声特徴量列によって構成されることを特徴とする請求項１に記載の音声認識システム。
初期設定では音声認識対象としない第２の語彙データを記憶する追加音声認識辞書記憶部を備え、
前記音声データに基づいて算出された信頼度が所定条件を満たす場合、又は、前記操作部によって機能を特定する指示がされた場合に、
前記音声認識部は、前記追加音声認識辞書記憶部から、ユーザによって指示された機能に関する第２の語彙データを抽出し、
前記応答部は、
前記音声認識部に記憶された音声データと当該抽出された第２の語彙データとの信頼度を算出し、
当該信頼度が所定条件を満たす場合に、当該抽出された第２の語彙データを前記認識辞書記憶部に記憶させるか否かをユーザに問い合わせ、
前記音声認識部は、ユーザの指示に基づいて、当該抽出された第２の語彙データを音声認識対象の語彙データとして前記認識辞書記憶部に記憶することを特徴とする請求項１に記載の音声認識システム。
前記特定の機能は、階層的に構成されたメニューによって選択され、
前記認識辞書記憶部は、前記階層毎の語彙データを記憶しており、
前記音声認識部は、指示された階層の語彙データを用いて前記音声データを認識し、
前記音声データに基づいて算出された信頼度が所定条件を満たす場合、又は、前記操作部によって機能を特定する指示がされた場合に、
前記応答部は、前記音声記憶部に記憶された音声が発声された時点での階層が最上層でなかった場合に、前記音声認識部に記憶された音声データを、どの階層の音声認識対象の語彙データとして前記認識辞書記憶部に記憶させるか否かをユーザに問い合わせることを特徴とする請求項１から３の何れか一つに記載の音声認識システム。
ユーザが発した音声を認識する音声認識装置であって、
ユーザが発した音声を音声データに変換する音声入力部と、
前記音声データを一時的に記憶する音声記憶部と、
音声認識対象の語彙データを記憶する認識辞書記憶部と、
前記音声データに対応する前記語彙データを認識し、当該音声データの認識の信頼度を算出する音声認識部と、
前記信頼度と所定条件の比較結果に基づいて、前記認識された語彙データを特定の機能の選択の指示として受理するか否かを判定する判定部と、を備え、
前記音声データに基づいて算出された信頼度は所定条件を満たさない場合に、前記音声認識部は、当該音声データを記憶し、
前記音声データの記憶後に入力された音声データに基づいて算出された信頼度が所定条件を満たす場合に、前記音声認識部は、当該音声データを音声認識対象の語彙データとして前記認識辞書記憶部に記憶することを特徴とする音声認識装置。
ユーザに情報を伝達する応答部を備え、
前記応答部は、前記音声認識部に記憶された音声データを音声認識対象の語彙データとして前記認識辞書記憶部に記憶させるか否かをユーザに問い合わせ、
前記音声認識部は、前記問い合わせに対応するユーザからの指示に基づいて、当該音声データを音声認識対象の語彙データとして前記認識辞書記憶部に記憶することを特徴とする請求項５に記載の音声認識装置。
ユーザが発した音声を音声データに変換する音声入力部と、前記音声データを一時的に記憶する音声記憶部と、音声認識対象の語彙データを記憶する認識辞書記憶部と、前記音声データに対応する前記語彙データを認識し、当該音声データの認識の信頼度を算出する音声認識部と、前記信頼度と所定条件の比較結果に基づいて、前記認識された語彙データを特定の機能の選択の指示として受理するか否かを判定する判定部と、ユーザに情報を伝達する応答部と、ユーザの操作入力を受け付ける操作部と、を備えた音声認識システムに以下の手順を実行させて、ユーザが発した音声によって、機能を特定する指示を受け付ける音声認識プログラムであって、
前記音声データに基づいて算出された信頼度は所定条件を満たさない場合に、当該音声データを記憶し、ユーザに認識結果が受理できなかった旨を通知する第１のステップと、
前記通知後に入力された音声データに基づいて算出された信頼度が所定条件を満たす場合、又は、前記操作部によって機能を特定する指示がされた場合に、前記音声認識部に記憶された音声データを音声認識対象の語彙データとして前記認識辞書記憶部に記憶させるか否かをユーザに問い合わせ、前記問い合わせに対応するユーザの指示に基づいて、当該音声データを音声認識対象の語彙データとして前記認識辞書記憶部に記憶する第２のステップと、を含むことを特徴とする音声認識プログラム。