JP4779000B2

JP4779000B2 - 音声認識による機器制御装置

Info

Publication number: JP4779000B2
Application number: JP2008247948A
Authority: JP
Inventors: 康成大淵; 貴志住吉
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2008-09-26
Filing date: 2008-09-26
Publication date: 2011-09-21
Anticipated expiration: 2028-09-26
Also published as: JP2010078986A

Description

本発明は、家庭内やオフィス内などにおいて、離れたところにある電気機器を操作しようとする際に、手元にリモコンなどの器具を持たなくとも自分の声だけで操作できるような機能を提供する技術に関する。

テレビやエアコンなどの機器を遠くから操作する手段としては、赤外線によるリモコンが幅広く普及している。一方、人間の声をマイクによって取得し、あらかじめ用意したモデルと比較照合することによって、発話内容を認識する音声認識技術が確立しており、それを使って機器の制御を行おうという試みもある。音声認識を使って機器の制御を行う場合、例えば特許文献１にあるように、音声認識スイッチを用意して、使用者が明示的に音声認識の開始を指示することが一般的である。また、特許文献２にあるように、特定の単語の発声を音声認識スイッチの代わりに用いるという技術も存在する。

特開平４−７９９８号公報特開２０００−３２２０７８号公報

リモコンを使った機器の制御には、咄嗟のときにリモコンが見つからない、リモコンのボタンが多すぎて使い方がわからないなどの問題がある。音声認識機能を用いればこれらの問題が低減するが、従来の方式では、音声認識スイッチを作動させることが必要なため、最低でも一つのボタンを持つ装置を手元に置いておくことが必要である。この場合、咄嗟のときにその装置が見つからないという課題は依然として残ったままである。仮に音声認識スイッチを用いず、常に音声認識を起動しておいた場合、周囲の雑音や、機器操作を意図しない雑談などの発声に誤反応し、ユーザが望まない挙動が頻発するという問題がある。この問題を回避するため、音声認識スイッチの代わりに特定の単語の発声を用いるやり方もあるが、やはり雑音などへの誤反応をなくすことは難しい。また、「電気をつける」といった単純な操作に対しても、常に最低でも２回の発話が必要となるため、ユーザの利便性を損ねるという問題もある。

本発明の目的は、高精度で利便性の高い音声認識による機器制御装置を提供することにある。

本発明においては、音声認識を使用する特定の環境において、誤反応の原因となりうる音の性質を十分に調べ、なおかつ正しく反応することが望まれる音声入力の性質についても十分に調べることができれば、音声入力とそれ以外の入力とを正確に判別できるという性質を活用する。これらの性質を調べるためには、音声認識が反応すべきであることがわかっているデータと、反応すべきでないことがわかっているデータを、それぞれ十分な量だけ集めることが必要である。

そこで本発明においては、まず始めに音声認識スイッチと併用する形で音声による機器制御を行う。これにより、反応すべき音のデータを十分に集めることができる。また、音声認識スイッチが押されていないときにも音データの取り込みを続けることにより、反応すべきでないデータをも十分に集めることができる。これらのデータをもとに、音声認識の起動を判定するモジュールの学習を十分に行い、誤反応が生じる心配が無くなった時点で、音声認識スイッチが不要であることをユーザに伝える。ユーザがこれを確認し、以後は自動で音声認識を起動するよう指定すると、音声認識スイッチ不要の音声による機器制御が可能となる。

すなわち上記の目的を達成するため本発明においては、音声認識の起動方法を手動と自動とに切り替える切り換え部と、起動方法によらず音声認識のための入力音声の候補となる音データを検出する検出部と、検出された音データが、音声認識の対象とすべきデータであるかどうかを自動判定する自動判定部と、検出された音データが音声認識の対象とすべきデータであるかどうかが自明である場合にそれをデータベースに蓄積する蓄積部と、このデータベースに蓄積されたデータをもとに自動判定部で用いるパラメータを学習する学習部とを備える音声認識による機器制御装置を提供する。

本発明により、機器制御装置の購入・設置後しばらくすると、リモコンに相当するものを一切必要としない音声制御が可能となり、咄嗟のときにリモコンが見つからないといった問題が生じなくなる。

以下、図を用いて本発明の有効な実施例を説明するが、まず本発明の基本構成について説明する。なお、以下の説明において、「音声・非音声自動判定」を、自動判定部、或いは自動判定手段とするなど、機能ブロックを「部」或いは「手段」と呼ぶ場合がある。

図１は、本発明の基本的な構成を示す概念図である。本構成においては、装置の電源が入っているあいだは継続的に音声入力装置（マイク等）１０２からの入力音データの取り込みを続ける。得られた音データに対し、音声区間候補検出１０４を行う。音声区間候補抽出の方法としては、例えば、Ａ／Ｄ変換器によって音データをデジタル化した後、幅１０ミリ秒程度の時間幅でフレームデータを切り出し、その間の音声波形の振幅の自乗和を取ってフレームパワーとし、その値をあらかじめ設定した閾値と比較するなどの手法が考えられる。このような音声区間の検出は、当該分野の技術者において広く知られている方法である。この際、音声区間候補検出部１０４の役割は、あくまでも候補を抽出することであり、後段の処理により音声として処理すべきものとそうでないものとの選別を行うことが想定されているため、不要なデータを数多く検出してしまうことは問題ないが、逆に必要なデータを取りこぼしてしまうことは出来る限り避けなければならない。そのような検出を行うためには、上述の閾値を極めて小さく設定するなどの方式で対応すれば良い。

次に、動作モードチェック１０６において、対象となっている装置の動作モードが「手動」と「自動」のどちらに設定されているかを確認する。動作モードの設定は、動作モード設定１０８において行うが、その詳細は後述する。

図２は、動作モードが「手動」の場合の主な処理の手順を、図１から抜き出したものである。まず、ユーザ入力装置１１０からの入力が無いかどうかを、ユーザ入力検出１１２にて検出する。ここで、ユーザ入力装置とは、ユーザが音声認識の起動を指示するための装置であり、後で具体的に説明するように、例えばリモコンのボタンなどを想定している。ここで、リモコンのボタンが押されたなど、音声認識の起動が指示された場合には、入力された音データを用いて音声認識１１６を実行する。また、それと同時に、入力された音声データを「音声」の教師信号として教師信号データベース１２０に追加格納する。音声認識１１６では、あらかじめ設定された機器制御のためのコマンドのリストなどを参照して、音声認識部にて音声認識を実行し、結果として得られた制御コマンドを、機器制御１１８にて実行する。一方、リモコンのボタンが押されていないなど、音声認識の起動が指示されていない場合には、音声認識１１６を実行せず、入力された音声データを「非音声」の教師信号として教師信号データベース１２０に追加格納する。

図３は、動作モードが動作モードチェック１０６で「自動」とされた場合の主な処理の手順を、図１から抜き出したものである。まず、音声・非音声自動判定１１４を行う自動判定手段が起動される。ここでは、入力された音データが、「音声」であるか「非音声」であるかをコンピュータが自動判定する。ただし、ここでいう「音声」とは音声認識の入力とすべき全ての音データを指し、「非音声」とは音声認識の入力とすべきでない全ての音データを指す。つまり、ユーザの一般的な話し声や笑い声、咳などは、周囲雑音と同じように「非音声」の範疇に含まれると解釈すべきである。自動判定にあたっては、判定パラメータデータベース１２４に格納されているデータを用いるが、この詳細については後述する。音声・非音声自動判定の結果、入力された音データが「音声」であると判定された場合には、その音データを用いて音声認識１１６を実行する。認識結果に応じて機器制御１１８が実行されるのは、動作モード「手動」の場合と同じである。ただし、「自動」の場合には、入力された音データが「音声」であるというのはあくまでも推定であるため、そのデータを教師信号データベース１２０に追加格納することはしない。音声・非音声自動判定の結果が「非音声」であった場合には、装置は何もせず次の入力を待つ。

図４は、音声・非音声判別のための判定パラメータの学習に関する一連の処理手順を、図１から抜き出したものである。教師信号データベース１２０に蓄積された教師信号は、判定パラメータ学習１２２で使用される。判定パラメータ学習１２２は、教師信号が一定量蓄積された段階で起動される。ただし、上述した音声区間候補検出１０４から機器制御１１８までの処理が大きな遅延なく行われることが望ましいのに対し、判定パラメータ学習１２２にはそのような即応性は求められないため、コンピュータの処理能力などに応じて、判定パラメータ学習１２２の起動を遅らせたりすることもありうる。判定パラメータ学習１２２においては、教師信号データベース１２０に含まれる音データから各種の特徴量を抽出し、それらの特徴量の組と、音声もしくは非音声というラベルとの関係を学習する。このような２種類のクラスへの分類問題は、機械学習の分野において十分に研究が行われており、当該分野の技術者にとっては様々な手法が容易に適用可能なものであるが、ここではその中でも最も代表的なものである線形判別分析を用いる手法について説明した後、図４の残りの部分について再度説明する。

図５は、線形判別分析による判定パラメータ学習の様子を示した図である。ここでは、横軸に特徴量１、縦軸に特徴量２として、２種類の特徴量を使う例を示している。ここでいう特徴量とは、平均の音量や観測された区間長といった簡単なものから、ケプストラムや基本周波数といった音声分析で良く用いられる特徴量、また、音データベースから作った混合ガウス分布や隠れマルコフモデルなどを利用した尤度などでも構わないが、以下の議論は特徴量として何を使うかに依存しないため、ここでは詳述しない。図５においては、「音声」として１３、「非音声」として２６、合わせて３９個の教師データが存在する状況を仮定している。この平面上に直線を引き、黒丸（音声）が片側に、白丸（非音声）が反対側に集まるようにするのが線形判別分析である。定量的な基準としては、各点と直線との距離（直線の片側が正、反対側が負と定義する）を求め、黒丸についての距離の総和と白丸についての距離の総和との差が最大になるようにすれば良い。また、本図のように、黒丸の総数と白丸の総数が異なる場合には、黒丸１つを２つとして数え、全体の重みのバランスを取る。そのような基準により、黒丸と白丸を最も良く区分する直線が得られる。一般には、特徴量が多次元である場合、多次元の特徴空間を２つに分ける超平面が得られることになる。図に太く示された斜めの線が、線形判別分析により得られた結果である。この例では、直線の右上を黒丸、左下を白丸と判定することにすると、黒丸1個、白丸1個の合計２個だけが誤って分類されることになる。教師データに対する判定性能は、黒丸が約９２％、白丸が約９６％であり、平均すると約９４％となる。

図４において、判定パラメータ学習１２２が終了したら、得られた結果を判定パラメータデータベース１２４に保存する。図５の例でいうと、斜めの線を表わす傾きおよび切片の値をパラメータとして保存する。このパラメータを持っておくと、新たな音データが入ってきたとき、それを特徴量に変換して平面上の点として表わし、その点が直線のどちら側にあるかを見ることによって、音声と非音声のどちらであるかを判定することができる。また、図５の例で、教師データに対する判定性能が約９４％であるという結果が得られたが、これが判定精度推定１２６の役割に相当する。判定精度推定１２６では、教師データに対する判定精度などから、新しいデータを判定した際に得られる結果の精度を推定する。これは、音声・非音声自動判定で十分な精度が得られないと予想される場合には、リモコンのボタンなどによる手動起動を用いることが望ましいと思われるためである。判定精度推定１２６で得られた結果は、判定精度表示１２８でユーザに提示される。ただしこの際、９４％といった数値を見せることがユーザにとってわかりやすいとは限らないため、例えば予想精度が予め設定した閾値よりも低いときには赤いＬＥＤを、高いときには青いＬＥＤを点灯させるといった表示方式を取ってもよい。

以下、図１に戻って動作モード設定について説明する。ユーザは、判定精度表示１２８を見て、動作モードを変更したいと思った場合には、ボタン操作などにより動作モードを変更する（動作モード設定１０８）。例えば動作モードを手動から自動に変更した場合、以降の処理では、動作モードチェック１０６にて、「自動」の方の処理が進められることになる。なお、ユーザが装置の性能に不満がある場合などには、動作モードを「手動」に戻すことにより、再びリモコンなどを使って操作することが可能になる。なお、「手動」から「自動」への変更は、通常、音声認識が数百回分実施された後、日にちにして数日程度で行うことが可能となる。

図６は、図１の機能構成を有する装置において、音データの取得から機器制御に至るまでの処理の流れをフローチャートの形で表わしたものである。実際に機器制御が実行されるのは、音声区間候補が見つかり、動作モードが手動で、起動ボタンが押され、音声認識結果が有効な命令であった場合（２０６−２０８−２１０−２１２−２１８−２２０−２２２）と、音声区間候補が見つかり、動作モードが自動で、音声・非音声判定の結果が音声であり、音声認識結果が有効な命令であった場合（２０６−２０８−２１４−２１６−２１８−２２０−２２２）の２通りである。そのいずれかに該当しない場合、および実際に機器制御が実行された後には、状態は再び音データの取得２０２に戻り、以降、本装置が停止するまで同じ動作を繰り返す。これらの動作の他に、図４で説明した判定パラメータ学習のフローが随時起動される。なお、ここで随時とは、必要なデータが一定量蓄積された時である。

図７は、第１の実施例として、テレビ装置の一部として実現する場合の音声認識による機器制御装置の構成を示した図である。本構成の大部分は、テレビ本体３３２の内部のモジュールとして実現される。内部のモジュールには、上述したコンピュータの処理部を構成する中央処理部（Central Processing Unit：ＣＰＵ）や記憶部（メモリ）が含まれる。ＣＰＵは、音声区間候補検出部３０４、動作モードチェック部３０６、教師信号検出部３１２、音声・非音声自動判定部３１４、音声認識部３１６、判定パラメータ学習部３２２、判定精度推定部３２６の各機能をプログラム処理として実行する。教師信号データベース３２０と判定パラメータデータベース３２４は記憶部中に蓄積される。動作モード表示部３２８は独立した表示素子、あるいはテレビのディスプレイ中に表示して構成できる。なお、ＣＰＵが実行する各機能のうち、音声認識部の機能などを専用回路で実現しても良いことは言うまでもない。

その他に、リモコン装置３１０と、必要に応じて人検知部である人検知センサ３３０を用いる。リモコン装置３１０は、一般的なテレビに付属するものを用いることもできるし、音声認識を起動するという目的に特化した、ボタンひとつだけの装置でも構わない。一般的に、前者の場合には赤外線で信号を送ることが多く、後者の場合には、自動車用のキーレスエントリーなどで用いられる微弱無線を用いることが一般的であると思われる。人検知センサ３３０は、たとえば赤外線センサの反応により、部屋の中に人がいるかどうかを検知するものである。あるいは、オフィスの入退室管理システムなどと連携して、室内に人がいるかどうかの情報を提供する装置である。本実施例においては、部屋の中に人がいるかどうかについての情報が得られるのであれば、既存のどのような技術を用いようとも特段の違いは生じないため、人検知センサ３３０についての詳細な説明は割愛する。

赤外線・無線受信部３１１では、リモコン装置３１０から送られる赤外線や無線の信号を受信する。これは、図１記載のユーザ入力検出１１２の役割を果たすモジュールであるが、その他に、通常のリモコン装置３１０からテレビ制御の信号が送られてきた場合には、対応する制御信号をチャンネル・音量制御部３１８に送る。チャンネル・音量制御部３１８は、通常のテレビ装置に含まれるモジュールであり、制御信号に応じてテレビの受信チャンネルや音量などを変更する。また、リモコン装置３１０から動作モード変更の信号が送られてきた場合には、対応する信号を動作モード設定部３０８に送る。動作モード設定部３０８は、この他に、図示を省略したボタン等で直接操作することも可能である。

マイク３０２、音声区間候補検出部３０４、動作モードチェック部３０６の役割は、それぞれ図１記載の対応するブロックと同じである。教師信号検出部３１２は、動作モードが「手動」である場合には、赤外線・無線受信部３１１からの信号に応じて、音声認識部３１６を起動すべきかどうかの判定を下す。一方、動作モードが「自動」である場合には、人検知センサ３３０からの信号に応じて、音声認識部３１６の動作を抑制すべきか、それとも音声・非音声自動判定部３１４の判定結果に任せるべきかを出力する。これはすなわち、部屋の中に人がいないことがわかっているならば、音声を解析した結果のいかんにかかわらず、入力音データは「非音声」であると見なすことが望ましいと考えられるためである。また、人検知センサ３３０の機能に完全な信頼が置けない場合には、即座に「非音声」と判断するのではなく、音声・非音声自動判定部３１４の動作基準を一時的に修正し、「非音声」という判定が出る可能性を高めるというやり方を取ることもできる。

また、付加的な機能として、赤外線・無線受信部３１１から音声認識起動の信号を受信したならば、その後一定時間のあいだは、動作モードが「自動」であっても、「手動」であるときと同様の動作をするという方式を取ることもできる。これは、ユーザの手元にリモコン装置３１０があることがわかっているならば、咄嗟のときにリモコン装置３１０が見つからないという課題に対処する必要がないことが推定されるため、非音声入力に対する誤反応のリスクを犯す必要性が低いと考えられるためである。この場合にも、動作モードを「手動」に変更してしまうばかりでなく、「自動」ではあるが「音声」が検出されにくくなるように動作基準を一時的に修正するという方式も可能である。音声認識部３１６が動作した場合には、その結果に応じた信号がチャンネル・音量制御部３１８に送られる。なお、ここで一定時間、一時的とは、通常数分程度が好適である。

動作モードが「手動」の場合に、「音声」ないし「非音声」の教師信号が教師信号データベース３２０に追加格納されるのは図１の場合と同様であるが、その他に、動作モードが「自動」であっても、人検知センサ３３０からの信号もしくはリモコン装置３１０使用後一定時間内という条件で強制的に「非音声」という判定が下された場合には、教師信号検出部３１２は、「非音声」の教師信号を教師信号データベース３２０に追加格納する。ここで、使用後の一定時間とは通常数分程度である。その後の、判定パラメータ学習部３２２、判定パラメータデータベース３２４、判定精度推定部３２６、動作モード表示部３２８の役割は、図１の対応する部分とほぼ同じである。

図８は、第２の実施例に係わり、部屋の中などにある各種機器を制御するための汎用機器制御装置として、音声認識による機器制御装置を実現する場合の構成を示した図である。

図７の実施例との大きな違いは、テレビ本体３３２に含まれていた各モジュールのうち、チャンネル・音量制御部３１８を除くすべてが、本構成において新たに設けられた汎用制御装置４３２の中に移されている点である。図７の構成においては、これらのモジュールによる処理がテレビ装置の内部で行われ、その結果に応じてチャンネルや音量などの制御が行なわれていたが、本構成においては、これらのモジュールによる処理の結果、機器制御を行う必要がある場合には、赤外線・無線発信部４３２において赤外線ないし無線信号として送出するか、もしくは音声認識部４１６から直接信号線を通じて外部装置に信号を送出する。外部装置としては、テレビ４３４の他に、エアコン４３６、照明４３８など室内に存在する様々な電気機器などが含まれ、機器制御の信号は、どの機器に対してどのような動作を実施するかという組合せとして送出される。各機器は、自らに対する制御命令を受信した場合のみ、その命令に対応する動作を行う。

図９は、図７、図８の実施例の構成による装置において、音データの取得から機器制御に至るまでの処理の流れをフローチャートの形で表わしたものである。図６に示したフローチャートとの違いは、動作モードが自動である場合に、リモコン装置使用後の時間の判定５１４と、人検知センサによる人検知の判定５１６の二つの処理が加わっている部分である。これらの判定５１４、５１６により、リモコン使用後Ｔ秒未満であると判定された場合（Ｔの値は使用環境に応じて予め設定しておくが、上述したように数分程度である。）、およびセンサが人を検知しなかった場合には、入力された音データが非音声であることは自明であると判断し、音声・非音声判定は行わず、なおかつ音データを非音声の教師データとして蓄積する。リモコン使用後Ｔ秒以上経っており、センサが人を検知した場合には、図６と同様に音声・非音声判定５１８を実行する。

図１０は、第３の実施例に係わり、カーナビゲーション装置の一部として、音声認識による機器制御装置を実現する場合の詳細な構成を示した図である。一般的に、音声認識機能を持ったカーナビゲーション装置においては、ナビ機能全般を操作するためのタッチパネル・操作ボタン類６１０とは別に、運転しながらでも操作しやすい位置に音声認識起動ボタン６３０が設置してあることが多い。音声認識起動ボタンの信号は、直接教師信号検出部６１２に送られるのに対し、タッチパネル・操作ボタン類６１０からの信号は、カーナビを直接操作するためのものであったり、動作モードを設定するためのものであったりする。図７、図８で示したテレビや汎用制御装置の実施例の場合と異なり、タッチパネル等の操作信号も含めてすべて有線で送信されるが、それらの信号を受信した後の動作は、テレビ等の場合とほぼ同じである。また、カーナビ装置の設置にあたっては、自動車本体からの運転状況に関する情報、例えばエンジン回転数などを提供する運転状況送信部６３２と接続することも可能である。この場合、たとえば走行速度が基準値よりも大きい場合にはタッチパネル操作を無効化するといったことは多くのカーナビ装置で既に実施されている。

本実施例において、これに加えて、走行速度やハンドルの切り角、ブレーキペダルの踏み込み量などを元に、音声認識の誤反応による悪影響を定量化する。すなわち、走行速度が高い場合、カーブを曲がっている場合、ブレーキを踏んでいる場合などは、運転手が通常よりも高い集中力を必要とする状況であるので、音声認識に誤反応を生じさせないことが重要である。そこで、教師信号検出部６１２は、走行速度やハンドルの切り角、ブレーキペダルの踏み込み量などの重みつき和を誤反応悪影響度として算出し、この値があらかじめ決められた値よりも大きい場合は、音声・非音声判別の結果にかかわらず音声認識を起動しないよう制御する。あるいは、教師信号検出部６１２は、誤反応悪影響度に比例する形で、音声・非音声判別に用いられる閾値を「音声認識が起動されにくくなる」ように修正する値を付加するよう制御する。これにより、運転に集中すべき特段の事情があるような場合に、音声認識部６１６の誤動作によって危険な状況が発生してしまうリスクをさらに低めることができるようになる。

図１１は、各実施例における音声・非音声自動判定部（図７、８、１０の３１４、４１４、６１４）の動作の例を表わしたフローチャートである。ここでは線形判別分析を用いる場合の例を示す。まず、音データを取得（７０２）した後に、これをもとに特徴量を計算する（７０４）。ここで用いる特徴量としては、平均パワー、ケプストラム、基本周波数、事前に学習した音声モデルや非音声モデルとの類似度、音声認識を適用してみた場合の認識結果信頼度などが含まれる。ただし、音声らしさを表現しうるこの他の特徴量を用いるとしても、本発明の構成はそのまま活用可能である。次に、これらの特徴量を正規化した後に（７０６）、あらかじめ学習しておいた線形判別係数との内積を求める（７０８）。こうして得られた値が、あらかじめ学習しておいた閾値よりも大きければ音声、小さければ非音声と判定する（７１０、７１２、７１４）。なお、ここでは線形判別分析を用いる例を説明したが、それ以外の分類手法（たとえばサポートベクトルマシンなど）を用いるとしても、本発明の構成はそのまま活用可能である。これらの分類手法の適用については、当該分野に携わる開発者であれば容易に実現可能であるので、ここでは詳述しない。

図１２は、各実施例における判定パラメータ学習部（図７、８、１０の３２２、４２２，６２２）の動作の例を表わしたフローチャートである。ここでも線形判別分析を用いる場合の例を示している。まず、学習データすべてを取得した後に（８０２）、それらに対する特徴量を求め正規化する（８０４）。こうして得られた特徴量データをベクトル化した後、全体に対する共分散行列および音声データの群内平均、非音声データの群内平均を求める（８０６）。次に、共分散行列の逆行列を求めた後（８０８）、得られた逆行列を群内平均の差に掛ける（８１０）。これにより線形判別係数が求められ、それを保存する（８１２）。なお、線形判別係数全体に定数をかけても性能は不変であるので、音声データに線形判別係数をかけた場合と非音声データに線形判別係数をかけた場合を比較し、前者が小さくなる場合には、線形判別係数全体に-1をかけて符号を反転させておくと便利である。次に最適な閾値を求める（８１４）必要があるが、これについては判定精度推定部で詳しく述べるため、ここでは説明を割愛する。

図１３は、各実施例における判定精度推定部（図７、８、１０の３２４、４２４、６２４）の動作の例を表わしたフローチャートである。図１２の場合と同様に全学習データに対する正規化特徴ベクトルを得た後（９０２）、線形判別係数をかけて線形判別スコアを求める（９０４）。次に、閾値Cの候補値の最小値CminをCにセットする（９０６）。ここでは、例えば非音声データ全体に対する線形判別スコアの平均値などを用いると良い。次に、閾値の候補Cを用いた場合の平均判別率Rを求める。ここで平均判別率とは、音声データを正しく音声と判定した率および非音声データを正しく非音声と判定した率の平均値である。なお、音声データに対する性能と非音声データに対する性能のいずれか片方をより重視する場合には、両者の重みつき平均を取れば性能を調整することが可能である。このような処理を、さまざまな候補値Cに対して繰り返し、Rが最大となる場合のCを最適閾値Cbestとする。また、最大値Rmaxを推定判定精度とする（９０８−９１８）。

以上詳述してきた本発明は、離れた場所からの操作を容易にする機能を持つテレビなど家電装置として利用可能である。また、いくつかの機器をまとめて制御するための汎用制御装置としても利用可能である。さらに、自動車用のカーナビゲーション装置としても利用可能である。

本発明の基本構成を説明するための典型的なシステムの構成図である。図１の構成で、動作モードが手動の時の処理の流れの詳細を表わす図である。図１の構成で、動作モードが自動の時の処理の流れの詳細を表わす図である。図１の構成で、判定パラメータの学習に関連する処理の流れの詳細を表わす図である。図１の構成で、線形判別分析を用いた判定パラメータ学習の例の説明図である。図１の構成で、音声で機器を制御する際のフローチャートを示す図である。第１の実施例に係わる、テレビ装置の一部として機器制御装置を実現する際の構成図である。第２の実施例に係わる、汎用機器制御装置として機器制御装置を実現する際の構成図である。第１、２の実施例に係わる、機器制御装置の動作を説明するフローチャートを示す図である。第３の実施例に係わる、カーナビ装置の一部として機器制御装置を実現する際の構成図である。各実施例に係わる、機器制御装置の要部の動作を説明するフローチャートを示す図である。各実施例に係わる、機器制御装置の要部の動作を説明するフローチャートを示す図である。各実施例に係わる、機器制御装置の要部の動作を説明するフローチャートを示す図である。

符号の説明

１０２…マイクなどの音声入力装置
１０４…音声区間候補を検出する処理ブロック
１０６…動作モードが手動と自動のどちらかを判定する処理ブロック
１０８…ユーザが動作モードを手動もしくは自動に設定する処理ブロック
１１０…ユーザが音声認識の起動をスイッチなどで入力する処理ブロック
１１２…ユーザからの入力を検出するブロック
１１４…入力音データが音声か非音声かを自動的に判定するブロック
１１６…音声認識を実行するブロック
１１８…音声認識の結果に基づき機器の制御を実行するブロック
１２０…教師信号を蓄積するデータベース
１２２…教師信号を用いて判定パラメータを学習するブロック
１２４…学習により得られた判定パラメータを保持するデータベース
１２６…現在の判定パラメータによる判定の精度を推定するブロック
１２８…推定した判定精度をユーザに表示するブロック。

Claims

ユーザの音声を音声認識部で認識して機器の制御を行う機器制御装置であって、
音声認識の起動方法を手動と自動とに切り替える切り換え部と、
音声認識の起動方法が手動に設定されている場合に、音声認識の起動を指示するユーザ入力部と、
音声認識のための入力音声の候補となる音データを検出する検出部と、
前記切り換え部により音声認識の起動方法が自動に設定されている場合に、検出された前記音データが前記ユーザが機器制御を意図して発声したものであるかどうかを自動判定する自動判定部と、
前記切り換え部により音声認識の起動方法が手動に設定され、前記ユーザ入力部を用いて音声認識を起動している場合に、検出された前記音データを前記ユーザが機器制御を意図して発声した音データとしてデータベースに蓄積し、前記切り替え部により音声認識の起動方法が手動に設定され、前記ユーザ入力部を用いて音声認識を起動していない場合に、検出された前記音データを前記ユーザが機器制御を意図して発生したものではない音データとしてデータベースに蓄積する教師信号検出部と、
前記データベースに蓄積されたデータをもとに前記自動判定部で用いる判定パラメータを学習する学習部とを備え、
前記自動判定部が前記判定パラメータに基づき、前記音データを前記ユーザが機器制御を意図して発生したものと判定した場合、前記音データを前記音声認識部で認識して機器の制御を行う、
ことを特徴とする音声認識による機器制御装置。
前記教師信号検出部は、ユーザが手動の起動方法を用いて音声認識を起動した後の一定時間の間は、自動による音声認識の起動を停止させる、
ことを特徴とする請求項１記載の音声認識による機器制御装置。
前記教師信号検出部は、ユーザが手動の起動方法を用いて音声認識を起動した後の一定時間の間は、検出された前記音データを前記ユーザが機器制御を意図して発声したものでないとして前記データベースに蓄積する、
ことを特徴とする請求項１記載の音声認識による機器制御装置。
前記教師信号検出部は、ユーザが手動の起動方法を用いて音声認識を起動した後の一定時間の間は、自動による音声認識の起動を起こりにくくさせる、
ことを特徴とする請求項１記載の音声認識による機器制御装置。
音以外の情報を用いて機器の周辺に人がいるかどうかを検知する人検知部を更に有し、
前記教師信号検出部は、前記人検知部により人がいないと検知された場合には、自動による音声認識の起動を停止させる、
ことを特徴とする請求項１記載の音声認識による機器制御装置。
音以外の情報を用いて機器の周辺に人がいるかどうかを検知する人検知部を更に有し、
前記教師信号検出部は、前記人検知部により人がいないと検知された場合には、検出された前記音データを前記ユーザが機器制御を意図して発声したものでないとして前記データベースに蓄積する、
ことを特徴とする請求項１記載の音声認識による機器制御装置。
前記教師信号検出部は、制御対象となる装置の状況に応じて音声認識の誤反応による悪影響を定量化した誤反応悪影響度に応じて、自動による音声認識の起動のされやすさを変化させる、
ことを特徴とする請求項１記載の音声認識による機器制御装置。
蓄積された前記判定パラメータに基づき判定精度を推定する判定精度推定部を更に有する、
ことを特徴とする請求項１記載の音声認識による機器制御装置。
前記判定精度推定部で算出した前記判定精度を表示する動作モード表示部を有する、
ことを特徴とする請求項８記載の音声認識による機器制御装置。