JP4779000B2 - 音声認識による機器制御装置 - Google Patents

音声認識による機器制御装置 Download PDF

Info

Publication number
JP4779000B2
JP4779000B2 JP2008247948A JP2008247948A JP4779000B2 JP 4779000 B2 JP4779000 B2 JP 4779000B2 JP 2008247948 A JP2008247948 A JP 2008247948A JP 2008247948 A JP2008247948 A JP 2008247948A JP 4779000 B2 JP4779000 B2 JP 4779000B2
Authority
JP
Japan
Prior art keywords
voice recognition
unit
voice
automatic
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008247948A
Other languages
English (en)
Other versions
JP2010078986A (ja
Inventor
康成 大淵
貴志 住吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2008247948A priority Critical patent/JP4779000B2/ja
Publication of JP2010078986A publication Critical patent/JP2010078986A/ja
Application granted granted Critical
Publication of JP4779000B2 publication Critical patent/JP4779000B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、家庭内やオフィス内などにおいて、離れたところにある電気機器を操作しようとする際に、手元にリモコンなどの器具を持たなくとも自分の声だけで操作できるような機能を提供する技術に関する。
テレビやエアコンなどの機器を遠くから操作する手段としては、赤外線によるリモコンが幅広く普及している。一方、人間の声をマイクによって取得し、あらかじめ用意したモデルと比較照合することによって、発話内容を認識する音声認識技術が確立しており、それを使って機器の制御を行おうという試みもある。音声認識を使って機器の制御を行う場合、例えば特許文献1にあるように、音声認識スイッチを用意して、使用者が明示的に音声認識の開始を指示することが一般的である。また、特許文献2にあるように、特定の単語の発声を音声認識スイッチの代わりに用いるという技術も存在する。
特開平4−7998号公報 特開2000−322078号公報
リモコンを使った機器の制御には、咄嗟のときにリモコンが見つからない、リモコンのボタンが多すぎて使い方がわからないなどの問題がある。音声認識機能を用いればこれらの問題が低減するが、従来の方式では、音声認識スイッチを作動させることが必要なため、最低でも一つのボタンを持つ装置を手元に置いておくことが必要である。この場合、咄嗟のときにその装置が見つからないという課題は依然として残ったままである。仮に音声認識スイッチを用いず、常に音声認識を起動しておいた場合、周囲の雑音や、機器操作を意図しない雑談などの発声に誤反応し、ユーザが望まない挙動が頻発するという問題がある。この問題を回避するため、音声認識スイッチの代わりに特定の単語の発声を用いるやり方もあるが、やはり雑音などへの誤反応をなくすことは難しい。また、「電気をつける」といった単純な操作に対しても、常に最低でも2回の発話が必要となるため、ユーザの利便性を損ねるという問題もある。
本発明の目的は、高精度で利便性の高い音声認識による機器制御装置を提供することにある。
本発明においては、音声認識を使用する特定の環境において、誤反応の原因となりうる音の性質を十分に調べ、なおかつ正しく反応することが望まれる音声入力の性質についても十分に調べることができれば、音声入力とそれ以外の入力とを正確に判別できるという性質を活用する。これらの性質を調べるためには、音声認識が反応すべきであることがわかっているデータと、反応すべきでないことがわかっているデータを、それぞれ十分な量だけ集めることが必要である。
そこで本発明においては、まず始めに音声認識スイッチと併用する形で音声による機器制御を行う。これにより、反応すべき音のデータを十分に集めることができる。また、音声認識スイッチが押されていないときにも音データの取り込みを続けることにより、反応すべきでないデータをも十分に集めることができる。これらのデータをもとに、音声認識の起動を判定するモジュールの学習を十分に行い、誤反応が生じる心配が無くなった時点で、音声認識スイッチが不要であることをユーザに伝える。ユーザがこれを確認し、以後は自動で音声認識を起動するよう指定すると、音声認識スイッチ不要の音声による機器制御が可能となる。
すなわち上記の目的を達成するため本発明においては、音声認識の起動方法を手動と自動とに切り替える切り換え部と、起動方法によらず音声認識のための入力音声の候補となる音データを検出する検出部と、検出された音データが、音声認識の対象とすべきデータであるかどうかを自動判定する自動判定部と、検出された音データが音声認識の対象とすべきデータであるかどうかが自明である場合にそれをデータベースに蓄積する蓄積部と、このデータベースに蓄積されたデータをもとに自動判定部で用いるパラメータを学習する学習部とを備える音声認識による機器制御装置を提供する。
本発明により、機器制御装置の購入・設置後しばらくすると、リモコンに相当するものを一切必要としない音声制御が可能となり、咄嗟のときにリモコンが見つからないといった問題が生じなくなる。
以下、図を用いて本発明の有効な実施例を説明するが、まず本発明の基本構成について説明する。なお、以下の説明において、「音声・非音声自動判定」を、自動判定部、或いは自動判定手段とするなど、機能ブロックを「部」或いは「手段」と呼ぶ場合がある。
図1は、本発明の基本的な構成を示す概念図である。本構成においては、装置の電源が入っているあいだは継続的に音声入力装置(マイク等)102からの入力音データの取り込みを続ける。得られた音データに対し、音声区間候補検出104を行う。音声区間候補抽出の方法としては、例えば、A/D変換器によって音データをデジタル化した後、幅10ミリ秒程度の時間幅でフレームデータを切り出し、その間の音声波形の振幅の自乗和を取ってフレームパワーとし、その値をあらかじめ設定した閾値と比較するなどの手法が考えられる。このような音声区間の検出は、当該分野の技術者において広く知られている方法である。この際、音声区間候補検出部104の役割は、あくまでも候補を抽出することであり、後段の処理により音声として処理すべきものとそうでないものとの選別を行うことが想定されているため、不要なデータを数多く検出してしまうことは問題ないが、逆に必要なデータを取りこぼしてしまうことは出来る限り避けなければならない。そのような検出を行うためには、上述の閾値を極めて小さく設定するなどの方式で対応すれば良い。
次に、動作モードチェック106において、対象となっている装置の動作モードが「手動」と「自動」のどちらに設定されているかを確認する。動作モードの設定は、動作モード設定108において行うが、その詳細は後述する。
図2は、動作モードが「手動」の場合の主な処理の手順を、図1から抜き出したものである。まず、ユーザ入力装置110からの入力が無いかどうかを、ユーザ入力検出112にて検出する。ここで、ユーザ入力装置とは、ユーザが音声認識の起動を指示するための装置であり、後で具体的に説明するように、例えばリモコンのボタンなどを想定している。ここで、リモコンのボタンが押されたなど、音声認識の起動が指示された場合には、入力された音データを用いて音声認識116を実行する。また、それと同時に、入力された音声データを「音声」の教師信号として教師信号データベース120に追加格納する。音声認識116では、あらかじめ設定された機器制御のためのコマンドのリストなどを参照して、音声認識部にて音声認識を実行し、結果として得られた制御コマンドを、機器制御118にて実行する。一方、リモコンのボタンが押されていないなど、音声認識の起動が指示されていない場合には、音声認識116を実行せず、入力された音声データを「非音声」の教師信号として教師信号データベース120に追加格納する。
図3は、動作モードが動作モードチェック106で「自動」とされた場合の主な処理の手順を、図1から抜き出したものである。まず、音声・非音声自動判定114を行う自動判定手段が起動される。ここでは、入力された音データが、「音声」であるか「非音声」であるかをコンピュータが自動判定する。ただし、ここでいう「音声」とは音声認識の入力とすべき全ての音データを指し、「非音声」とは音声認識の入力とすべきでない全ての音データを指す。つまり、ユーザの一般的な話し声や笑い声、咳などは、周囲雑音と同じように「非音声」の範疇に含まれると解釈すべきである。自動判定にあたっては、判定パラメータデータベース124に格納されているデータを用いるが、この詳細については後述する。音声・非音声自動判定の結果、入力された音データが「音声」であると判定された場合には、その音データを用いて音声認識116を実行する。認識結果に応じて機器制御118が実行されるのは、動作モード「手動」の場合と同じである。ただし、「自動」の場合には、入力された音データが「音声」であるというのはあくまでも推定であるため、そのデータを教師信号データベース120に追加格納することはしない。音声・非音声自動判定の結果が「非音声」であった場合には、装置は何もせず次の入力を待つ。
図4は、音声・非音声判別のための判定パラメータの学習に関する一連の処理手順を、図1から抜き出したものである。教師信号データベース120に蓄積された教師信号は、判定パラメータ学習122で使用される。判定パラメータ学習122は、教師信号が一定量蓄積された段階で起動される。ただし、上述した音声区間候補検出104から機器制御118までの処理が大きな遅延なく行われることが望ましいのに対し、判定パラメータ学習122にはそのような即応性は求められないため、コンピュータの処理能力などに応じて、判定パラメータ学習122の起動を遅らせたりすることもありうる。判定パラメータ学習122においては、教師信号データベース120に含まれる音データから各種の特徴量を抽出し、それらの特徴量の組と、音声もしくは非音声というラベルとの関係を学習する。このような2種類のクラスへの分類問題は、機械学習の分野において十分に研究が行われており、当該分野の技術者にとっては様々な手法が容易に適用可能なものであるが、ここではその中でも最も代表的なものである線形判別分析を用いる手法について説明した後、図4の残りの部分について再度説明する。
図5は、線形判別分析による判定パラメータ学習の様子を示した図である。ここでは、横軸に特徴量1、縦軸に特徴量2として、2種類の特徴量を使う例を示している。ここでいう特徴量とは、平均の音量や観測された区間長といった簡単なものから、ケプストラムや基本周波数といった音声分析で良く用いられる特徴量、また、音データベースから作った混合ガウス分布や隠れマルコフモデルなどを利用した尤度などでも構わないが、以下の議論は特徴量として何を使うかに依存しないため、ここでは詳述しない。図5においては、「音声」として13、「非音声」として26、合わせて39個の教師データが存在する状況を仮定している。この平面上に直線を引き、黒丸(音声)が片側に、白丸(非音声)が反対側に集まるようにするのが線形判別分析である。定量的な基準としては、各点と直線との距離(直線の片側が正、反対側が負と定義する)を求め、黒丸についての距離の総和と白丸についての距離の総和との差が最大になるようにすれば良い。また、本図のように、黒丸の総数と白丸の総数が異なる場合には、黒丸1つを2つとして数え、全体の重みのバランスを取る。そのような基準により、黒丸と白丸を最も良く区分する直線が得られる。一般には、特徴量が多次元である場合、多次元の特徴空間を2つに分ける超平面が得られることになる。図に太く示された斜めの線が、線形判別分析により得られた結果である。この例では、直線の右上を黒丸、左下を白丸と判定することにすると、黒丸1個、白丸1個の合計2個だけが誤って分類されることになる。教師データに対する判定性能は、黒丸が約92%、白丸が約96%であり、平均すると約94%となる。
図4において、判定パラメータ学習122が終了したら、得られた結果を判定パラメータデータベース124に保存する。図5の例でいうと、斜めの線を表わす傾きおよび切片の値をパラメータとして保存する。このパラメータを持っておくと、新たな音データが入ってきたとき、それを特徴量に変換して平面上の点として表わし、その点が直線のどちら側にあるかを見ることによって、音声と非音声のどちらであるかを判定することができる。また、図5の例で、教師データに対する判定性能が約94%であるという結果が得られたが、これが判定精度推定126の役割に相当する。判定精度推定126では、教師データに対する判定精度などから、新しいデータを判定した際に得られる結果の精度を推定する。これは、音声・非音声自動判定で十分な精度が得られないと予想される場合には、リモコンのボタンなどによる手動起動を用いることが望ましいと思われるためである。判定精度推定126で得られた結果は、判定精度表示128でユーザに提示される。ただしこの際、94%といった数値を見せることがユーザにとってわかりやすいとは限らないため、例えば予想精度が予め設定した閾値よりも低いときには赤いLEDを、高いときには青いLEDを点灯させるといった表示方式を取ってもよい。
以下、図1に戻って動作モード設定について説明する。ユーザは、判定精度表示128を見て、動作モードを変更したいと思った場合には、ボタン操作などにより動作モードを変更する(動作モード設定108)。例えば動作モードを手動から自動に変更した場合、以降の処理では、動作モードチェック106にて、「自動」の方の処理が進められることになる。なお、ユーザが装置の性能に不満がある場合などには、動作モードを「手動」に戻すことにより、再びリモコンなどを使って操作することが可能になる。なお、「手動」から「自動」への変更は、通常、音声認識が数百回分実施された後、日にちにして数日程度で行うことが可能となる。
図6は、図1の機能構成を有する装置において、音データの取得から機器制御に至るまでの処理の流れをフローチャートの形で表わしたものである。実際に機器制御が実行されるのは、音声区間候補が見つかり、動作モードが手動で、起動ボタンが押され、音声認識結果が有効な命令であった場合(206−208−210−212−218−220−222)と、音声区間候補が見つかり、動作モードが自動で、音声・非音声判定の結果が音声であり、音声認識結果が有効な命令であった場合(206−208−214−216−218−220−222)の2通りである。そのいずれかに該当しない場合、および実際に機器制御が実行された後には、状態は再び音データの取得202に戻り、以降、本装置が停止するまで同じ動作を繰り返す。これらの動作の他に、図4で説明した判定パラメータ学習のフローが随時起動される。なお、ここで随時とは、必要なデータが一定量蓄積された時である。
図7は、第1の実施例として、テレビ装置の一部として実現する場合の音声認識による機器制御装置の構成を示した図である。本構成の大部分は、テレビ本体332の内部のモジュールとして実現される。内部のモジュールには、上述したコンピュータの処理部を構成する中央処理部(Central Processing Unit:CPU)や記憶部(メモリ)が含まれる。CPUは、音声区間候補検出部304、動作モードチェック部306、教師信号検出部312、音声・非音声自動判定部314、音声認識部316、判定パラメータ学習部322、判定精度推定部326の各機能をプログラム処理として実行する。教師信号データベース320と判定パラメータデータベース324は記憶部中に蓄積される。動作モード表示部328は独立した表示素子、あるいはテレビのディスプレイ中に表示して構成できる。なお、CPUが実行する各機能のうち、音声認識部の機能などを専用回路で実現しても良いことは言うまでもない。
その他に、リモコン装置310と、必要に応じて人検知部である人検知センサ330を用いる。リモコン装置310は、一般的なテレビに付属するものを用いることもできるし、音声認識を起動するという目的に特化した、ボタンひとつだけの装置でも構わない。一般的に、前者の場合には赤外線で信号を送ることが多く、後者の場合には、自動車用のキーレスエントリーなどで用いられる微弱無線を用いることが一般的であると思われる。人検知センサ330は、たとえば赤外線センサの反応により、部屋の中に人がいるかどうかを検知するものである。あるいは、オフィスの入退室管理システムなどと連携して、室内に人がいるかどうかの情報を提供する装置である。本実施例においては、部屋の中に人がいるかどうかについての情報が得られるのであれば、既存のどのような技術を用いようとも特段の違いは生じないため、人検知センサ330についての詳細な説明は割愛する。
赤外線・無線受信部311では、リモコン装置310から送られる赤外線や無線の信号を受信する。これは、図1記載のユーザ入力検出112の役割を果たすモジュールであるが、その他に、通常のリモコン装置310からテレビ制御の信号が送られてきた場合には、対応する制御信号をチャンネル・音量制御部318に送る。チャンネル・音量制御部318は、通常のテレビ装置に含まれるモジュールであり、制御信号に応じてテレビの受信チャンネルや音量などを変更する。また、リモコン装置310から動作モード変更の信号が送られてきた場合には、対応する信号を動作モード設定部308に送る。動作モード設定部308は、この他に、図示を省略したボタン等で直接操作することも可能である。
マイク302、音声区間候補検出部304、動作モードチェック部306の役割は、それぞれ図1記載の対応するブロックと同じである。教師信号検出部312は、動作モードが「手動」である場合には、赤外線・無線受信部311からの信号に応じて、音声認識部316を起動すべきかどうかの判定を下す。一方、動作モードが「自動」である場合には、人検知センサ330からの信号に応じて、音声認識部316の動作を抑制すべきか、それとも音声・非音声自動判定部314の判定結果に任せるべきかを出力する。これはすなわち、部屋の中に人がいないことがわかっているならば、音声を解析した結果のいかんにかかわらず、入力音データは「非音声」であると見なすことが望ましいと考えられるためである。また、人検知センサ330の機能に完全な信頼が置けない場合には、即座に「非音声」と判断するのではなく、音声・非音声自動判定部314の動作基準を一時的に修正し、「非音声」という判定が出る可能性を高めるというやり方を取ることもできる。
また、付加的な機能として、赤外線・無線受信部311から音声認識起動の信号を受信したならば、その後一定時間のあいだは、動作モードが「自動」であっても、「手動」であるときと同様の動作をするという方式を取ることもできる。これは、ユーザの手元にリモコン装置310があることがわかっているならば、咄嗟のときにリモコン装置310が見つからないという課題に対処する必要がないことが推定されるため、非音声入力に対する誤反応のリスクを犯す必要性が低いと考えられるためである。この場合にも、動作モードを「手動」に変更してしまうばかりでなく、「自動」ではあるが「音声」が検出されにくくなるように動作基準を一時的に修正するという方式も可能である。音声認識部316が動作した場合には、その結果に応じた信号がチャンネル・音量制御部318に送られる。なお、ここで一定時間、一時的とは、通常数分程度が好適である。
動作モードが「手動」の場合に、「音声」ないし「非音声」の教師信号が教師信号データベース320に追加格納されるのは図1の場合と同様であるが、その他に、動作モードが「自動」であっても、人検知センサ330からの信号もしくはリモコン装置310使用後一定時間内という条件で強制的に「非音声」という判定が下された場合には、教師信号検出部312は、「非音声」の教師信号を教師信号データベース320に追加格納する。ここで、使用後の一定時間とは通常数分程度である。その後の、判定パラメータ学習部322、判定パラメータデータベース324、判定精度推定部326、動作モード表示部328の役割は、図1の対応する部分とほぼ同じである。
図8は、第2の実施例に係わり、部屋の中などにある各種機器を制御するための汎用機器制御装置として、音声認識による機器制御装置を実現する場合の構成を示した図である。
図7の実施例との大きな違いは、テレビ本体332に含まれていた各モジュールのうち、チャンネル・音量制御部318を除くすべてが、本構成において新たに設けられた汎用制御装置432の中に移されている点である。図7の構成においては、これらのモジュールによる処理がテレビ装置の内部で行われ、その結果に応じてチャンネルや音量などの制御が行なわれていたが、本構成においては、これらのモジュールによる処理の結果、機器制御を行う必要がある場合には、赤外線・無線発信部432において赤外線ないし無線信号として送出するか、もしくは音声認識部416から直接信号線を通じて外部装置に信号を送出する。外部装置としては、テレビ434の他に、エアコン436、照明438など室内に存在する様々な電気機器などが含まれ、機器制御の信号は、どの機器に対してどのような動作を実施するかという組合せとして送出される。各機器は、自らに対する制御命令を受信した場合のみ、その命令に対応する動作を行う。
図9は、図7、図8の実施例の構成による装置において、音データの取得から機器制御に至るまでの処理の流れをフローチャートの形で表わしたものである。図6に示したフローチャートとの違いは、動作モードが自動である場合に、リモコン装置使用後の時間の判定514と、人検知センサによる人検知の判定516の二つの処理が加わっている部分である。これらの判定514、516により、リモコン使用後T秒未満であると判定された場合(Tの値は使用環境に応じて予め設定しておくが、上述したように数分程度である。)、およびセンサが人を検知しなかった場合には、入力された音データが非音声であることは自明であると判断し、音声・非音声判定は行わず、なおかつ音データを非音声の教師データとして蓄積する。リモコン使用後T秒以上経っており、センサが人を検知した場合には、図6と同様に音声・非音声判定518を実行する。
図10は、第3の実施例に係わり、カーナビゲーション装置の一部として、音声認識による機器制御装置を実現する場合の詳細な構成を示した図である。一般的に、音声認識機能を持ったカーナビゲーション装置においては、ナビ機能全般を操作するためのタッチパネル・操作ボタン類610とは別に、運転しながらでも操作しやすい位置に音声認識起動ボタン630が設置してあることが多い。音声認識起動ボタンの信号は、直接教師信号検出部612に送られるのに対し、タッチパネル・操作ボタン類610からの信号は、カーナビを直接操作するためのものであったり、動作モードを設定するためのものであったりする。図7、図8で示したテレビや汎用制御装置の実施例の場合と異なり、タッチパネル等の操作信号も含めてすべて有線で送信されるが、それらの信号を受信した後の動作は、テレビ等の場合とほぼ同じである。また、カーナビ装置の設置にあたっては、自動車本体からの運転状況に関する情報、例えばエンジン回転数などを提供する運転状況送信部632と接続することも可能である。この場合、たとえば走行速度が基準値よりも大きい場合にはタッチパネル操作を無効化するといったことは多くのカーナビ装置で既に実施されている。
本実施例において、これに加えて、走行速度やハンドルの切り角、ブレーキペダルの踏み込み量などを元に、音声認識の誤反応による悪影響を定量化する。すなわち、走行速度が高い場合、カーブを曲がっている場合、ブレーキを踏んでいる場合などは、運転手が通常よりも高い集中力を必要とする状況であるので、音声認識に誤反応を生じさせないことが重要である。そこで、教師信号検出部612は、走行速度やハンドルの切り角、ブレーキペダルの踏み込み量などの重みつき和を誤反応悪影響度として算出し、この値があらかじめ決められた値よりも大きい場合は、音声・非音声判別の結果にかかわらず音声認識を起動しないよう制御する。あるいは、教師信号検出部612は、誤反応悪影響度に比例する形で、音声・非音声判別に用いられる閾値を「音声認識が起動されにくくなる」ように修正する値を付加するよう制御する。これにより、運転に集中すべき特段の事情があるような場合に、音声認識部616の誤動作によって危険な状況が発生してしまうリスクをさらに低めることができるようになる。
図11は、各実施例における音声・非音声自動判定部(図7、8、10の314、414、614)の動作の例を表わしたフローチャートである。ここでは線形判別分析を用いる場合の例を示す。まず、音データを取得(702)した後に、これをもとに特徴量を計算する(704)。ここで用いる特徴量としては、平均パワー、ケプストラム、基本周波数、事前に学習した音声モデルや非音声モデルとの類似度、音声認識を適用してみた場合の認識結果信頼度などが含まれる。ただし、音声らしさを表現しうるこの他の特徴量を用いるとしても、本発明の構成はそのまま活用可能である。次に、これらの特徴量を正規化した後に(706)、あらかじめ学習しておいた線形判別係数との内積を求める(708)。こうして得られた値が、あらかじめ学習しておいた閾値よりも大きければ音声、小さければ非音声と判定する(710、712、714)。なお、ここでは線形判別分析を用いる例を説明したが、それ以外の分類手法(たとえばサポートベクトルマシンなど)を用いるとしても、本発明の構成はそのまま活用可能である。これらの分類手法の適用については、当該分野に携わる開発者であれば容易に実現可能であるので、ここでは詳述しない。
図12は、各実施例における判定パラメータ学習部(図7、8、10の322、422,622)の動作の例を表わしたフローチャートである。ここでも線形判別分析を用いる場合の例を示している。まず、学習データすべてを取得した後に(802)、それらに対する特徴量を求め正規化する(804)。こうして得られた特徴量データをベクトル化した後、全体に対する共分散行列および音声データの群内平均、非音声データの群内平均を求める(806)。次に、共分散行列の逆行列を求めた後(808)、得られた逆行列を群内平均の差に掛ける(810)。これにより線形判別係数が求められ、それを保存する(812)。なお、線形判別係数全体に定数をかけても性能は不変であるので、音声データに線形判別係数をかけた場合と非音声データに線形判別係数をかけた場合を比較し、前者が小さくなる場合には、線形判別係数全体に-1をかけて符号を反転させておくと便利である。次に最適な閾値を求める(814)必要があるが、これについては判定精度推定部で詳しく述べるため、ここでは説明を割愛する。
図13は、各実施例における判定精度推定部(図7、8、10の324、424、624)の動作の例を表わしたフローチャートである。図12の場合と同様に全学習データに対する正規化特徴ベクトルを得た後(902)、線形判別係数をかけて線形判別スコアを求める(904)。次に、閾値Cの候補値の最小値CminをCにセットする(906)。ここでは、例えば非音声データ全体に対する線形判別スコアの平均値などを用いると良い。次に、閾値の候補Cを用いた場合の平均判別率Rを求める。ここで平均判別率とは、音声データを正しく音声と判定した率および非音声データを正しく非音声と判定した率の平均値である。なお、音声データに対する性能と非音声データに対する性能のいずれか片方をより重視する場合には、両者の重みつき平均を取れば性能を調整することが可能である。このような処理を、さまざまな候補値Cに対して繰り返し、Rが最大となる場合のCを最適閾値Cbestとする。また、最大値Rmaxを推定判定精度とする(908−918)。
以上詳述してきた本発明は、離れた場所からの操作を容易にする機能を持つテレビなど家電装置として利用可能である。また、いくつかの機器をまとめて制御するための汎用制御装置としても利用可能である。さらに、自動車用のカーナビゲーション装置としても利用可能である。
本発明の基本構成を説明するための典型的なシステムの構成図である。 図1の構成で、動作モードが手動の時の処理の流れの詳細を表わす図である。 図1の構成で、動作モードが自動の時の処理の流れの詳細を表わす図である。 図1の構成で、判定パラメータの学習に関連する処理の流れの詳細を表わす図である。 図1の構成で、線形判別分析を用いた判定パラメータ学習の例の説明図である。 図1の構成で、音声で機器を制御する際のフローチャートを示す図である。 第1の実施例に係わる、テレビ装置の一部として機器制御装置を実現する際の構成図である。 第2の実施例に係わる、汎用機器制御装置として機器制御装置を実現する際の構成図である。 第1、2の実施例に係わる、機器制御装置の動作を説明するフローチャートを示す図である。 第3の実施例に係わる、カーナビ装置の一部として機器制御装置を実現する際の構成図である。 各実施例に係わる、機器制御装置の要部の動作を説明するフローチャートを示す図である。 各実施例に係わる、機器制御装置の要部の動作を説明するフローチャートを示す図である。 各実施例に係わる、機器制御装置の要部の動作を説明するフローチャートを示す図である。
符号の説明
102…マイクなどの音声入力装置
104…音声区間候補を検出する処理ブロック
106…動作モードが手動と自動のどちらかを判定する処理ブロック
108…ユーザが動作モードを手動もしくは自動に設定する処理ブロック
110…ユーザが音声認識の起動をスイッチなどで入力する処理ブロック
112…ユーザからの入力を検出するブロック
114…入力音データが音声か非音声かを自動的に判定するブロック
116…音声認識を実行するブロック
118…音声認識の結果に基づき機器の制御を実行するブロック
120…教師信号を蓄積するデータベース
122…教師信号を用いて判定パラメータを学習するブロック
124…学習により得られた判定パラメータを保持するデータベース
126…現在の判定パラメータによる判定の精度を推定するブロック
128…推定した判定精度をユーザに表示するブロック。

Claims (9)

  1. ユーザの音声を音声認識部で認識して機器の制御を行う機器制御装置であって、
    音声認識の起動方法を手動と自動とに切り替える切り換え部と、
    音声認識の起動方法が手動に設定されている場合に、音声認識の起動を指示するユーザ入力部と、
    音声認識のための入力音声の候補となる音データを検出する検出部と、
    前記切り換え部により音声認識の起動方法が自動に設定されている場合に、検出された前記音データが前記ユーザが機器制御を意図して発声したものであるかどうかを自動判定する自動判定部と、
    前記切り換え部により音声認識の起動方法が手動に設定され、前記ユーザ入力部を用いて音声認識を起動している場合に、検出された前記音データ前記ユーザが機器制御を意図して発声した音データとしてデータベースに蓄積し、前記切り替え部により音声認識の起動方法が手動に設定され、前記ユーザ入力部を用いて音声認識を起動していない場合に、検出された前記音データを前記ユーザが機器制御を意図して発生したものではない音データとしてデータベースに蓄積する教師信号検出部と、
    前記データベースに蓄積されたデータをもとに前記自動判定部で用いる判定パラメータを学習する学習部とを備え
    前記自動判定部が前記判定パラメータに基づき、前記音データを前記ユーザが機器制御を意図して発生したものと判定した場合、前記音データを前記音声認識部で認識して機器の制御を行う、
    ことを特徴とする音声認識による機器制御装置。
  2. 前記教師信号検出部は、ユーザが手動の起動方法を用いて音声認識を起動した後の一定時間の間は、自動による音声認識の起動を停止させる、
    ことを特徴とする請求項1記載の音声認識による機器制御装置。
  3. 前記教師信号検出部は、ユーザが手動の起動方法を用いて音声認識を起動した後の一定時間の間は、検出された前記音データを前記ユーザが機器制御を意図して発声したものでないとして前記データベースに蓄積する、
    ことを特徴とする請求項1記載の音声認識による機器制御装置。
  4. 前記教師信号検出部は、ユーザが手動の起動方法を用いて音声認識を起動した後の一定時間の間は、自動による音声認識の起動を起こりにくくさせる、
    ことを特徴とする請求項1記載の音声認識による機器制御装置。
  5. 音以外の情報を用いて機器の周辺に人がいるかどうかを検知する人検知部を更に有し、
    前記教師信号検出部は、前記人検知部により人がいないと検知された場合には、自動による音声認識の起動を停止させる、
    ことを特徴とする請求項1記載の音声認識による機器制御装置。
  6. 音以外の情報を用いて機器の周辺に人がいるかどうかを検知する人検知部を更に有し、
    前記教師信号検出部は、前記人検知部により人がいないと検知された場合には、検出された前記音データを前記ユーザが機器制御を意図して発声したものでないとして前記データベースに蓄積する、
    ことを特徴とする請求項1記載の音声認識による機器制御装置。
  7. 前記教師信号検出部は、制御対象となる装置の状況に応じて音声認識の誤反応による悪影響を定量化した誤反応悪影響度に応じて、自動による音声認識の起動のされやすさを変化させる、
    ことを特徴とする請求項1記載の音声認識による機器制御装置。
  8. 蓄積された前記判定パラメータに基づき判定精度を推定する判定精度推定部を更に有する、
    ことを特徴とする請求項1記載の音声認識による機器制御装置。
  9. 前記判定精度推定部で算出した前記判定精度を表示する動作モード表示部を有する、
    ことを特徴とする請求項記載の音声認識による機器制御装置。
JP2008247948A 2008-09-26 2008-09-26 音声認識による機器制御装置 Expired - Fee Related JP4779000B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008247948A JP4779000B2 (ja) 2008-09-26 2008-09-26 音声認識による機器制御装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008247948A JP4779000B2 (ja) 2008-09-26 2008-09-26 音声認識による機器制御装置

Publications (2)

Publication Number Publication Date
JP2010078986A JP2010078986A (ja) 2010-04-08
JP4779000B2 true JP4779000B2 (ja) 2011-09-21

Family

ID=42209500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008247948A Expired - Fee Related JP4779000B2 (ja) 2008-09-26 2008-09-26 音声認識による機器制御装置

Country Status (1)

Country Link
JP (1) JP4779000B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5752488B2 (ja) * 2011-05-31 2015-07-22 株式会社Nttドコモ 音声認識装置、音声認識方法、及び音声認識プログラム
US9378737B2 (en) 2012-11-05 2016-06-28 Mitsubishi Electric Corporation Voice recognition device
CN103886861B (zh) * 2012-12-20 2017-03-01 联想(北京)有限公司 一种控制电子设备的方法及电子设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3764302B2 (ja) * 1999-08-04 2006-04-05 株式会社東芝 音声認識装置
JP2001306086A (ja) * 2000-04-21 2001-11-02 Mitsubishi Electric Corp 音声区間判定装置および音声区間判定方法
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
JP2004184803A (ja) * 2002-12-05 2004-07-02 Nissan Motor Co Ltd 車両用音声認識装置
JP4784056B2 (ja) * 2004-08-18 2011-09-28 パナソニック電工株式会社 音声認識機能付制御装置
JP2008145989A (ja) * 2006-12-13 2008-06-26 Fujitsu Ten Ltd 音声識別装置および音声識別方法
JP2008216618A (ja) * 2007-03-05 2008-09-18 Fujitsu Ten Ltd 音声判別装置

Also Published As

Publication number Publication date
JP2010078986A (ja) 2010-04-08

Similar Documents

Publication Publication Date Title
US10643605B2 (en) Automatic multi-performance evaluation system for hybrid speech recognition
JP4859982B2 (ja) 音声認識装置
JP5075664B2 (ja) 音声対話装置及び支援方法
US7437297B2 (en) Systems and methods for predicting consequences of misinterpretation of user commands in automated systems
US20170256270A1 (en) Voice Recognition Accuracy in High Noise Conditions
US20150187350A1 (en) Apparatus and method for reporting speech recognition failures
JP6233650B2 (ja) 操作補助装置および操作補助方法
US20160267909A1 (en) Voice recognition device for vehicle
WO2004032113A1 (ja) 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
EP2148325B1 (en) Method for determining the presence of a wanted signal component
JP2002041085A (ja) 音声認識装置及び記録媒体
US20090157399A1 (en) Apparatus and method for evaluating performance of speech recognition
JP4779000B2 (ja) 音声認識による機器制御装置
CN111656437A (zh) 信息处理装置、信息处理方法、程序和信息处理系统
JP4817312B2 (ja) 叫び声を用いたロボットの緊急停止方法及びシステム
US10930283B2 (en) Sound recognition device and sound recognition method applied therein
KR101529918B1 (ko) 다중 스레드를 이용한 음성 인식 장치 및 그 방법
JP5157596B2 (ja) 音声認識装置
KR102395760B1 (ko) 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템 및 그 제어 방법
US11580958B2 (en) Method and device for recognizing speech in vehicle
JP4938719B2 (ja) 車載情報システム
CN110265018B (zh) 一种连续发出的重复命令词识别方法
KR20140035164A (ko) 음성인식시스템의 동작방법
JP2019191477A (ja) 音声認識装置及び音声認識方法
KR101086602B1 (ko) 차량용 음성인식 시스템 및 그 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110607

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110704

R150 Certificate of patent or registration of utility model

Ref document number: 4779000

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140708

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees