JP2010078986A - Equipment controller by speech recognition - Google Patents
Equipment controller by speech recognition Download PDFInfo
- Publication number
- JP2010078986A JP2010078986A JP2008247948A JP2008247948A JP2010078986A JP 2010078986 A JP2010078986 A JP 2010078986A JP 2008247948 A JP2008247948 A JP 2008247948A JP 2008247948 A JP2008247948 A JP 2008247948A JP 2010078986 A JP2010078986 A JP 2010078986A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- voice recognition
- unit
- data
- control apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、家庭内やオフィス内などにおいて、離れたところにある電気機器を操作しようとする際に、手元にリモコンなどの器具を持たなくとも自分の声だけで操作できるような機能を提供する技術に関する。 The present invention provides a function that can be operated with only one's own voice without having a device such as a remote control at hand when trying to operate a remote electrical device in a home or office. Regarding technology.
テレビやエアコンなどの機器を遠くから操作する手段としては、赤外線によるリモコンが幅広く普及している。一方、人間の声をマイクによって取得し、あらかじめ用意したモデルと比較照合することによって、発話内容を認識する音声認識技術が確立しており、それを使って機器の制御を行おうという試みもある。音声認識を使って機器の制御を行う場合、例えば特許文献1にあるように、音声認識スイッチを用意して、使用者が明示的に音声認識の開始を指示することが一般的である。また、特許文献2にあるように、特定の単語の発声を音声認識スイッチの代わりに用いるという技術も存在する。 Infrared remote controls are widely used as means for operating devices such as TVs and air conditioners from a distance. On the other hand, a voice recognition technology that recognizes the utterance content by acquiring human voice with a microphone and comparing it with a model prepared in advance has been established, and there is an attempt to control the device using it. . When controlling a device using voice recognition, for example, as disclosed in Patent Document 1, for example, a voice recognition switch is generally prepared and a user explicitly instructs the start of voice recognition. Further, as disclosed in Patent Document 2, there is a technique in which the utterance of a specific word is used instead of the voice recognition switch.
リモコンを使った機器の制御には、咄嗟のときにリモコンが見つからない、リモコンのボタンが多すぎて使い方がわからないなどの問題がある。音声認識機能を用いればこれらの問題が低減するが、従来の方式では、音声認識スイッチを作動させることが必要なため、最低でも一つのボタンを持つ装置を手元に置いておくことが必要である。この場合、咄嗟のときにその装置が見つからないという課題は依然として残ったままである。仮に音声認識スイッチを用いず、常に音声認識を起動しておいた場合、周囲の雑音や、機器操作を意図しない雑談などの発声に誤反応し、ユーザが望まない挙動が頻発するという問題がある。この問題を回避するため、音声認識スイッチの代わりに特定の単語の発声を用いるやり方もあるが、やはり雑音などへの誤反応をなくすことは難しい。また、「電気をつける」といった単純な操作に対しても、常に最低でも2回の発話が必要となるため、ユーザの利便性を損ねるという問題もある。 There are problems with controlling a device using a remote control, such as when the remote control cannot be found during a dredging, and there are too many buttons on the remote control to understand how to use. These problems can be reduced by using the voice recognition function. However, since the conventional method requires the voice recognition switch to be activated, it is necessary to have a device having at least one button at hand. . In this case, the problem that the device cannot be found at the time of dredging still remains. If the voice recognition switch is always activated without using the voice recognition switch, there is a problem that the user's undesired behavior frequently occurs due to false reaction to ambient noise or utterances such as chats not intended for device operation. . In order to avoid this problem, there is a method of using the utterance of a specific word instead of the voice recognition switch, but it is still difficult to eliminate a false reaction to noise or the like. In addition, even a simple operation such as “turn on electricity” always requires at least two utterances, which impairs user convenience.
本発明の目的は、高精度で利便性の高い音声認識による機器制御装置を提供することにある。 An object of the present invention is to provide a device control apparatus based on voice recognition that is highly accurate and convenient.
本発明においては、音声認識を使用する特定の環境において、誤反応の原因となりうる音の性質を十分に調べ、なおかつ正しく反応することが望まれる音声入力の性質についても十分に調べることができれば、音声入力とそれ以外の入力とを正確に判別できるという性質を活用する。これらの性質を調べるためには、音声認識が反応すべきであることがわかっているデータと、反応すべきでないことがわかっているデータを、それぞれ十分な量だけ集めることが必要である。 In the present invention, in a specific environment where speech recognition is used, if it is possible to sufficiently investigate the nature of the sound that may cause a false reaction, and also sufficiently investigate the nature of the speech input that is desired to react correctly, Utilizing the property of being able to accurately discriminate between voice input and other input. In order to examine these properties, it is necessary to collect a sufficient amount of data that is known to be responsive to speech recognition and data that is known not to be responsive.
そこで本発明においては、まず始めに音声認識スイッチと併用する形で音声による機器制御を行う。これにより、反応すべき音のデータを十分に集めることができる。また、音声認識スイッチが押されていないときにも音データの取り込みを続けることにより、反応すべきでないデータをも十分に集めることができる。これらのデータをもとに、音声認識の起動を判定するモジュールの学習を十分に行い、誤反応が生じる心配が無くなった時点で、音声認識スイッチが不要であることをユーザに伝える。ユーザがこれを確認し、以後は自動で音声認識を起動するよう指定すると、音声認識スイッチ不要の音声による機器制御が可能となる。 Therefore, in the present invention, device control by voice is first performed in combination with a voice recognition switch. Thereby, it is possible to sufficiently collect sound data to be reacted. Further, by continuing to capture sound data even when the voice recognition switch is not pressed, it is possible to sufficiently collect data that should not be reacted. Based on these data, the module for determining the activation of voice recognition is sufficiently learned, and when there is no fear of erroneous reaction, the user is informed that the voice recognition switch is unnecessary. If the user confirms this and designates that voice recognition is to be automatically started thereafter, the device can be controlled by voice without a voice recognition switch.
すなわち上記の目的を達成するため本発明においては、音声認識の起動方法を手動と自動とに切り替える切り換え部と、起動方法によらず音声認識のための入力音声の候補となる音データを検出する検出部と、検出された音データが、音声認識の対象とすべきデータであるかどうかを自動判定する自動判定部と、検出された音データが音声認識の対象とすべきデータであるかどうかが自明である場合にそれをデータベースに蓄積する蓄積部と、このデータベースに蓄積されたデータをもとに自動判定部で用いるパラメータを学習する学習部とを備える音声認識による機器制御装置を提供する。 That is, in order to achieve the above object, in the present invention, a switching unit that switches a speech recognition activation method between manual and automatic, and sound data that is a candidate for input speech for speech recognition are detected regardless of the activation method. A detection unit, an automatic determination unit that automatically determines whether or not the detected sound data is a target of speech recognition, and whether or not the detected sound data is a target of speech recognition Is provided with an accumulator that accumulates data in a database when it is self-evident and a learning unit that learns parameters used in an automatic determination unit based on the data accumulated in the database. .
本発明により、機器制御装置の購入・設置後しばらくすると、リモコンに相当するものを一切必要としない音声制御が可能となり、咄嗟のときにリモコンが見つからないといった問題が生じなくなる。 According to the present invention, after a while after purchase and installation of the device control apparatus, it is possible to perform voice control that does not require any equivalent of a remote controller, and the problem that the remote controller cannot be found in the event of a drought does not occur.
以下、図を用いて本発明の有効な実施例を説明するが、まず本発明の基本構成について説明する。なお、以下の説明において、「音声・非音声自動判定」を、自動判定部、或いは自動判定手段とするなど、機能ブロックを「部」或いは「手段」と呼ぶ場合がある。 Hereinafter, an effective embodiment of the present invention will be described with reference to the drawings. First, the basic configuration of the present invention will be described. In the following description, function blocks may be referred to as “parts” or “means”, such as “automatic determination of voice / non-voice” as an automatic determination unit or automatic determination means.
図1は、本発明の基本的な構成を示す概念図である。本構成においては、装置の電源が入っているあいだは継続的に音声入力装置(マイク等)102からの入力音データの取り込みを続ける。得られた音データに対し、音声区間候補検出104を行う。音声区間候補抽出の方法としては、例えば、A/D変換器によって音データをデジタル化した後、幅10ミリ秒程度の時間幅でフレームデータを切り出し、その間の音声波形の振幅の自乗和を取ってフレームパワーとし、その値をあらかじめ設定した閾値と比較するなどの手法が考えられる。このような音声区間の検出は、当該分野の技術者において広く知られている方法である。この際、音声区間候補検出部104の役割は、あくまでも候補を抽出することであり、後段の処理により音声として処理すべきものとそうでないものとの選別を行うことが想定されているため、不要なデータを数多く検出してしまうことは問題ないが、逆に必要なデータを取りこぼしてしまうことは出来る限り避けなければならない。そのような検出を行うためには、上述の閾値を極めて小さく設定するなどの方式で対応すれば良い。
FIG. 1 is a conceptual diagram showing a basic configuration of the present invention. In this configuration, the input sound data from the voice input device (such as a microphone) 102 is continuously captured while the device is turned on. Speech
次に、動作モードチェック106において、対象となっている装置の動作モードが「手動」と「自動」のどちらに設定されているかを確認する。動作モードの設定は、動作モード設定108において行うが、その詳細は後述する。
Next, in the
図2は、動作モードが「手動」の場合の主な処理の手順を、図1から抜き出したものである。まず、ユーザ入力装置110からの入力が無いかどうかを、ユーザ入力検出112にて検出する。ここで、ユーザ入力装置とは、ユーザが音声認識の起動を指示するための装置であり、後で具体的に説明するように、例えばリモコンのボタンなどを想定している。ここで、リモコンのボタンが押されたなど、音声認識の起動が指示された場合には、入力された音データを用いて音声認識116を実行する。また、それと同時に、入力された音声データを「音声」の教師信号として教師信号データベース120に追加格納する。音声認識116では、あらかじめ設定された機器制御のためのコマンドのリストなどを参照して、音声認識部にて音声認識を実行し、結果として得られた制御コマンドを、機器制御118にて実行する。一方、リモコンのボタンが押されていないなど、音声認識の起動が指示されていない場合には、音声認識116を実行せず、入力された音声データを「非音声」の教師信号として教師信号データベース120に追加格納する。
FIG. 2 is an extraction of the main processing procedure when the operation mode is “manual” from FIG. First, the
図3は、動作モードが動作モードチェック106で「自動」とされた場合の主な処理の手順を、図1から抜き出したものである。まず、音声・非音声自動判定114を行う自動判定手段が起動される。ここでは、入力された音データが、「音声」であるか「非音声」であるかをコンピュータが自動判定する。ただし、ここでいう「音声」とは音声認識の入力とすべき全ての音データを指し、「非音声」とは音声認識の入力とすべきでない全ての音データを指す。つまり、ユーザの一般的な話し声や笑い声、咳などは、周囲雑音と同じように「非音声」の範疇に含まれると解釈すべきである。自動判定にあたっては、判定パラメータデータベース124に格納されているデータを用いるが、この詳細については後述する。音声・非音声自動判定の結果、入力された音データが「音声」であると判定された場合には、その音データを用いて音声認識116を実行する。認識結果に応じて機器制御118が実行されるのは、動作モード「手動」の場合と同じである。ただし、「自動」の場合には、入力された音データが「音声」であるというのはあくまでも推定であるため、そのデータを教師信号データベース120に追加格納することはしない。音声・非音声自動判定の結果が「非音声」であった場合には、装置は何もせず次の入力を待つ。
FIG. 3 shows the main processing procedure extracted from FIG. 1 when the operation mode is “automatic” in the
図4は、音声・非音声判別のための判定パラメータの学習に関する一連の処理手順を、図1から抜き出したものである。教師信号データベース120に蓄積された教師信号は、判定パラメータ学習122で使用される。判定パラメータ学習122は、教師信号が一定量蓄積された段階で起動される。ただし、上述した音声区間候補検出104から機器制御118までの処理が大きな遅延なく行われることが望ましいのに対し、判定パラメータ学習122にはそのような即応性は求められないため、コンピュータの処理能力などに応じて、判定パラメータ学習122の起動を遅らせたりすることもありうる。判定パラメータ学習122においては、教師信号データベース120に含まれる音データから各種の特徴量を抽出し、それらの特徴量の組と、音声もしくは非音声というラベルとの関係を学習する。このような2種類のクラスへの分類問題は、機械学習の分野において十分に研究が行われており、当該分野の技術者にとっては様々な手法が容易に適用可能なものであるが、ここではその中でも最も代表的なものである線形判別分析を用いる手法について説明した後、図4の残りの部分について再度説明する。
FIG. 4 shows a series of processing procedures relating to learning of determination parameters for voice / non-voice discrimination extracted from FIG. The teacher signal stored in the
図5は、線形判別分析による判定パラメータ学習の様子を示した図である。ここでは、横軸に特徴量1、縦軸に特徴量2として、2種類の特徴量を使う例を示している。ここでいう特徴量とは、平均の音量や観測された区間長といった簡単なものから、ケプストラムや基本周波数といった音声分析で良く用いられる特徴量、また、音データベースから作った混合ガウス分布や隠れマルコフモデルなどを利用した尤度などでも構わないが、以下の議論は特徴量として何を使うかに依存しないため、ここでは詳述しない。図5においては、「音声」として13、「非音声」として26、合わせて39個の教師データが存在する状況を仮定している。この平面上に直線を引き、黒丸(音声)が片側に、白丸(非音声)が反対側に集まるようにするのが線形判別分析である。定量的な基準としては、各点と直線との距離(直線の片側が正、反対側が負と定義する)を求め、黒丸についての距離の総和と白丸についての距離の総和との差が最大になるようにすれば良い。また、本図のように、黒丸の総数と白丸の総数が異なる場合には、黒丸1つを2つとして数え、全体の重みのバランスを取る。そのような基準により、黒丸と白丸を最も良く区分する直線が得られる。一般には、特徴量が多次元である場合、多次元の特徴空間を2つに分ける超平面が得られることになる。図に太く示された斜めの線が、線形判別分析により得られた結果である。この例では、直線の右上を黒丸、左下を白丸と判定することにすると、黒丸1個、白丸1個の合計2個だけが誤って分類されることになる。教師データに対する判定性能は、黒丸が約92%、白丸が約96%であり、平均すると約94%となる。 FIG. 5 is a diagram showing a state of determination parameter learning by linear discriminant analysis. Here, an example is shown in which two types of feature quantities are used, with the feature quantity 1 on the horizontal axis and the feature quantity 2 on the vertical axis. The feature value here refers to features that are often used in speech analysis such as cepstrum and fundamental frequency from simple values such as average volume and observed interval length, mixed Gaussian distributions and hidden Markovs created from sound databases. Likelihood using a model or the like may be used, but the following discussion is not detailed here because it does not depend on what is used as a feature quantity. In FIG. 5, it is assumed that “teaching” is 13 and “non-speech” is 26, for a total of 39 teacher data. Linear discriminant analysis draws a straight line on this plane so that black circles (voice) are gathered on one side and white circles (non-voice) are gathered on the opposite side. As a quantitative standard, the distance between each point and the straight line (one side of the straight line is defined as positive and the other side is defined as negative) is calculated, and the difference between the sum of the distances for the black circles and the sum of the distances for the white circles is maximized. What should I do? Further, as shown in the figure, when the total number of black circles is different from the total number of white circles, one black circle is counted as two to balance the overall weight. Such a criterion provides a straight line that best separates the black and white circles. In general, when the feature quantity is multidimensional, a hyperplane that divides the multidimensional feature space into two is obtained. The diagonal lines shown in the figure are the results obtained by linear discriminant analysis. In this example, if it is determined that the upper right corner of the straight line is a black circle and the lower left corner is a white circle, only a total of two, one black circle and one white circle, are erroneously classified. The judgment performance for teacher data is about 92% for black circles and about 96% for white circles, and averages about 94%.
図4において、判定パラメータ学習122が終了したら、得られた結果を判定パラメータデータベース124に保存する。図5の例でいうと、斜めの線を表わす傾きおよび切片の値をパラメータとして保存する。このパラメータを持っておくと、新たな音データが入ってきたとき、それを特徴量に変換して平面上の点として表わし、その点が直線のどちら側にあるかを見ることによって、音声と非音声のどちらであるかを判定することができる。また、図5の例で、教師データに対する判定性能が約94%であるという結果が得られたが、これが判定精度推定126の役割に相当する。判定精度推定126では、教師データに対する判定精度などから、新しいデータを判定した際に得られる結果の精度を推定する。これは、音声・非音声自動判定で十分な精度が得られないと予想される場合には、リモコンのボタンなどによる手動起動を用いることが望ましいと思われるためである。判定精度推定126で得られた結果は、判定精度表示128でユーザに提示される。ただしこの際、94%といった数値を見せることがユーザにとってわかりやすいとは限らないため、例えば予想精度が予め設定した閾値よりも低いときには赤いLEDを、高いときには青いLEDを点灯させるといった表示方式を取ってもよい。
In FIG. 4, when the determination parameter learning 122 is completed, the obtained result is stored in the
以下、図1に戻って動作モード設定について説明する。ユーザは、判定精度表示128を見て、動作モードを変更したいと思った場合には、ボタン操作などにより動作モードを変更する(動作モード設定108)。例えば動作モードを手動から自動に変更した場合、以降の処理では、動作モードチェック106にて、「自動」の方の処理が進められることになる。なお、ユーザが装置の性能に不満がある場合などには、動作モードを「手動」に戻すことにより、再びリモコンなどを使って操作することが可能になる。なお、「手動」から「自動」への変更は、通常、音声認識が数百回分実施された後、日にちにして数日程度で行うことが可能となる。
Hereinafter, returning to FIG. 1, the operation mode setting will be described. If the user looks at the
図6は、図1の機能構成を有する装置において、音データの取得から機器制御に至るまでの処理の流れをフローチャートの形で表わしたものである。実際に機器制御が実行されるのは、音声区間候補が見つかり、動作モードが手動で、起動ボタンが押され、音声認識結果が有効な命令であった場合(206−208−210−212−218−220−222)と、音声区間候補が見つかり、動作モードが自動で、音声・非音声判定の結果が音声であり、音声認識結果が有効な命令であった場合(206−208−214−216−218−220−222)の2通りである。そのいずれかに該当しない場合、および実際に機器制御が実行された後には、状態は再び音データの取得202に戻り、以降、本装置が停止するまで同じ動作を繰り返す。これらの動作の他に、図4で説明した判定パラメータ学習のフローが随時起動される。なお、ここで随時とは、必要なデータが一定量蓄積された時である。
FIG. 6 shows the flow of processing from acquisition of sound data to device control in the apparatus having the functional configuration of FIG. 1 in the form of a flowchart. Device control is actually executed when a voice segment candidate is found, the operation mode is manual, the activation button is pressed, and the voice recognition result is a valid command (206-208-210-212-218). -220-222), when the voice section candidate is found, the operation mode is automatic, the voice / non-voice judgment result is voice, and the voice recognition result is a valid command (206-208-214-216) -218-220-222). If none of these applies, and after device control is actually executed, the state returns to the
図7は、第1の実施例として、テレビ装置の一部として実現する場合の音声認識による機器制御装置の構成を示した図である。本構成の大部分は、テレビ本体332の内部のモジュールとして実現される。内部のモジュールには、上述したコンピュータの処理部を構成する中央処理部(Central Processing Unit:CPU)や記憶部(メモリ)が含まれる。CPUは、音声区間候補検出部304、動作モードチェック部306、教師信号検出部312、音声・非音声自動判定部314、音声認識部316、判定パラメータ学習部322、判定精度推定部326の各機能をプログラム処理として実行する。教師信号データベース320と判定パラメータデータベース324は記憶部中に蓄積される。動作モード表示部328は独立した表示素子、あるいはテレビのディスプレイ中に表示して構成できる。なお、CPUが実行する各機能のうち、音声認識部の機能などを専用回路で実現しても良いことは言うまでもない。
FIG. 7 is a diagram showing a configuration of a device control apparatus based on voice recognition when implemented as a part of a television apparatus as the first embodiment. Most of this configuration is realized as a module inside the television
その他に、リモコン装置310と、必要に応じて人検知部である人検知センサ330を用いる。リモコン装置310は、一般的なテレビに付属するものを用いることもできるし、音声認識を起動するという目的に特化した、ボタンひとつだけの装置でも構わない。一般的に、前者の場合には赤外線で信号を送ることが多く、後者の場合には、自動車用のキーレスエントリーなどで用いられる微弱無線を用いることが一般的であると思われる。人検知センサ330は、たとえば赤外線センサの反応により、部屋の中に人がいるかどうかを検知するものである。あるいは、オフィスの入退室管理システムなどと連携して、室内に人がいるかどうかの情報を提供する装置である。本実施例においては、部屋の中に人がいるかどうかについての情報が得られるのであれば、既存のどのような技術を用いようとも特段の違いは生じないため、人検知センサ330についての詳細な説明は割愛する。
In addition, a
赤外線・無線受信部311では、リモコン装置310から送られる赤外線や無線の信号を受信する。これは、図1記載のユーザ入力検出112の役割を果たすモジュールであるが、その他に、通常のリモコン装置310からテレビ制御の信号が送られてきた場合には、対応する制御信号をチャンネル・音量制御部318に送る。チャンネル・音量制御部318は、通常のテレビ装置に含まれるモジュールであり、制御信号に応じてテレビの受信チャンネルや音量などを変更する。また、リモコン装置310から動作モード変更の信号が送られてきた場合には、対応する信号を動作モード設定部308に送る。動作モード設定部308は、この他に、図示を省略したボタン等で直接操作することも可能である。
The infrared /
マイク302、音声区間候補検出部304、動作モードチェック部306の役割は、それぞれ図1記載の対応するブロックと同じである。教師信号検出部312は、動作モードが「手動」である場合には、赤外線・無線受信部311からの信号に応じて、音声認識部316を起動すべきかどうかの判定を下す。一方、動作モードが「自動」である場合には、人検知センサ330からの信号に応じて、音声認識部316の動作を抑制すべきか、それとも音声・非音声自動判定部314の判定結果に任せるべきかを出力する。これはすなわち、部屋の中に人がいないことがわかっているならば、音声を解析した結果のいかんにかかわらず、入力音データは「非音声」であると見なすことが望ましいと考えられるためである。また、人検知センサ330の機能に完全な信頼が置けない場合には、即座に「非音声」と判断するのではなく、音声・非音声自動判定部314の動作基準を一時的に修正し、「非音声」という判定が出る可能性を高めるというやり方を取ることもできる。
The roles of the
また、付加的な機能として、赤外線・無線受信部311から音声認識起動の信号を受信したならば、その後一定時間のあいだは、動作モードが「自動」であっても、「手動」であるときと同様の動作をするという方式を取ることもできる。これは、ユーザの手元にリモコン装置310があることがわかっているならば、咄嗟のときにリモコン装置310が見つからないという課題に対処する必要がないことが推定されるため、非音声入力に対する誤反応のリスクを犯す必要性が低いと考えられるためである。この場合にも、動作モードを「手動」に変更してしまうばかりでなく、「自動」ではあるが「音声」が検出されにくくなるように動作基準を一時的に修正するという方式も可能である。音声認識部316が動作した場合には、その結果に応じた信号がチャンネル・音量制御部318に送られる。なお、ここで一定時間、一時的とは、通常数分程度が好適である。
As an additional function, if a voice recognition activation signal is received from the infrared /
動作モードが「手動」の場合に、「音声」ないし「非音声」の教師信号が教師信号データベース320に追加格納されるのは図1の場合と同様であるが、その他に、動作モードが「自動」であっても、人検知センサ330からの信号もしくはリモコン装置310使用後一定時間内という条件で強制的に「非音声」という判定が下された場合には、教師信号検出部312は、「非音声」の教師信号を教師信号データベース320に追加格納する。ここで、使用後の一定時間とは通常数分程度である。その後の、判定パラメータ学習部322、判定パラメータデータベース324、判定精度推定部326、動作モード表示部328の役割は、図1の対応する部分とほぼ同じである。
When the operation mode is “manual”, the teacher signal of “speech” or “non-speech” is additionally stored in the
図8は、第2の実施例に係わり、部屋の中などにある各種機器を制御するための汎用機器制御装置として、音声認識による機器制御装置を実現する場合の構成を示した図である。 FIG. 8 is a diagram showing a configuration in the case of realizing a device control apparatus based on voice recognition as a general-purpose device control apparatus for controlling various devices in a room or the like according to the second embodiment.
図7の実施例との大きな違いは、テレビ本体332に含まれていた各モジュールのうち、チャンネル・音量制御部318を除くすべてが、本構成において新たに設けられた汎用制御装置432の中に移されている点である。図7の構成においては、これらのモジュールによる処理がテレビ装置の内部で行われ、その結果に応じてチャンネルや音量などの制御が行なわれていたが、本構成においては、これらのモジュールによる処理の結果、機器制御を行う必要がある場合には、赤外線・無線発信部432において赤外線ないし無線信号として送出するか、もしくは音声認識部416から直接信号線を通じて外部装置に信号を送出する。外部装置としては、テレビ434の他に、エアコン436、照明438など室内に存在する様々な電気機器などが含まれ、機器制御の信号は、どの機器に対してどのような動作を実施するかという組合せとして送出される。各機器は、自らに対する制御命令を受信した場合のみ、その命令に対応する動作を行う。
The major difference from the embodiment of FIG. 7 is that all the modules included in the TV
図9は、図7、図8の実施例の構成による装置において、音データの取得から機器制御に至るまでの処理の流れをフローチャートの形で表わしたものである。図6に示したフローチャートとの違いは、動作モードが自動である場合に、リモコン装置使用後の時間の判定514と、人検知センサによる人検知の判定516の二つの処理が加わっている部分である。これらの判定514、516により、リモコン使用後T秒未満であると判定された場合(Tの値は使用環境に応じて予め設定しておくが、上述したように数分程度である。)、およびセンサが人を検知しなかった場合には、入力された音データが非音声であることは自明であると判断し、音声・非音声判定は行わず、なおかつ音データを非音声の教師データとして蓄積する。リモコン使用後T秒以上経っており、センサが人を検知した場合には、図6と同様に音声・非音声判定518を実行する。
FIG. 9 shows the flow of processing from acquisition of sound data to device control in the form of a flowchart in the apparatus having the configuration of the embodiment of FIGS. The difference from the flowchart shown in FIG. 6 is that when the operation mode is automatic, two processes of
図10は、第3の実施例に係わり、カーナビゲーション装置の一部として、音声認識による機器制御装置を実現する場合の詳細な構成を示した図である。一般的に、音声認識機能を持ったカーナビゲーション装置においては、ナビ機能全般を操作するためのタッチパネル・操作ボタン類610とは別に、運転しながらでも操作しやすい位置に音声認識起動ボタン630が設置してあることが多い。音声認識起動ボタンの信号は、直接教師信号検出部612に送られるのに対し、タッチパネル・操作ボタン類610からの信号は、カーナビを直接操作するためのものであったり、動作モードを設定するためのものであったりする。図7、図8で示したテレビや汎用制御装置の実施例の場合と異なり、タッチパネル等の操作信号も含めてすべて有線で送信されるが、それらの信号を受信した後の動作は、テレビ等の場合とほぼ同じである。また、カーナビ装置の設置にあたっては、自動車本体からの運転状況に関する情報、例えばエンジン回転数などを提供する運転状況送信部632と接続することも可能である。この場合、たとえば走行速度が基準値よりも大きい場合にはタッチパネル操作を無効化するといったことは多くのカーナビ装置で既に実施されている。
FIG. 10 is a diagram showing a detailed configuration in the case of realizing a device control apparatus based on voice recognition as a part of the car navigation apparatus according to the third embodiment. In general, in a car navigation apparatus having a voice recognition function, a voice
本実施例において、これに加えて、走行速度やハンドルの切り角、ブレーキペダルの踏み込み量などを元に、音声認識の誤反応による悪影響を定量化する。すなわち、走行速度が高い場合、カーブを曲がっている場合、ブレーキを踏んでいる場合などは、運転手が通常よりも高い集中力を必要とする状況であるので、音声認識に誤反応を生じさせないことが重要である。そこで、教師信号検出部612は、走行速度やハンドルの切り角、ブレーキペダルの踏み込み量などの重みつき和を誤反応悪影響度として算出し、この値があらかじめ決められた値よりも大きい場合は、音声・非音声判別の結果にかかわらず音声認識を起動しないよう制御する。あるいは、教師信号検出部612は、誤反応悪影響度に比例する形で、音声・非音声判別に用いられる閾値を「音声認識が起動されにくくなる」ように修正する値を付加するよう制御する。これにより、運転に集中すべき特段の事情があるような場合に、音声認識部616の誤動作によって危険な状況が発生してしまうリスクをさらに低めることができるようになる。
In the present embodiment, in addition to this, the adverse effects caused by the erroneous reaction of voice recognition are quantified based on the traveling speed, the turning angle of the steering wheel, the depression amount of the brake pedal, and the like. In other words, when the driving speed is high, turning a curve, or stepping on a brake, the driver needs more concentration than usual, so there is no false reaction in voice recognition. This is very important. Therefore, the teacher
図11は、各実施例における音声・非音声自動判定部(図7、8、10の314、414、614)の動作の例を表わしたフローチャートである。ここでは線形判別分析を用いる場合の例を示す。まず、音データを取得(702)した後に、これをもとに特徴量を計算する(704)。ここで用いる特徴量としては、平均パワー、ケプストラム、基本周波数、事前に学習した音声モデルや非音声モデルとの類似度、音声認識を適用してみた場合の認識結果信頼度などが含まれる。ただし、音声らしさを表現しうるこの他の特徴量を用いるとしても、本発明の構成はそのまま活用可能である。次に、これらの特徴量を正規化した後に(706)、あらかじめ学習しておいた線形判別係数との内積を求める(708)。こうして得られた値が、あらかじめ学習しておいた閾値よりも大きければ音声、小さければ非音声と判定する(710、712、714)。なお、ここでは線形判別分析を用いる例を説明したが、それ以外の分類手法(たとえばサポートベクトルマシンなど)を用いるとしても、本発明の構成はそのまま活用可能である。これらの分類手法の適用については、当該分野に携わる開発者であれば容易に実現可能であるので、ここでは詳述しない。 FIG. 11 is a flowchart showing an example of the operation of the voice / non-voice automatic determination unit (314, 414, 614 in FIGS. 7, 8, and 10) in each embodiment. Here, an example of using linear discriminant analysis is shown. First, after obtaining sound data (702), a feature value is calculated based on the sound data (704). The feature quantities used here include average power, cepstrum, fundamental frequency, similarity to previously learned speech models and non-speech models, recognition result reliability when speech recognition is applied, and the like. However, the configuration of the present invention can be used as it is even if other feature quantities capable of expressing the voice quality are used. Next, after normalizing these feature quantities (706), an inner product with a linear discriminant coefficient learned in advance is obtained (708). If the value obtained in this way is larger than the threshold learned in advance, it is determined that the sound is speech, and if it is smaller, it is determined that the speech is not speech (710, 712, 714). Although an example using linear discriminant analysis has been described here, the configuration of the present invention can be used as it is even if other classification methods (for example, a support vector machine or the like) are used. The application of these classification methods can be easily realized by a developer engaged in the relevant field, and therefore will not be described in detail here.
図12は、各実施例における判定パラメータ学習部(図7、8、10の322、422,622)の動作の例を表わしたフローチャートである。ここでも線形判別分析を用いる場合の例を示している。まず、学習データすべてを取得した後に(802)、それらに対する特徴量を求め正規化する(804)。こうして得られた特徴量データをベクトル化した後、全体に対する共分散行列および音声データの群内平均、非音声データの群内平均を求める(806)。次に、共分散行列の逆行列を求めた後(808)、得られた逆行列を群内平均の差に掛ける(810)。これにより線形判別係数が求められ、それを保存する(812)。なお、線形判別係数全体に定数をかけても性能は不変であるので、音声データに線形判別係数をかけた場合と非音声データに線形判別係数をかけた場合を比較し、前者が小さくなる場合には、線形判別係数全体に-1をかけて符号を反転させておくと便利である。次に最適な閾値を求める(814)必要があるが、これについては判定精度推定部で詳しく述べるため、ここでは説明を割愛する。 FIG. 12 is a flowchart showing an example of the operation of the determination parameter learning unit (322, 422, 622 in FIGS. 7, 8 and 10) in each embodiment. Again, an example of using linear discriminant analysis is shown. First, after all the learning data has been acquired (802), the feature values for them are obtained and normalized (804). After the feature quantity data thus obtained is vectorized, a covariance matrix and an intra-group average of speech data and an intra-group average of non-speech data are obtained for the whole (806). Next, after obtaining an inverse matrix of the covariance matrix (808), the obtained inverse matrix is multiplied by the difference of the intragroup average (810). As a result, a linear discrimination coefficient is obtained and stored (812). Note that the performance does not change even if a constant is applied to the entire linear discriminant coefficient, so the former is smaller when the linear discriminant coefficient is applied to speech data than when the linear discriminant coefficient is applied to non-speech data. It is convenient to reverse the sign by multiplying the whole linear discrimination coefficient by -1. Next, it is necessary to obtain an optimum threshold value (814), but since this will be described in detail in the determination accuracy estimation unit, description thereof is omitted here.
図13は、各実施例における判定精度推定部(図7、8、10の324、424、624)の動作の例を表わしたフローチャートである。図12の場合と同様に全学習データに対する正規化特徴ベクトルを得た後(902)、線形判別係数をかけて線形判別スコアを求める(904)。次に、閾値Cの候補値の最小値CminをCにセットする(906)。ここでは、例えば非音声データ全体に対する線形判別スコアの平均値などを用いると良い。次に、閾値の候補Cを用いた場合の平均判別率Rを求める。ここで平均判別率とは、音声データを正しく音声と判定した率および非音声データを正しく非音声と判定した率の平均値である。なお、音声データに対する性能と非音声データに対する性能のいずれか片方をより重視する場合には、両者の重みつき平均を取れば性能を調整することが可能である。このような処理を、さまざまな候補値Cに対して繰り返し、Rが最大となる場合のCを最適閾値Cbestとする。また、最大値Rmaxを推定判定精度とする(908−918)。 FIG. 13 is a flowchart showing an example of the operation of the determination accuracy estimation unit (324, 424, 624 in FIGS. 7, 8, and 10) in each embodiment. Similar to the case of FIG. 12, after obtaining normalized feature vectors for all learning data (902), a linear discrimination coefficient is applied to obtain a linear discrimination score (904). Next, the minimum value Cmin of the threshold C candidate values is set to C (906). Here, for example, an average value of linear discrimination scores for the entire non-voice data may be used. Next, an average discrimination rate R when the threshold candidate C is used is obtained. Here, the average discrimination rate is an average value of a rate at which audio data is correctly determined as speech and a rate at which non-audio data is correctly determined as non-speech. In the case where one of the performance for audio data and the performance for non-audio data is more important, the performance can be adjusted by taking a weighted average of both. Such processing is repeated for various candidate values C, and C when R is maximum is set as the optimum threshold Cbest. In addition, the maximum value Rmax is set as the estimation determination accuracy (908-918).
以上詳述してきた本発明は、離れた場所からの操作を容易にする機能を持つテレビなど家電装置として利用可能である。また、いくつかの機器をまとめて制御するための汎用制御装置としても利用可能である。さらに、自動車用のカーナビゲーション装置としても利用可能である。 The present invention described above in detail can be used as a home appliance such as a television having a function of facilitating operation from a remote place. It can also be used as a general-purpose control device for controlling several devices collectively. Furthermore, it can be used as a car navigation device for automobiles.
102…マイクなどの音声入力装置
104…音声区間候補を検出する処理ブロック
106…動作モードが手動と自動のどちらかを判定する処理ブロック
108…ユーザが動作モードを手動もしくは自動に設定する処理ブロック
110…ユーザが音声認識の起動をスイッチなどで入力する処理ブロック
112…ユーザからの入力を検出するブロック
114…入力音データが音声か非音声かを自動的に判定するブロック
116…音声認識を実行するブロック
118…音声認識の結果に基づき機器の制御を実行するブロック
120…教師信号を蓄積するデータベース
122…教師信号を用いて判定パラメータを学習するブロック
124…学習により得られた判定パラメータを保持するデータベース
126…現在の判定パラメータによる判定の精度を推定するブロック
128…推定した判定精度をユーザに表示するブロック。
102 ...
Claims (20)
音声認識の起動方法を手動と自動とに切り替える切り換え部と、
音声認識のための入力音声の候補となる音データを検出する検出部と、
検出された前記音データが、音声認識の対象とすべきデータであるかどうかを自動判定する自動判定部と、
検出された前記音データが音声認識の対象とすべきデータであるかどうかが自明である場合にそれをデータベースに蓄積する教師信号検出部と、
前記データベースに蓄積されたデータをもとに前記自動判定部で用いる判定パラメータを学習する学習部とを備える、
ことを特徴とする音声認識による機器制御装置。 A device control apparatus for controlling a device by recognizing a user's voice by a voice recognition unit,
A switching section for switching the voice recognition activation method between manual and automatic;
A detection unit for detecting sound data that is a candidate for input speech for speech recognition;
An automatic determination unit that automatically determines whether the detected sound data is data to be subjected to speech recognition;
When it is obvious whether the detected sound data is data to be subjected to speech recognition, a teacher signal detection unit that accumulates it in a database;
A learning unit that learns determination parameters used in the automatic determination unit based on data stored in the database;
A device control apparatus based on voice recognition.
ことを特徴とする請求項1記載の音声認識による機器制御装置。 When the teacher signal detection unit manually activates speech recognition by the switching unit, the input sound data is stored in the database as data to be subjected to speech recognition.
The apparatus control apparatus by voice recognition according to claim 1.
ことを特徴とする請求項1記載の音声認識による機器制御装置。 The teacher signal detection unit stops the automatic speech recognition activation for a certain time after the user manually activates the speech recognition.
The apparatus control apparatus by voice recognition according to claim 1.
ことを特徴とする請求項1記載の音声認識による機器制御装置。 The teacher signal detection unit accumulates the detected sound data in the database as data that should not be subject to speech recognition for a certain period of time after the user manually activates speech recognition.
The apparatus control apparatus by voice recognition according to claim 1.
ことを特徴とする請求項1記載の音声認識による機器制御装置。 The teacher signal detection unit makes it difficult for automatic speech recognition to start during a certain time after the user manually starts speech recognition.
The apparatus control apparatus by voice recognition according to claim 1.
前記教師信号検出部は、前記人検知部により人がいないと検知された場合には、自動による音声認識の起動を停止させる、
ことを特徴とする請求項1記載の音声認識による機器制御装置。 It further has a human detection unit that detects whether there is a person around the device using information other than sound,
When the teacher signal detection unit detects that there is no person by the human detection unit, the automatic detection of voice recognition is stopped.
The apparatus control apparatus by voice recognition according to claim 1.
前記教師信号検出部は、前記人検知部により人がいないと検知された場合には、検出された前記音データを音声認識の対象とすべきでないデータとして前記データベースに蓄積する、
ことを特徴とする請求項1記載の音声認識による機器制御装置。 It further has a human detection unit that detects whether there is a person around the device using information other than sound,
The teacher signal detection unit, when it is detected by the human detection unit that there is no person, accumulates the detected sound data in the database as data that should not be subject to speech recognition.
The apparatus control apparatus by voice recognition according to claim 1.
ことを特徴とする請求項1記載の音声認識による機器制御装置。 The teacher signal detection unit changes the ease of activation of automatic speech recognition according to the degree of adverse reaction adverse effect that quantifies the adverse effect due to erroneous reaction of speech recognition according to the status of the device to be controlled,
The apparatus control apparatus by voice recognition according to claim 1.
ことを特徴とする請求項1記載の音声認識による機器制御装置。 A determination accuracy estimation unit that estimates determination accuracy based on the accumulated determination parameter;
The apparatus control apparatus by voice recognition according to claim 1.
ことを特徴とする請求項9記載の音声認識による機器制御装置。 An operation mode display unit that displays the determination accuracy calculated by the determination accuracy estimation unit;
10. The device control apparatus by voice recognition according to claim 9.
音声認識の起動方法を手動か自動に切り替える切り換え部と、
音声認識のための入力音声を処理する処理部と、
前記処理部の処理結果を記憶する記憶部とを備え、
前記処理部は、前記入力音声の候補となる音データを検出した際、前記起動方法が手動の場合、及び前記起動方法が自動であって、検出した前記音データが音声認識の対象とすべきデータであるかどうかを判定した結果、対象とすべきデータと判定された場合に、前記音データの音声認識を実行するよう制御し、
前記音データが音声認識の対象とすべきデータであるかどうかが明らかである場合は前記音データを前記記憶部に蓄積し、且つ前記記憶部に蓄積された前記音データに基づき前記判定で用いる判定パラメータを学習する、
ことを特徴とする音声認識による機器制御装置。 A device control device that recognizes a user's voice and controls the device,
A switching unit for switching the voice recognition activation method to manual or automatic, and
A processing unit for processing input speech for speech recognition;
A storage unit for storing the processing result of the processing unit,
When the processing unit detects sound data that is a candidate for the input speech, the activation method is manual, and the activation method is automatic, and the detected sound data should be subject to speech recognition. As a result of determining whether or not it is data, if it is determined that the data should be the target, control to perform voice recognition of the sound data,
When it is clear whether or not the sound data is data to be recognized, the sound data is stored in the storage unit and used in the determination based on the sound data stored in the storage unit. Learn judgment parameters,
A device control apparatus based on voice recognition.
ことを特徴とする請求項11記載の音声認識による機器制御装置。 When the processing unit manually activates speech recognition by the switching unit, the sound data is stored in the storage unit as data to be subjected to speech recognition.
The apparatus control apparatus by voice recognition according to claim 11.
ことを特徴とする請求項12記載の音声認識による機器制御装置。 The processing unit accumulates the sound data in the storage unit as data that should not be subject to speech recognition for a certain period of time after the user manually activates speech recognition.
The apparatus control apparatus by voice recognition according to claim 12.
ことを特徴とする請求項11記載の音声認識による機器制御装置。 The processing unit stops the automatic speech recognition activation for a certain time after the user manually activates the speech recognition.
The apparatus control apparatus by voice recognition according to claim 11.
ことを特徴とする請求項11記載の音声認識による機器制御装置。 The processing unit performs control so that activation of automatic speech recognition is less likely to occur for a certain time after the user manually activates speech recognition.
The apparatus control apparatus by voice recognition according to claim 11.
前記処理部は、前記人検知部により人がいないと検知された場合には、自動による音声認識の起動を停止させる、
ことを特徴とする請求項11記載の音声認識による機器制御装置。 It further has a human detection unit that detects whether there is a person around the device using information other than sound,
When the processing unit detects that there is no person by the human detection unit, it stops the automatic speech recognition activation,
The apparatus control apparatus by voice recognition according to claim 11.
前記処理部は、前記人検知部により人がいないと検知された場合に、検出された前記音データを音声認識の対象とすべきでないデータとして前記記憶部に蓄積する、
ことを特徴とする請求項11記載の音声認識による機器制御装置。 It further has a human detection unit that detects whether there is a person around the device using information other than sound,
The processing unit accumulates the detected sound data in the storage unit as data that should not be subject to speech recognition when the human detection unit detects that no person is present,
The apparatus control apparatus by voice recognition according to claim 11.
ことを特徴とする請求項11記載の音声認識による機器制御装置。 The processing unit changes the ease of activation of automatic speech recognition according to the degree of adverse reaction adverse effect that quantifies the adverse effect due to erroneous reaction of speech recognition according to the status of the device to be controlled,
The apparatus control apparatus by voice recognition according to claim 11.
ことを特徴とする請求項11記載の音声認識による機器制御装置。 The processing unit accumulates the determination parameter in the storage unit, and estimates determination accuracy based on the accumulated determination parameter.
The apparatus control apparatus by voice recognition according to claim 11.
ことを特徴とする請求項19記載の音声認識による機器制御装置。 An operation mode display for displaying the estimated determination accuracy;
20. The device control apparatus by voice recognition according to claim 19.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008247948A JP4779000B2 (en) | 2008-09-26 | 2008-09-26 | Device control device by voice recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008247948A JP4779000B2 (en) | 2008-09-26 | 2008-09-26 | Device control device by voice recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010078986A true JP2010078986A (en) | 2010-04-08 |
JP4779000B2 JP4779000B2 (en) | 2011-09-21 |
Family
ID=42209500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008247948A Expired - Fee Related JP4779000B2 (en) | 2008-09-26 | 2008-09-26 | Device control device by voice recognition |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4779000B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012252026A (en) * | 2011-05-31 | 2012-12-20 | Ntt Docomo Inc | Voice recognition device, voice recognition method, and voice recognition program |
WO2014068788A1 (en) * | 2012-11-05 | 2014-05-08 | 三菱電機株式会社 | Speech recognition device |
CN103886861A (en) * | 2012-12-20 | 2014-06-25 | 联想(北京)有限公司 | Method for controlling electronic equipment and electronic equipment |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001042894A (en) * | 1999-08-04 | 2001-02-16 | Toshiba Corp | Voice recognizing device and method thereof |
JP2001306086A (en) * | 2000-04-21 | 2001-11-02 | Mitsubishi Electric Corp | Device and method for deciding voice section |
JP2004184803A (en) * | 2002-12-05 | 2004-07-02 | Nissan Motor Co Ltd | Speech recognition device for vehicle |
JP2004272201A (en) * | 2002-09-27 | 2004-09-30 | Matsushita Electric Ind Co Ltd | Method and device for detecting speech end point |
JP2006058479A (en) * | 2004-08-18 | 2006-03-02 | Matsushita Electric Works Ltd | Controller with voice recognition function |
JP2008145989A (en) * | 2006-12-13 | 2008-06-26 | Fujitsu Ten Ltd | Speech recognizing system and speech discriminating method |
JP2008216618A (en) * | 2007-03-05 | 2008-09-18 | Fujitsu Ten Ltd | Speech discrimination device |
-
2008
- 2008-09-26 JP JP2008247948A patent/JP4779000B2/en not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001042894A (en) * | 1999-08-04 | 2001-02-16 | Toshiba Corp | Voice recognizing device and method thereof |
JP2001306086A (en) * | 2000-04-21 | 2001-11-02 | Mitsubishi Electric Corp | Device and method for deciding voice section |
JP2004272201A (en) * | 2002-09-27 | 2004-09-30 | Matsushita Electric Ind Co Ltd | Method and device for detecting speech end point |
JP2004184803A (en) * | 2002-12-05 | 2004-07-02 | Nissan Motor Co Ltd | Speech recognition device for vehicle |
JP2006058479A (en) * | 2004-08-18 | 2006-03-02 | Matsushita Electric Works Ltd | Controller with voice recognition function |
JP2008145989A (en) * | 2006-12-13 | 2008-06-26 | Fujitsu Ten Ltd | Speech recognizing system and speech discriminating method |
JP2008216618A (en) * | 2007-03-05 | 2008-09-18 | Fujitsu Ten Ltd | Speech discrimination device |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012252026A (en) * | 2011-05-31 | 2012-12-20 | Ntt Docomo Inc | Voice recognition device, voice recognition method, and voice recognition program |
WO2014068788A1 (en) * | 2012-11-05 | 2014-05-08 | 三菱電機株式会社 | Speech recognition device |
JP5677650B2 (en) * | 2012-11-05 | 2015-02-25 | 三菱電機株式会社 | Voice recognition device |
CN104756185A (en) * | 2012-11-05 | 2015-07-01 | 三菱电机株式会社 | Speech recognition device |
US9378737B2 (en) | 2012-11-05 | 2016-06-28 | Mitsubishi Electric Corporation | Voice recognition device |
CN103886861A (en) * | 2012-12-20 | 2014-06-25 | 联想(北京)有限公司 | Method for controlling electronic equipment and electronic equipment |
Also Published As
Publication number | Publication date |
---|---|
JP4779000B2 (en) | 2011-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5075664B2 (en) | Spoken dialogue apparatus and support method | |
US10643605B2 (en) | Automatic multi-performance evaluation system for hybrid speech recognition | |
CN101689366B (en) | Voice recognizing apparatus | |
US7822613B2 (en) | Vehicle-mounted control apparatus and program that causes computer to execute method of providing guidance on the operation of the vehicle-mounted control apparatus | |
US7617108B2 (en) | Vehicle mounted control apparatus | |
US20170256270A1 (en) | Voice Recognition Accuracy in High Noise Conditions | |
EP2806335A1 (en) | Vehicle human machine interface with gaze direction and voice recognition | |
JP6233650B2 (en) | Operation assistance device and operation assistance method | |
US20080215516A1 (en) | Systems and Methods for Predicting Consequences of Misinterpretation of User Commands in Automated Systems | |
US20160267909A1 (en) | Voice recognition device for vehicle | |
CN102023703A (en) | Combined lip reading and voice recognition multimodal interface system | |
JP2008233345A (en) | Interface device and interface processing method | |
CN111656437A (en) | Information processing apparatus, information processing method, program, and information processing system | |
JP4779000B2 (en) | Device control device by voice recognition | |
JP4817312B2 (en) | Robot emergency stop method and system using scream | |
CN115331670B (en) | Off-line voice remote controller for household appliances | |
KR102395760B1 (en) | Multi-channel voice trigger system and control method for voice recognition control of multiple devices | |
JP5157596B2 (en) | Voice recognition device | |
JP4938719B2 (en) | In-vehicle information system | |
CN110265018B (en) | Method for recognizing continuously-sent repeated command words | |
CN113807292A (en) | Control method, device, storage medium and system for vehicle back door | |
KR20140035164A (en) | Method operating of speech recognition system | |
CN110931003A (en) | Control interaction method and system for voice function | |
KR20210133600A (en) | Method and apparatus for speech recognition in vehicle | |
CN110888678A (en) | Music follow-up control method and system for vehicle-mounted equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110607 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110704 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4779000 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140708 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |