JP2008009120A

JP2008009120A - リモートコントローラ並びに家電機器

Info

Publication number: JP2008009120A
Application number: JP2006179261A
Authority: JP
Inventors: Hironobu Yano; 裕信矢野; Shoji Mochizuki; 昌二望月
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2006-06-29
Filing date: 2006-06-29
Publication date: 2008-01-17
Anticipated expiration: 2026-06-29
Also published as: JP4675840B2

Abstract

【課題】簡単な方法で背景ノイズやスパイクノイズなどのノイズが混入しても音声の開始時期を正確に検出してより正確な単語を選択できる省電力型のリモコン並びに家電機器を提供する。
【解決手段】ＭＰＵ５は、通常はスリープ状態を維持しながら定期的に音声入力の有無を監視し、ある一定区間のサンプリングされた音声入力の積算値を区間の前後で差分をとり、差分が予め設定された閾値を超えたときにのみ認識を開始するようにして音声区間の開始位置を正確に把握する。この際、雑音を避けるためＦＦＴを用いて人の音声領域の周波数帯のみの音声レベルの積算、閾値を超えるスパイクノイズの除去、あるいはＨＭＭを利用して過去のフレームから得られた音声特徴量の変遷に沿った補正処理を行うことで音声信号に混入したノイズを排除する。また、ユーザはボタンを利用して音声入力するときのみボタンを押し続けるようにし、リモコン１のＭＰＵ５はボタン押下信号がある時のみ音声認識する。
【選択図】図１

Description

この発明は、空調機などの家電機器を操作するリモートコントローラ並びに家電機器に関するものである。

家電機器はユニバーサルデザイン化を目指し、音声認識を用いるものが存在する。空調機などの場合、機器自体の距離が遠いため、リモコンで音声認識を行う技術が紹介開示されている。

例えば、ユーザーがボタン１個の動作と５種類の日常単語を発声するだけで、この後引き続き所定時間のみ音声認識を動作させ、対話方式で機器を動作させ、複数個の煩雑なキー操作を必要としない空気調和機が開示されている。（例えば、特許文献１参照）

また、送信機を用いず、手叩き・音声認識等による運転、停止、設定変更等の音響指示を受け付けた時、機器側にてその指示入力を実行する旨の予告表示を出力して指示者に伝え、予告表示内容に対する指示者からの認可を意味する音響指示を再度受け付けた場合にのみ動作・実行する空気調和機が開示されている。（例えば、特許文献２参照）

一方、上記音声認識の弊害要因の１つであるノイズに対しては、帯域通過フィルタ（ＢＰＦ：ＢａｎｄＰａｓｓＦｉｌｔｅｒ）などのフィルタを用いたり、定常雑音を音声データベースにも重畳させたりすることで音声認識の際の定常雑音の対策を行っている。

特開平０３−２５５８４７（図１、第３頁左上欄〜第４頁右上欄）特開平０４−２７８１４１（図２、段落００１６）

しかしながら、特許文献１に示される従来例のようにリモートコントローラ（以下、リモコンという）のボタンを押した後引き続き一定時間のみ単語認識する方式では、喋るタイミングを取るのが難しく、また、時間が限られているため、ユーザーは長い言葉は焦って早口になりがちであり、音声認識装置は追従できる速度と異なるため認識率が落ちるという問題があった。

また、特許文献２に示される従来例では、常に認識処理が動作しているため消費電力が大きく、また単語の始まりと終わりがどこなのか認識できないという問題があった。

そこで、これらの問題を解決する方法として、予め定めた閾値を超えた音量のみ単語として認識する方法が考えられるが、スパイクノイズ（相対的に短く大きい音のノイズ：瞬間音など）に弱く、ノイズが重畳した場合に大きく目的の単語から離れた特徴量が算出され音声認識部は違う単語を選択してしまうという問題が発生する。また、定常ノイズが大きい場合の対策として周囲音に対して閾値を上げる方法が考えられるが、全ての設備機器が同じ環境にあるとは限らず閾値の最適値を見出せない。また定常雑音と音声が同じ音量の場合には音声と雑音の識別が不可能なため認識を開始できないという課題が発生する。さらにノイズ対策を行う場合、定常音か音声かを判別する必要があり、誤って判別した場合には必ず誤作動を伴い、回避できないという課題があった。

本発明は上記の課題を解決するために為されたものであり、音声信号に背景ノイズやスパイクノイズなどのノイズが混入しても、自動的にあるいは簡単な方法で音声の開始時期を正確に検出してより正確な単語を選択できる省電力型のリモコン並びに家電機器を提供することを目的とする。

この発明に係るリモコンは、周期的な所定期間を示す区間毎にこの区間内の音声信号レベルの積算量を一つ前の区間のそれと比較し、差分が音声認識開始用の閾値を超えた区間から一連の複数区間の音声信号を出力する音響分析部と、音響分析部が出力した一連の複数区間の音声信号レベルを基に音声認識アルゴリズムを適用して前記複数区間の各区間毎に音声特徴ベクトルの抽出や他の補足計算を行う特徴量・補足計算部と、特徴量・補足計算部によって抽出された特徴ベクトルと予め保有するデータベースの語句とに基づいて音声認識を行う音声認識部と、音声認識部が認識した結果を操作指令として外部機器に送信する通信部とを備えたものである。

本発明によれば、リモコンは、音声の大きさの変化が所定値以上の音声が入力された時のみ音声認識を開始するので、簡便な方法で且つ正確に音声認識を実行することが可能である。

実施の形態１．
図１は、本発明の実施の形態１におけるリモコンのハードウェア構成を示す図であり、リモコン１は、図１に示すように、ユーザーの音声を音声信号の形で取り込む音声取込部２と、取り込んだ音声信号を増幅する増幅部３と、増幅された音声信号をＭＰＵ（Micro Processor Unit）が処理できるようにアナログ信号からディジタル信号に変換あるいは、ＭＰＵが出力したディジタル信号をアナログ信号である音声に変換するためのＡ／Ｄ・Ｄ／Ａコンバータ４と、各種演算および処理を実行するＭＰＵ５と、音声信号を音声として出力する音声出力部６と、処理中あるいは処理済みの各種データ類を記憶するＲＡＭ７と、ソフトウェア及び音声データベース８を記憶するＲＯＭ９と、エアコンに対して操作指令信号を赤外線により送信する通信部１０とから構成されている。また、Ａ／Ｄ・Ｄ／Ａコンバータ４、ＭＰＵ５、ＲＡＭ７、ＲＯＭ９及び通信部１０は共通のバスに接続されており、音声取込部２と音声出力部６は増幅部３を介してＡ／Ｄ・Ｄ／Ａコンバータ４に接続されている。なお、エアコン１１は通信部１２を標準で装備している。

また、図２は図１をＭＰＵ５の機能を複数の機能ブロックに分割して書き直した構成図であり、図中、図１と同符号は同一または相当部分を示す。また、音響分析部１３と特徴量・補足計算部１４と音声認識部１５の各機能は、それぞれに対応する専用ソフトウェアをＭＰＵ５が実行することで実現される。なお、これらのソフトウェアはＲＯＭ９に格納されており、必要時にＲＡＭ７に読み出された上でＭＰＵ５によって実行されるものである。
また、図９に示すように、リモコン１にはボタン１６とＯＮを示すＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）１７とＯＦＦを示すＬＥＤが搭載されている。

次に、実施の形態１の動作を説明する。例えば、電車の中では携帯電話の声が室内での声よりも大きくなるように、人間は通常より大きな雑音がある環境下ではより大きな音声で話すため、取り込んだ音響成分の前後区間では必ず差分が発生する。そこで、リモコン１のＭＰＵ５は、定期的に音声入力があるか否かを監視し、それ以外はスリープ状態に戻るだけの省電力モードを維持し、音声の大きさの変化が或る一定以上の音声が入力された時のみ音声認識を開始する。音声認識の際に、音響分析部１３はまず、図３（ａ）に示すように周期的な一定期間を示す区間毎にこの区間内の音声を周期的に取り込み解析する。図３（ａ）の例では先ずＡ区間の音声を取り込み解析し、次にＢ区間の音声を取り込み解析し、次にＣ区間の音声を取り込み解析する。なお、この場合の一定区間（以後、単に区間という）とは、一般的な音声区間（２０〜４０ｍ秒）あるいは、これの整数倍長さの時間をいう。解析の際には、上記一定区間内の音声信号の振幅値または電力値（以下、音声レベルという）を１１ｋHz（約１００μ秒刻み）のサンプリングタイムで積算し、この積算量を一つ前の区間のそれと比較し、図３（ｂ）に示すように差分が音声認識開始用の閾値を超えた区間Ｃを音声認識開始区間とし、そこから一連の複数区間の音声信号を音声認識処理のために特徴量・補足計算部１４へ送る。

この場合、音響分析部１３は、予め音声認識開始の閾値と音声認識終了の閾値を設定しておき、図４（ａ）、（ｂ）に示すように、上記周期的な所定期間である区間における音声レベルの積算量を一つ前の区間のそれと比較し、差分が音声認識開始の閾値を超えた区間を音声開始区間とし、予め決定した基準に従って、単語発生開始時点を決定する。ここで、基準とは「音声開始用フラグを立てた区間の一つ前の区間も音声開始時点に含める」ということである。例えば、図４（ａ）に示すように差分前の音声レベルが大きくなった後の区間Ｃで終了しているのでこの区間Ｃを音声開始区間とする。また、差分発生後の区間Ｃの一つ前の区間Ｂにも単語の先頭が含まれている可能性もあるのでその区間Ｂやその区間内の音声波形の変曲点の現れる時点（１００μ秒刻みで音声レベルの差分の変化が最大の時間的位置）を単語発声開始時点とする。

また、音声終了区間も上記と同様の方法で検出可能である。音響分析部１３は、図５（ａ）、（ｂ）に示すように、上記区間における音声レベルの積算量を一つ前の区間のそれと比較し、差分が音声認識終了の閾値を超えた区間を音声終了区間とする。例えば、図５（ａ）に示すように差分前の音声レベルが小さくなる前の区間Ｅで終了しているが、差分発生後の次の区間Ｆにも単語の末尾が含まれている可能性もあるのでその区間Ｆやその区間内の音声波形の変曲点の位置を単語発声終了時点とし、単語発声開始から終了までの一連の音声区間の音声信号を特徴量・補足計算部１４に送る。特徴量・補足計算部１４は、音声認識アルゴリズムに応じて音声区間の特徴ベクトル抽出や他の補足計算を行い、得られた特徴ベクトルを音声認識部１５に送る。そして、音声認識部１５は特徴量・補足計算部１４から送られた特徴ベクトルと音声データベース８の語句とに基づいて認識処理を実行し、認識結果を指令として通信部１０を介して空調機１１などの家電機器に送りこの機器を操作する。

以上の通り、この実施の形態１によれば、前後の音声区間における音声レベル積算量同士の差分の値が閾値を超えた時を音声認識開始時点、音声認識終了時点とし、単語発声開始から終了までの一連の音声区間の音声信号を認識するので、音声入力区間が正確に検出でき、これにより音声認識の精度が高くなる。

実施の形態２．
実施の形態１では、時間領域での音声信号レベル積算量の差分により音声入力区間を検出したが、これに限らず、周波数領域で音声入力区間を検出することも選択可能である。この実施の形態２では、この周波数領域で音声入力区間を検出する方法について説明する。
音響分析部１３は、周期的に上記一定区間の音声を取り込み、取り込んだ音声を高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）により周波数成分に変換し、変換された周波数成分のうち、帯域通過フィルタ（ＢＰＦ：Band Pass Filter）や低域通過フィルタ（ＬＰＦ：Low Pass Filter）を用いて人間の音声周波数帯域（相対的に低域のホルマント領域）のみの周波数成分について各周波数成分のレベルを１つの区間に渡って約１００μ秒（１１ｋHz）単位で積算した積算量を１つ前の区間のそれと比較して差分を算出し、この差分をＦＦＴ逆変換したものと音声認識開始用の閾値とを比較する。そして、差分をＦＦＴ逆変換したものが音声認識開始用の閾値を超えた区間から一連の複数区間を特徴量・補足計算部１４に送る。特徴量・補足計算部１４は、音声認識アルゴリズムに応じて音声区間の特徴ベクトル抽出や他の補足計算を行い、得られた特徴ベクトルを音声認識部１５に送る。そして、音声認識部１５は特徴量・補足計算部１４から送られた特徴ベクトルと音声データベース８の語句とに基づいて認識処理を実行し、認識結果を操作指令として通信部１０を介して空調機１１などの家電機器に送りこの機器を操作する。

この方法では、人間の音声の周波数帯域（所定の値よりも低い周波数帯）のみについて前後の区間における周波数成分の積算量の比較を行えるのでより正確な音声入力区間を検知することが可能になる。

一連の複数区間における音声開始区間の検出方法について説明する。音響分析部１３は上記一定区間毎にＦＦＴにより音声信号を周波数成分に変換し、各周波数成分を１１ｋＨｚのサンプリングクロックで積算した積算量を一つ前の区間のそれと比較し、各周波数成分毎に差分を計算し、得られた周波数成分毎の差分をＦＦＴ逆変換したものが音声認識開始の閾値を超えた区間を音声開始区間とし、予め決定した基準に従って、単語発生開始時点を決定する。例えば、図４（ａ）に示すように差分前の音声レベルが大きくなった後の区間Ｃで終了しているのでこの区間Ｃを音声開始区間とする。また、差分発生後の区間Ｃの一つ前の区間Ｂにも単語の先頭が含まれている可能性もあるのでその区間Ｂやその区間内の音声波形の変曲点の現れる時点（１００μ秒刻みで音声レベルの差分の変化が最大の時間的位置）を単語発声開始時点とする。

また、一連の複数区間における音声終了区間も検出可能である。音声区間終了時にも同様の方法で、音響分析部１３は音声認識開始検知後もある一定区間ごとにＦＦＴにより周波数成分に変換し、周波数成分の積算量を時間領域の一つ前の区間のそれと比較し、各周波数成分毎に差分を計算し、得られた周波数成分毎の差分をＦＦＴ逆変換したものが音声認識終了の閾値を超えた区間を音声終了区間とし、予め決定した基準に従って、単語発生終了時点を決定する。例えば、図５（ａ）に示すように差分前の音声レベルが小さくなる前の区間Ｅで終了しているが、差分発生後の次の区間Ｆにも単語の末尾が含まれている可能性もあるのでその区間Ｆやその区間内のある部分などを単語発声終了とし、単語発声開始から終了までの一連の音声区間の音声信号を特徴量・補足計算部１４に送る。特徴量・補足計算部１４は、音声認識アルゴリズムに応じて音声区間の特徴ベクトル抽出や他の補足計算を行い、特徴ベクトルを音声認識部１５に送る。そして、音声認識部１５は特徴量・補足計算部１４から送られた特徴ベクトルに対して音声データベース８の語句を適用して認識し、その結果を基に機器を操作する。

また、本実施の形態２のように周波数領域で音声区間を検出する方法では、ＬＰＦやＢＰＦなどのフィルタを用いて、人間の音声周波数帯のみに絞り、この人間の音声周波数帯内で各周波数成分のレベルを時間領域で各区間毎に積算した値を比較するので、定常ノイズなど人体以外の音（ノイズ）に対して強く、また、単語発生区間に含まれる無音にも強い。前記音響分析部１３は変化があった周波数帯域の周波数成分のみ、またはその周波数帯の周波数成分の重みを重くしてこれらの周波数成分を再構成し、これらの周波数成分をＦＦＴ逆変換した結果を音声信号として出力し、この音声信号を基に音声認識を行うためノイズの影響はより少なくなる。また、予め特徴量算出に用いる信号レベルの範囲（上限値あるいは下限値あるいはその両方）を決め、その範囲以外の信号レベルを持つ信号を特徴量算出の対象から排除してもよい。例えば、図６（ｂ）に示すように音声周波数帯に信号レベルが予め設定した上限値を超える周波数成分（スパイクノイズ）が重畳した場合には、このスパイクノイズは特徴量算出に使用しないので、このノイズによる影響を受けないで済む。

なお、上記の例では周波数分の信号レベルが上限値を超える周波数成分（スパイクノイズ）が重畳した場合には特徴量算出に使用しないようにしたが、これに限らず、周波数分の信号レベルが上限値を超える周波数成分（スパイクノイズ）の信号レベルの重みを軽くするようにしても良い。また、上限値を超える周波数成分（スパイクノイズ）の代わりに隣接する周波数成分のレベルの平均値を計算して、その値に強制的に置き換えてもよい。いずれの場合も上記と同様の効果を奏する。

また、音声認識部１５のアルゴリズムは、ＤＰマッチングや隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）などがあるが、認識エンジンに合わせて音声取得と音声認識を並列処理できる場合には、音声認識開始を検出したら単語発生区間の終了を待たずに並列処理にて順次処理する。また、同一のＭＰＵ５で処理を行う場合、タスク処理などを用いて並列処理を行う。これにより、処理の高速化を図ることができる。

さらに、上記ＨＭＭに基づき過去のフレームから得られた音声特徴量の変遷に沿った補正処理を行うことで、雑音の突発的な変化による影響を抑えることができる。
また、事前に登録した複数区間の音声レベルや定期的（周期的）に取り込んだ音声区間における音声レベルの解析結果を基に、音声認識の対象とするべき周波数帯や差分による音声区間検出の閾値を決定する事も可能である。この場合、雑音が多く、音声の差分が小さくなる場合でも対応可能である。音響分析部１３は、差分がある一定範囲内で推移している時に定期的に取り込んだ音が定常雑音やスパイクノイズなどのノイズなのか音声なのかを上記の閾値を用いて判断する。これにより閾値を決定する要因である音声とノイズを判断でき、誤判定なく自動学習により閾値を変化させる事も可能である。この判定でも遠くの人間の声が混じっていたりして完全ではないので、判定は複数回繰り返した結果と比較し、ノイズのデータベースと比較したり、複数回の音量レベルを基に例えば平均値を計算したりして定常雑音の大きさを判断したりするので、たとえ瞬時的に誤判定が起こり閾値が変化しても正常に収束可能である。

図７はこの実施の形態１及び２におけるリモコン１のＭＰＵ５の音声認識の処理を示すフローチャートである。次に、ＭＰＵ５の音声認識の動作について図７を用いて説明する。ＭＰＵ５は、ステップＳ１にてマイクなどの音声取込部２から増幅器及びＡ／Ｄ変換コントローラを介して音声取込を行う。次に、ステップＳ２において音響分析を行い、その結果をステップＳ４にてＲＡＭに保存する。ステップＳ２の音響分析は具体的には周期的（所定期間）に取り込んだ音声を１１ｋＨｚのサンプリングクロックで各区間毎に積算する。ＦＦＴを使用する方法では、各音声帯周波数成分の音声レベル（音声信号の振幅または電力）を積算する。または、複数区間の音声周波数帯の音声レベルを積算する。ステップＳ３において一つ前の周期がない場合はもう一周期取り込む、一つ前の周囲が存在する場合にはステップＳ５に進む。ステップＳ５では、一つ前の周期で同様に算出された積算値との差分を算出し、図４のように音声開始の閾値以上の差分がある場合は音声開始とみなし、その区間を音声開始区間とする。さらに、差分が音声区間終了の閾値よりも低い場合にはステップＳ１〜Ｓ５を繰り返し実行して同様に音声を区間ごとに差分をとる動作を継続する。

そして、差分が図５のように音声区間終了の閾値以上の差分がある場合はその区間を音声終了区間とする。ステップＳ６にて音声終了区間を検出後、音声認識を開始する。ステップＳ７にて、音声認識アルゴリズムの種類に応じて音声区間の特徴量や他の補足計算を行う。例えば音声認識にＨＭＭを用いる場合では入力音声からメルスペクトラム分析により音響特徴量としてメルケプストラム、このメルケプストラムの動的特徴量（メルケプストラムの時間領域での変化量）、ｌｏｇパワーの動的特徴量などの特徴ベクトルを抽出する。次に、ステップＳ８にてこの特徴ベクトルに対してＨＭＭによる認識を行う。この場合、認識したい対象を一つのＨＭＭとして表現し、そのＨＭＭが、実際に取得された音声の特徴ベクトル列を生成する確率を計算し、最も高い確率で出力するＨＭＭを認識結果とする。その結果をステップＳ９にてリモコン１が保持する音声出力部６に出力する。認識結果の確認がない場合は、そのまま通信部１０を介して、エアコン１１などの家電機器に操作信号を送る。

上記に説明したように、音響分析部１３は、まず、図３のように或る一定区間の音声を周期的に取り込み解析する。具体的には、音響分析部１３は、或る一定区間の音声レベルの積算量またはＦＦＴにより変換した周波数成分を時間領域における一つ前の区間のそれと比較し、差分または各周波数成分の差分をＦＦＴ逆変換により変換した積算量が音声認識開始の閾値を超えた区間から一連の音声区間の音声信号を特徴量・補足計算部１４に送る。特徴量・補足計算部１４は、音声認識アルゴリズムに応じて音声区間の特徴ベクトル抽出や他の補足計算を行い、特徴ベクトルを音声認識部１５に送る。そして、音声認識部１５は特徴量・補足計算部１４から送られた特徴ベクトルに対して音声データベース８の語句を適用して認識し、その結果を基に機器を操作する。
これにより、環境に合わせて音量、周波数の少なくとも一方を使用することで、より精度の高い単語発生検知を行うことができる。そして少なくとも一方が閾値を超えた場合に音声認識を開始する（どちらも閾値を超えないと音声認識を開始しない）ようにしておけば、予め決められた数値などで判断した場合と異なり、個人差を補いきれず、認識を開始しない（勝手に認識を開始する）といった問題を低減することが可能である。

なお、以上の例では、各区間毎に当該区間内の音声信号からＦＦＴにより得られた各周波数成分のレベルの積算量を一つ前の区間のそれと比較して差分を算出し、この差分が閾値を超えた区間を音声入力開始区間または音声入力終了区間であると判断したが、これに限らず、複数区間毎に当該複数区間（以下、周期という）内の音声信号からＦＦＴにより得られた各周波数成分のレベルの積算量を一つ前の周期のそれと比較して差分を算出し、これを閾値と比較するようにしてもよい。これにより、大まかな開始周期が分かるので、この周期毎に調べる方法と上記の区間毎に調べる方法とを組み合わせることで、精度を損なわず、より効率的に音声入力区間を検出することができる。

以上のように、この実施の形態２によれば、人間の音声の周波数帯域（所定の値よりも低い周波数帯）のみについて前後の区間における音声レベルの積算量の比較を行い、それ以外の定常ノイズを排除し、また、スパイクノイズのような瞬時的な所定値よりも大きなノイズも低減するので、より正確な音声入力区間を検知することが可能になり、これにより音声認識の精度がさらに高くなる。

実施の形態３．
実施の形態１及び実施の形態２では音声レベルの積算量の差分に基づいて音声入力開始時点を特定したが、より簡単な方法として図９に示すボタン１６をユーザーが押下操作することで音声入力開始時点をリモコンに通知させるようにしてもよい。この実施の形態３では、このような実施の形態について説明する。
ユーザーが図９のボタン１６を押した時にボタン１６は押下信号を発生する。ＭＰＵ５はボタン１６からの押下信号を図示しない入出力部を介して受信すると、音声認識を開始する。そして、ユーザーがボタンを押し続けている間はボタン１６から押下信号が継続して発生するので、ＭＰＵ５はこの押下信号を受信している間はユーザーの音声を音声取り込み部２に取り込ませ、音声認識を行う。従って、ユーザーはボタンを押し続けている間自由に話すことができるので焦って話す必要はない。

図８はこの実施の形態３におけるリモコン１のＭＰＵ５の音声認識の処理を示すフローチャートである。次に、ＭＰＵ５の音声認識の動作を図８を用いて説明する。
ＭＰＵ５は、ステップＳ８１において、ボタン付きか否かを調べ、ボタン付きである場合には、ボタンが押されるまでＳ８２を繰り返し実行して待つ。ステップＳ８２においてＭＰＵ５はユーザーによるボタンの押下信号を検出すると、音声取り込みを開始する（ステップＳ１）。ステップＳ１〜Ｓ９の動作は図７と同じなので説明を省略する。ステップＳ８３において、ＭＰＵ５はボタンが押下されなくなったか否かを調べ、まだ押されていればステップＳ１に戻り、Ｓ１〜Ｓ９の音声認識処理を再開する。ステップＳ８３において、ボタンが押されなくなったことを検出したら、音声認識処理を終了する。また、Ｓ８１において、ボタンがない場合のＳ１〜Ｓ９の動作は図７と同じなので説明を省略する。

以上のように本実施の形態３によれば、ユーザーはボタンを押している間自由に話すことができるので焦って話す必要はない。また、リモートコントローラは信号を受信した後に、ＬＥＤなどの表示装置や音声応答などで認識結果をユーザーに伝え、ボタンを用いて音声認識により実行およびキャンセル処理を行うことができ、結果を選択できる。さらにその結果を学習でき、音声認識データベースに反映できるのでより正確な認識を行うことができる。

音声認識の認識率がおちる場合には音声認識完了後、受け付けた内容をＬＥＤで表示したり、音声で伝えたりユーザーに受け付けた内容を表示する機能を選択できる。ユーザーはその内容で良ければボタンを押すなど設定したアクションを行い、実行・中止を選択できる。例えばコントローラのインターフェースとしては音声取得部分のマイク３、ボタン１つ、ＬＥＤ２つのコントローラでは音声認識後、認識した内容をＬＥＤに点灯して表示する。そしてユーザーは決定ならボタンを一回押して決定する。ＬＥＤは処理を実行する際にＬＥＤを点滅させる。キャンセルならＬＥＤが消灯するまでボタンを押し続ける。という様に小部品で色々な操作が可能になる。

なお、マイク、音声出力機器、ボタンなどは他の機器で代用することが可能である。例えば、リモコンにマイクのみを装着し、音声を入力したらネットワークを通じてパソコンやＨＤＤ−ＤＶＤレコーダーなどに転送し、音声認識処理を代わって行わせる。つまり、音声認識の機能をパソコンなどの高速なマイコンに代わって処理してもらい、認識結果を受け取ることによりリモコン自体は低能力のマイコンで実現できる。また、認識結果の確認を行わせる場合、テレビや冷蔵庫ＬＥＤなど他の機器で表示させる事も可能である。もちろん、機器の情報をリモコンで表示し、機器の衣装デザインの自由度を高める事もできる。他の機器と連動させる場合、それぞれの機器に専用のＳ／Ｗをインストールしておくか、各機器のＯＳの他に仮想システムを共通で立ち上げておき、割り込みで割り込ませるなどする。個々のインターフェースなどを複数の機器に行わせるのではなく、Ｓ／Ｗをサーバなどから提供し、携帯電話など１つの機器で完全に全ての機能をコントロールさせることができる。

本発明のリモートコントローラは複数の機器で操作する場合や違う機器のリモコンとして利用する場合にＩｒＤＡなどのネットワーク経由やＵＳＢ、ＳＤカード（商標）などを用いてＳ／Ｗや音声認識などのデータベースを書き換えたり、Ｈ／Ｗにより付け替えたりすることで対応可能である。例えば無線通信方法を変更する場合、ＣＦタイプ（商標）の特定省電力無線の無線カードをＺｉｇＢｅｅの無線カードに付け替えるだけで違う無線方式の機器を操作できる。またｍｉｎｉＳＤカード（商標）などのＩＤコードやコマンドが入ったカードを入れ替えるだけで違う機器や後継機種を操作可能になる。パソコンや携帯電話でｍｉｎｉＳＤカードにデータを入れてリモートコントローラに差し込むだけで最新のデータや機器が操作可能になる。これらの記憶装置を使って操作する機器情報を記録できる。例えば、エアコンなどでは故障や定期メンテナンスなどを行うが、無線タグとそのリーダ・ライターをリモコンに具備しておき、機器の運転状況やライフサイクルを確認する為の無線タグなどの記憶媒体を利用する場合、音声操作などによって音声認識での操作結果をリモコンのリーダ・ライターにて無線タグに書き込ませる事ができる。

双方向通信可能な場合は電流値、故障情報、サーミスタ温度などの情報を受けて書き込むことができる。サービスマンはエアコンに接続して情報を抜き出すのではなく、リモコン位置で作業が可能になり、より作業難度の敷居が下がる。またユーザーは故障した場合に無線タグやｍｉｎｉＳＤカードなどのメディアを送っても良いし、そこから取り出した情報をメールでサービスセンターに送信してもよい。これによりサービスマンは故障状態をより把握でき、修理時に持っていくサービス部品も限定できる。環境情報、運転状況により起こる不具合解析もサーミスタ検出温度などの情報もあれば容易になる。他の家電機器からの湿度情報などと複合的に判断可能である。またそれらの情報を自動的にリモコンの記憶媒体に書き込むことも可能である。勿論、リモコン自体のＦｌａｓｈメモリーに書き込む事も可能である。

また、押している間のみ音声を検出するモードもある。音声区間が一定では自由な発音ができない。押している間のみの音声入力であれば自分のタイミングで話す事ができ、ボタンを押した後に慌ててしゃべる必要もなく、通常会話と同じ感覚で使用することが可能になる。リモートコントローラの放置状態が悪く、ボタンが入力状態になり続けいても図２のように差分のみを定期的に計測するので音声認識処理を行わないので消費電力を抑えられる。また、ある一定時間以上ボタンが押し続けられるとボタンが一度ＯＦＦするまで異常と判断しスリープモードに入ることも可能である。

また、音声認識精度が低い場合、音声により再度決定の意の発声をさせたり、認識結果を確認させたりするが結果的に受理できなかったりする。本発明のリモートコントローラでは、音声により階層の深い操作を選択し、ボタン操作１つで実行または中止を行う。例えば図９のリモコン１では、ボタンを押している間、音声認識を行い結果をＬＥＤで表示する。ＯＮなら左のＬＥＤ１７点灯で表示される。決定の場合はボタン１６を一回押すと左のＬＥＤ１７が点灯状態になるので決定を受け付けたことを示す。中止の場合はボタン１６を押し続けると左右のＬＥＤ１７、１８が交互に点滅したら中止を受け付けたのでボタン１６を放す。温度ＵＰなら左のＬＥＤ１７が点滅する、と言うような素子数の少ない構成でリモコンを制作可能である。双方向通信で音声認識処理を他の機器に行わせる場合、音声を転送し、結果だけを受け取りＬＥＤで表示することも可能でありより構成部品の少ない構成になる。

なお、ボタン１６が静電センサでも実現可能であり、手に取るだけで音声認識が開始されるのでボタンを意識する必要はない。この場合、音声で依頼した処理の音声認識結果を確認し、誤認識で処理を中止する場合、上述したように同じくリモコンを握り続け（ボタンを押し続け）ることも可能であり、指をスライドさせると中止するなど様々な対応が可能である。静電センサではボタンが必要なく、基板パターンで実現できるのでコストも抑えられる。使い勝手向上のためにボタン部分に凹凸をつけたり入力時に音を出力したり、誤動作防止のために同時にボタンが押された場合は反応しない、また手にとって音声認識後、もう１つ押さないと実行させないなどの方法が選択できる。

また、指紋センサを設けて個人識別を行い、音声認識のアルゴリズムやデータベースを変更することにより、より認識精度があがる。前述したように他の機器に機能を移行できるので指紋センサとマイクのデータを転送したり、他の機器からの個人識別情報を用い、音声認識のアルゴリズムやデータベースを変更することも可能である。個人識別を取得する方法としては、家電機器、例としてパソコンや携帯電話などの指紋センサ、ホームセキュリティのＩＤチェックの情報やカメラの画像認識結果、他の製品につけられた無線タグのリーダ・ライターなどを利用して行うことが可能である。

本発明のリモートコントローラから以上の機能を携帯電話にＳ／Ｗをダウンロードし使用できる。また機器本体に組込んだり、それぞれの機能を分散して処理したり、他の機器からの情報を積極的に利用したりできる。また、応用の一例として、エアコンのリモコンを例に取ると、パソコンの指紋認証の情報を得て個人を識別し、認識率を上げ、認識結果を個人の状態に合わせて制御する。「暑い」の発声で暑がりの人は室温を下げると同時に気流制御で風を当てるなどして快適な生活環境を実現できる。

本発明のリモコンは家電製品に内蔵することもでき、家電製品が近くにある場合やマイクの感度が良好で音声認識モジュールの精度が高い場合は有効である。

また、本リモコンは音声認識だったが、画像認識でも同様にCMOSやCCDなどの画像センサを用いてゼスチャーや指の動き、顔認識による環境設定を行い快適な生活環境を実現できる。

本発明の実施の形態１におけるリモコンのハードウェア構成を示す図である。図１をＭＰＵの機能を複数の機能ブロックに分割して書き直した構成図である。音声区間検出方法を示す図である。音声区間検出方法を示す図である。音声区間検出方法を示す図である。音声区間検出方法を示す図である。本発明の実施の形態１、２におけるリモコンの音声認識フローチャートである。本発明の実施の形態３におけるリモコンの音声認識フローチャートである。本発明を利用したエアコンコントローラの一例を示す図である。

符号の説明

１リモコン、２音声取込部、３増幅器、４Ａ／Ｄ・Ｄ／Ａコンバータ、５ＭＰＵ、６音声出力部、７ＲＡＭ、８音声データベース、９ＲＯＭ、１０通信部、１１エアコン、１２通信部、１３音響分析部、１４特徴量・補足計算部、１５音声認識部、１６ボタン、１７ＬＥＤ、１８ＬＥＤ。

Claims

周期的な所定期間を示す区間毎にこの区間内の音声信号レベルの積算量を一つ前の区間のそれと比較し、差分が音声認識開始用の閾値を超えた区間から次に前記差分が音声認識終了用の閾値を超えた区間までの一連の複数区間の音声信号を出力する音響分析部と、
この音響分析部が出力した一連の複数区間の音声信号レベルを基に音声認識アルゴリズムを適用して前記複数区間の各区間毎に音声特徴ベクトルの抽出や他の補足計算を行う特徴量・補足計算部と、
この特徴量・補足計算部によって抽出された特徴ベクトルと予め保有するデータベースの語句とに基づいて音声認識を行う音声認識部と、
この音声認識部が認識した結果を操作指令として外部機器に送信する通信部とを備えたことを特徴とするリモートコントローラ。
周期的な所定期間を示す区間毎にこの区間内の音声を取り込み、ＦＦＴにより周波数成分に変換し、所定の周波数帯における各周波数成分のレベルの積算量を一つ前の区間のそれと比較して差分を算出し、この差分をＦＦＴ逆変換した結果が音声認識開始用の閾値を超えた区間から次に前記差分が音声認識終了用の閾値を超えた区間までの一連の複数区間の音声信号を出力する音響分析部と、
この音響分析部が出力した一連の複数区間の音声信号レベルを基に音声認識アルゴリズムを適用して前記複数区間の各区間毎に音声特徴ベクトルの抽出や他の補足計算を行う特徴量・補足計算部と、
この特徴量・補足計算部によって抽出された特徴ベクトルと予め保有するデータベースの語句とに基づいて音声認識を行う音声認識部と、
この音声認識部が認識した結果を操作指令として外部機器に送信する通信部とを備えたことを特徴とするリモートコントローラ。
前記音響分析部は、前記差分が前記音声認識開始用の閾値を超えた区間を音声開始区間とし、所定の基準により少なくとも前記音声認識開始用の閾値を超えた区間の前後の区間を単語発声開始時点とし、前記差分が前記音声認識終了用の閾値を超えた区間を音声終了区間とし、所定の基準により少なくとも前記音声認識終了用の閾値を超えた区間の前後の区間を単語発声終了時点とすることを特徴とした請求項１記載のリモートコントローラ。
前記音響分析部は、区間毎でなく複数区間（以下、周期という）毎にこの周期内の音声を取り込み、周波数成分に変換し、所定の周波数帯における各周波数成分のレベルの積算量を一つ前の周期のそれと比較して差分を算出し、この差分をＦＦＴ逆変換した結果が音声認識開始用の閾値を超えた区間から一連の複数区間の音声信号を出力することを特徴とする請求項２記載のリモートコントローラ。
前記音響分析部は、音声入力区間を検出後、別の閾値を超える差分が存在した周波数帯域だけについて前記音声入力区間内の各区間毎の周波数成分をＦＦＴ逆変換した結果を音声信号として出力することを特徴とする請求項２記載のリモートコントローラ。
前記音響分析部は、音声入力区間を検出後、変化があった周波数帯域の周波数成分の重み付けを重くしてこの周波数成分を再構成し、前記音声入力区間内の各区間毎の周波数成分をＦＦＴ逆変換した結果を音声信号として出力することを特徴とする請求項２記載のリモートコントローラ。
前記音響分析部は、音声帯域の周波数成分で予め定めた上限値よりも大きいレベルの周波数成分を除去することを特徴とした請求項２記載のリモートコントローラ。
前記音響分析部は、音声帯域の周波数成分で予め定めた上限値よりも大きいレベルの周波数成分の重みを軽くしたことを特徴とした請求項２記載のリモートコントローラ。
前記音響分析部は、音声帯域の周波数成分で予め定めた上限値よりも大きいレベルの周波数成分を、隣接する周波数の成分のレベルの平均値に置き換えたことを特徴とした請求項２記載のリモートコントローラ。
前記音声認識部は、音声入力開始区間検出後、音声認識部のアルゴリズムに合わせて、単語発生区間の終了を待たずに並列処理にて順次処理することを特徴とする請求項１〜９のいずれかに記載のリモートコントローラ。
前記音響分析部は、事前に登録した音声や定期的（周期的）に取り込んだ音声区間の解析結果を基に周波数帯、差分の閾値を決定し、この閾値を用いて入力した音声が定常雑音なのかスパイクノイズなのかを判断することを特徴とする請求項１記載のリモートコントローラ。
プロセッサと、音声取込部と、音声出力部と、ボタンと、表示部と通信部とを備え、
前記音声取込部は、前記ボタンから信号を受信すると外部から最初の音声を取り込み、
前記プロセッサは請求項１〜１１のいずれかに記載の音響分析部、特徴量・補足計算部及び音声認識部を実現し、前記音声取込部が取り込んだ前記最初の音声を認識し、認識した結果を外部のユーザーに伝えるべく音声出力部に出力し、前記ボタンあるいは前記音声取り込み部から許可の旨の信号あるいは許可の旨の音声を受信すると、音声認識し、前記最初の音声を認識した結果を操作指令として前記通信部を介して外部の機器に送信することを特徴とするリモートコントローラ。
データベースを備え、
前記プロセッサは前記最初の音声を認識した結果を学習し前記データベースに反映することを特徴とする請求項１２記載のリモートコントローラ。
通信部を備え、
請求項１〜１３のいずれかに記載のリモートコントローラから前記通信部を介して操作指令を受信してこの操作指令に基づいて動作することを特徴とする家電機器。