JP2008009120A - リモートコントローラ並びに家電機器 - Google Patents

リモートコントローラ並びに家電機器 Download PDF

Info

Publication number
JP2008009120A
JP2008009120A JP2006179261A JP2006179261A JP2008009120A JP 2008009120 A JP2008009120 A JP 2008009120A JP 2006179261 A JP2006179261 A JP 2006179261A JP 2006179261 A JP2006179261 A JP 2006179261A JP 2008009120 A JP2008009120 A JP 2008009120A
Authority
JP
Japan
Prior art keywords
voice
section
unit
recognition
remote controller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006179261A
Other languages
English (en)
Other versions
JP4675840B2 (ja
Inventor
Hironobu Yano
裕信 矢野
Shoji Mochizuki
昌二 望月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2006179261A priority Critical patent/JP4675840B2/ja
Publication of JP2008009120A publication Critical patent/JP2008009120A/ja
Application granted granted Critical
Publication of JP4675840B2 publication Critical patent/JP4675840B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Selective Calling Equipment (AREA)

Abstract

【課題】簡単な方法で背景ノイズやスパイクノイズなどのノイズが混入しても音声の開始時期を正確に検出してより正確な単語を選択できる省電力型のリモコン並びに家電機器を提供する。
【解決手段】MPU5は、通常はスリープ状態を維持しながら定期的に音声入力の有無を監視し、ある一定区間のサンプリングされた音声入力の積算値を区間の前後で差分をとり、差分が予め設定された閾値を超えたときにのみ認識を開始するようにして音声区間の開始位置を正確に把握する。この際、雑音を避けるためFFTを用いて人の音声領域の周波数帯のみの音声レベルの積算、閾値を超えるスパイクノイズの除去、あるいはHMMを利用して過去のフレームから得られた音声特徴量の変遷に沿った補正処理を行うことで音声信号に混入したノイズを排除する。また、ユーザはボタンを利用して音声入力するときのみボタンを押し続けるようにし、リモコン1のMPU5はボタン押下信号がある時のみ音声認識する。
【選択図】図1

Description

この発明は、空調機などの家電機器を操作するリモートコントローラ並びに家電機器に関するものである。
家電機器はユニバーサルデザイン化を目指し、音声認識を用いるものが存在する。空調機などの場合、機器自体の距離が遠いため、リモコンで音声認識を行う技術が紹介開示されている。
例えば、ユーザーがボタン1個の動作と5種類の日常単語を発声するだけで、この後引き続き所定時間のみ音声認識を動作させ、対話方式で機器を動作させ、複数個の煩雑なキー操作を必要としない空気調和機が開示されている。(例えば、特許文献1参照)
また、送信機を用いず、手叩き・音声認識等による運転、停止、設定変更等の音響指示を受け付けた時、機器側にてその指示入力を実行する旨の予告表示を出力して指示者に伝え、予告表示内容に対する指示者からの認可を意味する音響指示を再度受け付けた場合にのみ動作・実行する空気調和機が開示されている。(例えば、特許文献2参照)
一方、上記音声認識の弊害要因の1つであるノイズに対しては、帯域通過フィルタ(BPF:Band Pass Filter)などのフィルタを用いたり、定常雑音を音声データベースにも重畳させたりすることで音声認識の際の定常雑音の対策を行っている。
特開平03−255847(図1、第3頁左上欄〜第4頁右上欄) 特開平04−278141(図2、段落0016)
しかしながら、特許文献1に示される従来例のようにリモートコントローラ(以下、リモコンという)のボタンを押した後引き続き一定時間のみ単語認識する方式では、喋るタイミングを取るのが難しく、また、時間が限られているため、ユーザーは長い言葉は焦って早口になりがちであり、音声認識装置は追従できる速度と異なるため認識率が落ちるという問題があった。
また、特許文献2に示される従来例では、常に認識処理が動作しているため消費電力が大きく、また単語の始まりと終わりがどこなのか認識できないという問題があった。
そこで、これらの問題を解決する方法として、予め定めた閾値を超えた音量のみ単語として認識する方法が考えられるが、スパイクノイズ(相対的に短く大きい音のノイズ:瞬間音など)に弱く、ノイズが重畳した場合に大きく目的の単語から離れた特徴量が算出され音声認識部は違う単語を選択してしまうという問題が発生する。また、定常ノイズが大きい場合の対策として周囲音に対して閾値を上げる方法が考えられるが、全ての設備機器が同じ環境にあるとは限らず閾値の最適値を見出せない。また定常雑音と音声が同じ音量の場合には音声と雑音の識別が不可能なため認識を開始できないという課題が発生する。さらにノイズ対策を行う場合、定常音か音声かを判別する必要があり、誤って判別した場合には必ず誤作動を伴い、回避できないという課題があった。
本発明は上記の課題を解決するために為されたものであり、音声信号に背景ノイズやスパイクノイズなどのノイズが混入しても、自動的にあるいは簡単な方法で音声の開始時期を正確に検出してより正確な単語を選択できる省電力型のリモコン並びに家電機器を提供することを目的とする。
この発明に係るリモコンは、周期的な所定期間を示す区間毎にこの区間内の音声信号レベルの積算量を一つ前の区間のそれと比較し、差分が音声認識開始用の閾値を超えた区間から一連の複数区間の音声信号を出力する音響分析部と、音響分析部が出力した一連の複数区間の音声信号レベルを基に音声認識アルゴリズムを適用して前記複数区間の各区間毎に音声特徴ベクトルの抽出や他の補足計算を行う特徴量・補足計算部と、特徴量・補足計算部によって抽出された特徴ベクトルと予め保有するデータベースの語句とに基づいて音声認識を行う音声認識部と、音声認識部が認識した結果を操作指令として外部機器に送信する通信部とを備えたものである。
本発明によれば、リモコンは、音声の大きさの変化が所定値以上の音声が入力された時のみ音声認識を開始するので、簡便な方法で且つ正確に音声認識を実行することが可能である。
実施の形態1.
図1は、本発明の実施の形態1におけるリモコンのハードウェア構成を示す図であり、リモコン1は、図1に示すように、ユーザーの音声を音声信号の形で取り込む音声取込部2と、取り込んだ音声信号を増幅する増幅部3と、増幅された音声信号をMPU(Micro Processor Unit)が処理できるようにアナログ信号からディジタル信号に変換あるいは、MPUが出力したディジタル信号をアナログ信号である音声に変換するためのA/D・D/Aコンバータ4と、各種演算および処理を実行するMPU5と、音声信号を音声として出力する音声出力部6と、処理中あるいは処理済みの各種データ類を記憶するRAM7と、ソフトウェア及び音声データベース8を記憶するROM9と、エアコンに対して操作指令信号を赤外線により送信する通信部10とから構成されている。また、A/D・D/Aコンバータ4、MPU5、RAM7、ROM9及び通信部10は共通のバスに接続されており、音声取込部2と音声出力部6は増幅部3を介してA/D・D/Aコンバータ4に接続されている。なお、エアコン11は通信部12を標準で装備している。
また、図2は図1をMPU5の機能を複数の機能ブロックに分割して書き直した構成図であり、図中、図1と同符号は同一または相当部分を示す。また、音響分析部13と特徴量・補足計算部14と音声認識部15の各機能は、それぞれに対応する専用ソフトウェアをMPU5が実行することで実現される。なお、これらのソフトウェアはROM9に格納されており、必要時にRAM7に読み出された上でMPU5によって実行されるものである。
また、図9に示すように、リモコン1にはボタン16とONを示すLED(Light Emitting Diode)17とOFFを示すLEDが搭載されている。
次に、実施の形態1の動作を説明する。例えば、電車の中では携帯電話の声が室内での声よりも大きくなるように、人間は通常より大きな雑音がある環境下ではより大きな音声で話すため、取り込んだ音響成分の前後区間では必ず差分が発生する。そこで、リモコン1のMPU5は、定期的に音声入力があるか否かを監視し、それ以外はスリープ状態に戻るだけの省電力モードを維持し、音声の大きさの変化が或る一定以上の音声が入力された時のみ音声認識を開始する。音声認識の際に、音響分析部13はまず、図3(a)に示すように周期的な一定期間を示す区間毎にこの区間内の音声を周期的に取り込み解析する。図3(a)の例では先ずA区間の音声を取り込み解析し、次にB区間の音声を取り込み解析し、次にC区間の音声を取り込み解析する。なお、この場合の一定区間(以後、単に区間という)とは、一般的な音声区間(20〜40m秒)あるいは、これの整数倍長さの時間をいう。解析の際には、上記一定区間内の音声信号の振幅値または電力値(以下、音声レベルという)を11kHz(約100μ秒刻み)のサンプリングタイムで積算し、この積算量を一つ前の区間のそれと比較し、図3(b)に示すように差分が音声認識開始用の閾値を超えた区間Cを音声認識開始区間とし、そこから一連の複数区間の音声信号を音声認識処理のために特徴量・補足計算部14へ送る。
この場合、音響分析部13は、予め音声認識開始の閾値と音声認識終了の閾値を設定しておき、図4(a)、(b)に示すように、上記周期的な所定期間である区間における音声レベルの積算量を一つ前の区間のそれと比較し、差分が音声認識開始の閾値を超えた区間を音声開始区間とし、予め決定した基準に従って、単語発生開始時点を決定する。ここで、基準とは「音声開始用フラグを立てた区間の一つ前の区間も音声開始時点に含める」ということである。例えば、図4(a)に示すように差分前の音声レベルが大きくなった後の区間Cで終了しているのでこの区間Cを音声開始区間とする。また、差分発生後の区間Cの一つ前の区間Bにも単語の先頭が含まれている可能性もあるのでその区間Bやその区間内の音声波形の変曲点の現れる時点(100μ秒刻みで音声レベルの差分の変化が最大の時間的位置)を単語発声開始時点とする。
また、音声終了区間も上記と同様の方法で検出可能である。音響分析部13は、図5(a)、(b)に示すように、上記区間における音声レベルの積算量を一つ前の区間のそれと比較し、差分が音声認識終了の閾値を超えた区間を音声終了区間とする。例えば、図5(a)に示すように差分前の音声レベルが小さくなる前の区間Eで終了しているが、差分発生後の次の区間Fにも単語の末尾が含まれている可能性もあるのでその区間Fやその区間内の音声波形の変曲点の位置を単語発声終了時点とし、単語発声開始から終了までの一連の音声区間の音声信号を特徴量・補足計算部14に送る。特徴量・補足計算部14は、音声認識アルゴリズムに応じて音声区間の特徴ベクトル抽出や他の補足計算を行い、得られた特徴ベクトルを音声認識部15に送る。そして、音声認識部15は特徴量・補足計算部14から送られた特徴ベクトルと音声データベース8の語句とに基づいて認識処理を実行し、認識結果を指令として通信部10を介して空調機11などの家電機器に送りこの機器を操作する。
以上の通り、この実施の形態1によれば、前後の音声区間における音声レベル積算量同士の差分の値が閾値を超えた時を音声認識開始時点、音声認識終了時点とし、単語発声開始から終了までの一連の音声区間の音声信号を認識するので、音声入力区間が正確に検出でき、これにより音声認識の精度が高くなる。
実施の形態2.
実施の形態1では、時間領域での音声信号レベル積算量の差分により音声入力区間を検出したが、これに限らず、周波数領域で音声入力区間を検出することも選択可能である。この実施の形態2では、この周波数領域で音声入力区間を検出する方法について説明する。
音響分析部13は、周期的に上記一定区間の音声を取り込み、取り込んだ音声を高速フーリエ変換(FFT:Fast Fourier Transform)により周波数成分に変換し、変換された周波数成分のうち、帯域通過フィルタ(BPF:Band Pass Filter)や低域通過フィルタ(LPF:Low Pass Filter)を用いて人間の音声周波数帯域(相対的に低域のホルマント領域)のみの周波数成分について各周波数成分のレベルを1つの区間に渡って約100μ秒(11kHz)単位で積算した積算量を1つ前の区間のそれと比較して差分を算出し、この差分をFFT逆変換したものと音声認識開始用の閾値とを比較する。そして、差分をFFT逆変換したものが音声認識開始用の閾値を超えた区間から一連の複数区間を特徴量・補足計算部14に送る。特徴量・補足計算部14は、音声認識アルゴリズムに応じて音声区間の特徴ベクトル抽出や他の補足計算を行い、得られた特徴ベクトルを音声認識部15に送る。そして、音声認識部15は特徴量・補足計算部14から送られた特徴ベクトルと音声データベース8の語句とに基づいて認識処理を実行し、認識結果を操作指令として通信部10を介して空調機11などの家電機器に送りこの機器を操作する。
この方法では、人間の音声の周波数帯域(所定の値よりも低い周波数帯)のみについて前後の区間における周波数成分の積算量の比較を行えるのでより正確な音声入力区間を検知することが可能になる。
一連の複数区間における音声開始区間の検出方法について説明する。音響分析部13は上記一定区間毎にFFTにより音声信号を周波数成分に変換し、各周波数成分を11kHzのサンプリングクロックで積算した積算量を一つ前の区間のそれと比較し、各周波数成分毎に差分を計算し、得られた周波数成分毎の差分をFFT逆変換したものが音声認識開始の閾値を超えた区間を音声開始区間とし、予め決定した基準に従って、単語発生開始時点を決定する。例えば、図4(a)に示すように差分前の音声レベルが大きくなった後の区間Cで終了しているのでこの区間Cを音声開始区間とする。また、差分発生後の区間Cの一つ前の区間Bにも単語の先頭が含まれている可能性もあるのでその区間Bやその区間内の音声波形の変曲点の現れる時点(100μ秒刻みで音声レベルの差分の変化が最大の時間的位置)を単語発声開始時点とする。
また、一連の複数区間における音声終了区間も検出可能である。音声区間終了時にも同様の方法で、音響分析部13は音声認識開始検知後もある一定区間ごとにFFTにより周波数成分に変換し、周波数成分の積算量を時間領域の一つ前の区間のそれと比較し、各周波数成分毎に差分を計算し、得られた周波数成分毎の差分をFFT逆変換したものが音声認識終了の閾値を超えた区間を音声終了区間とし、予め決定した基準に従って、単語発生終了時点を決定する。例えば、図5(a)に示すように差分前の音声レベルが小さくなる前の区間Eで終了しているが、差分発生後の次の区間Fにも単語の末尾が含まれている可能性もあるのでその区間Fやその区間内のある部分などを単語発声終了とし、単語発声開始から終了までの一連の音声区間の音声信号を特徴量・補足計算部14に送る。特徴量・補足計算部14は、音声認識アルゴリズムに応じて音声区間の特徴ベクトル抽出や他の補足計算を行い、特徴ベクトルを音声認識部15に送る。そして、音声認識部15は特徴量・補足計算部14から送られた特徴ベクトルに対して音声データベース8の語句を適用して認識し、その結果を基に機器を操作する。
また、本実施の形態2のように周波数領域で音声区間を検出する方法では、LPFやBPFなどのフィルタを用いて、人間の音声周波数帯のみに絞り、この人間の音声周波数帯内で各周波数成分のレベルを時間領域で各区間毎に積算した値を比較するので、定常ノイズなど人体以外の音(ノイズ)に対して強く、また、単語発生区間に含まれる無音にも強い。前記音響分析部13は変化があった周波数帯域の周波数成分のみ、またはその周波数帯の周波数成分の重みを重くしてこれらの周波数成分を再構成し、これらの周波数成分をFFT逆変換した結果を音声信号として出力し、この音声信号を基に音声認識を行うためノイズの影響はより少なくなる。また、予め特徴量算出に用いる信号レベルの範囲(上限値あるいは下限値あるいはその両方)を決め、その範囲以外の信号レベルを持つ信号を特徴量算出の対象から排除してもよい。例えば、図6(b)に示すように音声周波数帯に信号レベルが予め設定した上限値を超える周波数成分(スパイクノイズ)が重畳した場合には、このスパイクノイズは特徴量算出に使用しないので、このノイズによる影響を受けないで済む。
なお、上記の例では周波数分の信号レベルが上限値を超える周波数成分(スパイクノイズ)が重畳した場合には特徴量算出に使用しないようにしたが、これに限らず、周波数分の信号レベルが上限値を超える周波数成分(スパイクノイズ)の信号レベルの重みを軽くするようにしても良い。また、上限値を超える周波数成分(スパイクノイズ)の代わりに隣接する周波数成分のレベルの平均値を計算して、その値に強制的に置き換えてもよい。いずれの場合も上記と同様の効果を奏する。
また、音声認識部15のアルゴリズムは、DPマッチングや隠れマルコフモデル(HMM:Hidden Markov Model)などがあるが、認識エンジンに合わせて音声取得と音声認識を並列処理できる場合には、音声認識開始を検出したら単語発生区間の終了を待たずに並列処理にて順次処理する。また、同一のMPU5で処理を行う場合、タスク処理などを用いて並列処理を行う。これにより、処理の高速化を図ることができる。
さらに、上記HMMに基づき過去のフレームから得られた音声特徴量の変遷に沿った補正処理を行うことで、雑音の突発的な変化による影響を抑えることができる。
また、事前に登録した複数区間の音声レベルや定期的(周期的)に取り込んだ音声区間における音声レベルの解析結果を基に、音声認識の対象とするべき周波数帯や差分による音声区間検出の閾値を決定する事も可能である。この場合、雑音が多く、音声の差分が小さくなる場合でも対応可能である。音響分析部13は、差分がある一定範囲内で推移している時に定期的に取り込んだ音が定常雑音やスパイクノイズなどのノイズなのか音声なのかを上記の閾値を用いて判断する。これにより閾値を決定する要因である音声とノイズを判断でき、誤判定なく自動学習により閾値を変化させる事も可能である。この判定でも遠くの人間の声が混じっていたりして完全ではないので、判定は複数回繰り返した結果と比較し、ノイズのデータベースと比較したり、複数回の音量レベルを基に例えば平均値を計算したりして定常雑音の大きさを判断したりするので、たとえ瞬時的に誤判定が起こり閾値が変化しても正常に収束可能である。
図7はこの実施の形態1及び2におけるリモコン1のMPU5の音声認識の処理を示すフローチャートである。次に、MPU5の音声認識の動作について図7を用いて説明する。MPU5は、ステップS1にてマイクなどの音声取込部2から増幅器及びA/D変換コントローラを介して音声取込を行う。次に、ステップS2において音響分析を行い、その結果をステップS4にてRAMに保存する。ステップS2の音響分析は具体的には周期的(所定期間)に取り込んだ音声を11kHzのサンプリングクロックで各区間毎に積算する。FFTを使用する方法では、各音声帯周波数成分の音声レベル(音声信号の振幅または電力)を積算する。または、複数区間の音声周波数帯の音声レベルを積算する。ステップS3において一つ前の周期がない場合はもう一周期取り込む、一つ前の周囲が存在する場合にはステップS5に進む。ステップS5では、一つ前の周期で同様に算出された積算値との差分を算出し、図4のように音声開始の閾値以上の差分がある場合は音声開始とみなし、その区間を音声開始区間とする。さらに、差分が音声区間終了の閾値よりも低い場合にはステップS1〜S5を繰り返し実行して同様に音声を区間ごとに差分をとる動作を継続する。
そして、差分が図5のように音声区間終了の閾値以上の差分がある場合はその区間を音声終了区間とする。ステップS6にて音声終了区間を検出後、音声認識を開始する。ステップS7にて、音声認識アルゴリズムの種類に応じて音声区間の特徴量や他の補足計算を行う。例えば音声認識にHMMを用いる場合では入力音声からメルスペクトラム分析により音響特徴量としてメルケプストラム、このメルケプストラムの動的特徴量(メルケプストラムの時間領域での変化量)、logパワーの動的特徴量などの特徴ベクトルを抽出する。次に、ステップS8にてこの特徴ベクトルに対してHMMによる認識を行う。この場合、認識したい対象を一つのHMMとして表現し、そのHMMが、実際に取得された音声の特徴ベクトル列を生成する確率を計算し、最も高い確率で出力するHMMを認識結果とする。その結果をステップS9にてリモコン1が保持する音声出力部6に出力する。認識結果の確認がない場合は、そのまま通信部10を介して、エアコン11などの家電機器に操作信号を送る。
上記に説明したように、音響分析部13は、まず、図3のように或る一定区間の音声を周期的に取り込み解析する。具体的には、音響分析部13は、或る一定区間の音声レベルの積算量またはFFTにより変換した周波数成分を時間領域における一つ前の区間のそれと比較し、差分または各周波数成分の差分をFFT逆変換により変換した積算量が音声認識開始の閾値を超えた区間から一連の音声区間の音声信号を特徴量・補足計算部14に送る。特徴量・補足計算部14は、音声認識アルゴリズムに応じて音声区間の特徴ベクトル抽出や他の補足計算を行い、特徴ベクトルを音声認識部15に送る。そして、音声認識部15は特徴量・補足計算部14から送られた特徴ベクトルに対して音声データベース8の語句を適用して認識し、その結果を基に機器を操作する。
これにより、環境に合わせて音量、周波数の少なくとも一方を使用することで、より精度の高い単語発生検知を行うことができる。そして少なくとも一方が閾値を超えた場合に音声認識を開始する(どちらも閾値を超えないと音声認識を開始しない)ようにしておけば、予め決められた数値などで判断した場合と異なり、個人差を補いきれず、認識を開始しない(勝手に認識を開始する)といった問題を低減することが可能である。
なお、以上の例では、各区間毎に当該区間内の音声信号からFFTにより得られた各周波数成分のレベルの積算量を一つ前の区間のそれと比較して差分を算出し、この差分が閾値を超えた区間を音声入力開始区間または音声入力終了区間であると判断したが、これに限らず、複数区間毎に当該複数区間(以下、周期という)内の音声信号からFFTにより得られた各周波数成分のレベルの積算量を一つ前の周期のそれと比較して差分を算出し、これを閾値と比較するようにしてもよい。これにより、大まかな開始周期が分かるので、この周期毎に調べる方法と上記の区間毎に調べる方法とを組み合わせることで、精度を損なわず、より効率的に音声入力区間を検出することができる。
以上のように、この実施の形態2によれば、人間の音声の周波数帯域(所定の値よりも低い周波数帯)のみについて前後の区間における音声レベルの積算量の比較を行い、それ以外の定常ノイズを排除し、また、スパイクノイズのような瞬時的な所定値よりも大きなノイズも低減するので、より正確な音声入力区間を検知することが可能になり、これにより音声認識の精度がさらに高くなる。
実施の形態3.
実施の形態1及び実施の形態2では音声レベルの積算量の差分に基づいて音声入力開始時点を特定したが、より簡単な方法として図9に示すボタン16をユーザーが押下操作することで音声入力開始時点をリモコンに通知させるようにしてもよい。この実施の形態3では、このような実施の形態について説明する。
ユーザーが図9のボタン16を押した時にボタン16は押下信号を発生する。MPU5はボタン16からの押下信号を図示しない入出力部を介して受信すると、音声認識を開始する。そして、ユーザーがボタンを押し続けている間はボタン16から押下信号が継続して発生するので、MPU5はこの押下信号を受信している間はユーザーの音声を音声取り込み部2に取り込ませ、音声認識を行う。従って、ユーザーはボタンを押し続けている間自由に話すことができるので焦って話す必要はない。
図8はこの実施の形態3におけるリモコン1のMPU5の音声認識の処理を示すフローチャートである。次に、MPU5の音声認識の動作を図8を用いて説明する。
MPU5は、ステップS81において、ボタン付きか否かを調べ、ボタン付きである場合には、ボタンが押されるまでS82を繰り返し実行して待つ。ステップS82においてMPU5はユーザーによるボタンの押下信号を検出すると、音声取り込みを開始する(ステップS1)。ステップS1〜S9の動作は図7と同じなので説明を省略する。ステップS83において、MPU5はボタンが押下されなくなったか否かを調べ、まだ押されていればステップS1に戻り、S1〜S9の音声認識処理を再開する。ステップS83において、ボタンが押されなくなったことを検出したら、音声認識処理を終了する。また、S81において、ボタンがない場合のS1〜S9の動作は図7と同じなので説明を省略する。
以上のように本実施の形態3によれば、ユーザーはボタンを押している間自由に話すことができるので焦って話す必要はない。また、リモートコントローラは信号を受信した後に、LEDなどの表示装置や音声応答などで認識結果をユーザーに伝え、ボタンを用いて音声認識により実行およびキャンセル処理を行うことができ、結果を選択できる。さらにその結果を学習でき、音声認識データベースに反映できるのでより正確な認識を行うことができる。
音声認識の認識率がおちる場合には音声認識完了後、受け付けた内容をLEDで表示したり、音声で伝えたりユーザーに受け付けた内容を表示する機能を選択できる。ユーザーはその内容で良ければボタンを押すなど設定したアクションを行い、実行・中止を選択できる。例えばコントローラのインターフェースとしては音声取得部分のマイク3、ボタン1つ、LED2つのコントローラでは音声認識後、認識した内容をLEDに点灯して表示する。そしてユーザーは決定ならボタンを一回押して決定する。LEDは処理を実行する際にLEDを点滅させる。キャンセルならLEDが消灯するまでボタンを押し続ける。という様に小部品で色々な操作が可能になる。
なお、マイク、音声出力機器、ボタンなどは他の機器で代用することが可能である。例えば、リモコンにマイクのみを装着し、音声を入力したらネットワークを通じてパソコンやHDD−DVDレコーダーなどに転送し、音声認識処理を代わって行わせる。つまり、音声認識の機能をパソコンなどの高速なマイコンに代わって処理してもらい、認識結果を受け取ることによりリモコン自体は低能力のマイコンで実現できる。また、認識結果の確認を行わせる場合、テレビや冷蔵庫LEDなど他の機器で表示させる事も可能である。もちろん、機器の情報をリモコンで表示し、機器の衣装デザインの自由度を高める事もできる。他の機器と連動させる場合、それぞれの機器に専用のS/Wをインストールしておくか、各機器のOSの他に仮想システムを共通で立ち上げておき、割り込みで割り込ませるなどする。個々のインターフェースなどを複数の機器に行わせるのではなく、S/Wをサーバなどから提供し、携帯電話など1つの機器で完全に全ての機能をコントロールさせることができる。
本発明のリモートコントローラは複数の機器で操作する場合や違う機器のリモコンとして利用する場合にIrDAなどのネットワーク経由やUSB、SDカード(商標)などを用いてS/Wや音声認識などのデータベースを書き換えたり、H/Wにより付け替えたりすることで対応可能である。例えば無線通信方法を変更する場合、CFタイプ(商標)の特定省電力無線の無線カードをZigBeeの無線カードに付け替えるだけで違う無線方式の機器を操作できる。またminiSDカード(商標)などのIDコードやコマンドが入ったカードを入れ替えるだけで違う機器や後継機種を操作可能になる。パソコンや携帯電話でminiSDカードにデータを入れてリモートコントローラに差し込むだけで最新のデータや機器が操作可能になる。これらの記憶装置を使って操作する機器情報を記録できる。例えば、エアコンなどでは故障や定期メンテナンスなどを行うが、無線タグとそのリーダ・ライターをリモコンに具備しておき、機器の運転状況やライフサイクルを確認する為の無線タグなどの記憶媒体を利用する場合、音声操作などによって音声認識での操作結果をリモコンのリーダ・ライターにて無線タグに書き込ませる事ができる。
双方向通信可能な場合は電流値、故障情報、サーミスタ温度などの情報を受けて書き込むことができる。サービスマンはエアコンに接続して情報を抜き出すのではなく、リモコン位置で作業が可能になり、より作業難度の敷居が下がる。またユーザーは故障した場合に無線タグやminiSDカードなどのメディアを送っても良いし、そこから取り出した情報をメールでサービスセンターに送信してもよい。これによりサービスマンは故障状態をより把握でき、修理時に持っていくサービス部品も限定できる。環境情報、運転状況により起こる不具合解析もサーミスタ検出温度などの情報もあれば容易になる。他の家電機器からの湿度情報などと複合的に判断可能である。またそれらの情報を自動的にリモコンの記憶媒体に書き込むことも可能である。勿論、リモコン自体のFlashメモリーに書き込む事も可能である。
また、押している間のみ音声を検出するモードもある。音声区間が一定では自由な発音ができない。押している間のみの音声入力であれば自分のタイミングで話す事ができ、ボタンを押した後に慌ててしゃべる必要もなく、通常会話と同じ感覚で使用することが可能になる。リモートコントローラの放置状態が悪く、ボタンが入力状態になり続けいても図2のように差分のみを定期的に計測するので音声認識処理を行わないので消費電力を抑えられる。また、ある一定時間以上ボタンが押し続けられるとボタンが一度OFFするまで異常と判断しスリープモードに入ることも可能である。
また、音声認識精度が低い場合、音声により再度決定の意の発声をさせたり、認識結果を確認させたりするが結果的に受理できなかったりする。本発明のリモートコントローラでは、音声により階層の深い操作を選択し、ボタン操作1つで実行または中止を行う。例えば図9のリモコン1では、ボタンを押している間、音声認識を行い結果をLEDで表示する。ONなら左のLED17点灯で表示される。決定の場合はボタン16を一回押すと左のLED17が点灯状態になるので決定を受け付けたことを示す。中止の場合はボタン16を押し続けると左右のLED17、18が交互に点滅したら中止を受け付けたのでボタン16を放す。温度UPなら左のLED17が点滅する、と言うような素子数の少ない構成でリモコンを制作可能である。双方向通信で音声認識処理を他の機器に行わせる場合、音声を転送し、結果だけを受け取りLEDで表示することも可能でありより構成部品の少ない構成になる。
なお、ボタン16が静電センサでも実現可能であり、手に取るだけで音声認識が開始されるのでボタンを意識する必要はない。この場合、音声で依頼した処理の音声認識結果を確認し、誤認識で処理を中止する場合、上述したように同じくリモコンを握り続け(ボタンを押し続け)ることも可能であり、指をスライドさせると中止するなど様々な対応が可能である。静電センサではボタンが必要なく、基板パターンで実現できるのでコストも抑えられる。使い勝手向上のためにボタン部分に凹凸をつけたり入力時に音を出力したり、誤動作防止のために同時にボタンが押された場合は反応しない、また手にとって音声認識後、もう1つ押さないと実行させないなどの方法が選択できる。
また、指紋センサを設けて個人識別を行い、音声認識のアルゴリズムやデータベースを変更することにより、より認識精度があがる。前述したように他の機器に機能を移行できるので指紋センサとマイクのデータを転送したり、他の機器からの個人識別情報を用い、音声認識のアルゴリズムやデータベースを変更することも可能である。個人識別を取得する方法としては、家電機器、例としてパソコンや携帯電話などの指紋センサ、ホームセキュリティのIDチェックの情報やカメラの画像認識結果、他の製品につけられた無線タグのリーダ・ライターなどを利用して行うことが可能である。
本発明のリモートコントローラから以上の機能を携帯電話にS/Wをダウンロードし使用できる。また機器本体に組込んだり、それぞれの機能を分散して処理したり、他の機器からの情報を積極的に利用したりできる。また、応用の一例として、エアコンのリモコンを例に取ると、パソコンの指紋認証の情報を得て個人を識別し、認識率を上げ、認識結果を個人の状態に合わせて制御する。「暑い」の発声で暑がりの人は室温を下げると同時に気流制御で風を当てるなどして快適な生活環境を実現できる。
本発明のリモコンは家電製品に内蔵することもでき、家電製品が近くにある場合やマイクの感度が良好で音声認識モジュールの精度が高い場合は有効である。
また、本リモコンは音声認識だったが、画像認識でも同様にCMOSやCCDなどの画像センサを用いてゼスチャーや指の動き、顔認識による環境設定を行い快適な生活環境を実現できる。
本発明の実施の形態1におけるリモコンのハードウェア構成を示す図である。 図1をMPUの機能を複数の機能ブロックに分割して書き直した構成図である。 音声区間検出方法を示す図である。 音声区間検出方法を示す図である。 音声区間検出方法を示す図である。 音声区間検出方法を示す図である。 本発明の実施の形態1、2におけるリモコンの音声認識フローチャートである。 本発明の実施の形態3におけるリモコンの音声認識フローチャートである。 本発明を利用したエアコンコントローラの一例を示す図である。
符号の説明
1 リモコン、2 音声取込部、3 増幅器、4 A/D・D/Aコンバータ、5 MPU、6 音声出力部、7 RAM、8 音声データベース、9 ROM、10 通信部、11 エアコン、12 通信部、13 音響分析部、14 特徴量・補足計算部、15 音声認識部、16 ボタン、17 LED、18 LED。

Claims (14)

  1. 周期的な所定期間を示す区間毎にこの区間内の音声信号レベルの積算量を一つ前の区間のそれと比較し、差分が音声認識開始用の閾値を超えた区間から次に前記差分が音声認識終了用の閾値を超えた区間までの一連の複数区間の音声信号を出力する音響分析部と、
    この音響分析部が出力した一連の複数区間の音声信号レベルを基に音声認識アルゴリズムを適用して前記複数区間の各区間毎に音声特徴ベクトルの抽出や他の補足計算を行う特徴量・補足計算部と、
    この特徴量・補足計算部によって抽出された特徴ベクトルと予め保有するデータベースの語句とに基づいて音声認識を行う音声認識部と、
    この音声認識部が認識した結果を操作指令として外部機器に送信する通信部とを備えたことを特徴とするリモートコントローラ。
  2. 周期的な所定期間を示す区間毎にこの区間内の音声を取り込み、FFTにより周波数成分に変換し、所定の周波数帯における各周波数成分のレベルの積算量を一つ前の区間のそれと比較して差分を算出し、この差分をFFT逆変換した結果が音声認識開始用の閾値を超えた区間から次に前記差分が音声認識終了用の閾値を超えた区間までの一連の複数区間の音声信号を出力する音響分析部と、
    この音響分析部が出力した一連の複数区間の音声信号レベルを基に音声認識アルゴリズムを適用して前記複数区間の各区間毎に音声特徴ベクトルの抽出や他の補足計算を行う特徴量・補足計算部と、
    この特徴量・補足計算部によって抽出された特徴ベクトルと予め保有するデータベースの語句とに基づいて音声認識を行う音声認識部と、
    この音声認識部が認識した結果を操作指令として外部機器に送信する通信部とを備えたことを特徴とするリモートコントローラ。
  3. 前記音響分析部は、前記差分が前記音声認識開始用の閾値を超えた区間を音声開始区間とし、所定の基準により少なくとも前記音声認識開始用の閾値を超えた区間の前後の区間を単語発声開始時点とし、前記差分が前記音声認識終了用の閾値を超えた区間を音声終了区間とし、所定の基準により少なくとも前記音声認識終了用の閾値を超えた区間の前後の区間を単語発声終了時点とすることを特徴とした請求項1記載のリモートコントローラ。
  4. 前記音響分析部は、区間毎でなく複数区間(以下、周期という)毎にこの周期内の音声を取り込み、周波数成分に変換し、所定の周波数帯における各周波数成分のレベルの積算量を一つ前の周期のそれと比較して差分を算出し、この差分をFFT逆変換した結果が音声認識開始用の閾値を超えた区間から一連の複数区間の音声信号を出力することを特徴とする請求項2記載のリモートコントローラ。
  5. 前記音響分析部は、音声入力区間を検出後、別の閾値を超える差分が存在した周波数帯域だけについて前記音声入力区間内の各区間毎の周波数成分をFFT逆変換した結果を音声信号として出力することを特徴とする請求項2記載のリモートコントローラ。
  6. 前記音響分析部は、音声入力区間を検出後、変化があった周波数帯域の周波数成分の重み付けを重くしてこの周波数成分を再構成し、前記音声入力区間内の各区間毎の周波数成分をFFT逆変換した結果を音声信号として出力することを特徴とする請求項2記載のリモートコントローラ。
  7. 前記音響分析部は、音声帯域の周波数成分で予め定めた上限値よりも大きいレベルの周波数成分を除去することを特徴とした請求項2記載のリモートコントローラ。
  8. 前記音響分析部は、音声帯域の周波数成分で予め定めた上限値よりも大きいレベルの周波数成分の重みを軽くしたことを特徴とした請求項2記載のリモートコントローラ。
  9. 前記音響分析部は、音声帯域の周波数成分で予め定めた上限値よりも大きいレベルの周波数成分を、隣接する周波数の成分のレベルの平均値に置き換えたことを特徴とした請求項2記載のリモートコントローラ。
  10. 前記音声認識部は、音声入力開始区間検出後、音声認識部のアルゴリズムに合わせて、単語発生区間の終了を待たずに並列処理にて順次処理することを特徴とする請求項1〜9のいずれかに記載のリモートコントローラ。
  11. 前記音響分析部は、事前に登録した音声や定期的(周期的)に取り込んだ音声区間の解析結果を基に周波数帯、差分の閾値を決定し、この閾値を用いて入力した音声が定常雑音なのかスパイクノイズなのかを判断することを特徴とする請求項1記載のリモートコントローラ。
  12. プロセッサと、音声取込部と、音声出力部と、ボタンと、表示部と通信部とを備え、
    前記音声取込部は、前記ボタンから信号を受信すると外部から最初の音声を取り込み、
    前記プロセッサは請求項1〜11のいずれかに記載の音響分析部、特徴量・補足計算部及び音声認識部を実現し、前記音声取込部が取り込んだ前記最初の音声を認識し、認識した結果を外部のユーザーに伝えるべく音声出力部に出力し、前記ボタンあるいは前記音声取り込み部から許可の旨の信号あるいは許可の旨の音声を受信すると、音声認識し、前記最初の音声を認識した結果を操作指令として前記通信部を介して外部の機器に送信することを特徴とするリモートコントローラ。
  13. データベースを備え、
    前記プロセッサは前記最初の音声を認識した結果を学習し前記データベースに反映することを特徴とする請求項12記載のリモートコントローラ。
  14. 通信部を備え、
    請求項1〜13のいずれかに記載のリモートコントローラから前記通信部を介して操作指令を受信してこの操作指令に基づいて動作することを特徴とする家電機器。
JP2006179261A 2006-06-29 2006-06-29 リモートコントローラ並びに家電機器 Expired - Fee Related JP4675840B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006179261A JP4675840B2 (ja) 2006-06-29 2006-06-29 リモートコントローラ並びに家電機器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006179261A JP4675840B2 (ja) 2006-06-29 2006-06-29 リモートコントローラ並びに家電機器

Publications (2)

Publication Number Publication Date
JP2008009120A true JP2008009120A (ja) 2008-01-17
JP4675840B2 JP4675840B2 (ja) 2011-04-27

Family

ID=39067412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006179261A Expired - Fee Related JP4675840B2 (ja) 2006-06-29 2006-06-29 リモートコントローラ並びに家電機器

Country Status (1)

Country Link
JP (1) JP4675840B2 (ja)

Cited By (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009150894A1 (ja) * 2008-06-10 2009-12-17 日本電気株式会社 音声認識システム、音声認識方法および音声認識用プログラムが格納された記憶媒体
JP2012508903A (ja) * 2008-11-12 2012-04-12 エスシーティアイ ホールディングス、インク 自動音声テキスト変換のためのシステムと方法
JP2012185861A (ja) * 2012-07-03 2012-09-27 Toshiba Corp 操作装置及び操作方法
KR101192813B1 (ko) 2010-12-14 2012-10-26 (주)이엔엠시스템 대기 상태에서 저주파 영역 음향에 대해서 음성인식을 수행하는 음성인식 시스템 및 그 제어방법
WO2013188007A1 (en) * 2012-06-15 2013-12-19 Spansion Llc Power-efficient voice activation
JP2014170984A (ja) * 2013-03-01 2014-09-18 Casio Comput Co Ltd 通信装置及びプログラム
JP2015501438A (ja) * 2011-09-23 2015-01-15 ディジマーク コーポレイション 状況(Context)に基づくスマートフォンセンサロジック
JP2016521948A (ja) * 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
JP2017515429A (ja) * 2014-03-11 2017-06-08 サウンドリー インコーポレイテッドSoundlly Inc. 低電力関連コンテンツ提供システム、方法、及びプログラムを記録したコンピューターで読むことができる記録媒体
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US10108612B2 (en) 2008-07-31 2018-10-23 Apple Inc. Mobile device having human language translation capability with positional feedback
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10332518B2 (en) 2017-05-09 2019-06-25 Apple Inc. User interface for correcting recognition errors
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10354652B2 (en) 2015-12-02 2019-07-16 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10381016B2 (en) 2008-01-03 2019-08-13 Apple Inc. Methods and apparatus for altering audio output signals
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10417405B2 (en) 2011-03-21 2019-09-17 Apple Inc. Device access using voice authentication
US10417344B2 (en) 2014-05-30 2019-09-17 Apple Inc. Exemplar-based natural language processing
US10431204B2 (en) 2014-09-11 2019-10-01 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10438595B2 (en) 2014-09-30 2019-10-08 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10453443B2 (en) 2014-09-30 2019-10-22 Apple Inc. Providing an indication of the suitability of speech recognition
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
US10529332B2 (en) 2015-03-08 2020-01-07 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10580409B2 (en) 2016-06-11 2020-03-03 Apple Inc. Application integration with a digital assistant
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10643611B2 (en) 2008-10-02 2020-05-05 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10684703B2 (en) 2018-06-01 2020-06-16 Apple Inc. Attention aware virtual assistant dismissal
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
CN111380189A (zh) * 2020-03-27 2020-07-07 四川虹美智能科技有限公司 智能空调控制方法及智能空调
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
JP2020528610A (ja) * 2017-07-25 2020-09-24 トップ システム カンパニー リミテッドTop System Co., Ltd. Tv画面位置調節機の音声認識型遠隔制御装置
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10789945B2 (en) 2017-05-12 2020-09-29 Apple Inc. Low-latency intelligent automated assistant
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10942702B2 (en) 2016-06-11 2021-03-09 Apple Inc. Intelligent device arbitration and control
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11023513B2 (en) 2007-12-20 2021-06-01 Apple Inc. Method and apparatus for searching using an active ontology
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US11049094B2 (en) 2014-02-11 2021-06-29 Digimarc Corporation Methods and arrangements for device to device communication
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US11069336B2 (en) 2012-03-02 2021-07-20 Apple Inc. Systems and methods for name pronunciation
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
US11350253B2 (en) 2011-06-03 2022-05-31 Apple Inc. Active transport based notifications
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US11495218B2 (en) 2018-06-01 2022-11-08 Apple Inc. Virtual assistant operation in multi-device environments

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56135898A (en) * 1980-03-26 1981-10-23 Sanyo Electric Co Voice recognition device
JPS62129899A (ja) * 1985-11-30 1987-06-12 日本電気株式会社 音声区間検出方法
JPH03253899A (ja) * 1990-03-05 1991-11-12 Ricoh Co Ltd 音声区間検出方式
JPH04178698A (ja) * 1990-11-13 1992-06-25 Toyota Central Res & Dev Lab Inc 波形生成装置
JPH06230799A (ja) * 1993-02-04 1994-08-19 Nippon Telegr & Teleph Corp <Ntt> 信号記録装置
JP2000163098A (ja) * 1998-11-25 2000-06-16 Mitsubishi Electric Corp 音声認識装置
JP2001265367A (ja) * 2000-03-16 2001-09-28 Mitsubishi Electric Corp 音声区間判定装置
JP2004294659A (ja) * 2003-03-26 2004-10-21 Matsushita Electric Ind Co Ltd 音声認識装置
JP2004294814A (ja) * 2003-03-27 2004-10-21 Clarion Co Ltd 遠隔制御装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56135898A (en) * 1980-03-26 1981-10-23 Sanyo Electric Co Voice recognition device
JPS62129899A (ja) * 1985-11-30 1987-06-12 日本電気株式会社 音声区間検出方法
JPH03253899A (ja) * 1990-03-05 1991-11-12 Ricoh Co Ltd 音声区間検出方式
JPH04178698A (ja) * 1990-11-13 1992-06-25 Toyota Central Res & Dev Lab Inc 波形生成装置
JPH06230799A (ja) * 1993-02-04 1994-08-19 Nippon Telegr & Teleph Corp <Ntt> 信号記録装置
JP2000163098A (ja) * 1998-11-25 2000-06-16 Mitsubishi Electric Corp 音声認識装置
JP2001265367A (ja) * 2000-03-16 2001-09-28 Mitsubishi Electric Corp 音声区間判定装置
JP2004294659A (ja) * 2003-03-26 2004-10-21 Matsushita Electric Ind Co Ltd 音声認識装置
JP2004294814A (ja) * 2003-03-27 2004-10-21 Clarion Co Ltd 遠隔制御装置

Cited By (110)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11023513B2 (en) 2007-12-20 2021-06-01 Apple Inc. Method and apparatus for searching using an active ontology
US10381016B2 (en) 2008-01-03 2019-08-13 Apple Inc. Methods and apparatus for altering audio output signals
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
WO2009150894A1 (ja) * 2008-06-10 2009-12-17 日本電気株式会社 音声認識システム、音声認識方法および音声認識用プログラムが格納された記憶媒体
US8886527B2 (en) 2008-06-10 2014-11-11 Nec Corporation Speech recognition system to evaluate speech signals, method thereof, and storage medium storing the program for speech recognition to evaluate speech signals
US10108612B2 (en) 2008-07-31 2018-10-23 Apple Inc. Mobile device having human language translation capability with positional feedback
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10643611B2 (en) 2008-10-02 2020-05-05 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8566088B2 (en) 2008-11-12 2013-10-22 Scti Holdings, Inc. System and method for automatic speech to text conversion
JP2012508903A (ja) * 2008-11-12 2012-04-12 エスシーティアイ ホールディングス、インク 自動音声テキスト変換のためのシステムと方法
US10692504B2 (en) 2010-02-25 2020-06-23 Apple Inc. User profiling for voice input processing
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
KR101192813B1 (ko) 2010-12-14 2012-10-26 (주)이엔엠시스템 대기 상태에서 저주파 영역 음향에 대해서 음성인식을 수행하는 음성인식 시스템 및 그 제어방법
US10417405B2 (en) 2011-03-21 2019-09-17 Apple Inc. Device access using voice authentication
US10930289B2 (en) 2011-04-04 2021-02-23 Digimarc Corporation Context-based smartphone sensor logic
US9595258B2 (en) 2011-04-04 2017-03-14 Digimarc Corporation Context-based smartphone sensor logic
US10510349B2 (en) 2011-04-04 2019-12-17 Digimarc Corporation Context-based smartphone sensor logic
US10199042B2 (en) 2011-04-04 2019-02-05 Digimarc Corporation Context-based smartphone sensor logic
US11350253B2 (en) 2011-06-03 2022-05-31 Apple Inc. Active transport based notifications
JP2015501438A (ja) * 2011-09-23 2015-01-15 ディジマーク コーポレイション 状況(Context)に基づくスマートフォンセンサロジック
US11069336B2 (en) 2012-03-02 2021-07-20 Apple Inc. Systems and methods for name pronunciation
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US9142215B2 (en) 2012-06-15 2015-09-22 Cypress Semiconductor Corporation Power-efficient voice activation
WO2013188007A1 (en) * 2012-06-15 2013-12-19 Spansion Llc Power-efficient voice activation
JP2012185861A (ja) * 2012-07-03 2012-09-27 Toshiba Corp 操作装置及び操作方法
JP2014170984A (ja) * 2013-03-01 2014-09-18 Casio Comput Co Ltd 通信装置及びプログラム
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
JP2016521948A (ja) * 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
US11049094B2 (en) 2014-02-11 2021-06-29 Digimarc Corporation Methods and arrangements for device to device communication
JP2017515429A (ja) * 2014-03-11 2017-06-08 サウンドリー インコーポレイテッドSoundlly Inc. 低電力関連コンテンツ提供システム、方法、及びプログラムを記録したコンピューターで読むことができる記録媒体
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
US10417344B2 (en) 2014-05-30 2019-09-17 Apple Inc. Exemplar-based natural language processing
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US10657966B2 (en) 2014-05-30 2020-05-19 Apple Inc. Better resolution when referencing to concepts
US10714095B2 (en) 2014-05-30 2020-07-14 Apple Inc. Intelligent assistant for home automation
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
US10431204B2 (en) 2014-09-11 2019-10-01 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10438595B2 (en) 2014-09-30 2019-10-08 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10390213B2 (en) 2014-09-30 2019-08-20 Apple Inc. Social reminders
US10453443B2 (en) 2014-09-30 2019-10-22 Apple Inc. Providing an indication of the suitability of speech recognition
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US10529332B2 (en) 2015-03-08 2020-01-07 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10354652B2 (en) 2015-12-02 2019-07-16 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US10942702B2 (en) 2016-06-11 2021-03-09 Apple Inc. Intelligent device arbitration and control
US10580409B2 (en) 2016-06-11 2020-03-03 Apple Inc. Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10332518B2 (en) 2017-05-09 2019-06-25 Apple Inc. User interface for correcting recognition errors
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10847142B2 (en) 2017-05-11 2020-11-24 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US10789945B2 (en) 2017-05-12 2020-09-29 Apple Inc. Low-latency intelligent automated assistant
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
JP2020528610A (ja) * 2017-07-25 2020-09-24 トップ システム カンパニー リミテッドTop System Co., Ltd. Tv画面位置調節機の音声認識型遠隔制御装置
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10684703B2 (en) 2018-06-01 2020-06-16 Apple Inc. Attention aware virtual assistant dismissal
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US11495218B2 (en) 2018-06-01 2022-11-08 Apple Inc. Virtual assistant operation in multi-device environments
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
CN111380189A (zh) * 2020-03-27 2020-07-07 四川虹美智能科技有限公司 智能空调控制方法及智能空调
CN111380189B (zh) * 2020-03-27 2021-05-04 四川虹美智能科技有限公司 智能空调控制方法及智能空调

Also Published As

Publication number Publication date
JP4675840B2 (ja) 2011-04-27

Similar Documents

Publication Publication Date Title
JP4675840B2 (ja) リモートコントローラ並びに家電機器
CN108735209B (zh) 唤醒词绑定方法、智能设备及存储介质
JP6801095B2 (ja) 音声制御システム及びそのウェイクアップ方法、ウェイクアップ装置、並びに家電製品、コプロセッサ
US9779725B2 (en) Voice wakeup detecting device and method
CN110291489B (zh) 计算上高效的人类标识智能助理计算机
CN108231079B (zh) 用于控制电子设备的方法、装置、设备以及计算机可读存储介质
US20170256270A1 (en) Voice Recognition Accuracy in High Noise Conditions
US8972252B2 (en) Signal processing apparatus having voice activity detection unit and related signal processing methods
CN108711430B (zh) 语音识别方法、智能设备及存储介质
US10991372B2 (en) Method and apparatus for activating device in response to detecting change in user head feature, and computer readable storage medium
EP3693966A1 (en) System and method for continuous privacy-preserved audio collection
EP3890342B1 (en) Waking up a wearable device
CN109272991B (zh) 语音交互的方法、装置、设备和计算机可读存储介质
CN112102850B (zh) 情绪识别的处理方法、装置、介质及电子设备
KR102361458B1 (ko) 사용자 발화 응답 방법 및 이를 지원하는 전자 장치
WO2014130463A2 (en) Hybrid performance scaling or speech recognition
CN110265036A (zh) 语音唤醒方法、系统、电子设备及计算机可读存储介质
KR102563817B1 (ko) 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치
CN111599361A (zh) 一种唤醒方法、装置、计算机存储介质及空调器
CN109032345B (zh) 设备控制方法、装置、设备、服务端和存储介质
KR20190096308A (ko) 전자기기
CN115206306A (zh) 语音交互方法、装置、设备及系统
CN113808584B (zh) 语音唤醒方法、装置、电子设备及存储介质
CN112669837B (zh) 智能终端的唤醒方法、装置及电子设备
CN110262767A (zh) 基于靠近嘴部检测的语音输入唤醒装置、方法和介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080530

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110118

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110126

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140204

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees