JP2010217754A - 音声入力装置、音声認識システム及び音声認識方法 - Google Patents

音声入力装置、音声認識システム及び音声認識方法 Download PDF

Info

Publication number
JP2010217754A
JP2010217754A JP2009066659A JP2009066659A JP2010217754A JP 2010217754 A JP2010217754 A JP 2010217754A JP 2009066659 A JP2009066659 A JP 2009066659A JP 2009066659 A JP2009066659 A JP 2009066659A JP 2010217754 A JP2010217754 A JP 2010217754A
Authority
JP
Japan
Prior art keywords
voice
unit
voice input
distance
angle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009066659A
Other languages
English (en)
Other versions
JP5646146B2 (ja
Inventor
Kazunari Ouchi
一成 大内
Miwako Doi
美和子 土井
Ryohei Orihara
良平 折原
Daisuke Yamamoto
大介 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009066659A priority Critical patent/JP5646146B2/ja
Priority to PCT/JP2009/069642 priority patent/WO2010106711A1/ja
Publication of JP2010217754A publication Critical patent/JP2010217754A/ja
Priority to US13/209,618 priority patent/US8862466B2/en
Application granted granted Critical
Publication of JP5646146B2 publication Critical patent/JP5646146B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Abstract

【課題】音声入力のオンオフ制御を精度よく実現でき、音声認識の精度の向上が可能な音声入力装置を提供する。
【解決手段】 ユーザの音声を音声信号に変換する音声入力部14と、音声入力部14の角度を検出する角度検出部11と、音声入力部14とユーザとの距離を検出する距離検出部12と、検出された角度及び距離に基いて、音声入力部14のオンオフを制御する音声入力切替部15とを備える。
【選択図】図1

Description

本発明は、音声入力装置、音声認識システム及び音声認識方法に関する。
音声を機器に録音する装置としてボイスレコーダがある。ボイスレコーダは、録音動作中のマイク周辺の音を連続的に音声として録音する。このようにして録音したデータは、後からそのまま再生して音声として聴く場合に使われている。録音の開始および終了は、ユーザがボタン操作で指示する必要がある。
一方で、マイクに入力された音声を認識してテキストデータに変換する音声認識技術が広く使われている。音声認識技術には、孤立単語音声認識と連続音声認識とがある。どちらも入力された音声データを事前に構築した音声認識辞書を用いて照合し、最も尤度の高いテキストに自動的に変換することで、様々なサービスに展開を図るものである。
音声認識のオンオフ制御には、通常、プレストーク方式、プッシュトーク方式等が用いられる。プレストーク方式では、音声入力中ずっとボタンを押下し続ける。プッシュトーク方式では、音声入力開始だけをボタン押下で指示し、音声入力終了はシステム側が無音区間の検出を行うなどして自動的に行う。いずれの方式でも、ユーザが音声入力の際に、システムに対して自らのボタン操作で指示しなければならない。ユーザにとっては、ボタン操作が煩わしかったり、慣れるまでは適切なタイミングでボタン押下するのが難しかったりといった問題がある。
そこで、マイクを操作面以外の面に配置することで、発話時にマイク面が上向きになったことを検知して音声入力を自動でオンにすることが提案されている(例えば、特許文献1参照。)。しかしながら、マイク面の向きによってだけ音声入力のオンオフを切り替えることにすると、音声入力終了のためにはマイク面を上向きでない方向にする必要がある。また、マイク面が上向きになっている間は音声入力のオン状態が継続してしまう。
さらに、リモコンなど手持ち型の音声入力装置が抱える問題として、ユーザの口元とマイクの距離がユーザによってまちまちであるため、マイクゲイン、音声認識パラメータを適切にチューニングできない。このことは、ヘッドセット型マイクなどに比べて手持ち型マイクを用いた音声認識精度が低い理由の一つとして考えられる。
特開2008−51882号公報
本発明の目的は、音声入力のオンオフ制御を精度よく実現でき、音声認識の精度の向上が可能な音声入力装置、音声認識システム及び音声認識方法を提供することにある。
本発明の第1の態様によれば、(イ)ユーザの音声を音声信号に変換する音声入力部と、(ロ)音声入力部の角度を検出する角度検出部と、(ハ)音声入力部とユーザとの距離を検出する距離検出部と、(ニ)検出された角度及び距離に基いて、音声入力部のオンオフを制御する音声入力切替部とを備える音声入力装置が提供される。
本発明の第2の態様によれば、(イ)音声入力装置と、音声処理装置とを備え、音声入力装置が、(ロ)ユーザの音声を音声信号に変換する音声入力部と、(ハ)音声入力部の角度を検出する角度検出部と、(ニ)音声入力部とユーザとの距離を検出する距離検出部と、(ホ)検出された角度及び距離に基いて、音声入力部のオンオフを制御する音声入力切替部と、(ヘ)音声入力部から入力された音声信号を音声処理装置に送信する音声送信部とを備え、音声処理装置が、(ト)音声送信部から送信された音声信号を受信する音声受信部と、(チ)予め登録された複数の文字列を保管する音声認識辞書と、(ヌ)受信した音声信号の音声認識を行い、認識された音声信号に対応する候補文字列を複数の文字列から抽出する音声認識部と、(リ)候補文字列を表示する表示部とを備える音声認識システムが提供される。
本発明の第3の態様によれば、(イ)音声入力装置が有する音声入力部の角度と音声入力部とユーザとの距離を検出する段階、(ロ)角度及び距離がそれぞれ、設定角度及び設定距離の範囲内であれば発話動作の開始と判定する段階により、(ハ)音声入力部がユーザの音声を音声信号に変換し、音声入力装置が音声信号を音声処理装置に送信し、(ニ)音声信号を受信する段階、(ホ)受信した音声信号の音声認識を行う段階、(ヘ)認識された音声信号に対応する候補文字列を予め登録された複数の文字列から抽出する段階により、(ト)音声処理装置において前記候補文字列を表示することを含む音声認識方法が提供される。
本発明によれば、音声入力のオンオフ制御を精度よく実現でき、音声認識の精度の向上が可能な音声入力装置、音声認識システム及び音声認識方法を提供することが可能となる。
本発明の実施の形態に係る音声入力装置の一例を示すブロック図である。 本発明の実施の形態に係る音声入力装置の実装例を示す概略図である。 本発明の実施の形態に係る音声入力装置の使用イメージを示す概略図である。 本発明の実施の形態に係る音声入力装置に搭載した角度検出部および距離検出部の動作を説明する概略図である。 本発明の実施の形態に係る音声入力装置の角度検出の動作を説明する概略図である。 本発明の実施の形態に係る角度検出の測定結果の一例を示すグラフである。 本発明の実施の形態に係る距離検出の測定結果の一例を示すグラフである。 本発明の実施の形態に係る音声入力装置の動作の一例を示すフローチャートである。 本発明の実施の形態に係る音声入力装置の他の例を示すブロック図である。 本発明の実施の形態に係る音声入力システムの一例を示すブロック図である。 本発明の実施の形態に係る音声処理装置の音声認識開始、終了に関する説明を行うための模式図である。 本発明の実施の形態に係る音声処理装置の音声認識開始、終了に関する説明を行うための模式図である。 本発明の実施の形態に係る表示部の表示内容の一例を示す概略図(その1)である。 本発明の実施の形態に係る表示部の表示内容の一例を示す概略図(その2)である。 本発明の実施の形態に係る表示部の表示内容の一例を示す概略図(その3)である。 本発明の実施の形態に係る音声認識方法の一例を示すフローチャート(その1)である。 本発明の実施の形態に係る音声認識方法の一例を示すフローチャート(その2)である。 本発明の実施の形態の変形例に係る音声入力システムの一例を示すブロック図である。 本発明の実施の形態の変形例に係る音声入力装置の実装例を示す概略図である。 本発明の実施の形態の変形例に係る音声入力システムで使用されるコマンドパケットの一例を示す模式図である。 本発明の実施の形態に係る表示部の表示内容の一例を示す概略図である。 本発明の実施の形態に係る表示部の表示内容の一例を示す概略図である。 本発明の実施の形態の変形例に係る音声認識方法の一例を示すフローチャートである。
以下図面を参照して、本発明の形態について説明する。以下の図面の記載において、同一または類似の部分には同一または類似の符号が付してある。但し、図面は模式的なものであり、装置やシステムの構成等は現実のものとは異なることに留意すべきである。したがって、具体的な構成は以下の説明を参酌して判断すべきものである。また図面相互間においても互いの構成等が異なる部分が含まれていることは勿論である。
又、以下に示す本発明の実施の形態は、本発明の技術的思想を具体化するための装置や方法を例示するものであって、本発明の技術的思想は、構成部品の材質、形状、構造、配置等を下記のものに特定するものでない。本発明の技術的思想は、特許請求の範囲に記載された技術的範囲内において、種々の変更を加えることができる。
(第1の実施の形態)
本発明の第1の実施の形態に係る音声入力装置10は、図1に示すように、角度検出部11、距離検出部12、発話動作判定部13、音声入力部14、音声入力切替部15、及び音声送信部16を備える。音声入力部14は、ユーザの音声を音声信号に変換する。角度検出部11は、音声入力部14の角度を検出する。距離検出部12は、音声入力部14とユーザの口元との距離を検出する。発話動作判定部13は、検出された角度及び距離に基いてユーザの発話動作の開始及び終了を判定する。音声入力切替部15は、発話動作判定部13の出力により、音声入力部14のオンオフを制御する。音声送信部16は、音声入力部14から入力された音声信号を外部機器に送信する。
音声入力装置10は、図2に示すように、筐体40に実装される。距離検出部12と音声入力部14が筐体40の上面に配置される。角度検出部11、発話動作判定部13、音声入力切替部15、音声送信部16等はすべて、筐体40の内部に配置される。ユーザは、図3に示すように、音声入力装置10を手に持って、音声入力部14に向かって発話する。
角度検出部11として、加速度センサや、機械式の傾斜センサ等の角度検出器が用いられる。例えば、加速度センサの場合は、加速度センサの検出軸方向にかかる重力加速度(1G)を測定することで角度を検出することができる。加速度センサの検出軸は、少なくとも1軸あれば音声入力装置10の角度は検出可能である。
角度検出部11として、3軸加速度センサを内蔵した場合について説明する。図4に示すように、音声入力装置10の上面において、音声入力部と平行方向及び直交方向にX軸及びY軸を定義し、上面に直交する方向にZ軸を定義する。角度検出部11において、Y軸あるいはZ軸の方向で重力加速度(鉛直方向)に対する角度を検出することにより、ユーザの口元に対する角度を検出することができる。
図5に示すように、図4に示した音声入力装置10を水平面に置いた状態から手にとって口元に近づける動作区間M1、発話動作区間M2、及び発話後は最初の位置に戻す動作区間M3の一連の動作を連続で5回行う。図6には、角度検出部11として3軸加速度センサを用いた場合の各動作区間での出力波形が示されている。X軸方向に比べて、Y軸方向及びZ軸方向において一連の動作に伴う重力加速度が顕著に変化していることがわかる。例えば、Z軸方向を角度検出に用いる場合、発話動作時の角度検出に関する重力加速度の閾値(設定角度)を、例えば−0.7G程度に設定することで、発話動作を識別できる。
距離検出部12は、図2に示したように、音声入力部14の近くに配置され、音声入力部14とユーザの口元との距離(d)を測定する。距離dの測定には、位置検出素子(PSD)、電荷結合素子(CCD)や相補型金属酸化膜半導体(CMOS)等の受光素子を用いる光学センサ、超音波センサなどが用いられる。図7には、距離検出部12としてPSDを用いた光学センサの出力形式を示す。図7に示すように、距離検出部12として、設定距離の範囲Rdで出力電圧V1、設定距離範囲外で出力電圧V2となる出力形式Caを有する光学センサを用いてもよい。また、距離検出部12として、距離に応じて出力電圧が変化する出力形式Cbを有する光学センサを用いてもよい。出力形式Cbを有する光学センサにおいては、例えば、設定距離範囲Rdの下限距離Dl及び上限距離Duに対応して、出力電圧V3及びV4が出力される。
音声入力部14として、マイクロフォンが用いられる。音声入力部14に、マイクロフォンの増幅回路が含まれてもよい。発話動作判定部13及び音声入力切替部15は、専用のハードウェアで構成しても良く、通常の中央演算処理ユニット(CPU)等を用いて、ソフトウェアで実質的に等価な機能を有していても構わない。音声送信部16として、外部の音声処理装置に音声信号を送信する無線あるいは有線の通信器等が用いられる。
第1の実施の形態においては、ユーザが音声入力装置10を口元に近づけて発話するという自然な動作により音声入力の開始及び終了を自動的に切り替えることができる。したがって、ユーザは、音声入力に際して、開始及び終了をボタン等の操作で指示する必要がない。したがって、ボタンの押し忘れを防止することができる。
通常の音声入力装置においては、角度検出部11及び距離検出部12の一方だけ使用して発話動作が判定される。例えば、角度検出部11で音声入力装置10の角度だけを測定して発話動作を判定する。この場合、ユーザが単に音声入力装置10を手にとって別の場所に設定角度の範囲内のまま放置しても、発話動作と判定されてしまう。また、距離検出部12で口元と音声入力部14との距離だけを測定して発話動作を判定する。この場合、音声入力装置10がどこかに放置されている時に、口元以外のもの、例えば手等の身体の一部が音声入力部14の近くを通りかかった場合にも発話動作と判定されてしまう。
第1の実施の形態においては、角度検出部11及び距離検出部12の両方を用いて、発話動作が判定される。したがって、角度検出部11及び距離検出部12の一方だけ使用した場合に生じる発話動作の誤認識等の問題点を解決することができる。
また、音声入力の際には、音声入力部14と口元の距離が、入力される音質や音量等に大きく影響する。第1の実施の形態では、用途に応じて音声入力部14と口元の設定距離範囲を適切に設定することができる。したがって、発話動作判定部13により、適切な音声入力部14と口元の適切な距離で音声入力ができ、高品質の音声信号を得ることができる。
なお、角度検出部11及び距離検出部12による角度検出及び距離検出は、同時に行ってもよく、一方の検出結果が設定範囲内になってから他方の検出を行ってもよい。例えば、角度検出部11として、加速度センサを用い、距離検出部12の受光素子として、PSDを用いる場合は、角度検出を常時行い、距離検出は、角度が設定範囲内になってから実施するのが望ましい。例えば、加速度センサ及びPSDを用いる距離センサの消費電量はそれぞれ、約0.8mW〜約1.5mW及び約0.1W〜約0.2Wである。加速度センサの消費電力は、距離センサに比べて極めて低い。したがって、バッテリ駆動の音声入力装置において角度検出を常時行っても、バッテリの駆動時間の低減を抑制することができる。距離センサにおいては、消費電力が大きな発光素子等が使用されているため、必要な時だけ距離検出を行うことが望ましい。
次に、第1の実施の形態に係る音声入力装置10の動作を、図8のフローチャートを参照しながら説明する。角度検出部11及び距離検出部12として、それぞれ加速度センサ及びPSDを用いた距離センサが用いられる。音声入力装置10の初期状態では、音声入力部14は、音声の入力及び増幅がオフの状態である。
ステップS100で、角度検出部11により、予め定められたサンプリング周波数、例えば20Hzで音声入力部14のユーザの口元に対する角度が測定される。例えば、角度検出部11のZ軸方向の重力加速度が測定される。
ステップS101で、発話動作判定部13により、角度検出部11で検出された角度が、予め設定された設定角度の範囲内かどうか判定される。例えば、設定角度範囲は、Z軸方向の重力加速度が−0.7G以上である。検出された角度が設定角度の範囲内でなければ、ステップS100に戻って角度測定を続行する。検出された角度が、設定角度の範囲内であれば、ステップS102に進む。
ステップS102で、距離検出部12により、予め定められたサンプリング周波数、例えば20Hzで音声入力部14とユーザの口元の距離が測定される。
ステップS103で、発話動作判定部13により、距離検出部12で検出された距離が、予め設定された設定距離の範囲内かどうか判定される。例えば、設定距離は、2cm〜10cmの範囲である。検出された距離が設定距離範囲内でなければ、ステップS102に戻り距離測定を続行する。検出された距離が設定距離範囲内であれば、ステップS104に進む。
ステップS104で、角度検出部11により、角度測定が行なわれる。ステップS105で、発話動作判定部13により、角度が引き続き設定角度範囲内にあるかどうか判定される。角度が設定角度範囲外になった場合は、ステップS100に戻り角度測定を続行する。角度が引き続き設定角度範囲内にある場合、ステップS106に進む。
ステップS106で、発話動作判定部13から、発話動作が開始されたことが音声入力切替部15に出力される。音声入力切替部15により、音声入力部14がオン状態にされ、音声入力が開始される。音声入力部14により、入力された音声が、音声信号に変換され増幅される。ステップS107で、音声送信部16により、増幅された音声信号が外部の音声処理装置に送信される。
ステップS108で、距離検出部12により、音声信号の送信中も継続して距離の測定が行なわれる。ステップS109で、発話動作判定部13により、検出された距離が、引き続き設定距離の範囲内かどうか判定される。検出された距離が設定距離範囲外であれば、ステップS112で、発話動作判定部13から、発話動作が終了されたことが音声入力切替部15に出力される。音声入力切替部15により、音声入力部14がオフにされ、音声入力が終了する。ステップS113で、音声入力の終了と同時に、音声信号の送信を停止する。検出された距離が設定距離範囲内であれば、ステップS110に進む。
ステップS110で、角度検出部11により、角度測定が行なわれる。ステップS111で、発話動作判定部13により、検出された角度が、引き続き設定角度範囲内にあるかどうか判定される。検出された角度が設定角度範囲外であれば、ステップS112で、音声入力を終了し、同時にステップS113で、音声信号の送信を停止する。角度が引き続き設定角度範囲内であれば、ステップS107に戻り、角度及び距離の少なくとも一方が設定範囲外になるまで音声信号の送信を続行する。
第1の実施の形態においては、ユーザは、音声入力に際して、開始及び終了をボタン等の操作で指示する必要がない。自然な発話動作に応じて音声入力装置10が適切に音声入力の開始及び終了を切り替える。したがって、ユーザの音声入力時の操作を軽減できる。特に、機器操作に不慣れなユーザにも使いやすく、ボタンの押し忘れ等を防止することができる。また、角度検出部11及び距離検出部12の両方を用いて、発話動作が判定される。したがって、角度検出部11及び距離検出部12の一方だけ使用した場合に生じる発話動作の誤認識等の問題点を解決することができる。更に、用途に応じて音声入力部14と口元の設定距離範囲を適切に設定することができる。したがって、音声入力部14と口元の適切な距離で音声入力ができ、高品質の音声信号を得ることができる。
なお、ステップS101で、検出された角度が設定角度の範囲内であることが判定された後、検出されたが距離が設定距離の範囲になるまでの時間を測定してもよい。検出された距離が、予め設定された時間内に設定距離範囲内に入らなければ、距離の測定を停止する。例えば、設定角度の範囲内の角度で音声入力装置10が放置されているときに、口元以外の何かが音声入力部14に近づくような場合の誤動作を防止することが可能となる。
また、上記の説明では、音声入力装置10には、外部の音声処理装置に音声信号を送信する音声送信部16が設けられている。しかし、図9に示すように、音声入力装置10aとして、音声送信部16の代わりに音声記録部17を設けてもよい。この場合、音声入力装置10aは、音声を録音するボイスレコーダとして用いられる。
(第2の実施の形態)
本発明の第2の実施の形態に係る音声認識システムは、図10に示すように、音声入力装置10b、及び音声処理装置20を備える。音声入力装置10bは、角度検出部11、距離検出部12、発話動作判定部13、音声入力部14、音声入力切替部15、音声送信部16、及びコマンド送信部18を備える。音声処理装置20は、コマンド受信部21、音声受信部22、処理制御部23、音声認識部24、音声認識辞書25、及び表示部26を備える。
第2の実施の形態に係る音声認識システムの音声入力装置10bは、コマンド送信部18を有している点が、第1の実施の形態と異なる。他の構成は、第1の実施の形態と同様であるので、重複する記載は省略する。
音声入力装置10bのコマンド送信部18は、発話動作判定部13で判定された発話状態に応じて制御コマンドを生成して音声処理装置20に送信する。例えば、制御コマンドとして、発話動作の開始及び終了に応じて開始コマンド及び終了コマンドが送信される。また、制御コマンドとして、音声入力部14と口元の距離に応じて誘導コマンドが送信される。コマンド送信部18として、無線あるいは有線の通信器等が用いられる。
音声処理装置20の音声受信部22は、音声入力装置10bの音声送信部16から送信された音声信号を受信する。音声認識辞書25は、音声認識処理のために予め登録された複数の文字列の音声パターンデータを保管する。音声認識部24は、音声受信部22で受信された音声信号の音声認識を行い、音声認識辞書25に登録された複数の文字列の中から、認識された音声信号に対応する候補文字列を抽出する。表示部26は、抽出された候補文字列を表示する。
コマンド受信部21は、コマンド送信部18から送信された制御コマンドを受信する。処理制御部23は、コマンド受信部21で受信された制御コマンドに応じて音声処理装置20で実行される処理を制御する。
例えば、音声入力装置10bにおいて、発話動作判定部13は、ユーザの発話状態を判定して、音声入力切替部15及びコマンド送信部18に判定結果を伝達する。音声入力切替部15は、判定結果に応じて音声入力部14をオンオフし、音声入力の開始及び終了を行う。音声送信部16は、音声入力部14で取得された音声信号を音声処理装置20に送信する。コマンド送信部18は、判定結果に応じて音声処理装置20に開始コマンド及び終了コマンドを送信する。
図11に示すように、時間Tsで、音声処理装置20のコマンド受信部21が開始コマンドを受信する。処理制御部23は、コマンド受信部21から伝達された開始コマンドに応じて、音声受信部22に音声信号の受信を開始させる。また、処理制御部23は、音声認識部24に音声受信部22で取得された音声信号の音声認識を開始させる。音声認識としては、孤立単語音声認識、あるいは連続音声認識など、用途に応じて任意の音声認識処理を行えば良い。
時間Teで、コマンド受信部21が終了コマンドを受信する。処理制御部23は、コマンド受信部21から伝達された終了コマンドに応じて、音声受信部22に音声信号の受信を終了させる。また、処理制御部23は、音声認識部24に音声認識を終了させる。
音声認識終了後、音声認識部24は、取得された音声信号を解析して文字データに変換する。例えば、音声信号と、音声認識辞書25に登録された複数の文字列の音声パターンデータとを比較して、尤度が高い候補文字列を抽出する。表示部26は、抽出された候補文字列を表示する。音声認識部24で実施される音声認識は、一般的に実施される音声認識プロセスを用いることができる。
なお、音声認識は、音声入力装置10bから終了コマンドを受信して終了しているが、音声認識終了の方法は限定されない。例えば、処理制御部23により、音声受信部22が受信する音声信号のレベルをモニタし、一定時間の無音区間が検出されれば音声認識を終了させてもよい。図12に示すように、無音区間検出の時間Tdが終了コマンド受信の時間Teよりも先の時間Tdで無音区間が検出されれば、時間Tdで音声認識が終了される。
ユーザの口元と音声入力装置10bの音声入力部14との距離を設定距離範囲に誘導する制御コマンドを用いてもよい。例えば、発話動作判定部13が、距離検出部12で検出された距離が設定距離範囲より遠いと判定した場合、判定結果をコマンド送信部18に伝達する。コマンド送信部18は、口元を音声入力部14に近づけさせる誘導コマンドを音声処理装置20に送信する。図13に示すように、音声処理装置20の処理制御部23は、コマンド受信部21で受信された誘導コマンドに応じて表示部26に誘導メッセージとして「口元をマイクロフォンに近づけてください」と表示させる。
発話動作判定部13が、距離検出部12で検出された距離が設定距離範囲より近いと判定した場合は、コマンド送信部18は、口元を音声入力部14から離させる誘導コマンドを音声処理装置20に送信する。図14に示すように、処理制御部23は、コマンド受信部21で受信された誘導コマンドに応じて表示部26に誘導メッセージとして「口元をマイクロフォンから少し離してください」と表示させる。
このように、ユーザは、表示部26の表示に応じて、設定距離の範囲内に適切に誘導される。したがって、口元と音声入力部14の距離のばらつきを低減することができ、手持ちの音声入力装置10bの音声認識精度の低下を防止することが可能となる。
なお、図15に示すように、誘導メッセージの代わりに、距離メータ表示を用いてもよい。現在の口元と音声入力部14との距離が表示マーク50により表示部26に表示された距離メータに示される。また、誘導メッセージは、表示部26に表示されるだけでなく、音声合成等により音声としてユーザに通知してもよい。
次に、第2の実施の形態に係る音声認識方法を、図16及び図17のフローチャートを用いて説明する。音声入力装置10bの初期状態では、音声入力部14は、音声の入力及び増幅がオフの状態である。音声処理装置20の初期状態では、コマンド受信部21及び音声受信部22が受信待機状態である。
ステップS210で、角度検出部11により、音声入力部14の角度が測定される。ステップS211で、発話動作判定部13により、角度検出部11で検出された角度が、予め設定された設定角度の範囲内かどうか判定される。検出された角度が設定角度の範囲内でなければ、ステップS210に戻って角度測定を続行する。検出された角度が、設定角度の範囲内であれば、ステップS212で、発話動作判定部13により、時間測定が開始される。
ステップS213で、距離検出部12により、音声入力部14とユーザの口元の距離が測定される。ステップS214で、発話動作判定部13により、測定時間が設定時間内かどうか判定される。測定時間が設定時間を超えていれば、ステップS215で、角度検出部11による角度測定が続行される。ステップS216で、発話動作判定部13により、検出された角度に変化が認められたら、ステップS210に戻る。検出角度に変化が無ければ、ステップS215に戻り角度測定を続行する。
発話動作判定部13により、ステップS214で測定時間が設定時間内と判定されれば、ステップS217で、発話動作判定部13により、距離検出部12で検出された距離が、設定距離の範囲内かどうか判定される。検出された距離が設定距離範囲内でなければ、ステップS218で、コマンド送信部18により、検出された距離に応じて誘導コマンドが送信される。ユーザは、誘導コマンドに応じて音声処理装置20の表示部26に表示された誘導メッセージ等にしたがって、口元と音声入力部14との距離を調整する。ステップS213に戻り、距離検出部12により、距離測定を続行する。
検出された距離が設定距離範囲内であれば、ステップS219で、角度検出部11により、角度測定が行なわれる。ステップS220で、発話動作判定部13により、角度が引き続き設定角度範囲内にあるかどうか判定される。角度が設定角度範囲外になった場合は、ステップS210に戻り角度測定を続行する。角度が引き続き設定角度範囲内にあれば、発話動作判定部13から、発話動作が開始されたことが音声入力切替部15及びコマンド送信部18に伝達される。
ステップS221で、コマンド送信部18により、開始コマンドが音声処理装置20に送信される。ステップS222で、音声入力切替部15により、音声入力部14がオン状態にされ、音声入力が開始される。音声入力部14により、入力された音声が、音声信号に変換され増幅される。ステップS223で、音声送信部16により、増幅された音声信号が音声処理装置20に送信される。
ステップS224で、距離検出部12により、音声信号の送信中も継続して距離の測定が行なわれる。ステップS225で、発話動作判定部13により、検出された距離が、引き続き設定距離の範囲内かどうか判定される。検出された距離が設定距離範囲外であれば、ステップS228で、コマンド送信部18により、終了コマンドが音声処理装置20に送信される。また、音声入力切替部15により、音声入力部14がオフにされ、音声入力が終了する。ステップS229で、音声送信部16による音声信号の送信を停止する。
ステップS224で検出された距離が設定距離範囲内であれば、ステップS226で、角度検出部11により、角度測定が行なわれる。ステップS227で、発話動作判定部13により、検出された角度が、引き続き設定角度範囲内にあるかどうか判定される。検出された角度が設定角度範囲外であれば、ステップS228で、コマンド送信部18により、終了コマンドが送信される。ステップS229で、音声送信部16による音声信号の送信を停止する。角度が引き続き設定角度範囲内であれば、ステップS223に戻り、角度及び距離の少なくとも一方が設定範囲外になるまで音声信号の送信を続行する。
ステップS300で、音声処理装置20のコマンド受信部21により、ステップS221でコマンド送信部18から送信された開始コマンドが受信される。ステップS301で、音声受信部22により、ステップS223で音声送信部16から送信された音声信号が受信される。
ステップS302で、処理制御部23により、コマンド受信部21で受信された開始コマンドが音声認識部24に伝達され音声認識が開始される。また、処理制御部23により、音声受信部22の受信する音声信号のレベルがモニタされる。
ステップS303で、処理制御部23により、コマンド受信部21が終了コマンドを受信したか判定される。終了コマンドが受信されてなければ、ステップS306で、処理制御部23により、音声受信部22において無音区間が検出されたか判定される。無音区間が検出されていなければ、ステップS302に戻り音声認識が続行される。
ステップS303で終了コマンドが受信されていれば、ステップS304で、音声認識が終了される。また、ステップS306で無音区間が検出されれば、ステップS304で、音声認識が終了される。音声認識終了後、ステップS305で、音声認識結果が表示される。
第2の実施の形態においては、ユーザは、音声入力に際して、開始及び終了をボタン等の操作で指示する必要がない。したがって、ボタンの押し忘れを防止することができる。また、角度検出部11及び距離検出部12の両方を用いて、発話動作が判定される。したがって、角度検出部11及び距離検出部12の一方だけ使用した場合に生じる発話動作の誤認識等の問題点を解決することができる。距離測定の時間により、誤動作を判定することができる。更に、誘導コマンドにより迅速に音声入力部14と口元の設定距離範囲を適切に設定することができる。したがって、音声入力部14と口元の適切な距離で音声入力ができ、高品質の音声信号を得ることができる。
(第2の実施の形態の変形例)
本発明の第2の実施の形態の変形例に係る音声入力システムは、図18に示すように、音声入力装置10cと音声処理装置20を備える。音声入力装置10cは、角度検出部11、距離検出部12、発話動作判定部13、音声入力部14、音声入力切替部15、音声送信部16、コマンド送信部18、及び操作部19を備える。操作部19は、コマンド送信部18に制御コマンドとして操作コマンドを送信させて、音声処理装置20の音声認識結果に基づいた様々なサービスを操作する。
第2の実施の形態の変形例に係る音声認識システムは、音声入力装置10cに操作部19が設けられている点が、第2の実施の形態と異なる。他の構成は、第2の実施の形態と同様であるので、重複する記載は省略する。
音声入力装置10は、図19に示すように、筐体40に実装される。距離検出部12、音声入力部14及び操作部19が、筐体40の上面に配置される。操作部19には、例えば、上下左右の選択ボタン及び決定ボタンが配置される。選択ボタンの操作により、操作コマンドとして選択コマンドが送信される。決定ボタンの操作により、操作コマンドとして決定コマンドが送信される。コマンド受信部21で受信された操作コマンドは、処理制御部23により、操作コマンドに対応する処理が実行される。
例えば、音声処理装置20の表示部26に複数の選択候補が表示されている場合、操作部19の選択ボタンの押下により選択候補の中から対象候補を選択する。選択した対象候補に対して、決定ボタンの押下により対象候補に対する操作が実施される。
また、操作コマンドのそれぞれに、キャラクタ一文字を割り当ててもよい。あるいは、図20に示すように、「ヘッダ」、「データ長」、「コマンド」、「チェックサム」等を有するパケットを操作コマンドに割り当ててもよい。
例えば、音声処理装置20の音声認識部24が、音声認識終了後、取得された音声信号を解析する。音声信号と、音声認識辞書25に登録された複数の文字列の音声パターンデータとを比較して、尤度が高い順に複数の候補文字列を抽出する。抽出された複数の候補文字列が、表示部26に表示される。
例えば、キーワードを音声認識させて、テレビ番組の検索を行う場合について説明する。図21に示すように、「とうしばたろう」と音声入力した場合、「東芝太郎(とうしばたろう)」が一番尤度が高く、一番目の候補文字列として表示される。以下、二番目、三番目の候補文字列まで表示されている。候補文字列の表示数は、尤度の上位から所定の数だけ表示する、あるいは尤度が所定値以上のものをすべて表示するなど、あらかじめ表示条件を決めておけばよい。候補文字列の表示数が多い場合は、タイル状(二次元)に候補文字列を配置して表示してもよい。候補文字列の表示条件に合致する候補が一つもなかった場合は、「音声認識失敗」等を表示部26に表示する。候補文字列表示後は、再びコマンド受信待ちに戻り、操作部19による候補選択あるいは音声の再入力を待つ。
図21に示したように、表示部26では、「東芝太郎(とうしばたろう)」が選択候補文字列である。これに対して、操作部19の「選択ボタン」の「下方向」を押下して、選択コマンドを送信すると、選択候補文字列を「東芝太郎(とうしばたろう)」から一つ下の「遠島治郎(とおしまじろう)」に移動させる。このように、上下左右の方向ボタンは、選択候補文字列を移動させる目的に使用できる。
また、「東芝太郎(とうしばたろう)」が候補となっている状態で「決定ボタン」を押下して選択コマンドを送信すると、「東芝太郎」をキーワードにテレビ番組検索が実施される。図22に示すように、該当する番組候補のリストが表示部26に表示される。図22に示した番組候補の中から対象番組候補、例えば10月12日19:00から放送の「家電ちゃん」を「選択ボタン」により選択し、「決定ボタン」を押下すると対象番組候補の詳細情報が確認できる。更に、操作部19により、予約などの操作を実施することができる。
次に、第2の実施の形態の変形例に係る音声認識方法を、図23のフローチャートを用いて説明する。音声入力装置10cの動作は、図16のフローチャートと同様である。
ステップS300で、音声処理装置20のコマンド受信部21により、開始コマンドが受信される。ステップS301で、音声受信部22により、音声信号が受信される。ステップS302で、処理制御部23により、音声認識が開始される。また、処理制御部23により、音声受信部22の受信する音声信号のレベルがモニタされる。
ステップS303で、処理制御部23により、コマンド受信部21が終了コマンドを受信したか判定される。終了コマンドが受信されてなければ、ステップS306で、処理制御部23により、音声受信部22において無音区間が検出されたか判定される。無音区間が検出されていなければ、ステップS302に戻り音声認識が続行される。
ステップS303で終了コマンドが受信されていれば、ステップS304で、音声認識が終了される。また、ステップS306で無音区間が検出されれば、ステップS304で、音声認識が終了される。音声認識終了後、ステップS305で、音声認識結果が表示される。
ステップS307で、音声入力装置10cの操作部19により、操作コマンドが生成される。コマンド送信部18により送信された操作コマンドは、コマンド受信部21により受信される。操作コマンドは、処理制御部23に伝達される。
ステップS308で、処理制御部23により、音声認識結果に対して操作コマンドに応じた処理が実行される。
上述のように、音声入力装置10cにおいては、操作部19の操作により操作コマンドを生成している。しかし、操作コマンドの生成方法は限定されない。例えば、操作コマンドを音声入力で行ってもよい。
また、音声処理装置20においては、音声認識が実行されている。しかし、音声処理装置に音声記録部を設けて録音機能を持たせてもよい。
(その他の実施の形態)
上記のように、本発明の実施の形態を記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者にはさまざまな代替実施の形態、実施例及び運用技術が明らかとなろう。
本発明の第1及び第2の実施の形態においては、音声入力装置10、10b、10cの音声入力の開始や音声信号の送信が、発話状態の判定結果によりオンオフされている。音声入力の開始や音声信号の送信をオンオフせずに、常に音声入力を行い、かつ音声信号を送信し続けてもよい。この場合、発話状態の判定結果を制御コマンドとして送信して音声認識のオンオフを切り替える。
このように、本発明はここでは記載していないさまざまな実施の形態等を含むことは勿論である。したがって、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係わる発明特定事項によってのみ定められるものである。
10、10a、10b、10c…音声入力装置
11…角度検出部
12…距離検出部
13…発話動作判定部
14…音声入力部
15…音声入力切替部
16…音声送信部
18…コマンド送信部
19…操作部
20…音声処理装置
21…コマンド受信部
22…音声受信部
23…処理制御部
24…音声認識部
25…音声認識辞書
26…表示部

Claims (8)

  1. ユーザの音声を音声信号に変換する音声入力部と、
    前記音声入力部の角度を検出する角度検出部と、
    前記音声入力部と前記ユーザとの距離を検出する距離検出部と、
    検出された前記角度及び前記距離に基いて、前記音声入力部のオンオフを制御する音声入力切替部
    とを備えることを特徴とする音声入力装置。
  2. 音声入力装置と、音声処理装置とを備え、前記音声入力装置が、
    ユーザの音声を音声信号に変換する音声入力部と、
    前記音声入力部の角度を検出する角度検出部と、
    前記音声入力部と前記ユーザとの距離を検出する距離検出部と、
    検出された前記角度及び前記距離に基いて前記音声入力部のオンオフを制御する音声入力切替部と、
    前記音声入力部から入力された前記音声信号を前記音声処理装置に送信する音声送信部
    とを備え、前記音声処理装置が、
    前記音声送信部から送信された前記音声信号を受信する音声受信部と、
    予め登録された複数の文字列を保管する音声認識辞書と、
    受信した前記音声信号の音声認識を行い、認識された前記音声信号に対応する候補文字列を前記複数の文字列から抽出する音声認識部と、
    前記候補文字列を表示する表示部
    とを備えることを特徴とする音声認識システム。
  3. 前記音声入力切替部は、前記角度検出部により検出された前記角度が設定角度の範囲内のときに前記距離検出部をオンにすることを特徴とする請求項2に記載の音声認識システム。
  4. 前記音声入力装置が、
    前記音声処理装置による処理を制御する制御コマンドを前記音声処理装置に送信するコマンド送信部を更に備え、
    前記音声処理装置が、
    前記制御コマンドを受信するコマンド受信部と、
    前記制御コマンドに応じて前記音声処理装置による処理を制御する処理制御部
    とを更に備えることを特徴とする請求項2又は3に記載の音声認識システム。
  5. 前記制御コマンドが、前記発話動作の開始及び終了に応じて生成され、前記音声認識部のオンオフを切り替える開始コマンド及び終了コマンドを含むことを特徴とする請求項4に記載の音声認識システム。
  6. 前記制御コマンドが、検出された前記距離が設定距離の範囲内になるように前記ユーザを誘導する誘導コマンドを含むことを特徴とする請求項4又は5に記載の音声認識システム。
  7. 前記音声入力装置が、前記表示部に表示された前記候補文字列に対して定められた操作を行う操作コマンドを前記制御コマンドとして生成する操作部を更に備えることを特徴とする請求項4〜6のいずれか1項に記載の音声認識システム。
  8. 音声入力装置が有する音声入力部の角度と前記音声入力部と前記ユーザとの距離を検出する段階、前記角度及び前記距離がそれぞれ、設定角度及び設定距離の範囲内であれば発話動作の開始と判定する段階により、前記音声入力部が前記ユーザの音声を音声信号に変換し、前記音声入力装置が前記音声信号を音声処理装置に送信し、
    前記音声信号を受信する段階、受信した前記音声信号の音声認識を行う段階、認識された前記音声信号に対応する候補文字列を予め登録された複数の文字列から抽出する段階により、前記音声処理装置において前記候補文字列を表示する
    ことを含むことを特徴とする音声認識方法。
JP2009066659A 2009-03-18 2009-03-18 音声入力装置、音声認識システム及び音声認識方法 Expired - Fee Related JP5646146B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009066659A JP5646146B2 (ja) 2009-03-18 2009-03-18 音声入力装置、音声認識システム及び音声認識方法
PCT/JP2009/069642 WO2010106711A1 (ja) 2009-03-18 2009-11-19 音声入力装置、音声認識システム及び音声認識方法
US13/209,618 US8862466B2 (en) 2009-03-18 2011-08-15 Speech input device, speech recognition system and speech recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009066659A JP5646146B2 (ja) 2009-03-18 2009-03-18 音声入力装置、音声認識システム及び音声認識方法

Publications (2)

Publication Number Publication Date
JP2010217754A true JP2010217754A (ja) 2010-09-30
JP5646146B2 JP5646146B2 (ja) 2014-12-24

Family

ID=42739377

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009066659A Expired - Fee Related JP5646146B2 (ja) 2009-03-18 2009-03-18 音声入力装置、音声認識システム及び音声認識方法

Country Status (3)

Country Link
US (1) US8862466B2 (ja)
JP (1) JP5646146B2 (ja)
WO (1) WO2010106711A1 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013128508A1 (ja) * 2012-02-27 2013-09-06 Necカシオモバイルコミュニケーションズ株式会社 音声入力装置、音声入力方法及びプログラム
WO2013187137A1 (ja) * 2012-06-15 2013-12-19 株式会社ニコン 電子機器
WO2015029296A1 (ja) * 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声認識方法及び音声認識装置
JP2015211331A (ja) * 2014-04-25 2015-11-24 Smk株式会社 リモートコントロールシステム及びリモートコントローラ
US9268524B2 (en) 2011-07-22 2016-02-23 Sony Corporation Information processing apparatus, information processing method, and computer readable medium
JP2016029466A (ja) * 2014-07-16 2016-03-03 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声認識テキスト化システムの制御方法および携帯端末の制御方法
CN106030700A (zh) * 2014-02-19 2016-10-12 诺基亚技术有限公司 至少部分地基于空间音频属性来确定操作指令
WO2018056169A1 (ja) * 2016-09-21 2018-03-29 日本電気株式会社 対話装置、処理方法、プログラム
JP2019015773A (ja) * 2017-07-04 2019-01-31 富士ゼロックス株式会社 情報処理装置およびプログラム
WO2020121474A1 (ja) * 2018-12-13 2020-06-18 三菱電機株式会社 情報処理装置、音声認識システム、制御方法、及び制御プログラム
JP2020109654A (ja) * 2019-01-03 2020-07-16 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド モバイル端末における音声認識機能のウェイクアップ方法及び装置
JP2020527734A (ja) * 2017-07-10 2020-09-10 サムスン エレクトロニクス カンパニー リミテッド 遠隔制御装置及び遠隔制御装置のユーザ音声受信方法

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011055410A1 (ja) 2009-11-06 2011-05-12 株式会社 東芝 音声認識装置
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
JP5771002B2 (ja) 2010-12-22 2015-08-26 株式会社東芝 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機
JP5695447B2 (ja) 2011-03-01 2015-04-08 株式会社東芝 テレビジョン装置及び遠隔操作装置
US9805721B1 (en) * 2012-09-21 2017-10-31 Amazon Technologies, Inc. Signaling voice-controlled devices
CN104715753B (zh) * 2013-12-12 2018-08-31 联想(北京)有限公司 一种数据处理的方法及电子设备
CN103971682A (zh) * 2014-05-14 2014-08-06 哈尔滨工程大学 一种冰雪机器人的语音控制方法
CN105528385B (zh) 2014-10-15 2020-11-20 松下电器(美国)知识产权公司 信息取得方法、信息取得系统以及信息取得程序
CN104751852B (zh) * 2015-03-20 2018-07-24 广东小天才科技有限公司 一种声音处理的方法和装置
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
US11170757B2 (en) * 2016-09-30 2021-11-09 T-Mobile Usa, Inc. Systems and methods for improved call handling
CN106653025A (zh) * 2017-01-10 2017-05-10 四川长虹电器股份有限公司 智能电视语音遥控器及其语音控制方法
TWI672690B (zh) * 2018-03-21 2019-09-21 塞席爾商元鼎音訊股份有限公司 人工智慧語音互動之方法、電腦程式產品及其近端電子裝置
US11218802B1 (en) * 2018-09-25 2022-01-04 Amazon Technologies, Inc. Beamformer rotation
JP7202853B2 (ja) * 2018-11-08 2023-01-12 シャープ株式会社 冷蔵庫
JP2021081533A (ja) * 2019-11-18 2021-05-27 富士通株式会社 音信号変換プログラム、音信号変換方法、及び、音信号変換装置
JP7467314B2 (ja) * 2020-11-05 2024-04-15 株式会社東芝 辞書編集装置、辞書編集方法、及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07307989A (ja) * 1994-05-13 1995-11-21 Matsushita Electric Ind Co Ltd 音声入力装置
JP2002165119A (ja) * 2000-09-12 2002-06-07 Canon Inc カメラおよび情報処理装置
JP2004198831A (ja) * 2002-12-19 2004-07-15 Sony Corp 音声認識装置および方法、プログラム、並びに記録媒体
JP2005229420A (ja) * 2004-02-13 2005-08-25 Toshiba Corp 音声入力装置
JP2005311418A (ja) * 2004-04-16 2005-11-04 Audio Technica Corp マイクロホン
JP2007214913A (ja) * 2006-02-09 2007-08-23 Yamaha Corp 収音装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4119797A (en) * 1977-06-29 1978-10-10 Technology Development Corporation Voice operated switch having an activation level which is higher than its sustaining level
CA2144782A1 (en) * 1994-03-17 1995-09-18 Dale D. Deremer Microphone with infrared on/off switch
US7827000B2 (en) * 2006-03-03 2010-11-02 Garmin Switzerland Gmbh Method and apparatus for estimating a motion parameter
JP5023594B2 (ja) * 2006-07-26 2012-09-12 日本電気株式会社 携帯端末装置、データ送信方法およびデータ送信制御プログラム
JP2008051882A (ja) * 2006-08-22 2008-03-06 Canon Inc 音声情報処理装置及びその制御方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07307989A (ja) * 1994-05-13 1995-11-21 Matsushita Electric Ind Co Ltd 音声入力装置
JP2002165119A (ja) * 2000-09-12 2002-06-07 Canon Inc カメラおよび情報処理装置
JP2004198831A (ja) * 2002-12-19 2004-07-15 Sony Corp 音声認識装置および方法、プログラム、並びに記録媒体
JP2005229420A (ja) * 2004-02-13 2005-08-25 Toshiba Corp 音声入力装置
JP2005311418A (ja) * 2004-04-16 2005-11-04 Audio Technica Corp マイクロホン
JP2007214913A (ja) * 2006-02-09 2007-08-23 Yamaha Corp 収音装置

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9268524B2 (en) 2011-07-22 2016-02-23 Sony Corporation Information processing apparatus, information processing method, and computer readable medium
US9842589B2 (en) 2012-02-27 2017-12-12 Nec Corporation Voice input device, voice input method and program
US20150106098A1 (en) * 2012-02-27 2015-04-16 Nec Casio Mobile Communications, Ltd. Voice input device, voice input method and program
JPWO2013128508A1 (ja) * 2012-02-27 2015-07-30 Necカシオモバイルコミュニケーションズ株式会社 音声入力装置、音声入力方法及びプログラム
WO2013128508A1 (ja) * 2012-02-27 2013-09-06 Necカシオモバイルコミュニケーションズ株式会社 音声入力装置、音声入力方法及びプログラム
WO2013187137A1 (ja) * 2012-06-15 2013-12-19 株式会社ニコン 電子機器
JP2018107825A (ja) * 2012-06-15 2018-07-05 株式会社ニコン 電子機器
JPWO2013187137A1 (ja) * 2012-06-15 2016-02-04 株式会社ニコン 電子機器
US9818403B2 (en) 2013-08-29 2017-11-14 Panasonic Intellectual Property Corporation Of America Speech recognition method and speech recognition device
JPWO2015029296A1 (ja) * 2013-08-29 2017-03-02 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識方法及び音声認識装置
WO2015029296A1 (ja) * 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声認識方法及び音声認識装置
CN106030700A (zh) * 2014-02-19 2016-10-12 诺基亚技术有限公司 至少部分地基于空间音频属性来确定操作指令
JP2017509917A (ja) * 2014-02-19 2017-04-06 ノキア テクノロジーズ オサケユイチア 空間音響特性に少なくとも部分的に基づく動作指令の決定
US10152967B2 (en) 2014-02-19 2018-12-11 Nokia Technologies Oy Determination of an operational directive based at least in part on a spatial audio property
CN106030700B (zh) * 2014-02-19 2019-12-06 诺基亚技术有限公司 至少部分地基于空间音频属性来确定操作指令
JP2015211331A (ja) * 2014-04-25 2015-11-24 Smk株式会社 リモートコントロールシステム及びリモートコントローラ
JP2019169175A (ja) * 2014-07-16 2019-10-03 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 携帯端末の制御方法
JP2016029466A (ja) * 2014-07-16 2016-03-03 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声認識テキスト化システムの制御方法および携帯端末の制御方法
WO2018056169A1 (ja) * 2016-09-21 2018-03-29 日本電気株式会社 対話装置、処理方法、プログラム
JP2019015773A (ja) * 2017-07-04 2019-01-31 富士ゼロックス株式会社 情報処理装置およびプログラム
JP7056020B2 (ja) 2017-07-04 2022-04-19 富士フイルムビジネスイノベーション株式会社 情報処理装置およびプログラム
US11682392B2 (en) 2017-07-04 2023-06-20 Fujifilm Business Innovation Corp. Information processing apparatus
JP2020527734A (ja) * 2017-07-10 2020-09-10 サムスン エレクトロニクス カンパニー リミテッド 遠隔制御装置及び遠隔制御装置のユーザ音声受信方法
US11449307B2 (en) 2017-07-10 2022-09-20 Samsung Electronics Co., Ltd. Remote controller for controlling an external device using voice recognition and method thereof
JP7187468B2 (ja) 2017-07-10 2022-12-12 サムスン エレクトロニクス カンパニー リミテッド 遠隔制御装置及び遠隔制御装置のユーザ音声受信方法
WO2020121474A1 (ja) * 2018-12-13 2020-06-18 三菱電機株式会社 情報処理装置、音声認識システム、制御方法、及び制御プログラム
JP2020109654A (ja) * 2019-01-03 2020-07-16 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド モバイル端末における音声認識機能のウェイクアップ方法及び装置
US11265414B2 (en) 2019-01-03 2022-03-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for waking up voice recognition function in mobile terminal, and computer readable storage medium

Also Published As

Publication number Publication date
US20110301950A1 (en) 2011-12-08
WO2010106711A1 (ja) 2010-09-23
US8862466B2 (en) 2014-10-14
JP5646146B2 (ja) 2014-12-24

Similar Documents

Publication Publication Date Title
JP5646146B2 (ja) 音声入力装置、音声認識システム及び音声認識方法
KR102147346B1 (ko) 디스플레이 장치 및 그의 동작 방법
US10163439B2 (en) Method and apparatus for evaluating trigger phrase enrollment
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
KR101732137B1 (ko) 원격 제어 장치 및 전력 제어 방법
CN103226966A (zh) 一种可快速定位播放进度的方法及移动终端
US20130218562A1 (en) Sound Recognition Operation Apparatus and Sound Recognition Operation Method
JP6844608B2 (ja) 音声処理装置および音声処理方法
JP2013142903A (ja) 映像装置及びその制御方法
JP2003044069A (ja) 音声認識による誤動作の防止及び音声認識率の向上が可能な電子機器及び方法
WO2009103226A1 (zh) 一种语音识别频道选择系统、方法及频道转换装置
JP2014134791A (ja) ディスプレイ装置及び制御方法
JP2011118822A (ja) 電子機器、発話検出装置、音声認識操作システム、音声認識操作方法及びプログラム
CN110097875B (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
JP2013080015A (ja) 音声認識装置および音声認識方法
KR101411650B1 (ko) 키 입력 장치, 키 입력 인식 장치 및 이들을 이용한 키 입력 시스템
KR20140058127A (ko) 음성인식장치 및 음성인식방법
KR20190006323A (ko) 원격 조정 장치 및 원격 조정 장치의 사용자 음성 수신방법
JP2014137430A (ja) 電子機器及び掃除機
US20160125862A1 (en) Performance recording system, performance recording method, and musical instrument
JP2004208171A (ja) 無線音響装置及び同装置における音声取得方法
KR102576388B1 (ko) 디스플레이 장치 및 그의 동작 방법
KR100609171B1 (ko) 이어폰의 기능 키를 이용한 음악 재생 제어 장치 및 방법
JP6608254B2 (ja) 録音機器、アドバイス出力方法およびプログラム
KR101609777B1 (ko) 이어폰 탈착 판별 장치, 방법, 및 이어폰 탈착 판별 방법을 실행하기 위한 프로그램이 기록되어 있는 컴퓨터 판독가능한 기록매체

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141105

LAPS Cancellation because of no payment of annual fees