JP2014089437A - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法 Download PDF

Info

Publication number
JP2014089437A
JP2014089437A JP2013187036A JP2013187036A JP2014089437A JP 2014089437 A JP2014089437 A JP 2014089437A JP 2013187036 A JP2013187036 A JP 2013187036A JP 2013187036 A JP2013187036 A JP 2013187036A JP 2014089437 A JP2014089437 A JP 2014089437A
Authority
JP
Japan
Prior art keywords
speech recognition
recognition engine
voice
speech
engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013187036A
Other languages
English (en)
Inventor
Eun-Sang Park
殷 相 朴
Myung-Jae Kim
命 哉 金
Yu Liu
▲ゆ▼ 劉
Keo-Gun Park
巨 根 朴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2014089437A publication Critical patent/JP2014089437A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Selective Calling Equipment (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】 相互に異なった性能を有する複数の音声認識エンジンを用いて音声認識を行いながら、各音声認識エンジンの音声認識の結果の衝突を防止することができる音声認識装置及び音声認識装置を用いた音声認識方法を提供する。
【解決手段】 本発明に係る音声認識装置は、ユーザーの音声信号を受信する音声受信部と、前記音声信号を受信して音声認識処理を行う第1の音声認識エンジンと、前記音声信号を受信して外部の第2の音声認識エンジンに伝送する通信部と、ユーザーの選択に基づいて、前記音声受信部を介して受信される音声信号を、前記第1の音声認識エンジン又は前記通信部の少なくとも一方に伝送するように制御する制御部と、を備える。
【選択図】 図1

Description

本発明は、音声認識装置及び音声認識装置を用いた音声認識方法に係り、特に、相互に異なった性能を有する複数の音声認識エンジンを用いて音声認識を行うことができる音声認識装置及び該音声認識装置を用いた音声認識方法に関する。
音声認識技術は、ユーザーなどが入力する音声を集音して獲得した音声信号を、所定の言語に対応する信号として認識する技術で、様々な分野に活用可能である。特に、音声認識技術は、指などで特定ボタンを押したりする従来の入力方式に比べて簡便であるため、従来の入力方式に代える手段としてTV、携帯電話などの電子機器に用いられている。例えば、TVのチャンネル調整のとき、「チャンネルアップ」のような特定単語を音声として入力し、該ユーザーの音声信号をTV内の音声認識エンジンで認識してチャンネル調整を行うことができる。
音声認識技術の発達に伴い、音声認識エンジンで認識可能な音声信号の範囲も拡張されてきており、従来では限られた数の決まった単語しか認識できなかったが、最近では比較的長い文章の認識ができ、その正確度も向上した音声認識エンジンが商用化されつつある。
一方、音声認識エンジンはその使用目的によって様々に分類可能であり、単語認識用エンジンと連続語認識用エンジンとに大別することができる。単語認識用エンジンは、限られた数の決まった単語のみを認識すればよく、音声認識エンジンの容量が大きくないため、電子機器内の組み込み型エンジンとして活用可能である。また、連続語認識用エンジンは、大容量が要求されるだけに、より多い単語及び文章を認識することができ、最近ではクラウド環境の構築に伴ってサーバーベースで活用可能である。
上述した単語認識用エンジンと連続語認識用エンジンは、容量面、データ伝送面、速度面において相反する長短所を有しており、両者を適宜活用することによって音声認識機能をより效率的に用いることが可能になるであろう。ただし、一つの音声信号に対して種々の音声認識エンジンで音声認識を行うと、その結果が異なり、音声信号に基づく制御を行う上で問題が生ずることがある。
そこで、本発明は、相互に異なった性能を有する複数の音声認識エンジンを用いて音声認識を行いながら、各音声認識エンジンの音声認識の結果の衝突を防止することができる音声認識装置及び音声認識装置を用いた音声認識方法を提案する。
上記目的は、本発明により、ユーザーの音声信号を受信する音声受信部と、前記音声信号を受信して音声認識処理を行う第1の音声認識エンジンと、前記音声信号を受信して外部の第2の音声認識エンジンに伝送する通信部と、前記音声受信部を介して受信される音声信号を前記第1の音声認識エンジン又は前記通信部の少なくとも一方に伝送するように制御する制御部と、を備えることを特徴とする音声認識装置により達成されるとよい。
ここで、前記第1の音声認識エンジンは、既に設定された語彙のみを認識する組み込み型エンジンで構成され、前記第2の音声認識エンジンは、連続した多数の語彙を認識するサーバー型エンジンで構成されてもよい。
ここで、前記音声認識装置は、遠隔制御装置を介したユーザーの入力信号を受信するユーザー入力部をさらに備え、前記遠隔制御装置は、音声認識エンジンの選択のための少なくとも一つの音声認識エンジン選択ボタンを備えていればよい。
ここで、前記制御部は、前記音声認識エンジン選択ボタンを押す時間が所定時間以上であると、前記音声信号が前記第1の音声認識エンジン又は前記第2の音声認識エンジンのいずれか一方に伝送され、所定時間未満であると他方に伝送されるように制御してもよい。
ここで、前記遠隔制御装置の前記音声認識エンジン選択ボタンは、前記第1の音声認識エンジン及び前記第2の音声認識エンジンのそれぞれに対応する複数のボタンを備えており、前記制御部は、前記複数のボタンのいずれか一方に対応する入力信号が受信されると、前記ボタンに対応する音声認識エンジンに前記音声信号が伝送されるように制御してもよい。
ここで、前記制御部は、前記音声受信部を介して前記音声信号が受信されると、既に設定された語彙が前記受信した音声信号に含まれているか否かに基づいて、音声認識を行う前記第1の音声認識エンジン又は前記第2の音声認識エンジンのいずれか一方を決定してもよい。
ここで、前記受信される音声信号は前記第1の音声認識エンジン及び前記第2の音声認識エンジンにそれぞれ伝送され、前記制御部は、前記第1の音声認識エンジンの音声認識結果に基づいて、前記既に設定された語彙が前記音声信号に含まれているか否かを判断してもよい。
ここで、前記制御部は、既に設定された音声が前記音声信号の前半部に含まれているか判断してもよい。
また、上記目的は、本発明により、ユーザーの音声信号を受信することと、ユーザーの選択に基づいて、前記受信した音声信号を処理する、音声認識装置内に設けられた第1の音声認識エンジン又は前記音声認識装置の外部に設けられた第2の音声認識エンジンの少なくとも一方を決定することと、前記決定結果に基づいて、前記音声信号を前記第1の音声認識エンジン又は前記第2の音声認識エンジンの少なくとも一方に伝送することと、を含むことを特徴とする音声認識装置を用いた音声認識方法によって達成されてもよい。
ここで、前記第1の音声認識エンジンは、既に設定された語彙のみを認識する組み込み型エンジンで構成され、前記第2の音声認識エンジンは、連続した多数の語彙を認識するサーバー型エンジンで構成されてもよい。
ここで、上記方法は、遠隔制御装置を介したユーザーの入力信号を受信することをさらに含み、前記遠隔制御装置は、音声認識エンジンの選択のための少なくとも一つの音声認識エンジン選択ボタンを備えていればよい。
ここで、前記決定することは、前記音声認識エンジン選択ボタンを押す時間が所定時間以上であれば、前記音声信号を処理する音声認識エンジンを前記第1の音声認識エンジン又は前記第2の音声認識エンジンのいずれか一方と決定し、所定時間未満であれば他方と決定してもよい。
前記遠隔制御装置の前記音声認識エンジン選択ボタンは、前記第1の音声認識エンジン及び前記第2の音声認識エンジンのそれぞれに対応する複数のボタンを備えており、前記決定することは、前記複数のボタンのいずれか一方に対応する入力信号が受信されると、前記音声信号を処理する音声認識エンジンを、前記ボタンに対応する前記第1の音声認識エンジン又は前記第2の音声認識エンジンのいずれか一方と決定してもよい。
上記方法は、既に設定された語彙が前記受信した音声信号に含まれているか否かを判断することをさらに含み、前記決定することは、前記判断結果に基づいて、音声認識を行う前記第1の音声認識エンジン又は前記第2の音声認識エンジンのいずれか一方を決定してもよい。
前記受信される音声信号は前記第1の音声認識エンジン及び前記第2の音声認識エンジンにそれぞれ伝送され、前記判断することは、前記第1の音声認識エンジンの音声認識結果に基づいて、前記既に設定された語彙が前記音声信号に含まれているか否かを判断してもよい。
以上説明した通り、本発明に係る音声認識装置及び音声認識装置によれば、相互に異なった性能を有する複数の音声認識エンジンを用いて音声認識を行いながら、各音声認識エンジンの音声認識の結果の衝突を防止することが可能になる。
本発明に係る音声認識装置の制御ブロック図である。 本発明に係る遠隔制御装置を簡略に示す図である。 ディスプレイ部に表示されたUIを簡略に示す図である。 本発明の第1の実施例に係る音声認識方法を示すフローチャートである。 本発明の第2の実施例に係る音声認識方法を示すフローチャートである。
以下、添付の図面を参照して、本発明の実施例について、本発明の属する技術の分野における通常の知識を有する者が容易に実施できるように詳細に説明する。本発明は種々の異なった形態にしてもよく、ここで説明する実施例に限定されない。本発明を明確に説明するために、説明と関連していない部分は省略し、明細書全体を通じて同一又は類似の構成要素には同一の参照符号を付ける。
図1は、本発明に係る音声認識装置100の制御ブロック図である。図1に示すように、本発明に係る音声認識装置100は、音声受信部110、第1の音声認識エンジン140、通信部150、制御部160を備えており、実施形態によって、ユーザー入力部120、ディスプレイ部170をさらに備えてもよい。
音声受信部110は、ユーザーの音声信号10を受信する。音声受信部110は、音声認識装置100に設けられたマイクにしてもよく、遠隔制御装置20に設けられたマイク(図2の22)を介して集音された音声信号を受信する形態にしてもよい。
第1の音声認識エンジン140は音声信号を受信して音声認識処理を行う。音声認識機能は音声信号を言語データに変換する一連の過程であり、第1の音声認識エンジン140は公知の様々な音声認識方法によって音声信号を言語データに変換して出力すればいい。一方、音声受信部110から受信される音声信号10は、音声認識を目標にしたユーザーの音声の他、様々なノイズも含むことがあるから、周波数分析などの前処理過程でユーザーの音声成分のみを抽出し、抽出された音声成分に対して音声認識処理を行うとよい。音声認識エンジンを用いた音声認識方法は、 様々な公知方法が存在し、それについての説明は省略する。
第1の音声認識エンジン140は、音声認識装置100の内部に設けられる組み込み型エンジンにしてもよく、別個のハードウェア、又は後述する制御部150により実行されるソフトウェアにしてもよい。このような組み込み型エンジンは、限られた数の特定の語彙のみを認識可能である。例えば、音声認識装置100がTVなどのディスプレイ装置であると、TVを制御するためのユーザーの入力を認識する用途に用いればよい。ユーザーが「チャンネルアップ」、「電源オフ」、「音消去」などの音声信号を入力する場合に、第1の音声認識エンジン140は当該音声信号を認識し、既に設定された言語のいずれかと認識されると、認識された言語データを出力すればよい。このような組み込み型エンジンは、小さい容量のメモリーのみで構成可能であり、且つ速度面において優れているが、認識可能な語彙には限界があり、上述したように、TV制御などの簡単な入力しかできないという限界がある。
音声認識装置100は、音声信号を受信して外部の第2の音声認識エンジン210に伝送する通信部150をさらに備え、第2の音声認識エンジン210の認識結果による言語データを受信することができる。第2の音声認識エンジン210は外部の音声認識サーバー200に含まれるものでよく、通信部150は、ネットワークを介して音声認識サーバー200に音声信号を伝達し、第2の音声認識エンジン210の音声認識結果を受信することができる。
上述したように、組み込み型エンジンに該当する第1の音声認識エンジン140と違い、第2の音声認識エンジン210はサーバーで具現されるため、様々な語彙又は連続語の認識ができる。例えば、検索窓に特定の検索語を入力すること、SNSなどのアプリケーションを介して文章を入力することなどは、多い語彙の認識が要求されるため、組み込み型エンジンでは実現し難いが、サーバーで具現される第2の音声認識エンジン210では実現可能である。すなわち、第2の音声認識エンジン210を用いる場合は、音声認識サーバー200に音声信号を伝達する過程を行わなければならず、速度面では劣るが、性能面では優れているといえよう。
そのため、本発明に係る音声認識装置100は、音声受信部110を介して入力される音声信号について、第1の音声認識エンジン140及び第2の音声認識エンジン210の両方による認識結果を用いるように構成される。特定の音声信号が入力される時、上記の音声認識エンジンの特性による用途を考慮して、音声認識装置100は、入力される音声信号をどの音声認識エンジンに伝送するか決定する必要がある。第1の音声認識エンジン140と第2の音声認識エンジン210の両方から音声認識結果を出力すると、一つの入力に対して複数の動作が行われ、ユーザーの意図する入力が実行されないことがあるためである。しかし、音声認識装置100において音声信号のみに基づいて、音声信号が伝達される音声認識エンジンを決定することは容易でなく、よって、音声信号以外の追加的な情報を用いてそれを決定することが好ましい。
制御部160は、本発明の音声認識装置100を全般的に制御する役割を担うCPU、MiCOMのようなマイクロプロセッサにすればよい。特に、制御部160は、音声受信部110から出力された音声信号を第1の音声認識エンジン140又は通信部150のいずれかに伝送するように制御する役割を果たす。そのために、制御部160は、デマルチプレクサのように、入力される信号を一つの経路にスイッチングする音声分岐部(図示せず)を備えるとよい。一方、音声信号が伝達される音声認識エンジンを決定する基準はユーザーの選択に基づく。その具体例として下記の実施例が挙げられる。
第1の実施例として、制御部160は、ユーザーの遠隔制御装置20による操作に基づいて、音声信号が伝達される音声認識エンジンを決定することができる。図3に示すように、ユーザーは遠隔制御装置20を介して音声認識装置100を制御するための入力信号を入力してよく、遠隔制御装置20は、図2に示すように、チャンネル選択、ボリューム調整などの通常のボタンの他に、音声認識エンジンを選択するための別個の少なくとも一つのボタン21を備えていればよい。遠隔制御装置20は、IR(Infra Red)又はブルートゥースのような近距離通信方法を用いてユーザーの入力信号を音声認識装置100に伝送すればよく、音声認識装置100は、遠隔制御装置20から伝送されるユーザーの入力信号を受信するためのユーザー入力部120をさらに備えていればよい。また、上述したように、遠隔制御装置に音声信号を受信するためのマイク22が備えられていてもよい。
第1の実施例の一態様として、制御部160は、ユーザーが音声認識エンジン選択ボタン21を押す時間が所定時間以上であると、音声信号を、第1の音声認識エンジン140又は第2の音声認識エンジン210のいずれか一方に伝送し、所定時間未満であると他方に伝送するように制御してもよい。例えば、ユーザーが音声認識エンジン選択ボタン21を1秒未満と短く押してから音声信号を入力すると、第1の音声認識エンジン140に音声信号を伝送し、1秒以上と長く押してから音声信号を入力すると、第2の音声認識エンジン210に音声信号を伝送してもよい。上述したように、第1の音声認識エンジン140は、組み込みエンジンであって、低容量の構成とすることはできるが、簡単な語彙しか認識できないし、第2の音声認識エンジンは、種々の語彙及び文章が認識できるが、速度が遅いという欠点がある。そのため、ユーザーは、意図によって、チャンネル切り替えのように簡単な単語で認識可能であり、音声認識装置100を制御するにあって速い動作が要求される場合には、音声認識エンジン選択ボタン21を短く押したのち音声信号を入力し、インターネット検索語の入力のように長い文章を入力しようとする場合には、音声認識エンジン選択ボタン21を長く押したのち音声信号を入力すればよい。
第1の実施例の他の態様として、遠隔制御装置20の音声認識エンジン選択ボタン21が、第1の音声認識エンジン140及び第2の音声認識エンジン210のそれぞれに対応する複数のボタン21を備えてもよい。ユーザーが第1の音声認識エンジン140に対応する音声認識エンジン選択ボタンを押したのち音声信号を入力すると、制御部160は、音声信号を第1の音声認識エンジン140に伝送して第1の音声認識エンジン140で音声認識が行われるように制御し、ユーザーが第2の音声認識エンジン210に対応する音声認識エンジン選択ボタンを押したのち音声信号を入力すると、制御部160は、音声信号を通信部150を介して第2の音声認識エンジン210に伝送することによって第2の音声認識エンジン210で音声認識が行われるように制御する。
上述の第1の実施例は、ユーザーが遠隔制御装置20のボタンを用いて音声認識エンジンを選択する方法に関するものであり、以下に説明する第2の実施例では、音声信号自体の認識結果に基づいて音声認識エンジンを選択する方法を提案する。
本発明の第2の実施例では、制御部160は、音声受信部110を介して音声信号を受信すると、受信した音声信号に既に設定された語彙が含まれているか否かに基づいて、音声認識を行う第1の音声認識エンジン140及び第2の音声認識エンジン210のいずれか一方を決定すればよい。具体的に、既に設定された音声が音声信号の前半部に含まれているか否かによって音声認識エンジンを決定するとよい。
例えば、音声信号に「命令」という語彙が含まれている場合は、第1の音声認識エンジン140で音声認識が処理されるように決定すればよい。この場合、ユーザーが「命令 チャンネルアップ」という音声を入力すると、第1の音声認識エンジン140で音声認識を行い、音声認識の結果に基づき、制御部160は「チャンネルアップ」に対応する動作を行う。また、ユーザーが「今日の天気を教えて」という音声を入力すると、第2の音声認識エンジン210に音声信号が伝送され、第2の音声認識エンジン210で音声認識の機能が行われる。
第2の実施例において、音声信号は一応、第1の音声認識エンジン140及び第2の音声認識エンジン210にそれぞれ伝送され、制御部160は、第1の音声認識エンジン140での認識の結果、既に設定された語彙が音声信号に含まれていると、第1の音声認識エンジン140の認識結果による言語データに基づいて動作制御を行う。この時、第2の音声認識エンジン210も音声信号を受信し、その音声認識結果を音声認識装置100に伝送すればよいが、制御部160は第2の音声認識エンジン210の音声認識結果に対しては動作を行う必要がない。一方、既に設定された語彙が音声信号に含まれていない場合は、第1の音声認識エンジン140の認識結果は無視され、制御部160は、第2の音声認識エンジン210の音声認識結果に基づいて動作制御を行う。
本発明に係る音声認識装置100は、映像を表示するディスプレイ部170を備えるディスプレイ装置にしてもよい。この場合、制御部160は、音声信号を処理する音声認識エンジンに関する情報を含むUI 300をディスプレイ部170に表示するように制御すればよい。図3に示すように、音声信号が入力され、その結果に基づいてチャンネル切り替え又は検索語の入力のような動作が行われると、当該音声認識結果がどの音声認識エンジンにより行われたかを指示するUI 300を表示することで、ユーザーにフィードバックを提供することができる。また、上述した第1の実施例では所定時間以上ユーザーが音声認識エンジン選択ボタンを押すか否かによって音声認識処理を行う音声認識エンジンが決定されるので、押す時間に関する情報をUI 300に表示してもよい。
上述した本発明に係る音声認識装置100は、相互に異なった性能を有する複数の音声認識エンジンを用いて音声認識を行うことができ、ユーザーの入力に基づいて、入力される音声信号を処理する音声認識エンジンを決定できるため、用途及びユーザーの意図に合う音声認識エンジンを用いて音声認識を行うことができる。
図4は、本発明の第1の実施例に係る音声認識装置を用いた音声認識方法を示すフローチャートである。
本発明に係る音声認識装置は、ユーザーの音声信号を、第1の音声認識エンジン又は第2の音声認識エンジンを用いて音声認識処理を行うことができる。第1の音声認識エンジンは、音声認識装置の内部に設けられた組み込み型エンジンとし、小さい容量で構成可能である反面、限られた数の特定の語彙のみ認識できるものであればよく、これと違い、第2の音声認識エンジンは、サーバー型エンジンとし、音声認識装置外部の音声認識サーバーに設けられて多数の語彙及び文章を認識できるものであればよい。
音声認識装置はユーザーの音声信号を受信する(S110)。この時、音声認識装置に設けられたマイクからユーザーの音声を受信してもよく、遠隔制御装置に設けられたマイクを介して集音された音声信号を受信してもよい。
音声認識装置は、ユーザーの選択に基づいて、受信した音声信号を処理する、音声認識装置における第1の音声認識エンジン又は音声認識装置の外部に設けられた第2の音声認識エンジンの少なくとも一方を決定する(S120,S130)。
音声認識装置は、上記決定結果に基づいて、音声信号を第1の音声認識エンジン又は第2の音声認識エンジンのうち少なくとも一方に伝送し(S140)、音声信号を受信した音声認識エンジンは音声認識処理を行う(S150)。音声認識装置は、音声認識結果に基づいて、チャンネル切り替え、検索語の入力のような動作制御を行う。
ここで、上記決定段階は、ユーザーの選択に基づいて行われる。第1の実施例に係る音声認識方法は、遠隔制御装置を介してユーザーの入力信号を受信する段階をさらに含み、ユーザーの入力信号に基づいて第1の音声認識エンジン又は第2の音声認識エンジンのうち少なくとも一方を決定すればよい。そのために、遠隔制御装置は、音声認識エンジンの選択のための少なくとも一つのボタンを備えればよい。
このとき、音声認識エンジン選択ボタンを押す時間が所定時間以上であれば、音声信号を処理する音声認識エンジンを、第1の音声認識エンジン又は第2の音声認識エンジンのいずれか一方と決定し、所定時間未満であれば他方と決定してもよい。他の実施例として、遠隔制御装置の音声認識エンジン選択ボタンは、第1の音声認識エンジン及び第2の音声認識エンジンのそれぞれに対応する複数のボタンを備えており、上記決定段階は、複数のボタンのいずれか一つに対応する入力信号が受信されると、音声信号を処理する音声認識エンジンを、選択されたボタンに対応する第1の音声認識エンジン又は第2の音声認識エンジンのいずれか一方と決定してもよい。
音声認識装置は、映像を表示するディスプレイ部を備えるディスプレイ装置とすればよく、音声信号を処理する音声認識エンジンに関する情報を含むUIをディスプレイ部に表示する段階をさらに含んでもよい。
図5は、本発明の第2の実施例に係る音声認識装置を用いた音声認識方法を示すフローチャートである。
音声認識装置は、ユーザーの音声信号を受信する(S210)。受信した音声信号は、第1の音声認識エンジン及び第2の音声認識エンジンにそれぞれ伝送される(S220)。
第2の実施例では、受信した音声信号に既に設定された語彙が含まれているか否かに基づいて、音声認識を行う第1の音声認識エンジン及び第2の音声認識エンジンのいずれか一方を決定すればよい(S230)。このとき、既に設定された音声が音声信号の前半部に含まれているか否か判断するとよい。
判断の結果、既に設定された語彙が含まれた場合は、第1の音声認識エンジンで音声認識処理を行い(S240)、含まれていない場合は、第2の音声認識エンジンで音声認識処理を行うとよい(S250)。
上述した本発明に係る音声認識装置を用いた音声認識方法は、相互に異なった性能を有する複数の音声認識エンジンを用いて音声認識を行うことができ、ユーザーの入力に基づいて、入力される音声信号を処理する音声認識エンジンを決定できるため、用途及びユーザーの意図に合う音声認識エンジンを用いて音声認識を行うことができる。
以上、添付の図面を参照して本発明の実施例を説明してきたが、本発明の属する技術の分野における通常の知識を有する者には、本発明の技術的思想や必須の特徴から逸脱することなく他の具体的な形態に実施できるということが理解されるであろう。したがって、以上に述べた実施例はいずれの面においても例示的なものであり、限定的なものとして理解してはならない。本発明の範囲は、上記の詳細な説明に限定されず、添付の特許請求の範囲によって定められ、よって、特許請求の範囲の意味及び範囲、そしてその均等概念から導出される、変更又は変形されるいずれの形態も本発明の範囲に含まれるものとして解釈しなければならない。
10 音声信号
20 遠隔制御装置
100 音声認識装置
110 音声受信部
120 ユーザー入力部
140 第1の音声認識エンジン
150 通信部
160 制御部
170 ディスプレイ部
200 音声認識サーバー
210 第2の音声認識エンジン

Claims (15)

  1. ユーザーの音声信号を受信する音声受信部と、
    前記音声信号を受信して音声認識処理を行う第1の音声認識エンジンと、
    前記音声信号を受信して外部の第2の音声認識エンジンに伝送する通信部と、
    前記音声受信部から受信される音声信号を、前記第1の音声認識エンジン及び前記通信部の少なくとも一方に伝送するように制御する制御部と、
    を備えることを特徴とする、音声認識装置。
  2. 前記第1の音声認識エンジンは、既に設定された語彙のみを認識する組み込み型エンジンで構成され、前記第2の音声認識エンジンは、連続した多数の語彙を認識するサーバー型エンジンで構成されることを特徴とする、請求項1に記載の音声認識装置。
  3. 遠隔制御装置を介したユーザーの入力信号を受信するユーザー入力部をさらに備え、
    前記遠隔制御装置は、音声認識エンジンの選択のための少なくとも一つの音声認識エンジン選択ボタンを備えていることを特徴とする、請求項1に記載の音声認識装置。
  4. 前記制御部は、前記音声認識エンジン選択ボタンを押す時間が所定時間以上であると、前記音声信号が前記第1の音声認識エンジン又は前記第2の音声認識エンジンのいずれか一方に伝送され、所定時間未満であると他方に伝送されるように制御することを特徴とする、請求項3に記載の音声認識装置。
  5. 前記遠隔制御装置の前記音声認識エンジン選択ボタンは、前記第1の音声認識エンジン及び前記第2の音声認識エンジンのそれぞれに対応する複数のボタンを備えており、前記制御部は、前記複数のボタンのいずれか一方に対応する入力信号が受信されると、前記ボタンに対応する音声認識エンジンに前記音声信号が伝送されるように制御することを特徴とする、請求項3に記載の音声認識装置。
  6. 前記制御部は、前記音声受信部を介して前記音声信号が受信されると、既に設定された語彙が前記受信した音声信号に含まれているか否かに基づいて、音声認識を行う前記第1の音声認識エンジン又は前記第2の音声認識エンジンのいずれか一方を決定することを特徴とする、請求項2に記載の音声認識装置。
  7. 前記受信される音声信号は前記第1の音声認識エンジン及び前記第2の音声認識エンジンにそれぞれ伝送され、
    前記制御部は、前記第1の音声認識エンジンの音声認識結果に基づいて、前記既に設定された語彙が前記音声信号に含まれているか否かを判断することを特徴とする、請求項6に記載の音声認識装置。
  8. 前記制御部は、既に設定された音声が前記音声信号の前半部に含まれているか判断することを特徴とする、請求項7に記載の音声認識装置。
  9. ユーザーの音声信号を受信することと、
    ユーザーの選択に基づいて、前記受信した音声信号を処理する、音声認識装置内に設けられた第1の音声認識エンジン又は前記音声認識装置の外部に設けられた第2の音声認識エンジンの少なくとも一方を決定することと、
    前記決定結果に基づいて、前記音声信号を前記第1の音声認識エンジン又は前記第2の音声認識エンジンの少なくとも一方に伝送することと、
    を含むことを特徴とする音声認識装置を用いた音声認識方法。
  10. 前記第1の音声認識エンジンは、既に設定された語彙のみを認識する組み込み型エンジンで構成され、前記第2の音声認識エンジンは、連続した多数の語彙を認識するサーバー型エンジンで構成されることを特徴とする、請求項9に記載の音声認識方法。
  11. 遠隔制御装置を介したユーザーの入力信号を受信することをさらに含み、
    前記遠隔制御装置は、音声認識エンジンの選択のための少なくとも一つの音声認識エンジン選択ボタンを備えていることを特徴とする、請求項10に記載の音声認識方法。
  12. 前記決定することは、
    前記音声認識エンジン選択ボタンを押す時間が所定時間以上であれば、前記音声信号を処理する音声認識エンジンを前記第1の音声認識エンジン又は前記第2の音声認識エンジンのいずれか一方と決定し、所定時間未満であれば他方と決定することを特徴とする、請求項11に記載の音声認識方法。
  13. 前記遠隔制御装置の前記音声認識エンジン選択ボタンは、前記第1の音声認識エンジン及び前記第2の音声認識エンジンのそれぞれに対応する複数のボタンを備えており、
    前記決定することは、
    前記複数のボタンのいずれか一方に対応する入力信号が受信されると、前記音声信号を処理する音声認識エンジンを、前記ボタンに対応する前記第1の音声認識エンジン又は前記第2の音声認識エンジンのいずれか一方と決定することを特徴とする、請求項11に記載の音声認識方法。
  14. 既に設定された語彙が前記受信した音声信号に含まれているか否かを判断することをさらに含み、
    前記決定することは、
    前記判断結果に基づいて、音声認識を行う前記第1の音声認識エンジン又は前記第2の音声認識エンジンのいずれか一方を決定することを特徴とする、請求項9に記載の音声認識方法。
  15. 前記受信される音声信号は前記第1の音声認識エンジン及び前記第2の音声認識エンジンにそれぞれ伝送され、
    前記判断することは、
    前記第1の音声認識エンジンの音声認識結果に基づいて、前記既に設定された語彙が前記音声信号に含まれているか否かを判断することを特徴とする、請求項14に記載の音声認識方法。
JP2013187036A 2012-10-29 2013-09-10 音声認識装置及び音声認識方法 Pending JP2014089437A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020120120374A KR20140054643A (ko) 2012-10-29 2012-10-29 음성인식장치 및 음성인식방법
KR10-2012-0120374 2012-10-29

Publications (1)

Publication Number Publication Date
JP2014089437A true JP2014089437A (ja) 2014-05-15

Family

ID=49003669

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013187036A Pending JP2014089437A (ja) 2012-10-29 2013-09-10 音声認識装置及び音声認識方法

Country Status (7)

Country Link
US (1) US20140122075A1 (ja)
EP (1) EP2725577A3 (ja)
JP (1) JP2014089437A (ja)
KR (1) KR20140054643A (ja)
CN (1) CN103794212A (ja)
RU (1) RU2015120296A (ja)
WO (1) WO2014069798A1 (ja)

Families Citing this family (138)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR102112742B1 (ko) 2013-01-22 2020-05-19 삼성전자주식회사 전자장치 및 그 음성 처리 방법
EP4138075A1 (en) 2013-02-07 2023-02-22 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10791216B2 (en) 2013-08-06 2020-09-29 Apple Inc. Auto-activating smart responses based on activities from remote devices
US11138971B2 (en) 2013-12-05 2021-10-05 Lenovo (Singapore) Pte. Ltd. Using context to interpret natural language speech recognition commands
US10276154B2 (en) * 2014-04-23 2019-04-30 Lenovo (Singapore) Pte. Ltd. Processing natural language user inputs using context data
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP6418820B2 (ja) * 2014-07-07 2018-11-07 キヤノン株式会社 情報処理装置、表示制御方法、及びコンピュータプログラム
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN106971735B (zh) * 2016-01-14 2019-12-03 芋头科技(杭州)有限公司 一种定期更新缓存中训练语句的声纹识别的方法及系统
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9826306B2 (en) 2016-02-22 2017-11-21 Sonos, Inc. Default playback device designation
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
CN108573696B (zh) * 2017-03-10 2021-03-30 北京搜狗科技发展有限公司 一种语音识别方法、装置及设备
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
KR102371600B1 (ko) * 2017-05-22 2022-03-07 현대자동차주식회사 음성 인식 장치 및 방법
KR102383429B1 (ko) * 2017-06-05 2022-04-07 현대자동차주식회사 음성 인식 처리 장치 및 방법, 그리고 차량 시스템
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
WO2019031870A1 (ko) * 2017-08-09 2019-02-14 엘지전자 주식회사 블루투스 저전력 에너지 기술을 이용하여 음성 인식 서비스를 호출하기 위한 방법 및 장치
CN107274902A (zh) * 2017-08-15 2017-10-20 深圳诺欧博智能科技有限公司 用于家电的语音控制装置和方法
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
CN109509465B (zh) * 2017-09-15 2023-07-25 阿里巴巴集团控股有限公司 语音信号的处理方法、组件、设备及介质
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) * 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
KR102443079B1 (ko) * 2017-12-06 2022-09-14 삼성전자주식회사 전자 장치 및 그의 제어 방법
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
JP7062958B2 (ja) * 2018-01-10 2022-05-09 トヨタ自動車株式会社 通信システム、及び通信方法
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11676062B2 (en) 2018-03-06 2023-06-13 Samsung Electronics Co., Ltd. Dynamically evolving hybrid personalized artificial intelligence system
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
DE102018108867A1 (de) * 2018-04-13 2019-10-17 Dewertokin Gmbh Steuereinrichtung für einen Möbelantrieb und Verfahren zum Steuern eines Möbelantriebs
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10147428B1 (en) * 2018-05-30 2018-12-04 Green Key Technologies Llc Computer systems exhibiting improved computer speed and transcription accuracy of automatic speech transcription (AST) based on a multiple speech-to-text engines and methods of use thereof
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
CN109572873B (zh) * 2018-10-15 2020-10-02 南宁学院 一种具有防盗功能的电瓶车声控装置及其使用方法
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
WO2021020624A1 (ko) * 2019-07-30 2021-02-04 미디어젠 주식회사 음성인식 서비스 선별 조정장치
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CN111105793B (zh) * 2019-12-03 2022-09-06 杭州蓦然认知科技有限公司 一种基于交互引擎簇的语音交互方法及装置
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
KR20210095431A (ko) * 2020-01-23 2021-08-02 삼성전자주식회사 전자 장치 및 그 제어 방법
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
CN112165640B (zh) * 2020-09-21 2023-04-14 Vidaa美国公司 一种显示设备
WO2022061293A1 (en) 2020-09-21 2022-03-24 VIDAA USA, Inc. Display apparatus and signal transmission method for display apparatus
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002116797A (ja) * 2000-10-11 2002-04-19 Canon Inc 音声処理装置、音声処理方法及び記憶媒体
JP2005249829A (ja) * 2004-03-01 2005-09-15 Advanced Media Inc 音声認識を行うコンピュータネットワークシステム
US20060009980A1 (en) * 2004-07-12 2006-01-12 Burke Paul M Allocation of speech recognition tasks and combination of results thereof
JP2008145693A (ja) * 2006-12-08 2008-06-26 Canon Inc 情報処理装置及び情報処理方法
US20120179457A1 (en) * 2011-01-07 2012-07-12 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US7174299B2 (en) * 1995-08-18 2007-02-06 Canon Kabushiki Kaisha Speech recognition system, speech recognition apparatus, and speech recognition method
US6456974B1 (en) * 1997-01-06 2002-09-24 Texas Instruments Incorporated System and method for adding speech recognition capabilities to java
JP2000010590A (ja) * 1998-06-25 2000-01-14 Oki Electric Ind Co Ltd 音声認識装置およびその制御方法
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US7366673B2 (en) * 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
US7225130B2 (en) * 2001-09-05 2007-05-29 Voice Signal Technologies, Inc. Methods, systems, and programming for performing speech recognition
JP2003122391A (ja) * 2001-10-10 2003-04-25 Canon Inc 音声認識装置およびその制御方法ならびにプログラム
JP4050574B2 (ja) * 2001-11-19 2008-02-20 松下電器産業株式会社 遠隔制御対象機器、遠隔制御システム、及び画像処理装置
US6834265B2 (en) * 2002-12-13 2004-12-21 Motorola, Inc. Method and apparatus for selective speech recognition
US7076428B2 (en) * 2002-12-30 2006-07-11 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US20050177371A1 (en) * 2004-02-06 2005-08-11 Sherif Yacoub Automated speech recognition
US7340395B2 (en) * 2004-04-23 2008-03-04 Sap Aktiengesellschaft Multiple speech recognition engines
JP2006078791A (ja) * 2004-09-09 2006-03-23 Denso Corp 音声認識装置
JP2008275987A (ja) * 2007-05-01 2008-11-13 Yamaha Corp 音声認識装置および会議システム
US11012732B2 (en) * 2009-06-25 2021-05-18 DISH Technologies L.L.C. Voice enabled media presentation systems and methods
JP5271330B2 (ja) * 2010-09-29 2013-08-21 株式会社東芝 音声対話システム、方法、及びプログラム
CN102522085B (zh) * 2011-11-28 2013-06-12 常熟南师大发展研究院有限公司 同时具有景点与路口播报功能的智能导游服务系统
US8793136B2 (en) * 2012-02-17 2014-07-29 Lg Electronics Inc. Method and apparatus for smart voice recognition
US20130238326A1 (en) * 2012-03-08 2013-09-12 Lg Electronics Inc. Apparatus and method for multiple device voice control

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002116797A (ja) * 2000-10-11 2002-04-19 Canon Inc 音声処理装置、音声処理方法及び記憶媒体
JP2005249829A (ja) * 2004-03-01 2005-09-15 Advanced Media Inc 音声認識を行うコンピュータネットワークシステム
US20060009980A1 (en) * 2004-07-12 2006-01-12 Burke Paul M Allocation of speech recognition tasks and combination of results thereof
JP2008145693A (ja) * 2006-12-08 2008-06-26 Canon Inc 情報処理装置及び情報処理方法
US20120179457A1 (en) * 2011-01-07 2012-07-12 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers

Also Published As

Publication number Publication date
CN103794212A (zh) 2014-05-14
EP2725577A2 (en) 2014-04-30
EP2725577A3 (en) 2014-05-07
US20140122075A1 (en) 2014-05-01
WO2014069798A1 (en) 2014-05-08
RU2015120296A (ru) 2016-12-20
KR20140054643A (ko) 2014-05-09

Similar Documents

Publication Publication Date Title
JP2014089437A (ja) 音声認識装置及び音声認識方法
US11854570B2 (en) Electronic device providing response to voice input, and method and computer readable medium thereof
CN107454508B (zh) 麦克风阵列的电视机及电视系统
CN109508167B (zh) 显示装置和在语音识别系统中控制显示装置的方法
KR20140058127A (ko) 음성인식장치 및 음성인식방법
KR102056461B1 (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
US20140195230A1 (en) Display apparatus and method for controlling the same
KR101914708B1 (ko) 서버 및 서버의 제어 방법
KR102009316B1 (ko) 대화형 서버, 디스플레이 장치 및 그 제어 방법
KR20140074229A (ko) 음성 인식 장치 및 그 제어 방법
KR20150087687A (ko) 대화형 시스템, 디스플레이 장치 및 그 제어 방법
US20130041666A1 (en) Voice recognition apparatus, voice recognition server, voice recognition system and voice recognition method
KR20150054490A (ko) 음성인식 시스템, 음성인식 서버 및 디스플레이 장치의 제어방법
WO2019101099A1 (zh) 视频节目识别方法、设备、终端、系统和存储介质
CN109302528B (zh) 一种拍照方法、移动终端及计算机可读存储介质
CN111161731A (zh) 智能家电离线语音控制装置
US11354520B2 (en) Data processing method and apparatus providing translation based on acoustic model, and storage medium
KR20220037819A (ko) 복수의 기동어를 인식하는 인공 지능 장치 및 그 방법
CN110839169B (zh) 一种智能设备遥控装置及基于其的控制方法
KR102160756B1 (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
CN113571038B (zh) 语音对话方法、装置、电子设备及存储介质
KR101660269B1 (ko) 대화형 서버, 그 제어 방법 및 대화형 시스템
US20240129370A1 (en) A computer software module arrangement, a circuitry arrangement, an arrangement and a method for an improved user interface for internet of things devices
CN113571038A (zh) 语音对话方法、装置、电子设备及存储介质
CN115802083A (zh) 控制方法、装置、分体电视及可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160912

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171128

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180109