JP2014089437A

JP2014089437A - 音声認識装置及び音声認識方法

Info

Publication number: JP2014089437A
Application number: JP2013187036A
Authority: JP
Inventors: Eun-Sang Park; 殷相朴; Myung-Jae Kim; 命哉金; Yu Liu; ▲ゆ▼ 劉; Keo-Gun Park; 巨根朴
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2012-10-29
Filing date: 2013-09-10
Publication date: 2014-05-15
Also published as: CN103794212A; EP2725577A2; EP2725577A3; US20140122075A1; WO2014069798A1; RU2015120296A; KR20140054643A

Abstract

【課題】相互に異なった性能を有する複数の音声認識エンジンを用いて音声認識を行いながら、各音声認識エンジンの音声認識の結果の衝突を防止することができる音声認識装置及び音声認識装置を用いた音声認識方法を提供する。
【解決手段】本発明に係る音声認識装置は、ユーザーの音声信号を受信する音声受信部と、前記音声信号を受信して音声認識処理を行う第１の音声認識エンジンと、前記音声信号を受信して外部の第２の音声認識エンジンに伝送する通信部と、ユーザーの選択に基づいて、前記音声受信部を介して受信される音声信号を、前記第１の音声認識エンジン又は前記通信部の少なくとも一方に伝送するように制御する制御部と、を備える。
【選択図】図１

Description

本発明は、音声認識装置及び音声認識装置を用いた音声認識方法に係り、特に、相互に異なった性能を有する複数の音声認識エンジンを用いて音声認識を行うことができる音声認識装置及び該音声認識装置を用いた音声認識方法に関する。

音声認識技術は、ユーザーなどが入力する音声を集音して獲得した音声信号を、所定の言語に対応する信号として認識する技術で、様々な分野に活用可能である。特に、音声認識技術は、指などで特定ボタンを押したりする従来の入力方式に比べて簡便であるため、従来の入力方式に代える手段としてＴＶ、携帯電話などの電子機器に用いられている。例えば、ＴＶのチャンネル調整のとき、「チャンネルアップ」のような特定単語を音声として入力し、該ユーザーの音声信号をＴＶ内の音声認識エンジンで認識してチャンネル調整を行うことができる。

音声認識技術の発達に伴い、音声認識エンジンで認識可能な音声信号の範囲も拡張されてきており、従来では限られた数の決まった単語しか認識できなかったが、最近では比較的長い文章の認識ができ、その正確度も向上した音声認識エンジンが商用化されつつある。

一方、音声認識エンジンはその使用目的によって様々に分類可能であり、単語認識用エンジンと連続語認識用エンジンとに大別することができる。単語認識用エンジンは、限られた数の決まった単語のみを認識すればよく、音声認識エンジンの容量が大きくないため、電子機器内の組み込み型エンジンとして活用可能である。また、連続語認識用エンジンは、大容量が要求されるだけに、より多い単語及び文章を認識することができ、最近ではクラウド環境の構築に伴ってサーバーベースで活用可能である。

上述した単語認識用エンジンと連続語認識用エンジンは、容量面、データ伝送面、速度面において相反する長短所を有しており、両者を適宜活用することによって音声認識機能をより效率的に用いることが可能になるであろう。ただし、一つの音声信号に対して種々の音声認識エンジンで音声認識を行うと、その結果が異なり、音声信号に基づく制御を行う上で問題が生ずることがある。

そこで、本発明は、相互に異なった性能を有する複数の音声認識エンジンを用いて音声認識を行いながら、各音声認識エンジンの音声認識の結果の衝突を防止することができる音声認識装置及び音声認識装置を用いた音声認識方法を提案する。

上記目的は、本発明により、ユーザーの音声信号を受信する音声受信部と、前記音声信号を受信して音声認識処理を行う第１の音声認識エンジンと、前記音声信号を受信して外部の第２の音声認識エンジンに伝送する通信部と、前記音声受信部を介して受信される音声信号を前記第１の音声認識エンジン又は前記通信部の少なくとも一方に伝送するように制御する制御部と、を備えることを特徴とする音声認識装置により達成されるとよい。

ここで、前記第１の音声認識エンジンは、既に設定された語彙のみを認識する組み込み型エンジンで構成され、前記第２の音声認識エンジンは、連続した多数の語彙を認識するサーバー型エンジンで構成されてもよい。

ここで、前記音声認識装置は、遠隔制御装置を介したユーザーの入力信号を受信するユーザー入力部をさらに備え、前記遠隔制御装置は、音声認識エンジンの選択のための少なくとも一つの音声認識エンジン選択ボタンを備えていればよい。

ここで、前記制御部は、前記音声認識エンジン選択ボタンを押す時間が所定時間以上であると、前記音声信号が前記第１の音声認識エンジン又は前記第２の音声認識エンジンのいずれか一方に伝送され、所定時間未満であると他方に伝送されるように制御してもよい。

ここで、前記遠隔制御装置の前記音声認識エンジン選択ボタンは、前記第１の音声認識エンジン及び前記第２の音声認識エンジンのそれぞれに対応する複数のボタンを備えており、前記制御部は、前記複数のボタンのいずれか一方に対応する入力信号が受信されると、前記ボタンに対応する音声認識エンジンに前記音声信号が伝送されるように制御してもよい。

ここで、前記制御部は、前記音声受信部を介して前記音声信号が受信されると、既に設定された語彙が前記受信した音声信号に含まれているか否かに基づいて、音声認識を行う前記第１の音声認識エンジン又は前記第２の音声認識エンジンのいずれか一方を決定してもよい。

ここで、前記受信される音声信号は前記第１の音声認識エンジン及び前記第２の音声認識エンジンにそれぞれ伝送され、前記制御部は、前記第１の音声認識エンジンの音声認識結果に基づいて、前記既に設定された語彙が前記音声信号に含まれているか否かを判断してもよい。

ここで、前記制御部は、既に設定された音声が前記音声信号の前半部に含まれているか判断してもよい。

また、上記目的は、本発明により、ユーザーの音声信号を受信することと、ユーザーの選択に基づいて、前記受信した音声信号を処理する、音声認識装置内に設けられた第１の音声認識エンジン又は前記音声認識装置の外部に設けられた第２の音声認識エンジンの少なくとも一方を決定することと、前記決定結果に基づいて、前記音声信号を前記第１の音声認識エンジン又は前記第２の音声認識エンジンの少なくとも一方に伝送することと、を含むことを特徴とする音声認識装置を用いた音声認識方法によって達成されてもよい。

ここで、上記方法は、遠隔制御装置を介したユーザーの入力信号を受信することをさらに含み、前記遠隔制御装置は、音声認識エンジンの選択のための少なくとも一つの音声認識エンジン選択ボタンを備えていればよい。

ここで、前記決定することは、前記音声認識エンジン選択ボタンを押す時間が所定時間以上であれば、前記音声信号を処理する音声認識エンジンを前記第１の音声認識エンジン又は前記第２の音声認識エンジンのいずれか一方と決定し、所定時間未満であれば他方と決定してもよい。

前記遠隔制御装置の前記音声認識エンジン選択ボタンは、前記第１の音声認識エンジン及び前記第２の音声認識エンジンのそれぞれに対応する複数のボタンを備えており、前記決定することは、前記複数のボタンのいずれか一方に対応する入力信号が受信されると、前記音声信号を処理する音声認識エンジンを、前記ボタンに対応する前記第１の音声認識エンジン又は前記第２の音声認識エンジンのいずれか一方と決定してもよい。

上記方法は、既に設定された語彙が前記受信した音声信号に含まれているか否かを判断することをさらに含み、前記決定することは、前記判断結果に基づいて、音声認識を行う前記第１の音声認識エンジン又は前記第２の音声認識エンジンのいずれか一方を決定してもよい。

前記受信される音声信号は前記第１の音声認識エンジン及び前記第２の音声認識エンジンにそれぞれ伝送され、前記判断することは、前記第１の音声認識エンジンの音声認識結果に基づいて、前記既に設定された語彙が前記音声信号に含まれているか否かを判断してもよい。

以上説明した通り、本発明に係る音声認識装置及び音声認識装置によれば、相互に異なった性能を有する複数の音声認識エンジンを用いて音声認識を行いながら、各音声認識エンジンの音声認識の結果の衝突を防止することが可能になる。

本発明に係る音声認識装置の制御ブロック図である。本発明に係る遠隔制御装置を簡略に示す図である。ディスプレイ部に表示されたＵＩを簡略に示す図である。本発明の第１の実施例に係る音声認識方法を示すフローチャートである。本発明の第２の実施例に係る音声認識方法を示すフローチャートである。

以下、添付の図面を参照して、本発明の実施例について、本発明の属する技術の分野における通常の知識を有する者が容易に実施できるように詳細に説明する。本発明は種々の異なった形態にしてもよく、ここで説明する実施例に限定されない。本発明を明確に説明するために、説明と関連していない部分は省略し、明細書全体を通じて同一又は類似の構成要素には同一の参照符号を付ける。

図１は、本発明に係る音声認識装置１００の制御ブロック図である。図１に示すように、本発明に係る音声認識装置１００は、音声受信部１１０、第１の音声認識エンジン１４０、通信部１５０、制御部１６０を備えており、実施形態によって、ユーザー入力部１２０、ディスプレイ部１７０をさらに備えてもよい。

音声受信部１１０は、ユーザーの音声信号１０を受信する。音声受信部１１０は、音声認識装置１００に設けられたマイクにしてもよく、遠隔制御装置２０に設けられたマイク（図２の２２）を介して集音された音声信号を受信する形態にしてもよい。

第１の音声認識エンジン１４０は音声信号を受信して音声認識処理を行う。音声認識機能は音声信号を言語データに変換する一連の過程であり、第１の音声認識エンジン１４０は公知の様々な音声認識方法によって音声信号を言語データに変換して出力すればいい。一方、音声受信部１１０から受信される音声信号１０は、音声認識を目標にしたユーザーの音声の他、様々なノイズも含むことがあるから、周波数分析などの前処理過程でユーザーの音声成分のみを抽出し、抽出された音声成分に対して音声認識処理を行うとよい。音声認識エンジンを用いた音声認識方法は、様々な公知方法が存在し、それについての説明は省略する。

第１の音声認識エンジン１４０は、音声認識装置１００の内部に設けられる組み込み型エンジンにしてもよく、別個のハードウェア、又は後述する制御部１５０により実行されるソフトウェアにしてもよい。このような組み込み型エンジンは、限られた数の特定の語彙のみを認識可能である。例えば、音声認識装置１００がＴＶなどのディスプレイ装置であると、ＴＶを制御するためのユーザーの入力を認識する用途に用いればよい。ユーザーが「チャンネルアップ」、「電源オフ」、「音消去」などの音声信号を入力する場合に、第１の音声認識エンジン１４０は当該音声信号を認識し、既に設定された言語のいずれかと認識されると、認識された言語データを出力すればよい。このような組み込み型エンジンは、小さい容量のメモリーのみで構成可能であり、且つ速度面において優れているが、認識可能な語彙には限界があり、上述したように、ＴＶ制御などの簡単な入力しかできないという限界がある。

音声認識装置１００は、音声信号を受信して外部の第２の音声認識エンジン２１０に伝送する通信部１５０をさらに備え、第２の音声認識エンジン２１０の認識結果による言語データを受信することができる。第２の音声認識エンジン２１０は外部の音声認識サーバー２００に含まれるものでよく、通信部１５０は、ネットワークを介して音声認識サーバー２００に音声信号を伝達し、第２の音声認識エンジン２１０の音声認識結果を受信することができる。

上述したように、組み込み型エンジンに該当する第１の音声認識エンジン１４０と違い、第２の音声認識エンジン２１０はサーバーで具現されるため、様々な語彙又は連続語の認識ができる。例えば、検索窓に特定の検索語を入力すること、ＳＮＳなどのアプリケーションを介して文章を入力することなどは、多い語彙の認識が要求されるため、組み込み型エンジンでは実現し難いが、サーバーで具現される第２の音声認識エンジン２１０では実現可能である。すなわち、第２の音声認識エンジン２１０を用いる場合は、音声認識サーバー２００に音声信号を伝達する過程を行わなければならず、速度面では劣るが、性能面では優れているといえよう。

そのため、本発明に係る音声認識装置１００は、音声受信部１１０を介して入力される音声信号について、第１の音声認識エンジン１４０及び第２の音声認識エンジン２１０の両方による認識結果を用いるように構成される。特定の音声信号が入力される時、上記の音声認識エンジンの特性による用途を考慮して、音声認識装置１００は、入力される音声信号をどの音声認識エンジンに伝送するか決定する必要がある。第１の音声認識エンジン１４０と第２の音声認識エンジン２１０の両方から音声認識結果を出力すると、一つの入力に対して複数の動作が行われ、ユーザーの意図する入力が実行されないことがあるためである。しかし、音声認識装置１００において音声信号のみに基づいて、音声信号が伝達される音声認識エンジンを決定することは容易でなく、よって、音声信号以外の追加的な情報を用いてそれを決定することが好ましい。

制御部１６０は、本発明の音声認識装置１００を全般的に制御する役割を担うＣＰＵ、ＭｉＣＯＭのようなマイクロプロセッサにすればよい。特に、制御部１６０は、音声受信部１１０から出力された音声信号を第１の音声認識エンジン１４０又は通信部１５０のいずれかに伝送するように制御する役割を果たす。そのために、制御部１６０は、デマルチプレクサのように、入力される信号を一つの経路にスイッチングする音声分岐部（図示せず）を備えるとよい。一方、音声信号が伝達される音声認識エンジンを決定する基準はユーザーの選択に基づく。その具体例として下記の実施例が挙げられる。

第１の実施例として、制御部１６０は、ユーザーの遠隔制御装置２０による操作に基づいて、音声信号が伝達される音声認識エンジンを決定することができる。図３に示すように、ユーザーは遠隔制御装置２０を介して音声認識装置１００を制御するための入力信号を入力してよく、遠隔制御装置２０は、図２に示すように、チャンネル選択、ボリューム調整などの通常のボタンの他に、音声認識エンジンを選択するための別個の少なくとも一つのボタン２１を備えていればよい。遠隔制御装置２０は、ＩＲ（ＩｎｆｒａＲｅｄ）又はブルートゥースのような近距離通信方法を用いてユーザーの入力信号を音声認識装置１００に伝送すればよく、音声認識装置１００は、遠隔制御装置２０から伝送されるユーザーの入力信号を受信するためのユーザー入力部１２０をさらに備えていればよい。また、上述したように、遠隔制御装置に音声信号を受信するためのマイク２２が備えられていてもよい。

第１の実施例の一態様として、制御部１６０は、ユーザーが音声認識エンジン選択ボタン２１を押す時間が所定時間以上であると、音声信号を、第１の音声認識エンジン１４０又は第２の音声認識エンジン２１０のいずれか一方に伝送し、所定時間未満であると他方に伝送するように制御してもよい。例えば、ユーザーが音声認識エンジン選択ボタン２１を１秒未満と短く押してから音声信号を入力すると、第１の音声認識エンジン１４０に音声信号を伝送し、１秒以上と長く押してから音声信号を入力すると、第２の音声認識エンジン２１０に音声信号を伝送してもよい。上述したように、第１の音声認識エンジン１４０は、組み込みエンジンであって、低容量の構成とすることはできるが、簡単な語彙しか認識できないし、第２の音声認識エンジンは、種々の語彙及び文章が認識できるが、速度が遅いという欠点がある。そのため、ユーザーは、意図によって、チャンネル切り替えのように簡単な単語で認識可能であり、音声認識装置１００を制御するにあって速い動作が要求される場合には、音声認識エンジン選択ボタン２１を短く押したのち音声信号を入力し、インターネット検索語の入力のように長い文章を入力しようとする場合には、音声認識エンジン選択ボタン２１を長く押したのち音声信号を入力すればよい。

第１の実施例の他の態様として、遠隔制御装置２０の音声認識エンジン選択ボタン２１が、第１の音声認識エンジン１４０及び第２の音声認識エンジン２１０のそれぞれに対応する複数のボタン２１を備えてもよい。ユーザーが第１の音声認識エンジン１４０に対応する音声認識エンジン選択ボタンを押したのち音声信号を入力すると、制御部１６０は、音声信号を第１の音声認識エンジン１４０に伝送して第１の音声認識エンジン１４０で音声認識が行われるように制御し、ユーザーが第２の音声認識エンジン２１０に対応する音声認識エンジン選択ボタンを押したのち音声信号を入力すると、制御部１６０は、音声信号を通信部１５０を介して第２の音声認識エンジン２１０に伝送することによって第２の音声認識エンジン２１０で音声認識が行われるように制御する。

上述の第１の実施例は、ユーザーが遠隔制御装置２０のボタンを用いて音声認識エンジンを選択する方法に関するものであり、以下に説明する第２の実施例では、音声信号自体の認識結果に基づいて音声認識エンジンを選択する方法を提案する。

本発明の第２の実施例では、制御部１６０は、音声受信部１１０を介して音声信号を受信すると、受信した音声信号に既に設定された語彙が含まれているか否かに基づいて、音声認識を行う第１の音声認識エンジン１４０及び第２の音声認識エンジン２１０のいずれか一方を決定すればよい。具体的に、既に設定された音声が音声信号の前半部に含まれているか否かによって音声認識エンジンを決定するとよい。

例えば、音声信号に「命令」という語彙が含まれている場合は、第１の音声認識エンジン１４０で音声認識が処理されるように決定すればよい。この場合、ユーザーが「命令チャンネルアップ」という音声を入力すると、第１の音声認識エンジン１４０で音声認識を行い、音声認識の結果に基づき、制御部１６０は「チャンネルアップ」に対応する動作を行う。また、ユーザーが「今日の天気を教えて」という音声を入力すると、第２の音声認識エンジン２１０に音声信号が伝送され、第２の音声認識エンジン２１０で音声認識の機能が行われる。

第２の実施例において、音声信号は一応、第１の音声認識エンジン１４０及び第２の音声認識エンジン２１０にそれぞれ伝送され、制御部１６０は、第１の音声認識エンジン１４０での認識の結果、既に設定された語彙が音声信号に含まれていると、第１の音声認識エンジン１４０の認識結果による言語データに基づいて動作制御を行う。この時、第２の音声認識エンジン２１０も音声信号を受信し、その音声認識結果を音声認識装置１００に伝送すればよいが、制御部１６０は第２の音声認識エンジン２１０の音声認識結果に対しては動作を行う必要がない。一方、既に設定された語彙が音声信号に含まれていない場合は、第１の音声認識エンジン１４０の認識結果は無視され、制御部１６０は、第２の音声認識エンジン２１０の音声認識結果に基づいて動作制御を行う。

本発明に係る音声認識装置１００は、映像を表示するディスプレイ部１７０を備えるディスプレイ装置にしてもよい。この場合、制御部１６０は、音声信号を処理する音声認識エンジンに関する情報を含むＵＩ３００をディスプレイ部１７０に表示するように制御すればよい。図３に示すように、音声信号が入力され、その結果に基づいてチャンネル切り替え又は検索語の入力のような動作が行われると、当該音声認識結果がどの音声認識エンジンにより行われたかを指示するＵＩ３００を表示することで、ユーザーにフィードバックを提供することができる。また、上述した第１の実施例では所定時間以上ユーザーが音声認識エンジン選択ボタンを押すか否かによって音声認識処理を行う音声認識エンジンが決定されるので、押す時間に関する情報をＵＩ３００に表示してもよい。

上述した本発明に係る音声認識装置１００は、相互に異なった性能を有する複数の音声認識エンジンを用いて音声認識を行うことができ、ユーザーの入力に基づいて、入力される音声信号を処理する音声認識エンジンを決定できるため、用途及びユーザーの意図に合う音声認識エンジンを用いて音声認識を行うことができる。

図４は、本発明の第１の実施例に係る音声認識装置を用いた音声認識方法を示すフローチャートである。

本発明に係る音声認識装置は、ユーザーの音声信号を、第１の音声認識エンジン又は第２の音声認識エンジンを用いて音声認識処理を行うことができる。第１の音声認識エンジンは、音声認識装置の内部に設けられた組み込み型エンジンとし、小さい容量で構成可能である反面、限られた数の特定の語彙のみ認識できるものであればよく、これと違い、第２の音声認識エンジンは、サーバー型エンジンとし、音声認識装置外部の音声認識サーバーに設けられて多数の語彙及び文章を認識できるものであればよい。

音声認識装置はユーザーの音声信号を受信する（Ｓ１１０）。この時、音声認識装置に設けられたマイクからユーザーの音声を受信してもよく、遠隔制御装置に設けられたマイクを介して集音された音声信号を受信してもよい。

音声認識装置は、ユーザーの選択に基づいて、受信した音声信号を処理する、音声認識装置における第１の音声認識エンジン又は音声認識装置の外部に設けられた第２の音声認識エンジンの少なくとも一方を決定する（Ｓ１２０，Ｓ１３０）。

音声認識装置は、上記決定結果に基づいて、音声信号を第１の音声認識エンジン又は第２の音声認識エンジンのうち少なくとも一方に伝送し（Ｓ１４０）、音声信号を受信した音声認識エンジンは音声認識処理を行う（Ｓ１５０）。音声認識装置は、音声認識結果に基づいて、チャンネル切り替え、検索語の入力のような動作制御を行う。

ここで、上記決定段階は、ユーザーの選択に基づいて行われる。第１の実施例に係る音声認識方法は、遠隔制御装置を介してユーザーの入力信号を受信する段階をさらに含み、ユーザーの入力信号に基づいて第１の音声認識エンジン又は第２の音声認識エンジンのうち少なくとも一方を決定すればよい。そのために、遠隔制御装置は、音声認識エンジンの選択のための少なくとも一つのボタンを備えればよい。

このとき、音声認識エンジン選択ボタンを押す時間が所定時間以上であれば、音声信号を処理する音声認識エンジンを、第１の音声認識エンジン又は第２の音声認識エンジンのいずれか一方と決定し、所定時間未満であれば他方と決定してもよい。他の実施例として、遠隔制御装置の音声認識エンジン選択ボタンは、第１の音声認識エンジン及び第２の音声認識エンジンのそれぞれに対応する複数のボタンを備えており、上記決定段階は、複数のボタンのいずれか一つに対応する入力信号が受信されると、音声信号を処理する音声認識エンジンを、選択されたボタンに対応する第１の音声認識エンジン又は第２の音声認識エンジンのいずれか一方と決定してもよい。

音声認識装置は、映像を表示するディスプレイ部を備えるディスプレイ装置とすればよく、音声信号を処理する音声認識エンジンに関する情報を含むＵＩをディスプレイ部に表示する段階をさらに含んでもよい。

図５は、本発明の第２の実施例に係る音声認識装置を用いた音声認識方法を示すフローチャートである。

音声認識装置は、ユーザーの音声信号を受信する（Ｓ２１０）。受信した音声信号は、第１の音声認識エンジン及び第２の音声認識エンジンにそれぞれ伝送される（Ｓ２２０）。

第２の実施例では、受信した音声信号に既に設定された語彙が含まれているか否かに基づいて、音声認識を行う第１の音声認識エンジン及び第２の音声認識エンジンのいずれか一方を決定すればよい（Ｓ２３０）。このとき、既に設定された音声が音声信号の前半部に含まれているか否か判断するとよい。

判断の結果、既に設定された語彙が含まれた場合は、第１の音声認識エンジンで音声認識処理を行い（Ｓ２４０）、含まれていない場合は、第２の音声認識エンジンで音声認識処理を行うとよい（Ｓ２５０）。

上述した本発明に係る音声認識装置を用いた音声認識方法は、相互に異なった性能を有する複数の音声認識エンジンを用いて音声認識を行うことができ、ユーザーの入力に基づいて、入力される音声信号を処理する音声認識エンジンを決定できるため、用途及びユーザーの意図に合う音声認識エンジンを用いて音声認識を行うことができる。

以上、添付の図面を参照して本発明の実施例を説明してきたが、本発明の属する技術の分野における通常の知識を有する者には、本発明の技術的思想や必須の特徴から逸脱することなく他の具体的な形態に実施できるということが理解されるであろう。したがって、以上に述べた実施例はいずれの面においても例示的なものであり、限定的なものとして理解してはならない。本発明の範囲は、上記の詳細な説明に限定されず、添付の特許請求の範囲によって定められ、よって、特許請求の範囲の意味及び範囲、そしてその均等概念から導出される、変更又は変形されるいずれの形態も本発明の範囲に含まれるものとして解釈しなければならない。

１０音声信号
２０遠隔制御装置
１００音声認識装置
１１０音声受信部
１２０ユーザー入力部
１４０第１の音声認識エンジン
１５０通信部
１６０制御部
１７０ディスプレイ部
２００音声認識サーバー
２１０第２の音声認識エンジン

Claims

ユーザーの音声信号を受信する音声受信部と、
前記音声信号を受信して音声認識処理を行う第１の音声認識エンジンと、
前記音声信号を受信して外部の第２の音声認識エンジンに伝送する通信部と、
前記音声受信部から受信される音声信号を、前記第１の音声認識エンジン及び前記通信部の少なくとも一方に伝送するように制御する制御部と、
を備えることを特徴とする、音声認識装置。
前記第１の音声認識エンジンは、既に設定された語彙のみを認識する組み込み型エンジンで構成され、前記第２の音声認識エンジンは、連続した多数の語彙を認識するサーバー型エンジンで構成されることを特徴とする、請求項１に記載の音声認識装置。
遠隔制御装置を介したユーザーの入力信号を受信するユーザー入力部をさらに備え、
前記遠隔制御装置は、音声認識エンジンの選択のための少なくとも一つの音声認識エンジン選択ボタンを備えていることを特徴とする、請求項１に記載の音声認識装置。
前記制御部は、前記音声認識エンジン選択ボタンを押す時間が所定時間以上であると、前記音声信号が前記第１の音声認識エンジン又は前記第２の音声認識エンジンのいずれか一方に伝送され、所定時間未満であると他方に伝送されるように制御することを特徴とする、請求項３に記載の音声認識装置。
前記遠隔制御装置の前記音声認識エンジン選択ボタンは、前記第１の音声認識エンジン及び前記第２の音声認識エンジンのそれぞれに対応する複数のボタンを備えており、前記制御部は、前記複数のボタンのいずれか一方に対応する入力信号が受信されると、前記ボタンに対応する音声認識エンジンに前記音声信号が伝送されるように制御することを特徴とする、請求項３に記載の音声認識装置。
前記制御部は、前記音声受信部を介して前記音声信号が受信されると、既に設定された語彙が前記受信した音声信号に含まれているか否かに基づいて、音声認識を行う前記第１の音声認識エンジン又は前記第２の音声認識エンジンのいずれか一方を決定することを特徴とする、請求項２に記載の音声認識装置。
前記受信される音声信号は前記第１の音声認識エンジン及び前記第２の音声認識エンジンにそれぞれ伝送され、
前記制御部は、前記第１の音声認識エンジンの音声認識結果に基づいて、前記既に設定された語彙が前記音声信号に含まれているか否かを判断することを特徴とする、請求項６に記載の音声認識装置。
前記制御部は、既に設定された音声が前記音声信号の前半部に含まれているか判断することを特徴とする、請求項７に記載の音声認識装置。
ユーザーの音声信号を受信することと、
ユーザーの選択に基づいて、前記受信した音声信号を処理する、音声認識装置内に設けられた第１の音声認識エンジン又は前記音声認識装置の外部に設けられた第２の音声認識エンジンの少なくとも一方を決定することと、
前記決定結果に基づいて、前記音声信号を前記第１の音声認識エンジン又は前記第２の音声認識エンジンの少なくとも一方に伝送することと、
を含むことを特徴とする音声認識装置を用いた音声認識方法。
前記第１の音声認識エンジンは、既に設定された語彙のみを認識する組み込み型エンジンで構成され、前記第２の音声認識エンジンは、連続した多数の語彙を認識するサーバー型エンジンで構成されることを特徴とする、請求項９に記載の音声認識方法。
遠隔制御装置を介したユーザーの入力信号を受信することをさらに含み、
前記遠隔制御装置は、音声認識エンジンの選択のための少なくとも一つの音声認識エンジン選択ボタンを備えていることを特徴とする、請求項１０に記載の音声認識方法。
前記決定することは、
前記音声認識エンジン選択ボタンを押す時間が所定時間以上であれば、前記音声信号を処理する音声認識エンジンを前記第１の音声認識エンジン又は前記第２の音声認識エンジンのいずれか一方と決定し、所定時間未満であれば他方と決定することを特徴とする、請求項１１に記載の音声認識方法。
前記遠隔制御装置の前記音声認識エンジン選択ボタンは、前記第１の音声認識エンジン及び前記第２の音声認識エンジンのそれぞれに対応する複数のボタンを備えており、
前記決定することは、
前記複数のボタンのいずれか一方に対応する入力信号が受信されると、前記音声信号を処理する音声認識エンジンを、前記ボタンに対応する前記第１の音声認識エンジン又は前記第２の音声認識エンジンのいずれか一方と決定することを特徴とする、請求項１１に記載の音声認識方法。
既に設定された語彙が前記受信した音声信号に含まれているか否かを判断することをさらに含み、
前記決定することは、
前記判断結果に基づいて、音声認識を行う前記第１の音声認識エンジン又は前記第２の音声認識エンジンのいずれか一方を決定することを特徴とする、請求項９に記載の音声認識方法。
前記受信される音声信号は前記第１の音声認識エンジン及び前記第２の音声認識エンジンにそれぞれ伝送され、
前記判断することは、
前記第１の音声認識エンジンの音声認識結果に基づいて、前記既に設定された語彙が前記音声信号に含まれているか否かを判断することを特徴とする、請求項１４に記載の音声認識方法。