JP4201870B2

JP4201870B2 - 音声認識による制御を用いるシステム及び音声認識による制御方法

Info

Publication number: JP4201870B2
Application number: JP04151398A
Authority: JP
Inventors: 功一郎福永; 正巳前坂; 光陽柴崎; 誠木佐貫
Original assignee: Clarion Co Ltd
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 1998-02-24
Filing date: 1998-02-24
Publication date: 2008-12-24
Anticipated expiration: 2018-02-24
Also published as: JPH11237896A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識によって各種制御対象の制御を行う技術の改良に関するもので、より具体的には、語句を認識する際、制御対象の動作状態に応じた必要な語句の認識用データだけを参照するようにしたものである。
【０００２】
【従来の技術】
音声認識は、認識しようとする語句ごとに、語句の波形や特徴を表すパラメータなどの認識用データを予めデータベースに記録しておき、発話された言葉をこれら認識用データとパターンマッチングすることによって、発話された語句を推定する技術である。
【０００３】
このような音声認識をオーディオシステムなど各種制御対象の制御に用いる場合、どの語句を発話した場合にどのような内容の制御が行われるか、予め定めておく。そして、語句の認識結果は、認識用データに対応した語句ＩＤなどの形で得られ、制御用のアプリケーションプログラムがこの認識結果を受け取り、どの語句が認識されたか、すなわちユーザの発話語句に応じて予め決められている制御を制御対象に対して行う。
【０００４】
例えば、図７は、このような従来技術によってオーディオシステムを制御する場合の構成例を示すブロック図である。このシステムは、ＣＤプレーヤ、ラジオ受信機など複数のオーディオソースユニット１１，１２と、これらオーディオソースユニット１１及び１２を制御するための音声認識装置１３とを、通信回線１４を介して接続したものである。このうち各オーディオソースユニット１１，１２は、通信回線１４を介して外部から送られてくる制御コマンドを受信し、制御コマンドに基づいて各種動作を行うように構成されている。
【０００５】
また、音声認識装置１３は、音声入力部１３１と、認識辞書１３２と、パターンマッチング部１３３と、コマンド出力部１３４と、を有する。そして、認識辞書１３２には、このシステム上で発生しうるいろいろな結線状況や動作状態などあらゆる条件を想定し、オーディオソースユニット１１，１２に送信するいろいろな制御コマンドに対応する全ての語句について、認識用データが格納されている。
【０００６】
この例では、ユーザの音声は、音声入力部１３１によってデジタル波形に変換され、パターンマッチング部１３３が、変換されたデジタル波形を、認識辞書１３２に格納されている各語句の認識用データと比較するパターンマッチングを行い、音声に特徴が一致する語句を認識辞書１３２内の語句から選択することによって認識結果とする。この認識結果はコマンド出力部１３４に受け渡され、コマンド出力部１３４は、認識結果に応じた制御用コマンドを通信回線１４を介して送信することによって、オーディオソースユニット１１や１２を制御し、ユーザの発話内容に応じた動作を実現する。
【０００７】
【発明が解決しようとする課題】
ところで、このようなシステムにおいて、音声認識装置に制御対象として接続されているオーディオソースユニットについては、様々な種類・型式のものや動作状態が考えられる。なお、本出願において「動作状態」とは、制御対象ユニットについて狭義の動作状態だけでなく、接続されているかどうかや、どのような種類や型式か、どのような機能を持っているかなど、使用できる語句の範囲に影響するあらゆる要素を広く意味する。
【０００８】
例えば、
（１）オーディオソースユニットの電源の状態はオフとオンが考えられる。
（２）また、接続されるオーディオソースユニットの種類が同じでも、内蔵される機能が多いものが接続される場合や、機能の少ないものが接続される場合が考えられる。
（３）また、オーディオソースユニットとして、ラジオ受信機とＣＤプレーやのように複数の種類が接続されていて、それらが切り替えられたり選択されることによって動作を行う場合も考えられる。なお、この場合は、例えば現在あるソース（音源）が選択されている場合はそのソースは、動作中でかつ外部からの制御コマンドを受け付け可能な状態となり、一方、他のソースは動作オフの状態で外部からの制御コマンドは受け付け不可能な状態となる。
【０００９】
これに対して、従来の音声認識装置は上記のようなオーディオソースユニットの動作状態を判断する手段を有していない。このため、従来技術では、システムに生じうるあらゆる状態を予め予測し、用いられる可能性がある全ての語句を認識用データとして単一の認識辞書に登録し、パターンマッチングの対象としていた。
【００１０】
この結果、従来技術における音声認識装置は、各時点で、そのときのシステムの動作状態では使用することのない不必要な語句についても認識用データを参照して認識動作を行い、認識結果に応じた制御コマンドをオーディオソースユニットに送信していた。しかし、受信するオーディオソースユニットの側では、受信した制御コマンドに対応する動作ができない状態であるため、認識動作も制御コマンドの送受信も無駄な処理となっていた。
【００１１】
具体的には、例えば、前記（１）の例に関して、ＣＤプレーヤユニットでは「再生」といった語句に対応した再生開始の制御コマンドは、電源がオンの状態でなければ有効でない。にもかかわらず、電源がオフのときにも「再生」といった語句が認識の対象となり、再生開始の制御コマンドが送信されることは無駄である。同様に、「電源オン」といった語句は電源がオフの時に認識されれば十分で、電源がオンの時には認識対象とする必要はない。
【００１２】
また、前記（２）の例に関して、ラジオチューナーユニット（ラジオ受信機）としては、ＡＭ（波受信）の機能のみを持つ機種と、ＡＭとＦＭ両方の機能を持つ機種とが考えられ、どちらの機種も制御対象として音声認識装置に接続される可能性がある。しかし、ＡＭの機能だけの機種が接続されている場合は、音声認識装置の認識辞書には、ＦＭの機能の操作に関する語句は不必要である。
【００１３】
また、前記（３）の例に関して、ＣＤプレーヤユニットとラジオチューナーユニットが音声認識装置に接続されていて、ＣＤプレーヤユニットがＣＤを再生中に、ユーザが「シークアップ」といったラジオのチューニングに関する語句を発話した場合を考える。この場合でも、音声認識装置は認識辞書に基づいてこの語句を認識し、「シークアップ」という語句に対応した制御コマンドを通信回線経由でラジオチューナーユニットに送信する。しかし、ＣＤの再生中にオンになっているのはＣＤプレーヤユニットであり、ラジオチューナーユニットはオフの状態になっているため、「シークアップ」の制御コマンドは受付不可の状態になる。したがって、この場合も認識や制御コマンドの送信の処理は無駄となる。
【００１４】
なお、ＣＤを再生している状態から、ラジオのチューニングに関するシークアップなどの動作を可能にするには、予め音声による操作やキー操作などによってソースをラジオに切り替えることによって、ラジオチューナーユニットをオンの状態にする必要がある。
【００１５】
一方、音声認識の特徴として、認識辞書中の語句数が少ないほど、入力された音声とパターンマッチングで比較対象とする候補が減るため、認識率と認識応答時間などの性能が向上する。逆に、上記のように、不必要な語句も常に認識対象とすると、マッチングの対象とする語句数が増え、結果的に認識性能が悪化する。このため、不必要な単語はなるべく認識対象から外し、必要最小限の語句数で認識辞書を構成することが望まれていた。
【００１６】
本発明は、上記のような従来技術の問題点を解決するために提案されたもので、その目的は、制御対象の動作状態に応じた適切な語句数で認識を行うことによって、認識性能を向上させることである。
【００１７】
【課題を解決するための手段】
上記の目的を達成するため、請求項１の発明は、認識しようとする語句ごとの特徴を表す認識用データを格納した認識辞書を用いて、入力される音声から語句を認識して制御対象を制御する音声認識による制御装置と、前記制御装置から制御コマンドを受信することによって動作する１又は２以上のユニットと、を含む音声認識による制御を用いるシステムにおいて、前記ユニットは、前記制御装置に制御対象として接続された場合に、当該ユニットがどのような機能を持っているかに関する機能情報を前記制御装置に送る機能情報送信手段を備え、前記制御装置は、ユニットが持つ可能性のある機能ごとに対応した複数の認識辞書と、前記ユニットから送られた前記機能情報を受け取る手段と、受け取った前記機能情報に基づいて、前記ユニットが持っている機能に対応する認識辞書を複数の認識辞書の中から選択する手段と、入力される音声から、選択されている認識辞書を用いて語句を認識する手段と、認識された語句に応じて前記ユニットを制御する手段と、を備えることを特徴とする。
【００１８】
請求項３の発明は、請求項１の発明を方法の観点から把握したもので、認識しようとする語句ごとの特徴を表す認識用データを格納した認識辞書と、入力される音声から語句を認識して制御対象を制御する音声認識による制御装置と、前記制御装置から制御コマンドを受信することによって動作する１又は２以上のユニットと、を用いて行う音声認識による制御方法において、
前記ユニットは、前記制御装置に制御対象として接続された場合に、当該ユニットがどのような機能を持っているかに関する機能情報を前記制御装置に送る機能情報送信ステップを実行し、前記制御装置は、前記ユニットから送られた前記機能情報を受け取るステップと、受け取った前記機能情報に基づいて、前記ユニットが持つ機能に対応する認識辞書を複数の認識辞書の中から選択するステップと、入力される音声から、選択されている認識辞書を用いて語句を認識するステップと、認識された語句に応じて前記ユニットを制御するステップと、を実行することを特徴とする。
【００１９】
請求項１，３の発明では、制御対象であるユニットが持っている機能に関する語句だけが認識の際に参照され、ユニットが持っていない機能に関する語句は参照されないので、参照される語句数が減少し、認識性能が向上する。
【００２０】
請求項２の発明は、請求項１の発明において、前記機能情報送信手段は、前記ユニットが最初に起動したときに、前記機能情報を前記制御装置に送るものであることを特徴とする。また、請求項４の発明は、請求項３の発明において、前記機能情報送信ステップは、前記ユニットが最初に起動したときに、前記機能情報を前記制御装置に送るものであることを特徴とする。
【００２２】
【発明の実施の形態】
次に、本発明の複数の実施の形態について、図面を参照して説明する。
なお、本発明の各機能は、コンピュータを、ソフトウェアで制御することによって実現することが一般的と考えられる。この場合、コンピュータが備えるレジスタ、メモリ、外部記憶装置などの記憶装置が、いろいろな形式で、情報を一時的に保持したり永続的に保存する。そして、ＣＰＵが、前記ソフトウェアにしたがって、これらの情報に加工及び判断などの処理を加え、さらに、処理の順序を制御する。
【００２３】
また、コンピュータを制御するソフトウェアは、本出願の各請求項及び本明細書に記述する処理に対応した命令を組み合わせることによって作成され、作成されたソフトウェアは、コンパイルされた組み込みソフトウェアなどの形式で実行されることで、上記のようなハードウェア資源を活用する。
【００２４】
但し、本発明を実現するための上記のような態様はいろいろ変更することができ、例えば、本発明を実現するソフトウェアを記録したＲＯＭチップやＣＤ−ＲＯＭのような記録媒体は、それ単独でも本発明の一態様である。また、本発明の機能の一部をＬＳＩなどの物理的な電子回路で実現することも可能である。
【００２５】
以上のように、コンピュータを使用して本発明を実現する態様はいろいろ変更できるので、以下では、本発明の各機能を実現する仮想的回路ブロックを用いることによって、本発明の実施の形態（以下「実施形態」という）を説明する。
【００２６】
なお、説明に用いるそれぞれの図について、それ以前に説明した図と同一又は同種の部材に関しては説明を省略する。
【００２７】
〔１．第１実施形態〕
第１実施形態は、音声認識装置（前記音声認識による制御装置に相当する）とオーディオソースユニット（前記制御対象、ユニット及び前記制御対象ユニットに相当する）とを接続した音声認識を用いるカーオーディオシステムである。
【００２８】
この第１実施形態は、請求項１，２，３，６，９に対応するもので、音声認識装置が、オーディオソースユニットが電源オフの状態で有効な語句を格納した認識辞書と、電源オンの状態で有効な語句を格納した認識辞書とを持ち、オーディオソースユニットから音声認識装置へ電源がオンかオフかの情報を送り、音声認識装置ではこの情報に基づいて、これら２つの辞書を切り替えて認識動作を行うものである。
【００２９】
〔１−１．構成〕
まず、図１は、第１実施形態の構成を示す機能ブロック図である。第１実施形態は、この図に示すように、オーディオソースユニット２１と音声認識装置２２とを、通信回線２３を介して接続したものである。このうちオーディオソースユニット２１は、通信回線２３を介して外部からの制御コマンドを受信することによって電源のオンオフなど各種動作を行うものである。
【００３０】
このオーディオソースユニット２１は、システム上にいくつか接続することができ、それぞれの内部に、自身の動作状態を外部の音声認識装置２２に送信するための動作状態出力部２１１（前記動作状態に関する情報を送る手段に相当する）を持つ。この動作状態出力部２１１は、オーディオソースユニット２１の電源についてオン／オフの状態が変化した際に、どのように変化したかを通信回線２３を介して外部に通知するように構成された部分である。
【００３１】
一方、音声認識装置２２は、音声入力部２２１と、認識辞書２２２及び２２３と、辞書切り替え制御部２２４と、オーディオ状態受信部２２５と、パターンマッチング部２２６と、コマンド出力部２２７と、を有する。このうち音声入力部２２１は、マイクロホン（マイク）などから入力される音声をデジタル信号に変換する部分である。また、認識辞書２２２は、オーディオソースユニット２１の電源がオフの状態の時に認識対象となる各語句について、波形や各種パラメータなどの特徴を表した認識用データを格納したものである。一方、認識辞書２２３は、オーディオソースユニット２１の電源がオンの状態の時に認識対象となる各語句について認識用データを格納したものである。
【００３２】
また、オーディオ状態受信部２２５は、オーディオソースユニット２１の電源がオンかオフかの状態変化に関して動作状態出力部２１１から送信される情報を受信する手段である。また、辞書切り替え制御部２２４は、オーディオ状態受信部２２５が受信した電源の状態変化に関する情報に応じて、語句の認識で用いる認識辞書を、認識辞書２２２又は認識辞書２２３のいずれか一方に切り替えることによって選択する部分である。
【００３３】
また、パターンマッチング部２２６は、入力された音声を選択されている認識辞書に格納されている各認識用データとパターンマッチングすることによって語句を認識する部分である。また、コマンド出力部２２７は、認識された語句の意味する制御内容に応じた制御コマンドをシステムの各ユニットに出力する手段である。
【００３４】
〔１−２．作用及び効果〕
上記のような第１実施形態では、オーディオソースユニット２１において、電源の状態が変化したとき、どのように変化したかに関する情報が動作状態出力部２２１から通信回線２３を介して送信され、音声認識装置２２のオーディオ状態受信部２２５によって受信される。ここで、図２は、第１実施形態の音声認識装置２２が、このように送信された情報に基づいて認識辞書を切り替える処理手順を示すフローチャートである。
【００３５】
すなわち、オーディオ状態受信部２２５は、電源の状態変化に関する情報を待ち受け（ステップ１１）、情報を受信すると（ステップ１２）このように受信した情報を辞書切り替え制御部２２４に渡す。
【００３６】
電源の状態に関する情報を受け取った辞書切り替え制御部２２４は、電源の状態がどのように変化したかを受け取った情報から判断し（ステップ１３）、オーディオソースユニット２１の電源がオフに変化した場合は、語句の認識で用いる認識辞書を、電源がオフの時に必要な単語だけを格納した認識辞書２２２に切り替え（ステップ１４）、また、オーディオソースユニット２１の電源がオンに変化した場合は、語句の認識で用いる認識辞書を、電源がオンの時に必要な単語だけを格納した認識辞書２２３に切り替える（ステップ１５）。
【００３７】
そして、パターンマッチング部２２６は（図１）、入力される音声の波形を、このように切り替えられた認識辞書２２２又は２２３に含まれている各語句の認識用データとマッチングし、音声の波形やその特徴が一致した語句を認識結果として選択する。例えば、オーディオソースユニット２１の電源がオフの場合、マッチングの対象としては認識辞書２２２が用いられ、この認識辞書２２２には例えば「電源オン」という語句は登録されているが、電源がオフの状態では使用しない例えば「電源オフ」といった語句は登録されていない。
【００３８】
逆に、オーディオソースユニット２１の電源がオンの場合は、マッチングの対象としては認識辞書２２３が用いられ、この認識辞書２２３には例えば「電源オフ」という語句は登録されているが、電源がオンの状態では使用しない例えば「電源オン」といった語句は登録されていない。
【００３９】
このため、オーディオソースユニット２１の電源がオフのときもオンのときも、その状態で必要のない語句はマッチングの対象から外れ、マッチングの対象としなければならない語句数が従来よりも減少するので、認識性能が向上する。なお、パターンマッチング部２２６は、上記のように認識された認識結果を、語句のＩＤなどの形でコマンド出力部２２７に渡し、コマンド出力部２２７は渡された認識結果に応じた制御用のコマンドを、通信回線２３を介してオーディオソースユニット２１に出力することによって、ユーザの発話内容に対応した動作を実現する。
【００４０】
以上のように、第１実施形態では、各認識辞書には、動作状態に応じた各語句が、その語句を認識するための認識用データの形で格納されていて、これら複数の認識辞書のうち、制御対象の動作状態に応じた認識辞書が認識での参照対象として選択される。このため、入力された音声は、制御対象の動作状態に応じて、不必要な語句を含まない必要最小限の語句とだけパターンマッチングされる。このように音声認識で参照する語句数が減ることによって、認識性能が向上する。
【００４１】
特に、第１実施形態では、制御対象であるオーディオソースユニットからその動作状態に関する情報が制御装置に送られるので、制御装置では、ユーザがスイッチなどで制御対象の種類などを入力するまでもなく、動作状態を容易に自動検出することができ、操作が容易になる。
【００４２】
〔２．第２実施形態〕
第２実施形態は、請求項５，８に対応するもので、システムに接続されうる各ユニットが持つ可能性のある個々の機能ごとに、その機能に対応する語句を格納した認識辞書をそれぞれ用意し、どのような機能を持つかについてユニットから送られる情報に応じて、必要な認識辞書を選択して語句の認識に用いるものである。
【００４３】
〔２−１．構成〕
この第２実施形態では、図３に示すように、オーディオソースユニット３１が機能情報出力部３１１を持ち、この機能情報出力部３１１は、オーディオソースユニット３１がシステムに接続された初期状態の際に、当該オーディオソースユニット３１がどのような機能を持っているかに関する機能情報を音声認識装置３２に送信するように構成されている。
【００４４】
また、音声認識装置３２は、音声入力部３２１、オーディオ状態受信部３２４、パターンマッチング部３２５、コマンド出力部３２６の他、複数の認識辞書３２２１〜３２２ｎを持ち、認識辞書群３２２１〜３２２ｎはそれぞれ、システムに接続される可能性のあるオーディオソースユニットの各機能に対応し、その機能に関する各語句を格納したものである。
【００４５】
例えば、システムに接続される可能性のあるユニットが３種類あって、１種類のユニットが３つの機能を持つ可能性があり、１つの機能を利用するのに３つの語句を使用するとする。この場合は、３種類×３機能＝９つの認識辞書があり、１つの認識辞書あたり３つの語句が格納されているので、全体として２７の語句の認識用データが存在することになる。
【００４６】
また、音声認識装置３２は、辞書選択制御部３２３と、オーディオ状態受信部３２４とを持ち、このオーディオ状態受信部３２４は、機能情報出力部３１１から送信される機能情報を受信する部分である。また、辞書選択制御部３２３は、オーディオ状態受信部３２４が受信した機能情報に基づいて、認識辞書群３２２１〜３２２ｎから、システムに接続されているオーディオソースユニットの持つ機能に対応する認識辞書を、パターンマッチング部３２５が語句認識で参照する対象として選択する部分である。
【００４７】
〔２−２．作用及び効果〕
上記のような構成を有する第２実施形態では、オーディオソースユニット３１がシステムに新たに接続され、最初に起動されたときに、当該オーディオソースユニット３１の機能情報出力部３１１は、オーディオソースユニット３１がどのような機能を持つかという機能情報を、通信回線３３を介して音声認識装置３２のオーディオ状態受信部３２４に送信する。ここで、図４は、音声認識装置３２において、認識辞書群３２２１〜３２２ｎから、オーディオソースユニット３１の持つ機能に対応する認識辞書を、語句認識で参照する対象として機能情報に基づいて選択する処理手順を示すフローチャートである。
【００４８】
すなわち、受信待ちの状態のオーディオ状態受信部３２４が（ステップ２１）機能情報を受信すると（ステップ２２）、オーディオソースユニット３１が各機能を持っているかどうか１つずつ判断され（ステップ２３，２５…２８）、持っている機能に対応した認識辞書が語句認識で参照する対象に加えられる（ステップ２４，２６…２９）。
【００４９】
なお、機能情報の一例として、例えばあるユニットが持っている可能性のある機能が８つある場合、１バイトの８ビットそれぞれを１つずつの機能に対応させ、１番目の機能がある場合は１ビット目を１、ない場合は０とし、２番目の機能については同様に２ビット目を１又は０とする。このように作成した機能情報を１バイト長のデータとして通信回線３３経由で送信し、このデータを渡された辞書選択制御部３２３は、１ビット目から値を参照し、値が１になっている場合に対応する認識辞書を参照の対象に加えればよい。
【００５０】
そして、パターンマッチング部３２５は、音声から語句を認識するとき、認識辞書群３２２１〜３２２ｎのなかで、上記のように選択された認識辞書のみを音声と比較するための参照対象とする。そして、認識結果としては、選択されている各認識辞書に含まれる全ての語句のなかから、語句の認識用データと音声とがもっともよく一致するものを選び、その語句のＩＤなどをコマンド出力部３２６に渡す。このような認識結果を受け取ったコマンド出力部３２６は、ユーザの音声から認識された語句（発話内容）に応じて、制御コマンドを送信することによってオーディオソースユニット３１を制御する。
【００５１】
以上のように、第２実施形態では、制御対象であるユニットが持っている機能に関する語句だけが認識の際に参照され、ユニットが持っていない機能に関する語句は参照されないので、参照される語句数が減少し、認識性能が向上する。
【００５２】
〔３．第３実施形態〕
第３実施形態は、請求項４，７に対応するもので、第１と第２の二つの認識辞書を用い、第１の辞書はオーディオソースのユニットを切り替えるための語句を格納した内容固定のものとし、第２の辞書は、どのソースが動作しているかに応じて、動作しているソースについて用いる語句を格納する内容可変のものとする例である。
【００５３】
〔３−１．構成〕
この第３実施形態では、図５に示すように、複数のオーディオソースユニット４１，４２がそれぞれ動作状態出力部４１１，４２１を持つ。このうち動作状態出力部４１１は、オーディオソースユニット４１が動作を開始したときに、そのことを通信回線４４を介して音声認識装置４３に通知するように構成されている。同様に、動作状態出力部４２１は、オーディオソースユニット４３が動作を開始したときに、そのことを通信回線４４を介して音声認識装置４３に通知するように構成されている。
【００５４】
また、音声認識装置４３は、音声入力部４３１、オーディオ状態受信部４３６、パターンマッチング部４３７、コマンド出力部４３８の他、第１の認識辞書４３２と、第２の認識辞書４３３と、認識単語情報群記憶部４３４と、辞書切り替え制御部４３５と、を持つ。このうち第１の認識辞書４３２は、ＲＯＭなどを用いた内容固定の認識辞書で、どのオーディオソースユニットをスピーカの音源にするかというオーディオソースの切り替えに用いる語句（認識単語）を格納している。
【００５５】
一方、第２の認識辞書４３３は、前記コピーする手段に相当するもので、書き換え可能なＲＡＭなどを用いた内容可変の認識辞書であり、認識単語情報群記憶部４３４は第２の認識辞書４３３にコピーする語句（認識単語）の認識用データの候補（認識単語情報群）を記憶している部分である。すなわち、認識単語情報群記憶部４３４内の語句の情報は、それぞれ１つのオーディオソースに対応するいくつかのグループに分けてあり、１つのグループは、対応するオーディオソースが動作しているときに用いる各語句を認識するための認識用データの集合である。
【００５６】
そして、辞書切り替え制御部４３５は、各オーディオソースユニット４１又は４２からオーディオ状態受信部４３６が動作開始の通知を受け取ったときに、動作を開始したオーディオソースに対応する語句すなわちその語句の認識用データのグループを認識単語情報群記憶部４３４から第２の認識辞書４３３にコピーする部分である。
【００５７】
〔３−２．作用及び効果〕
上記のような構成を有する第３実施形態では、第１の認識辞書４３２の内容はオーディオソースの切り替えに用いる語句に固定されていて、ユーザがオーディオソースの切り替えを語句で指定するとパターンマッチング部４３７は、ユーザの発話した語句を第１の認識辞書４３２から発見し、この認識結果をコマンド出力部４３８に送る。この場合、コマンド出力部４３８は、例えばそれまで動作していたユニットに電源をオフにする制御コマンドを送り、一方、新たに動作させるユニットに電源をオンにする制御コマンドを送ることによって、オーディオソースを切り替える。
【００５８】
この切り替えによって、例えばＣＤプレーヤであるオーディオソースユニット４１が動作を開始した場合、オーディオソースユニット４１の動作状態出力部４１１は、動作を開始したことを音声認識装置４３のオーディオ状態受信部４３６に通知し、辞書切り替え制御部４３５はオーディオ状態受信部４３６からこの通知を受け取る。ここで、図６は、オーディオソースユニットから受け取る動作開始の情報に基づいて第２の認識辞書４３３の内容が書き換えられる処理手順を示すフローチャートである。
【００５９】
すなわち、辞書切り替え制御部４３５は、受信待ちの状態で（ステップ３１）オーディオソースユニットから動作開始の情報を受け取ると（ステップ３２）、例えば、どのユニットが動作を開始したかに応じて（ステップ３３，３５…３８）、動作を開始したそのユニットについて用いる語句の情報すなわち認識用データのグループを、認識単語情報群記憶部４３４から選択して第２の認識辞書４３３にコピーする。
【００６０】
そして、パターンマッチング部４３７は、語句の認識の際、第１の認識辞書４３２と第２の認識辞書４３３とを参照する。すなわち、ＣＤプレーヤであるオーディオソースユニット４１が動作しているときは、第２の認識辞書４３３にはＣＤプレーヤの操作に必要な語句だけが格納されていて、ユーザがＣＤプレーヤの操作に用いる語句を発話すると、音声を第２の認識辞書４３３の内容と照合したときに一致する語句が認識される。
【００６１】
また、第１の認識辞書４３２には常に、オーディオソースの切り替えに用いる語句が格納されているので、ユーザがオーディオソースを現在とは違ったオーディオソースに切り替える語句を発話すると、音声を第１の認識辞書４３２の内容と照合したときに一致する語句が認識される。このときは、オーディオソースが切り替えられると共に、前記と同様の処理手順によって、新たなオーディオソースの操作に用いる語句だけが第２の認識辞書４３３に格納された状態となる。
【００６２】
以上のように、第３実施形態では、動作中のユニットに関する語句だけが第２の認識辞書にコピーされて語句の認識の際に参照され、動作中でないユニットに関する語句は参照の対象とならない。このため、参照する語句の数が減り、認識性能が向上する。一方、ユニットの切り替えに関する語句は第１の認識辞書に固定されているので、どのユニットが動作中でもユニットの切り替えは自由に行うことができる。
【００６３】
〔４．他の実施の形態〕
なお、本発明は上記各実施形態に限定されるものではなく、次に例示するような他の実施の形態も含むものである。例えば、図１，図３，図５に示した構成は一例に過ぎず、本発明は、カーオーディオシステム以外の他の種類のシステムを制御するのに用いることもできる。
【００６４】
例えば、本発明は、周辺機器を持つ一般的なコンピュータ自体を制御するために、当該コンピュータの機能として実現することもできる。具体的には、例えば、接続する周辺機器の種類、機能、動作状態などに応じて認識する単語を必要なものに限定することもできる。
【００６５】
また、カーオーディオシステムと組み合わせる場合も、例えば、ＣＤプレーヤやラジオチューナーユニット（ラジオ受信機）など具体的なユニットの種類は例示に過ぎず、他の種類の音源や他の機能を持つユニットに自由に置き換えることができる。
【００６６】
【発明の効果】
以上のように、本発明によれば、制御対象の動作状態に応じて、語句の認識の際に参照する認識用データの語句数が限定されるので、認識性能が改善される。
【図面の簡単な説明】
【図１】本発明の第１実施形態の構成を示す機能ブロック図。
【図２】本発明の第１実施形態において、認識辞書を変更する処理手順を示すフローチャート。
【図３】本発明の第２実施形態の構成を示す機能ブロック図。
【図４】本発明の第２実施形態において、認識辞書を変更する処理手順を示すフローチャート。
【図５】本発明の第３実施形態の構成を示す機能ブロック図。
【図６】本発明の第３実施形態において、認識辞書を変更する処理手順を示すフローチャート。
【図７】従来の音声認識装置によってカーオーディオシステムを制御する場合の構成例を示す図。
【符号の説明】
２１，３１，４１，…オーディオソースユニット
２１１，４１１，４２１…動作状態出力部
２２，３２，４３…音声認識装置
２２１，３２１，４３１…音声入力部
２２２，２２３，３２２１〜３２２ｎ，４３２，４３３…認識辞書
２２４，４３５…辞書切り替え制御部
２２５，３２４，４３６…オーディオ状態受信部
２２６，３２５，４３７…パターンマッチング部
２２７，３２６，４３８…コマンド出力部
２３，３３，４４…通信回線
３２３…辞書選択制御部

Claims

認識しようとする語句ごとの特徴を表す認識用データを格納した認識辞書を用いて、入力される音声から語句を認識して制御対象を制御する音声認識による制御装置と、前記制御装置から制御コマンドを受信することによって動作する１又は２以上のユニットと、を含む音声認識による制御を用いるシステムにおいて、
前記ユニットは、新たに前記制御装置に対して制御対象として接続された場合に、当該ユニットがどのような機能を持っているかに関する機能情報を前記制御装置に送る機能情報送信手段を備え、
前記制御装置は、
ユニットが持つ可能性のある機能ごとに対応した複数の認識辞書と、
前記ユニットから送られた前記機能情報を受け取る手段と、
受け取った前記機能情報に基づいて、前記ユニットが持っている機能に対応する認識辞書を複数の認識辞書の中から選択する手段と、
入力される音声から、選択されている認識辞書を用いて語句を認識する手段と、
認識された語句に応じて前記ユニットを制御する手段と、
を備えることを特徴とする音声認識による制御を用いるシステム。
前記機能情報送信手段は、前記ユニットが最初に起動したときに、前記機能情報を前記制御装置に送るものであることを特徴とする請求項１記載の音声認識による制御を用いるシステム。
認識しようとする語句ごとの特徴を表す認識用データを格納した認識辞書と、入力される音声から語句を認識して制御対象を制御する音声認識による制御装置と、前記制御装置から制御コマンドを受信することによって動作する１又は２以上のユニットと、を用いて行う音声認識による制御方法において、
前記ユニットは、新たに前記制御装置に対して制御対象として接続された場合に、当該ユニットがどのような機能を持っているかに関する機能情報を前記制御装置に送る機能情報送信ステップを実行し、
前記制御装置は、
前記ユニットから送られた前記機能情報を受け取るステップと、
受け取った前記機能情報に基づいて、前記ユニットが持つ機能に対応する認識辞書を複数の認識辞書の中から選択するステップと、
入力される音声から、選択されている認識辞書を用いて語句を認識するステップと、
認識された語句に応じて前記ユニットを制御するステップと、
を実行することを特徴とする音声認識による制御方法。
前記機能情報送信ステップは、前記ユニットが最初に起動したときに、前記機能情報を前記制御装置に送るものであることを特徴とする請求項３記載の音声認識による制御方法。