JP4201870B2 - 音声認識による制御を用いるシステム及び音声認識による制御方法 - Google Patents

音声認識による制御を用いるシステム及び音声認識による制御方法 Download PDF

Info

Publication number
JP4201870B2
JP4201870B2 JP04151398A JP4151398A JP4201870B2 JP 4201870 B2 JP4201870 B2 JP 4201870B2 JP 04151398 A JP04151398 A JP 04151398A JP 4151398 A JP4151398 A JP 4151398A JP 4201870 B2 JP4201870 B2 JP 4201870B2
Authority
JP
Japan
Prior art keywords
unit
recognition
control
function information
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP04151398A
Other languages
English (en)
Other versions
JPH11237896A (ja
Inventor
功一郎 福永
正巳 前坂
光陽 柴崎
誠 木佐貫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faurecia Clarion Electronics Co Ltd
Original Assignee
Clarion Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Clarion Co Ltd filed Critical Clarion Co Ltd
Priority to JP04151398A priority Critical patent/JP4201870B2/ja
Publication of JPH11237896A publication Critical patent/JPH11237896A/ja
Application granted granted Critical
Publication of JP4201870B2 publication Critical patent/JP4201870B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識によって各種制御対象の制御を行う技術の改良に関するもので、より具体的には、語句を認識する際、制御対象の動作状態に応じた必要な語句の認識用データだけを参照するようにしたものである。
【0002】
【従来の技術】
音声認識は、認識しようとする語句ごとに、語句の波形や特徴を表すパラメータなどの認識用データを予めデータベースに記録しておき、発話された言葉をこれら認識用データとパターンマッチングすることによって、発話された語句を推定する技術である。
【0003】
このような音声認識をオーディオシステムなど各種制御対象の制御に用いる場合、どの語句を発話した場合にどのような内容の制御が行われるか、予め定めておく。そして、語句の認識結果は、認識用データに対応した語句IDなどの形で得られ、制御用のアプリケーションプログラムがこの認識結果を受け取り、どの語句が認識されたか、すなわちユーザの発話語句に応じて予め決められている制御を制御対象に対して行う。
【0004】
例えば、図7は、このような従来技術によってオーディオシステムを制御する場合の構成例を示すブロック図である。このシステムは、CDプレーヤ、ラジオ受信機など複数のオーディオソースユニット11,12と、これらオーディオソースユニット11及び12を制御するための音声認識装置13とを、通信回線14を介して接続したものである。このうち各オーディオソースユニット11,12は、通信回線14を介して外部から送られてくる制御コマンドを受信し、制御コマンドに基づいて各種動作を行うように構成されている。
【0005】
また、音声認識装置13は、音声入力部131と、認識辞書132と、パターンマッチング部133と、コマンド出力部134と、を有する。そして、認識辞書132には、このシステム上で発生しうるいろいろな結線状況や動作状態などあらゆる条件を想定し、オーディオソースユニット11,12に送信するいろいろな制御コマンドに対応する全ての語句について、認識用データが格納されている。
【0006】
この例では、ユーザの音声は、音声入力部131によってデジタル波形に変換され、パターンマッチング部133が、変換されたデジタル波形を、認識辞書132に格納されている各語句の認識用データと比較するパターンマッチングを行い、音声に特徴が一致する語句を認識辞書132内の語句から選択することによって認識結果とする。この認識結果はコマンド出力部134に受け渡され、コマンド出力部134は、認識結果に応じた制御用コマンドを通信回線14を介して送信することによって、オーディオソースユニット11や12を制御し、ユーザの発話内容に応じた動作を実現する。
【0007】
【発明が解決しようとする課題】
ところで、このようなシステムにおいて、音声認識装置に制御対象として接続されているオーディオソースユニットについては、様々な種類・型式のものや動作状態が考えられる。なお、本出願において「動作状態」とは、制御対象ユニットについて狭義の動作状態だけでなく、接続されているかどうかや、どのような種類や型式か、どのような機能を持っているかなど、使用できる語句の範囲に影響するあらゆる要素を広く意味する。
【0008】
例えば、
(1)オーディオソースユニットの電源の状態はオフとオンが考えられる。
(2)また、接続されるオーディオソースユニットの種類が同じでも、内蔵される機能が多いものが接続される場合や、機能の少ないものが接続される場合が考えられる。
(3)また、オーディオソースユニットとして、ラジオ受信機とCDプレーやのように複数の種類が接続されていて、それらが切り替えられたり選択されることによって動作を行う場合も考えられる。なお、この場合は、例えば現在あるソース(音源)が選択されている場合はそのソースは、動作中でかつ外部からの制御コマンドを受け付け可能な状態となり、一方、他のソースは動作オフの状態で外部からの制御コマンドは受け付け不可能な状態となる。
【0009】
これに対して、従来の音声認識装置は上記のようなオーディオソースユニットの動作状態を判断する手段を有していない。このため、従来技術では、システムに生じうるあらゆる状態を予め予測し、用いられる可能性がある全ての語句を認識用データとして単一の認識辞書に登録し、パターンマッチングの対象としていた。
【0010】
この結果、従来技術における音声認識装置は、各時点で、そのときのシステムの動作状態では使用することのない不必要な語句についても認識用データを参照して認識動作を行い、認識結果に応じた制御コマンドをオーディオソースユニットに送信していた。しかし、受信するオーディオソースユニットの側では、受信した制御コマンドに対応する動作ができない状態であるため、認識動作も制御コマンドの送受信も無駄な処理となっていた。
【0011】
具体的には、例えば、前記(1)の例に関して、CDプレーヤユニットでは「再生」といった語句に対応した再生開始の制御コマンドは、電源がオンの状態でなければ有効でない。にもかかわらず、電源がオフのときにも「再生」といった語句が認識の対象となり、再生開始の制御コマンドが送信されることは無駄である。同様に、「電源オン」といった語句は電源がオフの時に認識されれば十分で、電源がオンの時には認識対象とする必要はない。
【0012】
また、前記(2)の例に関して、ラジオチューナーユニット(ラジオ受信機)としては、AM(波受信)の機能のみを持つ機種と、AMとFM両方の機能を持つ機種とが考えられ、どちらの機種も制御対象として音声認識装置に接続される可能性がある。しかし、AMの機能だけの機種が接続されている場合は、音声認識装置の認識辞書には、FMの機能の操作に関する語句は不必要である。
【0013】
また、前記(3)の例に関して、CDプレーヤユニットとラジオチューナーユニットが音声認識装置に接続されていて、CDプレーヤユニットがCDを再生中に、ユーザが「シークアップ」といったラジオのチューニングに関する語句を発話した場合を考える。この場合でも、音声認識装置は認識辞書に基づいてこの語句を認識し、「シークアップ」という語句に対応した制御コマンドを通信回線経由でラジオチューナーユニットに送信する。しかし、CDの再生中にオンになっているのはCDプレーヤユニットであり、ラジオチューナーユニットはオフの状態になっているため、「シークアップ」の制御コマンドは受付不可の状態になる。したがって、この場合も認識や制御コマンドの送信の処理は無駄となる。
【0014】
なお、CDを再生している状態から、ラジオのチューニングに関するシークアップなどの動作を可能にするには、予め音声による操作やキー操作などによってソースをラジオに切り替えることによって、ラジオチューナーユニットをオンの状態にする必要がある。
【0015】
一方、音声認識の特徴として、認識辞書中の語句数が少ないほど、入力された音声とパターンマッチングで比較対象とする候補が減るため、認識率と認識応答時間などの性能が向上する。逆に、上記のように、不必要な語句も常に認識対象とすると、マッチングの対象とする語句数が増え、結果的に認識性能が悪化する。このため、不必要な単語はなるべく認識対象から外し、必要最小限の語句数で認識辞書を構成することが望まれていた。
【0016】
本発明は、上記のような従来技術の問題点を解決するために提案されたもので、その目的は、制御対象の動作状態に応じた適切な語句数で認識を行うことによって、認識性能を向上させることである。
【0017】
【課題を解決するための手段】
上記の目的を達成するため、請求項1の発明は、認識しようとする語句ごとの特徴を表す認識用データを格納した認識辞書を用いて、入力される音声から語句を認識して制御対象を制御する音声認識による制御装置と、前記制御装置から制御コマンドを受信することによって動作する1又は2以上のユニットと、を含む音声認識による制御を用いるシステムにおいて、前記ユニットは、前記制御装置に制御対象として接続された場合に、当該ユニットがどのような機能を持っているかに関する機能情報を前記制御装置に送る機能情報送信手段を備え、前記制御装置は、ユニットが持つ可能性のある機能ごとに対応した複数の認識辞書と、前記ユニットから送られた前記機能情報を受け取る手段と、受け取った前記機能情報に基づいて、前記ユニットが持っている機能に対応する認識辞書を複数の認識辞書の中から選択する手段と、入力される音声から、選択されている認識辞書を用いて語句を認識する手段と、認識された語句に応じて前記ユニットを制御する手段と、を備えることを特徴とする。
【0018】
請求項3の発明は、請求項1の発明を方法の観点から把握したもので、認識しようとする語句ごとの特徴を表す認識用データを格納した認識辞書と、入力される音声から語句を認識して制御対象を制御する音声認識による制御装置と、前記制御装置から制御コマンドを受信することによって動作する1又は2以上のユニットと、を用いて行う音声認識による制御方法において、
前記ユニットは、前記制御装置に制御対象として接続された場合に、当該ユニットがどのような機能を持っているかに関する機能情報を前記制御装置に送る機能情報送信ステップを実行し、前記制御装置は、前記ユニットから送られた前記機能情報を受け取るステップと、受け取った前記機能情報に基づいて、前記ユニットが持つ機能に対応する認識辞書を複数の認識辞書の中から選択するステップと、入力される音声から、選択されている認識辞書を用いて語句を認識するステップと、認識された語句に応じて前記ユニットを制御するステップと、を実行することを特徴とする。
【0019】
請求項1,3の発明では、制御対象であるユニットが持っている機能に関する語句だけが認識の際に参照され、ユニットが持っていない機能に関する語句は参照されないので、参照される語句数が減少し、認識性能が向上する。
【0020】
請求項2の発明は、請求項1の発明において、前記機能情報送信手段は、前記ユニットが最初に起動したときに、前記機能情報を前記制御装置に送るものであることを特徴とする。また、請求項4の発明は、請求項3の発明において、前記機能情報送信ステップは、前記ユニットが最初に起動したときに、前記機能情報を前記制御装置に送るものであることを特徴とする。
【0022】
【発明の実施の形態】
次に、本発明の複数の実施の形態について、図面を参照して説明する。
なお、本発明の各機能は、コンピュータを、ソフトウェアで制御することによって実現することが一般的と考えられる。この場合、コンピュータが備えるレジスタ、メモリ、外部記憶装置などの記憶装置が、いろいろな形式で、情報を一時的に保持したり永続的に保存する。そして、CPUが、前記ソフトウェアにしたがって、これらの情報に加工及び判断などの処理を加え、さらに、処理の順序を制御する。
【0023】
また、コンピュータを制御するソフトウェアは、本出願の各請求項及び本明細書に記述する処理に対応した命令を組み合わせることによって作成され、作成されたソフトウェアは、コンパイルされた組み込みソフトウェアなどの形式で実行されることで、上記のようなハードウェア資源を活用する。
【0024】
但し、本発明を実現するための上記のような態様はいろいろ変更することができ、例えば、本発明を実現するソフトウェアを記録したROMチップやCD−ROMのような記録媒体は、それ単独でも本発明の一態様である。また、本発明の機能の一部をLSIなどの物理的な電子回路で実現することも可能である。
【0025】
以上のように、コンピュータを使用して本発明を実現する態様はいろいろ変更できるので、以下では、本発明の各機能を実現する仮想的回路ブロックを用いることによって、本発明の実施の形態(以下「実施形態」という)を説明する。
【0026】
なお、説明に用いるそれぞれの図について、それ以前に説明した図と同一又は同種の部材に関しては説明を省略する。
【0027】
〔1.第1実施形態〕
第1実施形態は、音声認識装置(前記音声認識による制御装置に相当する)とオーディオソースユニット(前記制御対象、ユニット及び前記制御対象ユニットに相当する)とを接続した音声認識を用いるカーオーディオシステムである。
【0028】
この第1実施形態は、請求項1,2,3,6,9に対応するもので、音声認識装置が、オーディオソースユニットが電源オフの状態で有効な語句を格納した認識辞書と、電源オンの状態で有効な語句を格納した認識辞書とを持ち、オーディオソースユニットから音声認識装置へ電源がオンかオフかの情報を送り、音声認識装置ではこの情報に基づいて、これら2つの辞書を切り替えて認識動作を行うものである。
【0029】
〔1−1.構成〕
まず、図1は、第1実施形態の構成を示す機能ブロック図である。第1実施形態は、この図に示すように、オーディオソースユニット21と音声認識装置22とを、通信回線23を介して接続したものである。このうちオーディオソースユニット21は、通信回線23を介して外部からの制御コマンドを受信することによって電源のオンオフなど各種動作を行うものである。
【0030】
このオーディオソースユニット21は、システム上にいくつか接続することができ、それぞれの内部に、自身の動作状態を外部の音声認識装置22に送信するための動作状態出力部211(前記動作状態に関する情報を送る手段に相当する)を持つ。この動作状態出力部211は、オーディオソースユニット21の電源についてオン/オフの状態が変化した際に、どのように変化したかを通信回線23を介して外部に通知するように構成された部分である。
【0031】
一方、音声認識装置22は、音声入力部221と、認識辞書222及び223と、辞書切り替え制御部224と、オーディオ状態受信部225と、パターンマッチング部226と、コマンド出力部227と、を有する。このうち音声入力部221は、マイクロホン(マイク)などから入力される音声をデジタル信号に変換する部分である。また、認識辞書222は、オーディオソースユニット21の電源がオフの状態の時に認識対象となる各語句について、波形や各種パラメータなどの特徴を表した認識用データを格納したものである。一方、認識辞書223は、オーディオソースユニット21の電源がオンの状態の時に認識対象となる各語句について認識用データを格納したものである。
【0032】
また、オーディオ状態受信部225は、オーディオソースユニット21の電源がオンかオフかの状態変化に関して動作状態出力部211から送信される情報を受信する手段である。また、辞書切り替え制御部224は、オーディオ状態受信部225が受信した電源の状態変化に関する情報に応じて、語句の認識で用いる認識辞書を、認識辞書222又は認識辞書223のいずれか一方に切り替えることによって選択する部分である。
【0033】
また、パターンマッチング部226は、入力された音声を選択されている認識辞書に格納されている各認識用データとパターンマッチングすることによって語句を認識する部分である。また、コマンド出力部227は、認識された語句の意味する制御内容に応じた制御コマンドをシステムの各ユニットに出力する手段である。
【0034】
〔1−2.作用及び効果〕
上記のような第1実施形態では、オーディオソースユニット21において、電源の状態が変化したとき、どのように変化したかに関する情報が動作状態出力部221から通信回線23を介して送信され、音声認識装置22のオーディオ状態受信部225によって受信される。ここで、図2は、第1実施形態の音声認識装置22が、このように送信された情報に基づいて認識辞書を切り替える処理手順を示すフローチャートである。
【0035】
すなわち、オーディオ状態受信部225は、電源の状態変化に関する情報を待ち受け(ステップ11)、情報を受信すると(ステップ12)このように受信した情報を辞書切り替え制御部224に渡す。
【0036】
電源の状態に関する情報を受け取った辞書切り替え制御部224は、電源の状態がどのように変化したかを受け取った情報から判断し(ステップ13)、オーディオソースユニット21の電源がオフに変化した場合は、語句の認識で用いる認識辞書を、電源がオフの時に必要な単語だけを格納した認識辞書222に切り替え(ステップ14)、また、オーディオソースユニット21の電源がオンに変化した場合は、語句の認識で用いる認識辞書を、電源がオンの時に必要な単語だけを格納した認識辞書223に切り替える(ステップ15)。
【0037】
そして、パターンマッチング部226は(図1)、入力される音声の波形を、このように切り替えられた認識辞書222又は223に含まれている各語句の認識用データとマッチングし、音声の波形やその特徴が一致した語句を認識結果として選択する。例えば、オーディオソースユニット21の電源がオフの場合、マッチングの対象としては認識辞書222が用いられ、この認識辞書222には例えば「電源オン」という語句は登録されているが、電源がオフの状態では使用しない例えば「電源オフ」といった語句は登録されていない。
【0038】
逆に、オーディオソースユニット21の電源がオンの場合は、マッチングの対象としては認識辞書223が用いられ、この認識辞書223には例えば「電源オフ」という語句は登録されているが、電源がオンの状態では使用しない例えば「電源オン」といった語句は登録されていない。
【0039】
このため、オーディオソースユニット21の電源がオフのときもオンのときも、その状態で必要のない語句はマッチングの対象から外れ、マッチングの対象としなければならない語句数が従来よりも減少するので、認識性能が向上する。なお、パターンマッチング部226は、上記のように認識された認識結果を、語句のIDなどの形でコマンド出力部227に渡し、コマンド出力部227は渡された認識結果に応じた制御用のコマンドを、通信回線23を介してオーディオソースユニット21に出力することによって、ユーザの発話内容に対応した動作を実現する。
【0040】
以上のように、第1実施形態では、各認識辞書には、動作状態に応じた各語句が、その語句を認識するための認識用データの形で格納されていて、これら複数の認識辞書のうち、制御対象の動作状態に応じた認識辞書が認識での参照対象として選択される。このため、入力された音声は、制御対象の動作状態に応じて、不必要な語句を含まない必要最小限の語句とだけパターンマッチングされる。このように音声認識で参照する語句数が減ることによって、認識性能が向上する。
【0041】
特に、第1実施形態では、制御対象であるオーディオソースユニットからその動作状態に関する情報が制御装置に送られるので、制御装置では、ユーザがスイッチなどで制御対象の種類などを入力するまでもなく、動作状態を容易に自動検出することができ、操作が容易になる。
【0042】
〔2.第2実施形態〕
第2実施形態は、請求項5,8に対応するもので、システムに接続されうる各ユニットが持つ可能性のある個々の機能ごとに、その機能に対応する語句を格納した認識辞書をそれぞれ用意し、どのような機能を持つかについてユニットから送られる情報に応じて、必要な認識辞書を選択して語句の認識に用いるものである。
【0043】
〔2−1.構成〕
この第2実施形態では、図3に示すように、オーディオソースユニット31が機能情報出力部311を持ち、この機能情報出力部311は、オーディオソースユニット31がシステムに接続された初期状態の際に、当該オーディオソースユニット31がどのような機能を持っているかに関する機能情報を音声認識装置32に送信するように構成されている。
【0044】
また、音声認識装置32は、音声入力部321、オーディオ状態受信部324、パターンマッチング部325、コマンド出力部326の他、複数の認識辞書3221〜322nを持ち、認識辞書群3221〜322nはそれぞれ、システムに接続される可能性のあるオーディオソースユニットの各機能に対応し、その機能に関する各語句を格納したものである。
【0045】
例えば、システムに接続される可能性のあるユニットが3種類あって、1種類のユニットが3つの機能を持つ可能性があり、1つの機能を利用するのに3つの語句を使用するとする。この場合は、3種類×3機能=9つの認識辞書があり、1つの認識辞書あたり3つの語句が格納されているので、全体として27の語句の認識用データが存在することになる。
【0046】
また、音声認識装置32は、辞書選択制御部323と、オーディオ状態受信部324とを持ち、このオーディオ状態受信部324は、機能情報出力部311から送信される機能情報を受信する部分である。また、辞書選択制御部323は、オーディオ状態受信部324が受信した機能情報に基づいて、認識辞書群3221〜322nから、システムに接続されているオーディオソースユニットの持つ機能に対応する認識辞書を、パターンマッチング部325が語句認識で参照する対象として選択する部分である。
【0047】
〔2−2.作用及び効果〕
上記のような構成を有する第2実施形態では、オーディオソースユニット31がシステムに新たに接続され、最初に起動されたときに、当該オーディオソースユニット31の機能情報出力部311は、オーディオソースユニット31がどのような機能を持つかという機能情報を、通信回線33を介して音声認識装置32のオーディオ状態受信部324に送信する。ここで、図4は、音声認識装置32において、認識辞書群3221〜322nから、オーディオソースユニット31の持つ機能に対応する認識辞書を、語句認識で参照する対象として機能情報に基づいて選択する処理手順を示すフローチャートである。
【0048】
すなわち、受信待ちの状態のオーディオ状態受信部324が(ステップ21)機能情報を受信すると(ステップ22)、オーディオソースユニット31が各機能を持っているかどうか1つずつ判断され(ステップ23,25…28)、持っている機能に対応した認識辞書が語句認識で参照する対象に加えられる(ステップ24,26…29)。
【0049】
なお、機能情報の一例として、例えばあるユニットが持っている可能性のある機能が8つある場合、1バイトの8ビットそれぞれを1つずつの機能に対応させ、1番目の機能がある場合は1ビット目を1、ない場合は0とし、2番目の機能については同様に2ビット目を1又は0とする。このように作成した機能情報を1バイト長のデータとして通信回線33経由で送信し、このデータを渡された辞書選択制御部323は、1ビット目から値を参照し、値が1になっている場合に対応する認識辞書を参照の対象に加えればよい。
【0050】
そして、パターンマッチング部325は、音声から語句を認識するとき、認識辞書群3221〜322nのなかで、上記のように選択された認識辞書のみを音声と比較するための参照対象とする。そして、認識結果としては、選択されている各認識辞書に含まれる全ての語句のなかから、語句の認識用データと音声とがもっともよく一致するものを選び、その語句のIDなどをコマンド出力部326に渡す。このような認識結果を受け取ったコマンド出力部326は、ユーザの音声から認識された語句(発話内容)に応じて、制御コマンドを送信することによってオーディオソースユニット31を制御する。
【0051】
以上のように、第2実施形態では、制御対象であるユニットが持っている機能に関する語句だけが認識の際に参照され、ユニットが持っていない機能に関する語句は参照されないので、参照される語句数が減少し、認識性能が向上する。
【0052】
〔3.第3実施形態〕
第3実施形態は、請求項4,7に対応するもので、第1と第2の二つの認識辞書を用い、第1の辞書はオーディオソースのユニットを切り替えるための語句を格納した内容固定のものとし、第2の辞書は、どのソースが動作しているかに応じて、動作しているソースについて用いる語句を格納する内容可変のものとする例である。
【0053】
〔3−1.構成〕
この第3実施形態では、図5に示すように、複数のオーディオソースユニット41,42がそれぞれ動作状態出力部411,421を持つ。このうち動作状態出力部411は、オーディオソースユニット41が動作を開始したときに、そのことを通信回線44を介して音声認識装置43に通知するように構成されている。同様に、動作状態出力部421は、オーディオソースユニット43が動作を開始したときに、そのことを通信回線44を介して音声認識装置43に通知するように構成されている。
【0054】
また、音声認識装置43は、音声入力部431、オーディオ状態受信部436、パターンマッチング部437、コマンド出力部438の他、第1の認識辞書432と、第2の認識辞書433と、認識単語情報群記憶部434と、辞書切り替え制御部435と、を持つ。このうち第1の認識辞書432は、ROMなどを用いた内容固定の認識辞書で、どのオーディオソースユニットをスピーカの音源にするかというオーディオソースの切り替えに用いる語句(認識単語)を格納している。
【0055】
一方、第2の認識辞書433は、前記コピーする手段に相当するもので、書き換え可能なRAMなどを用いた内容可変の認識辞書であり、認識単語情報群記憶部434は第2の認識辞書433にコピーする語句(認識単語)の認識用データの候補(認識単語情報群)を記憶している部分である。すなわち、認識単語情報群記憶部434内の語句の情報は、それぞれ1つのオーディオソースに対応するいくつかのグループに分けてあり、1つのグループは、対応するオーディオソースが動作しているときに用いる各語句を認識するための認識用データの集合である。
【0056】
そして、辞書切り替え制御部435は、各オーディオソースユニット41又は42からオーディオ状態受信部436が動作開始の通知を受け取ったときに、動作を開始したオーディオソースに対応する語句すなわちその語句の認識用データのグループを認識単語情報群記憶部434から第2の認識辞書433にコピーする部分である。
【0057】
〔3−2.作用及び効果〕
上記のような構成を有する第3実施形態では、第1の認識辞書432の内容はオーディオソースの切り替えに用いる語句に固定されていて、ユーザがオーディオソースの切り替えを語句で指定するとパターンマッチング部437は、ユーザの発話した語句を第1の認識辞書432から発見し、この認識結果をコマンド出力部438に送る。この場合、コマンド出力部438は、例えばそれまで動作していたユニットに電源をオフにする制御コマンドを送り、一方、新たに動作させるユニットに電源をオンにする制御コマンドを送ることによって、オーディオソースを切り替える。
【0058】
この切り替えによって、例えばCDプレーヤであるオーディオソースユニット41が動作を開始した場合、オーディオソースユニット41の動作状態出力部411は、動作を開始したことを音声認識装置43のオーディオ状態受信部436に通知し、辞書切り替え制御部435はオーディオ状態受信部436からこの通知を受け取る。ここで、図6は、オーディオソースユニットから受け取る動作開始の情報に基づいて第2の認識辞書433の内容が書き換えられる処理手順を示すフローチャートである。
【0059】
すなわち、辞書切り替え制御部435は、受信待ちの状態で(ステップ31)オーディオソースユニットから動作開始の情報を受け取ると(ステップ32)、例えば、どのユニットが動作を開始したかに応じて(ステップ33,35…38)、動作を開始したそのユニットについて用いる語句の情報すなわち認識用データのグループを、認識単語情報群記憶部434から選択して第2の認識辞書433にコピーする。
【0060】
そして、パターンマッチング部437は、語句の認識の際、第1の認識辞書432と第2の認識辞書433とを参照する。すなわち、CDプレーヤであるオーディオソースユニット41が動作しているときは、第2の認識辞書433にはCDプレーヤの操作に必要な語句だけが格納されていて、ユーザがCDプレーヤの操作に用いる語句を発話すると、音声を第2の認識辞書433の内容と照合したときに一致する語句が認識される。
【0061】
また、第1の認識辞書432には常に、オーディオソースの切り替えに用いる語句が格納されているので、ユーザがオーディオソースを現在とは違ったオーディオソースに切り替える語句を発話すると、音声を第1の認識辞書432の内容と照合したときに一致する語句が認識される。このときは、オーディオソースが切り替えられると共に、前記と同様の処理手順によって、新たなオーディオソースの操作に用いる語句だけが第2の認識辞書433に格納された状態となる。
【0062】
以上のように、第3実施形態では、動作中のユニットに関する語句だけが第2の認識辞書にコピーされて語句の認識の際に参照され、動作中でないユニットに関する語句は参照の対象とならない。このため、参照する語句の数が減り、認識性能が向上する。一方、ユニットの切り替えに関する語句は第1の認識辞書に固定されているので、どのユニットが動作中でもユニットの切り替えは自由に行うことができる。
【0063】
〔4.他の実施の形態〕
なお、本発明は上記各実施形態に限定されるものではなく、次に例示するような他の実施の形態も含むものである。例えば、図1,図3,図5に示した構成は一例に過ぎず、本発明は、カーオーディオシステム以外の他の種類のシステムを制御するのに用いることもできる。
【0064】
例えば、本発明は、周辺機器を持つ一般的なコンピュータ自体を制御するために、当該コンピュータの機能として実現することもできる。具体的には、例えば、接続する周辺機器の種類、機能、動作状態などに応じて認識する単語を必要なものに限定することもできる。
【0065】
また、カーオーディオシステムと組み合わせる場合も、例えば、CDプレーヤやラジオチューナーユニット(ラジオ受信機)など具体的なユニットの種類は例示に過ぎず、他の種類の音源や他の機能を持つユニットに自由に置き換えることができる。
【0066】
【発明の効果】
以上のように、本発明によれば、制御対象の動作状態に応じて、語句の認識の際に参照する認識用データの語句数が限定されるので、認識性能が改善される。
【図面の簡単な説明】
【図1】本発明の第1実施形態の構成を示す機能ブロック図。
【図2】本発明の第1実施形態において、認識辞書を変更する処理手順を示すフローチャート。
【図3】本発明の第2実施形態の構成を示す機能ブロック図。
【図4】本発明の第2実施形態において、認識辞書を変更する処理手順を示すフローチャート。
【図5】本発明の第3実施形態の構成を示す機能ブロック図。
【図6】本発明の第3実施形態において、認識辞書を変更する処理手順を示すフローチャート。
【図7】従来の音声認識装置によってカーオーディオシステムを制御する場合の構成例を示す図。
【符号の説明】
21,31,41,…オーディオソースユニット
211,411,421…動作状態出力部
22,32,43…音声認識装置
221,321,431…音声入力部
222,223,3221〜322n,432,433…認識辞書
224,435…辞書切り替え制御部
225,324,436…オーディオ状態受信部
226,325,437…パターンマッチング部
227,326,438…コマンド出力部
23,33,44…通信回線
323…辞書選択制御部

Claims (4)

  1. 認識しようとする語句ごとの特徴を表す認識用データを格納した認識辞書を用いて、入力される音声から語句を認識して制御対象を制御する音声認識による制御装置と、前記制御装置から制御コマンドを受信することによって動作する1又は2以上のユニットと、を含む音声認識による制御を用いるシステムにおいて、
    前記ユニットは、新たに前記制御装置に対して制御対象として接続された場合に、当該ユニットがどのような機能を持っているかに関する機能情報を前記制御装置に送る機能情報送信手段を備え、
    前記制御装置は、
    ユニットが持つ可能性のある機能ごとに対応した複数の認識辞書と、
    前記ユニットから送られた前記機能情報を受け取る手段と、
    受け取った前記機能情報に基づいて、前記ユニットが持っている機能に対応する認識辞書を複数の認識辞書の中から選択する手段と、
    入力される音声から、選択されている認識辞書を用いて語句を認識する手段と、
    認識された語句に応じて前記ユニットを制御する手段と、
    を備えることを特徴とする音声認識による制御を用いるシステム。
  2. 前記機能情報送信手段は、前記ユニットが最初に起動したときに、前記機能情報を前記制御装置に送るものであることを特徴とする請求項1記載の音声認識による制御を用いるシステム。
  3. 認識しようとする語句ごとの特徴を表す認識用データを格納した認識辞書と、入力される音声から語句を認識して制御対象を制御する音声認識による制御装置と、前記制御装置から制御コマンドを受信することによって動作する1又は2以上のユニットと、を用いて行う音声認識による制御方法において、
    前記ユニットは、新たに前記制御装置に対して制御対象として接続された場合に、当該ユニットがどのような機能を持っているかに関する機能情報を前記制御装置に送る機能情報送信ステップを実行し、
    前記制御装置は、
    前記ユニットから送られた前記機能情報を受け取るステップと、
    受け取った前記機能情報に基づいて、前記ユニットが持つ機能に対応する認識辞書を複数の認識辞書の中から選択するステップと、
    入力される音声から、選択されている認識辞書を用いて語句を認識するステップと、
    認識された語句に応じて前記ユニットを制御するステップと、
    を実行することを特徴とする音声認識による制御方法。
  4. 前記機能情報送信ステップは、前記ユニットが最初に起動したときに、前記機能情報を前記制御装置に送るものであることを特徴とする請求項3記載の音声認識による制御方法。
JP04151398A 1998-02-24 1998-02-24 音声認識による制御を用いるシステム及び音声認識による制御方法 Expired - Fee Related JP4201870B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP04151398A JP4201870B2 (ja) 1998-02-24 1998-02-24 音声認識による制御を用いるシステム及び音声認識による制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04151398A JP4201870B2 (ja) 1998-02-24 1998-02-24 音声認識による制御を用いるシステム及び音声認識による制御方法

Publications (2)

Publication Number Publication Date
JPH11237896A JPH11237896A (ja) 1999-08-31
JP4201870B2 true JP4201870B2 (ja) 2008-12-24

Family

ID=12610468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04151398A Expired - Fee Related JP4201870B2 (ja) 1998-02-24 1998-02-24 音声認識による制御を用いるシステム及び音声認識による制御方法

Country Status (1)

Country Link
JP (1) JP4201870B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2748396A1 (en) * 1999-10-19 2001-04-26 Sony Electronics Inc. Natural language interface control system
JP2001296881A (ja) * 2000-04-14 2001-10-26 Sony Corp 情報処理装置および方法、並びに記録媒体
JP4706893B2 (ja) * 2004-01-07 2011-06-22 ソニー株式会社 音声認識装置および方法、並びに、プログラムおよび記録媒体
CN101326571B (zh) * 2005-12-07 2012-05-23 三菱电机株式会社 声音识别装置
JP5037041B2 (ja) * 2006-06-23 2012-09-26 アルパイン株式会社 車載用音声認識装置及び音声コマンド登録方法

Also Published As

Publication number Publication date
JPH11237896A (ja) 1999-08-31

Similar Documents

Publication Publication Date Title
US7567907B2 (en) System, method and computer program product for adding voice activation and voice control to a media player
JP2004516516A (ja) 単語を認識するために発言を保存しボキャブラリーを選択する方法
US20060235701A1 (en) Activity-based control of a set of electronic devices
EP2389672B1 (en) Method, apparatus and computer program product for providing compound models for speech recognition adaptation
US20060195323A1 (en) Distributed speech recognition system
US20060008252A1 (en) Apparatus and method for changing reproducing mode of audio file
US7689424B2 (en) Distributed speech recognition method
JP4155383B2 (ja) 音声認識機器操作装置
US8008569B2 (en) Musical sound generating device and storage medium storing musical sound generation processing program
JP4201870B2 (ja) 音声認識による制御を用いるシステム及び音声認識による制御方法
CN111833857B (zh) 语音处理方法、装置和分布式系统
JP2001042891A (ja) 音声認識装置、音声認識搭載装置、音声認識搭載システム、音声認識方法、及び記憶媒体
EP1065652B1 (en) Voice-based manipulation method and apparatus
US20020052735A1 (en) Sound reproduction apparatus and method with variable-speed fast forward/reverse
JP4201869B2 (ja) 音声認識による制御装置及び方法並びに音声認識による制御用プログラムを記録した記録媒体
JP3913884B2 (ja) 音声認識による選局装置及び方法並びに音声認識による選局用プログラムを記録した記録媒体
JP2000089780A (ja) 音声認識方法および音声認識装置
JPH11237895A (ja) 音声認識による制御装置及び方法、制御対象ユニット、音声認識による制御を用いるシステム並びに音声認識による制御用プログラムを記録した記録媒体
JP2019028160A (ja) 電子装置および情報端末システム
CN110265017B (zh) 语音处理方法和装置
JP3658661B2 (ja) データ受信装置、及びデータ送信装置
JP2003241796A (ja) 音声認識システムおよびその制御方法
JP2744506B2 (ja) キーコード・コマンド変換方法
JP2590469Y2 (ja) 音響機器
JPH10510081A (ja) 装置及び機器の音声制御用装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070403

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070417

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070618

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080916

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081008

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111017

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111017

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121017

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131017

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees