JP4131978B2

JP4131978B2 - 音声認識機器制御装置

Info

Publication number: JP4131978B2
Application number: JP2006048572A
Authority: JP
Inventors: 久幸長島
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2006-02-24
Filing date: 2006-02-24
Publication date: 2008-08-13
Anticipated expiration: 2026-02-24
Also published as: US8484033B2; US20070203699A1; JP2007226642A

Description

本発明は、使用者により入力される音声を認識し、認識した結果に基づいて機器を制御するための情報を取得する音声認識機器制御装置に関する。

近年、例えば、使用者が機器の操作等を行うシステムにおいて、使用者により入力される音声を認識して、機器の操作等に必要な情報を取得する音声認識機器制御装置が用いられている。このような音声認識機器制御装置では、使用者により入力される音声（発話）を認識し、認識した結果に基づいて使用者に応答（音声ガイドを出力）して使用者の次の発話を促すことで、使用者との対話が行われる。そして、使用者との対話を認識した結果から、機器の操作等を行うために必要な情報が取得されて機器が制御される。

このような音声認識機器制御装置は、例えば、車両に装備されて、車両に搭載されたオーディオ、ナビゲーションシステム、エアコンディショナ等の機器を制御する。このように、制御される機器の種類が複数の場合には、使用者は、多数ある機器から操作の目的である機器の種類と、その機器についての操作内容（機器の機能の種別、動作内容等の階層的な項目）を指示する必要があり、使用者にとって音声の入力が煩雑となる。このため、使用者から機器の種類、機能、動作等の情報が階層順に音声入力されなくても、不足している情報の入力を使用者に促しながら、対話的に機器の操作等に必要な情報を取得する音声認識機器制御装置が提案されている（例えば、特許文献１を参照）。

特許文献１の音声認識機器制御装置である音声対話装置は、機器の種類、機能、動作の階層項目からなる音声認識対象項目群の各項目を階層順に並べてこれを接続した音声認識用ツリー構成データを備える。前記音声対話装置は、音声認識用ツリー構成データの項目を音声認識手段からの入力信号に対応してツリー構成上不足する項目を得て、不足する項目のうち使用者が意図していると思われる項目を推定して使用者に提示することで、必要な項目の入力を使用者に促す。そして、一連のツリーが形成されたときそのツリーに対応する信号を外部に出力し、この出力信号により使用者への確認応答が行われ機器が制御される。このとき、前記音声対話装置は、音声認識手段からの入力信号により使用者が意図していると思われる項目を推定できなかった場合には、機器の前回作動終了状態を記憶したラストモードに基づき該項目の推定を行う。例えば、「オーディオ」についてのラストモードが「オーディオ」「ＭＤ」「１曲目」の場合に、「オーディオ」と入力されると、「オーディオ」で「ＭＤ」の「１曲目」を再生することを意図していると推定される。

一方、各機器では、動作が機器により自動的に行われることがある。例えば、車両において、オーディオのシャッフル再生やエアコンディショナのオート制御等が行われる場合に、各曲の再生や風量・設定温度の変更等の各動作は機器により自動的に行われるので、運転者が意図しない動作となる。また、各機器では、複数の使用者からの発話により機器が動作されることもある。例えば、車両において、運転者以外の乗員の発話により機器が動作される場合もあり、この場合にも、その動作は運転者が意図しない動作となる。そして、このように、使用者が意図せずに機器の動作の状態が変化した場合に、該使用者が該動作の停止や変更等を行うことがある。このとき、使用者からの発話は、意図しない動作に対して反射的に行われるものであり、また、例えば、使用者にとっては使用頻度が低い機器で、その機器を操作する発話に不慣れであることも考えられる。このため、使用者からの発話が曖昧になり、発話に含まれる情報が不足する可能性が高くなると想定される。

しかしながら、前記音声対話装置では、使用者はラストモードと同じ動作を行う可能性が高いと想定して、使用者が意図していると思われる項目を推定する。すなわち、同一の使用者の発話により機器が動作される状態のみを前提としている。このため、機器により自動的に行われた動作や他の使用者の発話により行われた動作のような、使用者が意図しない動作に対する該使用者の発話であるときには、操作の目的である機器の種類等を適切に推定できず、使用者への応答や機器の制御が効率の良くないものとなる場合があるという不都合があった。
特開２００１−２４９６８５号公報

本発明は、かかる不都合を解消して、使用者の発話から適切に機器を特定して制御を行うことができる音声認識機器制御装置を提供することを目的とする。

かかる目的を達成するために、本発明の音声認識機器制御装置は、使用者から発話が入力される音声入力手段と、前記音声入力手段に入力された発話の内容を認識する音声認識手段と、少なくとも前記音声認識手段により認識された発話の内容に基づいて、複数の機器のうちの制御対象となる機器を特定し、該特定した機器の動作を制御する機器制御手段とを備えた音声認識機器制御装置において、前記複数の機器の各機器における動作の状態変化のうち、少なくとも前記使用者からの発話により生じた状態変化以外の状態変化を、前記制御対象となる機器を特定するための第１補助情報として記憶する状態変化記憶手段を備え、前記機器制御手段は、前記音声認識手段により認識された発話の内容に基づいて、前記制御対象となる機器を特定する第１機器特定処理を実行し、該第１機器特定処理により該機器を特定できなかった場合には、少なくとも前記状態変化記憶手段により記憶された前記第１補助情報を、該機器を特定するために用いることを特徴とする。

前記本発明の音声認識機器制御装置によれば、前記機器制御手段は、前記音声認識手段により認識された発話の内容に基づいて、複数の機器のうちの制御対象となる機器を特定し、該機器の動作を制御する際に、該制御対象となる機器を特定する第１機器特定処理を実行する。このとき、前記音声入力手段に入力された使用者の発話に、制御対象となる機器を特定するために必要な情報が不足している場合がある。このような場合には、前記機器制御手段は、前記第１機器特定処理により制御対象となる機器を特定できないこととなる。

ここで、前記複数の機器は、その機能の仕様等によって、前記音声認識手段により認識された使用者の発話の内容に基づいた動作以外の、該使用者が意図しない動作を行う場合がある。そして、このような使用者が意図しない動作に対して、該使用者が発話により該動作の停止や変更等の指示を行うことがある。このとき、使用者の発話は反射的に行われるものであり、また、例えば、使用者にとっては使用頻度が低い機器で、その機器を操作する発話に不慣れであることも多々ある。このため、使用者からの発話が曖昧になり、発話に含まれる情報が不足する可能性が高くなる。

そこで、前記状態変化記憶手段は、前記複数の機器の各機器における動作の状態変化のうち、少なくとも前記使用者からの発話により生じた状態変化以外の状態変化を、前記制御対象となる機器を特定するための第１補助情報として記憶する。そして、前記機器制御手段は、前記第１機器特定処理により前記制御対象となる機器を特定できなかった場合には、少なくとも前記状態変化記憶手段により記憶された前記第１補助情報を、該機器を特定するために用いる。この場合、使用者が意図しない動作により機器の状態が変化して、該使用者が該動作に対する発話を入力した蓋然性が高いので、前記第１補助情報を用いることにより、制御対象となる機器を適切に特定し、該特定した機器を制御することができる。

具体的には、前記本発明の音声認識機器制御装置において、前記状態変化記憶手段は、前記第１補助情報として、前記各機器において自動的に生じた状態変化を記憶することが好ましい。

これによれば、前記各機器において自動的に生じた状態変化は、前記使用者が意図しない機器の動作を示すので、前記第１機器特定処理により制御対象となる機器が特定できなかった場合に、前記状態変化記憶手段により記憶された前記第１補助情報を用いることで、制御対象となる機器を適切に特定し、該特定した機器を制御することができる。

または、前記本発明の音声認識機器制御装置において、前記音声入力手段が、前記使用者と該使用者以外の他者とから発話がそれぞれ入力され、前記音声認識手段が、前記音声入力手段に入力された発話の内容を、前記使用者からの発話の内容と前記他者からの発話の内容とに分別して認識する場合に、前記状態変化記憶手段は、前記第１補助情報として、前記他者の発話により生じた前記各機器における動作の状態変化を記憶することが好ましい。

これによれば、前記他者の発話により生じた前記各機器における動作の状態変化は、前記使用者が意図しない動作を示すので、前記第１機器特定処理により制御対象となる機器が特定できなかった場合に、前記状態変化記憶手段により記憶された前記第１補助情報を用いることで、制御対象となる機器を適切に特定し、該特定した機器を制御することができる。

さらに、前記本発明の音声認識機器制御装置において、前記音声認識手段が、前記音声入力手段に入力された発話の内容を、人の有する感覚のうちの予め定められた複数種類の感覚のいずれかに対応付けて認識する場合に、前記状態変化記憶手段は、前記第１補助情報を、前記複数種類の感覚のいずれかに対応付けて記憶し、前記機器制御手段は、前記第１機器特定処理により前記制御対象となる機器を特定できなかった場合には、前記状態変化記憶手段により記憶された前記第１補助情報のうちの、前記音声認識手段により認識した前記発話の内容が対応付けられた感覚の種類と同一の種類の感覚に対応する該第１補助情報を、該機器を特定するために用いることが好ましい。

これによれば、前記音声認識手段は、前記音声入力手段に入力された発話の内容を、人の有する感覚（いわゆる五感）のうちの予め定められた複数種類の感覚（例えば、視覚、聴覚、触覚等）のいずれかに対応付けて認識する。一方、例えば、使用者が意図しない動作が複数の機器でそれぞれ行われ、第１補助情報が複数あることが考えられる。このとき、前記状態変化記憶手段は、前記第１補助情報を、前記複数種類の感覚のいずれかに対応付けて記憶するので、第１補助情報と発話の内容との関連が判る。そこで、前記機器制御手段は、前記第１機器特定処理により前記制御対象となる機器を特定できなかった場合に、前記発話の内容が対応付けられた感覚の種類と同一の種類の感覚に対応する前記第１補助情報を該機器を特定するために用いることで、発話の内容に関連する第１補助情報を用いて制御対象となる機器を適切に特定し、該特定した機器を制御することができる。

さらに、前記本発明の音声認識機器制御装置において、前記機器制御手段は、前記第１機器特定処理により前記制御対象となる機器を特定できなかった場合には、前記状態変化記憶手段により記憶された前記第１補助情報のうちの最新の第１補助情報を、該機器を特定するために用いることが好ましい。

すなわち、例えば、使用者が意図しない動作が複数の機器でそれぞれ行われ、第１補助情報が複数あることが考えられる。このとき、意図しない動作による機器の状態変化に対して、使用者が反射的に発話を入力するものと想定すると、該使用者の発話は、最新の状態変化に対する発話である可能性が高いと考えられる。よって、前記機器制御手段は、前記第１機器特定処理により前記制御対象となる機器を特定できなかった場合に、前記最新の第１補助情報を該機器を特定するために用いることで、発話の内容に関連する第１補助情報を用いて制御対象となる機器を適切に特定し、該特定した機器を制御することができる。

また、前記本発明の音声認識機器制御装置において、前記状態変化記憶手段は、前記第１補助情報に加えて、前記使用者の発話により生じた状態変化を、前記制御対象となる機器を特定するための第２補助情報として記憶し、前記機器制御手段は、前記第１機器特定処理により前記制御対象となる機器を特定できなかった場合には、前記状態変化記憶手段により記憶された前記第１補助情報を用いて、該機器を特定する第２機器特定処理を実行し、該第２機器特定処理により該機器を特定できなかった場合には、該状態変化記憶手段により記憶された前記第２補助情報を、該機器を特定するために用いることが好ましい。

すなわち、使用者の発話に必要な情報が不足して、前記第１機器特定処理により前記制御対象となる機器を特定できなかった場合において、例えば、使用者が意図しない動作が機器で行われておらず、使用者の発話に関連する第１補助情報がないことが考えられる。このような場合に、前記機器制御手段は、前記第２機器特定処理により制御対象となる機器を特定できないこととなる。

一方、使用者の以前の発話による機器の動作に対して、該使用者が発話により該動作の停止や変更等の指示を行うことがある。このとき、使用者の発話は、機器の意図しない動作に対する反射的な発話より明瞭ではあるが、以前の発話と重複する内容が省略され、発話に含まれる情報が不足する可能性が高くなる。

そこで、前記機器制御手段は、前記第２機器特定処理により制御対象となる機器を特定できなかった場合には、前記第２補助情報を該機器を特定するために用いる。この場合、使用者の以前の発話による動作により機器の状態が変化して、該使用者が該動作に対する発話を入力した蓋然性が高いので、前記第２補助情報を用いることにより、制御対象となる機器を適切に特定し、該特定した機器を制御することができる。

また、前記本発明の音声認識機器制御装置において、前記使用者への応答を出力する応答出力手段と、前記音声認識手段により認識された発話の内容に関連した前記第１補助情報が複数ある場合に、該複数の第１補助情報のうちから前記制御対象となる機器を特定するために用いる第１補助情報が絞り込まれるように、前記応答を制御する応答制御手段とを備えることが好ましい。

すなわち、例えば、使用者が意図しない動作が複数の機器で同時に行われ、使用者の発話に関連する第１補助情報が複数あることが考えられる。このとき、前記応答制御手段は、前記複数の第１補助情報のうちから前記制御対象となる機器を特定するために用いる第１補助情報が絞り込まれるように前記応答を制御することで、前記使用者からの次の発話を適切に促すことができる。よって、本発明によれば、次の発話の内容に基づいて、制御対象となる機器を適切に特定し、該特定した機器を制御することができる。

本発明の一実施形態を添付の図面を参照して説明する。まず、本発明の第１実施形態を図１〜図４を参照して説明する。図１は、本実施形態である音声認識機器制御装置の機能ブロック図であり、図２は、図１の音声認識機器制御装置における音声認識による機器制御処理のフローチャートである。また、図３は、図１の音声認識機器制御装置における機器の動作の状態変化の一例を示すグラフである。

図１を参照して、音声認識機器制御装置２は、マイクロコンピュータ等により構成された電子ユニットであり、その処理機能として、運転者から発話が入力される音声入力手段３と、入力された発話の内容を認識する音声認識手段４と、認識された発話の内容に基づいて複数の機器５ａ〜５ｃのうちの制御対象となる機器を特定し、該特定した機器の動作を制御する機器制御手段６とを備え、車両１に搭載されている。さらに、音声認識機器制御装置２は、機器５ａ〜５ｃにおける動作の状態変化をアクティブステートとして記憶する状態変化記憶手段７と、運転者への応答を出力する応答出力手段８と、出力する応答を制御する応答制御手段９とを備える。

音声入力手段３は、車両１の運転者の発話が入力されるものであり、マイク等により構成される。

音声認識手段４は、音声入力手段３に入力された発話について、構文解析等の音声認識処理を行い、キーワードを抽出する。なお、音声認識処理の手法としては、特許文献１に記載されているような、一般的な手法を用いることができる。このとき、発話の内容は、予め定められた音声認識用辞書等を参照して、人の有する感覚（いわゆる五感）のうちの所定の複数種類の感覚（視覚、聴覚、触覚等）の少なくともいずれか１つに対応付けられる。本実施形態では、発話の内容は、「視覚」「聴覚」「触覚」の３種類の感覚に対応付けられる。例えば、「うるさい」「静かに」等の発話の内容は、聴覚的な内容であるので、「聴覚」に対応付けられる。また、例えば、「拡大」「縮小」等の発話の内容は、視覚的な内容であるので、「視覚」に対応付けられる。また、例えば、「元に戻す」「キャンセル」等の発話の内容は、いずれの感覚にも関連する可能性があるので、「視覚」「聴覚」「触覚」の全てに対応付けられる。

機器制御手段６は、音声認識手段４により認識された発話の内容に基づいて、機器５ａ〜５ｃのうちの制御対象となる機器を特定し、該特定した機器の動作を制御する。このとき、機器制御手段６は、音声認識手段４により抽出されたキーワードに基づいて、キーワードと機器を制御するために必要な項目（制御対象となる機器及び該機器の制御内容を指定するための項目）との対応関係を示す予め定められたテーブル等を参照して、制御対象となる機器を特定する処理（第１機器特定処理）を実行する。

さらに、機器制御手段６は、第１機器特定処理により制御対象となる機器を特定できなかった場合には、状態変化記憶手段７により記憶されたアクティブステートを用いて、制御対象となる機器を特定する処理（第２機器特定処理）を実行する。このとき、状態変化記憶手段７により記憶されたアクティブステートのうちの、音声認識手段４により認識された発話の内容に関連するアクティブステートが、第２機器特定処理で用いられる。

機器５ａ〜５ｃは、具体的には、車両１に装備されたオーディオ５ａ、ナビゲーションシステム５ｂ、エアコンディショナ５ｃである。各機器５ａ〜５ｃには、制御可能な構成要素（デバイス，コンテンツ等）、機能、動作等が予め定められている。そして、各機器５ａ〜５ｃの制御内容は、機能の種別や動作の内容等の階層的項目のデータ（各項目の入力値）により指定される。

例えば、オーディオ５ａでは、「ＣＤ」「ＭＤ」「ラジオ」「音量」等の項目がある。さらに、「ＣＤ」「ＭＤ」の下位項目として「再生」「停止」等の項目があり、「ラジオ」の下位項目として「オン」「オフ」等の項目があり、「音量」の下位項目として「上げる」「下げる」等の項目がある。そして、例えば、機器を制御するために必要な項目のデータが、｛オーディオ，音量，上げる｝と指定されると、機器制御手段６により、オーディオ５ａにおいて音量を上げる制御が実行される。

また、例えば、ナビゲーションシステム５ｂでは、「画面表示」「音声ガイド」「ＰＯＩ(Point of Interest)検索」等の項目がある。さらに、「画面表示」の下位項目として「変更」「拡大」「縮小」等の項目があり、「変更」の下位項目として「地図」「検索画面」「オーディオ画面」等の項目がある。そして、例えば、機器を制御するために必要な項目のデータが、｛ナビゲーションシステム，画面表示，拡大｝と指定されると、機器制御手段６により、ナビゲーションシステム５ｂにおいて画面表示を拡大する制御が実行される。

また、例えば、エアコンディショナ５ｃでは、「風量」「設定温度」「オン」「オフ」等の項目がある。さらに、「風量」「設定温度」の下位項目として「上げる」「下げる」等の項目がある。そして、例えば、機器を制御するために必要な項目のデータが、｛エアコンディショナ，風量，上げる｝と指定されると、機器制御手段６により、エアコンディショナ５ｃにおいて風量を増加させる制御が実行される。

状態変化記憶手段７は、機器５ａ〜５ｃの動作の状態変化が更新可能に記憶されている記憶媒体である。ここで、機器５ａ〜５ｃの動作の状態変化とは、例えば、エアコンディショナ５ｃで風量が増加されたり、オーディオ５ａでＣＤが再生される等の、機器５ａ〜５ｃにおける不連続な状態変化である。状態変化記憶手段７には、前記状態変化が、該状態変化を生じた時刻ｋｎから所定時間Ｔを経過するまでの間、アクティブステートとして記憶される。本実施形態では、状態変化記憶手段７には、アクティブステートとして、機器５ａ〜５ｃにおいて自動的に生じた状態変化（音声認識手段４により認識された発話の内容に基づいて行われる動作以外の、機器の仕様等によって行われる動作により生じた状態変化）が記憶される。前記アクティブステートは、制御対象となる機器を特定するための第１補助情報に相当する。

状態変化記憶手段７には、アクティブステートが、音声認識手段４に認識された発話の内容と同様に、「視覚」「聴覚」「触覚」のいずれかに対応付けられて記憶される。このとき、アクティブステートは、該アクティブステートが影響を及ぼす感覚に対応付けられる。例えば、「視覚」に対応付けられるアクティブステートは、ナビゲーションシステム５ｂにおける画面表示の変更、画面表示の縮小・拡大等である。また、例えば、「聴覚」に対応付けられるアクティブステートは、オーディオ５ａにおけるＣＤの再生・停止、ＭＤの再生・停止、ラジオのオン・オフや、エアコンディショナ５ｃにおける風量の変更や、ナビゲーションシステム５ｂにおける音声ガイドの出力、音声ガイドの音量の変更等である。また、例えば、「触覚」に対応付けられるアクティブステートは、エアコンディショナ５ｃにおける風量の変更、設定温度の変更等である。

応答出力手段８は、車両１の運転者への応答（音声ガイド）を出力するものであり、スピーカ等により構成される。応答は、例えば、ＴＴＳ(Text to Speech)等の音声合成処理を用いて音声出力される。

応答制御手段９は、応答出力手段８から出力する応答の内容（運転者の次の発話を促すための質問文や、制御の内容等を使用者に確認したり制御の完了等を使用者に報知するための応答文）を、予め記憶された音声、フレーズ、文章等を合成して生成する。また、応答制御手段９は、応答を出力する際の速度や音量を決定する。このとき、応答制御手段９は、音声認識手段４により認識された発話の内容に関連したアクティブステートの候補が複数ある場合に、該複数のアクティブステートの候補のうちから制御対象となる機器を特定するために用いるアクティブステートが絞り込まれるように（特定されるように）応答を制御する。

次に、本実施形態の音声認識機器制御装置２の全体的な作動（音声認識による機器制御処理）を、図２に示したフローチャートに従って説明する。図２を参照して、まず、ＳＴＥＰ００１で、音声入力手段３に、車両１の運転者から、発話（機器の制御を開始するための発話）が入力される。次に、ＳＴＥＰ００２で、音声認識手段４は、音声入力手段３に入力された発話について、構文解析等の音声認識処理を行いキーワードを抽出する。このとき、音声認識手段４により認識された発話の内容は、「視覚」「聴覚」「触覚」の少なくともいずれか１つに対応付けられる。

次に、ＳＴＥＰ００３で、機器制御手段６は、音声認識手段４により認識された発話の内容を解析して、制御対象となる機器を特定する処理（第１機器特定処理）を実行する。具体的には、機器制御手段６は、キーワードと機器を制御するために必要な項目との対応関係を示す予め定められたテーブル等を参照し、発話から抽出されたキーワードから、各項目に合致するキーワードを選定する。これにより、機器を制御するために必要な項目のデータが特定される。そして、特定された項目のデータは、発話の内容を記憶保持するためのバッファ（発話内容格納バッファ）に格納される。

次に、ＳＴＥＰ００４で、機器制御手段６は、機器５ａ〜５ｃのうちの制御対象となる機器及び該機器の制御内容が特定されているか否かを判断する。ＳＴＥＰ００４の判断結果がＹＥＳの場合には、ＳＴＥＰ０１１に進む。

ＳＴＥＰ００４の判断結果がＮＯの場合には、以下のＳＴＥＰ００５〜０１０の処理が行われる。まず、ＳＴＥＰ００５で、状態変化記憶手段７からアクティブステートが読み込まれる。次に、ＳＴＥＰ００６で、読み込まれたアクティブステートのうち、認識された発話の内容に関連するアクティブステートの候補があるか否かが判断される（第２機器特定処理）。ここで、認識された発話の内容に関連するアクティブステートの候補とは、感覚の種類毎の最新のアクティブステートのうちの、該発話の内容に対応付けられた感覚の種類と共通の種類の感覚に対応付けられたアクティブステートであり、且つ、該発話の内容により制御が可能なアクティブステートである。なお、発話の内容によりアクティブステートの制御が可能であるとは、該発話の内容が、例えば、該アクティブステートの停止や変更等の制御を実行させるために発せられた内容である可能性があることを示す。

ＳＴＥＰ００６で、まず、読み込まれたアクティブステートの、感覚の種類毎の最新のアクティブステートのうちに、該発話の内容に対応付けられた感覚の種類と共通の種類の感覚に対応付けられたアクティブステートがあるか否かが判断される。対応付けられたアクティブステートがない場合には、アクティブステートの候補がないと判断され（ＳＴＥＰ００６の判断結果がＮＯ）、ＳＴＥＰ００９に進む。対応付けられたアクティブステートがある場合には、認識された発話の内容により、該対応付けられたアクティブステートに対する制御が可能であるか否かが判断される。制御可能なアクティブステートがない場合には、アクティブステートの候補がないと判断され（ＳＴＥＰ００６の判断結果がＮＯ）、ＳＴＥＰ００９に進む。制御可能なアクティブステートがある場合には、該制御可能なアクティブステートが、認識された発話の内容に関連するアクティブステートの候補とされる。

次に、ＳＴＥＰ００６の判断結果がＹＥＳの場合（認識された発話の内容に関連するアクティブステートの候補がある）には、ＳＴＥＰ００７で、アクティブステートの候補が複数であるか否かが判断される。ＳＴＥＰ００７の判断結果がＮＯの場合（アクティブステートの候補が１つ）には、該アクティブステートの候補が、制御対象となる機器を特定するためのアクティブステートとして特定される。そして、このアクティブステートを生じた機器が、制御対象となる機器として特定され、ＳＴＥＰ０１１に進む。ＳＴＥＰ００７の判断結果がＹＥＳの場合（アクティブステートの候補が複数ある）には、ＳＴＥＰ００８に進む。

ＳＴＥＰ００８は、アクティブステートの候補が複数あり、制御対象となる機器を特定するためのアクティブステートを特定できないために、アクティブステートを用いて制御対象となる機器を特定できない場合である。この場合に、応答制御手段９は、複数のアクティブステートの候補のうちから、制御対象となる機器を特定するために用いるアクティブステートが絞り込まれるように、運転者への質問文を生成する。そして、ＳＴＥＰ０１０に進む。

また、ＳＴＥＰ００９は、発話の内容に関連するアクティブステートの候補がないために、アクティブステートを用いて制御対象となる機器を特定できない場合である。この場合に、応答制御手段９は、入力された発話で不足している内容（少なくとも制御対象となる機器を特定するために必要な内容）について、次回の発話で入力を促すように、運転者への質問文を生成する。そして、ＳＴＥＰ０１０に進む。

ＳＴＥＰ０１０では、応答制御手段９により生成された質問文が、応答出力手段８から出力される。ＳＴＥＰ０１０からは、ＳＴＥＰ００１に戻り、２回目の運転者の発話が入力される。そして、１回目の発話と同様に、ＳＴＥＰ００１〜０１０の処理が行われる。但し、２回目の発話（応答出力手段８から出力された質問文に対する発話）においては、ＳＴＥＰ００３で、発話内容格納バッファから前回の発話の内容を読み込み、２回目の発話の内容を解析する際に用いる。そして、２回目の発話の内容を、前回の発話の内容と合わせて発話内容格納バッファに格納する。さらに、ＳＴＥＰ００４〜０１０において、発話の内容として、２回目の発話の内容と前回の発話の内容とを合わせて用いる。

以下、ＳＴＥＰ００４の判断結果がＹＥＳ又はＳＴＥＰ００７の判断結果がＮＯとなり、ＳＴＥＰ０１１に進むまで、上述の２回目の発話に対するＳＴＥＰ００１〜ＳＴＥＰ０１０と同様の処理が繰り返される。

ＳＴＥＰ０１１では、機器制御手段６により、特定した機器の制御が実行される。そして、発話内容格納バッファが初期化（リセット）され、機器制御処理が終了される。以上の処理によって、運転者の発話から制御対象となる機器を適切に特定し、該特定した機器を制御することができる。

次に、上述した作動の具体例について、図３を用いて詳細に説明する。図３には、各機器５ａ〜５ｃの状態変化の一例が示されている。図３において、横軸は時間ｔを示し、上から１段目は、「視覚」に対応付けられる状態変化を示し、２段目は「聴覚」に対応付けられる状態変化を示し、３段目は、「触覚」に対応付けられる状態変化を示している。

図３を参照して、時刻ｋ１に、ナビゲーションシステム５ｂにおいて、車両１が交差点を走行中であることから、画面表示が交差点の拡大画面に変更される。この状態変化は、視覚に影響を及ぼすので、「視覚」に対応付けられて、アクティブステートＳ１として、時刻ｋ１〜ｋ１＋Ｔの間、状態変化記憶手段７に記憶される。また、時刻ｋ２に、オーディオ５ａにおいて、ＣＤの次の曲が再生される。この状態変化は、聴覚に影響を及ぼすので、「聴覚」に対応付けられて、アクティブステートＳ２として、時刻ｋ２〜ｋ２＋Ｔの間、状態変化記憶手段７に記憶される。また、時刻ｋ３に、エアコンディショナ５ｃにおいて、風量が増加される。この状態変化は、風を吹き出すファン等の音が聴覚に影響を及ぼし、吹き出される風が触覚に影響を及ぼすので、「聴覚」「触覚」に対応付けられて、アクティブステートＳ３として、時刻ｋ３〜ｋ３＋Ｔの間、状態変化記憶手段７に記憶される。また、時刻ｋ４に、ナビゲーションシステム５ｂにおいて、音声ガイドが出力される。この状態変化は、聴覚に影響を及ぼすので、「聴覚」に対応付けられて、アクティブステートＳ４として、時刻ｋ４〜ｋ４＋Ｔの間、状態変化記憶手段７に記憶される。

次に、図３に例示したように機器５ａ〜５ｃが状態変化している場合に、以下の発話例（ａ）〜（ｄ）のように運転者から発話が入力されたときの機器制御処理について説明する。まず、発話例（ａ）について説明する。発話例（ａ）は、時刻ｔ１（ｋ１＜ｔ１＜ｋ１＋Ｔ）に、運転者から「元に戻して」という発話が入力される例である。時刻ｔ１において、状態変化記憶手段７には、アクティブステートＳ１が記憶されている。

まず、ＳＴＥＰ００１で、運転者から「元に戻して」という発話が入力される。次に、ＳＴＥＰ００２で、入力された発話の内容が認識される。このとき、認識された発話の内容は、いずれの感覚にも関連する可能性があるので、「視覚」「聴覚」「触覚」の全てに対応付けられる。次に、ＳＴＥＰ００３で、認識された発話の内容から、制御対象となる機器を特定する処理が実行される。このとき、「元に戻して」という発話の内容からは、制御対象となる機器を特定できないので、ＳＴＥＰ００４の判断結果がＮＯとなり、ＳＴＥＰ００５に進む。

ＳＴＥＰ００５で、状態変化記憶手段７に記憶されたアクティブステートＳ１が読み込まれる。次に、ＳＴＥＰ００６で、アクティブステートＳ１が、認識された発話の内容に関連するアクティブステートの候補であるか否かが判断される。このとき、アクティブステートＳ１は、「視覚」に対応付けられており、これは発話の内容が対応付けられている「視覚」「聴覚」「触覚」に含まれる。さらに、発話の内容によりアクティブステートＳ１に対する制御が可能であるので、アクティブステートＳ１は、アクティブステートの候補とされる。次に、ＳＴＥＰ００７で、アクティブステートの候補が１つであるので、アクティブステートＳ１が、制御対象となる機器を特定するためのアクティブステートとして特定される。これにより、制御対象となる機器がナビゲーションシステム５ｂであり、「元に戻して」という発話の内容が「画面表示を交差点の拡大画面に変更する」という状態変化に対して発せられた発話の内容だと特定される。そして、ＳＴＥＰ０１１に進み、ナビゲーションシステム５ｂにおいて、画面表示を交差点の拡大画面に変更する前の画面に戻す制御が実行される。このように、運転者の「元に戻して」という発話から、制御対象となるナビゲーションシステム５ｂを適切に特定して制御することができる。

次に、発話例（ｂ）〜（ｄ）について説明する。発話例（ｂ）〜（ｄ）は、いずれも運転者から「止めて」という発話が入力される例であり、発話が入力される時刻のみが異なる。発話例（ｂ）は、時刻ｔ２（ｋ２＜ｔ２＜ｋ２＋Ｔ）に発話が入力される。時刻ｔ２において、状態変化記憶手段７には、アクティブステートＳ２が記憶されている。発話例（ｃ）は、時刻ｔ３（ｋ３＜ｔ３＜ｋ３＋Ｔ）に発話が入力される。時刻ｔ３において、状態変化記憶手段７には、アクティブステートＳ３が記憶されている。発話例（ｄ）は、時刻ｔ４（ｋ４＜ｔ４＜ｋ４＋Ｔ）に発話が入力される。時刻ｔ４において、状態変化記憶手段７には、アクティブステートＳ４が記憶されている。

まず、ＳＴＥＰ００１で、運転者から「止めて」という発話が入力される。次に、ＳＴＥＰ００２で、入力された発話の内容が認識される。このとき、認識された発話の内容は、いずれの感覚にも関連する可能性があるので、「視覚」「聴覚」「触覚」の全てに対応付けられる。次に、ＳＴＥＰ００３で、認識された発話の内容から、制御対象となる機器を特定する処理が実行される。このとき、「止めて」という発話の内容からは、制御対象となる機器を特定できないので、ＳＴＥＰ００４の判断結果がＮＯとなり、ＳＴＥＰ００５に進む。ＳＴＥＰ００４までの処理は、発話例（ｂ）〜（ｄ）のいずれにおいても同じである。

このとき、発話例（ｂ）では、ＳＴＥＰ００５で、状態変化記憶手段７に記憶されたアクティブステートＳ２が読み込まれる。次に、ＳＴＥＰ００６で、アクティブステートＳ２が、認識された発話の内容に関連するアクティブステートの候補であるか否かが判断される。このとき、アクティブステートＳ２は、「聴覚」に対応付けられており、これは発話の内容が対応付けられている「視覚」「聴覚」「触覚」に含まれる。さらに、発話の内容によりアクティブステートＳ２に対する制御が可能であるので、アクティブステートＳ２は、アクティブステートの候補とされる。次に、ＳＴＥＰ００７で、アクティブステートの候補が１つであるので、アクティブステートＳ２が、制御対象となる機器を特定するためのアクティブステートとして特定される。これにより、制御対象となる機器がオーディオ５ａであり、「止めて」という発話の内容が「ＣＤの次の曲を再生する」という状態変化に対して発せられた発話の内容だと特定される。そして、ＳＴＥＰ０１１に進み、オーディオ５ａにおいて、ＣＤの再生を停止する制御が実行される。このように、運転者の「止めて」という発話から、制御対象となるオーディオ５ａを適切に特定して制御することができる。

また、このとき、発話例（ｃ）では、ＳＴＥＰ００５で、状態変化記憶手段７に記憶されたアクティブステートＳ３が読み込まれる。次に、ＳＴＥＰ００６で、アクティブステートＳ３が、認識された発話の内容に関連するアクティブステートの候補であるか否かが判断される。このとき、アクティブステートＳ３は、「聴覚」「触覚」に対応付けられており、これは発話の内容が対応付けられている「視覚」「聴覚」「触覚」に含まれる。さらに、発話の内容によりアクティブステートＳ３に対する制御が可能であるので、アクティブステートＳ３は、アクティブステートの候補とされる。次に、ＳＴＥＰ００７で、アクティブステートの候補が１つであるので、アクティブステートＳ３が、制御対象となる機器を特定するためのアクティブステートとして特定される。これにより、制御対象となる機器がエアコンディショナ５ｃであり、「止めて」という発話の内容が「風量を増加する」という状態変化に対して発せられた発話の内容だと特定される。そして、ＳＴＥＰ０１１に進み、エアコンディショナ５ｃにおいて、風量を増加する前の風量に減少させる制御が実行される。このように、運転者の「止めて」という発話から、制御対象となるエアコンディショナ５ｃを適切に特定して制御することができる。

また、このとき、発話例（ｄ）では、ＳＴＥＰ００５で、状態変化記憶手段７に記憶されたアクティブステートＳ４が読み込まれる。次に、ＳＴＥＰ００６で、アクティブステートＳ４が、認識された発話の内容に関連するアクティブステートの候補であるか否かが判断される。このとき、アクティブステートＳ４は、「聴覚」に対応付けられており、これは発話の内容が対応付けられている「視覚」「聴覚」「触覚」に含まれる。さらに、発話の内容によりアクティブステートＳ４に対する制御が可能であるので、アクティブステートＳ４は、アクティブステートの候補とされる。次に、ＳＴＥＰ００７で、アクティブステートの候補が１つであるので、アクティブステートＳ４が、制御対象となる機器を特定するためのアクティブステートとして特定される。これにより、制御対象となる機器がナビゲーションシステム５ｂであり、「止めて」という発話の内容が「音声ガイドを出力する」という状態変化に対して発せられた発話の内容だと特定される。そして、ＳＴＥＰ０１１に進み、ナビゲーションシステム５ｂにおいて、音声ガイドの出力を停止する制御が実行される。このように、運転者の「止めて」という発話から、制御対象となるナビゲーションシステム５ｂを適切に特定して制御することができる。

なお、本実施形態において、ＳＴＥＰ０１１で制御を実行する際に、応答制御手段９により、特定した機器及び該機器の制御内容を運転者に確認するような応答文を生成し、生成された応答文を応答出力手段８から出力するようにしてもよい。

次に、本発明の第２実施形態を、図４〜図７を参照して説明する。図４は、本実施形態の音声認識機器制御装置における全体的作動（音声認識による機器制御処理）のフローチャートである。また、図５〜図７は、本実施形態の音声認識機器制御装置における機器の状態変化の一例を示すグラフである。なお、本実施形態である音声認識機器制御装置の機能ブロック図は図１と同じであるので、以下の説明では、図１を参照して説明する。

図１を参照して、本実施形態において、音声入力手段３は、車両１の運転者及び運転者以外の他の乗員（例えば、助手席の乗員）から発話がそれぞれ入力されるものであり、複数のマイク等で構成される。このとき、音声入力手段３の各マイクは、各マイクの位置関係と音響特性とが予め定められている。また、音声認識手段４は、音声入力手段３に入力された発話の内容を認識する際に、発話者を特定する処理を行う。これにより、発話が運転者と運転者以外の他の乗員とのいずれから入力されたかが特定される。そして、発話の内容が、運転者からの発話の内容と運転者以外の他の乗員からの発話の内容とに分別して認識される。発話者を特定する処理には、例えば、一般的な音源定位手法が用いられる。このとき、音声認識手段４は、各マイクに入力された発話の音声信号の時間差と強度差とから、音源の位置を推定して、発話者を運転者と運転者以外の他の乗員とに区別して特定する。

状態変化記憶手段７は、アクティブステートとして、車両１の運転者以外の他の乗員の発話により生じた各機器５ａ〜５ｃにおける動作の状態変化と、車両１の運転者の発話により生じた状態変化とを記憶する。なお、アクティブステートのうち、音声認識手段３により特定された発話者以外の発話により生じたアクティブステートを、第１アクティブステート（制御対象となる機器を特定するための第１補助情報に相当する）とし、音声認識手段３により特定された発話者の発話により生じたアクティブステートを、第２アクティブステート（制御対象となる機器を特定するための第２補助情報に相当する）とする。

機器制御手段６は、第１機器特定処理により制御対象となる機器を特定できなかった場合には、状態変化記憶手段７により記憶された第１アクティブステートを用いて、該機器を特定する処理（第２機器特定処理）を実行する。そして、第２機器特定処理により制御対象となる機器を特定できなかった場合には、状態変化記憶手段７により記憶された第２アクティブステートを用いて、該機器を特定する処理（第３機器特定処理）を実行する。このとき、状態変化記憶手段７により記憶されたアクティブステートのうちの、音声認識手段４により認識された発話の内容に関連するアクティブステートが、第２及び第３機器特定処理で用いられる。以上説明した以外の構成は、第１実施形態と同じである。

次に、本実施形態の音声認識機器制御装置２の全体的な作動（音声認識による機器制御処理）を、図４に示したフローチャートに従って説明する。なお、以下の説明では、車両１の運転者から発話が入力されるものとする。

図４を参照して、まず、ＳＴＥＰ１０１で、音声入力手段３に、発話（機器の制御を開始するための発話）が入力される。次に、ＳＴＥＰ１０２で、音声認識手段４は、入力された発話の発話者を特定する処理を行う。これにより、発話が運転者から入力されたことが特定される。次に、ＳＴＥＰ１０３で、音声認識手段４は、音声入力手段３に入力された発話について、構文解析等の音声認識処理を行いキーワードを抽出する。このとき、音声認識手段４により認識された発話の内容は、「視覚」「聴覚」「触覚」の少なくともいずれか１つに対応付けられる。

次に、ＳＴＥＰ１０４で、機器制御手段６は、音声認識手段４により認識された発話の内容を解析して、制御対象となる機器を特定する処理（第１機器特定処理）を実行する。具体的には、機器制御手段６は、キーワードと機器を制御するために必要な項目との対応関係を示す予め定められたテーブル等を参照し、発話から抽出されたキーワードから、各項目に合致するキーワードを選定する。これにより、機器を制御するために必要な項目のデータが特定される。そして、特定された項目のデータは、発話の内容を記憶保持するためのバッファ（発話内容格納バッファ）に格納される。

次に、ＳＴＥＰ１０５で、機器制御手段６は、機器５ａ〜５ｃのうちの制御対象となる機器及び該機器の制御内容が特定されているか否かを判断する。ＳＴＥＰ１０５の判断結果がＹＥＳの場合には、ＳＴＥＰ１１５に進む。

ＳＴＥＰ１０５の判断結果がＮＯの場合には、以下のＳＴＥＰ１０６〜１１４の処理が行われる。まず、ＳＴＥＰ１０６で、状態変化記憶手段７からアクティブステートが読み込まれる。次に、ＳＴＥＰ１０７で、読み込まれたアクティブステートのうち、認識された発話の内容に関連する第１アクティブステートの候補があるか否かが判断される（第２機器特定処理）。ここで、認識された発話の内容に関連する第１アクティブステートの候補とは、第１実施形態のアクティブステートの候補と同様に、感覚の種類毎の最新の第１アクティブステートのうちの、該発話の内容に対応付けられた感覚の種類と共通の種類の感覚に対応付けられた第１アクティブステートであり、且つ、該発話の内容により制御が可能な第１アクティブステートである。

ＳＴＥＰ１０７で、まず、読み込まれた第１アクティブステートの、感覚の種類毎の最新の第１アクティブステートのうちに、該発話の内容に対応付けられた感覚の種類と共通の種類の感覚に対応付けられた第１アクティブステートがあるか否かが判断される。対応付けられた第１アクティブステートがない場合には、第１アクティブステートの候補がないと判断され（ＳＴＥＰ１０７の判断結果がＮＯ）、ＳＴＥＰ１１０に進む。対応付けられた第１アクティブステートがある場合には、認識された発話の内容により、該対応付けられた第１アクティブステートに対する制御が可能であるか否かが判断される。制御可能な第１アクティブステートがない場合には、第１アクティブステートの候補がないと判断され（ＳＴＥＰ１０７の判断結果がＮＯ）、ＳＴＥＰ１１０に進む。制御可能な第１アクティブステートがある場合には、該第１アクティブステートが、認識された発話の内容に関連する第１アクティブステートの候補とされる。

次に、ＳＴＥＰ１０７の判断結果がＹＥＳの場合（認識された発話の内容に関連する第１アクティブステートの候補がある）には、ＳＴＥＰ１０８で、第１アクティブステートの候補が複数であるか否かが判断される。ＳＴＥＰ１０８の判断結果がＮＯの場合（第１アクティブステートの候補が１つ）には、該第１アクティブステートの候補が、制御対象となる機器を特定するためのアクティブステートとして特定される。そして、このアクティブステートを生じた機器が、制御対象となる機器として特定され、ＳＴＥＰ１１５に進む。ＳＴＥＰ１０８の判断結果がＹＥＳの場合（第１アクティブステートの候補が複数ある）には、ＳＴＥＰ１０９に進む。

ＳＴＥＰ１０９は、第１アクティブステートの候補が複数あり、制御対象となる機器を特定するためのアクティブステートを特定できないために、アクティブステートを用いて制御対象となる機器を特定できない場合である。この場合に、応答制御手段９は、複数の第１アクティブステートの候補のうちから、制御対象となる機器を特定するために用いるアクティブステートが絞り込まれるように、運転者への質問文を生成する。そして、ＳＴＥＰ１１４に進む。

また、ＳＴＥＰ１１０は、第２機器特定処理により、制御対象となる機器を特定できない場合である。この場合に、ＳＴＥＰ１１０で、読み込まれたアクティブステートのうち、認識された発話の内容に関連する第２アクティブステートの候補があるか否かが判断される（第３機器特定処理）。ここで、認識された発話の内容に関連する第２アクティブステートの候補とは、第１アクティブステートの候補と同様に、感覚の種類毎の最新の第２アクティブステートのうちの、該発話の内容に対応付けられた感覚の種類と共通の種類の感覚に対応付けられた第２アクティブステートであり、且つ、該発話の内容により制御が可能な第２アクティブステートである。

ＳＴＥＰ１１０で、まず、読み込まれた第２アクティブステートの、感覚の種類毎の最新の第２アクティブステートのうちに、該発話の内容に対応付けられた感覚の種類と共通の種類の感覚に対応付けられた第２アクティブステートがあるか否かが判断される。対応付けられた第２アクティブステートがない場合には、第２アクティブステートの候補がないと判断され（ＳＴＥＰ１１０の判断結果がＮＯ）、ＳＴＥＰ１１３に進む。対応付けられた第２アクティブステートがある場合には、認識された発話の内容により、該対応付けられた第２アクティブステートに対する制御が可能であるか否かが判断される。制御可能な第２アクティブステートがない場合には、第２アクティブステートの候補がないと判断され（ＳＴＥＰ１１０の判断結果がＮＯ）、ＳＴＥＰ１１３に進む。制御可能な第２アクティブステートがある場合には、該第２アクティブステートが、認識された発話の内容に関連する第２アクティブステートの候補とされる。

次に、ＳＴＥＰ１１０の判断結果がＹＥＳの場合（認識された発話の内容に関連する第２アクティブステートの候補がある）には、ＳＴＥＰ１１１で、第２アクティブステートの候補が複数であるか否かが判断される。ＳＴＥＰ１１１の判断結果がＮＯの場合（第２アクティブステートの候補が１つ）には、該第２アクティブステートの候補が、制御対象となる機器を特定するためのアクティブステートとして特定される。そして、このアクティブステートを生じた機器が、制御対象となる機器として特定され、ＳＴＥＰ1１５に進む。ＳＴＥＰ１１１の判断結果がＹＥＳの場合（第２アクティブステートの候補が複数ある）には、ＳＴＥＰ１１２に進む。

ＳＴＥＰ１１２は、第２アクティブステートの候補が複数あり、制御対象となる機器を特定するためのアクティブステートを特定できないために、アクティブステートを用いて制御対象となる機器を特定できない場合である。この場合に、応答制御手段９は、複数の第２アクティブステートの候補のうちから、制御対象となる機器を特定するために用いるアクティブステートが絞り込まれるように、運転者への質問文を生成する。そして、ＳＴＥＰ１１４に進む。

また、ＳＴＥＰ１１３は、発話の内容に関連する第１及び第２アクティブステートの候補がないために、アクティブステートを用いて制御対象となる機器を特定できない場合である。この場合に、応答制御手段９は、入力された発話で不足している内容（少なくとも制御対象となる機器を特定するために必要な内容）について、次回の発話で入力を促すように、運転者への質問文を生成する。そして、ＳＴＥＰ１１４に進む。

ＳＴＥＰ１１４では、応答制御手段９により生成された質問文が、応答出力手段８から出力される。ＳＴＥＰ１１４からは、ＳＴＥＰ１０１に戻り、２回目の発話が入力される。そして、１回目の発話と同様に、ＳＴＥＰ１０１〜１１４の処理が行われる。但し、２回目の発話（応答出力手段８から出力された質問文に対する発話）においては、ＳＴＥＰ１０４で、発話内容格納バッファから前回の発話の内容を読み込み、２回目の発話の内容を解析する際に用いる。そして、２回目の発話の内容を、前回の発話の内容と合わせて発話内容格納バッファに格納する。さらに、ＳＴＥＰ１０５〜１１４において、発話の内容として、２回目の発話の内容と前回の発話の内容とを合わせて用いる。

以下、ＳＴＥＰ１０５の判断結果がＹＥＳ又はＳＴＥＰ１０８の判断結果がＮＯとなり、ＳＴＥＰ１１５に進むまで、上述の２回目の発話に対するＳＴＥＰ１０１〜ＳＴＥＰ１１４と同様の処理が繰り返される。

ＳＴＥＰ１１５では、機器制御手段６により、特定した機器の制御が実行される。このとき、応答制御手段９により、特定した機器及び該機器の制御内容を運転者に確認するような応答文が生成され、生成された応答文が応答出力手段８から出力される。そして、発話内容格納バッファが初期化（リセット）され、機器制御処理が終了される。以上の処理によって、運転者の発話から制御対象となる機器を適切に特定し、該特定した機器を制御することができる。

次に、上述した作動の具体例について、図５〜図７を用いて詳細に説明する。図５〜図７には、各機器５ａ〜５ｃの状態変化の一例がそれぞれ示されている。図５〜図７において、横軸は時間ｔを示し、上から１段目は、「視覚」に対応付けられる状態変化を示し、２段目は「聴覚」に対応付けられる状態変化を示し、３段目は、「触覚」に対応付けられる状態変化を示している。なお、図５〜図７において、第１アクティブステートに相当する部分に斜線を付してある。

まず、図５を参照して説明する。図５の例では、時刻ｋ５に、助手席の乗員から「オーディオ画面にして」という発話が入力され、運転者から「次の曲にして」という発話が入力される。これに対して、音声認識機器制御装置２から「次の曲を再生し、画面をオーディオ画面に変更します」という応答が出力される。そして、助手席の乗員からの発話により、ナビゲーションシステム５ｂにおいて、画面表示がオーディオ画面に変更される。この状態変化は、視覚に影響を及ぼすので、「視覚」に対応付けられ、アクティブステートＳ５として、時刻ｋ５〜ｋ５＋Ｔの間、状態変化記憶手段７に記憶される。これと共に、運転者からの発話により、オーディオ５ａにおいて、次の曲が再生される。この状態変化は、聴覚に影響を及ぼすので、「聴覚」に対応付けられ、アクティブステートＳ６として、時刻ｋ５〜ｋ５＋Ｔの間、状態変化記憶手段７に記憶される。

図５に例示したように機器５ａ〜５ｃが状態変化している場合に、以下の発話例（ｅ）のように運転者から発話が入力されたときの機器制御処理について説明する。発話例（ｅ）は、時刻ｔ５（ｋ５＜ｔ５＜ｋ５＋Ｔ）に、運転者から「キャンセル」という発話が入力される例である。時刻ｔ５において、状態変化記憶手段７には、アクティブステートＳ５，Ｓ６が記憶されている。

まず、ＳＴＥＰ１０１で、「キャンセル」という発話が入力される。次に、ＳＴＥＰ１０２で、発話が運転者から入力されたことが特定される。次に、ＳＴＥＰ１０３で、入力された発話の内容が認識される。このとき、認識された発話の内容は、いずれの感覚にも関連する可能性があるので、「視覚」「聴覚」「触覚」の全てに対応付けられる。次に、ＳＴＥＰ１０４で、認識された発話の内容から、制御対象となる機器を特定する処理が実行される。このとき、「キャンセル」という発話の内容からは、制御対象となる機器を特定できないので、ＳＴＥＰ１０５の判断結果がＮＯとなり、ＳＴＥＰ１０６に進む。

ＳＴＥＰ１０６で、状態変化記憶手段７に記憶されたアクティブステートＳ５，Ｓ６が読み込まれる。次に、ＳＴＥＰ１０７で、第１アクティブステートＳ５が、認識された発話の内容に関連する第１アクティブステートの候補であるか否かが判断される。このとき、第１アクティブステートＳ５は、「視覚」に対応付けられており、これは発話の内容が対応付けられている「視覚」「聴覚」「触覚」に含まれる。さらに、発話の内容により第１アクティブステートＳ５に対する制御が可能であるので、第１アクティブステートＳ５は、第１アクティブステートの候補とされる。

次に、ＳＴＥＰ１０８で、第１アクティブステートの候補が１つであるので、第１アクティブステートＳ５が、制御対象となる機器を特定するためのアクティブステートとして特定される。これにより、制御対象となる機器がナビゲーションシステム５ｂであり、「キャンセル」という発話の内容が「画面表示をオーディオ画面に変更する」という状態変化に対して発せられた発話の内容だと特定される。そして、ＳＴＥＰ１１５に進み、応答制御手段９により「画面を元に戻します」という応答文が生成されて応答出力手段８により出力され、ナビゲーションシステム５ｂにおいて、画面表示をオーディオ画面に変更される前の画面に戻す制御が実行される。このように、運転者の「キャンセル」という発話から、制御対象となるナビゲーションシステム５ｂを適切に特定して制御することができる。

次に、図６を参照して説明する。図６の例では、時刻ｋ６に、助手席の乗員から「エアコン付けて」という発話が入力され、運転者から「地図を縮小」という発話が入力される。これに対して、音声認識機器制御装置２から「地図を縮小して、エアコンを付けます」という応答が出力される。そして、助手席の乗員からの発話により、エアコンディショナ５ｃがオン状態にされる。この状態変化は、風を吹き出すファン等の音が聴覚に影響を及ぼし、吹き出される風が触覚に影響を及ぼすので、「聴覚」「触覚」に対応付けられ、アクティブステートＳ７として、時刻ｋ６〜ｋ６＋Ｔの間、状態変化記憶手段７に記憶される。これと共に、運転者からの発話により、ナビゲーションシステム５ｂにおいて、地図の画面表示が縮小される。この状態変化は、視覚に影響を及ぼすので、「視覚」に対応付けられ、アクティブステートＳ８として、時刻ｋ６〜ｋ６＋Ｔの間、状態変化記憶手段７に記憶される。

図６に例示したように機器５ａ〜５ｃが状態変化している場合に、以下の発話例（ｆ）のように運転者から発話が入力されたときの機器制御処理について説明する。発話例（ｆ）は、時刻ｔ６（ｋ６＜ｔ６＜ｋ６＋Ｔ）に、運転者から「やっぱり拡大」という発話が入力される例である。時刻ｔ６において、状態変化記憶手段７には、アクティブステートＳ７，Ｓ８が記憶されている。

まず、ＳＴＥＰ１０１で、「やっぱり拡大」という発話が入力される。次に、ＳＴＥＰ１０２で、発話が運転者から入力されたことが特定される。次に、ＳＴＥＰ１０３で、入力された発話の内容が認識される。このとき、認識された発話の内容は、視覚的なものであるので、「視覚」に対応付けられる。次に、ＳＴＥＰ１０４で、認識された発話の内容から、制御対象となる機器を特定する処理が実行される。このとき、「やっぱり拡大」という発話の内容からは、制御対象となる機器を特定できないので、ＳＴＥＰ１０５の判断結果がＮＯとなり、ＳＴＥＰ１０６に進む。

ＳＴＥＰ１０６で、状態変化記憶手段７に記憶されたアクティブステートＳ７，Ｓ８が読み込まれる。次に、ＳＴＥＰ１０７で、第１アクティブステートＳ７が、認識された発話の内容に関連する第１アクティブステートの候補であるか否かが判断される。このとき、第１アクティブステートＳ７は、「聴覚」「触覚」に対応付けられており、これは発話の内容が対応付けられている「視覚」と共通でないので、第１アクティブステートの候補がないと判断される。

次に、ＳＴＥＰ１１０で、第２アクティブステートＳ８が、認識された発話の内容に関連する第２アクティブステートの候補であるか否かが判断される。このとき、第２アクティブステートＳ８は、「視覚」に対応付けられており、これは発話の内容が対応付けられている「視覚」と共通である。さらに、発話の内容により第２アクティブステートＳ８に対する制御が可能であるので、第２アクティブステートＳ８は、第２アクティブステートの候補とされる。

次に、ＳＴＥＰ１１１で、第２アクティブステートの候補が１つであるので、第２アクティブステートＳ８が、制御対象となる機器を特定するためのアクティブステートとして特定される。これにより、制御対象となる機器がナビゲーションシステム５ｂであり、「やっぱり拡大」という発話の内容が「地図の画面表示を縮小する」という状態変化に対して発せられた発話の内容だと特定される。そして、ＳＴＥＰ１１５に進み、応答制御手段９により「画面を元に戻します」という応答文が生成されて応答出力手段８により出力され、機器制御手段６により、ナビゲーションシステム５ｂにおいて、地図の画面表示のサイズを縮小される前のサイズに戻す制御が実行される。このように、運転者の「やっぱり拡大」という発話から、制御対象となるナビゲーションシステム５ｂを適切に特定して制御することができる。

次に、図７を参照して説明する。図７の例では、時刻ｋ７に、助手席の乗員から「急速冷房で、近くのレストラン探して」という発話が入力される。これに対して、音声認識機器制御装置２から「設定しました」という応答が出力される。そして、助手席の乗員からの発話により、ナビゲーションシステム５ｂにおいて、画面表示が検索画面に変更される。この状態変化は、視覚に影響を及ぼすので、「視覚」に対応付けられ、アクティブステートＳ９として、時刻ｋ７〜ｋ７＋Ｔの間、状態変化記憶手段７に記憶される。これと共に、助手席の乗員からの発話により、エアコンディショナ５ｃがオン状態にされる。この状態変化は、風を吹き出すファン等の音が聴覚に影響を及ぼし、吹き出される風が触覚に影響を及ぼすので、「聴覚」「触覚」に対応付けられ、アクティブステートＳ１０として、時刻ｋ７〜ｋ７＋Ｔの間、状態変化記憶手段７に記憶される。

図７に例示したように機器５ａ〜５ｃが状態変化している場合に、以下の発話例（ｇ）のように運転者から発話が入力されたときの機器制御処理について説明する。発話例（ｇ）は、時刻ｔ７（ｋ７＜ｔ７＜ｋ７＋Ｔ）に、運転者から「うるさい」という発話が入力される例である。時刻ｔ７において、状態変化記憶手段７には、アクティブステートＳ９，Ｓ１０が記憶されている。

まず、ＳＴＥＰ１０１で、「うるさい」という発話が入力される。次に、ＳＴＥＰ１０２で、発話が運転者から入力されたことが特定される。次に、ＳＴＥＰ１０３で、入力された発話の内容が認識される。このとき、認識された発話の内容は、聴覚的なものであるので、「聴覚」に対応付けられる。次に、ＳＴＥＰ１０４で、認識された発話の内容から、制御対象となる機器を特定する処理が実行される。このとき、「うるさい」という発話の内容からは、制御対象となる機器を特定できないので、ＳＴＥＰ１０５の判断結果がＮＯとなり、ＳＴＥＰ１０６に進む。

ＳＴＥＰ１０６で、状態変化記憶手段７に記憶されたアクティブステートＳ９，Ｓ１０が読み込まれる。次に、ＳＴＥＰ１０７で、第１アクティブステートＳ９，Ｓ１０が、認識された発話の内容に関連する第１アクティブステートの候補であるか否かが判断される。このとき、第１アクティブステートＳ９は、「視覚」に対応付けられており、これは発話の内容が対応付けられている「聴覚」と共通でない。一方、第１アクティブステートＳ１０は、「聴覚」「触覚」に対応付けられており、これは発話の内容が対応付けられている「聴覚」と共通の種類を含む。さらに、発話の内容により第１アクティブステートＳ１０に対する制御が可能であるので、第１アクティブステートＳ１０は、第１アクティブステートの候補とされる。

次に、ＳＴＥＰ１０８で、第１アクティブステートの候補が１つであるので、第１アクティブステートＳ１０が、制御対象となる機器を特定するためのアクティブステートとして特定される。これにより、制御対象となる機器がエアコンディショナ５ｃで、「うるさい」という発話の内容が「オン状態にする」という状態変化に対して発せられた発話の内容だと特定される。そして、ＳＴＥＰ１１５に進み、応答制御手段９により「エアコンのファンを弱めます」という応答文が生成されて応答出力手段８により出力され、エアコンディショナ５ｃの風量を減少する制御が実行される。このように、運転者の「うるさい」という発話から、制御対象となるエアコンディショナ５ｃを適切に特定して制御することができる。

なお、第１及び第２実施形態においては、音声認識機器制御装置２は、車両１に搭載されるものとしたが、車両以外の移動体や、家庭電化機器や、パーソナルコンピュータ等に搭載されるものとしてもよい。

本発明の第１実施形態である音声認識機器制御装置の機能ブロック図。図１の音声認識機器制御装置における全体的な作動（音声認識による機器制御処理）を示すフローチャート。図１の音声認識機器制御装置における機器の状態変化の一例を示すグラフ。本発明の第２実施形態である音声認識機器制御装置における全体的な作動（音声認識による機器制御処理）を示すフローチャート。本発明の第２実施形態である音声認識機器制御装置における機器の状態変化の一例を示すグラフ。本発明の第２実施形態である音声認識機器制御装置における機器の状態変化の一例を示すグラフ。本発明の第２実施形態である音声認識機器制御装置における機器の状態変化の一例を示すグラフ。

符号の説明

１…車両、２…音声認識機器制御装置、３…音声入力手段、４…音声認識手段、５ａ〜５ｃ…機器、６…機器制御手段、７…状態変化記憶手段、８…応答出力手段、９…応答制御手段。

Claims

使用者から発話が入力される音声入力手段と、
前記音声入力手段に入力された発話の内容を認識する音声認識手段と、
少なくとも前記音声認識手段により認識された発話の内容に基づいて、複数の機器のうちの制御対象となる機器を特定し、該特定した機器の動作を制御する機器制御手段とを備えた音声認識機器制御装置において、
前記複数の機器の各機器における動作の状態変化のうち、少なくとも前記使用者からの発話により生じた状態変化以外の状態変化を、前記制御対象となる機器を特定するための第１補助情報として記憶する状態変化記憶手段を備え、
前記機器制御手段は、前記音声認識手段により認識された発話の内容に基づいて、前記制御対象となる機器を特定する第１機器特定処理を実行し、該第１機器特定処理により該機器を特定できなかった場合には、少なくとも前記状態変化記憶手段により記憶された前記第１補助情報を、該機器を特定するために用いることを特徴とする音声認識機器制御装置。
前記状態変化記憶手段は、前記第１補助情報として、前記各機器において自動的に生じた状態変化を記憶することを特徴とする請求項１記載の音声認識機器制御装置。
前記音声入力手段は、前記使用者と該使用者以外の他者とから発話がそれぞれ入力され、
前記音声認識手段は、前記音声入力手段に入力された発話の内容を、前記使用者からの発話の内容と前記他者からの発話の内容とに分別して認識し、
前記状態変化記憶手段は、前記第１補助情報として、前記他者の発話により生じた前記各機器における動作の状態変化を記憶することを特徴とする請求項１記載の音声認識機器制御装置。
前記音声認識手段は、前記音声入力手段に入力された発話の内容を、人の有する感覚のうちの予め定められた複数種類の感覚のいずれかに対応付けて認識し、
前記状態変化記憶手段は、前記第１補助情報を、前記複数種類の感覚のいずれかに対応付けて記憶し、
前記機器制御手段は、前記第１機器特定処理により前記制御対象となる機器を特定できなかった場合には、前記状態変化記憶手段により記憶された前記第１補助情報のうちの、前記音声認識手段により認識した前記発話の内容が対応付けられた感覚の種類と同一の種類の感覚に対応する該第１補助情報を、該機器を特定するために用いることを特徴とする請求項１〜請求項３のうちいずれか１項記載の音声認識機器制御装置。
前記機器制御手段は、前記第１機器特定処理により前記制御対象となる機器を特定できなかった場合には、前記状態変化記憶手段により記憶された前記第１補助情報のうちの最新の第１補助情報を、該機器を特定するために用いることを特徴とする請求項１〜請求項４のうちいずれか１項記載の音声認識機器制御装置。
前記状態変化記憶手段は、前記第１補助情報に加えて、前記使用者の発話により生じた状態変化を、前記制御対象となる機器を特定するための第２補助情報として記憶し、
前記機器制御手段は、前記第１機器特定処理により前記制御対象となる機器を特定できなかった場合には、前記状態変化記憶手段により記憶された前記第１補助情報を用いて、該機器を特定する第２機器特定処理を実行し、該第２機器特定処理により該機器を特定できなかった場合には、該状態変化記憶手段により記憶された前記第２補助情報を、該機器を特定するために用いることを特徴とする請求項１〜請求項５のうちいずれか1項記載の音声認識機器制御装置。
前記使用者への応答を出力する応答出力手段と、
前記音声認識手段により認識された発話の内容に関連した前記第１補助情報が複数ある場合に、該複数の第１補助情報のうちから前記制御対象となる機器を特定するために用いる第１補助情報が絞り込まれるように、前記応答を制御する応答制御手段とを備えることを特徴とする請求項１〜請求項６のうちいずれか１項記載の音声認識機器制御装置。