JP2017146437A

JP2017146437A - 音声入力処理装置

Info

Publication number: JP2017146437A
Application number: JP2016027720A
Authority: JP
Inventors: 陽介淵脇; Yosuke Fuchiwaki; 伸昭浅原; Nobuaki Asahara; 敦行鈴木; Atsuyuki Suzuki; 祐介中村; Yusuke Nakamura
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2016-02-17
Filing date: 2016-02-17
Publication date: 2017-08-24
Also published as: US10424298B2; KR20170096947A; US20170236510A1

Abstract

【課題】音声コマンドにより外部機器を制御する音声入力処理装置において、簡略な音声コマンドの使用を可能とし、音声認識機能の動作競合を防止する。【解決手段】入力音声に含まれるコマンドを抽出する音声認識部と、入力される動作指示情報及び又は抽出されたコマンドに基づいて、自装置の動作を制御し及び又は外部機器に動作を指示する制御部と、を備える。制御部は、前記動作指示情報の少なくとも一部及び又は前記コマンドの内容の少なくとも一部と、当該動作指示情報及び又はコマンドに基づいて行った動作の内容と、を関連付けた動作情報を、動作履歴として記憶し、新たな音声が入力されたときは、音声認識部により抽出されるコマンドの内容の少なくとも一部が含まれる前記動作情報を動作履歴から抽出し、抽出されるコマンドと抽出した動作情報とに基づいて自装置の動作を制御し及び又は外部機器に動作を指示する。【選択図】図２

Description

本発明は、ユーザが発した音声を受信して処理を行う音声入力処理装置に関し、特に、ユーザが音声により入力するコマンドを音声認識処理して当該コマンドに応じた処理を行う音声入力処理装置に関する。

従来、ユーザが発した音声についての音声認識に関する処理を行う車載の装置として、オーディオ、エアコン等の車載機器のそれぞれに対応して当該車載機器の操作に関連した単語が登録された複数の辞書を備え、運転者の音声入力内容から操作対象機器を推定して、当該推定した機器に対応する辞書を切り替えることで、当該切り替えられた辞書を使用した音声認識を行う音声認識ユニットを搭載した、車両用走行支援装置が知られている（特許文献１）。

ところで、近年においては、車両内に持ち込まれたスマートフォン等の一つ又は複数の携帯機器と、当該車両が備える音響映像装置（例えば、いわゆるディスプレイ・オーディオ（ＤＡ）装置）とを有線通信及び又は無線通信で接続し、携帯機器と音響映像装置とが協働することで、それぞれが有する機能が、車載のＨＭＩデバイス（マイクやスピーカ等々）を介してユーザに提供される、車両内ＡＶ（Audio Visual）システムが知られている。

音響映像装置に接続されるこれら携帯機器には、ナビゲーション機能や楽曲再生機能など、他の車載装置や音響映像装置自身が備える機能と同種の機能を有するものがあり、さらには、一の携帯機器に対して、USB（Universal Serial Bus）を介した接続やBluetooth（登録商標）による接続など、複数種類の接続形態に対応可能なものがある。

このため、例えば複数の携帯機器を音響映像装置に接続した状態で所望の楽曲を再生する際には、再生を所望する楽曲名のほか、当該再生を行う機器又は装置の識別名、当該機器又は装置と車載装置との接続形態など、種々の情報を付加したコマンドを音響映像装置に入力する必要が生ずる。また、音響映像装置においてアプリケーションプログラムを実行することにより携帯機器を制御する専用プラットフォームを音響映像装置内に実現して、当該携帯機器のきめ細かな動作制御を行う車両内ＡＶシステム（例えば、Apple CarPlay（登録商標）やAndroid Auto（登録商標））も知られており、そのような複数のプラットフォームを音響映像装置において実行可能な場合には、例えば楽曲再生を行うための上記コマンドに、いずれのプラットフォームを介した再生を行うかの指定も含める必要が生ずる。

このため、音声映像装置に上記従来の車両用走行支援装置と同様の音声認識機能を備えたとしても、ユーザにとっては、例えば楽曲を再生するたびに、再生機器や接続形態やプラットフォーム等の全ての選択肢についての指定を含む音声コマンドを音響映像装置に入力することとなり、煩わしい冗長な音声コマンドの発声が必要となって、システムとしての利便性は低いものとなる。

また、近年では、音声映像装置が備える音声認識エンジンのほか、当該音声映像装置に接続された各携帯機器が備える音声認識エンジンも利用可能であり、一のユーザ発話に対して各機器の音声認識機能が同時に応答しないように（すなわち、動作競合が生じないように）動作管理を行う必要がある。また、コンピュータとしての音声映像装置が種々のアプリケーションを実行して様々な機能を提供する場合には、各アプリケーション毎に（例えばナビゲーション・アプリケーションや上記プラットフォーム毎に）音声認識エンジンがソフトウェアとしてインストールされる場合があり、音声映像装置内に実現される各音声認識エンジンと、当該装置に接続された外部の携帯機器が備える音声認識エンジンと、を含めた全体としての動作管理が必要となり得る。

上記のような音声認識動作の競合を解決する一つの方法として、ユーザがスイッチ等を操作することで、使用する音声認識エンジン（又は、使用する音声認識エンジンを備える機器）を指定することもできるが、その場合には、使用機器を変更する毎に（又は、機能の提供開始を指示する毎に）スイッチ操作を行わなければならず、利便性の点で好ましくない。

また、音声認識動作の競合を解決する他の方法として、車載装置が備える一の音声認識エンジンのみを用いるものとすることもできるが、その場合には、当該車載装置に予め備えられた認識辞書の範囲で音声認識が行われることとなる。その結果、例えば新たな携帯機器を接続して使用する場合には、当該機器の機能選択や機能指示に特化された当該機器が備える音声認識辞書を利用することはできず、当該機器に適した細かな指示や設定を音声によって行うことは困難となり得る。すなわち、上記従来の装置の構成を利用して一の音声認識エンジンのみを使用する手法では、当該装置に接続された携帯機器毎の特性や個性に応じた音声コマンドの利用が制限されることとなり得る。

特開２００９−２０５６９号公報

上記背景より、自装置に接続された複数の外部機器の動作を、ユーザが発する音声コマンドを認識して制御する音声入力処理装置において、簡略化された音声コマンドの使用を可能とし、且つ自装置や外部機器が備える音声認識機能の実行を適切に管理することが望まれている。

本発明の位置の態様は、入力された音声の内容を認識して当該音声に含まれるコマンドを抽出する第１の音声認識部と、入力される動作指示情報及び又は前記抽出されたコマンドに基づいて、自装置の動作を制御し及び又は外部機器に動作を指示する制御部と、を備える音声入力処理装置である。前記制御部は、前記動作指示情報の少なくとも一部及び又は前記コマンドの内容の少なくとも一部と、当該動作指示情報及び又はコマンドに基づいて行った自装置及び又は前記外部機器の動作の内容と、を関連付けた動作情報を、動作履歴として記憶装置に記憶し、新たな音声が入力されたときは、前記第１の音声認識部により抽出されるコマンドの内容の少なくとも一部が含まれる前記動作情報を、前記動作履歴から抽出し、前記抽出されるコマンドと前記抽出した動作情報とに基づいて自装置の動作を制御し及び又は前記外部機器に動作を指示する。
本発明の他の態様によると、前記動作指示情報は、ユーザの操作により情報が入力される操作入力部から取得される情報である。
本発明の他の態様によると、前記制御部は、前記外部機器に対し動作を指示する動作指示信号を送信し、及び又は、前記外部機器が音声認識機能を有し且つ音声を送信し得るように自装置と接続されているときは、当該外部機器に対し前記入力された音声を送信して、当該外部機器に動作を指示する。
本発明の他の態様によると、前記第１の音声認識部と異なる少なくとも一つの第２の音声認識部を有し、前記制御部は、前記第２の音声認識部の少なくとも一つに前記入力された音声を送信して、自装置の動作を制御する。
本発明の他の態様によると、前記制御部は、前記動作履歴から抽出される前記動作情報が複数あるときは、予め定めた所定の条件に従って当該複数の動作情報から一の動作情報を選択し、当該選択した一の動作情報と前記抽出されるコマンドとに基づいて自装置の動作を制御し及び又は前記外部機器に動作を指示する。
本発明の他の態様によると、前記動作情報には、前記第２の音声認識部及び前記外部機器が有する音声認識機能のいずれかの音声認識動作に基づいて行われた動作か否かについての情報を含み、前記所定の条件は、前記いずれかの音声認識動作に基づいて行われた動作の前記動作情報を、当該いずれかの音声認識動作に基づかない動作の前記動作情報よりも優先的に選択することを規定するものである。
本発明の他の態様によると、前記動作情報は、音楽再生動作に関する動作情報であって、前記動作情報は、再生された楽曲が、自動的に再生されたものであるか否かを示す情報を含み、前記所定の条件は、前記再生された楽曲が自動的に再生されたものでないことを示している前記動作情報を、自動的に再生されたものであることを示している前記動作情報よりも優先的に選択することを規定するものである。
本発明の他の態様によると、前記制御部は、前記外部機器に対して直接行われた音声コマンドの入力及び又は直接に行われたユーザによる入力操作により当該外部機器が行った動作の情報を当該外部機器から取得して、前記音声コマンドの内容の少なくとも一部及び又は前記入力操作の内容の少なくとも一部と、当該音声コマンド及び又は入力操作に基づいて行った前記外部機器の動作の内容と、を関連付けた動作情報を、動作履歴として記憶装置に記憶する。
本発明の他の態様によると、前記所定の条件は、前記外部機器から取得した情報に基づく前記動作情報に優先して、当該外部機器から取得した情報に基づく前記動作情報以外の前記動作情報を選択することを規定するものである。
本発明の他の態様によると、前記動作情報には、動作に用いられた外部機器の識別情報と、当該外部機器との接続経路に関する情報と、を含み、前記制御部は、前記動作履歴から抽出される前記動作情報の前記識別情報が示す前記外部機器に対し、当該動作情報が示す接続経路と同じ接続経路を用いて動作指示を与えることができるか否かを判断し、できない場合には、予め定めた基準に従って代替となる接続経路を選択し、当該選択した代替の接続経路を用いて当該外部機器に動作を指示する。
本発明の他の態様によると、前記動作情報には、前記外部機器が有する音声認識機能の音声認識動作に基づいて行われた動作か否かについての情報を含み、前記代替となる接続経路には、前記動作履歴から抽出される前記動作情報が示す動作が、当該動作を行うべき前記外部機器が有する音声認識動作に基づいて行われた動作であるときは、当該動作を行うべき前記外部機器が有する音声認識機能の音声認識動作を行わせることが可能な接続経路が選択される。

本発明の第１の実施形態に係る音声入力処理装置を用いた車載システムの構成を示す図である。図１に示す第１の実施形態に係る音声入力処理装置の構成を示す図である。図２に示す音声入力処理装置における、音楽再生動作の動作情報の項目と各項目における選択肢の一例を示す図である。図２に示す音声入力処理装置における、音楽再生動作の動作履歴の一例を示す図である。図２に示す音声入力処理装置における、ナビゲーション動作の動作情報の項目と各項目における選択肢の一例を示す図である。図２に示す音声入力処理装置における、ナビゲーション動作の動作履歴の一例を示す図である。図２に示す音声入力処理装置における、全体制御ユニットの動作の手順を示すフロー図である。図７に示すフロー図におけるオーディオ再生処理の手順を示すフロー図である。図７に示すフロー図におけるナビゲーション処理の手順を示すフロー図である。本発明の第２の実施形態に係る音声入力処理装置の構成を示す図である。図１０に示す音声入力処理装置における、音楽再生動作の動作履歴の一例を示す図である。図１０に示す音声入力処理装置における、全体制御ユニットの動作の手順を示すフロー図である。図１２に示すフロー図におけるオーディオ再生処理２の手順を示すフロー図である。図１３に示すフロー図における代替接続処理の手順を示すフロー図である。

以下、図面を参照して、本発明の実施の形態を説明する。
以下に示す第１及び第２の実施形態に係る音声入力処理装置は、例えば車両に搭載される音響映像装置（例えば、ディスプレイ・オーディオ（ＤＡ）装置）として実現され得るが、本発明は、これに限らす、複数の一般機器の動作を音声コマンドにより制御する音声入力処理装置に広く適用することができる。

＜第１実施形態＞
まず、本発明の第１の実施形態に係る音声入力処理装置について説明する。
図１は、本発明の第１の実施形態に係る音声入力処理装置を用いた車載システムの構成を示す図である。
音声入力処理装置１０は、車両（以下、ホスト車両という）の内部に搭載され、処理装置１００と、記憶装置１０２と、ホスト車両内に持ち込まれた第１外部機器１１０、第２外部機器１１２、第３外部機器１１４、及び第４外部機器１１６と通信するための通信インタフェース（通信ＩＮＦ）１０４と、を備える。

ここで、第１〜第４外部機器１１０〜１１６は、例えばスマートフォン等の多機能携帯端末、あるいはポータブルＰＣ（Personal Computer）等の携帯端末であるものとすることができる。第１〜４外部機器１１０〜１１６は、それぞれ、音声入力処理装置１０と通信するための通信インタフェース（通信ＩＮＦ）１２０、１２２、１２４、１２６と、処理装置１３０、１３２、１３４、１３６と、を備える。

第１及び第２外部機器１１０、１１２の処理装置１３０、１３２は、それぞれの外部機器が備えるマイクロフォン（不図示）から入力される音声又は通信ＩＮＦ１２０、１２２を介して入力される音声を認識する音声認識ユニット１４０、１４２と、それぞれの外部機器が備える機能を制御する機能制御ユニット１４４、１４６を備える。また、第３及び第４外部機器１１４、１１６の処理装置１３４、１３６は、それぞれの外部機器が備える機能を制御する機能制御ユニット１５０、１５２を備える。

本実施形態では、第１外部機器１１０は、例えば多機能携帯機器iPhone（登録商標）であり、音声入力処理装置１０との間が、BluetoothとLightening（登録商標）ケーブルとで接続されている。また、第２外部機器１１２は、例えば多機能携帯機器Nexus（登録商標）であり、音声入力処理装置１０との間が、BluetoothとUSBケーブルとで接続されている。また、第３外部機器１１４及び第４外部機器１１６と音声入力処理装置１０との間は、それぞれUSBケーブル及びBluetoothで接続されている。

なお、本実施形態では第１〜第４外部機器１１０〜１１６の４つの外部機器が音声入力処理装置１０に接続されるものとしたが、これに限らず、音声入力処理装置１０には任意の数の外部機器が接続されるものとすることができる。

音声入力処理装置１０は、また、通信ＩＮＦ１０４を介して、ホスト車両に設けられた電子制御ユニット（ＥＣＵ、Electronic Control Unit）１６０ａ、１６０ｂと通信（例えば、ＣＡＮ（Controller Area Network）バス通信）を行う。ＥＣＵ１６０ａ、１６０ｂは、ホスト車両が備える機能の一部（例えば、窓の開閉、ワイパーのオンオフ、ヘッドランプの点灯など）を実行する。なお、本実施形態ではＥＣＵ１６０ａ、１６０ｂの２つのＥＣＵが音声入力処理装置１０に接続されるものとしたが、これに限らず、音声入力処理装置１０には任意の数のＥＣＵが接続されるものとすることができる。

音声入力処理装置１０は、また、通信ＩＮＦ１０４を介して外部サーバ（不図示）と通信することができ、例えば、外部サーバに入力音声を送信し、当該外部サーバが行う当該入力音声についての音声認識の結果を当該外部サーバから受信することができる。

音声入力処理装置１０は、さらに、車載のマイクロフォン１７０、スピーカ１７２、ディスプレイ１７４、操作スイッチ１７６などのヒューマンインタフェースデバイスと通信するためのＨＭＩインタフェース（ＨＭＩ−ＩＮＦ）１０６も有している。

ディスプレイ１７４は、例えばタッチパネル（不図示）を備えた液晶表示ディスプレイを含むものとすることができる。音声入力処理装置１０は、ＨＭＩ−ＩＮＦ１０６を介して、ユーザがディスプレイ１７４のタッチパネルに入力した情報やコマンドを受信することができる。

操作スイッチ１７６は、ナビゲーションユニット２０４、ＥＣＵ１６０ａ、１６０ｂ、第１〜第４外部機器１１０〜１１６の動作に関する指示情報をユーザが入力するための一つ又は複数のスイッチにより構成されている。なお、操作スイッチ１７６は、ディスプレイ１７４に表示されてタッチパネルによりオン・オフされるボタンにより構成されるものとすることもできる。

なお、以下では、操作スイッチ１７６及び又はディスプレイ１７４のタッチパネルを介して入力されるナビゲーションユニット２０４、ＥＣＵ１６０ａ、１６０ｂ、第１〜第４外部機器１１０〜１１６の動作に関する指示情報を、動作指示情報と称する。また、操作スイッチ１７６及び又はディスプレイ１７４のタッチパネル（不図示）は、ユーザの操作により情報が入力される操作入力部に対応する。

第１〜第４外部機器１１０〜１１６が備える処理装置１３０〜１３６は、例えば、ＣＰＵ（Central Processing Unit）等のプロセッサ、プログラムが書き込まれたＲＯＭ（Read Only Memory）、データの一時記憶のためのＲＡＭ（Random Access Memory）等を有するコンピュータであり、音声認識ユニット１４０と機能制御ユニット１４４、音声認識ユニット１４２と機能制御ユニット１４６、機能制御ユニット１５０、及び機能制御ユニット１５２は、それぞれ、例えばコンピュータである処理装置１３０〜１３６がコンピュータ・プログラムを実行されることにより実現される。

図２は、本実施形態に係る音声入力処理装置１０の構成を示す図である。本音声入力処理装置１０の処理装置１００は、例えば、ＣＰＵ等のプロセッサ、プログラムが書き込まれたＲＯＭ、データの一時記憶のためのＲＡＭ等を有するコンピュータであり、全体制御ユニット２００と、オーディオユニット２０２と、ナビゲーションユニット２０４と、第１外部機器制御ユニット２０６と、第２外部機器制御ユニット２０８と、を有している。処理装置１００が有する上記各ユニットは、例えばコンピュータである処理装置１００がコンピュータ・プログラムを実行されることにより実現される。

全体制御ユニット２００は、主音声認識ユニット２１０とコマンド処理ユニット２１２とを備える。主音声認識ユニット２１０は、ＨＭＩ−ＩＮＦ１０６を介してマイクロフォン１７０から入力された音声を記憶装置１０２に記憶すると共に、当該入力された音声（入力音声）に対し音声認識処理を実行して、当該入力音声からコマンドを抽出する。

コマンド処理ユニット２１２は、操作スイッチ１７６から入力される動作指示情報に基づき、ＨＭＩ−ＩＮＦ１０６を介してマイクロフォン１７０から取得された音声を、主音声認識ユニット２１０、オーディオユニット２０２、ナビゲーションユニット２０４、第１外部機器制御ユニット２０６、及び又は第２外部機器制御ユニット２０８のいずれかに選択的に入力すると共に、ディスプレイ１７４のタッチパネルから入力される動作指示情報を、オーディオユニット２０２、ナビゲーションユニット２０４、第１外部機器制御ユニット２０６、及び又は第２外部機器制御ユニット２０８のいずれかに選択的に入力する。

また、コマンド処理ユニット２１２は、主音声認識ユニット２１０により抽出されたコマンドと、ＨＭＩ−ＩＮＦ１０６を介して操作スイッチ１７６及び又はディスプレイ１７４のタッチパネルから取得される動作指示情報と、に基づいて、上記抽出されたコマンド及び上記動作指示情報により特定される動作の実行を、オーディオユニット２０２、ナビゲーションユニット２０４、ＥＣＵ１６０ａ、１６０ｂ、第１〜第４外部機器１１０〜１１６のいずれかに指示する。ここで、コマンド処理ユニット２１２による上記動作の実行指示は、当該指示のための信号（動作指示信号）を当該動作に関連するユニット又は機器（オーディオユニット２０２、ナビゲーションユニット２０４、ＥＣＵ１６０ａ、１６０ｂ、第１〜第４外部機器１１０〜１１６のいずれか）に出力すること、及び又は記憶装置１０２に記憶した入力音声を当該動作に関連するユニット又は機器（オーディオユニット２０２、ナビゲーションユニット２０４又は第１、第２外部機器１１０、１１２のいずれか）に出力することにより行われる。

コマンド処理ユニット２１２は、さらに、第１〜第４外部機器１１０〜１１４から出力される音情報及び又は画像情報を、ＨＭＩ−ＩＮＦ１０６を介してスピーカ１７２及び又はディスプレイ１７４に出力する機能を有する。

オーディオユニット２０２は、処理装置１００がアプリケーションプログラムを実行することにより実現され、音声認識ユニット２１６と音楽再生ユニット２１８と、を備える。音声認識ユニット２１６は、ＨＭＦ―ＩＮＦ１０６を介してマイクロフォン１７０から入力される入力音声、又は全体制御ユニット２００のコマンド処理ユニット２１２から与えられる入力音声に対し音声認識処理を行い、当該入力音声に含まれる動作指示を抽出する。

音楽再生ユニット２１８は、音声認識ユニット２１６が抽出した動作指示、及び又は操作スイッチ１７６若しくはディスプレイ１７４のタッチパネルから入力される動作指示情報、及び又は全体制御ユニット２００のコマンド処理ユニット２１２から与えられる動作信号に基づいて、上記動作指示、操作指示情報、及び又は動作信号が示す楽曲の指定及び再生方法の指定等（イコライザ設定、繰り返し再生等）に従い、例えば記憶装置１０２に予め記憶された楽曲の中から当該指定された楽曲を再生し、又は第１〜第４外部機器１１０〜１１６に当該指定された楽曲の再生を指示して、再生された当該楽曲をＨＭＩ−ＩＮＦ１０６を介してスピーカ１７２に出力する。すなわち、オーディオユニット２０２は、楽曲再生を行う機器として動作するほか、楽曲再生を行う第１〜第４外部機器との間で信号授受を行うプラットフォームとしても機能する。

ナビゲーションユニット２０４は、処理装置１００がアプリケーションプログラムを実行することにより実現され、音声認識ユニット２２２と経路探索ユニット２２４と、を備える。音声認識ユニット２２２は、ＨＭＦ−ＩＮＦ１０６を介してマイクロフォン１７０から入力される入力音声、又は全体制御ユニット２００のコマンド処理ユニット２１２から与えられる入力音声に対し音声認識処理を行い、当該入力音声に含まれる動作指示を抽出する。

経路探索ユニット２２４は、音声認識ユニット２２２が抽出した動作指示、及び又は操作スイッチ１７６若しくはディスプレイ１７４のタッチパネルから入力される動作指示情報、及び又は全体制御ユニット２００のコマンド処理ユニット２１２から与えられる動作信号に基づいて、上記動作指示、操作指示情報、及び又は動作信号が示す目的地までの経路を探索し、ディスプレイ１７４等を用いて当該経路についての案内を行う。

経路探索ユニット２２４は、また、第１〜第４外部機器１１０〜１１６が行った経路探索の結果をディスプレイ１７４等に出力するためのプラットフォームとしても機能する。

第１外部機器制御ユニット２０６、及び第２外部機器制御ユニット２０８は、音声入力処理装置１０に接続される外部機器の動作を制御するプラットフォームであり、処理装置１００がアプリケーションプログラムを実行することにより実現される。

第１外部機器制御ユニット２０６は、例えば多機能携帯端末iPhone（登録商標）の動作を制御するCarPlay（登録商標）システムのプラットフォームであり、音声認識ユニット２２８と、機器通信処理ユニット２３０と、を備える。音声認識ユニット２２８は、ＨＭＦ−ＩＮＦ１０６を介してマイクロフォン１７０から入力される入力音声、又は全体制御ユニット２００のコマンド処理ユニット２１２から与えられる入力音声に対し音声認識処理を行い、当該入力音声に含まれる動作指示を抽出する。

機器通信処理ユニット２３０は、音声認識ユニット２２８が抽出した動作指示、及び又は操作スイッチ１７６若しくはディスプレイ１７４のタッチパネルから入力される動作指示情報、及び又は全体制御ユニット２００のコマンド処理ユニット２１２から与えられる動作信号に基づいて、上記動作指示、操作指示情報、及び又は動作信号が示す動作を、例えばLightning（登録商標）ケーブル接続インタフェースである第３通信ＩＮＦ２４４（後述）を介して、例えば多機能携帯端末iPhone（登録商標）である第１外部機器１１０に指示する。

機器通信処理ユニット２３０は、さらに、例えば第１外部機器１１０から出力される音情報及び又は画像情報を、ＨＭＩ−ＩＮＦ１０６を介してスピーカ１７２及び又はディスプレイ１７４に出力する機能を有する。

第２外部機器制御ユニット２０８は、例えば多機能携帯端末Nexus（登録商標）の動作を制御するAdroid Auto（登録商標）システムのプラットフォームであり、音声認識ユニット２３４と、機器通信処理ユニット２３６と、を備える。音声認識ユニット２３４は、ＨＭＦ−ＩＮＦ１０６を介してマイクロフォン１７０から入力される入力音声、又は全体制御ユニット２００のコマンド処理ユニット２１２から与えられる入力音声に対し音声認識処理を行い、当該入力音声に含まれる動作指示を抽出する。

機器通信処理ユニット２３６は、音声認識ユニット２３４が抽出した動作指示、及び又は操作スイッチ１７６若しくはディスプレイ１７４のタッチパネルから入力される動作指示情報、及び又は全体制御ユニット２００のコマンド処理ユニット２１２から与えられる動作信号に基づいて、上記動作指示、操作指示情報、及び又は動作信号が示す動作を、例えばUSB通信インタフェースである第４通信ＩＮＦ２４６（後述）、又は例えばBluetooth（登録商標）通信インタフェースである第２通信ＩＮＦ２４２（後述）を介して、例えば多機能携帯端末Nexus（登録商標）である第２外部機器１１２に指示する。

機器通信処理ユニット２３６は、さらに、例えば第２外部機器１１２から出力される音情報及び又は画像情報を、ＨＭＩ−ＩＮＦ１０６を介してスピーカ１７２及び又はディスプレイ１７４に出力する機能を有する。

ここで、全体制御ユニット２００が備える主音声認識ユニット２１０は、第１の音声認識部に対応し、オーディオユニット２０２、ナビゲーションユニット２０４、第１及び第２外部機器制御ユニット２０６、２０８が備える音声認識ユニット２１６、２２２、２２８、２３４は、第２の音声認識部に対応する。

通信ＩＮＦ１０４は、外部サーバと無線通信を介して通信するための無線通信インタフェースである第１通信ＩＮＦ２４０と、例えばBluetooth（登録商標）通信インタフェースである第２通信ＩＮＦ２４２と、例えば多機能携帯端末iPhone（登録商標）と通信するためのLightning（登録商標）ケーブル接続インタフェースである第３通信ＩＮＦ２４４と、例えばUSB通信インタフェースである第４通信ＩＮＦ２４６と、ＥＣＵ１６０ａ、１６０ｂと通信するための例えばＣＡＮインタフェースである第５通信ＩＮＦ２４８と、を有している。

なお、本実施形態では、記載を具体的なものとして理解を容易にするため、一例として、第１外部機器制御ユニット２０６をCarPlay（登録商標）システムのプラットフォーム、第２外部機器制御ユニット２０６をAdroid Auto（登録商標）システムのプラットフォーム、第１外部機器１１０を多機能携帯端末iPhone（登録商標）、第２外部機器１１２を多機能携帯端末Nexus（登録商標）、第２通信ＩＮＦ２４２をBluetooth（登録商標）通信インタフェース、第３通信ＩＮＦ２４４をLightning（登録商標）ケーブル接続インタフェース、第４通信ＩＮＦ２４６をUSB通信インタフェース、であるものとした。このため、CarPlay（登録商標）システムのプラットフォームである第１外部機器制御ユニット２０６は、Lightning（登録商標）ケーブル接続インタフェースである第３通信ＩＮＦ２４４を介してのみiPhone（登録商標）である第１外部機器１１０と通信を行い、Adroid Auto（登録商標）システムのプラットフォームである第２外部機器制御ユニット２０６は、Bluetooth（登録商標）通信インタフェースである第２通信ＩＮＦ２４２、又はUSB通信インタフェースである第４通信ＩＮＦ２４６を介して、多機能携帯端末Nexus（登録商標）である第２外部機器１１２と通信する。

ただし、これに限らず、第１外部機器制御ユニット２０６、及び第２外部機器制御ユニット２０８は、音声入力処理装置１０に接続される外部機器の動作を制御するプラットフォームである限りにおいて、第２〜第４通信ＩＮＦ２４２〜２４６等の種類の異なる複数の通信インタフェースを介して、それぞれ一つ以上の外部機器との接続を行うものとすることができる。

以下、本実施形態の音声入力処理装置１０が行う音楽再生動作とナビゲーション動作を例にとり、処理装置１００における動作を更に説明する。
音楽再生動作を行う際には、図３に示すように、当該音楽動作を行わせる機器又はユニットの選択、当該機器との間の信号の接続経路の選択等々について、以下のような事項についての選択を行う必要がある。
（Ａ１）音楽再生を行わせる機器又はユニット（以下、総称して「音楽再生機器」ともいう）についての選択肢として、オーディオユニット２０２、第１外部機器１１０、第２外部機器１１２、第３外部機器１１４、第４外部機器１１６が存在し得る。

（Ａ２）音楽再生機器との間の信号の接続経路は、使用するプラットフォーム（使用プラットフォーム）についての選択肢と、通信インタフェースについての選択肢と、で規定される。
（Ａ２−１）使用プラットフォームについての選択肢として、オーディオユニット２０２、第１外部機器制御ユニット２０６、第２外部機器制御ユニット２０８が存在し得る。
（Ａ２−２）通信インタフェースの選択肢として、第２通信ＩＮＦ２４２（例えばBluetooth通信インタフェース）、第３通信ＩＮＦ２４４（例えばLightningケーブル通信インタフェース）、第４通信ＩＮＦ２４６（例えばUSB通信インタフェース）が存在し得る。

（Ａ３）音楽再生機器に対し、音声コマンドを使用するか否か、及び使用する場合は、いずれのユニット又は外部機器が有する音声認識機能を用いるか、についての選択肢が存在し得る。
（Ａ４）再生する楽曲（個別の楽曲の曲名や、楽曲アルバムの名称等）についての選択肢が存在し得る。なお、図３において、図示の表の最右欄の「再生楽曲名」欄における選択肢として示した「楽曲１」「楽曲２」等は、任意の楽曲名であるものとすることができる。

ユーザは、音楽再生の実行指示と、上記各事項の選択肢について指定を、操作スイッチ１７６及び又はディスプレイ１７４のタッチスクリーンにより入力する動作指示情報の少なくとも一部、及び又は音声コマンドを用いる場合には当該音声コマンドの少なくとも一部として、全体制御ユニット２００に入力することができる（（例えば、再生する楽曲の指定を音声コマンドの内容の少なくとも一部として入力し、他の事項の選択肢の指定を動作指示情報の少なくとも一部として入力することができる））。

音声入力処理装置１０の全体制御ユニット２００は、動作指示情報の少なくとも一部及び又は音声コマンドの少なくとも一部により入力された上記各事項の選択肢の指定に基づき、オーディオユニット２０２により又は第１〜第４外部機器１１０〜１１６の一つを用いて、指定された楽曲の再生を行う。また、全体制御ユニット２００は、例えば操作スイッチ１７６又はディスプレイ１７４のタッチスクリーンにより学習モード動作が指定されているときは、指定された楽曲の曲名と、楽曲再生動作の内容を示す動作情報（例えば、動作指示情報の少なくとも一部及び又は音声コマンドの少なくとも一部により入力された上記各事項の選択肢の指定）を、動作履歴として記憶装置１０２に記憶する。

図４は、音楽再生動作に関する動作履歴の一例を示す図である。図示の表の最も右の２つの列に示したように、動作履歴には、図３に示す項目のほか、同じ楽曲が同じ選択肢指定を用いて再生された回数（図４の表の右から２番目の「頻度」列）、及びその楽曲がその選択肢指定を用いて最後に再生された日時（図４の表の最も右側の「最終使用日」列）などの、他の項目も含めることができる。

図４の表において、例えば「曲名１」の行により、当該「曲名１」の楽曲が、例えばLightningケーブル通信インタフェースである第３通信ＩＮＦ２４４を介して接続された（図示の表の左から４番目の列参照）、ＩＤ１−００１の識別コード（図示の表の左から２番目の列参照）を持つ第１外部機器１１０、例えばiPhone（登録商標）機器により、第１外部機器制御ユニット２０６が提供するプラットフォーム（例えば、CarPlayシステムのプラットフォーム）を介して提供されたことが判る（図示の表の左から３番目の列参照）。また、当該提供にあたり、第１外部機器制御ユニット２０６が提供する音声認識機能が用いられたこと（図示の表の左から５番目の列参照）、この再生動作が2015年11月1日の8時3分に行われたこと（図示の表の最も右の列参照）、及び同様の再生動作が過去１０回行われたこと（図示の表の右から２番目の列参照）、が判る。

また、図４の表において、例えば「曲名２」の行により、当該「曲名２」の楽曲が、例えばUSB通信インタフェースである第４通信ＩＮＦ２４６を介して接続された（図示の表の左から４番目の列参照）、ＩＤ２−００２の識別コード（図示の表の左から２番目の列参照）を持つ第２外部機器１１２、例えばNexus（登録商標）機器により、第２外部機器制御ユニット２０８が提供するプラットフォーム（例えば、Android Autoシステムのプラットフォーム）を介して提供されたことが判る（図示の表の左から３番目の列参照）。また、当該提供にあたり、第２外部機器制御ユニット２０８が提供する音声認識機能が用いられたこと（図示の表の左から５番目の列参照）、この再生動作が2015年11月1日の12時31分に行われたこと（図示の表の最も右の列参照）、及び同様の再生動作が過去３回行われたこと（図示の表の右から２番目の列参照）、が判る。

さらに、図４の表において、例えば「曲名１００」の行により、当該「曲名１００」の楽曲が、例えばBluetooth通信インタフェースである第２通信ＩＮＦ２４２を介して接続された（図示の表の左から４番目の列参照）、ＩＤ２−００６の識別コード（図示の表の左から２番目の列参照）を持つ他の第２外部機器１１２、例えばNexus（登録商標）機器により、オーディオユニット２０２が提供するプラットフォームを介して提供されたことが判る（図示の表の左から３番目の列参照）。また、当該提供にあたり、ＩＤ２−００６の識別コードを持つ第２外部機器１１２自身が有する音声認識機能が用いられたこと（図示の表の左から５番目の列参照）、この再生動作が2015年10月26日の18時12分に行われたこと（図示の表の最も右の列参照）、及び同様の再生動作が過去15回行われたこと（図示の表の右から２番目の列参照）、が判る。

図４に示すような動作履歴を記憶した後、全体制御ユニット２００は、ユーザが音声により特定の楽曲の再生を指定したときには、例えば操作スイッチ１７６又はディスプレイ１７４のタッチスクリーンにより運用モード動作が指定されていることを条件として、主音声認識ユニット２１０により当該音声についての音声認識を行って当該楽曲を抽出し、当該楽曲が含まれる動作情報を上記動作履歴から抽出して、当該抽出した動作情報が示す各選択肢の指定に従って上記指定された楽曲の再生を行う。

これにより、本実施形態の音声入力処理装置１０では、簡略化された音声コマンド（例えば、再生を希望する楽曲の曲名のみを指定する音声コマンド）の使用を可能とし、且つ自装置が備える音声認識機能（例えば、音声認識ユニット２１０、２１６、２２２、２２８、２３４が行う音声認識機能）や外部機器が備える音声認識機能（例えば、第１、第２外部機器１１０、１１２の音声認識ユニット１４０、１４２による音声認識機能）の動作競合を防止してそれら機能の実行を適切に管理することができる。

同様に、ナビゲーション動作を行う際には、図５に示すように、当該ナビゲーション動作を行わせる機器又はユニットの選択、当該機器との間の信号の接続経路の選択等々について、以下のような事項についての選択を行う必要がある。
（Ｂ１）ナビゲーション再生を行わせる機器又はユニット（以下、総称して「ナビゲーション実行機器」ともいう）についての選択肢として、ナビゲーションユニット２０４、第１通信機器１１０、第２通信機器１１２、第３通信機器１１４、第４通信機器１１６が存在し得る。

（Ｂ２）ナビゲーション実行機器が第１〜第４外部機器１１０〜１１８のいずれかである場合には、それらナビゲーション実行機器との間の信号の接続経路が、使用するプラットフォーム（使用プラットフォーム）についての選択肢と、通信インタフェースについての選択肢と、で規定され得る。
（Ｂ２−１）使用プラットフォームについての選択肢として、ナビゲーションユニット２０４、第１外部機器制御ユニット２０６、第２外部機器制御ユニット２０８が存在し得る。
（Ｂ２−２）通信インタフェースの選択肢として、第２通信ＩＮＦ２４２（例えばBluetooth通信インタフェース）、第３通信ＩＮＦ２４４（例えばLightningケーブル通信インタフェース）、第４通信ＩＮＦ２４６（例えばUSB通信インタフェース）が存在し得る。

（Ｂ３）ナビゲーション実行機器に対し、音声コマンドを使用するか否か、及び使用する場合は、いずれのユニット又は外部機器が有する音声認識機能を用いるか、についての選択肢が存在し得る。
（Ｂ４）ナビゲーションにおける経路探索に用いる目的地についての選択肢や、経路探索の条件（距離優先、時間優先等）が存在し得る。なお、図５において、図示の表の最右欄の「目的地」欄における選択肢として示した「地名１」「地名２」等は、任意の地名であるものとすることができる。

ユーザは、ナビゲーション動作の実行指示と、上記各事項の選択肢について指定を、操作スイッチ１７６及び又はディスプレイ１７４のタッチスクリーンにより入力する動作指示情報の少なくとも一部、及び又は音声コマンドを用いる場合には当該音声コマンドの少なくとも一部として、全体制御ユニット２００に入力することができる（（例えば、経路探索に用いる目的地の指定を音声コマンドの内容の少なくとも一部として入力し、他の事項の選択肢の指定を動作指示情報の少なくとも一部として入力することができる））。

音声入力処理装置１０の全体制御ユニット２００は、動作指示情報の少なくとも一部及び又は音声コマンドの少なくとも一部により入力された上記各事項の選択肢の指定に基づき、自装置又は外部機器のいずれかを用いて、指定された目的地までの経路を探索し、及び探索した経路までの案内を行う。また、全体制御ユニット２００は、例えば操作スイッチ１７６又はディスプレイ１７４のタッチスクリーンにより学習モード動作が指定されているときは、指定された目的地と、ナビゲーション動作の内容を示す動作情報（例えば、動作指示情報の少なくとも一部及び又は音声コマンドの少なくとも一部により入力された上記各事項の選択肢の指定）を、動作履歴として記憶装置１０２に記憶する。

図６は、ナビゲーション動作に関する動作履歴の一例を示す図である。図示の表の最も右の２つの列に示したように、動作履歴には、図５に示す項目のほか、同じ目的地のナビゲーション動作が同じ選択肢指定を用いて行われた回数（図６の表の右から２番目の「頻度」列）、及びその目的地についてのナビゲーション動作がその選択肢指定を用いて最後に行われた日時（図６の表の最も右側の「最終使用日」列）などの、他の項目も含めることができる。

図６の表において、例えば「地名ａ」の行により、当該「地名ａ」についてのナビゲーション動作が、ナビゲーションユニット２０４を用いて実行されことが判る（図示の表の左から２番目の列参照）。また、当該提供にあたり、ナビゲーションユニット２０４が有する音声認識機能が用いられたこと（図示の表の左から５番目の列参照）、このナビゲーション動作が2015年11月1日の8時3分に行われたこと（図示の表の最も右の列参照）、及び同様のナビゲーション動作が過去１０回行われたこと（図示の表の右から２番目の列参照）、が判る。

また、図６の表において、例えば「地名ｂ」の行により、当該「地名ｂ」についてのナビゲーション動作が、例えばLightningケーブル通信インタフェースである第３通信ＩＮＦ２４４を介して接続された（図示の表の左から４番目の列参照）、ＩＤ１−００１の識別コード（図示の表の左から２番目の列参照）を持つ第１外部機器１１０、例えばiPhone（登録商標）機器により、第１外部機器制御ユニット２０６が提供するプラットフォーム（例えば、CarPlayシステムのプラットフォーム）により実行されたことが判る（図示の表の左から３番目の列参照）。また、当該ナビゲーション動作の実行にあたり、第１外部機器制御ユニット２０６が提供する音声認識機能が用いられたこと（図示の表の左から５番目の列参照）、このナビゲーション動作が2015年11月1日の12時31分に行われたこと（図示の表の最も右の列参照）、及び同様のナビゲーション動作が過去３回行われたこと（図示の表の右から２番目の列参照）、が判る。

また、図６の表において、例えば「地名ｃ」の行により、当該「地名ｃ」についてのナビゲーション動作が、例えばUSB通信インタフェースである第４通信ＩＮＦ２４６を介して接続された（図示の表の左から４番目の列参照）、ＩＤ２−００２の識別コード（図示の表の左から２番目の列参照）を持つ第２外部機器１１２、例えばNexus（登録商標）機器により、第２外部機器制御ユニット２０８が提供するプラットフォーム（例えば、Android Autoシステムのプラットフォーム）を通じて実行されたことが判る（図示の表の左から３番目の列参照）。また、当該実行にあたり、第２外部機器制御ユニット２０８が提供する音声認識機能が用いられたこと（図示の表の左から５番目の列参照）、このナビゲーション動作が2015年11月3日の7時58分に行われたこと（図示の表の最も右の列参照）、及び同様のナビゲーション動作が過去30回行われたこと（図示の表の右から２番目の列参照）、が判る。

図６に示すような動作履歴を記憶した後、全体制御ユニット２００は、ユーザが音声により特定の目的地を指定したときには、例えば操作スイッチ１７６又はディスプレイ１７４のタッチスクリーンにより運用モード動作が指定されていることを条件として、主音声認識ユニット２１０により当該音声についての音声認識を行って当該目的地を抽出し、当該目的地が含まれる動作情報を上記動作履歴から抽出して、当該抽出した動作情報が示す各選択肢の指定に従って上記指定された目的地までの経路探索と経路案内とを行う。

これにより、本実施形態の音声入力処理装置１０では、簡略化された音声コマンド（例えば、目的地のみを指定する音声コマンド）の使用を可能とし、且つ自装置が備える音声認識機能（例えば、音声認識ユニット２１０、２１６、２２２、２２８、２３４が行う音声認識機能）や外部機器が備える音声認識機能（例えば、第１、第２外部機器１１０、１１２の音声認識ユニット１４０、１４２による音声認識機能）の動作競合を防止してそれら機能の実行を適切に管理することができる。

以上のように、全体制御ユニット２００のコマンド処理ユニット２１２は、操作スイッチ１７６及び又はディスプレイ１７４のタッチスクリーンにより入力される動作指示情報及び又は音声コマンドから抽出されるコマンドに基づいて、自装置の動作（オーディオユニット２０２やナビゲーションユニット２０４の動作）を制御し及び又は第１〜第４外部機器１１０〜１１６の動作を制御して、動作指示情報の少なくとも一部及び又は前記コマンドの内容の少なくとも一部（例えば、再生を希望する楽曲の曲名や、経路探索に用いる目的地）と、当該動作指示情報及び又はコマンドに基づいて行った自装置及び又は第１〜第４外部機器１１０〜１１６の動作の内容と、を関連付けた動作情報を、動作履歴として記憶装置１０２に記憶する。そして、コマンド処理ユニット２１２は、新たな音声が入力されたときは、主音声認識部２１０により抽出されるコマンドの内容の少なくとも一部（例えば、再生を希望する楽曲の曲名や、経路探索に用いる目的地）が含まれる動作情報を、記憶装置１０２が記憶する動作履歴から抽出し、上記抽出されるコマンドと当該抽出した動作情報とに基づいて自装置の動作（オーディオユニット２０２やナビゲーションユニット２０４の動作）を制御し及び又は第１〜第４外部機器１１０〜１１６に動作を指示する。

次に、音声入力処理装置１０の全体制御ユニット２００が行う処理の手順について、図７に示すフロー図に従って説明する。本処理は、音声入力処理装置１０の電源がオンされたときに開始し、オフされたときに終了する。

処理を開始すると、まず、全体制御ユニット２００は、ＨＭＩ−ＩＮＦ１０６を介してマイクロフォン１７０から音声が入力されたか否かを判断し（Ｓ１００）、入力されていないときは（Ｓ１００、Ｎｏ）、ステップＳ１００に戻って音声が入力されるのを待機する。例えば、全体制御ユニット２００のコマンド処理ユニット２１２は、マイクロフォン１７０から入力される音を一時記憶装置（不図示）に記憶してバッファリングし、バッファリングした音の周波数解析等により当該バッファリングした音に音声が含まれているか否かを判断することができる。

一方、ステップＳ１００において音声が入力されたときは（Ｓ１００、Ｙｅｓ）、操作スイッチ１７６又はディスプレイ１７４のタッチスクリーンにより運用モード動作が指定されているか否かを判断し（Ｓ１０２）、運用モードでなく学習モードが指定されているときは（Ｓ１０２、Ｎｏ）、入力された音声に含まれるコマンドを主音声認識ユニット２１０により抽出し、当該抽出したコマンドと、操作スイッチ１７６又はディスプレイ１７４のタッチスクリーンにより入力される動作指示情報に基づいて、コマンド処理ユニット２１２により、指定された動作を実行する（Ｓ１０４）。そして、実行した当該動作の動作情報を、動作履歴として記憶装置１０２に記憶した後（Ｓ１０６）、ステップＳ１００に戻って処理を繰り返す。

一方、ステップＳ１０２において、操作スイッチ１７６又はディスプレイ１７４のタッチスクリーンにより運用モードが指定されているときは（Ｓ１０２、Ｙｅｓ）、コマンド処理ユニット２１２は、ステップＳ１００において入力された音声（入力音声）を（例えば、上記バッファリングした音から抽出して）主音声認識ユニット２１０へ送り、主音声認識ユニット２１０は送られた当該入力音声を記憶装置１０２に保存する（Ｓ１０８）。主音声認識ユニット２１０は、送られた当該入力音声に対し音声認識処理を行い、当該音声に含まれるコマンドを抽出して、当該コマンドが指定する機能（当該コマンドがその実行を指示する機能）を特定する（Ｓ１１０）。例えば、主音声認識ユニット２１０は、予め定められた単語やフレーズ（例えば、音楽再生機能の実行を指示する「・・・の再生」や、ナビゲーション機能の実行を指示する「・・・までの経路を探索」、車両操作の一部としてのワイパー動作の実行を指示する「ワイパー動作オン」などのフレーズ）を抽出することにより、指定された機能（指定機能）を特定することができる。

次に、コマンド処理ユニット２１２は、指定機能が車両操作関連の機能（例えば、ワイパーの動作開始や、窓の開閉など）であるか否かを判断し（Ｓ１１２）、車両操作関連の機能であるときは（Ｓ１１２、Ｙｅｓ）、より具体的な指定の動作（例えば、ワイパーの動作開始や、窓の開閉など）を特定して（Ｓ１１４）、当該特定した指定動作のコマンド（例えば、指定動作の実行を指示する信号）を、第５通信ＩＮＦ２４８を介して対応するＥＣＵ（例えばＥＣＵ１６０ａ）に送信した後（Ｓ１１６）、ステップＳ１００に戻って処理を繰り返す。

一方、ステップＳ１１２において、指定機能が車両操作関連の機能でないときは（Ｓ１１２、Ｎｏ）、コマンド処理ユニット２１２は、指定機能がオーディオ再生（例えば、音楽再生）であるか否かを判断し（Ｓ１１８）、オーディオ再生であるときは（Ｓ１１８、Ｙｅｓ）、オーディオ再生処理を実行した後（Ｓ１２０）、ステップＳ１００に戻って処理を繰り返す。なお、ステップＳ１２０で行うオーディオ再生処理については後述する。

一方、ステップＳ１１８において、指定機能がオーディオ再生でないときは（Ｓ１１８、Ｎｏ）、コマンド処理ユニット２１２は、指定機能がナビゲーションであるか否かを判断し（Ｓ１２２）、ナビゲーションであるときは（Ｓ１２２、Ｙｅｓ）、ナビゲーション処理を実行した後（Ｓ１２４）、ステップＳ１００に戻って処理を繰り返す。なお、ステップＳ１２４で行うナビゲーション処理については後述する。

一方、ステップＳ１２２において、指定機能がナビゲーションでないときは（Ｓ１２２、Ｎｏ）、コマンド処理ユニット２１２は、例えば無線通信インタフェースである第１通信ＩＮＦ２４０を介して音声認識機能を持つ外部サーバと接続可能であるか否かを判断し（Ｓ１２６）、接続可能であるときは（Ｓ１２６、Ｙｅｓ）、ステップＳ１０８において記憶装置１０２に保存した入力音声を当該外部サーバへ送信した後（Ｓ１２８）、ステップＳ１００に戻って処理を繰り返す。これにより、例えば、送信先の外部サーバが入力音声に従って処理した結果を取得して、当該入力音声に応じた処理を行うことができる。なお、音声認識機能を持つ外部サーバと接続可能であるか否かの判断は、例えば、コマンド処理ユニット２１２が、接続可能な外部サーバについての情報を予め保有しているものとし、当該情報の中に音声認識機能を持つ外部サーバの情報があれば、音声認識機能を持つ外部サーバと接続可能であると判断するものとすることができる。

一方、ステップＳ１２６において、音声認識機能を持つ外部サーバと接続可能でないときは（Ｓ１２６、Ｎｏ）、コマンド処理ユニット２１２は、通信ＩＮＦ１０４を介して音声認識機能を持つ外部機器が接続されているか否かを判断し（Ｓ１３０）、接続されているときは（Ｓ１３０、Ｙｅｓ）、ステップＳ１０８において記憶装置１０２に保存した入力音声を音声認識機能を持つ外部機器のいずれか（本実施形態では、第１外部機器１１０又は第２外部機器１１２）へ送信した後（Ｓ１３２）、ステップＳ１００に戻って処理を繰り返す。これにより、例えば、送信先の外部機器により、入力音声に応じた処理を行うことができる。なお、入力音声を送信する外部機器の選択は、例えば、予め定められた優先順位、又はディスプレイ１７４や操作スイッチ１７６等を介してユーザが入力した優先順位に従って行うものとすることができる。

一方、ステップＳ１３０において、音声認識機能を持つ外部機器が接続されていないときは（Ｓ１３０、Ｎｏ）、そのままステップＳ１００に戻って処理を繰り返す。

〔オーディオ再生処理〕
次に、図７のステップＳ１２０におけるオーディオ再生処理の手順について、図８に示すフロー図に従って説明する。
処理を開始すると、まず、コマンド処理ユニット２１２は、ステップＳ１１０において特定された指定機能が、楽曲再生であるか否かを判断し（Ｓ２００）、楽曲再生でないときは（Ｓ２００、Ｎｏ）、主音声認識ユニット２１０により、ステップＳ１０８において記憶装置１０２に保存した入力音声全体の音声認識を行った後（Ｓ２０２）、オーディオ再生処理を終了する。なお、ステップＳ２０２において、第１通信ＩＮＦ２４０を介して音声認識機能を有する外部サーバと接続可能であるときは、ステップＳ１０８において記憶装置１０２に保存した入力音声を当該外部サーバへ送信して音声認識を行うものとしてもよい。

一方、Ｓ２００において指定機能が楽曲再生であるときは（Ｓ２００、Ｙｅｓ）、主音声認識ユニット２１０により、ステップＳ１０８において記憶装置１０２に保存した入力音声から再生対象である楽曲の指定（指定楽曲）の曲名を抽出し（Ｓ２０４）、当該指定楽曲の曲名を含む動作情報を、記憶装置１０２が記憶する楽曲再生動作に関する動作履歴（図４に示すような動作履歴）から検索して抽出する（Ｓ２０６）。

そして、コマンド処理ユニット２１２は、上記指定楽曲の曲名を含む動作情報があったか否か（すなわち、抽出されたか否か）を判断し（Ｓ２０８）、抽出されないときは（Ｓ２０８、Ｎｏ）、ステップＳ２０２に処理を移す。一方、ステップＳ２０８において上記指定楽曲の曲名を含む動作情報が抽出されたときは（Ｓ２０８、Ｙｅｓ）、当該抽出された動作情報が複数であるか否かを判断し（Ｓ２１０）、複数であるときは（Ｓ２１０、Ｙｅｓ）、抽出された複数の動作情報から、所定の条件に従って一の動作情報を選択した後（Ｓ２１２）、ステップＳ２１４に処理を移す。当該所定の条件は、例えば、「抽出された複数の動作情報のうち、「頻度」（図４の表の右から２番目の「頻度」列の数字）が最も多い動作情報を選択する」ことや、又は「複数の動作情報のうち、「最終使用日」（図４の表の最も右の「最終使用日」列の日付）が最も近い動作情報を選択する」ことを規定するものとすることができる。

一方、ステップＳ２１０において指定楽曲の曲名を含む動作情報として抽出された動作情報が複数でないとき（すなわち、一つであるとき）は（Ｓ２１０、Ｎｏ）、そのままステップＳ２１４に処理を移す。

ステップＳ２１４において、コマンド処理ユニット２１２は、ステップＳ２０６において抽出された一の動作情報又はステップＳ２０６において抽出された複数の動作情報の中からステップＳ２１２において選択された一の動作情報（以下、「抽出された動作情報」という）に従って指定楽曲の再生が可能か否かを判断する（Ｓ２１４）。例えば、図４に示す動作履歴が用いられる場合であって、「曲名１」の楽曲が指定楽曲であるときは、最左列に「曲名１」を含む動作情報が抽出されることとなるが、当該抽出された動作情報が示す識別ＩＤ１−００１の機器が通信ＩＮＦ１０４に接続されていない場合や、接続されているとしても、当該抽出された動作情報が示す通信ＩＮＦの指定である第３通信ＩＮＦ２４４に接続されていない場合には、ステップＳ２１４において、「曲名１」の指定楽曲は、抽出された動作情報に従って再生することは不可能と判断される。

そして、ステップＳ２１４において、抽出された動作情報に従って指定楽曲を再生することが不可能と判断されるときは（Ｓ２１４、Ｎｏ）、ステップＳ２０２に処理を移し、可能であるときは（Ｓ２１４、Ｙｅｓ）、当該抽出された動作情報が、指定楽曲の再生に際して音声認識機能を使用することを示しているか否かを判断する（Ｓ２１６）。当該判断は、例えば、図４に示す動作履歴から動作情報が抽出される場合には、図示の表の右から３番目の「音声認識機能」列に示された情報に基づいて行うことができる。

そして、音声認識機能の使用が指定されているときは（Ｓ２１６、Ｙｅｓ）、図７のステップＳ１０８において記憶装置１０２に保存した入力音声を、抽出された動作情報が示す音声認識機能を提供する機器又はユニット（図４に示す動作履歴の表の、右から３番目の「音声認識機能」列に示された機器又はユニット）に送信して（Ｓ２１８）、オーディオ再生処理を終了する。これにより、当該入力音声を受信した音楽再生機器は、当該入力音声に対して音声認識を行い、当該入力音声に含まれるコマンドに従って、指定楽曲を再生することができる。

一方、ステップＳ２１６において、抽出された動作情報に音声認識機能の使用が指定されていないときは（Ｓ２１６、Ｎｏ）、抽出された動作情報に従って、指定の音楽再生機器により指定楽曲を再生するための動作指示信号を生成し（Ｓ２２０）、当該動作指示信号を、当該抽出された動作情報が指定する接続経路を介して、上記指定の音楽再生機器へ送信して（Ｓ２２２）、オーディオ再生処理を終了する。

〔ナビゲーション処理〕
次に、図７のステップＳ１２４におけるナビゲーション処理の手順について、図９に示すフロー図に従って説明する。
処理を開始すると、まず、コマンド処理ユニット２１２は、ステップＳ１１０において特定された指定機能が、経路探索であるか否かを判断し（Ｓ３００）、経路探索でないときは（Ｓ３００、Ｎｏ）、主音声認識ユニット２１０により、ステップＳ１０８において記憶装置１０２に保存した入力音声全体の音声認識を行った後（Ｓ３０２）、ナビゲーション処理を終了する。なお、ステップＳ３０２において、第１通信ＩＮＦ２４０を介して音声認識機能を有する外部サーバと接続可能であるときは、ステップＳ１０８において記憶装置１０２に保存した入力音声を当該外部サーバへ送信して音声認識を行うものとしてもよい。

一方、ステップＳ３００において指定機能が経路探索であるときは（Ｓ２００、Ｙｅｓ）、主音声認識ユニット２１０により、ステップＳ１０８において記憶装置１０２に保存した入力音声から経路探索に用いる目的地の指定（指定目的地）の地名を抽出し（Ｓ３０４）、当該指定目的地の地名を含む動作情報を、記憶装置１０２が記憶するナビゲーション動作に関する動作履歴（図６に示すような動作履歴）から検索して抽出する（Ｓ３０６）。

そして、コマンド処理ユニット２１２は、上記指定目的地の地名を含む動作情報があったか否か（すなわち、抽出されたか否か）を判断し（Ｓ３０８）、抽出されないときは（Ｓ３０８、Ｎｏ）、ステップＳ３０２に処理を移す。一方、ステップＳ３０８において上記指定目的地の地名を含む動作情報が抽出されたときは（Ｓ３０８、Ｙｅｓ）、当該抽出された動作情報が複数であるか否かを判断し（Ｓ３１０）、複数であるときは（Ｓ３１０、Ｙｅｓ）、抽出された複数の動作情報から、所定の条件に従って一の動作情報を選択した後（Ｓ３１２）、ステップＳ３１４に処理を移す。当該所定の条件は、例えば、「抽出された複数の動作情報のうち、「頻度」（図６の表の右から２番目の「頻度」列の数字）が最も多い動作情報を選択する」ことや、又は「複数の動作情報のうち、「最終使用日」（図６の表の最も右の「最終使用日」列の日付）が最も近い動作情報を選択する」ことを規定するものとすることができる。

一方、ステップＳ３１０において指定目的地の地名を含む動作情報として抽出された動作情報が複数でないとき（すなわち、一つであるとき）は（Ｓ３１０、Ｎｏ）、そのままステップＳ３１４に処理を移す。

ステップＳ３１４において、コマンド処理ユニット２１２は、ステップＳ３０６において抽出された一の動作情報又はステップＳ３０６において抽出された複数の動作情報の中からステップＳ３１２において選択された一の動作情報（以下、「抽出された動作情報」という）に従って指定目的地までのナビゲーションが実行可能か否かを判断する（Ｓ３１４）。例えば、図６に示す動作履歴が用いられる場合であって、「地名ｂ」の目的地が指定目的地であるときは、最左列に「地名ｂ」を含む動作情報が抽出されることとなるが、当該抽出された動作情報が示す識別ＩＤ１−００１の機器が通信ＩＮＦ１０４に接続されていない場合や、接続されているとしても、当該抽出された動作情報が示す通信ＩＮＦの指定である第３通信ＩＮＦ２４４に接続されていない場合には、ステップＳ３１４において、「地名ａ」の指定目的地は、抽出された動作情報に従ってナビゲーションを実行することは不可能と判断される。

そして、ステップＳ３１４において抽出された動作情報に従って指定目的地までのナビゲーションを実行することが不可能と判断されるときは（Ｓ３１４、Ｎｏ）、ステップＳ３０２に処理を移し、可能であるときは（Ｓ３１４、Ｙｅｓ）、当該抽出された動作情報が、ナビゲーションの実行に際して音声認識機能を使用することを示しているか否かを判断する（Ｓ３１６）。当該判断は、例えば、図６に示す動作履歴から動作情報が抽出される場合には、図示の表の右から３番目の「音声認識機能」列に示された情報に基づいて行うことができる。

そして、音声認識機能の使用が指定されているときは（Ｓ３１６、Ｙｅｓ）、図７のステップＳ１０８において記憶装置１０２に保存した入力音声を、抽出された動作情報が示す音声認識機能を提供する機器又はユニット（図６に示す動作履歴の表の、右から３番目の「音声認識機能」列に示された機器又はユニット）に送信して（Ｓ３１８）、ナビゲーション処理を終了する。これにより、当該入力音声を受信したナビゲーション実行機器は、当該入力音声に対して音声認識を行い、当該入力音声に含まれるコマンドに従って、指定目的地までのナビゲーションを実行することができる。

一方、ステップＳ３１６において、抽出された動作情報に音声認識機能の使用が指定されていないときは（Ｓ３１６、Ｎｏ）、抽出された動作情報に従って、指定のナビゲーション実行機器により指定目的地までのナビゲーションを実行するための動作指示信号を生成し（Ｓ３２０）、当該動作指示信号を、当該抽出された動作情報が指定する接続経路（図６の「接続経路」列が示す接続経路）を介して、上記指定のナビゲーション実行機器へ送信して（Ｓ３２２）、ナビゲーション処理を終了する。

＜第２実施形態＞
次に、本発明の第２の実施形態に係る音声入力処理装置について説明する。
本音声入力処理装置では、図８のステップＳ２１４において、選択された動作情報に従って指定楽曲の再生を行えず、且つ再生を行えない理由が、当該選択された動作情報が示す接続経路に沿って音楽再生機器との接続を行えないというものである場合に、予め定めた所定の条件に従って、上記選択された動作情報が示す接続経路と同様な機能を有する代替の接続経路を選択して、当該音楽再生機器との接続を行う。

これにより、本実施形態に係る音声入力処理装置では、抽出された動作情報が示す接続経路に沿って音楽再生機器との接続を行えない場合でも、接続経路と同様な機能を有する代替の接続経路を選択して接続を行うので、音声入力処理装置としての利便性が向上する。

また、本実施形態に係る音声入力処理装置では、ユーザが第１〜第４外部機器１１０〜１１６のいずれかに対する直接入力（すなわち、当該外部機器に対して直接行った音声コマンドの入力及び又は入力操作）により対応する第１〜第４外部機器１１０〜１１６のいずれかが行った動作の情報を、当該対応する第１〜第４外部機器１１０〜１１６のいずれか取得して、上記音声コマンドの内容の少なくとも一部及び又は前記入力操作の内容の少なくとも一部（例えば、音楽再生動作における指定楽曲の曲名や、ナビゲーション動作における経路探索に用いる指定目的地の地名）と、当該音声コマンド及び又は入力操作に基づいて行った上記対応する第１〜第４外部機器１１０〜１１６のいずれかの動作の内容と、を関連付けた動作情報を、動作履歴として記憶装置１０２に記憶する。そして、動作履歴の動作情報に示す内容として、当該動作情報が、第１〜第４外部機器１１０〜１１６に対する直接入力に基づく動作であるか否かについての直接入力情報を含んでいる。

また、本実施形態に係る音声入力処理装置では、動作履歴の動作情報に示す内容として、更に、再生された楽曲が、例えば楽曲アルバムに含まれる楽曲として自動的に再生されたか否かを示す自動再生情報を含む。

そして、図８のステップＳ２１２のような一の動作情報の選択が、上記直接入力情報及び自動再生情報にも基づいて行われる。

図１０は、第２の実施形態に係る音声入力処理装置の構成を示す図である。なお、図１０において、図２に示す第１の実施形態に係る音声入力処理装置１０と同じ構成要素については、図２における符号と同じ符号を用いるものとし、上述した第１の実施形態に係る音声入力処理装置１０についての説明を援用するものとする。

本音声入力処理装置１０００は、第１の実施形態に係る音声入力処理装置１０と同様の構成を有するが、処理装置１００に代えて処理装置１１００を備える点が異なる。処理装置１１００は、処理装置１００と同様の構成を有するが、全体制御ユニット２００に代えて全体制御ユニット１０１０を有し、オーディオユニット２０２に代えてオーディオユニット１００２を有する点が異なる。オーディオユニット１００２は、オーディオユニット２０２と同様の構成を有するが、音声認識ユニットを有さず、音楽再生ユニット２１８に代えて音楽再生ユニット１０１８を有する点がオーディオユニット２０２と異なる。音楽再生ユニット１０１８は、音楽再生ユニット２１８と同様の構成を有するが、音声認識機能についての動作を行わない点が音楽再生ユニット２１８と異なる

また、全体制御ユニット１０１０は、全体制御ユニット２００と同様の構成を有するが、コマンド処理ユニット２１２に代えてコマンド処理ユニット１０１２に有する点が異なる。

コマンド処理ユニット１０１２は、コマンド処理ユニット２１２と同様の機能を有し、同様の動作を行うが、さらに、ユーザが第１〜第４外部機器１１０〜１１６のいずれかに対する直接入力（すなわち、当該外部機器に対して直接行った音声コマンドの入力及び又は入力操作）により対応する第１〜第４外部機器１１０〜１１６のいずれかが行った動作の情報（直接入力動作情報）を、当該対応する第１〜第４外部機器１１０〜１１６のいずれか取得して、上記音声コマンドの内容の少なくとも一部及び又は前記入力操作の内容の少なくとも一部（例えば、音楽再生動作における指定楽曲の曲名や、ナビゲーション動作における経路探索に用いる指定目的地の地名）と、当該音声コマンド及び又は入力操作に基づいて行った上記対応する第１〜第４外部機器１１０〜１１６のいずれかの動作の内容と、を関連付けた動作情報を、動作履歴として記憶装置１０２に記憶する。そして、動作履歴の動作情報に示す内容として、当該動作情報が、第１〜第４外部機器１１０〜１１６に対する直接入力に基づく動作であるか否かについての「直接入力」情報を含ませる。なお、上記直接入力動作情報は、コマンド処理ユニット１０１２が、例えば、対応する第１〜第４外部機器１１０〜１１６のいずれかが通信ＩＮＦ１０４に接続されたとき、及び又は当該接続後に所定の時間間隔で取得して、記憶装置１０２に記憶させた動作履歴を更新するものとする。

また、コマンド処理ユニット１０１２は、新たな楽曲が再生されたときに、当該楽曲の再生が、例えば楽曲アルバムに含まれる楽曲として自動的に再生されたか否かを示す自動再生情報を、対応する音楽再生機器から取得して、動作履歴を構成する動作情報に、上記自動再生情報を含ませるものとする。

図１１は、コマンド処理ユニット１０１２が作成する、音楽再生動作についての動作履歴の一例を示す図である。図示の表の最も右側の２つの列に示すように、本実施形態における音楽再生動作についての動作履歴を構成する動作情報には、上述した「直接入力」情報と、「自動再生」情報とが含まれている。

コマンド処理ユニット１０１２は、さらに、図７に示す処理に代えて図１２に示す処理を行う点が、コマンド処理ユニット２１２と異なる。図１２に示す処理は、図７に示す処理と同様であるが、ステップＳ１２０のオーディオ再生処理（図８）に代えて、ステップＳ４２０において、図１３に示すオーディオ再生処理２を実行する点が異なる。なお、図１２及び図１３においては、それぞれ図７及び図８に示すステップと同様の処理を行うステップについては同じ符号を用いて示すものとし、上述した図７及び図８についての説明を援用するものとする。

図１３に示すオーディオ再生処理２は、図８に示すオーディオ再生処理と同様であるが、ステップＳ２１２、Ｓ２１４に代えてステップＳ５１２、Ｓ５１４を実行する点、及びステップＳ５１６が追加されている点が異なる。

以下、図１３に示すオーディオ再生処理２の処理のうち、図８に示すオーディオ再生処理と異なる上記のステップＳ５１２、Ｓ５１４、Ｓ５１６について説明する。

コマンド処理ユニット１０１２は、ステップＳ２１０において、指定楽曲の曲名を含む複数の動作情報が動作履歴から抽出されたと判断されるときに（Ｓ２１０、Ｙｅｓ）、図１１に示す動作履歴の「頻度」列及び又は「最終使用日」列の情報に加えて、「音声認識機能」列、「自動再生」列、及び「直接入力」列の情報にも基づいて、所定の条件に従い、上記抽出された複数の動作情報から一の動作情報を選択する（Ｓ５１２）。

上記所定の条件は、例えば、いずれかの音声認識動作に基づいて行われた動作の動作情報（図１１に示す動作履歴の「音声認識機能」列が「使用しない」でない動作情報）を、いずれかの音声認識動作に基づかない動作の動作情報（「音声認識機能」列が「使用しない」である動作情報。すなわち、操作スイッチ１７６やディスプレイ１７４のタッチパネルへの手動の入力操作により行われた動作の動作情報）よりも優先的に選択することを規定する条件を含むものとすることができる。

また、上記所定の条件は、再生された楽曲（図１１に示す動作履歴の「再生楽曲名」列に示す曲名の楽曲）が自動的に再生されたものでないことを示している動作情報（「自動再生」列がＮｏである動作情報）を、自動的に再生されたものであることを示している動作情報（「自動再生」列がＹｅｓである動作情報）よりも優先的に選択することを規定する条件を含むものとすることができる。

さらに、上記所定の条件は、第１〜第４外部機器１１０〜１１６のいずれかから取得した情報に基づく動作情報（図１１に示す動作履歴の「直接入力」列がＹｅｓである動作情報）に優先して、第１〜第４外部機器１１０〜１１６のいずれかから取得した情報に基づく動作情報以外の動作情報（「直接入力」列がＮｏである動作情報）を選択することを規定する条件を含むものとすることができる。

また、コマンド処理ユニット１０１２は、ステップＳ５１４において、抽出された動作情報に従って指定楽曲を再生することが不可能と判断されるときは（Ｓ５１４、Ｎｏ）、代替接続処理を実行して（Ｓ５１６）、オーディオ再生処理２を終了する。

次に、図１３のステップＳ５１６の代替接続処理の手順について、図１４に示すフロー図に従って説明する。
処理を開始すると、コマンド処理ユニット１０１２は、まず、対象の音楽再生機器が通信ＩＮＦ１０４に接続されているか否かを判断し（Ｓ６００）、接続されていないときは（Ｓ６００、Ｎｏ）、主音声認識ユニット２１０により、ステップＳ１０８において記憶装置１０２に保存した入力音声全体の音声認識を行った後（Ｓ６０２）、代替接続処理を終了する。なお、ステップＳ６０２において、第１通信ＩＮＦ２４０を介して音声認識機能を有する外部サーバと接続可能であるときは、ステップＳ１０８において記憶装置１０２に保存した入力音声を当該外部サーバへ送信して音声認識を行うものとしてもよい。

一方、ステップＳ６００において、対象の音楽再生機器が通信ＩＮＦ１０４に接続されていると判断されるときは（Ｓ６００、Ｙｅｓ）、当該対象の音楽再生機器に対し、ステップＳ２０６又はＳ５１２において抽出された動作情報に示された接続経路に代えて使用することのできる接続経路（代替接続経路）を用いて通信接続を行うことが可能か否かを判断する（Ｓ６０４）。この判断は、例えば、第１〜第５通信ＩＮＦ２４０〜２４８に接続されている各機器に識別ＩＤの送信を要求する信号を送信し、各機器から返信される識別ＩＤの中に上記対象とする音楽再生機器の識別ＩＤが含まれているか否かにより判断することができる。すなわち、対象とする音楽再生機器の識別ＩＤが含まれていれば、少なくとも当該識別ＩＤが返信されてきた経路を代替接続経路として用いることができると判断できる。

そして、代替接続経路を用いて対象の音楽再生機器との通信接続を行うことができないと判断されるときは（Ｓ６０４、Ｎｏ）、ステップＳ６０２に処理を移して代替接続処理を終了する。一方、代替接続経路を用いて対象の音楽再生機器との通信接続を行うことが可能であると判断されるときは（Ｓ６０４、Ｙｅｓ）、予め定めた所定の条件に従い、代替接続経路を決定する（Ｓ６０６）。

当該所定の条件は、例えば、「対応する動作情報が示す動作が、第１〜第４外部機器１１０〜１１６のいずれかを音楽再生機器とするものであって、当該音楽再生機器が有する音声認識機能に基づいて行われたものであるときは、当該音楽再生機器が有する音声認識機能の動作を行わせることが可能な接続経路を選択する」ことを規定するものであるものとすることができる。例えば、図１１に示す動作履歴において、「再生楽曲名」列に「曲名２」を含む動作情報では、ID2-002の識別ＩＤを持つ第２外部機器１１２を音楽再生機器とし（「音楽再生」列参照）、当該音楽再生機器である第２外部機器１１２の音声認識機能を用いて音楽再生が行われている（「音声認識」列参照）。この場合、ID2-002の識別ＩＤを持つ第２外部機器１１２が第４通信ＩＮＦ２４６に接続されておらず、例えばBluetooth通信インタフェースである第２通信ＩＮＦ２４２に接続されている場合には、音声認識機能についての動作を行わないオーディオユニット１００２をプラットフォームに用いることなく、例えば第２外部機器１１２の音声認識機能を動作させ得る第２外部機器制御ユニット２０８をプラットフォームとする第２通信ＩＮＦ２４２を介した接続経路を代替接続経路として選択する。

次に、コマンド処理ユニット１０１２は、抽出された動作情報が、指定楽曲の再生に際して音声認識機能を使用することを示しているか否かを判断する（Ｓ６０８）。当該判断は、例えば、図１１に示す動作履歴から動作情報が抽出される場合には、図示の表の右から４番目の「音声認識機能」列に示された情報に基づいて行うことができる。

そして、音声認識機能の使用が指定されているときは（Ｓ６０８、Ｙｅｓ）、図７のステップＳ１０８において記憶装置１０２に保存した入力音声を、ステップＳ６０６において決定された代替接続経路を介して、動作情報が示す音声認識機能を提供する機器又はユニット（図１１に示す動作履歴の表の、右から４番目の「音声認識機能」列に示された機器又はユニット）に送信して（Ｓ６１０）、代替接続処理を終了する。これにより、当該入力音声を受信した音楽再生機器は、当該入力音声に対して音声認識を行い、当該入力音声に含まれるコマンドに従って、指定楽曲を再生することができる。

一方、ステップＳ６０８において、抽出された動作情報に音声認識機能の使用が指定されていないときは（Ｓ６０８、Ｎｏ）、抽出された動作情報に従って、指定の音楽再生機器により指定楽曲を再生するための動作指示信号を生成し（Ｓ６１２）、当該動作指示信号を、ステップＳ６０６において決定した代替接続経路を介して、上記指定の音楽再生機器へ送信して（Ｓ６１４）、代替接続処理を終了する。

以上説明したように、第１及び第２の実施形態に係る音声入力処理装置１０、１０００は、入力された音声の内容を主音声認識部２１０により認識して当該音声に含まれるコマンドを抽出し、操作スイッチ１７６及び又はディスプレイ１７４のタッチスクリーンにより入力される動作指示情報及び又は上記抽出されたコマンドに基づいて、コマンド処理ユニット２１２、１０１２により、例えば自装置が行う音楽再生動作やナビゲーション動作を制御し及び又は第１〜第４外部機器１１０〜１１６に音楽再生動作やナビゲーション動作を指示する。また、コマンド処理ユニット２１２、１０１２は、上記動作指示情報の少なくとも一部及び又は前記コマンドの内容の少なくとも一部（例えば、音楽再生動作に用いる楽曲の曲名又はナビゲーション動作における経路探索に用いる目的地の地名）と、当該動作指示情報及び又はコマンドに基づいて行った自装置及び又は第１〜第４外部機器１１０〜１１６の動作（音楽再生動作やナビゲーション動作）の内容と、を関連付けた動作情報を、動作履歴として記憶装置１０２に記憶する。そして、コマンド処理ユニット２１２、１０１２は、新たな音声が入力されたときは、主音声認識ユニット２１０により抽出されるコマンドの内容の少なくとも一部が含まれる動作情報を動作履歴から抽出し、上記抽出されるコマンドと上記抽出した動作情報とに基づいて自装置の動作を制御し及び又は第１〜第４外部機器１１０〜１１６に動作を指示する。

これにより、音声入力処理装置１０、１０００では、簡略化された音声コマンド（例えば、楽曲名や目的地の地名のみを指定する音声コマンド）の使用を可能とし、且つ自装置が備える音声認識機能（例えば、音声認識ユニット２１０、２１６、２２２、２２８、２３４が行う音声認識機能）や外部機器が備える音声認識機能（例えば、第１、第２外部機器１１０、１１２の音声認識ユニット１４０、１４２による音声認識機能）の動作競合を防止してそれら機能の実行を適切に管理することができる。

１０、１０００・・・音声入力処理装置、１００、１３０、１３２、１３４、１３６、１１００・・・処理装置、１０２・・・記憶装置、１０４、１２０、１２２、１２４、１２６・・・通信インタフェース（通信ＩＮＦ）、１０６・・・ＨＭＩインタフェース（ＨＭＩ−ＩＮＦ）、１１０・・・第１外部機器、１１２・・・第２外部機器、１１４・・・第３外部機器、１１６・・・第４外部機器、１４０、１４２、２１６、２２２、２２８、２３４・・・音声認識ユニット、１４４、１４６、１５０、１５２・・・機能制御ユニット、１６０ａ、１６０ｂ・・・ＥＣＵ、１７０・・・マイクロフォン、１７２・・・スピーカ、１７４・・・ディスプレイ、１７６・・・操作スイッチ、２００、１０１０・・・全体制御ユニット、２０２、１００２・・・オーディオユニット、２０４・・・ナビゲーションユニット、２０６・・・第１外部機器制御ユニット、２０８・・・第２外部機器制御ユニット、２１０・・・主音声認識ユニット、２１２、１０１２・・・コマンド処理ユニット、２１８、１０１８・・・音楽再生ユニット、２２４・・・経路探索ユニット、２３０、２３６・・・機器通信処理ユニット、２４０・・・第１通信インタフェース（第１通信ＩＮＦ）、２４２・・・第２通信インタフェース（第２通信ＩＮＦ）、２４４・・・第３通信インタフェース（第３通信ＩＮＦ）、２４６・・・第４通信インタフェース（第４通信ＩＮＦ）、２４８・・・第５通信インタフェース（第５通信ＩＮＦ）。

Claims

入力された音声の内容を認識して当該音声に含まれるコマンドを抽出する第１の音声認識部と、
入力される動作指示情報及び又は前記抽出されたコマンドに基づいて、自装置の動作を制御し及び又は外部機器に動作を指示する制御部と、
を備え、
前記制御部は、
前記動作指示情報の少なくとも一部及び又は前記コマンドの内容の少なくとも一部と、当該動作指示情報及び又はコマンドに基づいて行った自装置及び又は前記外部機器の動作の内容と、を関連付けた動作情報を、動作履歴として記憶装置に記憶し、
新たな音声が入力されたときは、
前記第１の音声認識部により抽出されるコマンドの内容の少なくとも一部が含まれる前記動作情報を、前記動作履歴から抽出し、
前記抽出されるコマンドと前記抽出した動作情報とに基づいて自装置の動作を制御し及び又は前記外部機器に動作を指示する、
音声入力処理装置。
前記動作指示情報は、ユーザの操作により情報が入力される操作入力部から取得される情報である、
請求項１に記載の音声入力処理装置。
前記制御部は、前記外部機器に対し動作を指示する動作指示信号を送信し、及び又は、前記外部機器が音声認識機能を有し且つ音声を送信し得るように自装置と接続されているときは、当該外部機器に対し前記入力された音声を送信して、当該外部機器に動作を指示する、
請求項１又は２に記載の音声入力処理装置。
前記第１の音声認識部と異なる少なくとも一つの第２の音声認識部を有し、
前記制御部は、前記第２の音声認識部の少なくとも一つに前記入力された音声を送信して、自装置の動作を制御する、
請求項１ないし３のいずれか一項に記載の音声入力処理装置。
前記制御部は、前記動作履歴から抽出される前記動作情報が複数あるときは、予め定めた所定の条件に従って当該複数の動作情報から一の動作情報を選択し、当該選択した一の動作情報と前記抽出されるコマンドとに基づいて自装置の動作を制御し及び又は前記外部機器に動作を指示する、
請求項１ないし４のいずれか一項に記載の音声入力処理装置。
前記動作情報には、前記第２の音声認識部及び前記外部機器が有する音声認識機能のいずれかの音声認識動作に基づいて行われた動作か否かについての情報を含み、
前記所定の条件は、前記いずれかの音声認識動作に基づいて行われた動作の前記動作情報を、当該いずれかの音声認識動作に基づかない動作の前記動作情報よりも優先的に選択することを規定するものである、
請求項５に記載の音声入力処理装置。
前記動作情報は、音楽再生動作に関する動作情報であって、
前記動作情報は、再生された楽曲が、自動的に再生されたものであるか否かを示す情報を含み、
前記所定の条件は、前記再生された楽曲が自動的に再生されたものでないことを示している前記動作情報を、自動的に再生されたものであることを示している前記動作情報よりも優先的に選択することを規定するものである、
請求項６に記載の音声入力処理装置。
前記制御部は、前記外部機器に対して直接行われた音声コマンドの入力及び又は直接に行われたユーザによる入力操作により当該外部機器が行った動作の情報を当該外部機器から取得して、
前記音声コマンドの内容の少なくとも一部及び又は前記入力操作の内容の少なくとも一部と、当該音声コマンド及び又は入力操作に基づいて行った前記外部機器の動作の内容と、を関連付けた動作情報を、動作履歴として記憶装置に記憶する、
請求項５ないし７のいずれか一項に記載の音声入力処理装置。
前記所定の条件は、前記外部機器から取得した情報に基づく前記動作情報に優先して、当該外部機器から取得した情報に基づく前記動作情報以外の前記動作情報を選択することを規定するものである、
請求項８に記載の音声入力処理装置。
前記動作情報には、動作に用いられた外部機器の識別情報と、当該外部機器との接続経路に関する情報と、を含み、
前記制御部は、前記動作履歴から抽出される前記動作情報の前記識別情報が示す前記外部機器に対し、当該動作情報が示す接続経路と同じ接続経路を用いて動作指示を与えることができるか否かを判断し、できない場合には、予め定めた基準に従って代替となる接続経路を選択し、当該選択した代替の接続経路を用いて当該外部機器に動作を指示する、
請求項１ないし９のいずれか一項に記載の音声入力処理装置。
前記動作情報には、前記外部機器が有する音声認識機能の音声認識動作に基づいて行われた動作か否かについての情報を含み、
前記代替となる接続経路には、前記動作履歴から抽出される前記動作情報が示す動作が、当該動作を行うべき前記外部機器が有する音声認識動作に基づいて行われた動作であるときは、当該動作を行うべき前記外部機器が有する音声認識機能の音声認識動作を行わせることが可能な接続経路が選択される、
請求項１０に記載の音声入力処理装置。