JP2017146437A - 音声入力処理装置 - Google Patents

音声入力処理装置 Download PDF

Info

Publication number
JP2017146437A
JP2017146437A JP2016027720A JP2016027720A JP2017146437A JP 2017146437 A JP2017146437 A JP 2017146437A JP 2016027720 A JP2016027720 A JP 2016027720A JP 2016027720 A JP2016027720 A JP 2016027720A JP 2017146437 A JP2017146437 A JP 2017146437A
Authority
JP
Japan
Prior art keywords
information
voice
input
voice recognition
external device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016027720A
Other languages
English (en)
Inventor
陽介 淵脇
Yosuke Fuchiwaki
陽介 淵脇
伸昭 浅原
Nobuaki Asahara
伸昭 浅原
敦行 鈴木
Atsuyuki Suzuki
敦行 鈴木
祐介 中村
Yusuke Nakamura
祐介 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2016027720A priority Critical patent/JP2017146437A/ja
Priority to KR1020170018436A priority patent/KR20170096947A/ko
Priority to US15/432,058 priority patent/US10424298B2/en
Publication of JP2017146437A publication Critical patent/JP2017146437A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Mechanical Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声コマンドにより外部機器を制御する音声入力処理装置において、簡略な音声コマンドの使用を可能とし、音声認識機能の動作競合を防止する。【解決手段】入力音声に含まれるコマンドを抽出する音声認識部と、入力される動作指示情報及び又は抽出されたコマンドに基づいて、自装置の動作を制御し及び又は外部機器に動作を指示する制御部と、を備える。制御部は、前記動作指示情報の少なくとも一部及び又は前記コマンドの内容の少なくとも一部と、当該動作指示情報及び又はコマンドに基づいて行った動作の内容と、を関連付けた動作情報を、動作履歴として記憶し、新たな音声が入力されたときは、音声認識部により抽出されるコマンドの内容の少なくとも一部が含まれる前記動作情報を動作履歴から抽出し、抽出されるコマンドと抽出した動作情報とに基づいて自装置の動作を制御し及び又は外部機器に動作を指示する。【選択図】図2

Description

本発明は、ユーザが発した音声を受信して処理を行う音声入力処理装置に関し、特に、ユーザが音声により入力するコマンドを音声認識処理して当該コマンドに応じた処理を行う音声入力処理装置に関する。
従来、ユーザが発した音声についての音声認識に関する処理を行う車載の装置として、オーディオ、エアコン等の車載機器のそれぞれに対応して当該車載機器の操作に関連した単語が登録された複数の辞書を備え、運転者の音声入力内容から操作対象機器を推定して、当該推定した機器に対応する辞書を切り替えることで、当該切り替えられた辞書を使用した音声認識を行う音声認識ユニットを搭載した、車両用走行支援装置が知られている(特許文献1)。
ところで、近年においては、車両内に持ち込まれたスマートフォン等の一つ又は複数の携帯機器と、当該車両が備える音響映像装置(例えば、いわゆるディスプレイ・オーディオ(DA)装置)とを有線通信及び又は無線通信で接続し、携帯機器と音響映像装置とが協働することで、それぞれが有する機能が、車載のHMIデバイス(マイクやスピーカ等々)を介してユーザに提供される、車両内AV(Audio Visual)システムが知られている。
音響映像装置に接続されるこれら携帯機器には、ナビゲーション機能や楽曲再生機能など、他の車載装置や音響映像装置自身が備える機能と同種の機能を有するものがあり、さらには、一の携帯機器に対して、USB(Universal Serial Bus)を介した接続やBluetooth(登録商標)による接続など、複数種類の接続形態に対応可能なものがある。
このため、例えば複数の携帯機器を音響映像装置に接続した状態で所望の楽曲を再生する際には、再生を所望する楽曲名のほか、当該再生を行う機器又は装置の識別名、当該機器又は装置と車載装置との接続形態など、種々の情報を付加したコマンドを音響映像装置に入力する必要が生ずる。また、音響映像装置においてアプリケーションプログラムを実行することにより携帯機器を制御する専用プラットフォームを音響映像装置内に実現して、当該携帯機器のきめ細かな動作制御を行う車両内AVシステム(例えば、Apple CarPlay(登録商標)やAndroid Auto(登録商標))も知られており、そのような複数のプラットフォームを音響映像装置において実行可能な場合には、例えば楽曲再生を行うための上記コマンドに、いずれのプラットフォームを介した再生を行うかの指定も含める必要が生ずる。
このため、音声映像装置に上記従来の車両用走行支援装置と同様の音声認識機能を備えたとしても、ユーザにとっては、例えば楽曲を再生するたびに、再生機器や接続形態やプラットフォーム等の全ての選択肢についての指定を含む音声コマンドを音響映像装置に入力することとなり、煩わしい冗長な音声コマンドの発声が必要となって、システムとしての利便性は低いものとなる。
また、近年では、音声映像装置が備える音声認識エンジンのほか、当該音声映像装置に接続された各携帯機器が備える音声認識エンジンも利用可能であり、一のユーザ発話に対して各機器の音声認識機能が同時に応答しないように(すなわち、動作競合が生じないように)動作管理を行う必要がある。また、コンピュータとしての音声映像装置が種々のアプリケーションを実行して様々な機能を提供する場合には、各アプリケーション毎に(例えばナビゲーション・アプリケーションや上記プラットフォーム毎に)音声認識エンジンがソフトウェアとしてインストールされる場合があり、音声映像装置内に実現される各音声認識エンジンと、当該装置に接続された外部の携帯機器が備える音声認識エンジンと、を含めた全体としての動作管理が必要となり得る。
上記のような音声認識動作の競合を解決する一つの方法として、ユーザがスイッチ等を操作することで、使用する音声認識エンジン(又は、使用する音声認識エンジンを備える機器)を指定することもできるが、その場合には、使用機器を変更する毎に(又は、機能の提供開始を指示する毎に)スイッチ操作を行わなければならず、利便性の点で好ましくない。
また、音声認識動作の競合を解決する他の方法として、車載装置が備える一の音声認識エンジンのみを用いるものとすることもできるが、その場合には、当該車載装置に予め備えられた認識辞書の範囲で音声認識が行われることとなる。その結果、例えば新たな携帯機器を接続して使用する場合には、当該機器の機能選択や機能指示に特化された当該機器が備える音声認識辞書を利用することはできず、当該機器に適した細かな指示や設定を音声によって行うことは困難となり得る。すなわち、上記従来の装置の構成を利用して一の音声認識エンジンのみを使用する手法では、当該装置に接続された携帯機器毎の特性や個性に応じた音声コマンドの利用が制限されることとなり得る。
特開2009−20569号公報
上記背景より、自装置に接続された複数の外部機器の動作を、ユーザが発する音声コマンドを認識して制御する音声入力処理装置において、簡略化された音声コマンドの使用を可能とし、且つ自装置や外部機器が備える音声認識機能の実行を適切に管理することが望まれている。
本発明の位置の態様は、入力された音声の内容を認識して当該音声に含まれるコマンドを抽出する第1の音声認識部と、入力される動作指示情報及び又は前記抽出されたコマンドに基づいて、自装置の動作を制御し及び又は外部機器に動作を指示する制御部と、を備える音声入力処理装置である。前記制御部は、前記動作指示情報の少なくとも一部及び又は前記コマンドの内容の少なくとも一部と、当該動作指示情報及び又はコマンドに基づいて行った自装置及び又は前記外部機器の動作の内容と、を関連付けた動作情報を、動作履歴として記憶装置に記憶し、新たな音声が入力されたときは、前記第1の音声認識部により抽出されるコマンドの内容の少なくとも一部が含まれる前記動作情報を、前記動作履歴から抽出し、前記抽出されるコマンドと前記抽出した動作情報とに基づいて自装置の動作を制御し及び又は前記外部機器に動作を指示する。
本発明の他の態様によると、前記動作指示情報は、ユーザの操作により情報が入力される操作入力部から取得される情報である。
本発明の他の態様によると、前記制御部は、前記外部機器に対し動作を指示する動作指示信号を送信し、及び又は、前記外部機器が音声認識機能を有し且つ音声を送信し得るように自装置と接続されているときは、当該外部機器に対し前記入力された音声を送信して、当該外部機器に動作を指示する。
本発明の他の態様によると、前記第1の音声認識部と異なる少なくとも一つの第2の音声認識部を有し、前記制御部は、前記第2の音声認識部の少なくとも一つに前記入力された音声を送信して、自装置の動作を制御する。
本発明の他の態様によると、前記制御部は、前記動作履歴から抽出される前記動作情報が複数あるときは、予め定めた所定の条件に従って当該複数の動作情報から一の動作情報を選択し、当該選択した一の動作情報と前記抽出されるコマンドとに基づいて自装置の動作を制御し及び又は前記外部機器に動作を指示する。
本発明の他の態様によると、前記動作情報には、前記第2の音声認識部及び前記外部機器が有する音声認識機能のいずれかの音声認識動作に基づいて行われた動作か否かについての情報を含み、前記所定の条件は、前記いずれかの音声認識動作に基づいて行われた動作の前記動作情報を、当該いずれかの音声認識動作に基づかない動作の前記動作情報よりも優先的に選択することを規定するものである。
本発明の他の態様によると、前記動作情報は、音楽再生動作に関する動作情報であって、前記動作情報は、再生された楽曲が、自動的に再生されたものであるか否かを示す情報を含み、前記所定の条件は、前記再生された楽曲が自動的に再生されたものでないことを示している前記動作情報を、自動的に再生されたものであることを示している前記動作情報よりも優先的に選択することを規定するものである。
本発明の他の態様によると、前記制御部は、前記外部機器に対して直接行われた音声コマンドの入力及び又は直接に行われたユーザによる入力操作により当該外部機器が行った動作の情報を当該外部機器から取得して、前記音声コマンドの内容の少なくとも一部及び又は前記入力操作の内容の少なくとも一部と、当該音声コマンド及び又は入力操作に基づいて行った前記外部機器の動作の内容と、を関連付けた動作情報を、動作履歴として記憶装置に記憶する。
本発明の他の態様によると、前記所定の条件は、前記外部機器から取得した情報に基づく前記動作情報に優先して、当該外部機器から取得した情報に基づく前記動作情報以外の前記動作情報を選択することを規定するものである。
本発明の他の態様によると、前記動作情報には、動作に用いられた外部機器の識別情報と、当該外部機器との接続経路に関する情報と、を含み、前記制御部は、前記動作履歴から抽出される前記動作情報の前記識別情報が示す前記外部機器に対し、当該動作情報が示す接続経路と同じ接続経路を用いて動作指示を与えることができるか否かを判断し、できない場合には、予め定めた基準に従って代替となる接続経路を選択し、当該選択した代替の接続経路を用いて当該外部機器に動作を指示する。
本発明の他の態様によると、前記動作情報には、前記外部機器が有する音声認識機能の音声認識動作に基づいて行われた動作か否かについての情報を含み、前記代替となる接続経路には、前記動作履歴から抽出される前記動作情報が示す動作が、当該動作を行うべき前記外部機器が有する音声認識動作に基づいて行われた動作であるときは、当該動作を行うべき前記外部機器が有する音声認識機能の音声認識動作を行わせることが可能な接続経路が選択される。
本発明の第1の実施形態に係る音声入力処理装置を用いた車載システムの構成を示す図である。 図1に示す第1の実施形態に係る音声入力処理装置の構成を示す図である。 図2に示す音声入力処理装置における、音楽再生動作の動作情報の項目と各項目における選択肢の一例を示す図である。 図2に示す音声入力処理装置における、音楽再生動作の動作履歴の一例を示す図である。 図2に示す音声入力処理装置における、ナビゲーション動作の動作情報の項目と各項目における選択肢の一例を示す図である。 図2に示す音声入力処理装置における、ナビゲーション動作の動作履歴の一例を示す図である。 図2に示す音声入力処理装置における、全体制御ユニットの動作の手順を示すフロー図である。 図7に示すフロー図におけるオーディオ再生処理の手順を示すフロー図である。 図7に示すフロー図におけるナビゲーション処理の手順を示すフロー図である。 本発明の第2の実施形態に係る音声入力処理装置の構成を示す図である。 図10に示す音声入力処理装置における、音楽再生動作の動作履歴の一例を示す図である。 図10に示す音声入力処理装置における、全体制御ユニットの動作の手順を示すフロー図である。 図12に示すフロー図におけるオーディオ再生処理2の手順を示すフロー図である。 図13に示すフロー図における代替接続処理の手順を示すフロー図である。
以下、図面を参照して、本発明の実施の形態を説明する。
以下に示す第1及び第2の実施形態に係る音声入力処理装置は、例えば車両に搭載される音響映像装置(例えば、ディスプレイ・オーディオ(DA)装置)として実現され得るが、本発明は、これに限らす、複数の一般機器の動作を音声コマンドにより制御する音声入力処理装置に広く適用することができる。
<第1実施形態>
まず、本発明の第1の実施形態に係る音声入力処理装置について説明する。
図1は、本発明の第1の実施形態に係る音声入力処理装置を用いた車載システムの構成を示す図である。
音声入力処理装置10は、車両(以下、ホスト車両という)の内部に搭載され、処理装置100と、記憶装置102と、ホスト車両内に持ち込まれた第1外部機器110、第2外部機器112、第3外部機器114、及び第4外部機器116と通信するための通信インタフェース(通信INF)104と、を備える。
ここで、第1〜第4外部機器110〜116は、例えばスマートフォン等の多機能携帯端末、あるいはポータブルPC(Personal Computer)等の携帯端末であるものとすることができる。第1〜4外部機器110〜116は、それぞれ、音声入力処理装置10と通信するための通信インタフェース(通信INF)120、122、124、126と、処理装置130、132、134、136と、を備える。
第1及び第2外部機器110、112の処理装置130、132は、それぞれの外部機器が備えるマイクロフォン(不図示)から入力される音声又は通信INF120、122を介して入力される音声を認識する音声認識ユニット140、142と、それぞれの外部機器が備える機能を制御する機能制御ユニット144、146を備える。また、第3及び第4外部機器114、116の処理装置134、136は、それぞれの外部機器が備える機能を制御する機能制御ユニット150、152を備える。
本実施形態では、第1外部機器110は、例えば多機能携帯機器iPhone(登録商標)であり、音声入力処理装置10との間が、BluetoothとLightening(登録商標)ケーブルとで接続されている。また、第2外部機器112は、例えば多機能携帯機器Nexus(登録商標)であり、音声入力処理装置10との間が、BluetoothとUSBケーブルとで接続されている。また、第3外部機器114及び第4外部機器116と音声入力処理装置10との間は、それぞれUSBケーブル及びBluetoothで接続されている。
なお、本実施形態では第1〜第4外部機器110〜116の4つの外部機器が音声入力処理装置10に接続されるものとしたが、これに限らず、音声入力処理装置10には任意の数の外部機器が接続されるものとすることができる。
音声入力処理装置10は、また、通信INF104を介して、ホスト車両に設けられた電子制御ユニット(ECU、Electronic Control Unit)160a、160bと通信(例えば、CAN(Controller Area Network)バス通信)を行う。ECU160a、160bは、ホスト車両が備える機能の一部(例えば、窓の開閉、ワイパーのオンオフ、ヘッドランプの点灯など)を実行する。なお、本実施形態ではECU160a、160bの2つのECUが音声入力処理装置10に接続されるものとしたが、これに限らず、音声入力処理装置10には任意の数のECUが接続されるものとすることができる。
音声入力処理装置10は、また、通信INF104を介して外部サーバ(不図示)と通信することができ、例えば、外部サーバに入力音声を送信し、当該外部サーバが行う当該入力音声についての音声認識の結果を当該外部サーバから受信することができる。
音声入力処理装置10は、さらに、車載のマイクロフォン170、スピーカ172、ディスプレイ174、操作スイッチ176などのヒューマンインタフェースデバイスと通信するためのHMIインタフェース(HMI−INF)106も有している。
ディスプレイ174は、例えばタッチパネル(不図示)を備えた液晶表示ディスプレイを含むものとすることができる。音声入力処理装置10は、HMI−INF106を介して、ユーザがディスプレイ174のタッチパネルに入力した情報やコマンドを受信することができる。
操作スイッチ176は、ナビゲーションユニット204、ECU160a、160b、第1〜第4外部機器110〜116の動作に関する指示情報をユーザが入力するための一つ又は複数のスイッチにより構成されている。なお、操作スイッチ176は、ディスプレイ174に表示されてタッチパネルによりオン・オフされるボタンにより構成されるものとすることもできる。
なお、以下では、操作スイッチ176及び又はディスプレイ174のタッチパネルを介して入力されるナビゲーションユニット204、ECU160a、160b、第1〜第4外部機器110〜116の動作に関する指示情報を、動作指示情報と称する。また、操作スイッチ176及び又はディスプレイ174のタッチパネル(不図示)は、ユーザの操作により情報が入力される操作入力部に対応する。
第1〜第4外部機器110〜116が備える処理装置130〜136は、例えば、CPU(Central Processing Unit)等のプロセッサ、プログラムが書き込まれたROM(Read Only Memory)、データの一時記憶のためのRAM(Random Access Memory)等を有するコンピュータであり、音声認識ユニット140と機能制御ユニット144、音声認識ユニット142と機能制御ユニット146、機能制御ユニット150、及び機能制御ユニット152は、それぞれ、例えばコンピュータである処理装置130〜136がコンピュータ・プログラムを実行されることにより実現される。
図2は、本実施形態に係る音声入力処理装置10の構成を示す図である。本音声入力処理装置10の処理装置100は、例えば、CPU等のプロセッサ、プログラムが書き込まれたROM、データの一時記憶のためのRAM等を有するコンピュータであり、全体制御ユニット200と、オーディオユニット202と、ナビゲーションユニット204と、第1外部機器制御ユニット206と、第2外部機器制御ユニット208と、を有している。処理装置100が有する上記各ユニットは、例えばコンピュータである処理装置100がコンピュータ・プログラムを実行されることにより実現される。
全体制御ユニット200は、主音声認識ユニット210とコマンド処理ユニット212とを備える。主音声認識ユニット210は、HMI−INF106を介してマイクロフォン170から入力された音声を記憶装置102に記憶すると共に、当該入力された音声(入力音声)に対し音声認識処理を実行して、当該入力音声からコマンドを抽出する。
コマンド処理ユニット212は、操作スイッチ176から入力される動作指示情報に基づき、HMI−INF106を介してマイクロフォン170から取得された音声を、主音声認識ユニット210、オーディオユニット202、ナビゲーションユニット204、第1外部機器制御ユニット206、及び又は第2外部機器制御ユニット208のいずれかに選択的に入力すると共に、ディスプレイ174のタッチパネルから入力される動作指示情報を、オーディオユニット202、ナビゲーションユニット204、第1外部機器制御ユニット206、及び又は第2外部機器制御ユニット208のいずれかに選択的に入力する。
また、コマンド処理ユニット212は、主音声認識ユニット210により抽出されたコマンドと、HMI−INF106を介して操作スイッチ176及び又はディスプレイ174のタッチパネルから取得される動作指示情報と、に基づいて、上記抽出されたコマンド及び上記動作指示情報により特定される動作の実行を、オーディオユニット202、ナビゲーションユニット204、ECU160a、160b、第1〜第4外部機器110〜116のいずれかに指示する。ここで、コマンド処理ユニット212による上記動作の実行指示は、当該指示のための信号(動作指示信号)を当該動作に関連するユニット又は機器(オーディオユニット202、ナビゲーションユニット204、ECU160a、160b、第1〜第4外部機器110〜116のいずれか)に出力すること、及び又は記憶装置102に記憶した入力音声を当該動作に関連するユニット又は機器(オーディオユニット202、ナビゲーションユニット204又は第1、第2外部機器110、112のいずれか)に出力することにより行われる。
コマンド処理ユニット212は、さらに、第1〜第4外部機器110〜114から出力される音情報及び又は画像情報を、HMI−INF106を介してスピーカ172及び又はディスプレイ174に出力する機能を有する。
オーディオユニット202は、処理装置100がアプリケーションプログラムを実行することにより実現され、音声認識ユニット216と音楽再生ユニット218と、を備える。音声認識ユニット216は、HMF―INF106を介してマイクロフォン170から入力される入力音声、又は全体制御ユニット200のコマンド処理ユニット212から与えられる入力音声に対し音声認識処理を行い、当該入力音声に含まれる動作指示を抽出する。
音楽再生ユニット218は、音声認識ユニット216が抽出した動作指示、及び又は操作スイッチ176若しくはディスプレイ174のタッチパネルから入力される動作指示情報、及び又は全体制御ユニット200のコマンド処理ユニット212から与えられる動作信号に基づいて、上記動作指示、操作指示情報、及び又は動作信号が示す楽曲の指定及び再生方法の指定等(イコライザ設定、繰り返し再生等)に従い、例えば記憶装置102に予め記憶された楽曲の中から当該指定された楽曲を再生し、又は第1〜第4外部機器110〜116に当該指定された楽曲の再生を指示して、再生された当該楽曲をHMI−INF106を介してスピーカ172に出力する。すなわち、オーディオユニット202は、楽曲再生を行う機器として動作するほか、楽曲再生を行う第1〜第4外部機器との間で信号授受を行うプラットフォームとしても機能する。
ナビゲーションユニット204は、処理装置100がアプリケーションプログラムを実行することにより実現され、音声認識ユニット222と経路探索ユニット224と、を備える。音声認識ユニット222は、HMF−INF106を介してマイクロフォン170から入力される入力音声、又は全体制御ユニット200のコマンド処理ユニット212から与えられる入力音声に対し音声認識処理を行い、当該入力音声に含まれる動作指示を抽出する。
経路探索ユニット224は、音声認識ユニット222が抽出した動作指示、及び又は操作スイッチ176若しくはディスプレイ174のタッチパネルから入力される動作指示情報、及び又は全体制御ユニット200のコマンド処理ユニット212から与えられる動作信号に基づいて、上記動作指示、操作指示情報、及び又は動作信号が示す目的地までの経路を探索し、ディスプレイ174等を用いて当該経路についての案内を行う。
経路探索ユニット224は、また、第1〜第4外部機器110〜116が行った経路探索の結果をディスプレイ174等に出力するためのプラットフォームとしても機能する。
第1外部機器制御ユニット206、及び第2外部機器制御ユニット208は、音声入力処理装置10に接続される外部機器の動作を制御するプラットフォームであり、処理装置100がアプリケーションプログラムを実行することにより実現される。
第1外部機器制御ユニット206は、例えば多機能携帯端末iPhone(登録商標)の動作を制御するCarPlay(登録商標)システムのプラットフォームであり、音声認識ユニット228と、機器通信処理ユニット230と、を備える。音声認識ユニット228は、HMF−INF106を介してマイクロフォン170から入力される入力音声、又は全体制御ユニット200のコマンド処理ユニット212から与えられる入力音声に対し音声認識処理を行い、当該入力音声に含まれる動作指示を抽出する。
機器通信処理ユニット230は、音声認識ユニット228が抽出した動作指示、及び又は操作スイッチ176若しくはディスプレイ174のタッチパネルから入力される動作指示情報、及び又は全体制御ユニット200のコマンド処理ユニット212から与えられる動作信号に基づいて、上記動作指示、操作指示情報、及び又は動作信号が示す動作を、例えばLightning(登録商標)ケーブル接続インタフェースである第3通信INF244(後述)を介して、例えば多機能携帯端末iPhone(登録商標)である第1外部機器110に指示する。
機器通信処理ユニット230は、さらに、例えば第1外部機器110から出力される音情報及び又は画像情報を、HMI−INF106を介してスピーカ172及び又はディスプレイ174に出力する機能を有する。
第2外部機器制御ユニット208は、例えば多機能携帯端末Nexus(登録商標)の動作を制御するAdroid Auto(登録商標)システムのプラットフォームであり、音声認識ユニット234と、機器通信処理ユニット236と、を備える。音声認識ユニット234は、HMF−INF106を介してマイクロフォン170から入力される入力音声、又は全体制御ユニット200のコマンド処理ユニット212から与えられる入力音声に対し音声認識処理を行い、当該入力音声に含まれる動作指示を抽出する。
機器通信処理ユニット236は、音声認識ユニット234が抽出した動作指示、及び又は操作スイッチ176若しくはディスプレイ174のタッチパネルから入力される動作指示情報、及び又は全体制御ユニット200のコマンド処理ユニット212から与えられる動作信号に基づいて、上記動作指示、操作指示情報、及び又は動作信号が示す動作を、例えばUSB通信インタフェースである第4通信INF246(後述)、又は例えばBluetooth(登録商標)通信インタフェースである第2通信INF242(後述)を介して、例えば多機能携帯端末Nexus(登録商標)である第2外部機器112に指示する。
機器通信処理ユニット236は、さらに、例えば第2外部機器112から出力される音情報及び又は画像情報を、HMI−INF106を介してスピーカ172及び又はディスプレイ174に出力する機能を有する。
ここで、全体制御ユニット200が備える主音声認識ユニット210は、第1の音声認識部に対応し、オーディオユニット202、ナビゲーションユニット204、第1及び第2外部機器制御ユニット206、208が備える音声認識ユニット216、222、228、234は、第2の音声認識部に対応する。
通信INF104は、外部サーバと無線通信を介して通信するための無線通信インタフェースである第1通信INF240と、例えばBluetooth(登録商標)通信インタフェースである第2通信INF242と、例えば多機能携帯端末iPhone(登録商標)と通信するためのLightning(登録商標)ケーブル接続インタフェースである第3通信INF244と、例えばUSB通信インタフェースである第4通信INF246と、ECU160a、160bと通信するための例えばCANインタフェースである第5通信INF248と、を有している。
なお、本実施形態では、記載を具体的なものとして理解を容易にするため、一例として、第1外部機器制御ユニット206をCarPlay(登録商標)システムのプラットフォーム、第2外部機器制御ユニット206をAdroid Auto(登録商標)システムのプラットフォーム、第1外部機器110を多機能携帯端末iPhone(登録商標)、第2外部機器112を多機能携帯端末Nexus(登録商標)、第2通信INF242をBluetooth(登録商標)通信インタフェース、第3通信INF244をLightning(登録商標)ケーブル接続インタフェース、第4通信INF246をUSB通信インタフェース、であるものとした。このため、CarPlay(登録商標)システムのプラットフォームである第1外部機器制御ユニット206は、Lightning(登録商標)ケーブル接続インタフェースである第3通信INF244を介してのみiPhone(登録商標)である第1外部機器110と通信を行い、Adroid Auto(登録商標)システムのプラットフォームである第2外部機器制御ユニット206は、Bluetooth(登録商標)通信インタフェースである第2通信INF242、又はUSB通信インタフェースである第4通信INF246を介して、多機能携帯端末Nexus(登録商標)である第2外部機器112と通信する。
ただし、これに限らず、第1外部機器制御ユニット206、及び第2外部機器制御ユニット208は、音声入力処理装置10に接続される外部機器の動作を制御するプラットフォームである限りにおいて、第2〜第4通信INF242〜246等の種類の異なる複数の通信インタフェースを介して、それぞれ一つ以上の外部機器との接続を行うものとすることができる。
以下、本実施形態の音声入力処理装置10が行う音楽再生動作とナビゲーション動作を例にとり、処理装置100における動作を更に説明する。
音楽再生動作を行う際には、図3に示すように、当該音楽動作を行わせる機器又はユニットの選択、当該機器との間の信号の接続経路の選択等々について、以下のような事項についての選択を行う必要がある。
(A1)音楽再生を行わせる機器又はユニット(以下、総称して「音楽再生機器」ともいう)についての選択肢として、オーディオユニット202、第1外部機器110、第2外部機器112、第3外部機器114、第4外部機器116が存在し得る。
(A2)音楽再生機器との間の信号の接続経路は、使用するプラットフォーム(使用プラットフォーム)についての選択肢と、通信インタフェースについての選択肢と、で規定される。
(A2−1)使用プラットフォームについての選択肢として、オーディオユニット202、第1外部機器制御ユニット206、第2外部機器制御ユニット208が存在し得る。
(A2−2)通信インタフェースの選択肢として、第2通信INF242(例えばBluetooth通信インタフェース)、第3通信INF244(例えばLightningケーブル通信インタフェース)、第4通信INF246(例えばUSB通信インタフェース)が存在し得る。
(A3)音楽再生機器に対し、音声コマンドを使用するか否か、及び使用する場合は、いずれのユニット又は外部機器が有する音声認識機能を用いるか、についての選択肢が存在し得る。
(A4)再生する楽曲(個別の楽曲の曲名や、楽曲アルバムの名称等)についての選択肢が存在し得る。なお、図3において、図示の表の最右欄の「再生楽曲名」欄における選択肢として示した「楽曲1」「楽曲2」等は、任意の楽曲名であるものとすることができる。
ユーザは、音楽再生の実行指示と、上記各事項の選択肢について指定を、操作スイッチ176及び又はディスプレイ174のタッチスクリーンにより入力する動作指示情報の少なくとも一部、及び又は音声コマンドを用いる場合には当該音声コマンドの少なくとも一部として、全体制御ユニット200に入力することができる((例えば、再生する楽曲の指定を音声コマンドの内容の少なくとも一部として入力し、他の事項の選択肢の指定を動作指示情報の少なくとも一部として入力することができる))。
音声入力処理装置10の全体制御ユニット200は、動作指示情報の少なくとも一部及び又は音声コマンドの少なくとも一部により入力された上記各事項の選択肢の指定に基づき、オーディオユニット202により又は第1〜第4外部機器110〜116の一つを用いて、指定された楽曲の再生を行う。また、全体制御ユニット200は、例えば操作スイッチ176又はディスプレイ174のタッチスクリーンにより学習モード動作が指定されているときは、指定された楽曲の曲名と、楽曲再生動作の内容を示す動作情報(例えば、動作指示情報の少なくとも一部及び又は音声コマンドの少なくとも一部により入力された上記各事項の選択肢の指定)を、動作履歴として記憶装置102に記憶する。
図4は、音楽再生動作に関する動作履歴の一例を示す図である。図示の表の最も右の2つの列に示したように、動作履歴には、図3に示す項目のほか、同じ楽曲が同じ選択肢指定を用いて再生された回数(図4の表の右から2番目の「頻度」列)、及びその楽曲がその選択肢指定を用いて最後に再生された日時(図4の表の最も右側の「最終使用日」列)などの、他の項目も含めることができる。
図4の表において、例えば「曲名1」の行により、当該「曲名1」の楽曲が、例えばLightningケーブル通信インタフェースである第3通信INF244を介して接続された(図示の表の左から4番目の列参照)、ID1−001の識別コード(図示の表の左から2番目の列参照)を持つ第1外部機器110、例えばiPhone(登録商標)機器により、第1外部機器制御ユニット206が提供するプラットフォーム(例えば、CarPlayシステムのプラットフォーム)を介して提供されたことが判る(図示の表の左から3番目の列参照)。また、当該提供にあたり、第1外部機器制御ユニット206が提供する音声認識機能が用いられたこと(図示の表の左から5番目の列参照)、この再生動作が2015年11月1日の8時3分に行われたこと(図示の表の最も右の列参照)、及び同様の再生動作が過去10回行われたこと(図示の表の右から2番目の列参照)、が判る。
また、図4の表において、例えば「曲名2」の行により、当該「曲名2」の楽曲が、例えばUSB通信インタフェースである第4通信INF246を介して接続された(図示の表の左から4番目の列参照)、ID2−002の識別コード(図示の表の左から2番目の列参照)を持つ第2外部機器112、例えばNexus(登録商標)機器により、第2外部機器制御ユニット208が提供するプラットフォーム(例えば、Android Autoシステムのプラットフォーム)を介して提供されたことが判る(図示の表の左から3番目の列参照)。また、当該提供にあたり、第2外部機器制御ユニット208が提供する音声認識機能が用いられたこと(図示の表の左から5番目の列参照)、この再生動作が2015年11月1日の12時31分に行われたこと(図示の表の最も右の列参照)、及び同様の再生動作が過去3回行われたこと(図示の表の右から2番目の列参照)、が判る。
さらに、図4の表において、例えば「曲名100」の行により、当該「曲名100」の楽曲が、例えばBluetooth通信インタフェースである第2通信INF242を介して接続された(図示の表の左から4番目の列参照)、ID2−006の識別コード(図示の表の左から2番目の列参照)を持つ他の第2外部機器112、例えばNexus(登録商標)機器により、オーディオユニット202が提供するプラットフォームを介して提供されたことが判る(図示の表の左から3番目の列参照)。また、当該提供にあたり、ID2−006の識別コードを持つ第2外部機器112自身が有する音声認識機能が用いられたこと(図示の表の左から5番目の列参照)、この再生動作が2015年10月26日の18時12分に行われたこと(図示の表の最も右の列参照)、及び同様の再生動作が過去15回行われたこと(図示の表の右から2番目の列参照)、が判る。
図4に示すような動作履歴を記憶した後、全体制御ユニット200は、ユーザが音声により特定の楽曲の再生を指定したときには、例えば操作スイッチ176又はディスプレイ174のタッチスクリーンにより運用モード動作が指定されていることを条件として、主音声認識ユニット210により当該音声についての音声認識を行って当該楽曲を抽出し、当該楽曲が含まれる動作情報を上記動作履歴から抽出して、当該抽出した動作情報が示す各選択肢の指定に従って上記指定された楽曲の再生を行う。
これにより、本実施形態の音声入力処理装置10では、簡略化された音声コマンド(例えば、再生を希望する楽曲の曲名のみを指定する音声コマンド)の使用を可能とし、且つ自装置が備える音声認識機能(例えば、音声認識ユニット210、216、222、228、234が行う音声認識機能)や外部機器が備える音声認識機能(例えば、第1、第2外部機器110、112の音声認識ユニット140、142による音声認識機能)の動作競合を防止してそれら機能の実行を適切に管理することができる。
同様に、ナビゲーション動作を行う際には、図5に示すように、当該ナビゲーション動作を行わせる機器又はユニットの選択、当該機器との間の信号の接続経路の選択等々について、以下のような事項についての選択を行う必要がある。
(B1)ナビゲーション再生を行わせる機器又はユニット(以下、総称して「ナビゲーション実行機器」ともいう)についての選択肢として、ナビゲーションユニット204、第1通信機器110、第2通信機器112、第3通信機器114、第4通信機器116が存在し得る。
(B2)ナビゲーション実行機器が第1〜第4外部機器110〜118のいずれかである場合には、それらナビゲーション実行機器との間の信号の接続経路が、使用するプラットフォーム(使用プラットフォーム)についての選択肢と、通信インタフェースについての選択肢と、で規定され得る。
(B2−1)使用プラットフォームについての選択肢として、ナビゲーションユニット204、第1外部機器制御ユニット206、第2外部機器制御ユニット208が存在し得る。
(B2−2)通信インタフェースの選択肢として、第2通信INF242(例えばBluetooth通信インタフェース)、第3通信INF244(例えばLightningケーブル通信インタフェース)、第4通信INF246(例えばUSB通信インタフェース)が存在し得る。
(B3)ナビゲーション実行機器に対し、音声コマンドを使用するか否か、及び使用する場合は、いずれのユニット又は外部機器が有する音声認識機能を用いるか、についての選択肢が存在し得る。
(B4)ナビゲーションにおける経路探索に用いる目的地についての選択肢や、経路探索の条件(距離優先、時間優先等)が存在し得る。なお、図5において、図示の表の最右欄の「目的地」欄における選択肢として示した「地名1」「地名2」等は、任意の地名であるものとすることができる。
ユーザは、ナビゲーション動作の実行指示と、上記各事項の選択肢について指定を、操作スイッチ176及び又はディスプレイ174のタッチスクリーンにより入力する動作指示情報の少なくとも一部、及び又は音声コマンドを用いる場合には当該音声コマンドの少なくとも一部として、全体制御ユニット200に入力することができる((例えば、経路探索に用いる目的地の指定を音声コマンドの内容の少なくとも一部として入力し、他の事項の選択肢の指定を動作指示情報の少なくとも一部として入力することができる))。
音声入力処理装置10の全体制御ユニット200は、動作指示情報の少なくとも一部及び又は音声コマンドの少なくとも一部により入力された上記各事項の選択肢の指定に基づき、自装置又は外部機器のいずれかを用いて、指定された目的地までの経路を探索し、及び探索した経路までの案内を行う。また、全体制御ユニット200は、例えば操作スイッチ176又はディスプレイ174のタッチスクリーンにより学習モード動作が指定されているときは、指定された目的地と、ナビゲーション動作の内容を示す動作情報(例えば、動作指示情報の少なくとも一部及び又は音声コマンドの少なくとも一部により入力された上記各事項の選択肢の指定)を、動作履歴として記憶装置102に記憶する。
図6は、ナビゲーション動作に関する動作履歴の一例を示す図である。図示の表の最も右の2つの列に示したように、動作履歴には、図5に示す項目のほか、同じ目的地のナビゲーション動作が同じ選択肢指定を用いて行われた回数(図6の表の右から2番目の「頻度」列)、及びその目的地についてのナビゲーション動作がその選択肢指定を用いて最後に行われた日時(図6の表の最も右側の「最終使用日」列)などの、他の項目も含めることができる。
図6の表において、例えば「地名a」の行により、当該「地名a」についてのナビゲーション動作が、ナビゲーションユニット204を用いて実行されことが判る(図示の表の左から2番目の列参照)。また、当該提供にあたり、ナビゲーションユニット204が有する音声認識機能が用いられたこと(図示の表の左から5番目の列参照)、このナビゲーション動作が2015年11月1日の8時3分に行われたこと(図示の表の最も右の列参照)、及び同様のナビゲーション動作が過去10回行われたこと(図示の表の右から2番目の列参照)、が判る。
また、図6の表において、例えば「地名b」の行により、当該「地名b」についてのナビゲーション動作が、例えばLightningケーブル通信インタフェースである第3通信INF244を介して接続された(図示の表の左から4番目の列参照)、ID1−001の識別コード(図示の表の左から2番目の列参照)を持つ第1外部機器110、例えばiPhone(登録商標)機器により、第1外部機器制御ユニット206が提供するプラットフォーム(例えば、CarPlayシステムのプラットフォーム)により実行されたことが判る(図示の表の左から3番目の列参照)。また、当該ナビゲーション動作の実行にあたり、第1外部機器制御ユニット206が提供する音声認識機能が用いられたこと(図示の表の左から5番目の列参照)、このナビゲーション動作が2015年11月1日の12時31分に行われたこと(図示の表の最も右の列参照)、及び同様のナビゲーション動作が過去3回行われたこと(図示の表の右から2番目の列参照)、が判る。
また、図6の表において、例えば「地名c」の行により、当該「地名c」についてのナビゲーション動作が、例えばUSB通信インタフェースである第4通信INF246を介して接続された(図示の表の左から4番目の列参照)、ID2−002の識別コード(図示の表の左から2番目の列参照)を持つ第2外部機器112、例えばNexus(登録商標)機器により、第2外部機器制御ユニット208が提供するプラットフォーム(例えば、Android Autoシステムのプラットフォーム)を通じて実行されたことが判る(図示の表の左から3番目の列参照)。また、当該実行にあたり、第2外部機器制御ユニット208が提供する音声認識機能が用いられたこと(図示の表の左から5番目の列参照)、このナビゲーション動作が2015年11月3日の7時58分に行われたこと(図示の表の最も右の列参照)、及び同様のナビゲーション動作が過去30回行われたこと(図示の表の右から2番目の列参照)、が判る。
図6に示すような動作履歴を記憶した後、全体制御ユニット200は、ユーザが音声により特定の目的地を指定したときには、例えば操作スイッチ176又はディスプレイ174のタッチスクリーンにより運用モード動作が指定されていることを条件として、主音声認識ユニット210により当該音声についての音声認識を行って当該目的地を抽出し、当該目的地が含まれる動作情報を上記動作履歴から抽出して、当該抽出した動作情報が示す各選択肢の指定に従って上記指定された目的地までの経路探索と経路案内とを行う。
これにより、本実施形態の音声入力処理装置10では、簡略化された音声コマンド(例えば、目的地のみを指定する音声コマンド)の使用を可能とし、且つ自装置が備える音声認識機能(例えば、音声認識ユニット210、216、222、228、234が行う音声認識機能)や外部機器が備える音声認識機能(例えば、第1、第2外部機器110、112の音声認識ユニット140、142による音声認識機能)の動作競合を防止してそれら機能の実行を適切に管理することができる。
以上のように、全体制御ユニット200のコマンド処理ユニット212は、操作スイッチ176及び又はディスプレイ174のタッチスクリーンにより入力される動作指示情報及び又は音声コマンドから抽出されるコマンドに基づいて、自装置の動作(オーディオユニット202やナビゲーションユニット204の動作)を制御し及び又は第1〜第4外部機器110〜116の動作を制御して、動作指示情報の少なくとも一部及び又は前記コマンドの内容の少なくとも一部(例えば、再生を希望する楽曲の曲名や、経路探索に用いる目的地)と、当該動作指示情報及び又はコマンドに基づいて行った自装置及び又は第1〜第4外部機器110〜116の動作の内容と、を関連付けた動作情報を、動作履歴として記憶装置102に記憶する。そして、コマンド処理ユニット212は、新たな音声が入力されたときは、主音声認識部210により抽出されるコマンドの内容の少なくとも一部(例えば、再生を希望する楽曲の曲名や、経路探索に用いる目的地)が含まれる動作情報を、記憶装置102が記憶する動作履歴から抽出し、上記抽出されるコマンドと当該抽出した動作情報とに基づいて自装置の動作(オーディオユニット202やナビゲーションユニット204の動作)を制御し及び又は第1〜第4外部機器110〜116に動作を指示する。
次に、音声入力処理装置10の全体制御ユニット200が行う処理の手順について、図7に示すフロー図に従って説明する。本処理は、音声入力処理装置10の電源がオンされたときに開始し、オフされたときに終了する。
処理を開始すると、まず、全体制御ユニット200は、HMI−INF106を介してマイクロフォン170から音声が入力されたか否かを判断し(S100)、入力されていないときは(S100、No)、ステップS100に戻って音声が入力されるのを待機する。例えば、全体制御ユニット200のコマンド処理ユニット212は、マイクロフォン170から入力される音を一時記憶装置(不図示)に記憶してバッファリングし、バッファリングした音の周波数解析等により当該バッファリングした音に音声が含まれているか否かを判断することができる。
一方、ステップS100において音声が入力されたときは(S100、Yes)、操作スイッチ176又はディスプレイ174のタッチスクリーンにより運用モード動作が指定されているか否かを判断し(S102)、運用モードでなく学習モードが指定されているときは(S102、No)、入力された音声に含まれるコマンドを主音声認識ユニット210により抽出し、当該抽出したコマンドと、操作スイッチ176又はディスプレイ174のタッチスクリーンにより入力される動作指示情報に基づいて、コマンド処理ユニット212により、指定された動作を実行する(S104)。そして、実行した当該動作の動作情報を、動作履歴として記憶装置102に記憶した後(S106)、ステップS100に戻って処理を繰り返す。
一方、ステップS102において、操作スイッチ176又はディスプレイ174のタッチスクリーンにより運用モードが指定されているときは(S102、Yes)、コマンド処理ユニット212は、ステップS100において入力された音声(入力音声)を(例えば、上記バッファリングした音から抽出して)主音声認識ユニット210へ送り、主音声認識ユニット210は送られた当該入力音声を記憶装置102に保存する(S108)。主音声認識ユニット210は、送られた当該入力音声に対し音声認識処理を行い、当該音声に含まれるコマンドを抽出して、当該コマンドが指定する機能(当該コマンドがその実行を指示する機能)を特定する(S110)。例えば、主音声認識ユニット210は、予め定められた単語やフレーズ(例えば、音楽再生機能の実行を指示する「・・・の再生」や、ナビゲーション機能の実行を指示する「・・・までの経路を探索」、車両操作の一部としてのワイパー動作の実行を指示する「ワイパー動作オン」などのフレーズ)を抽出することにより、指定された機能(指定機能)を特定することができる。
次に、コマンド処理ユニット212は、指定機能が車両操作関連の機能(例えば、ワイパーの動作開始や、窓の開閉など)であるか否かを判断し(S112)、車両操作関連の機能であるときは(S112、Yes)、より具体的な指定の動作(例えば、ワイパーの動作開始や、窓の開閉など)を特定して(S114)、当該特定した指定動作のコマンド(例えば、指定動作の実行を指示する信号)を、第5通信INF248を介して対応するECU(例えばECU160a)に送信した後(S116)、ステップS100に戻って処理を繰り返す。
一方、ステップS112において、指定機能が車両操作関連の機能でないときは(S112、No)、コマンド処理ユニット212は、指定機能がオーディオ再生(例えば、音楽再生)であるか否かを判断し(S118)、オーディオ再生であるときは(S118、Yes)、オーディオ再生処理を実行した後(S120)、ステップS100に戻って処理を繰り返す。なお、ステップS120で行うオーディオ再生処理については後述する。
一方、ステップS118において、指定機能がオーディオ再生でないときは(S118、No)、コマンド処理ユニット212は、指定機能がナビゲーションであるか否かを判断し(S122)、ナビゲーションであるときは(S122、Yes)、ナビゲーション処理を実行した後(S124)、ステップS100に戻って処理を繰り返す。なお、ステップS124で行うナビゲーション処理については後述する。
一方、ステップS122において、指定機能がナビゲーションでないときは(S122、No)、コマンド処理ユニット212は、例えば無線通信インタフェースである第1通信INF240を介して音声認識機能を持つ外部サーバと接続可能であるか否かを判断し(S126)、接続可能であるときは(S126、Yes)、ステップS108において記憶装置102に保存した入力音声を当該外部サーバへ送信した後(S128)、ステップS100に戻って処理を繰り返す。これにより、例えば、送信先の外部サーバが入力音声に従って処理した結果を取得して、当該入力音声に応じた処理を行うことができる。なお、音声認識機能を持つ外部サーバと接続可能であるか否かの判断は、例えば、コマンド処理ユニット212が、接続可能な外部サーバについての情報を予め保有しているものとし、当該情報の中に音声認識機能を持つ外部サーバの情報があれば、音声認識機能を持つ外部サーバと接続可能であると判断するものとすることができる。
一方、ステップS126において、音声認識機能を持つ外部サーバと接続可能でないときは(S126、No)、コマンド処理ユニット212は、通信INF104を介して音声認識機能を持つ外部機器が接続されているか否かを判断し(S130)、接続されているときは(S130、Yes)、ステップS108において記憶装置102に保存した入力音声を音声認識機能を持つ外部機器のいずれか(本実施形態では、第1外部機器110又は第2外部機器112)へ送信した後(S132)、ステップS100に戻って処理を繰り返す。これにより、例えば、送信先の外部機器により、入力音声に応じた処理を行うことができる。なお、入力音声を送信する外部機器の選択は、例えば、予め定められた優先順位、又はディスプレイ174や操作スイッチ176等を介してユーザが入力した優先順位に従って行うものとすることができる。
一方、ステップS130において、音声認識機能を持つ外部機器が接続されていないときは(S130、No)、そのままステップS100に戻って処理を繰り返す。
〔オーディオ再生処理〕
次に、図7のステップS120におけるオーディオ再生処理の手順について、図8に示すフロー図に従って説明する。
処理を開始すると、まず、コマンド処理ユニット212は、ステップS110において特定された指定機能が、楽曲再生であるか否かを判断し(S200)、楽曲再生でないときは(S200、No)、主音声認識ユニット210により、ステップS108において記憶装置102に保存した入力音声全体の音声認識を行った後(S202)、オーディオ再生処理を終了する。なお、ステップS202において、第1通信INF240を介して音声認識機能を有する外部サーバと接続可能であるときは、ステップS108において記憶装置102に保存した入力音声を当該外部サーバへ送信して音声認識を行うものとしてもよい。
一方、S200において指定機能が楽曲再生であるときは(S200、Yes)、主音声認識ユニット210により、ステップS108において記憶装置102に保存した入力音声から再生対象である楽曲の指定(指定楽曲)の曲名を抽出し(S204)、当該指定楽曲の曲名を含む動作情報を、記憶装置102が記憶する楽曲再生動作に関する動作履歴(図4に示すような動作履歴)から検索して抽出する(S206)。
そして、コマンド処理ユニット212は、上記指定楽曲の曲名を含む動作情報があったか否か(すなわち、抽出されたか否か)を判断し(S208)、抽出されないときは(S208、No)、ステップS202に処理を移す。一方、ステップS208において上記指定楽曲の曲名を含む動作情報が抽出されたときは(S208、Yes)、当該抽出された動作情報が複数であるか否かを判断し(S210)、複数であるときは(S210、Yes)、抽出された複数の動作情報から、所定の条件に従って一の動作情報を選択した後(S212)、ステップS214に処理を移す。当該所定の条件は、例えば、「抽出された複数の動作情報のうち、「頻度」(図4の表の右から2番目の「頻度」列の数字)が最も多い動作情報を選択する」ことや、又は「複数の動作情報のうち、「最終使用日」(図4の表の最も右の「最終使用日」列の日付)が最も近い動作情報を選択する」ことを規定するものとすることができる。
一方、ステップS210において指定楽曲の曲名を含む動作情報として抽出された動作情報が複数でないとき(すなわち、一つであるとき)は(S210、No)、そのままステップS214に処理を移す。
ステップS214において、コマンド処理ユニット212は、ステップS206において抽出された一の動作情報又はステップS206において抽出された複数の動作情報の中からステップS212において選択された一の動作情報(以下、「抽出された動作情報」という)に従って指定楽曲の再生が可能か否かを判断する(S214)。例えば、図4に示す動作履歴が用いられる場合であって、「曲名1」の楽曲が指定楽曲であるときは、最左列に「曲名1」を含む動作情報が抽出されることとなるが、当該抽出された動作情報が示す識別ID1−001の機器が通信INF104に接続されていない場合や、接続されているとしても、当該抽出された動作情報が示す通信INFの指定である第3通信INF244に接続されていない場合には、ステップS214において、「曲名1」の指定楽曲は、抽出された動作情報に従って再生することは不可能と判断される。
そして、ステップS214において、抽出された動作情報に従って指定楽曲を再生することが不可能と判断されるときは(S214、No)、ステップS202に処理を移し、可能であるときは(S214、Yes)、当該抽出された動作情報が、指定楽曲の再生に際して音声認識機能を使用することを示しているか否かを判断する(S216)。当該判断は、例えば、図4に示す動作履歴から動作情報が抽出される場合には、図示の表の右から3番目の「音声認識機能」列に示された情報に基づいて行うことができる。
そして、音声認識機能の使用が指定されているときは(S216、Yes)、図7のステップS108において記憶装置102に保存した入力音声を、抽出された動作情報が示す音声認識機能を提供する機器又はユニット(図4に示す動作履歴の表の、右から3番目の「音声認識機能」列に示された機器又はユニット)に送信して(S218)、オーディオ再生処理を終了する。これにより、当該入力音声を受信した音楽再生機器は、当該入力音声に対して音声認識を行い、当該入力音声に含まれるコマンドに従って、指定楽曲を再生することができる。
一方、ステップS216において、抽出された動作情報に音声認識機能の使用が指定されていないときは(S216、No)、抽出された動作情報に従って、指定の音楽再生機器により指定楽曲を再生するための動作指示信号を生成し(S220)、当該動作指示信号を、当該抽出された動作情報が指定する接続経路を介して、上記指定の音楽再生機器へ送信して(S222)、オーディオ再生処理を終了する。
〔ナビゲーション処理〕
次に、図7のステップS124におけるナビゲーション処理の手順について、図9に示すフロー図に従って説明する。
処理を開始すると、まず、コマンド処理ユニット212は、ステップS110において特定された指定機能が、経路探索であるか否かを判断し(S300)、経路探索でないときは(S300、No)、主音声認識ユニット210により、ステップS108において記憶装置102に保存した入力音声全体の音声認識を行った後(S302)、ナビゲーション処理を終了する。なお、ステップS302において、第1通信INF240を介して音声認識機能を有する外部サーバと接続可能であるときは、ステップS108において記憶装置102に保存した入力音声を当該外部サーバへ送信して音声認識を行うものとしてもよい。
一方、ステップS300において指定機能が経路探索であるときは(S200、Yes)、主音声認識ユニット210により、ステップS108において記憶装置102に保存した入力音声から経路探索に用いる目的地の指定(指定目的地)の地名を抽出し(S304)、当該指定目的地の地名を含む動作情報を、記憶装置102が記憶するナビゲーション動作に関する動作履歴(図6に示すような動作履歴)から検索して抽出する(S306)。
そして、コマンド処理ユニット212は、上記指定目的地の地名を含む動作情報があったか否か(すなわち、抽出されたか否か)を判断し(S308)、抽出されないときは(S308、No)、ステップS302に処理を移す。一方、ステップS308において上記指定目的地の地名を含む動作情報が抽出されたときは(S308、Yes)、当該抽出された動作情報が複数であるか否かを判断し(S310)、複数であるときは(S310、Yes)、抽出された複数の動作情報から、所定の条件に従って一の動作情報を選択した後(S312)、ステップS314に処理を移す。当該所定の条件は、例えば、「抽出された複数の動作情報のうち、「頻度」(図6の表の右から2番目の「頻度」列の数字)が最も多い動作情報を選択する」ことや、又は「複数の動作情報のうち、「最終使用日」(図6の表の最も右の「最終使用日」列の日付)が最も近い動作情報を選択する」ことを規定するものとすることができる。
一方、ステップS310において指定目的地の地名を含む動作情報として抽出された動作情報が複数でないとき(すなわち、一つであるとき)は(S310、No)、そのままステップS314に処理を移す。
ステップS314において、コマンド処理ユニット212は、ステップS306において抽出された一の動作情報又はステップS306において抽出された複数の動作情報の中からステップS312において選択された一の動作情報(以下、「抽出された動作情報」という)に従って指定目的地までのナビゲーションが実行可能か否かを判断する(S314)。例えば、図6に示す動作履歴が用いられる場合であって、「地名b」の目的地が指定目的地であるときは、最左列に「地名b」を含む動作情報が抽出されることとなるが、当該抽出された動作情報が示す識別ID1−001の機器が通信INF104に接続されていない場合や、接続されているとしても、当該抽出された動作情報が示す通信INFの指定である第3通信INF244に接続されていない場合には、ステップS314において、「地名a」の指定目的地は、抽出された動作情報に従ってナビゲーションを実行することは不可能と判断される。
そして、ステップS314において抽出された動作情報に従って指定目的地までのナビゲーションを実行することが不可能と判断されるときは(S314、No)、ステップS302に処理を移し、可能であるときは(S314、Yes)、当該抽出された動作情報が、ナビゲーションの実行に際して音声認識機能を使用することを示しているか否かを判断する(S316)。当該判断は、例えば、図6に示す動作履歴から動作情報が抽出される場合には、図示の表の右から3番目の「音声認識機能」列に示された情報に基づいて行うことができる。
そして、音声認識機能の使用が指定されているときは(S316、Yes)、図7のステップS108において記憶装置102に保存した入力音声を、抽出された動作情報が示す音声認識機能を提供する機器又はユニット(図6に示す動作履歴の表の、右から3番目の「音声認識機能」列に示された機器又はユニット)に送信して(S318)、ナビゲーション処理を終了する。これにより、当該入力音声を受信したナビゲーション実行機器は、当該入力音声に対して音声認識を行い、当該入力音声に含まれるコマンドに従って、指定目的地までのナビゲーションを実行することができる。
一方、ステップS316において、抽出された動作情報に音声認識機能の使用が指定されていないときは(S316、No)、抽出された動作情報に従って、指定のナビゲーション実行機器により指定目的地までのナビゲーションを実行するための動作指示信号を生成し(S320)、当該動作指示信号を、当該抽出された動作情報が指定する接続経路(図6の「接続経路」列が示す接続経路)を介して、上記指定のナビゲーション実行機器へ送信して(S322)、ナビゲーション処理を終了する。
<第2実施形態>
次に、本発明の第2の実施形態に係る音声入力処理装置について説明する。
本音声入力処理装置では、図8のステップS214において、選択された動作情報に従って指定楽曲の再生を行えず、且つ再生を行えない理由が、当該選択された動作情報が示す接続経路に沿って音楽再生機器との接続を行えないというものである場合に、予め定めた所定の条件に従って、上記選択された動作情報が示す接続経路と同様な機能を有する代替の接続経路を選択して、当該音楽再生機器との接続を行う。
これにより、本実施形態に係る音声入力処理装置では、抽出された動作情報が示す接続経路に沿って音楽再生機器との接続を行えない場合でも、接続経路と同様な機能を有する代替の接続経路を選択して接続を行うので、音声入力処理装置としての利便性が向上する。
また、本実施形態に係る音声入力処理装置では、ユーザが第1〜第4外部機器110〜116のいずれかに対する直接入力(すなわち、当該外部機器に対して直接行った音声コマンドの入力及び又は入力操作)により対応する第1〜第4外部機器110〜116のいずれかが行った動作の情報を、当該対応する第1〜第4外部機器110〜116のいずれか取得して、上記音声コマンドの内容の少なくとも一部及び又は前記入力操作の内容の少なくとも一部(例えば、音楽再生動作における指定楽曲の曲名や、ナビゲーション動作における経路探索に用いる指定目的地の地名)と、当該音声コマンド及び又は入力操作に基づいて行った上記対応する第1〜第4外部機器110〜116のいずれかの動作の内容と、を関連付けた動作情報を、動作履歴として記憶装置102に記憶する。そして、動作履歴の動作情報に示す内容として、当該動作情報が、第1〜第4外部機器110〜116に対する直接入力に基づく動作であるか否かについての直接入力情報を含んでいる。
また、本実施形態に係る音声入力処理装置では、動作履歴の動作情報に示す内容として、更に、再生された楽曲が、例えば楽曲アルバムに含まれる楽曲として自動的に再生されたか否かを示す自動再生情報を含む。
そして、図8のステップS212のような一の動作情報の選択が、上記直接入力情報及び自動再生情報にも基づいて行われる。
図10は、第2の実施形態に係る音声入力処理装置の構成を示す図である。なお、図10において、図2に示す第1の実施形態に係る音声入力処理装置10と同じ構成要素については、図2における符号と同じ符号を用いるものとし、上述した第1の実施形態に係る音声入力処理装置10についての説明を援用するものとする。
本音声入力処理装置1000は、第1の実施形態に係る音声入力処理装置10と同様の構成を有するが、処理装置100に代えて処理装置1100を備える点が異なる。処理装置1100は、処理装置100と同様の構成を有するが、全体制御ユニット200に代えて全体制御ユニット1010を有し、オーディオユニット202に代えてオーディオユニット1002を有する点が異なる。オーディオユニット1002は、オーディオユニット202と同様の構成を有するが、音声認識ユニットを有さず、音楽再生ユニット218に代えて音楽再生ユニット1018を有する点がオーディオユニット202と異なる。音楽再生ユニット1018は、音楽再生ユニット218と同様の構成を有するが、音声認識機能についての動作を行わない点が音楽再生ユニット218と異なる
また、全体制御ユニット1010は、全体制御ユニット200と同様の構成を有するが、コマンド処理ユニット212に代えてコマンド処理ユニット1012に有する点が異なる。
コマンド処理ユニット1012は、コマンド処理ユニット212と同様の機能を有し、同様の動作を行うが、さらに、ユーザが第1〜第4外部機器110〜116のいずれかに対する直接入力(すなわち、当該外部機器に対して直接行った音声コマンドの入力及び又は入力操作)により対応する第1〜第4外部機器110〜116のいずれかが行った動作の情報(直接入力動作情報)を、当該対応する第1〜第4外部機器110〜116のいずれか取得して、上記音声コマンドの内容の少なくとも一部及び又は前記入力操作の内容の少なくとも一部(例えば、音楽再生動作における指定楽曲の曲名や、ナビゲーション動作における経路探索に用いる指定目的地の地名)と、当該音声コマンド及び又は入力操作に基づいて行った上記対応する第1〜第4外部機器110〜116のいずれかの動作の内容と、を関連付けた動作情報を、動作履歴として記憶装置102に記憶する。そして、動作履歴の動作情報に示す内容として、当該動作情報が、第1〜第4外部機器110〜116に対する直接入力に基づく動作であるか否かについての「直接入力」情報を含ませる。なお、上記直接入力動作情報は、コマンド処理ユニット1012が、例えば、対応する第1〜第4外部機器110〜116のいずれかが通信INF104に接続されたとき、及び又は当該接続後に所定の時間間隔で取得して、記憶装置102に記憶させた動作履歴を更新するものとする。
また、コマンド処理ユニット1012は、新たな楽曲が再生されたときに、当該楽曲の再生が、例えば楽曲アルバムに含まれる楽曲として自動的に再生されたか否かを示す自動再生情報を、対応する音楽再生機器から取得して、動作履歴を構成する動作情報に、上記自動再生情報を含ませるものとする。
図11は、コマンド処理ユニット1012が作成する、音楽再生動作についての動作履歴の一例を示す図である。図示の表の最も右側の2つの列に示すように、本実施形態における音楽再生動作についての動作履歴を構成する動作情報には、上述した「直接入力」情報と、「自動再生」情報とが含まれている。
コマンド処理ユニット1012は、さらに、図7に示す処理に代えて図12に示す処理を行う点が、コマンド処理ユニット212と異なる。図12に示す処理は、図7に示す処理と同様であるが、ステップS120のオーディオ再生処理(図8)に代えて、ステップS420において、図13に示すオーディオ再生処理2を実行する点が異なる。なお、図12及び図13においては、それぞれ図7及び図8に示すステップと同様の処理を行うステップについては同じ符号を用いて示すものとし、上述した図7及び図8についての説明を援用するものとする。
図13に示すオーディオ再生処理2は、図8に示すオーディオ再生処理と同様であるが、ステップS212、S214に代えてステップS512、S514を実行する点、及びステップS516が追加されている点が異なる。
以下、図13に示すオーディオ再生処理2の処理のうち、図8に示すオーディオ再生処理と異なる上記のステップS512、S514、S516について説明する。
コマンド処理ユニット1012は、ステップS210において、指定楽曲の曲名を含む複数の動作情報が動作履歴から抽出されたと判断されるときに(S210、Yes)、図11に示す動作履歴の「頻度」列及び又は「最終使用日」列の情報に加えて、「音声認識機能」列、「自動再生」列、及び「直接入力」列の情報にも基づいて、所定の条件に従い、上記抽出された複数の動作情報から一の動作情報を選択する(S512)。
上記所定の条件は、例えば、いずれかの音声認識動作に基づいて行われた動作の動作情報(図11に示す動作履歴の「音声認識機能」列が「使用しない」でない動作情報)を、いずれかの音声認識動作に基づかない動作の動作情報(「音声認識機能」列が「使用しない」である動作情報。すなわち、操作スイッチ176やディスプレイ174のタッチパネルへの手動の入力操作により行われた動作の動作情報)よりも優先的に選択することを規定する条件を含むものとすることができる。
また、上記所定の条件は、再生された楽曲(図11に示す動作履歴の「再生楽曲名」列に示す曲名の楽曲)が自動的に再生されたものでないことを示している動作情報(「自動再生」列がNoである動作情報)を、自動的に再生されたものであることを示している動作情報(「自動再生」列がYesである動作情報)よりも優先的に選択することを規定する条件を含むものとすることができる。
さらに、上記所定の条件は、第1〜第4外部機器110〜116のいずれかから取得した情報に基づく動作情報(図11に示す動作履歴の「直接入力」列がYesである動作情報)に優先して、第1〜第4外部機器110〜116のいずれかから取得した情報に基づく動作情報以外の動作情報(「直接入力」列がNoである動作情報)を選択することを規定する条件を含むものとすることができる。
また、コマンド処理ユニット1012は、ステップS514において、抽出された動作情報に従って指定楽曲を再生することが不可能と判断されるときは(S514、No)、代替接続処理を実行して(S516)、オーディオ再生処理2を終了する。
次に、図13のステップS516の代替接続処理の手順について、図14に示すフロー図に従って説明する。
処理を開始すると、コマンド処理ユニット1012は、まず、対象の音楽再生機器が通信INF104に接続されているか否かを判断し(S600)、接続されていないときは(S600、No)、主音声認識ユニット210により、ステップS108において記憶装置102に保存した入力音声全体の音声認識を行った後(S602)、代替接続処理を終了する。なお、ステップS602において、第1通信INF240を介して音声認識機能を有する外部サーバと接続可能であるときは、ステップS108において記憶装置102に保存した入力音声を当該外部サーバへ送信して音声認識を行うものとしてもよい。
一方、ステップS600において、対象の音楽再生機器が通信INF104に接続されていると判断されるときは(S600、Yes)、当該対象の音楽再生機器に対し、ステップS206又はS512において抽出された動作情報に示された接続経路に代えて使用することのできる接続経路(代替接続経路)を用いて通信接続を行うことが可能か否かを判断する(S604)。この判断は、例えば、第1〜第5通信INF240〜248に接続されている各機器に識別IDの送信を要求する信号を送信し、各機器から返信される識別IDの中に上記対象とする音楽再生機器の識別IDが含まれているか否かにより判断することができる。すなわち、対象とする音楽再生機器の識別IDが含まれていれば、少なくとも当該識別IDが返信されてきた経路を代替接続経路として用いることができると判断できる。
そして、代替接続経路を用いて対象の音楽再生機器との通信接続を行うことができないと判断されるときは(S604、No)、ステップS602に処理を移して代替接続処理を終了する。一方、代替接続経路を用いて対象の音楽再生機器との通信接続を行うことが可能であると判断されるときは(S604、Yes)、予め定めた所定の条件に従い、代替接続経路を決定する(S606)。
当該所定の条件は、例えば、「対応する動作情報が示す動作が、第1〜第4外部機器110〜116のいずれかを音楽再生機器とするものであって、当該音楽再生機器が有する音声認識機能に基づいて行われたものであるときは、当該音楽再生機器が有する音声認識機能の動作を行わせることが可能な接続経路を選択する」ことを規定するものであるものとすることができる。例えば、図11に示す動作履歴において、「再生楽曲名」列に「曲名2」を含む動作情報では、ID2-002の識別IDを持つ第2外部機器112を音楽再生機器とし(「音楽再生」列参照)、当該音楽再生機器である第2外部機器112の音声認識機能を用いて音楽再生が行われている(「音声認識」列参照)。この場合、ID2-002の識別IDを持つ第2外部機器112が第4通信INF246に接続されておらず、例えばBluetooth通信インタフェースである第2通信INF242に接続されている場合には、音声認識機能についての動作を行わないオーディオユニット1002をプラットフォームに用いることなく、例えば第2外部機器112の音声認識機能を動作させ得る第2外部機器制御ユニット208をプラットフォームとする第2通信INF242を介した接続経路を代替接続経路として選択する。
次に、コマンド処理ユニット1012は、抽出された動作情報が、指定楽曲の再生に際して音声認識機能を使用することを示しているか否かを判断する(S608)。当該判断は、例えば、図11に示す動作履歴から動作情報が抽出される場合には、図示の表の右から4番目の「音声認識機能」列に示された情報に基づいて行うことができる。
そして、音声認識機能の使用が指定されているときは(S608、Yes)、図7のステップS108において記憶装置102に保存した入力音声を、ステップS606において決定された代替接続経路を介して、動作情報が示す音声認識機能を提供する機器又はユニット(図11に示す動作履歴の表の、右から4番目の「音声認識機能」列に示された機器又はユニット)に送信して(S610)、代替接続処理を終了する。これにより、当該入力音声を受信した音楽再生機器は、当該入力音声に対して音声認識を行い、当該入力音声に含まれるコマンドに従って、指定楽曲を再生することができる。
一方、ステップS608において、抽出された動作情報に音声認識機能の使用が指定されていないときは(S608、No)、抽出された動作情報に従って、指定の音楽再生機器により指定楽曲を再生するための動作指示信号を生成し(S612)、当該動作指示信号を、ステップS606において決定した代替接続経路を介して、上記指定の音楽再生機器へ送信して(S614)、代替接続処理を終了する。
以上説明したように、第1及び第2の実施形態に係る音声入力処理装置10、1000は、入力された音声の内容を主音声認識部210により認識して当該音声に含まれるコマンドを抽出し、操作スイッチ176及び又はディスプレイ174のタッチスクリーンにより入力される動作指示情報及び又は上記抽出されたコマンドに基づいて、コマンド処理ユニット212、1012により、例えば自装置が行う音楽再生動作やナビゲーション動作を制御し及び又は第1〜第4外部機器110〜116に音楽再生動作やナビゲーション動作を指示する。また、コマンド処理ユニット212、1012は、上記動作指示情報の少なくとも一部及び又は前記コマンドの内容の少なくとも一部(例えば、音楽再生動作に用いる楽曲の曲名又はナビゲーション動作における経路探索に用いる目的地の地名)と、当該動作指示情報及び又はコマンドに基づいて行った自装置及び又は第1〜第4外部機器110〜116の動作(音楽再生動作やナビゲーション動作)の内容と、を関連付けた動作情報を、動作履歴として記憶装置102に記憶する。そして、コマンド処理ユニット212、1012は、新たな音声が入力されたときは、主音声認識ユニット210により抽出されるコマンドの内容の少なくとも一部が含まれる動作情報を動作履歴から抽出し、上記抽出されるコマンドと上記抽出した動作情報とに基づいて自装置の動作を制御し及び又は第1〜第4外部機器110〜116に動作を指示する。
これにより、音声入力処理装置10、1000では、簡略化された音声コマンド(例えば、楽曲名や目的地の地名のみを指定する音声コマンド)の使用を可能とし、且つ自装置が備える音声認識機能(例えば、音声認識ユニット210、216、222、228、234が行う音声認識機能)や外部機器が備える音声認識機能(例えば、第1、第2外部機器110、112の音声認識ユニット140、142による音声認識機能)の動作競合を防止してそれら機能の実行を適切に管理することができる。
10、1000・・・音声入力処理装置、100、130、132、134、136、1100・・・処理装置、102・・・記憶装置、104、120、122、124、126・・・通信インタフェース(通信INF)、106・・・HMIインタフェース(HMI−INF)、110・・・第1外部機器、112・・・第2外部機器、114・・・第3外部機器、116・・・第4外部機器、140、142、216、222、228、234・・・音声認識ユニット、144、146、150、152・・・機能制御ユニット、160a、160b・・・ECU、170・・・マイクロフォン、172・・・スピーカ、174・・・ディスプレイ、176・・・操作スイッチ、200、1010・・・全体制御ユニット、202、1002・・・オーディオユニット、204・・・ナビゲーションユニット、206・・・第1外部機器制御ユニット、208・・・第2外部機器制御ユニット、210・・・主音声認識ユニット、212、1012・・・コマンド処理ユニット、218、1018・・・音楽再生ユニット、224・・・経路探索ユニット、230、236・・・機器通信処理ユニット、240・・・第1通信インタフェース(第1通信INF)、242・・・第2通信インタフェース(第2通信INF)、244・・・第3通信インタフェース(第3通信INF)、246・・・第4通信インタフェース(第4通信INF)、248・・・第5通信インタフェース(第5通信INF)。

Claims (11)

  1. 入力された音声の内容を認識して当該音声に含まれるコマンドを抽出する第1の音声認識部と、
    入力される動作指示情報及び又は前記抽出されたコマンドに基づいて、自装置の動作を制御し及び又は外部機器に動作を指示する制御部と、
    を備え、
    前記制御部は、
    前記動作指示情報の少なくとも一部及び又は前記コマンドの内容の少なくとも一部と、当該動作指示情報及び又はコマンドに基づいて行った自装置及び又は前記外部機器の動作の内容と、を関連付けた動作情報を、動作履歴として記憶装置に記憶し、
    新たな音声が入力されたときは、
    前記第1の音声認識部により抽出されるコマンドの内容の少なくとも一部が含まれる前記動作情報を、前記動作履歴から抽出し、
    前記抽出されるコマンドと前記抽出した動作情報とに基づいて自装置の動作を制御し及び又は前記外部機器に動作を指示する、
    音声入力処理装置。
  2. 前記動作指示情報は、ユーザの操作により情報が入力される操作入力部から取得される情報である、
    請求項1に記載の音声入力処理装置。
  3. 前記制御部は、前記外部機器に対し動作を指示する動作指示信号を送信し、及び又は、前記外部機器が音声認識機能を有し且つ音声を送信し得るように自装置と接続されているときは、当該外部機器に対し前記入力された音声を送信して、当該外部機器に動作を指示する、
    請求項1又は2に記載の音声入力処理装置。
  4. 前記第1の音声認識部と異なる少なくとも一つの第2の音声認識部を有し、
    前記制御部は、前記第2の音声認識部の少なくとも一つに前記入力された音声を送信して、自装置の動作を制御する、
    請求項1ないし3のいずれか一項に記載の音声入力処理装置。
  5. 前記制御部は、前記動作履歴から抽出される前記動作情報が複数あるときは、予め定めた所定の条件に従って当該複数の動作情報から一の動作情報を選択し、当該選択した一の動作情報と前記抽出されるコマンドとに基づいて自装置の動作を制御し及び又は前記外部機器に動作を指示する、
    請求項1ないし4のいずれか一項に記載の音声入力処理装置。
  6. 前記動作情報には、前記第2の音声認識部及び前記外部機器が有する音声認識機能のいずれかの音声認識動作に基づいて行われた動作か否かについての情報を含み、
    前記所定の条件は、前記いずれかの音声認識動作に基づいて行われた動作の前記動作情報を、当該いずれかの音声認識動作に基づかない動作の前記動作情報よりも優先的に選択することを規定するものである、
    請求項5に記載の音声入力処理装置。
  7. 前記動作情報は、音楽再生動作に関する動作情報であって、
    前記動作情報は、再生された楽曲が、自動的に再生されたものであるか否かを示す情報を含み、
    前記所定の条件は、前記再生された楽曲が自動的に再生されたものでないことを示している前記動作情報を、自動的に再生されたものであることを示している前記動作情報よりも優先的に選択することを規定するものである、
    請求項6に記載の音声入力処理装置。
  8. 前記制御部は、前記外部機器に対して直接行われた音声コマンドの入力及び又は直接に行われたユーザによる入力操作により当該外部機器が行った動作の情報を当該外部機器から取得して、
    前記音声コマンドの内容の少なくとも一部及び又は前記入力操作の内容の少なくとも一部と、当該音声コマンド及び又は入力操作に基づいて行った前記外部機器の動作の内容と、を関連付けた動作情報を、動作履歴として記憶装置に記憶する、
    請求項5ないし7のいずれか一項に記載の音声入力処理装置。
  9. 前記所定の条件は、前記外部機器から取得した情報に基づく前記動作情報に優先して、当該外部機器から取得した情報に基づく前記動作情報以外の前記動作情報を選択することを規定するものである、
    請求項8に記載の音声入力処理装置。
  10. 前記動作情報には、動作に用いられた外部機器の識別情報と、当該外部機器との接続経路に関する情報と、を含み、
    前記制御部は、前記動作履歴から抽出される前記動作情報の前記識別情報が示す前記外部機器に対し、当該動作情報が示す接続経路と同じ接続経路を用いて動作指示を与えることができるか否かを判断し、できない場合には、予め定めた基準に従って代替となる接続経路を選択し、当該選択した代替の接続経路を用いて当該外部機器に動作を指示する、
    請求項1ないし9のいずれか一項に記載の音声入力処理装置。
  11. 前記動作情報には、前記外部機器が有する音声認識機能の音声認識動作に基づいて行われた動作か否かについての情報を含み、
    前記代替となる接続経路には、前記動作履歴から抽出される前記動作情報が示す動作が、当該動作を行うべき前記外部機器が有する音声認識動作に基づいて行われた動作であるときは、当該動作を行うべき前記外部機器が有する音声認識機能の音声認識動作を行わせることが可能な接続経路が選択される、
    請求項10に記載の音声入力処理装置。
JP2016027720A 2016-02-17 2016-02-17 音声入力処理装置 Pending JP2017146437A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016027720A JP2017146437A (ja) 2016-02-17 2016-02-17 音声入力処理装置
KR1020170018436A KR20170096947A (ko) 2016-02-17 2017-02-10 음성 입력 처리 장치
US15/432,058 US10424298B2 (en) 2016-02-17 2017-02-14 Voice processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016027720A JP2017146437A (ja) 2016-02-17 2016-02-17 音声入力処理装置

Publications (1)

Publication Number Publication Date
JP2017146437A true JP2017146437A (ja) 2017-08-24

Family

ID=59562226

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016027720A Pending JP2017146437A (ja) 2016-02-17 2016-02-17 音声入力処理装置

Country Status (3)

Country Link
US (1) US10424298B2 (ja)
JP (1) JP2017146437A (ja)
KR (1) KR20170096947A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020195131A (ja) * 2019-05-29 2020-12-03 デンソー インターナショナル アメリカ インコーポレーテッド 車両コンピュータシステムおよびマイクロフォンコントローラ

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017146437A (ja) * 2016-02-17 2017-08-24 本田技研工業株式会社 音声入力処理装置
KR20180111271A (ko) * 2017-03-31 2018-10-11 삼성전자주식회사 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치
CN107103903B (zh) * 2017-05-05 2020-05-29 百度在线网络技术(北京)有限公司 基于人工智能的声学模型训练方法、装置及存储介质
CN107240395B (zh) * 2017-06-16 2020-04-28 百度在线网络技术(北京)有限公司 一种声学模型训练方法和装置、计算机设备、存储介质
KR102353486B1 (ko) * 2017-07-18 2022-01-20 엘지전자 주식회사 이동 단말기 및 그 제어 방법
US20190061336A1 (en) * 2017-08-29 2019-02-28 Xyzprinting, Inc. Three-dimensional printing method and three-dimensional printing apparatus using the same
CN107730552A (zh) * 2017-09-27 2018-02-23 上海与德通讯技术有限公司 一种交互方法、装置、扫地机器人及介质
US20190147855A1 (en) * 2017-11-13 2019-05-16 GM Global Technology Operations LLC Neural network for use in speech recognition arbitration
CN109903754B (zh) * 2017-12-08 2022-04-26 北京京东尚科信息技术有限公司 用于语音识别的方法、设备和存储器设备
CN108320744B (zh) * 2018-02-07 2020-06-23 Oppo广东移动通信有限公司 语音处理方法和装置、电子设备、计算机可读存储介质
CN108762851A (zh) * 2018-06-04 2018-11-06 联想(北京)有限公司 电子设备的操作方法和电子设备
CN109243444B (zh) * 2018-09-30 2021-06-01 百度在线网络技术(北京)有限公司 语音交互方法、设备及计算机可读存储介质
KR20200085593A (ko) * 2019-01-07 2020-07-15 삼성전자주식회사 전자 장치 및 그 제어 방법.
JP7415350B2 (ja) * 2019-07-08 2024-01-17 コニカミノルタ株式会社 音声操作システム、制御装置、および制御プログラム
CN111177453B (zh) * 2020-01-07 2023-11-14 百度在线网络技术(北京)有限公司 控制音频播放的方法、装置、设备及计算机可读存储介质
US20230139640A1 (en) * 2020-03-19 2023-05-04 Nissan Motor Co., Ltd. Voice recognition device and voice recognition method
CN111857497B (zh) * 2020-06-30 2021-08-13 维沃移动通信有限公司 操作提示方法和电子设备
JP2022152464A (ja) * 2021-03-29 2022-10-12 トヨタ自動車株式会社 車両制御システム及び車両制御方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000031972A (ja) * 1998-07-08 2000-01-28 Sumitomo Electric Ind Ltd 分散型マルチメディアサービス提供システム
WO2015075903A1 (ja) * 2013-11-21 2015-05-28 日産自動車株式会社 音声認識装置
JP2015141226A (ja) * 2014-01-27 2015-08-03 パイオニア株式会社 情報処理装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030023435A1 (en) * 2000-07-13 2003-01-30 Josephson Daryl Craig Interfacing apparatus and methods
JP4405370B2 (ja) 2004-11-15 2010-01-27 本田技研工業株式会社 車両用機器制御装置
US8977255B2 (en) * 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP4936060B2 (ja) 2007-07-10 2012-05-23 株式会社デンソー 車両用走行支援装置
US8958848B2 (en) * 2008-04-08 2015-02-17 Lg Electronics Inc. Mobile terminal and menu control method thereof
KR20090107365A (ko) * 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
KR101462930B1 (ko) * 2008-04-30 2014-11-19 엘지전자 주식회사 이동 단말기 및 그 화상통화 제어방법
KR100988397B1 (ko) * 2008-06-09 2010-10-19 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
KR101995428B1 (ko) * 2012-11-20 2019-07-02 엘지전자 주식회사 이동 단말기 및 그 제어방법
US10223411B2 (en) * 2013-03-06 2019-03-05 Nuance Communications, Inc. Task assistant utilizing context for improved interaction
JP2015184563A (ja) * 2014-03-25 2015-10-22 シャープ株式会社 対話型家電システム、サーバ装置、対話型家電機器、家電システムが対話を行なうための方法、当該方法をコンピュータに実現させるためのプログラム
JP6282516B2 (ja) * 2014-04-08 2018-02-21 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 複数機器の音声操作システム、音声操作方法及び、プログラム
KR101579537B1 (ko) 2014-10-16 2015-12-22 현대자동차주식회사 자동차 및 자동차의 음성 인식 제어 방법
KR102558437B1 (ko) * 2015-11-27 2023-07-24 삼성전자주식회사 질의 응답 처리 방법 및 이를 지원하는 전자 장치
JP2017146437A (ja) * 2016-02-17 2017-08-24 本田技研工業株式会社 音声入力処理装置
KR20180096182A (ko) * 2017-02-20 2018-08-29 엘지전자 주식회사 전자 장치 및 그 전자 장치의 제어 방법
KR101925034B1 (ko) * 2017-03-28 2018-12-04 엘지전자 주식회사 스마트 컨트롤링 디바이스 및 그 제어 방법
KR102339443B1 (ko) * 2017-06-02 2021-12-16 현대자동차주식회사 상황 기반 동작 결정 장치, 상황 기반 동작 결정이 가능한 차량, 상황 기반 동작 결정 방법 및 상기 차량의 제어 방법
KR102445382B1 (ko) * 2017-07-10 2022-09-20 삼성전자주식회사 음성 처리 방법 및 이를 지원하는 시스템
KR102353486B1 (ko) * 2017-07-18 2022-01-20 엘지전자 주식회사 이동 단말기 및 그 제어 방법
KR102384643B1 (ko) * 2017-08-17 2022-04-08 엘지전자 주식회사 전자 장치 및 그 제어 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000031972A (ja) * 1998-07-08 2000-01-28 Sumitomo Electric Ind Ltd 分散型マルチメディアサービス提供システム
WO2015075903A1 (ja) * 2013-11-21 2015-05-28 日産自動車株式会社 音声認識装置
JP2015141226A (ja) * 2014-01-27 2015-08-03 パイオニア株式会社 情報処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020195131A (ja) * 2019-05-29 2020-12-03 デンソー インターナショナル アメリカ インコーポレーテッド 車両コンピュータシステムおよびマイクロフォンコントローラ
JP7245195B2 (ja) 2019-05-29 2023-03-23 株式会社デンソー 車両コンピュータシステムおよびマイクロフォンコントローラ

Also Published As

Publication number Publication date
US10424298B2 (en) 2019-09-24
KR20170096947A (ko) 2017-08-25
US20170236510A1 (en) 2017-08-17

Similar Documents

Publication Publication Date Title
JP2017146437A (ja) 音声入力処理装置
US10950230B2 (en) Information processing device and information processing method
US9728187B2 (en) Electronic device, information terminal system, and method of starting sound recognition function
US20180277119A1 (en) Speech dialogue device and speech dialogue method
EP1450349A1 (en) In-vehicle controller and program for instructing computer to execute operation instruction method
US10950229B2 (en) Configurable speech interface for vehicle infotainment systems
EP3211638A1 (en) Control device, control method, program and information storage medium
US20190080691A1 (en) System and method for language selection
KR20070008615A (ko) 특히 차량을 위해, 목록 항목과 정보 시스템 또는엔터테인먼트 시스템을 선택하는 방법
JP2003114794A (ja) 操作案内装置及び操作案内方法
CN109976515B (zh) 一种信息处理方法、装置、车辆及计算机可读存储介质
JP6281202B2 (ja) 応答制御システム、およびセンター
JP5986468B2 (ja) 表示制御装置、表示システム及び表示制御方法
KR102217653B1 (ko) 차량용 인포테인먼트 시스템 및 그의 제어 방법과 그를 포함하는 차량
US11646034B2 (en) Information processing system, information processing apparatus, and computer readable recording medium
JP6987447B2 (ja) 音声認識装置
US20150192425A1 (en) Facility search apparatus and facility search method
JP5464102B2 (ja) 手書文字入力システム
JP2009180914A (ja) 音声認識機器操作装置
JP2008233009A (ja) カーナビゲーション装置及びカーナビゲーション装置用プログラム
JP2000250592A (ja) 音声認識操作システム
WO2019058453A1 (ja) 音声対話制御装置および音声対話制御方法
JP2019028160A (ja) 電子装置および情報端末システム
WO2015102039A1 (ja) 音声認識装置
KR101518911B1 (ko) 차량의 스마트 기능 검색 시스템 및 그 방법

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20170721

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170728

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191008

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200602