JP2020030322A

JP2020030322A - 音声操作装置および音声操作システム

Info

Publication number: JP2020030322A
Application number: JP2018155811A
Authority: JP
Inventors: 修久木元; Osamu Kukimoto
Original assignee: Denso Ten Ltd
Current assignee: Denso Ten Ltd
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2020-02-27

Abstract

【課題】複数のユーザが時間的に重複して操作指示の発声を行う場合に、操作対象に対して適切なタイミングで操作指示を出力することができる音声操作装置および音声操作システムを提供すること。【解決手段】実施形態に係る音声操作装置は、受付部と、判定部と、出力部とを備える。受付部は、操作対象への操作指示に関する音声の入力を受け付ける。判定部は、受付部によって複数の音声が時間的に重複して受け付けられたか否かを判定する。出力部は、判定部によって複数の音声が時間的に重複して受け付けられたと判定された場合に、複数の音声に対応する操作指示を音声の発声時期に応じた順序で操作対象へ出力する。【選択図】図１

Description

開示の実施形態は、音声操作装置および音声操作システムに関する。

従来、車両に搭載され、車載装置への操作指示に関する音声が入力される場合に、音声認識によって操作対象の車載装置および操作内容を判定し、車載装置に対して操作内容を実行させるための操作指示を出力する音声操作装置がある（例えば、特許文献１参照）。

特開２０１７−０８７９５０号公報

しかしながら、従来の音声操作装置は、複数のユーザが時間的に重複して操作指示の発声を行う場合に、操作対象に対して適切なタイミングで操作指示を出力することができないことがある。

実施形態の一態様は、上記に鑑みてなされたものであって、複数のユーザが時間的に重複して操作指示の発声を行う場合に、操作対象に対して適切なタイミングで操作指示を出力することができる音声操作装置および音声操作システムを提供することを目的とする。

実施形態の一態様に係る音声操作装置は、受付部と、判定部と、出力部とを備える。受付部は、操作対象への操作指示に関する音声の入力を受け付ける。判定部は、前記受付部によって複数の前記音声が時間的に重複して受け付けられたか否かを判定する。出力部は、前記判定部によって前記複数の音声が時間的に重複して受け付けられたと判定された場合に、前記複数の音声に対応する前記操作指示を前記音声の発声時期に応じた順序で前記操作対象へ出力する。

実施形態の一態様に係る音声操作装置および音声操作システムは、複数のユーザが時間的に重複して操作指示の発声を行う場合に、操作対象に対して適切なタイミングで操作指示を出力することができる。

図１は、実施形態に係る音声操作装置が操作指示を出力する順番の一例を示す説明図である。図２は、実施形態に係る音声操作装置の構成の一例を示すブロック図である。図３は、実施形態に係る優先順位情報の一例を示す説明図である。図４は、実施形態に係る音声操作装置の動作例を示す説明図である。図５は、実施形態に係る操作指示の出力順序決定手順を示す説明図である。図６は、実施形態に係る音声操作装置の制御部が実行する処理の一例を示すフローチャートである。図７は、実施形態に係る音声操作装置が操作指示を出力する順番の変形例を示す説明図である。図８は、実施形態に係る音声操作装置による回答方法の変形例を示す説明図である。図９は、実施形態に係る音声操作システムの構成の一例を示す説明図である。

以下、添付図面を参照して、音声操作装置および音声操作システムの実施形態を詳細に説明する。なお、以下に示す実施形態によりこの発明が限定されるものではない。以下では、車両に搭載され、車載装置等への操作指示に関する音声が入力される場合に、音声認識した操作指示を操作対象となる装置へ出力する車両用の音声操作装置を例に挙げて説明する。

なお、実施形態に係る音声操作装置は、車両用に限定されるものではなく、例えば、一般住宅等に設けられ、音声によって入力される操作指示を操作対象となる任意の装置へ出力する所謂スマートスピーカ等の音声操作装置であってもよい。

図１は、実施形態に係る音声操作装置が操作指示を出力する順番の一例を示す説明図である。図１に示すように、車両では、例えば、あるユーザＵ１が時刻ｔ１から時刻ｔ３まで、カーナビゲーション装置（以下、「カーナビ」と記載する）に対する操作指示を発声することがある。

このとき、車両では、１人目のユーザＵ１がカーナビに対する操作指示を発声している最中に、２人目のユーザＵ２が時刻ｔ２からエアコンに対する操作指示を発話して時刻ｔ４で終話する場合がある。

かかる場合、音声操作装置は、カーナビへの操作指示に関する音声の入力を受け付けている期間に、複数の音声が時間的に重複して受け付けられたか否かを判定する。そして、音声操作装置は、複数の音声が時間的に重複して受け付けられたと判定した場合に、複数の音声に対応する操作指示を音声の発声時期に応じた順序で操作対象へ出力する。

例えば、音声操作装置は、発声開始時期が早い順に操作指示を操作対象へ出力する。図１に示すケースでは、音声操作装置は、１人目のユーザＵ１の方が２人目のユーザＵ２よりも先に発話しているため、カーナビに対する操作指示を１番目にカーナビへ出力し、エアコンに対する操作指示を２番目にエアコンへ出力する。

これにより、音声操作装置１は、複数のユーザＵ１，Ｕ２が時間的に重複して操作指示の発声を行う場合に、双方の操作対象に対して、例えば、発声開始時期が早い順に順次適切なタイミングで操作指示を出力することができる。

したがって、音声操作装置は、例えば、操作指示が時間的に重複したことによって、後から発声したユーザＵ２の操作指示が実行されずに、ユーザＵ２が不満を抱く等といった問題の発生を防止することができる。

なお、ここでは、発声開始時期が早い順に操作指示を操作対象へ出力する場合について説明したが、音声操作装置から操作対象へ出力する操作指示の出力順序は、発声開始時期が早い順に限定されるものではない。音声操作装置は、音声が入力される状況や設定によって、発声開始時期が早い順以外の順序で操作指示を操作対象へ出力することもできる。

次に、図２を参照し、実施形態に係る音声操作装置１の構成の一例について説明する。図２は、実施形態に係る音声操作装置１の構成の一例を示すブロック図である。図２に示すように、音声操作装置１は、マイク４と、スピーカ５と、ディスプレイ６と、操作対象７−１〜７−ｎ（ｎは、２以上の自然数）とに接続される。

マイク４は、車室内の音声を集音して音声操作装置１へ出力する。なお、図２には、１個のマイク４を図示しているが、音声操作装置１は、車両に複数のマイクが設けられる場合には、複数のマイクに接続され、それぞれのマイクによって集音される音声が入力される。車両に複数のマイクが設けられる場合の一例については、図８を参照して後述する。

スピーカ５は、音声操作装置１から入力される音声を出音する。例えば、スピーカ５は、音声操作装置１が音声による操作指示を受け付けた場合に、操作指示を発声したユーザに対して行う回答等の音声を出音する。

なお、図２には、１個のスピーカを図示しているが、音声操作装置１は、車両に複数のスピーカが設けられる場合には、それぞれのスピーカから個別または一斉に回答等の音声を出力させる。車両に複数のスピーカが設けられる場合の一例については、図８を参照して後述する。

ディスプレイ６は、例えば、音声操作装置１から入力される画像を表示する。例えば、ディスプレイ６は、音声操作装置１が音声による操作指示を受け付けた場合に、操作指示に対する回答等の画像を表示する。ディスプレイ６による回答の表示例については、図５を参照して後述する。

操作対象７−１〜７−ｎは、例えば、カーナビ、エアコン、パワーウィンドウ、およびＡ／Ｖ（オーディオ／ビデオ）機器等の車載装置である。なお、操作対象７−１〜７−ｎは、車載装置に限定されるものではなく、例えば、ユーザが車両に持ち込んだスマートフォンや携帯Ａ／Ｖ機器等、音声による操作が可能な任意の電子機器であってもよい。以下、操作対象７−１〜７−ｎのうち、任意の操作対象を指す場合には、操作対象７と記載する場合がある。

音声操作装置１は、制御部２と記憶部３とを備える。記憶部３は、例えば、データフラッシュ等の情報記憶デバイスであり、優先順位情報３１を記憶する。ここで、図３を参照し、実施形態に係る優先順位情報３１の一例について説明する。

図３は、実施形態に係る優先順位情報３１の一例を示す説明図である。図３に示すように、優先順位情報３１は、音声によって操作指示が入力される複数種類の操作と、各操作の優先順位とが対応付けられた情報である。

図３に示すＨは、優先度がＨｉｇｈレベルのカテゴリであることを示しており、Ｍは、優先度がＭｉｄｄｌｅレベルのカテゴリであることを示しており、Ｌは、優先度がＬｏｗレベルのカテゴリであることを示している。優先順位情報３１では、例えば、カーナビの目的地設定操作や目的地検索操作等といった車両の走行に関連する操作が優先度でＨｉｇｈレベルのカテゴリに含まれる。

また、例えば、エアコンの温度設定操作やパワーウィンドウによる車窓開放操作等といった車室内環境に関連する操作が優先度でＭｉｄｄｌｅレベルのカテゴリに含まれる。また、例えば、音楽再生操作や映像再生操作等といったエンターテインメントに関連する操作が優先度でＬｏｗレベルのカテゴリに含まれる。

図２へ戻り、制御部２について説明する。制御部２は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）などを有するマイクロコンピュータや各種の回路を含む。

制御部２は、ＣＰＵがＲＯＭに記憶されたプログラムを、ＲＡＭを作業領域として使用して実行することにより機能する受付部２１と、音声認識部２２と、判定部２３と、出力部２４とを備える。

なお、制御部２が備える受付部２１、音声認識部２２、判定部２３、および出力部２４は、一部または全部がＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアで構成されてもよい。

受付部２１、制御部２が備える音声認識部２２、判定部２３、および出力部２４は、それぞれ以下に説明する情報処理の作用を実現または実行する。なお、制御部２の内部構成は、図２に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

受付部２１は、マイク４から操作指示に関する音声の入力を受け付ける。受付部２１は、マイクから受け付ける音声を音声認識部２２へ出力する。音声認識部２２は、受付部２１から入力される音声を音声認識し、音声による操作対象７と操作対象７に対する操作指示の内容とを示す情報を判定部２３へ出力する。

また、音声認識部２２は、ユーザによって発声される音声の発声開始タイミング（時刻）を示す情報と、ユーザによって発声される音声の発声終了タイミング（時刻）を示す情報とを判定部２３へ出力する。

このとき、音声認識部２２は、音声操作装置１を起動させるための予め設定されたウェィクアップワードを認識した時刻を発声開始タイミングとして決定する。また、音声認識部２２は、音声認識を開始した後に所定時間（例えば、２〜３秒間）無音の状態が継続した時点の時刻を発声終了タイミングとして決定する。

判定部２３は、音声認識部２２から入力される情報に基づいて、受付部２１によって複数の音声が時間的に重複して受け付けられたか否かを判定する。そして、音声認識部２２は、複数の音声が時間的に重複して受け付けられていないと判定した場合、その旨を示す情報と音声認識部２２によって音声認識された操作対象７および操作対象７に対する操作指示の内容を示す情報とを出力部２４へ出力する。

出力部２４は、複数の音声が時間的に重複して受け付けられていない場合、つまり、一人のユーザからの音声による操作指示が受け付けられた場合には、音声認識された操作対象７へ操作指示を出力する。そして、出力部２４は、操作指示に対する回答の音声をスピーカ５によって出力させる。

また、判定部２３は、複数の音声が時間的に重複して受け付けられたと判定した場合、その旨を示す情報と音声認識部２２によって音声認識された各操作対象７および各操作対象７に対する操作指示の内容を示す情報とを出力部２４へ出力する。

さらに、判定部２３は、複数のユーザによって時間的に重複して発声される各音声の発声開始タイミング（時刻）を示す情報と、各音声の発声終了タイミング（時刻）を示す情報とを判定部２３へ出力する。

出力部２４は、判定部２３から入力される各音声の発声開始タイミング（時刻）を示す情報と、各音声の発声終了タイミング（時刻）を示す情報とに基づき、各音声の発声時期に応じた順序で音声に含まれる操作指示を操作対象７へ出力する。

ここで、図４を参照し、実施形態に係る操作指示の出力順序決定手順の一例について説明する。図４は、実施形態に係る操作指示の出力順序決定手順を示す説明図である。図４に示すように、出力部２４は、例えば、時刻ｔ１１で１人目のユーザＵ１１がカーナビに対する目的地設定操作のための発声を開始した場合、１人目のユーザＵ１１によって発声された操作指示の出力順番を１番目に決定する。

その後、１人目のユーザＵ１１の発声途中に、例えば、時刻ｔ１２で２人目のユーザＵ２が車窓開放操作のための発声を開始する場合がある。かかる場合、出力部２４は、１人目のユーザＵ１と２人目のユーザＵ２以外に発声するユーザがいなければ、２人目のユーザＵ２によって発声された操作指示の出力順番を２番に決定することができる。

ただし、図４に示すように、例えば、２人目のユーザＵ２の発声開始と同時に、時刻ｔ１２で３人目のユーザＵ３がエアコンに対する温度設定操作のための発声を開始し、４人目のユーザＵ４がＡ／Ｖ機器に対する音楽再生操作のための発声を開始する場合がある。

かかる場合、出力部２４は、３人のユーザＵ２，Ｕ３，Ｕ４の発声開始時期が同時であるため、発声開始時期からだけでは３人のユーザＵ２，Ｕ３，Ｕ４によって発声された操作指示の出力順番を決定することができない。

そこで、出力部２４は、複数のユーザが同時に発声を開始する場合には、音声の発声終了時期が早い順に操作指示を出力する。図４に示す例では、出力部２４は、同時に発声を開始した３人のユーザＵ２，Ｕ３，Ｕ４のうち、３人目のユーザＵ３が最初に時刻ｔ１３で発声を終了した場合、３人目のユーザＵ３による操作指示の出力順番を１人目のユーザＵ１に次ぐ２番目に決定する。

これにより、出力部２４は、同時に発声を開始した３人のユーザＵ２，Ｕ３，Ｕ４のうち、既に操作指示の内容が確定している３人目のユーザＵ３の操作指示を他の２人のユーザＵ２，Ｕ３による発声終了を待たずに操作対象７へ出力することができる。したがって、音声操作装置１は、発声が終了している３人目のユーザＵ３の待ち時間を短縮することができる。

その後、図４に示すように、時刻ｔ１４で２人目のユーザＵ２と、４人目のユーザＵ４とが同時に発声を終了する場合がある。かかる場合、出力部２４は、２人のユーザＵ２，Ｕ４の発声終了時期が同時であるため、発声終了時期からだけでは２人のユーザＵ２，Ｕ４によって発声された操作指示の出力順番を決定することができない。

そこで、出力部２４は、複数のユーザが同時に発声を開始し、同時に発声を終了する場合には、優先順位情報３１に基づいて優先順位が高い順に操作指示を出力する。図４に示す例では、２人目のユーザＵ２による車窓開放操作が優先度でＭｉｄｄｌｅレベルのカテゴリに含まれ、４人目のユーザＵ４による音楽再生操作が優先度でＬｏｗレベルのカテゴリに含まれており、２人目のユーザＵ２の操作指示の方が優先順位が高い。

このため、出力部２４は、２人目のユーザＵ２による操作指示の出力順番を３番に決定し、４人目のユーザＵ４による操作指示の出力順番を４番に決定する。これにより、出力部２４は、例えば、ユーザの嗜好に関連する操作指示よりもユーザの体調に関連する操作指示を優先的に適切なタイミングで操作対象７へ出力することができる。

そして、出力部２４は、上記のように出力する順番が決定した操作指示から順次、操作対象７へ出力する。このように、出力部２４は、発声開始時期、発声終了時期、および操作指示の優先順位を考慮した順序で操作指示を操作対象７へ出力することにより、ユーザの心理、体調、処理時間を鑑みて適切なタイミングで操作指示を各操作対象７へ出力することができる。なお、操作指示は、一回の音声入力による操作指示のみならず、複数回の音声入力を必要とする場合に一連の音声群として取扱い、優先順位を調整することも可能である。

図２へ戻り、出力部２４の説明を続ける。出力部２４は、時間的に重複して受け付けられた複数の音声に含まれる各操作指示を対応する操作対象７へ順次出力した場合、複数の操作指示への回答の出力が時間的に重複することがある。

かかる場合に、出力部２４は、時間的に重複する複数の回答を同時にスピーカ５から出力させると、回答がユーザにとって聞き取りにくくなる。

そこで、出力部２４は、複数の操作指示への回答の出力が時間的に重複する場合、先に操作対象７へ出力した操作指示への回答の音声をスピーカ５によって出力させ、後に操作対象７へ出力した操作指示への回答の文字をディスプレイ６によって表示させる。

例えば、出力部２４は、図４に示したタイミングで４人のユーザＵ１〜Ｕ４から音声による操作指示が受け付けられた場合、例えば、図５に示すように、「自宅を目的地に設定しました。」という音声による回答をスピーカ５によって出力させる。

同時に、出力部２４は、例えば、「＃温度を２５度に設定しました。」、「＃窓を開放します。」、「＃音楽を再生します。」という文字による回答を操作指示の出力順にディスプレイ６に一覧表示させる。

これにより、出力部２４は、複数の操作指示への回答の出力が時間的に重複する場合に、音声による操作指示に対する回答の応答性を向上させることで、音声操作装置１からの回答を待つユーザの待ち時間を最小限に抑えることができる。

次に、図６を参照し、実施形態に係る音声操作装置１の制御部２が実行する処理の一例について説明する。図６は、実施形態に係る音声操作装置１の制御部２が実行する処理の一例を示すフローチャートである。

制御部２は、操作対象７への操作指示に関する音声の入力を受け付けた場合に、図６に示す処理を実行する。具体的には、図６に示すように、制御部２は、音声の入力を受け付けると、まず、音声認識を行う（ステップＳ１０１）。

続いて、制御部２は、重複する音声があるか否かを判定する（ステップＳ１０２）。そして、制御部２は、重複する音声がないと判定した場合（ステップＳ１０２，Ｎｏ）、音声に含まれる操作指示を操作対象７へ出力し（ステップＳ１１０）、処理をステップＳ１０９へ移す。

また、制御部２は、重複する音声があると判定した場合（ステップＳ１０２，Ｙｅｓ）、重複する音声の順番を発声開始が早かった順と決定する（ステップＳ１０３）。続いて、制御部２は、発声開始が同時の音声があるか否かを判定する（ステップＳ１０４）。

そして、制御部２は、発声開始が同時の音声がないと判定した場合（ステップＳ１０４，Ｎｏ）、処理をステップＳ１０８へ移す。また、制御部２は、発声開始が同時の音声があると判定した場合（ステップＳ１０４，Ｙｅｓ）、発声開始が同時の音声の順番を発声終了が早かった順と決定する（ステップＳ１０５）。

続いて、制御部２は、発声終了が同時の音声があるか否かを判定する（ステップＳ１０６）。そして、制御部２は、発声終了が同時の音声がないと判定した場合（ステップＳ１０６，Ｎｏ）、処理をステップＳ１０８へ移す。

また、制御部２は、発声終了が同時の音声があると判定した場合（ステップＳ１０６，Ｙｅｓ）、発声終了が同時の音声の順番を優先順位が高い順と決定する（ステップＳ１０７）。続いて、制御部２は、決定した順番で音声の操作指示を操作対象７へ出力する（ステップＳ１０８）。

最後に、制御部２は、操作指示に対応する回答を出力して（ステップＳ１０９）、処理を終了する。そして、制御部２は、次回、操作対象７への操作指示に関する音声の入力を受け付けた場合に、ステップＳ１０１から処理を開始する。

なお、上述した音声操作装置１の構成および動作は一例であり、種々の変形が可能である。以下、図７および図８を参照し、実施形態の変形例について説明する。

図７は、実施形態に係る音声操作装置１が操作指示を出力する順番の変形例を示す説明図である。図８は、実施形態に係る音声操作装置１による回答方法の変形例を示す説明図である。

上述した実施形態では、音声操作装置１は、発声開始時期が早い順に操作指示を出力する場合について説明したが、発声開始時期とは無関係に、発声終了時期が早い順に操作指示を出力することもできる。

例えば、図７に示すように、車両では、１人目のユーザＵ１が時刻ｔ２１から時刻ｔ２４まで、カーナビに対する目的地設定操作の操作指示を発声することがある。そして、車両では、１人目のユーザＵ１が発声している最中に、２人目のユーザＵ２が時刻ｔ２２から時刻ｔ２３まで、エアコンに対する温度設定操作の操作指示を発声する場合がある。

音声操作装置１は、このように、１人目のユーザＵ１の方が先に発声を開始しても、２人目のユーザＵ２の方が１人目のユーザＵ１よりも先に発声を終了する場合、２人目のユーザＵ２の操作指示を１番目に、１人目のユーザＵ１の操作指示を２番目に出力する。

つまり、音声操作装置１は、２人目のユーザＵ２による温度設定操作の操作指示を１番目にエアコンへ出力し、その後、１人目のユーザＵ１による目的地設定操作の操作指示を２番目にカーナビへ出力する。

これにより、音声操作装置１は、１人目のユーザＵ１が発声している最中に既に操作指示の内容が確定している２人目のユーザＵ２の操作指示を１人目のユーザＵ１による発声終了を待たずにエアコンへ出力することができる。

したがって、音声操作装置１は、発声が終了している２人目のユーザＵ２の待ち時間を短縮し、その後、１人目のユーザＵ１の発声が終了した場合、直ちに１人目のユーザＵ１の操作指示をカーナビへ出力することで時間を有効活用した処理を行うことができる。

また、図８に示すように、音声操作装置１は、複数のマイク４１〜４４と、複数のスピーカ５１〜５４が設けられた車両Ｃに搭載される場合がある。ここで、マイク４１およびスピーカ５１は、運転者Ｄに向けて指向性が設定され、マイク４２およびスピーカ５２は、助手席の乗員Ｐ１に向けて指向性が設定されているものとする。

また、マイク４３およびスピーカ５３は、右側後部座席の乗員Ｐ２に向けて指向性が設定され、マイク４４およびスピーカ５４は、左側後部座席の乗員Ｐ３に向けて指向性が設定されているものとする。

音声操作装置１は、かかる車両Ｃにおいて時間的に重複する複数の音声による操作指示を受け付ける場合、音声が入力されるマイク４１〜４４を判別することによって、発声者を特定可能である。

このため、音声操作装置１は、例えば、運転者Ｄと運転者以外の乗員Ｐ１〜Ｐ３の音声が時間的に重複する場合には、発声開始時期や発声終了時期を問わず、運転者Ｄの操作指示を優先的に操作対象へ出力する。

なお、音声操作装置１は、重複する音声から音声認識によって運転者Ｄと他の乗員Ｐ１〜Ｐ３とを特定する機能を備える場合にも、同様に、運転者Ｄの操作指示を優先的に操作対象へ出力する。

これにより、音声操作装置１は、例えば、運転者Ｄが車両の走行に関連する重要な操作指示を発声する場合に、他の操作指示よりも優先的に運転者Ｄの操作指示に応じた動作を操作対象７に行わせることができる。

そして、音声操作装置１は、運転者Ｄの操作指示を優先させた後、他の操作指示の発声が時間的に重複している場合には、前述した実施形態と同様に、操作指示の発声開始時期や発声終了時期に応じた順序で操作指示を操作対象７へ出力する。

その後、音声操作装置１は、複数の操作指示に対する回答の出力が時間的に重複する場合、複数のスピーカ５１〜５５を使用することによって、運転者Ｄおよび各乗員Ｐ１〜Ｐ３に対して並行して回答を出力することができる。

なお、ここまで、音声操作装置１が音声指示の内容を音声認識する音声認識部２２を備える場合について説明してきたが、音声操作装置１は、必ずしも音声認識部２２を備えている必要はない。

次に、図９を参照し、音声認識部２２を備えていない音声操作装置１ａによって前述した実施形態と同様の音声操作を可能とする音声操作システム１００について説明する。図９は、実施形態に係る音声操作システム１００の構成の一例を示す説明図である。

ここでは、図９に示す構成要素のうち、図２に示す構成要素と同一の構成要素については、図２示す符号と同一の符号を付することにより重複する説明を省略する。図９に示すように、音声操作装置１ａは、音声認識部２２（図２参照）を備えていない点を除き、図２に示す音声操作装置１と同様の構成であり、マイク４、スピーカ５、ディスプレイ６、および操作対象７−１〜７−ｎと接続される。

また、音声操作装置１ａは、例えば、インターネット等の通信ネットワークＮを介して、音声認識部１１１を備えるサーバ装置１１０と無線通信可能に接続される。かかる音声操作装置１ａの受付部２１は、操作指示の内容を音声認識する機能は備えていないが、前述のウェィクアップワードを音声認識する機能は備える。

このため、受付部２１は、ウェィクアップワードの入力を受け付ける場合に、以後に入力される音声をサーバ装置１１０へ送信する。サーバ装置１１０は、音声操作装置１ａから受信する音声から音声認識部１１１によって操作指示の内容を音声認識し、操作指示の内容を音声操作装置１ａへ送信する。

音声操作装置１ａの受付部２１は、サーバ装置１１０から受信する操作指示等の情報を判定部２３へ出力する。そして、判定部２３および出力部２４は、図２に示す音声操作装置１の判定部２３および出力部２４と同様の処理を実行する。

これにより、音声操作装置１ａは、図２に示す音声操作装置１よりも簡易な構成で音声操作装置１と同様に、複数のユーザが時間的に重複して操作指示の発声を行う場合、操作対象７に対して適切なタイミングで操作指示を出力することができる。

さらなる効果や変形例は、当業者によって容易に導き出すことができる。このため、本発明のより広範な態様は、以上のように表しかつ記述した特定の詳細および代表的な実施形態に限定されるものではない。したがって、添付の特許請求の範囲およびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。

１，１ａ音声操作装置
２制御部
２１受付部
２２，１１１音声認識部
２３判定部
２４出力部
３記憶部
３１優先順位情報
４，４１〜４４マイク
５，５１〜５４スピーカ
６ディスプレイ
７，７−１〜７−ｎ操作対象
１００音声操作システム
１１０サーバ装置
Ｎ通信ネットワーク
Ｃ車両
Ｕ１〜Ｕ４ユーザ
Ｄ運転者
Ｐ１〜Ｐ３乗員

Claims

操作対象への操作指示に関する音声の入力を受け付ける受付部と、
前記受付部によって複数の前記音声が時間的に重複して受け付けられたか否かを判定する判定部と、
前記判定部によって前記複数の音声が時間的に重複して受け付けられたと判定された場合に、前記複数の音声に対応する前記操作指示を前記音声の発声時期に応じた順序で前記操作対象へ出力する出力部と
を備えることを特徴とする音声操作装置。
前記出力部は、
前記音声の発声開始時期が早い順に前記操作指示を前記操作対象へ出力する
ことを特徴とする請求項１に記載の音声操作装置。
前記出力部は、
前記音声の発声終了時期が早い順に前記操作指示を前記操作対象へ出力する
ことを特徴とする請求項１に記載の音声操作装置。
前記操作指示の優先順位を記憶する記憶部
をさらに備え、
前記出力部は、
前記記憶部に記憶された優先順位に応じた順序で前記操作指示を前記操作対象へ出力する
ことを特徴とする請求項１〜３のいずれか一つに記載の音声操作装置。
前記出力部は、
前記順序で先に出力した前記操作指示への回答をスピーカによって出力させ、後に出力した操作指示への回答を表示装置によって出力させる
ことを特徴とする請求項１〜４のいずれか一つに記載の音声操作装置。
前記出力部は、
前記操作指示への回答を前記操作指示の発声者へ指向性が設定される指向性スピーカによって出力させる
ことを特徴とする請求項１〜５のいずれか一つに記載の音声操作装置。
前記出力部は、
前記操作対象に対する操作において複数回の音声入力を必要とする場合、一連の音声群として順序を調整する
ことを特徴とする請求項１〜６のいずれか一つに記載の音声操作装置。
操作対象への操作指示に関する音声の入力を受け付ける受付部と、
前記受付部によって受け付けられた音声をサーバ装置へ送信し、前記サーバ装置から前記音声に含まれる前記操作指示の音声認識結果を受信する通信部と、
前記受付部によって複数の前記音声が時間的に重複して受け付けられたか否かを判定する判定部と、
前記判定部によって前記複数の音声が時間的に重複して受け付けられたと判定された場合に、前記複数の音声に対応する前記操作指示を前記音声の発声時期に応じた順序で前記操作対象へ出力する出力部と
を備える音声操作装置と、
前記サーバ装置と
を備えることを特徴とする音声操作システム。