JP2022014313A

JP2022014313A - 音声出力制御装置および音声出力制御プログラム

Info

Publication number: JP2022014313A
Application number: JP2020116585A
Authority: JP
Inventors: 博仁真瀬; Hirohito Mase
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2022-01-19
Anticipated expiration: 2040-07-06
Also published as: JP7407665B2

Abstract

【課題】座席毎に対応するスピーカが設定されている車両内において、搭乗者の状況を考慮し、音声出力が必要と推定される搭乗者に対して音声が出力されるよう、音声出力の制御を行うことができる音声出力制御装置を提供する。【解決手段】車両内を撮像した撮像画像を取得する撮像画像取得部と、撮像画像に基づいて、少なくとも着座位置を含む、搭乗者の状況を検出する搭乗者状況検出部と、スピーカから出力するための音声に関する音声関連情報を取得する音声関連情報取得部と、搭乗者状況情報と、音声関連情報とに基づいて、音声を出力する対象となる対象搭乗者および当該対象搭乗者の着座位置を判定する判定部と、対象搭乗者の着座位置に対応する対象スピーカから、音声を出力させる出力制御部とを備えた。【選択図】図１

Description

本開示は、音声出力制御装置および音声出力制御プログラムに関する。

従来、車両内に複数のスピーカが設置されている場合に、当該複数のスピーカに対する音声の出力制御を行う技術が知られている。
例えば、特許文献１には、運転者が後部座席の搭乗者に話しかける会話動作があると判定されたときは運転者の音声データが後部座席へ出力されるよう制御し、当該会話動作がないと判定されたときは運転者の音声データが後部座席へ出力されないように制御する会話支援装置が開示されている。

特開２０１５－７１３２０号公報

複数のスピーカが設置されている車両内において複数の搭乗者が存在する場合、当該複数のスピーカから出力される音声は、ある搭乗者にとっては必要な音声であっても、他の搭乗者には必要な音声ではない場合があるという課題があった。当該音声が必要ではない搭乗者にとって、当該音声は耳障りとなる。
特許文献１に開示されているような車載装置の技術は、後部座席の搭乗者への会話動作があったか否かを判定しているが、後部座席のどの搭乗者への会話動作であったかは考慮されておらず、依然として上記課題を解決しない。

本開示は、上記のような課題を解決するためになされたもので、座席毎に対応するスピーカが設定されている車両内において、搭乗者の状況を考慮し、音声出力が必要と推定される搭乗者に対して音声が出力されるよう、音声出力の制御を行うことができる音声出力制御装置を提供することを目的とする。

本開示に係る音声出力制御装置は、座席毎に対応するスピーカが設置されている車両内において音声出力を制御する音声出力制御装置であって、車両内を撮像した撮像画像を取得する撮像画像取得部と、撮像画像取得部が取得した撮像画像に基づいて、少なくとも着座位置を含む、搭乗者の状況を検出する搭乗者状況検出部と、スピーカから出力するための音声に関する音声関連情報を取得する音声関連情報取得部と、搭乗者状況検出部が検出した搭乗者の状況に関する搭乗者状況情報と、音声関連情報取得部が取得した音声関連情報とに基づいて、音声を出力する対象となる対象搭乗者および当該対象搭乗者の着座位置を判定する判定部と、スピーカのうち、判定部が判定した対象搭乗者の着座位置に対応する対象スピーカから、音声を出力させる出力制御部を備えたものである。

本開示によれば、座席毎に対応するスピーカが設定されている車両内において、搭乗者の状況を考慮し、音声出力が必要と推定される搭乗者に対して音声が出力されるよう、音声出力の制御を行うことができる。

実施の形態１に係る音声出力制御装置の構成例を示す図である。実施の形態１に係る音声出力制御装置を搭載した車両内のイメージの一例を説明するための図である。実施の形態１に係る音声出力制御装置の動作を説明するためのフローチャートである。図４Ａ，図４Ｂは、実施の形態１に係る音声出力制御装置のハードウェア構成の一例を示す図である。

以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。
実施の形態１．
図１は、実施の形態１に係る音声出力制御装置１の構成例を示す図である。
音声出力制御装置１は、車両１００に搭載され、カメラ２、ＡＶ機器３、マイク４、および、スピーカ５と接続される。

カメラ２は、車両１００に設置され、少なくとも、車両１００内の各座席を含む領域を撮像する。なお、カメラ２は、いわゆる「ドライバーモニタリングシステム（ＤｒｉｖｅｒＭｏｎｉｔｏｒｉｎｇＳｙｓｔｅｍ，ＤＭＳ）」と共用のものであってもよい。
図１では、便宜上、カメラ２は１つのみ図示しているが、これは一例に過ぎない。カメラ２は、車両１００内に複数設置されるようになっていてもよい。例えば、カメラ２は、座席毎に１台設置されるようになっていてもよい。
カメラ２は、車両１００内を撮像した撮像画像を、音声出力制御装置１に出力する。

ＡＶ（Ａｕｄｉｏ／Ｖｉｓｕａｌ）機器３は、車両１００に設置されている車載ＡＶ装置である。ＡＶ機器３は、例えば、カーナビゲーション装置、車載用テレビ、または、車載用ラジオである。ＡＶ機器３は、音声にて操作が可能な音声制御機器も含む。図１では、便宜上、ＡＶ機器３は１つのみ図示しているが、これは一例に過ぎない。ＡＶ機器３は、車両１００内に複数設置されるようになっていてもよい。

ＡＶ機器３は、例えば、搭乗者から操作を受け付け、受け付けた操作に基づき動作する。ＡＶ機器３は、受け付けた操作が音声出力を伴う操作である場合、スピーカ５から出力するための音声に関する情報（以下「音声関連情報」という。）を出力する。
ＡＶ機器３が出力した音声関連情報に基づく音声は、音声出力制御装置１の制御に基づき、スピーカ５から出力される。音声関連情報に基づく音声は、具体的には、例えば、テレビもしくはラジオのＡＶ出力、応答メッセージ、道案内音声、または、インフォメーション音声である。実施の形態１において、インフォメーション音声とは、車両１００の搭乗者全員にあてた案内音声である。
なお、音声出力制御装置１が、ＡＶ機器３から出力された音声関連情報に基づく音声を出力しないと判定した場合には、例えば、当該音声は、スピーカ５から出力しないよう制御される。

ＡＶ機器３が出力する音声関連情報には、例えば、音声データと、当該音声データを出力したＡＶ機器３に関する情報（以下「音声出力機器情報」という。）が含まれる。音声出力機器情報は、ＡＶ機器３を特定可能な情報であればよい。また、音声出力機器情報には、例えば、音声の種別に関する情報が含まれていてもよい。実施の形態１において、音声の種別とは、例えば、ＡＶ出力、応答メッセージ、道案内、または、インフォメーション等、音声がどのような目的で出力されるかの種別をいう。当該種別は、予め設定されている。

マイク４は、車両１００に設置され、例えば、車両１００内において搭乗者が発した音声を収集する。車両１００内において搭乗者が発する音声は、ある搭乗者による、他の搭乗者への発話、または、音声制御機器に対する操作指示等である。図１では、便宜上、マイク４は１つのみ図示しているが、これは一例に過ぎない。マイク４は、車両１００内に複数設置されるようになっていてもよい。例えば、マイク４は、座席毎に１つ設置されるようになっていてもよい。マイク４が複数設置される場合、どのマイク４が、どの座席からの音声を収集するかは、予め決められている。
マイク４は、収集した音声に関する音声関連情報を、音声出力制御装置１に出力する。マイク４が出力する音声は、音声出力制御装置１の制御に基づき、スピーカ５から出力される。なお、音声出力制御装置１が、マイク４が収集した音声を出力しないと判定した場合には、当該音声は、例えば、スピーカ５から出力しないよう制御される。
マイク４が出力する音声関連情報には、音声データが含まれる。

スピーカ５は、指向性スピーカ５１と減衰用スピーカ５２とを含む。指向性スピーカ５１と減衰用スピーカ５２とは、それぞれ、車両１００内の各座席と対応付けて設置される。指向性スピーカ５１によって、各座席に別々の音声が出力可能となっている。指向性スピーカ５１は、音声出力制御装置１の制御に基づいて、音声を出力する。減衰用スピーカ５２は、音声出力制御装置１の制御に基づいて、他のスピーカ５から出力される音声を減衰させるための逆位相の音声を出力する。なお、音声出力制御装置１は、指向性スピーカ５１と減衰用スピーカ５２の切替を行う。

ここで、図２は、実施の形態１に係る音声出力制御装置１を搭載した車両１００内のイメージの一例を説明するための図である。なお、図２において、音声出力制御装置１の図示は省略している。音声出力制御装置１は、例えば、ダッシュボード等に設置される。
図２では、上方からみた車両１００内のイメージの一例を示している。
図２では、例えば、ＡＶ機器３は、車両１００のダッシュボードに１つ設置されるものとしている。また、例えば、カメラ２は、各座席に、座席の前方から各座席を含む領域を撮像するよう設置されるものとしている。また、例えば、マイク４は、各座席に、座席毎の音声を収集するよう設置されるものとしている。また、例えば、指向性スピーカ５１は、各座席を取り囲むように、座席と対応付けて、座席毎に４つ設置されるものとしている。また、例えば、減衰用スピーカ５２は、各座席に２つずつ設置されるものとしている。

音声出力制御装置１の構成例について説明する。
音声出力制御装置１は、撮像画像取得部１１、搭乗者状況検出部１２、音声関連情報取得部１３、音声解析部１４、判定部１５、および、出力制御部１６を備える。音声関連情報取得部１３は、機器関連情報取得部１３１および集音情報取得部１３２を備える。出力制御部１６は、減衰データ生成部１６１および減衰データ出力部１６２を備える。

撮像画像取得部１１は、カメラ２から、車両１００内を撮像した撮像画像を取得する。
撮像画像取得部１１は、取得した撮像画像を、搭乗者状況検出部１２に出力する。

搭乗者状況検出部１２は、撮像画像取得部１１が取得した撮像画像に基づいて、搭乗者の状況を検出する。
実施の形態１において、搭乗者の状況とは、例えば、搭乗者の着座位置、搭乗者の名前、搭乗者が発話しているか否か、搭乗者がＡＶ機器３の操作を行っているか否か、搭乗者が睡眠状態であるか否か、または、搭乗者の視線の向きをいう。
具体的には、例えば、搭乗者状況検出部１２は、撮像画像に対して、既知の画像解析処理を行って、搭乗者の状況を検出する。また、搭乗者状況検出部１２は、必要に応じて、記憶部１７に記憶されている、搭乗者に関する情報（以下「ユーザ情報」という。）、または、ＡＶ機器３に関する情報（以下「機器情報」という。）を参照して、搭乗者の状況を検出する。ユーザ情報には、例えば、搭乗者の名前または顔写真等、当該搭乗者を特定可能な情報が含まれる。機器情報には、例えば、ＡＶ機器３を特定可能な情報と、ＡＶ機器３の設置位置に関する情報が含まれる。

搭乗者状況検出部１２が搭乗者の状況を検出する方法について、具体例を挙げて具体的に説明する。
例えば、搭乗者状況検出部１２は、撮像画像に対して既知の画像解析処理を行って、車両１００内に存在する搭乗者の顔を検出するとともに、各搭乗者の着座位置を検出する。なお、カメラ２の設置位置および画角は予めわかっているので、搭乗者状況検出部１２は、搭乗者の顔を検出すると、当該搭乗者がどの座席に着座しているか特定できる。例えば、搭乗者状況検出部１２は、記憶部１７に記憶されているユーザ情報と突き合わせることで、当該搭乗者の名前も特定することができる。
また、例えば、搭乗者状況検出部１２は、撮像画像に対して既知の画像解析処理を行って、搭乗者が睡眠状態であることを検出する。搭乗者状況検出部１２は、例えば、搭乗者が目を閉じた状態が予め設定された時間継続すれば、当該搭乗者が睡眠状態であると検出する。

また、例えば、搭乗者状況検出部１２は、撮像画像に対して既知の画像解析処理を行って、搭乗者がＡＶ機器３の表示部の操作を行っている状態であること、または、搭乗者がリモコン操作を行っている状態であること等、搭乗者によるＡＶ機器３等の操作状況を検出する。
また、例えば、搭乗者状況検出部１２は、撮像画像に対して既知の画像解析処理を行って、搭乗者の視線方向を検出する。その際、搭乗者状況検出部１２は、例えば、カメラ２の設置位置と、カメラ２の画角と、検出した搭乗者の視線方向と、記憶部１７に記憶されている機器情報とから、搭乗者の視線の先に設置されているＡＶ機器３を特定することができる。また、例えば、搭乗者状況検出部１２は、車両１００に搭載されている、図示しないＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）から取得した車両１００の現在位置、図示しない地図データベースから取得した地図情報、カメラ２の設置位置、および、カメラ２の画角に基づいて、搭乗者が視線を向けている先の車両１００外の地点の位置情報を算出することもできる。

また、搭乗者状況検出部１２は、撮像画像に対して既知の画像解析処理を行って、搭乗者が発話状態であることを検出する。搭乗者状況検出部１２は、例えば、搭乗者が口を開けている状態であれば、当該搭乗者は発話状態であると検出する。例えば、搭乗者状況検出部１２は、搭乗者が発話状態であることを検出した場合、搭乗者による発話が、音声制御機器を音声操作するための発話であるのか、他の搭乗者等、音声制御機器以外の人への発話であるのかを、判定することもできる。例えば、搭乗者状況検出部１２は、搭乗者の視線方向が音声制御機器を向いている、または、搭乗者の視線方向が音声制御機器への操作指示を入力するためのマイク４を向いている場合、搭乗者による発話は、音声制御機器を操作するための発話であると判定する。また、搭乗者状況検出部１２は、搭乗者の口の動きによって、搭乗者による発話は、音声制御機器を操作するための発話であると判定してもよい。搭乗者状況検出部１２は、搭乗者の口の動きが、予め設定されている、音声制御機器を操作するための発話を行った場合の口の動きであれば、搭乗者が音声制御機器を操作するための会話を行ったと判定する。

なお、上述した例は一例に過ぎない。搭乗者状況検出部１２は、搭乗者の状況として、上述したような状況以外の状況を検出するようになっていてもよいし、上述したような状況のうちのいくつかの状況を検出するようになっていてもよい。ただし、搭乗者状況検出部１２は、搭乗者の状況として、少なくとも、搭乗者の着座位置を検出するものとする。
搭乗者状況検出部１２は、検出した搭乗者の状況に関する情報（以下「搭乗者状況情報」という。）を、判定部１５に出力する。搭乗者状況情報は、搭乗者毎に、当該搭乗者の状況として少なくとも着座位置が対応づけられた情報である。

音声関連情報取得部１３は、ＡＶ機器３もしくはマイク４、または、ＡＶ機器３およびマイク４の両方から、音声関連情報を取得する。
具体的には、音声関連情報取得部１３の機器関連情報取得部１３１は、ＡＶ機器３から、音声関連情報を取得する。
機器関連情報取得部１３１がＡＶ機器３から取得する音声関連情報には、例えば、ＡＶ機器３を特定可能な情報と、音声データが含まれている。音声関連情報において、ＡＶ機器３を特定可能な情報と音声データとは関連付けられている。
具体例を挙げると、例えば、ＡＶ機器３が搭乗者に対してアラートを出力しようとした場合、機器関連情報取得部１３１は、ＡＶ機器３からアラートを出力するための音声データと、当該アラートを出力したＡＶ機器３を特定可能な情報とを音声関連情報として取得する。

また、例えば、ＡＶ機器３がカーナビゲーション装置であり、当該カーナビゲーション装置が搭乗者からのタッチパネル操作を受け付けたとすると、機器関連情報取得部１３１は、カーナビゲーション装置から、「はい」等、当該タッチパネル操作に応答する応答メッセージを示す音声データと、当該音声データを出力したカーナビゲーション装置を特定可能な情報とを、音声関連情報として取得する。
また、例えば、ＡＶ機器３が車載用テレビであり、当該車載用テレビが、搭乗者からのリモコン操作を受け付けてＯＮ状態となったとすると、機器関連情報取得部１３１は、当該車載用テレビから、テレビ放送のＡＶ音声データと、当該ＡＶ音声データを出力している車載用テレビを特定可能な情報とを、音声関連情報として取得する。

また、機器関連情報取得部１３１がＡＶ機器３から取得する音声関連情報には、例えば、音声データの種別に関する情報が含まれてもよい。具体例を挙げると、例えば、カーナビゲーション装置が道案内を行っているとすると、機器関連情報取得部１３１は、当該カーナビゲーション装置から、「次の信号を右折してください」等、道案内のための音声データと、当該音声データの種別が「道案内」を示す種別である旨の情報とを、音声関連情報として取得する。

また、機器関連情報取得部１３１がＡＶ機器３から取得する音声関連情報には、例えば、音声データが含まれ、当該音声データは、地点を案内するための音声データであってもよい。具体例を挙げると、例えば、カーナビゲーション装置が車両１００の周辺の場所の案内を行っているとすると、機器関連情報取得部１３１は、当該カーナビゲーション装置から、「右手に見える△△国立公園は紅葉で有名です」等、地点を案内する音声データを、音声関連情報として取得する。機器関連情報取得部１３１は、当該カーナビゲーション装置から、案内する地点の位置情報を、当該地点を案内する音声データとともに、音声関連情報として取得してもよい。

音声関連情報取得部１３の集音情報取得部１３２は、マイク４から音声関連情報を取得する。
集音情報取得部１３２が取得する音声関連情報には、例えば、搭乗者による、他の搭乗者への発話音声が含まれる。具体例を挙げると、例えば、集音情報取得部１３２は、マイク４から、「〇〇さん、・・・」または「みなさん、・・・」等の発話音声データを、音声関連情報として取得する。
また、集音情報取得部１３２が取得する音声関連情報には、例えば、搭乗者による、音声制御機器を音声操作するための発話音声データが含まれていてもよい。具体例を挙げると、例えば、集音情報取得部１３２は、マイク４から、「ボリュームを上げて」等の発話音声データを、音声関連情報として取得する。
音声関連情報取得部１３は、取得した音声関連情報を、音声解析部１４または判定部１５に出力する。具体的には、機器関連情報取得部１３１は、取得した音声関連情報を、判定部１５に出力する。集音情報取得部１３２は、取得した音声関連情報を、音声解析部１４に出力する。

音声解析部１４は、集音情報取得部１３２が取得した音声関連情報に基づき、集音情報取得部１３２が取得した発話音声データの発話内容を解析する。音声解析部１４は、音声認識辞書を用いる等、既存の音声認識技術を用いて、発話内容を解析するようにすればよい。
音声解析部１４は、発話内容の解析結果を付与した音声関連情報を、判定部１５に出力する。

判定部１５は、搭乗者状況検出部１２から出力された搭乗者状況情報と、音声関連情報取得部１３が取得した音声関連情報とに基づいて、車両１００の搭乗者のうち、音声関連情報取得部１３が取得した音声を出力する対象となる搭乗者（以下「対象搭乗者」という。）、および、当該対象搭乗者の着座位置を判定する。そして、判定部１５は、判定した対象搭乗者に関する情報（以下「対象搭乗者情報」という。）を、出力制御部１６に出力する。このとき、判定部１５は、対象搭乗者に対して出力すべき音声データを、対象搭乗者情報と対応付けて、出力制御部１６に出力するようにする。

具体的には、例えば、判定部１５は、音声関連情報取得部１３の機器関連情報取得部１３１がＡＶ機器３から取得した音声関連情報、または、音声関連情報取得部１３の集音情報取得部１３２がマイク４から取得し、音声解析部１４が発話内容の解析を行った後の音声関連情報と、搭乗者状況検出部１２から出力された搭乗者状況情報とに基づいて、対象搭乗者を判定する。以下に、いくつか具体例を挙げて、判定部１５による、音声関連情報と搭乗者に基づく対象搭乗者の判定方法を説明する。

（１）音声関連情報を出力したＡＶ機器３を操作している搭乗者を対象搭乗者と判定する例
例えば、判定部１５は、音声関連情報と搭乗者状況情報とに基づき、音声関連情報を出力したＡＶ機器３を操作している搭乗者を、対象搭乗者と判定する。この場合、音声関連情報には、音声データと、当該音声データを出力したＡＶ機器３に関する情報が含まれている。また、搭乗者状況情報には、搭乗者によるＡＶ機器３の操作状況が含まれている。具体例を挙げると、例えば、ＡＶ機器３が車載用テレビであったとし、ある搭乗者がリモコン操作によって車載用テレビを操作したとする。この場合、判定部１５は、ある搭乗者がリモコン操作を行った旨の搭乗者状況情報を取得する。また、判定部１５は、車載用テレビから、リモコン操作が行われたことを示す情報を含む音声関連情報を取得する。判定部１５は、音声関連情報と搭乗者状況情報とに基づき、ある搭乗者が車載用テレビを操作したと判定することができる。そして、判定部１５は、ある搭乗者を対象搭乗者と判定する。
判定部１５は、対象搭乗者を判定すると、搭乗者状況情報に基づき、当該対象搭乗者の着座位置を判定する。判定部１５は、ＡＶ機器３、上述の例でいうと車載用テレビ、を操作している搭乗者を対象搭乗者とする旨の対象搭乗者情報を、出力制御部１６に出力する。このとき、判定部１５は、対象搭乗者の着座位置に関する情報を、対象搭乗者情報に含める。
判定部１５は、対象搭乗者に対して出力すべき、車載用テレビからの音声データを、対象搭乗者情報と対応付けて、出力制御部１６に出力する。なお、音声データは、音声関連情報に含まれている音声データである。

（２）音声関連情報を出力したＡＶ機器３の方向に視線を向けている搭乗者を対象搭乗者と判定する例
例えば、判定部１５は、音声関連情報と搭乗者状況情報とに基づき、音声関連情報を出力したＡＶ機器３の方向に視線を向けている搭乗者を、対象搭乗者と判定してもよい。この場合、音声関連情報には、音声データと、当該音声データを出力したＡＶ機器３に関する情報が含まれている。また、搭乗者状況情報には、搭乗者の視線および当該視線が向けられているＡＶ機器３に関する情報が含まれている。具体例を挙げると、例えば、ＡＶ機器３が車載用テレビであったとし、当該車載用テレビからＡＶ出力データが音声関連情報として出力されたとする。この場合、判定部１５は、搭乗者状況情報に基づき、車載用テレビの表示部の方向に視線を向けている搭乗者を、対象搭乗者と判定する。
判定部１５は、対象搭乗者を判定すると、搭乗者状況情報に基づき、当該対象搭乗者の着座位置を判定する。判定部１５は、ＡＶ機器３、上述の例でいうと車載用テレビ、の方向に視線を向けている搭乗者を対象搭乗者とする旨の対象搭乗者情報を、出力制御部１６に出力する。このとき、判定部１５は、対象搭乗者の着座位置に関する情報を、対象搭乗者情報に含める。
判定部１５は、対象搭乗者に対して出力すべき、車載用テレビからの音声データを、対象搭乗者情報と対応付けて、出力制御部１６に出力する。なお、音声データは、音声関連情報に含まれている音声データである。

（３）音声の種別にマッチする状況にある搭乗者を対象搭乗者と判定する例
例えば、判定部１５は、音声関連情報と搭乗者状況情報とに基づき、音声データの種別に応じて、当該音声の種別にマッチする状況にある搭乗者を対象搭乗者と判定するようにしてもよい。この場合、音声関連情報には、音声データと、当該音声データの種別に関する情報が含まれている。なお、どの音声データの種別に対して、どのような状況を、マッチする状況とするかは、予め決められている。
例えば、音声関連情報に含まれている音声データの種別が「道案内」を示す種別であったとする。この場合、判定部１５は、搭乗者状況情報に基づき、例えば、運転者と、カーナビゲーション装置に表示されている地図に視線を向けている搭乗者とを、対象搭乗者と判定する。なお、この場合、搭乗者状況情報には、搭乗者の視線および当該視線が向けられているＡＶ機器３に関する情報が含まれているものとする。判定部１５は、搭乗者状況情報に基づいて、運転者、および、カーナビゲーション装置に表示されている地図に視線を向けている搭乗者を判定する。
判定部１５は、対象搭乗者を判定すると、搭乗者状況情報に基づき、当該対象搭乗者の着座位置を判定する。判定部１５は、運転者、および、カーナビゲーション装置に表示されている地図に視線を向けている搭乗者を対象搭乗者とする旨の対象搭乗者情報を、出力制御部１６に出力する。このとき、判定部１５は、対象搭乗者の着座位置に関する情報を、対象搭乗者情報に含める。
判定部１５は、対象搭乗者に対して出力すべき、カーナビゲーション装置からの音声データを、対象搭乗者情報と対応付けて、出力制御部１６に出力する。なお、音声データは、音声関連情報に含まれている音声データである。

例えば、音声関連情報に含まれている音声データの種別が「インフォメーション」を示す種別の場合は、判定部１５は、搭乗者のうち、覚醒している搭乗者、言い換えれば、睡眠状態でない搭乗者を、対象搭乗者と判定する。なお、この場合、搭乗者状況情報には、搭乗者が睡眠状態であることを示す情報が含まれているものとする。判定部１５は、搭乗者状況情報に基づいて、覚醒している搭乗者を判定する。
判定部１５は、対象搭乗者を判定すると、搭乗者状況情報に基づき、当該対象搭乗者の着座位置を判定する。判定部１５は、覚醒している搭乗者を対象搭乗者とする旨の対象搭乗者情報を、出力制御部１６に出力する。このとき、判定部１５は、対象搭乗者の着座位置に関する情報を、対象搭乗者情報に含める。

例えば、音声関連情報に含まれている音声データの種別が「アラート」を示す種別の場合は、判定部１５は、搭乗者全員を対象搭乗者と判定する。判定部１５は、搭乗者全員を対象搭乗者とする旨の対象搭乗者情報を、出力制御部１６に出力する。このとき、判定部１５は、対象搭乗者の着座位置に関する情報を、対象搭乗者情報に含める。

（４）音声の内容にマッチする状況にある搭乗者を対象搭乗者と判定する例
例えば、判定部１５は、音声関連情報と搭乗者状況情報とに基づき、音声データが地点を案内する音声データである場合、視線が当該地点の方向を向いている搭乗者を、対象搭乗者と判定する。具体例を挙げると、例えば、ＡＶ機器３はカーナビゲーション装置であったとし、音声関連情報に含まれる音声が「右手に見える△△国立公園は紅葉で有名です」のように、△△国立公園という地点を案内する音声データであったとする。この場合、判定部１５は、視線が当該△△国立公園の方向を向いている搭乗者を、対象搭乗者と判定する。なお、この場合、音声関連情報には、△△国立公園の位置に関する情報が含まれているものとする。また、搭乗者状況情報には、視線の先の位置に関する情報が含まれているものとする。判定部１５は、視線の先の位置と、△△国立公園の位置とをマッチングさせることで、視線が△△国立公園の方向を向いている搭乗者を判定できる。
判定部１５は、対象搭乗者を判定すると、搭乗者状況情報に基づき、当該対象搭乗者の着座位置を判定する。判定部１５は、音声データによって案内される地点の方向に視線を向けている搭乗者を対象搭乗者とする旨の対象搭乗者情報を、出力制御部１６に出力する。このとき、判定部１５は、対象搭乗者の着座位置に関する情報を、対象搭乗者情報に含める。
判定部１５は、対象搭乗者に対して出力すべき、カーナビゲーション装置からの音声データを、対象搭乗者情報と対応付けて、出力制御部１６に出力する。なお、音声データは、音声関連情報に含まれている音声データである。

（５）発話音声に基づいて、特定の搭乗者を対象搭乗者と判定する例
例えば、ある搭乗者が、他の搭乗者に対して、「〇〇さん、」と呼びかける発話を行ったとする。この場合、マイク４は、当該発話による発話音声を収集し、集音情報取得部１３２は、マイク４から発話音声の音声データを音声関連情報として取得する。そして、音声解析部１４は、「〇〇さん、」との発話内容の解析を行う。
この場合、判定部１５は、発話音声に含まれている「〇〇」という名前の搭乗者を、対象搭乗者とする。
判定部１５は、対象搭乗者を判定すると、搭乗者状況情報に基づき、当該対象搭乗者の着座位置を判定する。具体的には、判定部１５は、「○○」という名前の搭乗者の着座位置を判定する。この場合、搭乗者状況情報には、搭乗者の名前の情報が含まれているものとする。そして、判定部１５は、「○○」という名前の搭乗者が対象搭乗者である旨の情報を、対象搭乗者情報として、出力制御部１６に出力する。このとき、判定部１５は、対象搭乗者の着座位置に関する情報を、対象搭乗者情報に含める。
判定部１５は、対象搭乗者に対して出力すべき、マイク４が収集した音声データを、対象搭乗者情報と対応付けて、出力制御部１６に出力する。なお、音声データは、音声関連情報に含まれている音声データである。

（６）発話音声に基づいて、複数の搭乗者を対象搭乗者と判定する例
例えば、ある搭乗者が、「みなさん、」と呼びかける発話を行ったとする。この場合、マイク４は、当該発話による発話音声を収集し、集音情報取得部１３２は、マイク４から発話音声の音声データを音声関連情報として取得する。そして、音声解析部１４は、「みなさん、」との発話内容の解析を行う。
この場合、判定部１５は、対象搭乗者は搭乗者全員であると判定する。そして、判定部１５は、搭乗者全員が対象搭乗者である旨の情報を対象搭乗者情報として、出力制御部１６に出力する。このとき、判定部１５は、対象搭乗者の着座位置に関する情報を、対象搭乗者情報に含める。
判定部１５は、対象搭乗者に対して出力すべき、マイク４から取得した音声データを、対象搭乗者情報と対応付けて、出力制御部１６に出力する。なお、音声データは、音声関連情報に含まれている音声データである。

上述の（５）の例において、判定部１５は、例えば、双方向の会話を成立させるために、発話を行った搭乗者も対象搭乗者と判定するようにしてもよい。この場合、判定部１５は、搭乗者状況検出部１２から出力された搭乗者状況情報に基づき、発話を行った搭乗者を特定する。具体的には、判定部１５は、例えば、搭乗者状況情報に基づき、発話状態である搭乗者を、発話を行った搭乗者と特定し、当該搭乗者を、「〇〇」という名前の搭乗者とともに、対象搭乗者と判定する。
また、上述の（６）の一例において、判定部１５は、例えば、発話を行った搭乗者以外の搭乗者を対象搭乗者と判定するようにしてもよい。この場合、判定部１５は、搭乗者状況検出部１２から出力された搭乗者状況情報に基づき、発話を行った搭乗者を特定する。搭乗者状況情報に基づき発話を行った搭乗者を特定する方法の一例は上述のとおりであるので、重複した説明を省略する。判定部１５は、特定した、発話を行った搭乗者以外の搭乗者を、対象搭乗者と判定する。
また、判定部１５は、上述した（１）～（６）の例のような判定を並行して行ってもよい。

実施の形態１において、判定部１５は、音声操作者判定部１５１を備える。
音声操作者判定部１５１は、搭乗者状況検出部１２から出力された搭乗者状況情報に基づき、車両１００内に設置されている音声制御機器に対して、音声による操作指示を行った搭乗者（以下「音声操作搭乗者」という。）がいるか否かを判定する。
上述のとおり、搭乗者状況検出部１２は、搭乗者が音声制御機器を操作するための会話を行った状況であることを検出できる。例えば、搭乗者状況情報には、音声制御機器を操作するための会話を行ったことを検出した旨の情報が含まれているものとする。なお、例えば、音声操作者判定部１５１が、搭乗者状況情報に基づき、視線が音声制御機器、または、マイク４の方向を向いていて、かつ、発話状態である搭乗者が存在するか否かを判定し、当該搭乗者が存在する場合に、当該搭乗者を音声操作搭乗者と判定するようにしてもよい。
音声操作者判定部１５１が、音声操作搭乗者がいると判定すると、判定部１５は、当該音声操作搭乗者に関する情報（以下「音声操作者情報」という。）を、出力制御部１６に出力する。判定部１５は、音声操作者情報に、音声操作搭乗者の着座位置の情報を含めるようにする。

出力制御部１６は、車両１００に設置されている指向性スピーカ５１のうち、判定部１５が判定した対象搭乗者の着座位置に対応する指向性スピーカ５１（以下「対象スピーカ」という。）から、音声関連情報取得部１３が取得した音声関連情報に基づく音声を出力させる。具体的には、出力制御部１６は、判定部１５が判定した対象スピーカから、判定部１５から対象搭乗者情報とともに出力された音声データに基づく音声を出力する。
例えば、予め、記憶部１７には、車両１００内の座席とスピーカ５とを対応付けたスピーカ情報が記憶されているものとし、出力制御部１６は、スピーカ情報から、対象スピーカを特定すればよい。
出力制御部１６は、対象スピーカから音声関連情報に基づく音声を出力させる際、出力音声の音量を制御することもできる。具体的には、例えば、出力制御部１６は、音声関連情報に含まれている、音声データの種別に応じて、音量を制御することもできる。音声データがどの種別であった場合に、どれぐらいの音量で当該音声を出力するかは、予め決められているものとする。

実施の形態１において、出力制御部１６は、減衰データ生成部１６１および減衰データ出力部１６２を備える。減衰データ生成部１６１および減衰データ出力部１６２は、減衰用スピーカ５２から、他のスピーカ５からの音声を減衰させるための逆位相の音声を出力する制御を行う場合に機能する。
具体的には、減衰データ生成部１６１は、音声関連情報取得部１３が取得した音声データを減衰させるための逆位相の減衰データを生成し、生成した減衰データを減衰データ出力部１６２に出力する。減衰データ出力部１６２は、減衰データ生成部１６１が生成した減衰データを、各座席に対応する減衰用スピーカ５２から出力させる。すなわち、減衰データ出力部１６２は、音声データに基づく音声を減衰させるための音声を出力する。
減衰データ生成部１６１および減衰データ出力部１６２が機能するケースについて、いくつか具体例を挙げて説明する。
例えば、減衰データ生成部１６１は、判定部１５が判定した対象搭乗者以外の搭乗者の着座位置に対応するスピーカ５から出力された音声を減衰させるための減衰データを生成する。そして、出力制御部１６が、対象搭乗者の着座位置に対応する対象スピーカから音声関連情報に基づく音声を出力させると、減衰データ出力部１６２は、減衰データ生成部１６１が生成した減衰データを、対象搭乗者以外の搭乗者の着座位置に対応する減衰用スピーカ５２から出力する。
また、例えば、判定部１５から音声操作者情報が出力された場合、減衰データ生成部１６１は、音声関連情報取得部１３が取得した音声データ、具体的には、音声関連情報取得部１３の集音情報取得部１３２がマイク４から音声関連情報に含まれる音声データのノイズを減衰するための減衰データを生成することもできる。そして、減衰データ出力部１６２は、減衰データを出力する。なお、減衰データ出力部１６２は、音声操作搭乗者の着座位置に対応する減衰用スピーカ５２から減衰用データを出力する。

また、例えば、音声出力制御装置１は、対象搭乗者の状況が変化したことに応じて、減衰データ生成部１６１および減衰データ出力部１６２を機能させるようにしてもよい。すなわち、音声出力制御装置１は、ＡＶ機器３から出力される音声データに基づく音声を聞く側の対象搭乗者の状況の変化に応じて、当該音声を搭乗者に届かないように減衰させて出力するようにすることができる。
例えば、ある搭乗者がＡＶ機器３を動作させる指示を入力する操作を行った際、ＡＶ機器３は、当該操作が行われたことにより音声を出力するための音声関連情報を出力する。判定部１５は、操作を行っている人を対象搭乗者とする（上記（１）の場合参照）。出力制御部１６は、対象搭乗者の着座位置に対応する対象スピーカからＡＶ機器３からの音声関連情報に基づく音声を出力させる。その後、ある搭乗者がＡＶ機器３を停止させる操作を行わない限り、当該ＡＶ機器３からは継続的に音声関連情報が出力されることになる。ここで、出力制御部１６の減衰データ生成部１６１は、搭乗者状況情報に基づき、ある搭乗者、言い換えれば、対象搭乗者が睡眠状態となったと判定した場合、対象スピーカから出力された音声を減衰させるための減衰データを生成し、減衰データ出力部１６２は、対象搭乗者の着座位置に対応する減衰用スピーカ５２から減衰データを出力させる。

このように、音声出力制御装置１は、車両１００の搭乗者の状況に応じて、当該搭乗者のうち、音声が必要とされる対象搭乗者の着座位置に対応する対象スピーカからのみ、音声が出力されるようにする。
例えば、ある搭乗者がリモコンを操作してＡＶ機器３を動作させ、ＡＶ機器３から当該操作に応答する応答メッセージに関する音声関連情報が出力されたとすると、音声出力制御装置１は、当該ある搭乗者を対象搭乗者と判定し、ＡＶ機器３を動作させた搭乗者の着座位置に対応する対象スピーカからのみ、応答メッセージを出力させる。
また、例えば、ＡＶ機器３がナビゲーション装置であり、当該ナビゲーション装置から道案内を行う音声データに関する音声関連情報が出力されたとすると、音声出力制御装置１は、運転者、および、視線をナビゲーション装置に表示されている地図の方向に向けている搭乗者を対象搭乗者と判定し、運転者、および、視線をナビゲーション装置に表示されている地図の方向に向けている搭乗者の着座位置に対応する対象スピーカからのみ、道案内を行う音声を出力させる。
また、例えば、ＡＶ機器３がナビゲーション装置であり、当該ナビゲーション装置から△△国立公園を案内する音声データに関する音声関連情報が出力されたとすると、音声出力制御装置１は、視線を△△国立公園の方向に向けている搭乗者を対象搭乗者と判定し、視線を△△国立公園の方向に向けている搭乗者の着座位置に対応する対象スピーカからのみ、音声を出力させる。
また、例えば、ある搭乗者が「○○さん、・・・」と、他の搭乗者に対する発話を行ったとすると、音声出力制御装置１は、○○という名前の搭乗者を対象搭乗者と判定し、○○という名前あの搭乗者の着座位置に対応する対象スピーカから、ある搭乗者による発話音声を出力する。
これにより、音声出力制御装置１は、音声を届けるべき搭乗者に音声を届け、音声が必要のない搭乗者に対しては出力される音声が耳障りにならないようにすることができる。

また、音声出力制御装置１は、車両１００の搭乗者の状況に応じて、音声出力が必要ない場合は、音声が出力されないようにすることができる。
例えば、音声出力制御装置１は、対象搭乗者の着座位置に対応する対象スピーカからは音声関連情報に基づく音声を出力させ、対象搭乗者以外の搭乗者の着座位置に対応する減衰用スピーカ５２からは減衰データを出力させる。
これにより、音声出力制御装置１は、対象搭乗者以外の搭乗者に対して、不要な音声が聞こえないように制御することができる。
また、例えば、音声出力制御装置１は、音声操作搭乗者が存在する場合、音声操作搭乗者の着座位置に対応する減衰用スピーカ５２から減衰データを出力させるようにする。
これにより、音声出力制御装置１は、音声操作搭乗者が音声制御機器を操作するために行った発話による音声を阻害するノイズを打ち消すことができる。
また、例えば、音声出力制御装置１は、対象操作者が睡眠状態となった場合、当該対象操作者の着座位置に対応する減衰用スピーカ５２から減衰データを出力させるようにする。このように、音声出力制御装置１は、指向性スピーカ５１から出力される音声を遮り、対象操作者の睡眠を妨げない制御を行うことができる。すなわち、音声出力制御装置１は、音声を聞く側の搭乗者の状況を把握し、当該音声の届け先に存在する搭乗者の状況に応じて音声の出力方法を制御することもできる。

記憶部１７は、ユーザ情報または機器情報等を記憶する。
なお、実施の形態１では、図１に示すように、記憶部１７は、音声出力制御装置１に備えられるものとするが、これは一例に過ぎない。記憶部１７は、音声出力制御装置１の外部の、音声出力制御装置１が参照可能な場所に備えられるようにしてもよい。

実施の形態１に係る音声出力制御装置１の動作について説明する。
図３は、実施の形態１に係る音声出力制御装置１の動作について説明するためのフローチャートである。

撮像画像取得部１１は、カメラ２から、車両１００内を撮像した撮像画像を取得する（ステップＳＴ３０１）。
撮像画像取得部１１は、取得した撮像画像を、搭乗者状況検出部１２に出力する。

搭乗者状況検出部１２は、ステップＳＴ３０１にて撮像画像取得部１１が取得した撮像画像に基づいて、搭乗者の状況を検出する（ステップＳＴ３０２）。
搭乗者状況検出部１２は、検出した搭乗者の状況に関する搭乗者状況情報を、判定部１５に出力する。

音声関連情報取得部１３は、ＡＶ機器３もしくはマイク４、または、ＡＶ機器３およびマイク４の両方から、音声関連情報を取得する（ステップＳＴ３０３）。
具体的には、音声関連情報取得部１３の機器関連情報取得部１３１は、ＡＶ機器３から、音声関連情報を取得する。音声関連情報取得部１３の集音情報取得部１３２は、マイク４から音声関連情報を取得する。
音声関連情報取得部１３は、取得した音声関連情報を、音声解析部１４または判定部１５に出力する。具体的には、機器関連情報取得部１３１は、取得した音声関連情報を、判定部１５に出力する。集音情報取得部１３２は、取得した音声関連情報を、音声解析部１４に出力する。
音声解析部１４は、集音情報取得部１３２が取得した音声関連情報に基づき、集音情報取得部１３２が取得した発話音声データの発話内容を解析する。音声解析部１４は、発話内容の解析結果を付与した音声関連情報を、判定部１５に出力する。

判定部１５は、ステップＳＴ３０２にて搭乗者状況検出部１２から出力された搭乗者状況情報と、ステップＳＴ３０３にて音声関連情報取得部１３が取得した音声関連情報とに基づいて、対象搭乗者を判定する（ステップＳＴ３０４）。また、判定部１５は、当該対象搭乗者の着座位置を判定する。そして、判定部１５は、対象搭乗者情報を、出力制御部１６に出力する。

判定部１５の音声操作者判定部１５１は、ステップＳＴ３０２にて搭乗者状況検出部１２から出力された搭乗者状況情報に基づき、音声操作搭乗者がいるか否かを判定する（ステップＳＴ３０５）。
音声操作者判定部１５１が、音声操作搭乗者がいると判定すると、判定部１５は、音声操作者情報を、出力制御部１６に出力する。

出力制御部１６は、車両１００に設置されている指向性スピーカ５１のうち、ステップＳＴ３０４にて判定部１５が判定した対象搭乗者の着座位置に対応する対象スピーカから、ステップＳＴ３０３にて音声関連情報取得部１３が取得した音声関連情報に基づく音声を出力させる（ステップＳＴ３０６）。
なお、当該ステップＳＴ３０６において、出力制御部１６の減衰データ生成部１６１は、ステップＳＴ３０３にて音声関連情報取得部１３が取得した音声データを減衰させるための逆位相の減衰データを生成し、生成した減衰データを減衰データ出力部１６２に出力する。減衰データ出力部１６２は、減衰データ生成部１６１が生成した減衰データを、減衰用スピーカ５２から出力させる。

図３のフローチャートにて説明した音声出力制御装置１の動作について、ステップＳＴ３０１～ステップＳＴ３０２の動作と、ステップＳＴ３０３の動作の順番は、逆であってもよいし、並行して行われてもよい。

図４Ａ，図４Ｂは、実施の形態１に係る音声出力制御装置１のハードウェア構成の一例を示す図である。
実施の形態１において、撮像画像取得部１１と、搭乗者状況検出部１２と、音声関連情報取得部１３と、音声解析部１４と、判定部１５と、出力制御部１６の機能は、処理回路４０１により実現される。すなわち、音声出力制御装置１は、車両１００の搭乗者の状況を考慮し、音声出力が必要と推定される搭乗者に対して音声が出力されるよう、音声出力の制御を行うための処理回路４０１を備える。
処理回路４０１は、図４Ａに示すように専用のハードウェアであっても、図４Ｂに示すようにメモリ４０５に格納されるプログラムを実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）４０５であってもよい。

処理回路４０１が専用のハードウェアである場合、処理回路４０１は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、またはこれらを組み合わせたものが該当する。

処理回路４０１がＣＰＵ４０４の場合、撮像画像取得部１１と、搭乗者状況検出部１２と、音声関連情報取得部１３と、音声解析部１４と、判定部１５と、出力制御部１６の機能は、ソフトウェア、ファームウェア、または、ソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアは、プログラムとして記述され、メモリ４０５に記憶される。処理回路４０１は、メモリ４０５に記憶されたプログラムを読み出して実行することにより、撮像画像取得部１１と、搭乗者状況検出部１２と、音声関連情報取得部１３と、音声解析部１４と、判定部１５と、出力制御部１６の機能を実行する。すなわち、音声出力制御装置１は、処理回路４０１により実行されるときに、上述の図３のステップＳＴ３０１～ステップＳＴ３０６が結果的に実行させることになるプログラムを格納するためのメモリ４０５を備える。また、メモリ４０５に記憶されたプログラムは、撮像画像取得部１１と、搭乗者状況検出部１２と、音声関連情報取得部１３と、音声解析部１４と、判定部１５と、出力制御部１６の手順または方法をコンピュータに実行させるものであるとも言える。ここで、メモリ４０５とは、例えば、ＲＡＭ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）等の、不揮発性もしくは揮発性の半導体メモリ、または、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）等が該当する。

なお、撮像画像取得部１１と、搭乗者状況検出部１２と、音声関連情報取得部１３と、音声解析部１４と、判定部１５と、出力制御部１６の機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。例えば、撮像画像取得部１１と音声関連情報取得部１３については専用のハードウェアとしての処理回路４０１でその機能を実現し、搭乗者状況検出部１２と音声解析部１４と判定部１５と出力制御部１６については処理回路４０１がメモリ４０５に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
また、記憶部１７は、メモリ４０５を使用する。なお、図４Ａにおいては、例えば、処理回路４０１が不揮発性メモリを有しており、記憶部１７はこれを使用する。これは一例であって、記憶部は、ＨＤＤ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、または、ＤＶＤ等によって構成されるものであってもよい。
また、音声出力制御装置１は、カメラ
２、ＡＶ機器３、マイク４、または、スピーカ５等の装置と、有線通信または無線通信を行う入力インタフェース装置４０２および出力インタフェース装置４０３を備える。

なお、以上の実施の形態１では、車両１００には減衰用スピーカ５２が設置されているものとしたが、減衰用スピーカ５２が設置されていることは必須ではない。
車両１００には減衰用スピーカ５２が設置されておらず、指向性スピーカ５１のみ設置されていてもよい。この場合、音声出力制御装置１の出力制御部１６は、減衰データ生成部１６１および減衰データ出力部１６２を備えない構成とすることができる。
音声出力制御装置１の出力制御部１６は、例えば、上述したような、音声を減衰させるための逆位相の減衰データを出力するようにした場合において、指向性スピーカ５１からの音声出力の停止を行う。
また、車両１００には減衰用スピーカ５２が設置されておらず、指向性スピーカ５１のみ設置されている場合であっても、音声出力制御装置１の出力制御部１６が、減衰データ生成部１６１および減衰データ出力部１６２を備えているようにしてもよい。この場合、減衰データ出力部１６２は、例えば、指向性スピーカ５１から減衰データを出力すればよい。

また、以上の実施の形態１では、音声出力制御装置１は、音声操作者判定部１５１を備えるものとしたが、これは一例に過ぎない。音声出力制御装置１は、音声操作者判定部１５１を備えない構成としてもよい。この場合、図３を用いて説明した音声出力制御装置１の動作について、ステップＳＴ３０５の動作は省略できる。

また、以上の実施の形態１では、音声出力制御装置１は、車両１００に搭載される車載装置とし、撮像画像取得部１１と、搭乗者状況検出部１２と、音声関連情報取得部１３と、音声解析部１４と、判定部１５と、出力制御部１６とは、音声出力制御装置１に備えられているものとした。
これに限らず、撮像画像取得部１１と、搭乗者状況検出部１２と、音声関連情報取得部１３と、音声解析部１４と、判定部１５と、出力制御部１６のうち、一部または全部を車両の車載装置に搭載されるものとし、その他を当該車載装置とネットワークを介して接続されるサーバに備えられるものとして、車載装置とサーバとで音声出力制御システムを構成するようにしてもよい。

以上のように、実施の形態１に係る音声出力制御装置１は、車両１００内を撮像した撮像画像を取得する撮像画像取得部１１と、撮像画像取得部１１が取得した撮像画像に基づいて、少なくとも着座位置を含む、搭乗者の状況を検出する搭乗者状況検出部１２と、スピーカ（指向性スピーカ５１）から出力するための音声に関する音声関連情報を取得する音声関連情報取得部１３と、搭乗者状況検出部１２が検出した搭乗者の状況に関する搭乗者状況情報と、音声関連情報取得部１３が取得した音声関連情報とに基づいて、音声を出力する対象となる対象搭乗者および当該対象搭乗者の着座位置を判定する判定部１５と、スピーカのうち、判定部１５が判定した対象搭乗者の着座位置に対応する対象スピーカから、音声を出力させる出力制御部１６を備えるように構成した。そのため、音声出力制御装置１は、座席毎に対応するスピーカが設定されている車両内において、搭乗者の状況を考慮し、音声出力が必要と推定される搭乗者に対して音声が出力されるよう、音声出力の制御を行うことができる。

なお、本開示は、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。

１音声出力制御装置、２カメラ、３ＡＶ機器、４マイク、５スピーカ、５１指向性スピーカ、５２減衰用スピーカ、１１撮像画像取得部、１２搭乗者状況検出部、１３音声関連情報取得部、１３１機器関連情報取得部、１３２集音情報取得部、１４音声解析部、１５判定部、１５１音声操作者判定部、１６出力制御部、１６１減衰データ生成部、１６２減衰データ出力部、１７記憶部、４０１処理回路、４０２入力インタフェース装置、４０３出力インタフェース装置、４０４ＣＰＵ、４０５メモリ。

Claims

座席毎に対応するスピーカが設置されている車両内において音声出力を制御する音声出力制御装置であって、
前記車両内を撮像した撮像画像を取得する撮像画像取得部と、
前記撮像画像取得部が取得した撮像画像に基づいて、少なくとも着座位置を含む、搭乗者の状況を検出する搭乗者状況検出部と、
前記スピーカから出力するための音声に関する音声関連情報を取得する音声関連情報取得部と、
前記搭乗者状況検出部が検出した搭乗者の状況に関する搭乗者状況情報と、前記音声関連情報取得部が取得した音声関連情報とに基づいて、前記音声を出力する対象となる対象搭乗者および当該対象搭乗者の前記着座位置を判定する判定部と、
前記スピーカのうち、前記判定部が判定した前記対象搭乗者の前記着座位置に対応する対象スピーカから、前記音声を出力させる出力制御部
とを備えた音声出力制御装置。
前記搭乗者状況情報に基づき、前記車両内に設置されている音声操作可能な音声制御機器に対して音声による操作指示を行った音声操作搭乗者がいるか否かを判定する音声操作者判定部を備え、
前記出力制御部は、
前記音声操作者判定部が、前記音声操作搭乗者がいると判定した場合、前記音声を減衰させるための減衰データを出力する、または、前記音声を出力させない
ことを特徴とする請求項１記載の音声出力制御装置。
前記搭乗者状況検出部が検出した前記搭乗者の状況には、前記搭乗者が睡眠状態であるか否かが含まれ、
前記出力制御部は、
前記搭乗者状況情報に基づき、前記対象搭乗者が睡眠状態である場合は、前記音声を減衰させるための減衰データを出力する、または、前記音声を出力させない
ことを特徴とする請求項１または請求項２記載の音声出力制御装置。
前記搭乗者状況検出部が検出した前記搭乗者の状況には、前記搭乗者による車載装置の操作状況が含まれ、
前記音声関連情報取得部が取得する前記音声関連情報には、音声データと、当該音声データを出力した前記車載装置に関する情報とが含まれ、
前記判定部は、
前記搭乗者のうち、前記車載装置を操作した前記搭乗者を前記対象搭乗者と判定する
ことを特徴とする請求項１から請求項３のうちのいずれか１項記載の音声出力制御装置。
前記搭乗者状況検出部が検出した前記搭乗者の状況には、前記搭乗者の視線の方向が含まれ、
前記音声関連情報取得部が取得する前記音声関連情報には、音声データと、当該音声データを出力した車載装置に関する情報とが含まれ、
前記判定部は、
前記搭乗者のうち、前記車載装置の方向に視線を向けている前記搭乗者を、前記対象搭乗者と判定する
ことを特徴とする請求項１から請求項３のうちのいずれか１項記載の音声出力制御装置。
前記搭乗者状況検出部が検出した前記搭乗者の状況には、前記搭乗者の視線の方向が含まれ、
前記音声関連情報取得部が取得する前記音声関連情報には、音声データと、当該音声データの種別に関する情報とが含まれ、
前記判定部は、
前記音声データの種別が道案内を示す種別である場合、車載装置に表示されている地図に視線を向けている前記搭乗者を、前記対象搭乗者と判定する
ことを特徴とする請求項１から請求項３のうちのいずれか１項記載の音声出力制御装置。
前記搭乗者状況検出部が検出した前記搭乗者の状況には、前記搭乗者が睡眠状態であるか否かが含まれ、
前記音声関連情報取得部が取得する前記音声関連情報には、音声データと、当該音声データの種別に関する情報とが含まれ、
前記判定部は、
前記音声関連情報と前記搭乗者状況情報とに基づき、前記音声データの種別が前記搭乗者全員に向けた案内を示す種別である場合、睡眠状態でない前記搭乗者を、前記対象搭乗者と判定する
ことを特徴とする請求項１から請求項３のうちのいずれか１項記載の音声出力制御装置。
前記搭乗者状況検出部が検出する前記搭乗者の状況には前記搭乗者の視線の方向が含まれ、
前記音声関連情報取得部が取得する前記音声関連情報には音声データが含まれ、当該音声データは地点を案内するための音声データであり、
前記判定部は、
前記音声関連情報と前記搭乗者状況情報とに基づき、前記地点の方向に前記視線を向けている前記搭乗者を、前記対象搭乗者と判定する
ことを特徴とする請求項１から請求項３のうちのいずれか１項記載の音声出力制御装置。
前記搭乗者状況検出部が検出する前記搭乗者状況情報には発話を行った前記搭乗者を特定可能な情報が含まれ、
前記音声関連情報取得部が取得する前記音声関連情報には音声データが含まれ、当該音声データは前記車両内に設置されているマイクから収集された、他の前記搭乗者に対する発話音声であり、
前記判定部は、
前記発話音声に基づく発話内容と前記搭乗者状況情報とに基づき前記対象搭乗者を判定する
ことを特徴とする請求項１から請求項３のうちのいずれか１項記載の音声出力制御装置。
座席毎に対応するスピーカが設置されている車両内において音声出力を制御する音声出力制御プログラムであって、
コンピュータを、
前記車両内を撮像した撮像画像を取得する撮像画像取得部と、
前記撮像画像取得部が取得した撮像画像に基づいて、少なくとも着座位置を含む、搭乗者の状況を検出する搭乗者状況検出部と、
前記スピーカから出力するための音声に関する音声関連情報を取得する音声関連情報取得部と、
前記搭乗者状況検出部が検出した搭乗者の状況に関する搭乗者状況情報と、前記音声関連情報取得部が取得した音声関連情報とに基づいて、前記音声を出力する対象となる対象搭乗者および当該対象搭乗者の前記着座位置を判定する判定部と、
前記スピーカのうち、前記判定部が判定した前記対象搭乗者の前記着座位置に対応する対象スピーカから、前記音声を出力させる出力制御部
として機能させるための音声出力制御プログラム。