JP7456490B2

JP7456490B2 - 音データ処理装置および音データ処理方法

Info

Publication number: JP7456490B2
Application number: JP2022509740A
Authority: JP
Inventors: 翔太大久保; 裕史井上; 雅己岡本; 乘西山; 純河西; 剛仁寺口; 雄宇志小田; 放歌陳
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2024-03-27
Anticipated expiration: 2040-03-25
Also published as: EP4129766A4; US20230121586A1; JPWO2021191651A1; CN115315374A; WO2021191651A1; WO2021191651A8; EP4129766A1

Description

本発明は、音データ処理装置および音データ処理方法に関する。

車両外部の周囲音を収音し、収音により得られた音声情報を、車両内部にて定位が与えられた音として再生する周囲状況通知装置が知られている（特許文献１）。この周囲状況通知装置は、車両の周囲方向において運転者にとって特に注意度が高いとされる方向である注意方向を決定する。そして、この周囲状況通知装置は、注意方向に定位する音が車両の周囲における注意方向以外の方向に定位する音よりも強調されるように再生する。

特開２００５－３１６７０４号公報

従来技術では、車両外部にある特定の音を車両外部における他の音よりも強調するように再生するが、車両内部にある音は車両の乗員にそのまま伝わる。このため、例えば、乗員が車両内部にある特定の音を注意して聞こうとしても、その音を聞き取りづらい場合がある。

本発明が解決しようとする課題は、車両の乗員が車両内部にある特定の音を聞き取りやすくなる音データ処理装置及び音データ処理方法を提供することである。

本発明は、車両の室内に音像定位した音のデータである第１音データを取得し、乗員が注意を向ける対象物である注意対象物を特定し、第１音データに比べて注意対象物に関する音を強調した音のデータであって、音像定位した音のデータである第２音データを生成し、乗員に対して音を出力する出力装置に、第２音データを出力することで、上記課題を解決する。

本発明によれば、車両の乗員は車両内部にある特定の音を聞き取りやすくなる。

図１は、第１実施形態に係る音データ処理装置を含む音出力システムの一例を示すブロック図である。図２は、図１に示す制御装置が備える各機能を示すブロック図である。図３は、車両の室内にある音源の位置情報の一例である。図４は、音源の位置情報を用いて、注意対象物及び注意対象物に対応する音源を特定する方法を説明するための図である。図５は、車内空間情報の一例である。図６は、車内空間情報を用いて、注意対象物及び注意対象物に対応する音源を特定する方法を説明するための図である。図７は、音データ処理装置が実行する処理を示すフローチャートである。図８は、図７に示すステップＳ５のサブルーチンである。図９は、図７に示すステップＳ６のサブルーチンである。図１０は、ヘッドマウントディスプレイを装着した乗員がアイコンと対話している場面の一例である。図１１は、図１０に示す場面において、乗員に提示される注意対象物の候補の一例である。図１２は、図７に示すステップＳ５のサブルーチンであって、第２実施形態に係るサブルーチンである。

以下、本発明に係る音データ処理装置及び音データ処理方法の実施形態を図面に基づいて説明する。

《第１実施形態》
本実施形態では、車両に搭載された音出力システムを例に挙げて説明する。図１は、第１実施形態に係る音データ処理装置５を含む音出力システム１００の一例を示すブロック図である。

図１に示すように、音出力システム１００は、収音装置１と、撮像装置２と、データベース３と、出力装置４と、音データ処理装置５を含む。これらの装置は、相互に情報の授受を行うためにＣＡＮ（ＣｏｎｔｒｏｌｌｅｒＡｒｅａＮｅｔｗｏｒｋ）その他の車載ＬＡＮによって接続されている。また、各装置間は、ＣＡＮ等の車載ＬＡＮに限られず、その他の有線ＬＡＮ、又は無線ＬＡＮにより接続されていてもよい。

音出力システム１００は、車両に乗車している人間に対して、音を出力するシステムである。音出力システム１００が出力する音については後述する。なお、図示されていないが、車両には、その他に、音声対話システム、報知システム、警告システム、カーオーディオシステムなどが搭載されている。また、以降の説明では、便宜上、車両の乗員を単に乗員ともいう。

音声対話システムは、音声認識技術及び音声合成技術を用いて、乗員と対話するためのシステムである。報知システムは、車両に搭載された機器に関する情報を、報知音によって乗員に知らせるためのシステムである。警告システムは、予測された車両への危険を、警告音によって乗員に警告するためのシステムである。カーオーディオシステムは、例えば、音楽などが記録された記録媒体と接続することで、記録媒体に記録された音楽などを流すためのシステムである。後述する音データ処理装置５は、これら車両に搭載されたシステムと所定のネットワークを介して接続されている。

本実施形態において、乗員が着座する座席の位置は特に限定されない。また、乗員の人数も特に限定されず、音出力システム１００は、一又は複数の乗員に対して音を出力する。

音出力システム１００に含まれる各構成について説明する。

収音装置１は、車両の室内に設けられ、車両の室内で乗員が聞く音を収音する。収音装置１により収音される音は、主として車両の室内に音源がある音である。収音装置１により収音される音としては、例えば、乗員間での対話、音声対話システムと乗員との対話、音声対話システムによる音声案内、報知システムによる報知音、警告システムによる警告音、オーディオシステムによるオーディオ音などが挙げられる。なお、収音装置１により収音される音には、車両の外部に音源がある音（例えば、他車両のエンジン音）が含まれていてもよい。なお、以降の説明において、「車両の室内」は「車内」に文言を置き換えてもよい。また「車両の外部」は「車外」に文言を置き換えてもよい。

収音装置１は、車両の室内に音像定位した音を収音する。音像定位した音とは、人間が音を聞いた際に、その音源の方向と音源までの距離を判断できる音である。言い換えると、人間を基準にした所定の位置に音像が定位した音の場合、その人間がその音を聞くと、あたかも所定の位置に音源があり、その位置から音が出力されているかのように感じる。このような音像定位した音を収音するための技術としては、例えば、バイノーラル録音が挙げられる。バイノーラル録音では、人間の鼓膜に届く状態での音が録音される。

収音装置１としては、例えば、バイノーラルマイクが挙げられるが、その形態は特に限定されない。例えば、収音装置１のタイプがイヤホン型の場合、収音装置１は、乗員の左右の耳にそれぞれ取り付けられる。イヤホン型では、イヤホンにマイクが設けられており、乗員の左右の耳それぞれで捉える音を収音することができる。なお、乗員に装着可能なタイプとして、収音装置１は、乗員の頭部に装着可能なヘッドフォン型であってもよい。

また例えば、収音装置１のタイプがダミーヘッド型の場合、収音装置１は、着座した際の乗員の頭部に相当する場所に設けられる。乗員の頭部に相当する場所としては、例えば、ヘッドレスト付近が挙げられる。ダミーヘッドとは、人間の頭の形をした録音器である。ダミーヘッド型では、ダミーヘッドの耳の部分にマイクが設けられており、乗員の左右の耳それぞれで捉えたかのような音を収音することができる。

既述のとおり、音像定位した音とは、人間が音源の方向と音源までの距離を判断できる音であるため、音源から同じ音が出力されている場合でも、人間と音源の位置関係に応じて、音源の方向及び音源までの距離に対しての感じ方は変わる。そこで、本実施形態では、車両の座席の数に対して同数の収音装置１が車両に設けられている。また本実施形態では、収音装置１は、車両の座席の位置と同じ位置に設けられている。これにより、音源の配置場所及び音源の数に依存することなく、各乗員が感じる音源の方向と音源までの距離の情報を含む音データを取得することができる。

例えば、車両の前方に２つの座席（運転席と助手席）があり、車両の後方に２つの座席（後部座席）がある場合を例に挙げて説明する。各座席には収音装置１が設けられている。また、車両の室内には、スピーカーが前方と左右の側方とにそれぞれ設けられており、例えば、室内には音楽が流れているとする。この例において、運転座席（前方右側の座席）に座る乗員にとって前方のスピーカーが左右の側方にあるスピーカーよりも近い場合、この乗員は、自身に対して前方から届く音の音源を自身に対して左右から届く音の音源よりも近く感じる。また、この乗員は、自身に対して右側から届く音の音源を自身に対して左側から届く音の音源よりも近く感じる。運転席に設けられた収音装置１は、運転席に座る乗員の鼓膜に届く状態での音を収音することができる。

収音装置１は、収音した音を所定の音信号に変換し、変換した音信号を音データとして、音データ処理装置５に出力する。これにより、音データ処理装置５は、収音された音のデータ処理を実行する。収音装置１から音データ処理装置５に出力される音データには、乗員が音源の方向及び音源までの距離を判断できる情報が含まれている。また収音装置１が座席ごとに設けられている場合、各収音装置１から音データが音データ処理装置５に出力される。音データ処理装置５は、どの座席に設けられた収音装置１からの音データであるかを判別できるものとする。

撮像装置２は、車両の室内を撮像する。撮像装置２により撮像された撮像画像は、音データ処理装置５に出力される。撮像装置２としては、例えば、ＣＣＤ素子を備えたカメラが挙げられる。撮像装置２が撮像する画像の種別は限定されず、撮像装置２は、静止画及び動画のうち少なくとも何れか一つを撮像する機能を有していればよい。

例えば、撮像装置２は、車両の室内において乗員を撮像できる位置に設けられ、乗員の様子を撮像する。なお、撮像装置２が設けられる場所、撮像装置２の数は特に限定されない。例えば、撮像装置２は、座席ごとに設けられていてもよいし、室内全体を見渡せる位置に設けられていてもよい。

データベース３は、車両の室内にある音源の位置情報と、車両の室内にある音源に関する車内空間情報を記憶する。以降の説明では、便宜上、車両の室内にある音源の位置情報を、単に音源の位置情報ともいう。また、便宜上、車両の室内にある音源に関する車内空間情報を、単に車内空間情報ともいう。

車両の室内にある音源には、スピーカーと人間（乗員）が含まれる。音源の位置情報は、スピーカーの設置位置、又は座席に着座した状態での乗員の頭部の位置を示す。音源の位置情報の具体例については後述する。車内空間情報とは、乗員が注意を向ける車両の室内にある対象物と、車両の室内にある音源とを関連付けるために用いられる情報である。車内空間情報の具体例については、後述する。データベース３は、音データ処理装置５からのアクセスに応じて、音源の位置情報と車内空間情報を音データ処理装置５に出力する。

出力装置４には、音データ処理装置５から音データが入力される。出力装置４は、音データに基づき再生音を生成し、再生音を立体音響として出力する。

例えば、音データ処理装置５から出力装置４に出力される音データにステレオ録音の信号が含まれる場合、出力装置４は、ステレオ方式を用いて再生音を出力する。この場合、出力装置４としては、スピーカーが挙げられる。出力装置４の設置場所及び設置する数は、特に限定されない。出力装置４は、再生音を立体音響として出力できる数だけ車両の室内に設けられる。また出力装置４は、再生音を立体音響として出力できるように車両の室内の所定位置に設けられる。例えば、各乗員に対して異なる立体音響を付与するために、出力装置４は座席ごとに設けられる。これにより、あたかも各乗員の左右の耳それぞれで捉えたかのような音を再生することができる。

なお、出力装置４はスピーカー以外の装置であってもよい。例えば、音データ処理装置５から出力装置４に出力される音データにバイノーラル録音の信号が含まれる場合、出力装置４は、バイノーラル方式を用いて再生音を出力する。この場合、出力装置４としては、両耳に取り付け可能なイヤホン、頭部に装着可能なヘッドフォンなどが挙げられる。例えば、各乗員に対して異なる立体音響を付与するために、出力装置４は乗員ごとに取り付け又は装着される。これにより、あたかも各乗員の左右の耳それぞれで捉えたかのような音を再生することができる。

音データ処理装置５は、ハードウェア及びソフトウェアを備えたコンピュータにより構成され、プログラムを格納したＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）と、このＲＯＭに格納されたプログラムを実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）と、アクセス可能な記憶装置として機能するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）とから構成されている。なお、動作回路としては、ＣＰＵに代えて又はこれとともに、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などを用いることができる。図１に示す制御装置５０はＣＰＵに相当し、また図１に示す記憶装置５１はＲＯＭ及びＲＡＭに相当する。本実施形態では、音データ処理装置５は、モジュールとして車両に設けられている。

図２は、図１に示す制御装置５０が備える各機能を示すブロック図である。図２を用いて、制御装置５０が備える機能について説明する。図２に示すように、制御装置５０には、音データ取得部１５０と、注意対象物特定部１６０と、音データ処理部１７０と、音データ出力部１８０が含まれ、これらのブロックは、ＲＯＭにより確立されたソフトウェアによって、後述する各機能を実現する。

音データ取得部１５０は、収音装置１から音のデータを取得する。また音データ取得部１５０は、音出力システム１００以外のシステムから音データを取得できる場合、このシステムから音データを取得する。音出力システム１００以外のシステムとしては、例えば、音声対話システム、報知システム、警告システム、カーオーディオシステムが挙げられる。以降の説明では、便宜上、音データ取得部１５０により取得された音データを第１音データともいう。また、以降の説明では、一人の乗員を対象にした処理を例に挙げて説明するが、乗員が複数存在する場合、すなわち、第１音データが複数存在する場合、各第１音データに対して以降の説明の処理を行うものとする。

既述のとおり、収音装置１から出力される音データには、乗員が音源の方向及び音源までの距離を判断できる情報が含まれている。音データ取得部１５０は、データベース３に記憶される音源の位置情報を用いて、乗員が聞く一種類又は複数種類の音について、音源の位置を特定する。例えば、第１音データに他の乗員の音声が含まれている場合、音データ取得部１５０は、音源が乗員であると判別するとともに、音源の位置情報を参照して、乗員の位置を特定する。

また、例えば、音データ取得部１５０は、音声対話システムなどから音データを取得した場合、音源がスピーカーであると判別するとともに、音源の位置情報を参照して、スピーカーの位置を特定する。この際に、音データ取得部１５０は、第１音データを解析し、車両の室内に設置された全てのスピーカーのうち、音源として乗員が最も近くに感じるスピーカーを特定する。

注意対象物特定部１６０は、車両の乗員が注意を向ける対象物である注意対象物を特定する。また注意対象物特定部１６０は、注意対象物に対応する音源を特定する。対象物とは、車両の室内にある機器又は人間である。

図２に示すように、注意対象物特定部１６０は、乗員が対象物に注意を向けているか否かを判定するための機能ブロックとして、動作認識部１６１と、視線認識部１６２と、発話内容認識部１６３を有している。これらのブロックは、乗員の行動を認識するためのブロックである。また、注意対象物特定部１６０は、注意対象物及び注意対象物に関する音の音源を特定するための機能ブロックとして、音源特定部１６４を有している。

まず、乗員が対象物に注意を向けているか否かを判定するための各機能ブロックについて説明する。動作認識部１６１は、撮像装置２により撮像された撮像画像に基づき、乗員の動作を認識する。例えば、動作認識部１６１は、撮像画像に対して、乗員の手の様子を解析するための画像処理を実行することで、乗員のジェスチャーを認識する。さらに、動作認識部１６１は、乗員のジェスチャーが指さしの場合、指でさし示す位置又は指でさし示す方向を認識する。なお、以降の説明では、便宜上、指でさし示す位置を指示位置、また指でさし示す方向を指示方向ともいう。

例えば、人間の指さしのジェスチャーにおける特徴点（例えば、各指の位置関係など）が予め設定され、ハードディスク（ＨＤＤ）、ＲＯＭ等の記憶媒体に記憶されているとする。この場合、動作認識部１６１は、撮像装置２により撮像された撮像画像のうち乗員の手が写る部分から、手の特徴点を抽出する。そして、動作認識部１６１は、抽出された特徴点と記憶媒体に記憶される特徴点を比較することで、乗員によるジェスチャーが指でさすジェスチャーに該当するか否かを判定する。動作認識部１６１は、例えば、抽出された特徴点のうち、記憶媒体に記憶される特徴点と一致する特徴点が所定の数以上の場合、乗員のジェスチャーが指さしと判定する。一方、動作認識部１６１は、抽出された特徴点のうち、記憶媒体に記憶される特徴点と一致する特徴点が所定の数未満の場合、乗員のジェスチャーが指さし以外と判定する。所定の数とは、乗員のジェスチャーが指さしか否かを判定するための閾値であって、予め定められた閾値である。なお、上記判定方法は一例であって、動作認識部１６１は、本願出願時に知られた技術を用いて、乗員のジェスチャーが指さしか否かを判定できる。

視線認識部１６２は、撮像装置２により撮像された撮像画像に基づき、乗員の視線を認識する。例えば、視線認識部１６２は、撮像画像に対して、乗員の目の様子を解析するための画像処理を実行することで、乗員の視線方向を認識する。さらに、視線認識部１６２は、乗員が注視している場合、乗員が注視する位置又は注視する方向を認識する。注視位置とは、車両の室内における所定の位置であり、注視方向とは、車両の室内における所定の方向である。なお、以降の説明では、便宜上、乗員が注視する位置を注視位置、また乗員が注視する方向を注視方向ともいう。

例えば、視線認識部１６２は、撮像装置２により撮像された撮像画像のうち乗員の目が映る部分を連続的に監視する。視線認識部１６２は、例えば、乗員の視線が一定時間以上移動することなく、同一方向を示す場合、乗員は注視していると判定する。一方、視線認識部１６２は、乗員の視線が一定時間内に移動する場合、乗員は注視していないと判定する。一定時間とは、乗員が注視しているか否かを判定するための閾値であって、予め定められた閾値である。なお、上記判定方法は一例であって、視線認識部１６２は、本願出願時に知られた技術を用いて、乗員が注視しているか否かを判定できる。

発話内容認識部１６３は、車両の室内の音声を収音する装置から、乗員の音声を取得し、乗員の音声に基づき発話内容を認識する。乗員の音声を収音する装置は、収音装置１であってもよいし、収音装置１とは別の収音装置であってもよい。例えば、発話内容認識部１６３は、乗員の音声に対応する音データに対して、乗員の音声を認識するための音声認識処理を実行することで、乗員の発話内容を認識する。なお、発話内容認識部１６３は、本願出願時に知られた音声認識技術を用いて、乗員の発話内容を認識できる。

注意対象物特定部１６０は、動作認識部１６１、視線認識部１６２、及び発話内容認識部１６３で得られた結果のうち少なくとも何れか一つを用いて、乗員が対象物に注意を向けているか否かを判定する。なお、複数の結果を用いて判定を行う場合、注意対象物特定部１６０は、各ブロックの結果への優先順位や重み付け処理などを用いて判定してもよい。

例えば、注意対象物特定部１６０は、動作認識部１６１によって乗員のジェスチャーが指さしと判定された場合、乗員が対象物に注意を向けていると判定する。また例えば、注意対象物特定部１６０は、視線認識部１６２によって乗員が注視していると判定された場合、乗員が対象物に注意を向けていると判定する。また例えば、注意対象物特定部１６０は、発話内容認識部１６３によって乗員の音声に特定のキーワード又は特定のキーフレーズが含まれると判定した場合、乗員が対象物に注意を向けていると判定する。特定のキーワード又は特定のキーフレーズとは、乗員が対象物に注意を向けているか否かを判定するためのキーワード又はキーフレーズであって、予め定められている。特定のキーワードとしては、例えば、「ナビ音声」など車両に設けられた機器に関するワードが挙げられる。また特定のキーフレーズとしては、例えば、「Ｘを聞かせて」、「Ｙを見たい」など、願望を表したフレーズが挙げられる。

次に、注意対象物及び注意対象物に対応する音源を特定するための各機能ブロックについて説明する。音源特定部１６４は、動作認識部１６１、視線認識部１６２、及び発話内容認識部１６３で得られた結果のうち少なくとも何れか一つと、データベース３に記憶される音源の位置情報又は車内空間情報と基づき、注意対象物及び注意対象物に対応する音源を特定する。なお、複数の結果を用いて特定する場合、注意対象物特定部１６０は、各ブロックの結果への優先順位や重み付け処理などを用いて特定してもよい。

音源特定部１６４は、乗員の指示位置又は指示方向と、音源の位置情報又は車内空間情報に基づき、注意対象物及び注意対象物に対応する音源を特定する。また音源特定部１６４は、乗員の注視位置又は注視方向と、音源の位置情報又は車内空間情報に基づき、注意対象物及び注意対象物に対応する音源を特定する。また音源特定部１６４は、乗員の発話内容と、音源の位置情報又は車内空間情報に基づき、注意対象物及び注意対象物に対応する音源を特定する。

図３～図６を用いて、注意対象物及び注意対象物に対応する音源を特定する方法について説明する。図３は、データベース３が記憶する、車両の室内にある音源の位置情報の一例である。図３は、車両Ｖの室内を表した平面図を示す。車両Ｖは、前方に２つの座席、後方に２つの座席を有している。図３において、車両Ｖの進行方向は図面上側とする。また図３において、Ｐ_１１～Ｐ_１５はスピーカーが配置されている位置を示し、Ｐ_２２～Ｐ_２５は座席に着座した状態での乗員の頭部の位置を示す。Ｐ_２２～Ｐ_２５は、座席に重畳して表される。なお、図３において、Ｄは、インストルメントパネルに埋設されたディスプレイを示す。このディスプレイＤには、ナビゲーションシステムによるメニュー画面、目的地までの案内情報などが表示される。ナビゲーションシステムは、音声対話システムに含まれるシステムである。

図４は、音源の位置情報を用いて、注意対象物及び注意対象物に対応する音源を特定する方法を説明するための図である。図４に示すＰ_１１～Ｐ_１５、Ｐ_２２、Ｐ_２３、及びＰ_２５は、図３に示すＰ_１１～Ｐ_１５、Ｐ_２２、Ｐ_２３、及びＰ_２５に対応する。また図４において、Ｕ_１は、運転席に着座する乗員を示す。乗員Ｕ_１は車両Ｖの進行方向に対して左側を向いている。図４では、乗員Ｕ_１の視線を点線矢印で示す。また乗員Ｕ_１は車両Ｖの進行方向に対して左側を指でさしている。図４では、乗員Ｕ_１の指示方向を実線矢印で示す。なお、図４の例では、車両Ｖは所定の場所で停止又は駐車している、あるいは車両Ｖはいわゆる自動運転機能により自動的に又は自律的に走行しているものとし、乗員Ｕ_１が進行方向に対して左側を向いていても、車両Ｖの運転には影響がないものとする。また説明の便宜上、図示されていないが、図４において車両Ｖの助手席には乗員Ｕ_２が着座しており、乗員Ｕ_１と乗員Ｕ_２は対話している。

図４の例では、音源特定部１６４は、乗員Ｕ_１の指示位置と各音源の位置（位置Ｐ_１１～位置Ｐ_１５、位置Ｐ_２２、及び位置Ｐ_２５）を比較する。音源特定部１６４は、乗員Ｕ_１の指示位置が位置Ｐ_２２の付近であることを特定すると、乗員Ｕ_２を注意対象物として特定する。この際に、音源特定部１６４は、乗員Ｕ_１が注意を向けて聞こうとする音が乗員Ｕ_２の音声であると特定する。さらに、音源特定部１６４は、乗員Ｕ_１が注意を向けて聞こうとする音が乗員Ｕ_２から発せられるため、乗員Ｕ_２を注意対象物に対応する音源として特定する。また音源特定部１６４は、上記の特定方法において、指示位置を、指示方向、注視位置、又は注視方向に置き換えたうえで、指示位置を用いた特定方法と同じ方法で、注意対象物及び注意対象物に対応する音源を特定することができる。

図５は、データベース３が記憶する、車内空間情報の一例である。図５は、図３及び図４と同様に、車両Ｖの室内を表した平面図を示す。

図５において、Ｒ_１は報知音に関連する領域を示す。報知音に関連する領域には、例えば、運転席の正面に位置する、スピードメーター、燃料計、水温計、オドメーター等が含まれる。なお、報知音に関連する領域には、その他に、運転席と助手席の間にあるセンターコンソール、シフトレバー、エアコンの操作部が含まれていてもよいし、また助手席正面に位置し、いわゆるダッシュボードと呼ばれる収納スペースが含まれていてもよい。領域Ｒ_１は、図３において位置Ｐ_１１～Ｐ_１５に配置されたスピーカーと対応付けられている。

また図５において、Ｒ_２は、ナビゲーションシステムと乗員との音声対話に関連する領域を示す。音声対話に関連する領域には、ナビゲーションシステムのメニュー画面等を表示するディスプレイが含まれる。図５では、Ｒ_２は図３で示すディスプレイＤに対応している。領域Ｒ_２は、図３において位置Ｐ_１１～Ｐ_１５に配置されたスピーカーと対応付けられている。

また図５において、Ｒ_３は、乗員の発話に関連する領域を示す。乗員の発話に関連する領域には、乗員が着座する座席が含まれる。領域Ｒ_３は、図３においてＰ_２２～Ｐ_２５に着座する乗員と対応付けられている。

図６は、車内空間情報を用いて、注意対象物及び注意対象物に対応する音源を特定する方法を説明するための図である。図６に示すＲ_１～Ｒ_３は、図５に示すＲ_１～Ｒ_３に対応する。また図６において、Ｕ_１は、運転席に着座する乗員を示す。乗員Ｕ_１はディスプレイＤ（図３参照）を見ている。図６では、乗員Ｕ_１の視線を点線矢印で示す。なお、図６の例で示す場面は、図４の例で示す場面と同様に、乗員Ｕ_１がディスプレイＤを見ていても、車両Ｖの運転には影響がない場面とする。

図６の例では、音源特定部１６４は、乗員Ｕ_１の注視位置と各領域（領域Ｒ_１～領域Ｒ_３）を比較する。音源特定部１６４は、乗員Ｕ_１の注視位置が領域Ｒ_２の付近であることを特定すると、ディスプレイＤを注意対象物として特定する。この際、音源特定部１６４は、領域Ｒ_２とスピーカーとの対応関係から、乗員Ｕ_１が注意を向けて聞こうとする音がスピーカーからの出力音であると特定する。さらに、音源特定部１６４は、乗員Ｕ_２が注意を向けて聞こうとする音がこれらのスピーカーから出力されるため、これらのスピーカーを注意対象物に対応する音源として特定する。なお、特定されたスピーカーは、図３において位置Ｐ_１１～Ｐ_１５に配置された複数のスピーカーである。

また、音源特定部１６４は、複数のスピーカーのうち、音源として乗員が最も近くに感じるスピーカーを特定する。音源特定部１６４は、第１音データを解析することで、複数のスピーカーのうち、乗員Ｕ_１が最も近くに感じるスピーカー及びその位置を特定する。図６の例において、例えば、音源特定部１６４は、第１音データを解析した結果、乗員Ｕ_１が最も近くに感じるスピーカーが、図３に示す位置Ｐ_１４に配置されたスピーカーであると特定する。このように、本実施形態では、注意対象物に対応する音源が複数存在する場合、乗員にとって最も近くに感じる音源を特定する。後述する音データ処理部１７０によって、当該音源から出力される音が強調されるため、強調した音を乗員に効果的に伝えることができる。

再び図２に戻り、図１に示す制御装置５０が備える各機能を説明する。音データ処理部１７０は、収音装置１により収音された音のデータに対して、特定の音をその他の音よりも強調させる処理を実行し、車両の室内に音像が定位された音のデータを生成する。説明の便宜上、音データ処理部１７０により生成された音のデータを第２音データともいう。

本実施形態では、音データ処理部１７０は、音データ取得部１５０により取得された第１音データに比べて、注意対象物に関する音を強調した第２音データを生成する。注意対象物とは、注意対象物特定部１６０で特定された、乗員が注意を向ける対象物である。別の言い方をすれば、第１音データと第２音データとを比べた場合、乗員が聞く音の音源の数と、乗員を基準にして音像が定位する位置は同じであるものの、第２音データでは、第１音データに比べて、注意対象物に関する音の音量又は音の強さが、その他の音の音量又は音の強さよりも相対的に大きくなっている。

注意対象物に関する音とは、注意対象物から出力される音、注意対象物に関連付けられ、注意対象物とは別の関連対象物から出力される音、及びその両方の音の何れかである。言い換えると、注意対象物に関する音には、注意対象物から出力される音、及び関連対象物から出力される音のうち少なくとも何れか一方の音が含まれる。

例えば、２人の乗員間で会話が行われ、一の乗員にとっての注意対象物が他の乗員である場合、既述の説明のとおり、注意対象物に対応する音源も乗員である。この場合、音データ処理部１７０は、他の乗員が発する音声を強調処理の対象とする。

また例えば、一の乗員にとっての注意対象物がナビゲーションシステムによる経路案内の画面の場合、既述のとおり、注意対象物はディスプレイ、注意対象物に対応する音源はスピーカーである。本実施形態では、注意対象物から音が出力されない場合、注意対象物に関連付けられ、音を出力する対象物を関連対象物として認識する。上記例の場合、音データ処理部１７０は、スピーカーを関連対象物として認識するそして、音データ処理部１７０は、スピーカーからの出力音を強調処理の対象とする。

また例えば、３人以上の乗員間で会話が行われ、一の乗員にとっての注意対象物が
複数の乗員のうちの特定の乗員の場合、注意対象物に対応する音源は特定の乗員である。本実施形態では、注意対象物と同じカテゴリの対象物が特定された場合、特定された対象物を関連対象物として認識する。上記例の場合、音データ処理部１７０は、複数の乗員のうち特定の乗員以外、すなわち、その他の乗員を関連対象物として認識する。そして、音データ処理部１７０は、特定の乗員の音声だけでなく、その他の乗員の音声も強調処理の対象とする。

図２に示すように、音データ処理部１７０は、種類判別部１７１と、音信号処理部１７２とを有している。

種類判別部１７１は、強調処理の対象である注意対象物に関する音について、その種別が音出力システム１００とは別のシステムを介して制御可能な種別か否かを判別する。音出力システム１００とは別のシステムとしては、音声対話システム、報知システム、警告システム、カーオーディオシステムなどが挙げられる。これらのシステムが制御する対象としては、例えば、音量、音の強さが挙げられる。

例えば、注意対象物に関する音が音声対話システムによりプログラミングされた音声の場合、種類判別部１７１は、注意対象物に関する音の種別がシステムを介して制御可能な種別として判別する。言い換えると、種類判別部１７１は、音出力システム１００とは別のシステムから注意対象物に関する音のデータを取得できると判定する。音信号処理部１７２は、該当するシステムから注意対象物に関する音のデータを取得し、第１音データに対して取得したデータを重畳する処理を実行することで、第２音データを生成する。以降の説明では、便宜上、注意対象物に関する音のデータを第３音データともいう。なお、音信号処理部１７２は、第２音データを生成するにあたり、取得した第３音データに対して音量を上げる処理又は音の強さを強くする処理をしたうえで、第１音データに対して重畳してもよい。

なお、上記の注意対象物に関する音をその他の音よりも強調させる方法は一例であって、音信号処理部１７２は、本願出願時に知られた音の強調処理を用いて、注意対象物に関する音をその他の音に比べて強調することができる。例えば、出力装置４として、ヘッドフォンなど、乗員に装着する機器が用いられる場合、音信号処理部１７２は、注意対象物に関する音について、その他の音に対して音量が相対的に上がる処理を実行してもよい。この場合、音信号処理部１７２は、音量調整された音データを第２音データとする。

また例えば、注意対象物に関する音が乗員の音声の場合、種類判別部１７１は、注意対象物に関する音の種別がシステムを介して制御不可能な種別として判別する。言い換えると、種類判別部１７１は、所定のシステムから注意対象物に関する音のデータを取得できないと判定する。音信号処理部１７２は、第１音データから注意対象物に関する音のデータを抽出し、抽出した音のデータに対して強調処理を実行することで、第２音データを生成する。

音データ出力部１８０は、音データ処理部１７０により生成された第２音データを、出力装置４に出力する。

次に、図７及び図８を用いて、音出力システム１００において、音データ処理装置５が実行する処理を説明する。図７は、本実施形態に係る音データ処理装置５が実行する処理を示すフローチャートである。

ステップＳ１では、音データ処理装置５は、収音装置１から第１音データを取得する。第１音データには、乗員が音源の方向及び音源までの距離を判断できる情報が含まれている。ステップＳ２では、音データ処理装置５は、撮像装置２から車両の室内の様子が写る撮像画像を取得する。

ステップＳ３では、音データ処理装置５は、ステップＳ１で取得した第１音データ、又はステップＳ２で取得した撮像画像に基づき、乗員の行動を認識する。例えば、音データ処理装置５は、撮像画像に基づき、乗員が指さしをしているか否かを判定する。音データ処理装置５は、乗員が指さしをしていると判定した場合、撮像画像に基づき、乗員が指し示す指示位置又は指示方向を特定する。なお、音データ処理装置５は、撮像画像に基づき、乗員が注視しているか否かを判定し、乗員が注視していると判定した場合、乗員が注視する注視位置又は注視方向を特定してもよい。また音データ処理装置５は、第１音データに基づき、乗員の発話内容を認識してもよい。これらの一又は複数の処理を行うことで、音データ処理装置５は、乗員の行動を認識する。上記のステップＳ１～ステップＳ３での処理は、後述するステップＳ５以降でも継続的に行われる。

ステップＳ４では、音データ処理装置５は、ステップＳ３で認識した乗員の行動に基づき、乗員が対象物に注意を向けているか否かを判定する。指さしを例に挙げると、音データ処理装置５は、ステップＳ４で乗員が指さしをしていると判定した場合、乗員が対象物に注意を向けていると判定する。この場合、ステップＳ５に進む。

一方、音データ処理装置５は、ステップＳ４で乗員が指さしをしていないと判定した場合、乗員が対象物に注意を向けていないと判定する。この場合、ステップＳ１に戻る。なお、上記判定方法は一例であって、音データ処理装置５は、ステップＳ３で得られたその他の判定結果及び判定結果の組み合わせに基づき、乗員が対象物に注意を向けているか否かを判定できる。

ステップＳ４で乗員が対象物に注意を向けていると判定した場合、ステップＳ５に進む。ステップＳ５に進むと、図８に示すサブルーチンに進み、音データ処理装置５は、注意対象物の特定などの処理を行う。図８は、図７に示すステップＳ５のサブルーチンである。

ステップＳ５１では、音データ処理装置５は、データベース３から車両の室内にある音源の位置情報を取得する。音源の位置情報としては、例えば、図３に示すような車両の室内を表した平面図が挙げられる。ステップＳ５２では、音データ処理装置５は、データベース３から車内空間情報を取得する。車内空間情報としては、例えば、図５に示すような車両の室内を表した平面図が挙げられる。なお、音源の位置情報及び車内空間情報は、車両の室内を表した情報であればよく、その形態は平面図に限定されない。

ステップＳ５３では、音データ処理装置５は、ステップＳ５１で取得した音源の位置情報、又はステップＳ５２で取得した車内空間情報に基づき、乗員が注意を向ける対象物である注意対象物を特定する。

例えば、図４に示すように、運転席に着座する乗員が助手席側に指をさしている場合、音データ処理装置５は、乗員の指示位置又は指示方向と、音源の位置情報とに基づき、助手席に着座する乗員を注意対象物として特定する。また音データ処理装置５は、この乗員を注意対象物に対応する音源として特定する。

また例えば、図６に示すように、運転席に着座する乗員がディスプレイを注視している場合、音データ処理装置５は、乗員の注視位置又は注視方向と、車内空間情報とに基づき、ディスプレイを注意対象物として特定する。また、図６に示す領域Ｒ_２に対応づけられた音源がスピーカーの場合、音データ処理装置５は、対応付けられたスピーカーを注意対象物に対応する音源として特定する。

ステップＳ５３での処理が終了すると、図７に示すステップＳ６に進む。ステップＳ６では、第２音データの生成処理などが行われる。図９は、図７に示すステップＳ６のサブルーチンである。

ステップＳ６１では、音データ処理装置５は、図８に示すステップＳ５３で特定した注意対象物に対応する音源が、音出力システム１００とは別のシステムを介して制御可能な種別か否かを判別する。例えば、音データ処理装置５は、注意対象物に関する音のデータである第３音データを音出力システム１００とは別のシステムから取得できる場合、注意対象物に対応する音源が別のシステムを介して制御できる種別と判別する。このような種別に該当する音としては、例えば、音声対話システムによりプログラミングされた音声、報知システムにより設定された報知音、警告システムにより設定された警告音、カーオーディオシステムにより設定されたオーディオ音などが挙げられる。

一方、音データ処理装置５は、第３音データを音出力システム１００に含まれる収音装置１からしか取得できない場合、注意対象物に対応する音源が別のシステムを介して制御できない種別と判別する。このような種別に該当する音としては、例えば、乗員の音声が挙げられる。

ステップＳ６２では、音データ処理装置５は、ステップＳ６１での判別結果に応じて、注意対象物に関する音をその他の音に比べて強調させる強調処理を実行する。例えば、音声対話システムによりプログラミングされた音声が注意対象物に関する音の場合、音データ処理装置５は、音声対話システムから第３音データを取得し、ステップＳ１で取得した第１音データに対して第３音データを重畳させる。また、乗員の音声が注意対象物に関する音の場合、音データ処理装置５は、ステップＳ１で取得した第１音データから第３音データを抽出し、抽出した第３音データに対して強調処理を実行する。

ステップＳ６３では、音データ処理装置５は、ステップＳ６２での実行結果に基づき、注意対象物に関する音が強調された第２音データを生成する。ステップＳ６３での処理が終了すると、図７に示すステップＳ７に進む。

ステップＳ７では、音データ処理装置５は、ステップＳ６で生成された第２音データを出力装置４に出力する。このステップは、音データ処理装置５から出力装置４への第２音データの出力が開始されたことを示すステップである。

ステップＳ８では、音データ処理装置５は、乗員の注意が注意対象物から逸れたか否かを判定する。音データ処理装置５は、ステップＳ３での乗員の行動認識結果から、乗員の注意がステップＳ５で特定された注意対象物に向けられていないと判定した場合、乗員の注意が注意対象物から逸れたと判定する。この場合、ステップＳ９に進む。ステップＳ９では、音データ処理装置５は、第２音データの生成処理を停止し、図７のフローチャートで示される処理を終了する。

例えば、音データ処理装置５は、乗員の指示位置と音源の位置情報とに基づき、乗員の指示位置又はその付近に注意対象物が存在しない場合、乗員の注意が注意対象物から逸れたと判定する。なお、上記判定方法は一例であって、例えば、音データ処理装置５は、注意対象物から逸れたと判定するためのジェスチャーが予め設定されており、乗員が当該ジェスチャーを行ったと認識した場合、乗員の注意が注意対象物から逸れたと判定してもよい。

一方、音データ処理装置５は、乗員の注意がステップＳ５で特定された注意対象物に向けられていると判定した場合、乗員の注意が注意対象物から逸れていないと判定する。この場合、ステップＳ１０に進む。例えば、音データ処理装置５は、乗員の指示位置と音源の位置情報とに基づき、乗員の指示位置又はその付近に注意対象物が存在する場合、乗員の注意が注意対象物から逸れていないと判定する。なお、上記判定方法は一例であって、例えば、音データ処理装置５は、注意対象物から逸れたと判定するためのジェスチャーが予め設定されており、乗員が当該ジェスチャーを行っていないと認識した場合、乗員の注意が注意対象物から逸れていないと判定してもよい。

ステップＳ８で乗員の注意が注意対象物から逸れていないと判定した場合、ステップＳ１０に進む。ステップＳ１０では、音データ処理装置５は、注意対象物に関する音が出力されているか否かを判定する。例えば、音データ処理装置５は、所定時間の間、注意対象物に対応する音源からの出力を確認できない場合、注意対象物に関する音が出力されていないと判定する。この場合、ステップＳ９に進む。ステップＳ９では、音データ処理装置５は、第２音データの生成処理を停止し、図７のフローチャートで示される処理を終了する。なお、所定時間とは、注意対象物に関する音が出力されているか否かを判定するための時間であって、予め設定された時間である。

一方、例えば、音データ処理装置５は、所定時間の間に注意対象物に対応する音源からの出力を確認できた場合、注意対象物に関する音が出力されていると判定する。この場合、ステップＳ８に戻る。

以上のように、本実施形態では、音データ処理装置５は、車両の室内に音像定位した音のデータである第１音データを取得する音データ取得部１５０と、乗員が注意を向ける対象物である注意対象物を特定する注意対象物特定部１６０と、第１音データに比べて注意対象物に関する音を強調した音のデータである第２音データを生成する音データ処理部１７０と、出力装置４に第２音データを出力する音データ出力部１８０とを備える。これにより、車両の乗員が注意して聞こうとする音が強調された状態で再生されるため、乗員は自身が注意して聞こうとする音を聞き取りやすくなる。

また、本実施形態では、注意対象物特定部１６０は、撮像装置２から乗員の撮像画像を取得し、取得した撮像画像に基づき、乗員の指示位置又は指示方向を認識し、データベース３から、音源の位置情報又は車内空間情報を取得し、認識した指示位置又は指示方向と、音源の位置情報又は車内空間情報とに基づき、注意対象物を特定する。乗員は、ジェスチャーという直観的かつ効率的な方法で、注意対象物を音データ処理装置５に伝えることができる。音データ処理装置５は、精度良く注意対象物を特定することができる。

さらに、本実施形態では、注意対象物特定部１６０は、撮像装置２から取得した撮像画像に基づき、乗員の注視位置又は注視方向を認識し、データベース３から、音源の位置情報又は車内空間情報を取得し、認識した注視位置又は注視方向と、音源の位置情報又は車内空間情報とに基づき、注意対象物を特定する。乗員は、視線という直観的かつ効率的な方法で、注意対象物を音データ処理装置５に伝えることができる。音データ処理装置５は、精度良く注意対象物を特定することができる。

加えて、本実施形態では、注意対象物特定部１６０は、収音装置１又はその他の収音装置から乗員の音声を取得し、取得した乗員の音声に基づき、乗員の発話内容を認識し、認識した発話内容に基づき、注意対象物を特定する。乗員は、発話内容という直観的かつ効率的な方法で、注意対象物を音データ処理装置５に伝えることができる。音データ処理装置５は、精度良く注意対象物を特定することができる。

また、本実施形態では、注意対象物に関する音は、注意対象物から出力される音である。例えば、注意対象物がその他の乗員の場合、乗員が注意を向ける方向から強調された音が届くため、乗員は注意を向けて聞きたい音を聞き取りやすくなる。

さらに、本実施形態では、注意対象物に関する音は、注意対象物に関連付けられ、注意対象物とは別の関連対象物から出力される音である。例えば、注意対象物がナビゲーションシステムの音声案内の場合、乗員がディスプレイに注意を向けていても、ディスプレイの表示情報に対応する音声案内が強調されるため、乗員が音を出力しない対象物に注意を向けていても、その対象物に関する音を聞き取りやすくなる。

加えて、本実施形態では、注意対象物に関する音は、注意対象物から出力される音、及び関連対象物から出力される音である。例えば、３人以上の乗員間で会話が行われている場面において、注意対象物が複数の乗員のうちの一の乗員、また関連対象物がその他の乗員の場合、乗員が注意を向ける対象だけでなく、当該対象と関連する音が強調される。乗員が注意を向けなくても、乗員が注意を向ける対象と関連する対象から、強調された音が届く。乗員にとって利便性の優れた音出力システム１００を提供することができる。

また、本実施形態では、音データ処理部１７０は、音出力システム１００とは別のシステムから注意対象物に関する音のデータである第３音データを取得できる場合、第１音データに対して第３音データを重畳する処理を実行することで、第２音データを生成する。例えば、ナビゲーションシステムによる音声案内のように、音量や音の強さを直接制御することができる対象が強調処理の対象の場合、簡便な方法で乗員が注意して聞きたい音を強調することができる。

さらに、本実施形態では、音データ処理部１７０は、音出力システム１００とは別のシステムから第３音データを取得できない場合、第１音データに含まれる第３音データに対して音の強調処理を実行することで、第２音データを生成する。例えば、乗員の音声のように、音量や音の強さを直接制御することができない対象であっても、そのような対象のみを強調することができる。強調処理の対象にかかわらず、乗員が注意して聞きたい音を強調することができる。

加えて、本実施形態では、音データ取得部１５０は、車両の室内で発生する音をバイノーラル録音する収音装置１から、第１音データを取得する。これにより、第１音データには、乗員が音源の方向及び音源までの距離を判断できる情報が含まれる。注意対象物に関する音を強調する処理を行った後に、当該音に対して音像定位処理を行うことなく、音像定位した音を乗員に伝えることができる。音像定位処理という複雑な処理を省略することができ、音データ取得部１５０の演算負荷を軽減することができる。また、乗員が音源の位置及び音源までの距離を判断できる情報から、車両の室内にある音源及びその位置を容易に特定することができる。さらに、あたかも乗員の左右の耳それぞれで捉えたかのような音を再生することができる。

また、本実施形態では、注意対象物特定部１６０は、注意対象物を特定した後、乗員が注意対象物に注意を向けているか否かを判定する。音データ処理部１７０は、注意対象物特定部１６０が乗員の注意が注意対象物に向けられていないと判定した場合、第２音データの生成を停止する。これにより、乗員の注意が対象物に向かないにもかかわらず、注意対象物に関する音が強調されるのを防ぐことができ、乗員に違和感を与えるのを防ぐことができる。言い方を変えると、乗員の注意が対象物に向く適切な場面で、乗員が注意して聞きたい音を強調することができる。

《第２実施形態》
次に、第２実施形態に係る音データ処理装置５について説明する。本実施形態では、図１に示す収音装置１及び出力装置４がヘッドマウントディスプレイ型のデバイスに設けられている点と、注意対象物及び注意対象物に対応する音源として、いわゆるアバターと呼ばれるアイコンが含まれる点と、音データ処理装置５が備える機能の一部が異なる点以外は、上述した第１実施形態と同じ構成を有している。このため、第１実施形態と同じ構成については、第１実施形態での説明を援用する。

本実施形態に係る音出力システム１００では、ヘッドマウントディスプレイ型のデバイスが用いられる。ヘッドマウントディスプレイ型のデバイスには、ＡＲ（拡張現実：ＡｕｇｍｅｎｔＲｅａｌｉｔｙ）の技術が搭載されている。ヘッドマウントディスプレイ型のデバイスのディスプレイには、アイコン（アバターともいう）が表示される。このデバイスを装着した乗員は、ディスプレイを通してアイコン（アバターともいう）を視認できるとともに、アイコンと対話できる。以降の説明では、このようなデバイスを単にヘッドマウントディスプレイともいう。本実施形態では、対象物には、車両の室内にある機器又は人間の他に、ヘッドマウントディスプレイを通じて乗員に提示されるアイコンが含まれる。

本実施形態のように、収音装置１及び出力装置４がヘッドマウントディスプレイとして一体的に設けられる場合、例えば、収音装置１及び出力装置４としては、バイノーラル録音ができるヘッドフォンが挙げられる。

また、乗員が車両の室内でヘッドマウントディスプレイを介してアイコンと対話する場面としては、例えば、車両の外部にいる人間との対話が挙げられる。遠隔地は、車両の室外であればよく、特に限定される場所ではない。この場面において、運転席に着座する乗員がディスプレイを介して助手席を見ると、助手席に相当する位置には遠隔地にいる人間に対応するアイコンが表示される。またヘッドフォンからは遠隔地にいる人間の音声が出力される。

本実施形態に係る音データ処理装置５が備える機能について、図１０～図１２を用いて説明する。図１０は、ヘッドマウントディスプレイを装着した乗員がアイコンと対話している場面の一例である。図１０は、第１実施形態の説明で用いた図４の場面と対応している。図１０では、乗員Ｕ_１はヘッドマウントディスプレイ（ＨＤ）を装着している。また図１０では、乗員Ｕ_１の注視方向を点線矢印で示す。

本実施形態に係る音データ処理装置５は、注意対象物の特定処理において、ヘッドマウントディスプレイを介して、注意対象物の候補を乗員に提示し、注意対象物の候補を乗員に選択させる機能を有する。図１１は、図１０に示す場面において、乗員に提示される注意対象物の候補の一例である。なお、図１１において、Ｉは遠隔地にいる人間に対応したアイコンを示す。

例えば、音データ処理装置５は、ヘッドマウントディスプレイに搭載された撮像装置から乗員の視界に相当する撮像画像を取得する。そして、図１１の例に示すように、音データ処理装置５は、助手席が写る撮像画像に対して、音源の位置を示すＰ_１２及びＰ_２２を重畳させて表示させる。図１１に示すように、音データ処理装置５は、乗員が音源ということを識別可能な態様で、音源の位置を乗員に提示する。

音データ処理装置５は、乗員が視認する画面に注意対象物の候補が複数存在するか否かを判定する。また音データ処理装置５は、複数の注意対象物の候補が存在すると判定した場合、そのカテゴリが複数であるか否かを判定する。カテゴリは、例えば、乗員又はアイコン、スピーカーなどに分類される。またカテゴリは、音出力システム１００以外のシステムを介して制御可能か否かで分類されてもよい。

音データ処理装置５は、注意対象物の候補のカテゴリが複数であると判定した場合、乗員に対して注意対象物の選択要求を行う。音データ処理装置５は、乗員によって選択された一の注意対象物の候補を、注意対象物として特定する。なお、図１１に示すＰ_１２及びＰ_２２は、図３に示すＰ_１２及びＰ_２２に対応する。

図１２は、図７に示すステップＳ５のサブルーチンであって、本実施形態に係るサブルーチンである。また図１２は、本実施形態に係る音データ処理装置５が実行する注意対象物の特定方法を説明するための図である。図１２において、第１実施形態に係る図７に示すステップＳ５のサブルーチンと同じ処理については、図７と同じ符号を付し、その説明を援用する。

ステップＳ１５１では、音データ処理装置５は、注意対象物の候補を提示する。例えば、音データ処理装置５は、図１１の例で示すような態様で複数の注意対象物の候補を提示する。

ステップＳ１５２では、音データ処理装置５は、ステップＳ１５１で提示された注意対象物の候補が複数存在するか否かを判定する。注意対象物の候補が複数存在すると判定した場合、ステップＳ１５３に進み、注意対象物の候補が複数存在しないと判定した場合、ステップＳ５４に進む。

ステップＳ１５２で注意対象物の候補が複数存在すると判定した場合、ステップＳ１５３に進む。ステップＳ１５３では、音データ処理装置５は、注意対象物の候補のカテゴリが複数存在するか否かを判定する。注意対象物の候補のカテゴリが複数存在すると判定した場合、ステップＳ１５４に進み、注意対象物の候補のカテゴリが複数存在しないと判定した場合、ステップＳ５４に進む。

ステップＳ１５３で注意対象物の候補のカテゴリが複数存在すると判定した場合、ステップＳ１５４に進む。ステップＳ１５４では、音データ処理装置５は、乗員からの選択信号を受け付ける。例えば、乗員は指さしなどのジェスチャーをすることで、複数の注意対象物の候補から一の注意対象物の候補を選択する。ステップＳ１５４での処理が終了すると、ステップＳ５４に進み、注意対象物が特定される。

このように、本実施形態では、音データ処理装置５をＡＲの技術を搭載したヘッドマウントディスプレイ型のデバイスに適用した。これにより、注意対象物を特定するにあたり、乗員に選択させることができ、乗員が注意して聞きたい音を的確に強調して出力することができる。また、アイコンのように実際に存在しないものの、音を出力する対象物を注意対象物に含めることができる。その結果、乗員が注意して聞きたい音の対象を拡張することができる。

なお、以上に説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計変更や均等物をも含む趣旨である。

例えば、上述した第１実施形態において、注意対象物を特定する方法として、音源の位置情報又は車内空間情報を用いた方法を例に挙げて説明したが、音源の位置情報及び車内空間情報のうち少なくとも何れか一つを用いて、注意対象物を特定すればよい。例えば、音源の位置情報のみを用いて注意対象物を特定してもよいし、車内空間情報のみを用いて注意対象物を特定してもよい。また、例えば、音源の位置情報を用いて注意対象物を特定できない場合、車内空間情報を用いて注意対象物を特定する方法であってもよい。

例えば、上述した第２実施形態において、音データ処理装置５が備える機能の一部は、ヘッドマウントディスプレイ型のデバイスが有する機能を利用してもよい。例えば、ヘッドマウントディスプレイに周囲を撮像する撮像装置、乗員の音声を取得するマイクなどが搭載されている場合、音データ処理装置５は、これらの装置又は機器から、乗員の動作、視線、及び音声に関する情報を取得してもよい。そして、音データ処理装置５は、取得した情報を用いて、乗員の動作認識、乗員の視線認識、又は乗員の発話認識の処理を行ってもよい。

１…収音装置
２…撮像装置
３…データベース
４…出力装置
５…音データ処理装置
５０…制御装置
１５０…音データ取得部
１６０…注意対象物特定部
１６１…動作認識部
１６２…視線認識部
１６３…発話内容認識部
１６４…音源特定部
１７０…音データ処理部
１７１…種類判別部
１７２…音信号処理部
１８０…音データ出力部
５１…記憶装置
１００…音出力システム

Claims

車両の室内の音のデータである第１音データを取得する音データ取得部と、
前記車両の乗員が注意を向ける対象物である注意対象物を特定する対象物特定部と、
前記第１音データに比べて前記注意対象物に関する音を強調した前記音のデータである第２音データを生成する音データ処理部と、
前記乗員に対して音を出力する出力装置に、前記第２音データを出力する音データ出力部と、を備え、
前記対象物特定部は、前記乗員を前記注意対象物に対応する音源として特定し、スピーカーを前記注意対象物に対応する音源として特定し、
前記音データ処理部は、
３人以上の乗員間で会話が行われ、一の乗員にとっての前記注意対象物が複数の乗員のうち特定の乗員であり、前記特定の乗員以外の他の乗員が特定された場合には、前記他の乗員を関連対象物として認識し、
前記注意対象物に関する前記音、及び前記関連対象物に関する音を強調した前記第２音データを生成し、
前記第１音データと前記第２音データとを比べた場合、前記乗員が聞く音の音源の数と、前記乗員を基準にして音像が定位する位置は同じであり、第２音データでは、第１音データに比べて、音の音量又は音の強さが、その他の音の音量又は音の強さよりも相対的に大きい音データ処理装置。
前記対象物特定部は、
前記室内を撮像する撮像装置から、前記乗員の撮像画像を取得し、
前記撮像画像に基づき、前記乗員が指し示す指示位置又は指示方向を認識し、
記憶装置から、前記室内における前記対象物の位置情報を取得し、
前記指示位置又は指示方向と、前記位置情報とに基づき、前記注意対象物を特定する請求項１記載の音データ処理装置。
前記対象物特定部は、
前記室内を撮像する撮像装置から、前記乗員の撮像画像を取得し、
前記撮像画像に基づき、前記乗員が注視する注視位置又は注視方向を認識し、
記憶装置から、前記室内における前記対象物の位置情報を取得し、
前記注視位置又は前記注視方向と、前記位置情報とに基づき、前記注意対象物を特定する請求項１又は２記載の音データ処理装置。
前記対象物特定部は、
前記室内の音声を収音する装置から、前記乗員の音声を取得し、
前記乗員の音声に基づき、前記乗員の発話内容を認識し、
前記発話内容に基づき、前記注意対象物を特定する請求項１～３の何れかに記載の音データ処理装置。
前記注意対象物に関する前記音は、前記注意対象物から出力される前記音である請求項１～４の何れかに記載の音データ処理装置。
前記注意対象物に関する前記音は、前記関連対象物から出力される前記音である請求項１～５の何れかに記載の音データ処理装置。
前記注意対象物に関する前記音は、前記注意対象物から出力される音、及び前記関連対象物から出力される音である請求項１～６の何れかに記載の音データ処理装置。
前記音データ処理部は、所定のシステムから前記注意対象物に関する前記音のデータである第３音データを取得できる場合、前記第１音データに対して前記第３音データを重畳する処理を実行することで、前記第２音データを生成する請求項１～７の何れかに記載の音データ処理装置。
前記音データ処理部は、所定のシステムから前記注意対象物に関する前記音のデータである第３音データを取得できない場合、前記第１音データに含まれる前記第３音データに対して音の強調処理を実行することで、前記第２音データを生成する請求項１～７の何れかに記載の音データ処理装置。
前記音データ取得部は、前記室内で発生する音をバイノーラル録音する装置から、前記第１音データを取得する請求項１～９の何れかに記載の音データ処理装置。
前記対象物特定部は、前記注意対象物を特定した後、前記乗員が前記注意対象物に注意を向けているか否かを判定し、
前記音データ処理部は、前記対象物特定部が前記乗員の注意が前記注意対象物に向けられていないと判定した場合、前記第２音データの生成を停止する請求項１～１０の何れかに記載の音データ処理装置。
プロセッサが実行する音データ処理方法であって、
車両の室内に音像定位した音のデータである第１音データを取得し、
前記車両の乗員が注意を向ける対象物である注意対象物を特定し、
前記第１音データに比べて、前記注意対象物に関する前記音、及び関連対象物に関する音を強調した第２音データを生成し、
前記乗員を前記注意対象物に対応する音源として特定し、スピーカーを前記注意対象物に対応する音源として特定し、
３人以上の乗員間で会話が行われ、一の乗員にとっての前記注意対象物が複数の乗員のうち特定の乗員であり、前記特定の乗員以外の他の乗員が特定された場合には、前記他の乗員を前記関連対象物として認識し、
前記乗員に対して音を出力する出力装置に、前記第２音データを出力し、
前記第１音データと前記第２音データとを比べた場合、前記乗員が聞く音の音源の数と、前記乗員を基準にして音像が定位する位置は同じであり、第２音データでは、第１音データに比べて、音の音量又は音の強さが、その他の音の音量又は音の強さよりも相対的に大きい音データ処理方法。