JP7456490B2 - 音データ処理装置および音データ処理方法 - Google Patents

音データ処理装置および音データ処理方法 Download PDF

Info

Publication number
JP7456490B2
JP7456490B2 JP2022509740A JP2022509740A JP7456490B2 JP 7456490 B2 JP7456490 B2 JP 7456490B2 JP 2022509740 A JP2022509740 A JP 2022509740A JP 2022509740 A JP2022509740 A JP 2022509740A JP 7456490 B2 JP7456490 B2 JP 7456490B2
Authority
JP
Japan
Prior art keywords
sound
sound data
occupant
attention
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022509740A
Other languages
English (en)
Other versions
JPWO2021191651A1 (ja
JPWO2021191651A5 (ja
Inventor
翔太 大久保
裕史 井上
雅己 岡本
乘 西山
純 河西
剛仁 寺口
雄宇 志小田
放歌 陳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Publication of JPWO2021191651A1 publication Critical patent/JPWO2021191651A1/ja
Publication of JPWO2021191651A5 publication Critical patent/JPWO2021191651A5/ja
Application granted granted Critical
Publication of JP7456490B2 publication Critical patent/JP7456490B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/18Methods or devices for transmitting, conducting or directing sound
    • G10K11/26Sound-focusing or directing, e.g. scanning
    • G10K11/34Sound-focusing or directing, e.g. scanning using electrical steering of transducer arrays, e.g. beam steering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/21Direction finding using differential microphone array [DMA]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Description

本発明は、音データ処理装置および音データ処理方法に関する。
車両外部の周囲音を収音し、収音により得られた音声情報を、車両内部にて定位が与えられた音として再生する周囲状況通知装置が知られている(特許文献1)。この周囲状況通知装置は、車両の周囲方向において運転者にとって特に注意度が高いとされる方向である注意方向を決定する。そして、この周囲状況通知装置は、注意方向に定位する音が車両の周囲における注意方向以外の方向に定位する音よりも強調されるように再生する。
特開2005-316704号公報
従来技術では、車両外部にある特定の音を車両外部における他の音よりも強調するように再生するが、車両内部にある音は車両の乗員にそのまま伝わる。このため、例えば、乗員が車両内部にある特定の音を注意して聞こうとしても、その音を聞き取りづらい場合がある。
本発明が解決しようとする課題は、車両の乗員が車両内部にある特定の音を聞き取りやすくなる音データ処理装置及び音データ処理方法を提供することである。
本発明は、車両の室内に音像定位した音のデータである第1音データを取得し、乗員が注意を向ける対象物である注意対象物を特定し、第1音データに比べて注意対象物に関する音を強調した音のデータであって、音像定位した音のデータである第2音データを生成し、乗員に対して音を出力する出力装置に、第2音データを出力することで、上記課題を解決する。
本発明によれば、車両の乗員は車両内部にある特定の音を聞き取りやすくなる。
図1は、第1実施形態に係る音データ処理装置を含む音出力システムの一例を示すブロック図である。 図2は、図1に示す制御装置が備える各機能を示すブロック図である。 図3は、車両の室内にある音源の位置情報の一例である。 図4は、音源の位置情報を用いて、注意対象物及び注意対象物に対応する音源を特定する方法を説明するための図である。 図5は、車内空間情報の一例である。 図6は、車内空間情報を用いて、注意対象物及び注意対象物に対応する音源を特定する方法を説明するための図である。 図7は、音データ処理装置が実行する処理を示すフローチャートである。 図8は、図7に示すステップS5のサブルーチンである。 図9は、図7に示すステップS6のサブルーチンである。 図10は、ヘッドマウントディスプレイを装着した乗員がアイコンと対話している場面の一例である。 図11は、図10に示す場面において、乗員に提示される注意対象物の候補の一例である。 図12は、図7に示すステップS5のサブルーチンであって、第2実施形態に係るサブルーチンである。
以下、本発明に係る音データ処理装置及び音データ処理方法の実施形態を図面に基づいて説明する。
《第1実施形態》
本実施形態では、車両に搭載された音出力システムを例に挙げて説明する。図1は、第1実施形態に係る音データ処理装置5を含む音出力システム100の一例を示すブロック図である。
図1に示すように、音出力システム100は、収音装置1と、撮像装置2と、データベース3と、出力装置4と、音データ処理装置5を含む。これらの装置は、相互に情報の授受を行うためにCAN(Controller Area Network)その他の車載LANによって接続されている。また、各装置間は、CAN等の車載LANに限られず、その他の有線LAN、又は無線LANにより接続されていてもよい。
音出力システム100は、車両に乗車している人間に対して、音を出力するシステムである。音出力システム100が出力する音については後述する。なお、図示されていないが、車両には、その他に、音声対話システム、報知システム、警告システム、カーオーディオシステムなどが搭載されている。また、以降の説明では、便宜上、車両の乗員を単に乗員ともいう。
音声対話システムは、音声認識技術及び音声合成技術を用いて、乗員と対話するためのシステムである。報知システムは、車両に搭載された機器に関する情報を、報知音によって乗員に知らせるためのシステムである。警告システムは、予測された車両への危険を、警告音によって乗員に警告するためのシステムである。カーオーディオシステムは、例えば、音楽などが記録された記録媒体と接続することで、記録媒体に記録された音楽などを流すためのシステムである。後述する音データ処理装置5は、これら車両に搭載されたシステムと所定のネットワークを介して接続されている。
本実施形態において、乗員が着座する座席の位置は特に限定されない。また、乗員の人数も特に限定されず、音出力システム100は、一又は複数の乗員に対して音を出力する。
音出力システム100に含まれる各構成について説明する。
収音装置1は、車両の室内に設けられ、車両の室内で乗員が聞く音を収音する。収音装置1により収音される音は、主として車両の室内に音源がある音である。収音装置1により収音される音としては、例えば、乗員間での対話、音声対話システムと乗員との対話、音声対話システムによる音声案内、報知システムによる報知音、警告システムによる警告音、オーディオシステムによるオーディオ音などが挙げられる。なお、収音装置1により収音される音には、車両の外部に音源がある音(例えば、他車両のエンジン音)が含まれていてもよい。なお、以降の説明において、「車両の室内」は「車内」に文言を置き換えてもよい。また「車両の外部」は「車外」に文言を置き換えてもよい。
収音装置1は、車両の室内に音像定位した音を収音する。音像定位した音とは、人間が音を聞いた際に、その音源の方向と音源までの距離を判断できる音である。言い換えると、人間を基準にした所定の位置に音像が定位した音の場合、その人間がその音を聞くと、あたかも所定の位置に音源があり、その位置から音が出力されているかのように感じる。このような音像定位した音を収音するための技術としては、例えば、バイノーラル録音が挙げられる。バイノーラル録音では、人間の鼓膜に届く状態での音が録音される。
収音装置1としては、例えば、バイノーラルマイクが挙げられるが、その形態は特に限定されない。例えば、収音装置1のタイプがイヤホン型の場合、収音装置1は、乗員の左右の耳にそれぞれ取り付けられる。イヤホン型では、イヤホンにマイクが設けられており、乗員の左右の耳それぞれで捉える音を収音することができる。なお、乗員に装着可能なタイプとして、収音装置1は、乗員の頭部に装着可能なヘッドフォン型であってもよい。
また例えば、収音装置1のタイプがダミーヘッド型の場合、収音装置1は、着座した際の乗員の頭部に相当する場所に設けられる。乗員の頭部に相当する場所としては、例えば、ヘッドレスト付近が挙げられる。ダミーヘッドとは、人間の頭の形をした録音器である。ダミーヘッド型では、ダミーヘッドの耳の部分にマイクが設けられており、乗員の左右の耳それぞれで捉えたかのような音を収音することができる。
既述のとおり、音像定位した音とは、人間が音源の方向と音源までの距離を判断できる音であるため、音源から同じ音が出力されている場合でも、人間と音源の位置関係に応じて、音源の方向及び音源までの距離に対しての感じ方は変わる。そこで、本実施形態では、車両の座席の数に対して同数の収音装置1が車両に設けられている。また本実施形態では、収音装置1は、車両の座席の位置と同じ位置に設けられている。これにより、音源の配置場所及び音源の数に依存することなく、各乗員が感じる音源の方向と音源までの距離の情報を含む音データを取得することができる。
例えば、車両の前方に2つの座席(運転席と助手席)があり、車両の後方に2つの座席(後部座席)がある場合を例に挙げて説明する。各座席には収音装置1が設けられている。また、車両の室内には、スピーカーが前方と左右の側方とにそれぞれ設けられており、例えば、室内には音楽が流れているとする。この例において、運転座席(前方右側の座席)に座る乗員にとって前方のスピーカーが左右の側方にあるスピーカーよりも近い場合、この乗員は、自身に対して前方から届く音の音源を自身に対して左右から届く音の音源よりも近く感じる。また、この乗員は、自身に対して右側から届く音の音源を自身に対して左側から届く音の音源よりも近く感じる。運転席に設けられた収音装置1は、運転席に座る乗員の鼓膜に届く状態での音を収音することができる。
収音装置1は、収音した音を所定の音信号に変換し、変換した音信号を音データとして、音データ処理装置5に出力する。これにより、音データ処理装置5は、収音された音のデータ処理を実行する。収音装置1から音データ処理装置5に出力される音データには、乗員が音源の方向及び音源までの距離を判断できる情報が含まれている。また収音装置1が座席ごとに設けられている場合、各収音装置1から音データが音データ処理装置5に出力される。音データ処理装置5は、どの座席に設けられた収音装置1からの音データであるかを判別できるものとする。
撮像装置2は、車両の室内を撮像する。撮像装置2により撮像された撮像画像は、音データ処理装置5に出力される。撮像装置2としては、例えば、CCD素子を備えたカメラが挙げられる。撮像装置2が撮像する画像の種別は限定されず、撮像装置2は、静止画及び動画のうち少なくとも何れか一つを撮像する機能を有していればよい。
例えば、撮像装置2は、車両の室内において乗員を撮像できる位置に設けられ、乗員の様子を撮像する。なお、撮像装置2が設けられる場所、撮像装置2の数は特に限定されない。例えば、撮像装置2は、座席ごとに設けられていてもよいし、室内全体を見渡せる位置に設けられていてもよい。
データベース3は、車両の室内にある音源の位置情報と、車両の室内にある音源に関する車内空間情報を記憶する。以降の説明では、便宜上、車両の室内にある音源の位置情報を、単に音源の位置情報ともいう。また、便宜上、車両の室内にある音源に関する車内空間情報を、単に車内空間情報ともいう。
車両の室内にある音源には、スピーカーと人間(乗員)が含まれる。音源の位置情報は、スピーカーの設置位置、又は座席に着座した状態での乗員の頭部の位置を示す。音源の位置情報の具体例については後述する。車内空間情報とは、乗員が注意を向ける車両の室内にある対象物と、車両の室内にある音源とを関連付けるために用いられる情報である。車内空間情報の具体例については、後述する。データベース3は、音データ処理装置5からのアクセスに応じて、音源の位置情報と車内空間情報を音データ処理装置5に出力する。
出力装置4には、音データ処理装置5から音データが入力される。出力装置4は、音データに基づき再生音を生成し、再生音を立体音響として出力する。
例えば、音データ処理装置5から出力装置4に出力される音データにステレオ録音の信号が含まれる場合、出力装置4は、ステレオ方式を用いて再生音を出力する。この場合、出力装置4としては、スピーカーが挙げられる。出力装置4の設置場所及び設置する数は、特に限定されない。出力装置4は、再生音を立体音響として出力できる数だけ車両の室内に設けられる。また出力装置4は、再生音を立体音響として出力できるように車両の室内の所定位置に設けられる。例えば、各乗員に対して異なる立体音響を付与するために、出力装置4は座席ごとに設けられる。これにより、あたかも各乗員の左右の耳それぞれで捉えたかのような音を再生することができる。
なお、出力装置4はスピーカー以外の装置であってもよい。例えば、音データ処理装置5から出力装置4に出力される音データにバイノーラル録音の信号が含まれる場合、出力装置4は、バイノーラル方式を用いて再生音を出力する。この場合、出力装置4としては、両耳に取り付け可能なイヤホン、頭部に装着可能なヘッドフォンなどが挙げられる。例えば、各乗員に対して異なる立体音響を付与するために、出力装置4は乗員ごとに取り付け又は装着される。これにより、あたかも各乗員の左右の耳それぞれで捉えたかのような音を再生することができる。
音データ処理装置5は、ハードウェア及びソフトウェアを備えたコンピュータにより構成され、プログラムを格納したROM(Read Only Memory)と、このROMに格納されたプログラムを実行するCPU(Central Processing Unit)と、アクセス可能な記憶装置として機能するRAM(Random Access Memory)とから構成されている。なお、動作回路としては、CPUに代えて又はこれとともに、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)などを用いることができる。図1に示す制御装置50はCPUに相当し、また図1に示す記憶装置51はROM及びRAMに相当する。本実施形態では、音データ処理装置5は、モジュールとして車両に設けられている。
図2は、図1に示す制御装置50が備える各機能を示すブロック図である。図2を用いて、制御装置50が備える機能について説明する。図2に示すように、制御装置50には、音データ取得部150と、注意対象物特定部160と、音データ処理部170と、音データ出力部180が含まれ、これらのブロックは、ROMにより確立されたソフトウェアによって、後述する各機能を実現する。
音データ取得部150は、収音装置1から音のデータを取得する。また音データ取得部150は、音出力システム100以外のシステムから音データを取得できる場合、このシステムから音データを取得する。音出力システム100以外のシステムとしては、例えば、音声対話システム、報知システム、警告システム、カーオーディオシステムが挙げられる。以降の説明では、便宜上、音データ取得部150により取得された音データを第1音データともいう。また、以降の説明では、一人の乗員を対象にした処理を例に挙げて説明するが、乗員が複数存在する場合、すなわち、第1音データが複数存在する場合、各第1音データに対して以降の説明の処理を行うものとする。
既述のとおり、収音装置1から出力される音データには、乗員が音源の方向及び音源までの距離を判断できる情報が含まれている。音データ取得部150は、データベース3に記憶される音源の位置情報を用いて、乗員が聞く一種類又は複数種類の音について、音源の位置を特定する。例えば、第1音データに他の乗員の音声が含まれている場合、音データ取得部150は、音源が乗員であると判別するとともに、音源の位置情報を参照して、乗員の位置を特定する。
また、例えば、音データ取得部150は、音声対話システムなどから音データを取得した場合、音源がスピーカーであると判別するとともに、音源の位置情報を参照して、スピーカーの位置を特定する。この際に、音データ取得部150は、第1音データを解析し、車両の室内に設置された全てのスピーカーのうち、音源として乗員が最も近くに感じるスピーカーを特定する。
注意対象物特定部160は、車両の乗員が注意を向ける対象物である注意対象物を特定する。また注意対象物特定部160は、注意対象物に対応する音源を特定する。対象物とは、車両の室内にある機器又は人間である。
図2に示すように、注意対象物特定部160は、乗員が対象物に注意を向けているか否かを判定するための機能ブロックとして、動作認識部161と、視線認識部162と、発話内容認識部163を有している。これらのブロックは、乗員の行動を認識するためのブロックである。また、注意対象物特定部160は、注意対象物及び注意対象物に関する音の音源を特定するための機能ブロックとして、音源特定部164を有している。
まず、乗員が対象物に注意を向けているか否かを判定するための各機能ブロックについて説明する。動作認識部161は、撮像装置2により撮像された撮像画像に基づき、乗員の動作を認識する。例えば、動作認識部161は、撮像画像に対して、乗員の手の様子を解析するための画像処理を実行することで、乗員のジェスチャーを認識する。さらに、動作認識部161は、乗員のジェスチャーが指さしの場合、指でさし示す位置又は指でさし示す方向を認識する。なお、以降の説明では、便宜上、指でさし示す位置を指示位置、また指でさし示す方向を指示方向ともいう。
例えば、人間の指さしのジェスチャーにおける特徴点(例えば、各指の位置関係など)が予め設定され、ハードディスク(HDD)、ROM等の記憶媒体に記憶されているとする。この場合、動作認識部161は、撮像装置2により撮像された撮像画像のうち乗員の手が写る部分から、手の特徴点を抽出する。そして、動作認識部161は、抽出された特徴点と記憶媒体に記憶される特徴点を比較することで、乗員によるジェスチャーが指でさすジェスチャーに該当するか否かを判定する。動作認識部161は、例えば、抽出された特徴点のうち、記憶媒体に記憶される特徴点と一致する特徴点が所定の数以上の場合、乗員のジェスチャーが指さしと判定する。一方、動作認識部161は、抽出された特徴点のうち、記憶媒体に記憶される特徴点と一致する特徴点が所定の数未満の場合、乗員のジェスチャーが指さし以外と判定する。所定の数とは、乗員のジェスチャーが指さしか否かを判定するための閾値であって、予め定められた閾値である。なお、上記判定方法は一例であって、動作認識部161は、本願出願時に知られた技術を用いて、乗員のジェスチャーが指さしか否かを判定できる。
視線認識部162は、撮像装置2により撮像された撮像画像に基づき、乗員の視線を認識する。例えば、視線認識部162は、撮像画像に対して、乗員の目の様子を解析するための画像処理を実行することで、乗員の視線方向を認識する。さらに、視線認識部162は、乗員が注視している場合、乗員が注視する位置又は注視する方向を認識する。注視位置とは、車両の室内における所定の位置であり、注視方向とは、車両の室内における所定の方向である。なお、以降の説明では、便宜上、乗員が注視する位置を注視位置、また乗員が注視する方向を注視方向ともいう。
例えば、視線認識部162は、撮像装置2により撮像された撮像画像のうち乗員の目が映る部分を連続的に監視する。視線認識部162は、例えば、乗員の視線が一定時間以上移動することなく、同一方向を示す場合、乗員は注視していると判定する。一方、視線認識部162は、乗員の視線が一定時間内に移動する場合、乗員は注視していないと判定する。一定時間とは、乗員が注視しているか否かを判定するための閾値であって、予め定められた閾値である。なお、上記判定方法は一例であって、視線認識部162は、本願出願時に知られた技術を用いて、乗員が注視しているか否かを判定できる。
発話内容認識部163は、車両の室内の音声を収音する装置から、乗員の音声を取得し、乗員の音声に基づき発話内容を認識する。乗員の音声を収音する装置は、収音装置1であってもよいし、収音装置1とは別の収音装置であってもよい。例えば、発話内容認識部163は、乗員の音声に対応する音データに対して、乗員の音声を認識するための音声認識処理を実行することで、乗員の発話内容を認識する。なお、発話内容認識部163は、本願出願時に知られた音声認識技術を用いて、乗員の発話内容を認識できる。
注意対象物特定部160は、動作認識部161、視線認識部162、及び発話内容認識部163で得られた結果のうち少なくとも何れか一つを用いて、乗員が対象物に注意を向けているか否かを判定する。なお、複数の結果を用いて判定を行う場合、注意対象物特定部160は、各ブロックの結果への優先順位や重み付け処理などを用いて判定してもよい。
例えば、注意対象物特定部160は、動作認識部161によって乗員のジェスチャーが指さしと判定された場合、乗員が対象物に注意を向けていると判定する。また例えば、注意対象物特定部160は、視線認識部162によって乗員が注視していると判定された場合、乗員が対象物に注意を向けていると判定する。また例えば、注意対象物特定部160は、発話内容認識部163によって乗員の音声に特定のキーワード又は特定のキーフレーズが含まれると判定した場合、乗員が対象物に注意を向けていると判定する。特定のキーワード又は特定のキーフレーズとは、乗員が対象物に注意を向けているか否かを判定するためのキーワード又はキーフレーズであって、予め定められている。特定のキーワードとしては、例えば、「ナビ音声」など車両に設けられた機器に関するワードが挙げられる。また特定のキーフレーズとしては、例えば、「Xを聞かせて」、「Yを見たい」など、願望を表したフレーズが挙げられる。
次に、注意対象物及び注意対象物に対応する音源を特定するための各機能ブロックについて説明する。音源特定部164は、動作認識部161、視線認識部162、及び発話内容認識部163で得られた結果のうち少なくとも何れか一つと、データベース3に記憶される音源の位置情報又は車内空間情報と基づき、注意対象物及び注意対象物に対応する音源を特定する。なお、複数の結果を用いて特定する場合、注意対象物特定部160は、各ブロックの結果への優先順位や重み付け処理などを用いて特定してもよい。
音源特定部164は、乗員の指示位置又は指示方向と、音源の位置情報又は車内空間情報に基づき、注意対象物及び注意対象物に対応する音源を特定する。また音源特定部164は、乗員の注視位置又は注視方向と、音源の位置情報又は車内空間情報に基づき、注意対象物及び注意対象物に対応する音源を特定する。また音源特定部164は、乗員の発話内容と、音源の位置情報又は車内空間情報に基づき、注意対象物及び注意対象物に対応する音源を特定する。
図3~図6を用いて、注意対象物及び注意対象物に対応する音源を特定する方法について説明する。図3は、データベース3が記憶する、車両の室内にある音源の位置情報の一例である。図3は、車両Vの室内を表した平面図を示す。車両Vは、前方に2つの座席、後方に2つの座席を有している。図3において、車両Vの進行方向は図面上側とする。また図3において、P11~P15はスピーカーが配置されている位置を示し、P22~P25は座席に着座した状態での乗員の頭部の位置を示す。P22~P25は、座席に重畳して表される。なお、図3において、Dは、インストルメントパネルに埋設されたディスプレイを示す。このディスプレイDには、ナビゲーションシステムによるメニュー画面、目的地までの案内情報などが表示される。ナビゲーションシステムは、音声対話システムに含まれるシステムである。
図4は、音源の位置情報を用いて、注意対象物及び注意対象物に対応する音源を特定する方法を説明するための図である。図4に示すP11~P15、P22、P23、及びP25は、図3に示すP11~P15、P22、P23、及びP25に対応する。また図4において、Uは、運転席に着座する乗員を示す。乗員Uは車両Vの進行方向に対して左側を向いている。図4では、乗員Uの視線を点線矢印で示す。また乗員Uは車両Vの進行方向に対して左側を指でさしている。図4では、乗員Uの指示方向を実線矢印で示す。なお、図4の例では、車両Vは所定の場所で停止又は駐車している、あるいは車両Vはいわゆる自動運転機能により自動的に又は自律的に走行しているものとし、乗員Uが進行方向に対して左側を向いていても、車両Vの運転には影響がないものとする。また説明の便宜上、図示されていないが、図4において車両Vの助手席には乗員Uが着座しており、乗員Uと乗員Uは対話している。
図4の例では、音源特定部164は、乗員Uの指示位置と各音源の位置(位置P11~位置P15、位置P22、及び位置P25)を比較する。音源特定部164は、乗員Uの指示位置が位置P22の付近であることを特定すると、乗員Uを注意対象物として特定する。この際に、音源特定部164は、乗員Uが注意を向けて聞こうとする音が乗員Uの音声であると特定する。さらに、音源特定部164は、乗員Uが注意を向けて聞こうとする音が乗員Uから発せられるため、乗員Uを注意対象物に対応する音源として特定する。また音源特定部164は、上記の特定方法において、指示位置を、指示方向、注視位置、又は注視方向に置き換えたうえで、指示位置を用いた特定方法と同じ方法で、注意対象物及び注意対象物に対応する音源を特定することができる。
図5は、データベース3が記憶する、車内空間情報の一例である。図5は、図3及び図4と同様に、車両Vの室内を表した平面図を示す。
図5において、Rは報知音に関連する領域を示す。報知音に関連する領域には、例えば、運転席の正面に位置する、スピードメーター、燃料計、水温計、オドメーター等が含まれる。なお、報知音に関連する領域には、その他に、運転席と助手席の間にあるセンターコンソール、シフトレバー、エアコンの操作部が含まれていてもよいし、また助手席正面に位置し、いわゆるダッシュボードと呼ばれる収納スペースが含まれていてもよい。領域Rは、図3において位置P11~P15に配置されたスピーカーと対応付けられている。
また図5において、Rは、ナビゲーションシステムと乗員との音声対話に関連する領域を示す。音声対話に関連する領域には、ナビゲーションシステムのメニュー画面等を表示するディスプレイが含まれる。図5では、Rは図3で示すディスプレイDに対応している。領域Rは、図3において位置P11~P15に配置されたスピーカーと対応付けられている。
また図5において、Rは、乗員の発話に関連する領域を示す。乗員の発話に関連する領域には、乗員が着座する座席が含まれる。領域Rは、図3においてP22~P25に着座する乗員と対応付けられている。
図6は、車内空間情報を用いて、注意対象物及び注意対象物に対応する音源を特定する方法を説明するための図である。図6に示すR~Rは、図5に示すR~Rに対応する。また図6において、Uは、運転席に着座する乗員を示す。乗員UはディスプレイD(図3参照)を見ている。図6では、乗員Uの視線を点線矢印で示す。なお、図6の例で示す場面は、図4の例で示す場面と同様に、乗員UがディスプレイDを見ていても、車両Vの運転には影響がない場面とする。
図6の例では、音源特定部164は、乗員Uの注視位置と各領域(領域R~領域R)を比較する。音源特定部164は、乗員Uの注視位置が領域Rの付近であることを特定すると、ディスプレイDを注意対象物として特定する。この際、音源特定部164は、領域Rとスピーカーとの対応関係から、乗員Uが注意を向けて聞こうとする音がスピーカーからの出力音であると特定する。さらに、音源特定部164は、乗員Uが注意を向けて聞こうとする音がこれらのスピーカーから出力されるため、これらのスピーカーを注意対象物に対応する音源として特定する。なお、特定されたスピーカーは、図3において位置P11~P15に配置された複数のスピーカーである。
また、音源特定部164は、複数のスピーカーのうち、音源として乗員が最も近くに感じるスピーカーを特定する。音源特定部164は、第1音データを解析することで、複数のスピーカーのうち、乗員Uが最も近くに感じるスピーカー及びその位置を特定する。図6の例において、例えば、音源特定部164は、第1音データを解析した結果、乗員Uが最も近くに感じるスピーカーが、図3に示す位置P14に配置されたスピーカーであると特定する。このように、本実施形態では、注意対象物に対応する音源が複数存在する場合、乗員にとって最も近くに感じる音源を特定する。後述する音データ処理部170によって、当該音源から出力される音が強調されるため、強調した音を乗員に効果的に伝えることができる。
再び図2に戻り、図1に示す制御装置50が備える各機能を説明する。音データ処理部170は、収音装置1により収音された音のデータに対して、特定の音をその他の音よりも強調させる処理を実行し、車両の室内に音像が定位された音のデータを生成する。説明の便宜上、音データ処理部170により生成された音のデータを第2音データともいう。
本実施形態では、音データ処理部170は、音データ取得部150により取得された第1音データに比べて、注意対象物に関する音を強調した第2音データを生成する。注意対象物とは、注意対象物特定部160で特定された、乗員が注意を向ける対象物である。別の言い方をすれば、第1音データと第2音データとを比べた場合、乗員が聞く音の音源の数と、乗員を基準にして音像が定位する位置は同じであるものの、第2音データでは、第1音データに比べて、注意対象物に関する音の音量又は音の強さが、その他の音の音量又は音の強さよりも相対的に大きくなっている。
注意対象物に関する音とは、注意対象物から出力される音、注意対象物に関連付けられ、注意対象物とは別の関連対象物から出力される音、及びその両方の音の何れかである。言い換えると、注意対象物に関する音には、注意対象物から出力される音、及び関連対象物から出力される音のうち少なくとも何れか一方の音が含まれる。
例えば、2人の乗員間で会話が行われ、一の乗員にとっての注意対象物が他の乗員である場合、既述の説明のとおり、注意対象物に対応する音源も乗員である。この場合、音データ処理部170は、他の乗員が発する音声を強調処理の対象とする。
また例えば、一の乗員にとっての注意対象物がナビゲーションシステムによる経路案内の画面の場合、既述のとおり、注意対象物はディスプレイ、注意対象物に対応する音源はスピーカーである。本実施形態では、注意対象物から音が出力されない場合、注意対象物に関連付けられ、音を出力する対象物を関連対象物として認識する。上記例の場合、音データ処理部170は、スピーカーを関連対象物として認識するそして、音データ処理部170は、スピーカーからの出力音を強調処理の対象とする。
また例えば、3人以上の乗員間で会話が行われ、一の乗員にとっての注意対象物が
複数の乗員のうちの特定の乗員の場合、注意対象物に対応する音源は特定の乗員である。本実施形態では、注意対象物と同じカテゴリの対象物が特定された場合、特定された対象物を関連対象物として認識する。上記例の場合、音データ処理部170は、複数の乗員のうち特定の乗員以外、すなわち、その他の乗員を関連対象物として認識する。そして、音データ処理部170は、特定の乗員の音声だけでなく、その他の乗員の音声も強調処理の対象とする。
図2に示すように、音データ処理部170は、種類判別部171と、音信号処理部172とを有している。
種類判別部171は、強調処理の対象である注意対象物に関する音について、その種別が音出力システム100とは別のシステムを介して制御可能な種別か否かを判別する。音出力システム100とは別のシステムとしては、音声対話システム、報知システム、警告システム、カーオーディオシステムなどが挙げられる。これらのシステムが制御する対象としては、例えば、音量、音の強さが挙げられる。
例えば、注意対象物に関する音が音声対話システムによりプログラミングされた音声の場合、種類判別部171は、注意対象物に関する音の種別がシステムを介して制御可能な種別として判別する。言い換えると、種類判別部171は、音出力システム100とは別のシステムから注意対象物に関する音のデータを取得できると判定する。音信号処理部172は、該当するシステムから注意対象物に関する音のデータを取得し、第1音データに対して取得したデータを重畳する処理を実行することで、第2音データを生成する。以降の説明では、便宜上、注意対象物に関する音のデータを第3音データともいう。なお、音信号処理部172は、第2音データを生成するにあたり、取得した第3音データに対して音量を上げる処理又は音の強さを強くする処理をしたうえで、第1音データに対して重畳してもよい。
なお、上記の注意対象物に関する音をその他の音よりも強調させる方法は一例であって、音信号処理部172は、本願出願時に知られた音の強調処理を用いて、注意対象物に関する音をその他の音に比べて強調することができる。例えば、出力装置4として、ヘッドフォンなど、乗員に装着する機器が用いられる場合、音信号処理部172は、注意対象物に関する音について、その他の音に対して音量が相対的に上がる処理を実行してもよい。この場合、音信号処理部172は、音量調整された音データを第2音データとする。
また例えば、注意対象物に関する音が乗員の音声の場合、種類判別部171は、注意対象物に関する音の種別がシステムを介して制御不可能な種別として判別する。言い換えると、種類判別部171は、所定のシステムから注意対象物に関する音のデータを取得できないと判定する。音信号処理部172は、第1音データから注意対象物に関する音のデータを抽出し、抽出した音のデータに対して強調処理を実行することで、第2音データを生成する。
音データ出力部180は、音データ処理部170により生成された第2音データを、出力装置4に出力する。
次に、図7及び図8を用いて、音出力システム100において、音データ処理装置5が実行する処理を説明する。図7は、本実施形態に係る音データ処理装置5が実行する処理を示すフローチャートである。
ステップS1では、音データ処理装置5は、収音装置1から第1音データを取得する。第1音データには、乗員が音源の方向及び音源までの距離を判断できる情報が含まれている。ステップS2では、音データ処理装置5は、撮像装置2から車両の室内の様子が写る撮像画像を取得する。
ステップS3では、音データ処理装置5は、ステップS1で取得した第1音データ、又はステップS2で取得した撮像画像に基づき、乗員の行動を認識する。例えば、音データ処理装置5は、撮像画像に基づき、乗員が指さしをしているか否かを判定する。音データ処理装置5は、乗員が指さしをしていると判定した場合、撮像画像に基づき、乗員が指し示す指示位置又は指示方向を特定する。なお、音データ処理装置5は、撮像画像に基づき、乗員が注視しているか否かを判定し、乗員が注視していると判定した場合、乗員が注視する注視位置又は注視方向を特定してもよい。また音データ処理装置5は、第1音データに基づき、乗員の発話内容を認識してもよい。これらの一又は複数の処理を行うことで、音データ処理装置5は、乗員の行動を認識する。上記のステップS1~ステップS3での処理は、後述するステップS5以降でも継続的に行われる。
ステップS4では、音データ処理装置5は、ステップS3で認識した乗員の行動に基づき、乗員が対象物に注意を向けているか否かを判定する。指さしを例に挙げると、音データ処理装置5は、ステップSで乗員が指さしをしていると判定した場合、乗員が対象物に注意を向けていると判定する。この場合、ステップS5に進む。
一方、音データ処理装置5は、ステップSで乗員が指さしをしていないと判定した場合、乗員が対象物に注意を向けていないと判定する。この場合、ステップS1に戻る。なお、上記判定方法は一例であって、音データ処理装置5は、ステップS3で得られたその他の判定結果及び判定結果の組み合わせに基づき、乗員が対象物に注意を向けているか否かを判定できる。
ステップS4で乗員が対象物に注意を向けていると判定した場合、ステップS5に進む。ステップS5に進むと、図8に示すサブルーチンに進み、音データ処理装置5は、注意対象物の特定などの処理を行う。図8は、図7に示すステップS5のサブルーチンである。
ステップS51では、音データ処理装置5は、データベース3から車両の室内にある音源の位置情報を取得する。音源の位置情報としては、例えば、図3に示すような車両の室内を表した平面図が挙げられる。ステップS52では、音データ処理装置5は、データベース3から車内空間情報を取得する。車内空間情報としては、例えば、図5に示すような車両の室内を表した平面図が挙げられる。なお、音の位置情報及び車内空間情報は、車両の室内を表した情報であればよく、その形態は平面図に限定されない。
ステップS53では、音データ処理装置5は、ステップS51で取得した音源の位置情報、又はステップS52で取得した車内空間情報に基づき、乗員が注意を向ける対象物である注意対象物を特定する。
例えば、図4に示すように、運転席に着座する乗員が助手席側に指をさしている場合、音データ処理装置5は、乗員の指示位置又は指示方向と、音源の位置情報とに基づき、助手席に着座する乗員を注意対象物として特定する。また音データ処理装置5は、この乗員を注意対象物に対応する音源として特定する。
また例えば、図6に示すように、運転席に着座する乗員がディスプレイを注視している場合、音データ処理装置5は、乗員の注視位置又は注視方向と、車内空間情報とに基づき、ディスプレイを注意対象物として特定する。また、図6に示す領域Rに対応づけられた音源がスピーカーの場合、音データ処理装置5は、対応付けられたスピーカーを注意対象物に対応する音源として特定する。
ステップS53での処理が終了すると、図に示すステップS6に進む。ステップS6では、第2音データの生成処理などが行われる。図9は、図7に示すステップS6のサブルーチンである。
ステップS61では、音データ処理装置5は、図8に示すステップS53で特定した注意対象物に対応する音源が、音出力システム100とは別のシステムを介して制御可能な種別か否かを判別する。例えば、音データ処理装置5は、注意対象物に関する音のデータである第3音データを音出力システム100とは別のシステムから取得できる場合、注意対象物に対応する音源が別のシステムを介して制御できる種別と判別する。このような種別に該当する音としては、例えば、音声対話システムによりプログラミングされた音声、報知システムにより設定された報知音、警告システムにより設定された警告音、カーオーディオシステムにより設定されたオーディオ音などが挙げられる。
一方、音データ処理装置5は、第3音データを音出力システム100に含まれる収音装置1からしか取得できない場合、注意対象物に対応する音源が別のシステムを介して制御できない種別と判別する。このような種別に該当する音としては、例えば、乗員の音声が挙げられる。
ステップS62では、音データ処理装置5は、ステップS61での判別結果に応じて、注意対象物に関する音をその他の音に比べて強調させる強調処理を実行する。例えば、音声対話システムによりプログラミングされた音声が注意対象物に関する音の場合、音データ処理装置5は、音声対話システムから第3音データを取得し、ステップS1で取得した第1音データに対して第3音データを重畳させる。また、乗員の音声が注意対象物に関する音の場合、音データ処理装置5は、ステップS1で取得した第1音データから第3音データを抽出し、抽出した第3音データに対して強調処理を実行する。
ステップS63では、音データ処理装置5は、ステップS62での実行結果に基づき、注意対象物に関する音が強調された第2音データを生成する。ステップS63での処理が終了すると、図7に示すステップS7に進む。
ステップS7では、音データ処理装置5は、ステップS6で生成された第2音データを出力装置4に出力する。このステップは、音データ処理装置5から出力装置4への第2音データの出力が開始されたことを示すステップである。
ステップS8では、音データ処理装置5は、乗員の注意が注意対象物から逸れたか否かを判定する。音データ処理装置5は、ステップS3での乗員の行動認識結果から、乗員の注意がステップS5で特定された注意対象物に向けられていないと判定した場合、乗員の注意が注意対象物から逸れたと判定する。この場合、ステップS9に進む。ステップS9では、音データ処理装置5は、第2音データの生成処理を停止し、図7のフローチャートで示される処理を終了する。
例えば、音データ処理装置5は、乗員の指示位置と音源の位置情報とに基づき、乗員の指示位置又はその付近に注意対象物が存在しない場合、乗員の注意が注意対象物から逸れたと判定する。なお、上記判定方法は一例であって、例えば、音データ処理装置5は、注意対象物から逸れたと判定するためのジェスチャーが予め設定されており、乗員が当該ジェスチャーを行ったと認識した場合、乗員の注意が注意対象物から逸れたと判定してもよい。
一方、音データ処理装置5は、乗員の注意がステップS5で特定された注意対象物に向けられていると判定した場合、乗員の注意が注意対象物から逸れていないと判定する。この場合、ステップS10に進む。例えば、音データ処理装置5は、乗員の指示位置と音源の位置情報とに基づき、乗員の指示位置又はその付近に注意対象物が存在する場合、乗員の注意が注意対象物から逸れていないと判定する。なお、上記判定方法は一例であって、例えば、音データ処理装置5は、注意対象物から逸れたと判定するためのジェスチャーが予め設定されており、乗員が当該ジェスチャーを行っていないと認識した場合、乗員の注意が注意対象物から逸れていないと判定してもよい。
ステップS8で乗員の注意が注意対象物から逸れていないと判定した場合、ステップS10に進む。ステップS10では、音データ処理装置5は、注意対象物に関する音が出力されているか否かを判定する。例えば、音データ処理装置5は、所定時間の間、注意対象物に対応する音源からの出力を確認できない場合、注意対象物に関する音が出力されていないと判定する。この場合、ステップS9に進む。ステップS9では、音データ処理装置5は、第2音データの生成処理を停止し、図7のフローチャートで示される処理を終了する。なお、所定時間とは、注意対象物に関する音が出力されているか否かを判定するための時間であって、予め設定された時間である。
一方、例えば、音データ処理装置5は、所定時間の間に注意対象物に対応する音源からの出力を確認できた場合、注意対象物に関する音が出力されていると判定する。この場合、ステップS8に戻る。
以上のように、本実施形態では、音データ処理装置5は、車両の室内に音像定位した音のデータである第1音データを取得する音データ取得部150と、乗員が注意を向ける対象物である注意対象物を特定する注意対象物特定部160と、第1音データに比べて注意対象物に関する音を強調した音のデータである第2音データを生成する音データ処理部170と、出力装置4に第2音データを出力する音データ出力部180とを備える。これにより、車両の乗員が注意して聞こうとする音が強調された状態で再生されるため、乗員は自身が注意して聞こうとする音を聞き取りやすくなる。
また、本実施形態では、注意対象物特定部160は、撮像装置2から乗員の撮像画像を取得し、取得した撮像画像に基づき、乗員の指示位置又は指示方向を認識し、データベース3から、音源の位置情報又は車内空間情報を取得し、認識した指示位置又は指示方向と、音源の位置情報又は車内空間情報とに基づき、注意対象物を特定する。乗員は、ジェスチャーという直観的かつ効率的な方法で、注意対象物を音データ処理装置5に伝えることができる。音データ処理装置5は、精度良く注意対象物を特定することができる。
さらに、本実施形態では、注意対象物特定部160は、撮像装置2から取得した撮像画像に基づき、乗員の注視位置又は注視方向を認識し、データベース3から、音源の位置情報又は車内空間情報を取得し、認識した注視位置又は注視方向と、音源の位置情報又は車内空間情報とに基づき、注意対象物を特定する。乗員は、視線という直観的かつ効率的な方法で、注意対象物を音データ処理装置5に伝えることができる。音データ処理装置5は、精度良く注意対象物を特定することができる。
加えて、本実施形態では、注意対象物特定部160は、収音装置1又はその他の収音装置から乗員の音声を取得し、取得した乗員の音声に基づき、乗員の発話内容を認識し、認識した発話内容に基づき、注意対象物を特定する。乗員は、発話内容という直観的かつ効率的な方法で、注意対象物を音データ処理装置5に伝えることができる。音データ処理装置5は、精度良く注意対象物を特定することができる。
また、本実施形態では、注意対象物に関する音は、注意対象物から出力される音である。例えば、注意対象物がその他の乗員の場合、乗員が注意を向ける方向から強調された音が届くため、乗員は注意を向けて聞きたい音を聞き取りやすくなる。
さらに、本実施形態では、注意対象物に関する音は、注意対象物に関連付けられ、注意対象物とは別の関連対象物から出力される音である。例えば、注意対象物がナビゲーションシステムの音声案内の場合、乗員がディスプレイに注意を向けていても、ディスプレイの表示情報に対応する音声案内が強調されるため、乗員が音を出力しない対象物に注意を向けていても、その対象物に関する音を聞き取りやすくなる。
加えて、本実施形態では、注意対象物に関する音は、注意対象物から出力される音、及び関連対象物から出力される音である。例えば、3人以上の乗員間で会話が行われている場面において、注意対象物が複数の乗員のうちの一の乗員、また関連対象物がその他の乗員の場合、乗員が注意を向ける対象だけでなく、当該対象と関連する音が強調される。乗員が注意を向けなくても、乗員が注意を向ける対象と関連する対象から、強調された音が届く。乗員にとって利便性の優れた音出力システム100を提供することができる。
また、本実施形態では、音データ処理部170は、音出力システム100とは別のシステムから注意対象物に関する音のデータである第3音データを取得できる場合、第1音データに対して第3音データを重畳する処理を実行することで、第2音データを生成する。例えば、ナビゲーションシステムによる音声案内のように、音量や音の強さを直接制御することができる対象が強調処理の対象の場合、簡便な方法で乗員が注意して聞きたい音を強調することができる。
さらに、本実施形態では、音データ処理部170は、音出力システム100とは別のシステムから第3音データを取得できない場合、第1音データに含まれる第3音データに対して音の強調処理を実行することで、第2音データを生成する。例えば、乗員の音声のように、音量や音の強さを直接制御することができない対象であっても、そのような対象のみを強調することができる。強調処理の対象にかかわらず、乗員が注意して聞きたい音を強調することができる。
加えて、本実施形態では、音データ取得部150は、車両の室内で発生する音をバイノーラル録音する収音装置1から、第1音データを取得する。これにより、第1音データには、乗員が音源の方向及び音源までの距離を判断できる情報が含まれる。注意対象物に関する音を強調する処理を行った後に、当該音に対して音像定位処理を行うことなく、音像定位した音を乗員に伝えることができる。音像定位処理という複雑な処理を省略することができ、音データ取得部150の演算負荷を軽減することができる。また、乗員が音源の位置及び音源までの距離を判断できる情報から、車両の室内にある音源及びその位置を容易に特定することができる。さらに、あたかも乗員の左右の耳それぞれで捉えたかのような音を再生することができる。
また、本実施形態では、注意対象物特定部160は、注意対象物を特定した後、乗員が注意対象物に注意を向けているか否かを判定する。音データ処理部170は、注意対象物特定部160が乗員の注意が注意対象物に向けられていないと判定した場合、第2音データの生成を停止する。これにより、乗員の注意が対象物に向かないにもかかわらず、注意対象物に関する音が強調されるのを防ぐことができ、乗員に違和感を与えるのを防ぐことができる。言い方を変えると、乗員の注意が対象物に向く適切な場面で、乗員が注意して聞きたい音を強調することができる。
《第2実施形態》
次に、第2実施形態に係る音データ処理装置5について説明する。本実施形態では、図1に示す収音装置1及び出力装置4がヘッドマウントディスプレイ型のデバイスに設けられている点と、注意対象物及び注意対象物に対応する音源として、いわゆるアバターと呼ばれるアイコンが含まれる点と、音データ処理装置5が備える機能の一部が異なる点以外は、上述した第1実施形態と同じ構成を有している。このため、第1実施形態と同じ構成については、第1実施形態での説明を援用する。
本実施形態に係る音出力システム100では、ヘッドマウントディスプレイ型のデバイスが用いられる。ヘッドマウントディスプレイ型のデバイスには、AR(拡張現実:Augment Reality)の技術が搭載されている。ヘッドマウントディスプレイ型のデバイスのディスプレイには、アイコン(アバターともいう)が表示される。このデバイスを装着した乗員は、ディスプレイを通してアイコン(アバターともいう)を視認できるとともに、アイコンと対話できる。以降の説明では、このようなデバイスを単にヘッドマウントディスプレイともいう。本実施形態では、対象物には、車両の室内にある機器又は人間の他に、ヘッドマウントディスプレイを通じて乗員に提示されるアイコンが含まれる。
本実施形態のように、収音装置1及び出力装置4がヘッドマウントディスプレイとして一体的に設けられる場合、例えば、収音装置1及び出力装置4としては、バイノーラル録音ができるヘッドフォンが挙げられる。
また、乗員が車両の室内でヘッドマウントディスプレイを介してアイコンと対話する場面としては、例えば、車両の外部にいる人間との対話が挙げられる。遠隔地は、車両の室外であればよく、特に限定される場所ではない。この場面において、運転席に着座する乗員がディスプレイを介して助手席を見ると、助手席に相当する位置には遠隔地にいる人間に対応するアイコンが表示される。またヘッドフォンからは遠隔地にいる人間の音声が出力される。
本実施形態に係る音データ処理装置5が備える機能について、図10~図12を用いて説明する。図10は、ヘッドマウントディスプレイを装着した乗員がアイコンと対話している場面の一例である。図10は、第1実施形態の説明で用いた図4の場面と対応している。図10では、乗員Uはヘッドマウントディスプレイ(HD)を装着している。また図10では、乗員Uの注視方向を点線矢印で示す。
本実施形態に係る音データ処理装置5は、注意対象物の特定処理において、ヘッドマウントディスプレイを介して、注意対象物の候補を乗員に提示し、注意対象物の候補を乗員に選択させる機能を有する。図11は、図10に示す場面において、乗員に提示される注意対象物の候補の一例である。なお、図11において、Iは遠隔地にいる人間に対応したアイコンを示す。
例えば、音データ処理装置5は、ヘッドマウントディスプレイに搭載された撮像装置から乗員の視界に相当する撮像画像を取得する。そして、図11の例に示すように、音データ処理装置5は、助手席が写る撮像画像に対して、音源の位置を示すP12及びP22を重畳させて表示させる。図11に示すように、音データ処理装置5は、乗員が音源ということを識別可能な態様で、音源の位置を乗員に提示する。
音データ処理装置5は、乗員が視認する画面に注意対象物の候補が複数存在するか否かを判定する。また音データ処理装置5は、複数の注意対象物の候補が存在すると判定した場合、そのカテゴリが複数であるか否かを判定する。カテゴリは、例えば、乗員又はアイコン、スピーカーなどに分類される。またカテゴリは、音出力システム100以外のシステムを介して制御可能か否かで分類されてもよい。
音データ処理装置5は、注意対象物の候補のカテゴリが複数であると判定した場合、乗員に対して注意対象物の選択要求を行う。音データ処理装置5は、乗員によって選択された一の注意対象物の候補を、注意対象物として特定する。なお、図11に示すP12及びP22は、図3に示すP12及びP22に対応する。
図12は、図7に示すステップS5のサブルーチンであって、本実施形態に係るサブルーチンである。また図12は、本実施形態に係る音データ処理装置5が実行する注意対象物の特定方法を説明するための図である。図12において、第1実施形態に係る図7に示すステップS5のサブルーチンと同じ処理については、図7と同じ符号を付し、その説明を援用する。
ステップS151では、音データ処理装置5は、注意対象物の候補を提示する。例えば、音データ処理装置5は、図11の例で示すような態様で複数の注意対象物の候補を提示する。
ステップS152では、音データ処理装置5は、ステップS15で提示された注意対象物の候補が複数存在するか否かを判定する。注意対象物の候補が複数存在すると判定した場合、ステップS153に進み、注意対象物の候補が複数存在しないと判定した場合、ステップS54に進む。
ステップS152で注意対象物の候補が複数存在すると判定した場合、ステップS153に進む。ステップS153では、音データ処理装置5は、注意対象物の候補のカテゴリが複数存在するか否かを判定する。注意対象物の候補のカテゴリが複数存在すると判定した場合、ステップS154に進み、注意対象物の候補のカテゴリが複数存在しないと判定した場合、ステップS54に進む。
ステップS153で注意対象物の候補のカテゴリが複数存在すると判定した場合、ステップS154に進む。ステップS154では、音データ処理装置5は、乗員からの選択信号を受け付ける。例えば、乗員は指さしなどのジェスチャーをすることで、複数の注意対象物の候補から一の注意対象物の候補を選択する。ステップS154での処理が終了すると、ステップS54に進み、注意対象物が特定される。
このように、本実施形態では、音データ処理装置5をARの技術を搭載したヘッドマウントディスプレイ型のデバイスに適用した。これにより、注意対象物を特定するにあたり、乗員に選択させることができ、乗員が注意して聞きたい音を的確に強調して出力することができる。また、アイコンのように実際に存在しないものの、音を出力する対象物を注意対象物に含めることができる。その結果、乗員が注意して聞きたい音の対象を拡張することができる。
なお、以上に説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計変更や均等物をも含む趣旨である。
例えば、上述した第1実施形態において、注意対象物を特定する方法として、音源の位置情報又は車内空間情報を用いた方法を例に挙げて説明したが、音源の位置情報及び車内空間情報のうち少なくとも何れか一つを用いて、注意対象物を特定すればよい。例えば、音源の位置情報のみを用いて注意対象物を特定してもよいし、車内空間情報のみを用いて注意対象物を特定してもよい。また、例えば、音源の位置情報を用いて注意対象物を特定できない場合、車内空間情報を用いて注意対象物を特定する方法であってもよい。
例えば、上述した第2実施形態において、音データ処理装置5が備える機能の一部は、ヘッドマウントディスプレイ型のデバイスが有する機能を利用してもよい。例えば、ヘッドマウントディスプレイに周囲を撮像する撮像装置、乗員の音声を取得するマイクなどが搭載されている場合、音データ処理装置5は、これらの装置又は機器から、乗員の動作、視線、及び音声に関する情報を取得してもよい。そして、音データ処理装置5は、取得した情報を用いて、乗員の動作認識、乗員の視線認識、又は乗員の発話認識の処理を行ってもよい。
1…収音装置
2…撮像装置
3…データベース
4…出力装置
5…音データ処理装置
50…制御装置
150…音データ取得部
160…注意対象物特定部
161…動作認識部
162…視線認識部
163…発話内容認識部
164…音源特定部
170…音データ処理部
171…種類判別部
172…音信号処理部
180…音データ出力部
51…記憶装置
100…音出力システム

Claims (12)

  1. 車両の室内の音のデータである第1音データを取得する音データ取得部と、
    前記車両の乗員が注意を向ける対象物である注意対象物を特定する対象物特定部と、
    前記第1音データに比べて前記注意対象物に関する音を強調した前記音のデータである第2音データを生成する音データ処理部と、
    前記乗員に対して音を出力する出力装置に、前記第2音データを出力する音データ出力部と、を備え
    前記対象物特定部は、前記乗員を前記注意対象物に対応する音源として特定し、スピーカーを前記注意対象物に対応する音源として特定し、
    前記音データ処理部は、
    3人以上の乗員間で会話が行われ、一の乗員にとっての前記注意対象物が複数の乗員のうち特定の乗員であり、前記特定の乗員以外の他の乗員が特定された場合には、前記他の乗員を関連対象物として認識し、
    前記注意対象物に関する前記音、及び前記関連対象物に関する音を強調した前記第2音データを生成し、
    前記第1音データと前記第2音データとを比べた場合、前記乗員が聞く音の音源の数と、前記乗員を基準にして音像が定位する位置は同じであり、第2音データでは、第1音データに比べて、音の音量又は音の強さが、その他の音の音量又は音の強さよりも相対的に大きい音データ処理装置。
  2. 前記対象物特定部は、
    前記室内を撮像する撮像装置から、前記乗員の撮像画像を取得し、
    前記撮像画像に基づき、前記乗員が指し示す指示位置又は指示方向を認識し、
    記憶装置から、前記室内における前記対象物の位置情報を取得し、
    前記指示位置又は指示方向と、前記位置情報とに基づき、前記注意対象物を特定する請求項1記載の音データ処理装置。
  3. 前記対象物特定部は、
    前記室内を撮像する撮像装置から、前記乗員の撮像画像を取得し、
    前記撮像画像に基づき、前記乗員が注視する注視位置又は注視方向を認識し、
    記憶装置から、前記室内における前記対象物の位置情報を取得し、
    前記注視位置又は前記注視方向と、前記位置情報とに基づき、前記注意対象物を特定する請求項1又は2記載の音データ処理装置。
  4. 前記対象物特定部は、
    前記室内の音声を収音する装置から、前記乗員の音声を取得し、
    前記乗員の音声に基づき、前記乗員の発話内容を認識し、
    前記発話内容に基づき、前記注意対象物を特定する請求項1~3の何れかに記載の音データ処理装置。
  5. 前記注意対象物に関する前記音は、前記注意対象物から出力される前記音である請求項1~4の何れかに記載の音データ処理装置。
  6. 前記注意対象物に関する前記音は、前記関連対象物から出力される前記音である請求項1~5の何れかに記載の音データ処理装置。
  7. 前記注意対象物に関する前記音は、前記注意対象物から出力される音、及び前記関連対象物から出力される音である請求項1~6の何れかに記載の音データ処理装置。
  8. 前記音データ処理部は、所定のシステムから前記注意対象物に関する前記音のデータである第3音データを取得できる場合、前記第1音データに対して前記第3音データを重畳する処理を実行することで、前記第2音データを生成する請求項1~7の何れかに記載の音データ処理装置。
  9. 前記音データ処理部は、所定のシステムから前記注意対象物に関する前記音のデータである第3音データを取得できない場合、前記第1音データに含まれる前記第3音データに対して音の強調処理を実行することで、前記第2音データを生成する請求項1~7の何れかに記載の音データ処理装置。
  10. 前記音データ取得部は、前記室内で発生する音をバイノーラル録音する装置から、前記第1音データを取得する請求項1~9の何れかに記載の音データ処理装置。
  11. 前記対象物特定部は、前記注意対象物を特定した後、前記乗員が前記注意対象物に注意を向けているか否かを判定し、
    前記音データ処理部は、前記対象物特定部が前記乗員の注意が前記注意対象物に向けられていないと判定した場合、前記第2音データの生成を停止する請求項1~10の何れかに記載の音データ処理装置。
  12. プロセッサが実行する音データ処理方法であって、
    車両の室内に音像定位した音のデータである第1音データを取得し、
    前記車両の乗員が注意を向ける対象物である注意対象物を特定し、
    前記第1音データに比べて、前記注意対象物に関する前記音、及び関連対象物に関する音を強調した第2音データを生成し、
    前記乗員を前記注意対象物に対応する音源として特定し、スピーカーを前記注意対象物に対応する音源として特定し、
    3人以上の乗員間で会話が行われ、一の乗員にとっての前記注意対象物が複数の乗員のうち特定の乗員であり、前記特定の乗員以外の他の乗員が特定された場合には、前記他の乗員を前記関連対象物として認識し、
    前記乗員に対して音を出力する出力装置に、前記第2音データを出力し、
    前記第1音データと前記第2音データとを比べた場合、前記乗員が聞く音の音源の数と、前記乗員を基準にして音像が定位する位置は同じであり、第2音データでは、第1音データに比べて、音の音量又は音の強さが、その他の音の音量又は音の強さよりも相対的に大きい音データ処理方法。
JP2022509740A 2020-03-25 2020-03-25 音データ処理装置および音データ処理方法 Active JP7456490B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2020/000323 WO2021191651A1 (ja) 2020-03-25 2020-03-25 音データ処理装置および音データ処理方法

Publications (3)

Publication Number Publication Date
JPWO2021191651A1 JPWO2021191651A1 (ja) 2021-09-30
JPWO2021191651A5 JPWO2021191651A5 (ja) 2023-01-10
JP7456490B2 true JP7456490B2 (ja) 2024-03-27

Family

ID=77891584

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022509740A Active JP7456490B2 (ja) 2020-03-25 2020-03-25 音データ処理装置および音データ処理方法

Country Status (5)

Country Link
US (1) US20230121586A1 (ja)
EP (1) EP4129766A4 (ja)
JP (1) JP7456490B2 (ja)
CN (1) CN115315374A (ja)
WO (1) WO2021191651A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114194128A (zh) * 2021-12-02 2022-03-18 广州小鹏汽车科技有限公司 车辆的音量控制方法、车辆和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013034122A (ja) 2011-08-02 2013-02-14 Denso Corp 車両用立体音響装置
JP2014181015A (ja) 2013-03-21 2014-09-29 Toyota Motor Corp 車室内会話支援装置
JP2015071320A (ja) 2013-10-01 2015-04-16 アルパイン株式会社 会話支援装置、会話支援方法及び会話支援プログラム
US20180262834A1 (en) 2017-03-08 2018-09-13 Lg Electronics Inc. Terminal and vehicle control method of mobile terminal using machine learning
JP2019068237A (ja) 2017-09-29 2019-04-25 株式会社デンソーテン 会話支援装置、会話支援システムおよび会話支援方法
WO2020027061A1 (ja) 2018-08-02 2020-02-06 日本電信電話株式会社 会話サポートシステム、その方法、およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005316704A (ja) 2004-04-28 2005-11-10 Sony Corp 周囲状況通知装置、周囲状況通知方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013034122A (ja) 2011-08-02 2013-02-14 Denso Corp 車両用立体音響装置
JP2014181015A (ja) 2013-03-21 2014-09-29 Toyota Motor Corp 車室内会話支援装置
JP2015071320A (ja) 2013-10-01 2015-04-16 アルパイン株式会社 会話支援装置、会話支援方法及び会話支援プログラム
US20180262834A1 (en) 2017-03-08 2018-09-13 Lg Electronics Inc. Terminal and vehicle control method of mobile terminal using machine learning
JP2019068237A (ja) 2017-09-29 2019-04-25 株式会社デンソーテン 会話支援装置、会話支援システムおよび会話支援方法
WO2020027061A1 (ja) 2018-08-02 2020-02-06 日本電信電話株式会社 会話サポートシステム、その方法、およびプログラム

Also Published As

Publication number Publication date
EP4129766A4 (en) 2023-04-19
US20230121586A1 (en) 2023-04-20
JPWO2021191651A1 (ja) 2021-09-30
CN115315374A (zh) 2022-11-08
WO2021191651A1 (ja) 2021-09-30
WO2021191651A8 (ja) 2022-06-09
EP4129766A1 (en) 2023-02-08

Similar Documents

Publication Publication Date Title
CN104581513B (zh) 用于将用户引导向所关注的事件的系统和方法
US20180270571A1 (en) Techniques for amplifying sound based on directions of interest
JP6284331B2 (ja) 会話支援装置、会話支援方法及び会話支援プログラム
JP2017007652A (ja) 言語制御のための文脈を認識する方法、言語制御のための言語制御信号を決定する方法、および方法を実施するための装置
WO2020110172A1 (ja) 情報提示制御装置、情報提示装置及び情報提示制御方法、並びにプログラム及び記録媒体
US11061236B2 (en) Head-mounted display and control method thereof
JP2010128099A (ja) 車載用音声情報提供システム
JP7049803B2 (ja) 車載装置および音声出力方法
CN111261154A (zh) 智能体装置、智能体提示方法及存储介质
CN112078498B (zh) 一种车辆智能座舱的声音输出控制方法和智能座舱
JP2020060830A (ja) エージェント装置、エージェント提示方法、およびプログラム
JP7456490B2 (ja) 音データ処理装置および音データ処理方法
JP5687889B2 (ja) 車室内監視装置
JP2020020987A (ja) 車内システム
US11974103B2 (en) In-car headphone acoustical augmented reality system
JP2021150835A (ja) 音データ処理装置および音データ処理方法
US12005921B2 (en) Assistance system with relevance-dependent stimulus modulation
KR102569898B1 (ko) 혼합 현실을 이용한 운전 보조 시스템 및 그 제어 방법
CN115431911A (zh) 交互控制方法、装置、电子设备、存储介质和车辆
CN110139205B (zh) 用于辅助信息呈现的方法及装置
JP2019102062A (ja) ヘッドマウントディスプレイ及びその制御方法
JP2010221893A (ja) 車載情報機器
JP7460407B2 (ja) 音響出力装置、音響出力システム及び音響出力方法
JP7163876B2 (ja) 車内会話支援装置
CN118397990A (en) Vehicle-mounted K song method and system, controller and vehicle

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220912

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240226

R151 Written notification of patent or utility model registration

Ref document number: 7456490

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151