JP2019137167A - Voice output control device, and voice output control program - Google Patents

Voice output control device, and voice output control program Download PDF

Info

Publication number
JP2019137167A
JP2019137167A JP2018021071A JP2018021071A JP2019137167A JP 2019137167 A JP2019137167 A JP 2019137167A JP 2018021071 A JP2018021071 A JP 2018021071A JP 2018021071 A JP2018021071 A JP 2018021071A JP 2019137167 A JP2019137167 A JP 2019137167A
Authority
JP
Japan
Prior art keywords
conversation
occupant
output control
unit
image acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018021071A
Other languages
Japanese (ja)
Other versions
JP7023131B2 (en
Inventor
瑞貴 川瀬
Mizuki Kawase
瑞貴 川瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2018021071A priority Critical patent/JP7023131B2/en
Publication of JP2019137167A publication Critical patent/JP2019137167A/en
Application granted granted Critical
Publication of JP7023131B2 publication Critical patent/JP7023131B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Image Analysis (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

To provide a voice output control device capable of controlling voice volume outputted from a voice generator at a point in time when an occupant starts utterance.SOLUTION: A voice output control device 1 includes: an image acquisition unit 11 for acquiring images photographed by imaging devices 31, 32, 33, 34 for photographing the faces of occupants 301, 302, 303, 304 in a vehicle 300; a conversation start estimation unit 12 for estimating a start of a conversation by an occupant from an opening degree of the mouth of the occupant on the basis of the images acquired by the image acquisition unit 11; an object position estimation unit 13 for estimating the position of a conversation object from the direction of the face or the direction of a visual line of the occupant whose conversation start is estimated on the basis of the images acquired by the image acquisition unit 11; and an output control unit 14 for generating control information to control the volume of voices outputted from voice generators 36, 37, 38, 39 closest to the position of the conversation object estimated by the object position estimation unit 13 when the conversation start estimation unit 13 estimates the start of the conversation by the occupant.SELECTED DRAWING: Figure 1

Description

この発明は、音声出力制御装置、及び音声出力制御プログラムに関するものである。   The present invention relates to an audio output control device and an audio output control program.

車両に乗車している乗員同士の会話の障害とならないよう、車載音響装置の音量を自動的に調整する技術が知られている。
例えば、特許文献1には、音響装置が出力する音声信号と車内用マイクロフォンから受けた音声信号を逐次モニタリングし、両者の比較に基づいて乗員の発話の有無を判定し、発話されていると判定されると、車載カメラの撮影画像を用いて発話の行われている発話位置を特定し、音声出力部の各増幅率を制御することで、スピーカのうち発話位置に近いスピーカのみの音量を低下させる技術が開示されている。
A technique is known that automatically adjusts the volume of an in-vehicle acoustic device so as not to hinder conversation between passengers in the vehicle.
For example, in Patent Document 1, a sound signal output from an acoustic device and a sound signal received from an in-vehicle microphone are sequentially monitored, and the presence / absence of an occupant's utterance is determined based on a comparison between the two, and it is determined that the utterance is being made. Then, the utterance position where the utterance is performed is identified using the image captured by the in-vehicle camera, and the volume of only the speaker near the utterance position is reduced by controlling each amplification factor of the audio output unit Techniques for making them disclosed are disclosed.

特開2012−25270号公報JP 2012-25270 A

特許文献1に開示された技術は、車内用マイクロフォンから受けた音声信号により発話されていると判定されると、車載カメラの撮影画像を用いて発話の行われている発話位置を特定し、スピーカの音量を低下させるものである。したがって、当該技術は、乗員が発話を開始した時点では、まだスピーカの音量を低下させておらず、発話を開始した時点の会話が話し相手の乗員に聞こえづらいという課題があった。   When it is determined that the technology disclosed in Patent Document 1 is uttered by an audio signal received from an in-vehicle microphone, the utterance position where the utterance is performed is specified using a captured image of the in-vehicle camera, and the speaker The volume of the sound is reduced. Therefore, the technology has a problem that when the occupant starts speaking, the volume of the speaker has not been lowered yet, and the conversation at the time when the utterance is started is difficult to hear by the other passenger.

この発明は、上述の課題を解決するためのもので、乗員が発話を開始する時点において、音声発生装置から出力される音量を制御可能にする音声出力制御装置を提供することを目的としている。   An object of the present invention is to provide a sound output control device that can control a sound volume output from a sound generation device at the time when an occupant starts speaking.

この発明に係る音声出力制御装置は、車両に乗車している乗員の顔を撮影する撮像装置で撮影された画像を取得する画像取得部と、画像取得部で取得した画像に基づいて、乗員の口の開き具合から乗員による会話の開始を推定する会話開始推定部と、画像取得部で取得した画像に基づいて、会話の開始が推定された乗員の顔の方向又は視線の方向から会話対象の位置を推定する対象位置推定部と、会話開始推定部が乗員による会話の開始を推定した際、対象位置推定部が推定した会話対象の位置に最も近い音声発生装置から出力される音声の音量を制御する制御情報を生成する出力制御部とを備えたことを特徴とするものである。   An audio output control device according to the present invention is based on an image acquisition unit that acquires an image captured by an imaging device that captures the face of an occupant riding in a vehicle, and an image acquired by the image acquisition unit. Based on the image acquired by the image acquisition unit and the conversation start estimation unit that estimates the start of the conversation by the occupant from the degree of opening of the mouth, the conversation target is estimated from the direction of the occupant's face or the direction of the gaze When the target position estimation unit for estimating the position and the conversation start estimation unit estimate the start of the conversation by the occupant, the volume of the sound output from the sound generator closest to the position of the conversation target estimated by the target position estimation unit is And an output control unit that generates control information to be controlled.

この発明によれば、乗員が発話を開始する時点において、音声発生装置から出力される音量を制御できる。   According to the present invention, it is possible to control the sound volume output from the sound generation device when the occupant starts speaking.

実施の形態1に係る音声出力制御装置が適用された音響システムの構成を示すブロック図である。It is a block diagram which shows the structure of the acoustic system to which the audio | voice output control apparatus which concerns on Embodiment 1 was applied. 図2Aは、実施の形態1に係る音声出力制御装置のハードウェア構成の一例を示す図である。図2Bは、実施の形態1に係る音声出力制御装置のハードウェア構成の一例を示す図である。FIG. 2A is a diagram illustrating an example of a hardware configuration of the audio output control device according to Embodiment 1. FIG. 2B is a diagram illustrating an example of a hardware configuration of the audio output control device according to Embodiment 1. 実施の形態1に係る音声出力制御装置が適用された音響システムを搭載した車両の内部を上方から見た構成例を示す図ある。It is a figure which shows the structural example which looked at the inside of the vehicle carrying the acoustic system to which the audio | voice output control apparatus which concerns on Embodiment 1 was applied from upper direction. 実施の形態1に係る音声出力制御装置1の動作を説明するフローチャートである。4 is a flowchart for explaining the operation of the audio output control device 1 according to the first embodiment.

以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。
実施の形態1.
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
Embodiment 1 FIG.

実施の形態1に係る音声出力制御装置1は、一例として、車両に搭載された音響システム3に適用されるものとして、以下説明する。   The audio output control device 1 according to Embodiment 1 will be described below as an example applied to an acoustic system 3 mounted on a vehicle.

図1は、実施の形態1に係る音声出力制御装置1が適用された音響システム3の構成を示すブロック図である。
音響システム3は、撮像装置31,32,33,34、複数の音声発生装置36,37,38,39、音声出力制御装置1、及び音響装置2を備える。
撮像装置31,32,33,34は、車載用カメラであり、車両に乗車している乗員を撮影するものである。撮像装置31,32,33,34は、少なくとも各乗員の顔部を撮影できるものであればよい。
音声発生装置36,37,38,39は、音声を出力するスピーカである。
FIG. 1 is a block diagram illustrating a configuration of an acoustic system 3 to which the audio output control device 1 according to Embodiment 1 is applied.
The acoustic system 3 includes imaging devices 31, 32, 33, 34, a plurality of sound generators 36, 37, 38, 39, a sound output control device 1, and a sound device 2.
The imaging devices 31, 32, 33, and 34 are in-vehicle cameras, and take images of passengers riding in the vehicle. The imaging devices 31, 32, 33, and 34 may be any devices that can photograph at least the face of each occupant.
The sound generators 36, 37, 38, and 39 are speakers that output sound.

音響装置2は、いわゆるオーディオ装置であり、音源取得部21、音源再生部22、音量制御部23、音声出力部24、及び操作部25を備える。
音源取得部21は、音楽データ、放送データ、音声データ等の音源データ、又は映像データに含まれる音源データを取得する。
音源再生部22は、音源取得部21で取得した音源データを再生し、音声信号を生成する、いわゆる音声デコーダである。
音量制御部23は、音源再生部22で生成された音声信号に対して、音声発生装置36,37,38,39それぞれに出力する音声信号の増幅幅の制御を行うことができる、いわゆるコントロールアンプである。増幅幅は、操作部25又は音声出力制御装置1からの入力により決定される。操作部25及び音声出力制御装置1については後述する。
音声出力部24は、音量制御部23で増幅された音声信号を音声発生装置36,37,38,39にそれぞれ出力する。
操作部25は、再生する音源データの選択、音源データの再生方法の選択、音声を出力する音量の変更等、車両の乗員であるユーザが所望の操作をするための操作入力手段である。
The acoustic device 2 is a so-called audio device, and includes a sound source acquisition unit 21, a sound source reproduction unit 22, a volume control unit 23, an audio output unit 24, and an operation unit 25.
The sound source acquisition unit 21 acquires sound source data included in music data, broadcast data, audio data, or the like, or video data.
The sound source reproduction unit 22 is a so-called audio decoder that reproduces the sound source data acquired by the sound source acquisition unit 21 and generates an audio signal.
The volume control unit 23 is a so-called control amplifier that can control the amplification width of the audio signal output to each of the audio generators 36, 37, 38, 39 with respect to the audio signal generated by the sound source reproduction unit 22 It is. The amplification width is determined by an input from the operation unit 25 or the audio output control device 1. The operation unit 25 and the audio output control device 1 will be described later.
The audio output unit 24 outputs the audio signal amplified by the volume control unit 23 to the audio generators 36, 37, 38, and 39, respectively.
The operation unit 25 is operation input means for a user who is a vehicle occupant to perform a desired operation such as selection of sound source data to be reproduced, selection of a method of reproducing sound source data, and change of sound output sound volume.

音声出力制御装置1は、画像取得部11、会話開始推定部12、対象位置推定部13、出力制御部14、及び制御情報送信部15を備える。
画像取得部11は、撮像装置31,32,33,34それぞれから画像を取得する。
会話開始推定部12は、画像取得部11で取得した画像を基に、周知の画像解析技術を用いて、それぞれの乗員の口の開き具合を判定し、判定した口の開き具合から、乗員により会話が開始されるか否か推定する。例えば、会話開始推定部12は、乗員の口の大きさに対して開いた口の大きさの割合が予め設定した値より大きくなった等の条件を満たした際に、乗員により会話が開始されると推定する。
対象位置推定部13は、画像取得部11で取得した画像を基に、周知の画像解析技術を用いて、会話の開始が推定された乗員(以下、「話者」という)の顔の方向又は視線の方向を判定し、判定した話者の顔の方向又は視線の方向から会話対象の位置を推定する。会話対象の位置は、例えば、話者の顔の方向又は視線の方向にある座席である。
出力制御部14は、会話開始推定部12が乗員による会話の開始を推定した際、対象位置推定部13が推定した会話対象の位置に最も近い音声発生装置から出力される音声の音量を小さくするよう、音響装置2が出力する音声信号の増幅幅の制御を行うための制御情報を生成する。
制御情報送信部15は、出力制御部14が生成した制御情報を音響装置2に送信する。
The audio output control device 1 includes an image acquisition unit 11, a conversation start estimation unit 12, a target position estimation unit 13, an output control unit 14, and a control information transmission unit 15.
The image acquisition unit 11 acquires images from the imaging devices 31, 32, 33, and 34, respectively.
Based on the image acquired by the image acquisition unit 11, the conversation start estimation unit 12 determines the degree of opening of each occupant's mouth using a well-known image analysis technique. Estimate whether the conversation will start. For example, the conversation start estimating unit 12 starts the conversation by the occupant when the condition that the ratio of the size of the opened mouth to the size of the occupant's mouth becomes larger than a preset value is satisfied. I guess.
The target position estimation unit 13 uses the well-known image analysis technique based on the image acquired by the image acquisition unit 11 to determine the direction of the face of the occupant (hereinafter referred to as “speaker”) estimated to start conversation. The direction of the line of sight is determined, and the position of the conversation target is estimated from the determined face direction of the speaker or the direction of the line of sight. The position of the conversation target is, for example, a seat in the direction of the speaker's face or the direction of the line of sight.
When the conversation start estimating unit 12 estimates the start of the conversation by the occupant, the output control unit 14 reduces the volume of the sound output from the sound generating device closest to the position of the conversation target estimated by the target position estimating unit 13. As described above, control information for controlling the amplification width of the audio signal output from the acoustic device 2 is generated.
The control information transmission unit 15 transmits the control information generated by the output control unit 14 to the acoustic device 2.

図2は、実施の形態1に係る音声出力制御装置1のハードウェア構成の一例を示す図である。
実施の形態1において、画像取得部11、会話開始推定部12、対象位置推定部13、出力制御部14、及び制御情報送信部15の各機能は、処理回路201により実現される。すなわち、音声出力制御装置1は、画像取得部11で取得した画像に基づいて生成された制御情報を、制御情報送信部15で送信するための処理回路201を備える。
処理回路201は、図2Aに示すように専用のハードウェアであっても、図2Bに示すようにメモリ205に格納されるプログラムを実行するCPU(Central Processing Unit)206であってもよい。
FIG. 2 is a diagram illustrating an example of a hardware configuration of the audio output control device 1 according to the first embodiment.
In the first embodiment, the functions of the image acquisition unit 11, the conversation start estimation unit 12, the target position estimation unit 13, the output control unit 14, and the control information transmission unit 15 are realized by the processing circuit 201. That is, the audio output control device 1 includes a processing circuit 201 for transmitting control information generated based on the image acquired by the image acquisition unit 11 by the control information transmission unit 15.
The processing circuit 201 may be dedicated hardware as shown in FIG. 2A or a CPU (Central Processing Unit) 206 that executes a program stored in the memory 205 as shown in FIG. 2B.

処理回路201が専用のハードウェアである場合、処理回路201は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field−Programmable Gate Array)、又はこれらを組み合わせたものが該当する。   When the processing circuit 201 is dedicated hardware, the processing circuit 201 may be, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, an ASIC (Application Specific Integrated Circuit), or an FPGA (Field-Programmable). Gate Array) or a combination thereof.

処理回路201がCPU206の場合、画像取得部11、会話開始推定部12、対象位置推定部13、出力制御部14、及び制御情報送信部15の各機能は、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせにより実現される。すなわち、画像取得部11、会話開始推定部12、対象位置推定部13、出力制御部14、及び制御情報送信部15は、HDD(Hard Disk Drive)202、メモリ205等に記憶されたプログラムを実行するCPU206、又はシステムLSI(Large−Scale Integration)等の処理回路により実現される。また、HDD202、又はメモリ205等に記憶されたプログラムは、画像取得部11、会話開始推定部12、対象位置推定部13、出力制御部14、及び制御情報送信部15における各手順、すなわち、画像取得手順、会話開始推定手順、対象位置推定手順、出力制御手順、及び制御情報送信手順をコンピュータに実行させるものであるとも言える。ここで、メモリ205とは、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read−Only Memory)等の、不揮発性もしくは揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、又はDVD(Digital Versatile Disc)等が該当する。   When the processing circuit 201 is the CPU 206, the functions of the image acquisition unit 11, the conversation start estimation unit 12, the target position estimation unit 13, the output control unit 14, and the control information transmission unit 15 are software, firmware, or software and firmware. It is realized by the combination. That is, the image acquisition unit 11, the conversation start estimation unit 12, the target position estimation unit 13, the output control unit 14, and the control information transmission unit 15 execute programs stored in an HDD (Hard Disk Drive) 202, a memory 205, and the like. CPU 206 or a processing circuit such as a system LSI (Large-Scale Integration). The programs stored in the HDD 202, the memory 205, or the like are the procedures in the image acquisition unit 11, the conversation start estimation unit 12, the target position estimation unit 13, the output control unit 14, and the control information transmission unit 15, that is, the image. It can be said that the acquisition procedure, the conversation start estimation procedure, the target position estimation procedure, the output control procedure, and the control information transmission procedure are executed by the computer. Here, the memory 205 is, for example, a RAM (Random Access Memory), a ROM (Read Only Memory), a flash memory, an EPROM (Erasable Programmable Read Only Memory Memory, an EEPROM (Electrically Erasable Memory), or the like. Or a volatile semiconductor memory, a magnetic disk, a flexible disk, an optical disk, a compact disk, a mini disk, a DVD (Digital Versatile Disc), or the like.

なお、画像取得部11、会話開始推定部12、対象位置推定部13、出力制御部14、及び制御情報送信部15の各機能について、一部を専用のハードウェアで実現し、一部をソフトウェア又はファームウェアで実現するようにしてもよい。例えば、画像取得部11、会話開始推定部12、及び対象位置推定部13については、専用のハードウェアとしての処理回路201でその機能を実現し、出力制御部14、及び制御情報送信部15については、処理回路がメモリ205に格納されたプログラムを読み出して実行することによってその機能を実現することができる。
また、音声出力制御装置1は、撮像装置31,32,33,34、及び音響装置2との通信を行うための、入力インタフェース装置203及び出力インタフェース装置204を有する。
なお、以上の説明では、音声出力制御装置1のハードウェア構成について、図2Bに示すように、HDD202を使用するものとして説明したが、HDD202に代えて、SSD(SolidStateDrive)を使用するものであってもよい。
In addition, about each function of the image acquisition part 11, the conversation start estimation part 12, the object position estimation part 13, the output control part 14, and the control information transmission part 15, a part is implement | achieved with a dedicated hardware and a part is software Alternatively, it may be realized by firmware. For example, the functions of the image acquisition unit 11, the conversation start estimation unit 12, and the target position estimation unit 13 are realized by a processing circuit 201 as dedicated hardware, and the output control unit 14 and the control information transmission unit 15 are realized. The function can be realized by the processing circuit reading and executing the program stored in the memory 205.
The audio output control device 1 also includes an input interface device 203 and an output interface device 204 for performing communication with the imaging devices 31, 32, 33, 34 and the acoustic device 2.
In the above description, the hardware configuration of the audio output control device 1 has been described as using the HDD 202 as shown in FIG. 2B. However, instead of the HDD 202, an SSD (Solid State Drive) is used. May be.

図3は、実施の形態1に係る音声出力制御装置1が適用された音響システム3を搭載した車両300の内部を上方から見た構成例を示す図ある。
図3に示すように、撮像装置31,32,33,34は、乗員301,302,303,304がそれぞれ座る座席311,312,313,314に対応して設置されている。撮像装置31,32,33,34は、乗員301,302,303,304、特に乗員301,302,303,304の顔部をそれぞれ撮影している。
音声発生装置36,37,38,39は、座席311,312,313,314にそれぞれ対応して設置されている。
FIG. 3 is a diagram illustrating a configuration example when the inside of the vehicle 300 on which the sound system 3 to which the sound output control device 1 according to Embodiment 1 is applied is mounted is viewed from above.
As shown in FIG. 3, the imaging devices 31, 32, 33, and 34 are installed corresponding to seats 311, 312, 313, and 314 on which occupants 301, 302, 303, and 304 sit, respectively. The imaging devices 31, 32, 33, and 34 shoot the faces of the passengers 301, 302, 303, and 304, particularly the passengers 301, 302, 303, and 304, respectively.
The sound generators 36, 37, 38, 39 are installed corresponding to the seats 311, 312, 313, 314, respectively.

動作について説明する。
図4は、実施の形態1に係る音声出力制御装置1の動作を説明するフローチャートである。以下、実施の形態1に係る音声出力制御装置1の動作を、当該フローチャートを用いて説明すると共に、図3に示すように、話者が乗員304であり、会話対象の位置が座席311である場合を例にとって説明する。
音声出力制御装置1がこのフローチャートに示した処理を繰り返し実行することで、音声出力制御装置1の動作中、音響装置2は、音声出力制御装置1から受信した制御情報に基づいて音声発生装置36,37,38,39に出力する音声信号の増幅幅の制御を行う。
The operation will be described.
FIG. 4 is a flowchart for explaining the operation of the audio output control apparatus 1 according to the first embodiment. Hereinafter, the operation of the audio output control device 1 according to Embodiment 1 will be described using the flowchart, and as shown in FIG. 3, the speaker is the occupant 304 and the conversation target position is the seat 311. A case will be described as an example.
The sound output control device 1 repeatedly executes the processing shown in this flowchart, so that the sound device 2 can perform the sound generation device 36 based on the control information received from the sound output control device 1 during the operation of the sound output control device 1. , 37, 38 and 39, the amplification width of the audio signal to be output is controlled.

音声出力制御装置1の動作が開始されると、画像取得部11は、撮像装置31,32,33,34それぞれから画像を取得する(ステップST1)。
会話開始推定部12は、画像取得部11で取得した画像を基に、乗員により会話が開始されるか否か推定する(ステップST2)。
ステップST2において、会話開始推定部12が乗員により会話が開始されると推定した場合(ステップST2“YES”)、対象位置推定部13は、画像取得部11で取得した画像を基に、話者の顔の方向又は視線の方向から会話対象の位置を推定する(ステップST3)。画像取得部11が取得した撮像装置34で撮影された画像を基に、会話開始推定部12が乗員304により会話が開始されると推定した場合、対象位置推定部13は、画像取得部11が取得した撮像装置34で撮影された画像を基に、乗員304の顔の方向又は視線の方向から会話対象の位置が前方右側の座席311であると推定する。
出力制御部14は、対象位置推定部13が推定した会話対象の位置に基づき、当該会話対象の位置に最も近い音声発生装置から出力される音声の音量を小さくするよう、音響装置2が出力する音声信号の増幅幅の制御を行うための制御情報を生成する(ステップST4)。出力制御部14は、対象位置推定部13が推定した会話対象の位置である座席311に最も近い音声発生装置36の音量を小さくするよう、音響装置2が出力する音声信号の増幅幅の制御を行うための制御情報を生成する。
制御情報送信部15は、出力制御部14が生成した制御情報を音響装置2に送信し(ステップST5)、音声出力制御装置1は、動作を終了する。
ステップST2において、会話開始推定部12が乗員により会話が開始されないと推定した場合(ステップST2“NO”)、音声出力制御装置1は、動作を終了する。
When the operation of the audio output control device 1 is started, the image acquisition unit 11 acquires images from the imaging devices 31, 32, 33, and 34 (step ST1).
The conversation start estimation unit 12 estimates whether or not conversation is started by the occupant based on the image acquired by the image acquisition unit 11 (step ST2).
In step ST2, when the conversation start estimating unit 12 estimates that the conversation is started by the occupant (step ST2 “YES”), the target position estimating unit 13 determines the speaker based on the image acquired by the image acquiring unit 11. The position of the conversation target is estimated from the face direction or the line-of-sight direction (step ST3). When the conversation start estimation unit 12 estimates that the conversation is started by the occupant 304 based on the image captured by the imaging device 34 acquired by the image acquisition unit 11, the target position estimation unit 13 includes the image acquisition unit 11. Based on the acquired image captured by the imaging device 34, it is estimated that the position of the conversation target is the front right seat 311 from the direction of the face of the occupant 304 or the direction of the line of sight.
Based on the position of the conversation target estimated by the target position estimation unit 13, the output control unit 14 outputs the sound device 2 so as to reduce the volume of the sound output from the sound generation device closest to the position of the conversation target. Control information for controlling the amplification width of the audio signal is generated (step ST4). The output control unit 14 controls the amplification width of the audio signal output from the acoustic device 2 so as to reduce the volume of the audio generation device 36 closest to the seat 311 that is the position of the conversation target estimated by the target position estimation unit 13. Generate control information to do.
The control information transmission unit 15 transmits the control information generated by the output control unit 14 to the acoustic device 2 (step ST5), and the audio output control device 1 ends the operation.
In step ST2, when the conversation start estimation unit 12 estimates that the conversation is not started by the occupant (step ST2 “NO”), the voice output control device 1 ends the operation.

以上のように、音声出力制御装置1は、車両300に乗車している乗員301,302,303,304の顔を撮影する撮像装置31,32,33,34で撮影された画像を取得する画像取得部11と、画像取得部11で取得した画像に基づいて、乗員の口の開き具合から乗員による会話の開始を推定する会話開始推定部12と、画像取得部11で取得した画像に基づいて、会話の開始が推定された乗員の顔の方向又は視線の方向から会話対象の位置を推定する対象位置推定部13と、会話開始推定部12が乗員による会話の開始を推定した際、対象位置推定部13が推定した会話対象の位置に最も近い音声発生装置から出力される音声の音量を制御する制御情報を生成する出力制御部14とを備える。このように構成することで、乗員が発話を開始する時点において、音声発生装置36,37,38,39から出力される音量を制御できる。   As described above, the audio output control device 1 acquires images captured by the imaging devices 31, 32, 33, and 34 that capture the faces of the occupants 301, 302, 303, and 304 riding in the vehicle 300. Based on the acquisition unit 11, the conversation start estimation unit 12 that estimates the start of conversation by the occupant from the degree of opening of the occupant's mouth based on the image acquired by the image acquisition unit 11, and the image acquired by the image acquisition unit 11 The target position estimation unit 13 that estimates the position of the conversation target from the direction of the occupant's face or the line of sight where the start of the conversation is estimated, and the target position when the conversation start estimation unit 12 estimates the start of the conversation by the occupant And an output control unit 14 that generates control information for controlling the volume of the sound output from the sound generation device closest to the position of the conversation target estimated by the estimation unit 13. With this configuration, it is possible to control the sound volume output from the sound generators 36, 37, 38, and 39 when the occupant starts speaking.

これまで説明した実施の形態1において、話者の顔の方向又は視線の方向にある座席である例を示したが、この限りではない。例えば、話者が座席311に座る乗員301である場合、当該話者がルームミラー305の方向に顔の方向又は視線の方向を向けていれば、会話対象が座席313又は座席314であると推定することができる。すなわち、会話開始推定部12が会話の開始を推定した話者が前席の乗員であり、対象位置推定部13が当該話者の顔の方向又は視線の方向がルームミラー305の方向であると判定した場合、会話対象の位置を後席と推定してもよい。このように構成することで、音声出力制御装置1は、会話対象の位置の推定の精度を向上できる。   In Embodiment 1 described so far, an example of a seat in the direction of the speaker's face or the direction of the line of sight has been shown, but this is not restrictive. For example, when the speaker is an occupant 301 sitting in the seat 311, if the speaker is facing the direction of the face mirror or the line of sight toward the room mirror 305, the conversation target is estimated to be the seat 313 or the seat 314. can do. That is, the speaker whose conversation start estimating unit 12 estimated the start of the conversation is the front seat occupant, and the target position estimating unit 13 is that the direction of the speaker's face or line of sight is the direction of the room mirror 305. If it is determined, the position of the conversation target may be estimated as the rear seat. With this configuration, the audio output control device 1 can improve the accuracy of estimating the position of the conversation target.

また、これまで説明した実施の形態1において、図3に示すように、座席311,312,313,314それぞれに対応した4台の撮像装置31,32,33,34を例に示したが、撮像装置は、車両300内の複数の乗員の顔部が撮影できれば良い。すなわち、撮像装置の台数及び設置位置は、これに限るものではなく、例えば、複数の乗員の顔部が撮影できる位置に撮像装置が1台だけ設置されていても良い。複数の乗員の顔部が撮影できる位置に撮像装置が1台だけ設置されている場合、当該撮像装置で撮影された画像に基づいて、画像解析により画像内の顔の位置等から当該顔が車両300内のどの座席に座る乗員のものであるかを判定することができる。   In the first embodiment described so far, as shown in FIG. 3, the four imaging devices 31, 32, 33, and 34 corresponding to the seats 311, 312, 313, and 314 are shown as examples. The imaging device only needs to be able to photograph the faces of a plurality of passengers in the vehicle 300. That is, the number and installation positions of the imaging devices are not limited to this. For example, only one imaging device may be installed at a position where a plurality of occupant faces can be photographed. When only one imaging device is installed at a position where the faces of a plurality of passengers can be photographed, the face is detected from the position of the face in the image by image analysis based on the image photographed by the imaging device. It is possible to determine which seat in 300 the passenger belongs to.

また、これまで説明した実施の形態1において、図3に示すように、座席311,312,313,314それぞれに対応した4台の音声発生装置36,37,38,39を例に示したが、音声発生装置の台数及び設置位置は、これに限るものではない。例えば、音声発生装置は、必ずしもそれぞれの座席に対応している必要はなく、車両300内の前後、又は左右に1つずつ設置された音声発生装置等、座席の数より少ない台数であっても良いし、逆に座席の数より多くの台数であっても良い。   In the first embodiment described so far, as shown in FIG. 3, four sound generators 36, 37, 38, and 39 corresponding to the seats 311, 312, 313, and 314 are shown as examples. The number and installation positions of the sound generators are not limited to this. For example, the sound generation devices do not necessarily correspond to the respective seats, and even if the number of the sound generation devices is smaller than the number of seats, such as sound generation devices installed one by one in the front and rear, or left and right in the vehicle 300, On the contrary, it may be more than the number of seats.

また、これまで説明した実施の形態1において、出力制御部14は、会話対象の位置に最も近い音声発生装置から出力される音声の音量を制御するよう、音響装置2が出力する音声信号の増幅幅の制御を行うための制御情報を生成する例を示したが、この限りではない。例えば、話者が座る座席の最も近くにある音声発生装置から出力される音声の音量も小さくするよう、音響装置2が出力する音声信号の増幅幅の制御を行うための制御情報を生成しても良い。また、出力制御部14が生成する制御情報は、音響装置2において、音声発生装置36,37,38,39から出力される音声の音量を制御できる情報であれば良く、音声信号の増幅幅の制御を行うための情報に限定されるものではない。   In the first embodiment described so far, the output control unit 14 amplifies the sound signal output from the acoustic device 2 so as to control the volume of the sound output from the sound generation device closest to the position of the conversation target. Although an example of generating control information for performing width control has been shown, the present invention is not limited to this. For example, the control information for controlling the amplification width of the audio signal output from the acoustic device 2 is generated so that the volume of the audio output from the audio generation device closest to the seat where the speaker sits is also reduced. Also good. Further, the control information generated by the output control unit 14 may be information that can control the volume of the sound output from the sound generation devices 36, 37, 38, and 39 in the acoustic device 2, and may be the amount of amplification of the sound signal. It is not limited to information for performing control.

また、これまで説明した実施の形態1において、会話開始推定部12が会話の終了も推定し、出力制御部14は、会話開始推定部12が会話の終了を推定した際、これまで小さくするよう制御していた音声発生装置から出力される音声の音量を、元に戻すよう、音響装置2が出力する音声信号の増幅幅の制御を行う制御情報を生成するようにしてもよい。このように構成することで、会話をしている期間だけ音声発生装置36,37,38,39から出力される音声の音量を小さくすることができる。   Further, in the first embodiment described so far, the conversation start estimation unit 12 also estimates the end of the conversation, and the output control unit 14 reduces so far when the conversation start estimation unit 12 estimates the end of the conversation. Control information for controlling the amplification width of the audio signal output from the acoustic device 2 may be generated so that the volume of the audio output from the controlled audio generator is restored. With this configuration, it is possible to reduce the volume of the sound output from the sound generators 36, 37, 38, 39 only during the conversation.

また、これまで説明した実施の形態1において、音声出力制御装置1は、車両300内で機能する装置を例に示したが、必ずしも各機能の一部又は全部が車両300内で機能する必要はない。例えば、音声出力制御装置1は、車両300の外部に設置され、撮像装置31,32,33,34で撮影された画像をインターネット等のネットワークを介して画像取得部11で取得し、生成した制御情報をインターネット等のネットワークを介して制御情報送信部15から音響装置2に送信するようにしてもよい。また例えば、音声出力制御装置1は、各機能の一部が車両300内で機能し、残りの一部が車両300の外部で機能するようにしてもよい。   Moreover, in Embodiment 1 demonstrated so far, although the audio | voice output control apparatus 1 showed as an example the apparatus which functions in the vehicle 300, it is not necessary for some or all of each function to function in the vehicle 300. Absent. For example, the audio output control device 1 is installed outside the vehicle 300, and images generated by the imaging devices 31, 32, 33, and 34 are acquired by the image acquisition unit 11 via a network such as the Internet, and generated. Information may be transmitted from the control information transmission unit 15 to the audio device 2 via a network such as the Internet. Further, for example, the audio output control device 1 may be configured such that a part of each function functions in the vehicle 300 and the remaining part functions outside the vehicle 300.

なお、この発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略ができる。   It should be noted that within the scope of the invention, the present invention can be freely combined with each of the embodiments, modified with any component in each embodiment, or omitted with any component in each embodiment.

この発明に係る音声出力制御装置は音響システムをはじめとした音声出力機器に適用することができる。   The audio output control device according to the present invention can be applied to audio output devices such as an acoustic system.

1 音声出力制御装置、2 音響装置、3 音響システム、11 画像取得部、12 会話開始推定部、13 対象位置推定部、14 出力制御部、15 制御情報送信部、21 音源取得部、22 音源再生部、23 音量制御部、24 音声出力部、25 操作部、31,32,33,34 撮像装置、36,37,38,39 音声発生装置、201 処理回路、202 HDD、203 入力インタフェース装置、204 出力インタフェース装置、205 メモリ、206 CPU、300 車両、301,302,303,304 乗員、305 ルームミラー、311,312,313,314 座席。 DESCRIPTION OF SYMBOLS 1 Audio | voice output control apparatus, 2 Acoustic apparatus, 3 Acoustic system, 11 Image acquisition part, 12 Conversation start estimation part, 13 Target position estimation part, 14 Output control part, 15 Control information transmission part, 21 Sound source acquisition part, 22 Sound source reproduction 23, volume control unit, 24 audio output unit, 25 operation unit, 31, 32, 33, 34 imaging device, 36, 37, 38, 39 audio generation device, 201 processing circuit, 202 HDD, 203 input interface device, 204 Output interface device, 205 memory, 206 CPU, 300 vehicle, 301, 302, 303, 304 Crew, 305 rearview mirror, 311, 312, 313, 314 seat.

Claims (4)

車両に乗車している乗員の顔を撮影する撮像装置で撮影された画像を取得する画像取得部と、
前記画像取得部で取得した前記画像に基づいて、前記乗員の口の開き具合から前記乗員による会話の開始を推定する会話開始推定部と、
前記画像取得部で取得した前記画像に基づいて、会話の開始が推定された前記乗員の顔の方向又は視線の方向から会話対象の位置を推定する対象位置推定部と、
前記会話開始推定部が前記乗員による会話の開始を推定した際、前記対象位置推定部が推定した前記会話対象の位置に最も近い音声発生装置から出力される音声の音量を制御する制御情報を生成する出力制御部とを備えた
ことを特徴とする音声出力制御装置。
An image acquisition unit that acquires an image captured by an imaging device that captures the face of an occupant riding in the vehicle;
Based on the image acquired by the image acquisition unit, a conversation start estimation unit that estimates the start of conversation by the occupant from the degree of opening of the occupant's mouth,
A target position estimation unit that estimates the position of a conversation target from the direction of the face or line of sight of the occupant from which the start of conversation is estimated based on the image acquired by the image acquisition unit;
When the conversation start estimating unit estimates the start of the conversation by the occupant, control information for controlling the volume of the sound output from the sound generating device closest to the position of the conversation target estimated by the target position estimating unit is generated. An audio output control device comprising: an output control unit configured to output the output control unit.
前記対象位置推定部は、会話の開始が推定された前席の前記乗員の顔の方向又は視線の方向がルームミラーの方向であった場合、前記会話対象の位置を後席と推定すること
を特徴とする請求項1記載の音声出力制御装置。
The target position estimation unit estimates the position of the conversation target as the rear seat when the direction of the face or the line of sight of the occupant in the front seat where the start of the conversation is estimated is the direction of the room mirror. The audio output control apparatus according to claim 1, wherein:
前記会話開始推定部は、前記乗員による会話の開始を推定した後、前記画像取得部で取得した前記画像に基づいて、会話の開始を推定した前記乗員の口の開き具合から前記乗員による会話の終了を推定し、
前記会話開始推定部が前記乗員による会話の終了を推定した際、前記出力制御部は、前記対象位置推定部が推定した前記会話対象の位置に最も近い前記音声発生装置から出力される音声の音量を元に戻すように制御する前記制御情報を生成する
を特徴とする請求項1記載の音声出力制御装置。
The conversation start estimation unit estimates the start of the conversation by the occupant, and then based on the image acquired by the image acquisition unit, the conversation start by the occupant from the degree of opening of the occupant's mouth that estimated the start of the conversation. Estimate the end,
When the conversation start estimation unit estimates the end of the conversation by the occupant, the output control unit outputs the volume of the sound output from the sound generation device closest to the position of the conversation target estimated by the target position estimation unit The audio output control device according to claim 1, wherein the control information for controlling to restore the original is generated.
コンピュータに、
車両に乗車している乗員の顔を撮影する撮像装置で撮影された画像を取得する画像取得手順と、
前記画像取得手順において取得した前記画像に基づいて、前記乗員の口の開き具合から前記乗員による会話の開始を推定する会話開始推定手順と、
前記画像取得手順において取得した前記画像に基づいて、会話の開始が推定された前記乗員の顔の方向又は視線の方向から会話対象の位置を推定する対象位置推定手順と、
前記会話開始推定手順において前記乗員による会話の開始を推定した際、前記対象位置推定手順において推定した前記会話対象の位置に最も近い音声発生装置から出力される音声の音量を制御する制御情報を生成する出力制御手順と
を実行させるための音声出力制御プログラム。
On the computer,
An image acquisition procedure for acquiring an image captured by an imaging device that captures the face of an occupant in the vehicle;
Based on the image acquired in the image acquisition procedure, a conversation start estimation procedure for estimating the start of conversation by the occupant from the degree of opening of the occupant's mouth,
A target position estimation procedure for estimating a conversation target position from the direction of the occupant's face or the direction of the line of sight estimated from the start of the conversation based on the image acquired in the image acquisition procedure;
When estimating the start of the conversation by the occupant in the conversation start estimation procedure, control information for controlling the volume of the sound output from the sound generator closest to the position of the conversation target estimated in the target position estimation procedure is generated A voice output control program for executing the output control procedure.
JP2018021071A 2018-02-08 2018-02-08 Audio output control device and audio output control program Active JP7023131B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018021071A JP7023131B2 (en) 2018-02-08 2018-02-08 Audio output control device and audio output control program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018021071A JP7023131B2 (en) 2018-02-08 2018-02-08 Audio output control device and audio output control program

Publications (2)

Publication Number Publication Date
JP2019137167A true JP2019137167A (en) 2019-08-22
JP7023131B2 JP7023131B2 (en) 2022-02-21

Family

ID=67694901

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018021071A Active JP7023131B2 (en) 2018-02-08 2018-02-08 Audio output control device and audio output control program

Country Status (1)

Country Link
JP (1) JP7023131B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3111005A1 (en) 2020-06-02 2021-12-03 Renault SOUND VOLUME CONTROL PROCESS

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007079624A (en) * 2005-09-09 2007-03-29 Toyota Central Res & Dev Lab Inc Utterance detection device, method and program
JP2012025270A (en) * 2010-07-23 2012-02-09 Denso Corp Apparatus for controlling sound volume for vehicle, and program for the same
JP2015071320A (en) * 2013-10-01 2015-04-16 アルパイン株式会社 Conversation support device, conversation support method, and conversation support program
US20160029111A1 (en) * 2014-07-24 2016-01-28 Magna Electronics Inc. Vehicle in cabin sound processing system
JP2016066114A (en) * 2014-09-22 2016-04-28 株式会社東芝 Feature point detection device, method, and program
JP2017090611A (en) * 2015-11-09 2017-05-25 三菱自動車工業株式会社 Voice recognition control system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007079624A (en) * 2005-09-09 2007-03-29 Toyota Central Res & Dev Lab Inc Utterance detection device, method and program
JP2012025270A (en) * 2010-07-23 2012-02-09 Denso Corp Apparatus for controlling sound volume for vehicle, and program for the same
JP2015071320A (en) * 2013-10-01 2015-04-16 アルパイン株式会社 Conversation support device, conversation support method, and conversation support program
US20160029111A1 (en) * 2014-07-24 2016-01-28 Magna Electronics Inc. Vehicle in cabin sound processing system
JP2016066114A (en) * 2014-09-22 2016-04-28 株式会社東芝 Feature point detection device, method, and program
JP2017090611A (en) * 2015-11-09 2017-05-25 三菱自動車工業株式会社 Voice recognition control system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3111005A1 (en) 2020-06-02 2021-12-03 Renault SOUND VOLUME CONTROL PROCESS
WO2021244826A1 (en) 2020-06-02 2021-12-09 Renault S.A.S Method for controlling sound volume

Also Published As

Publication number Publication date
JP7023131B2 (en) 2022-02-21

Similar Documents

Publication Publication Date Title
US10848889B2 (en) Intelligent audio rendering for video recording
JP2007290691A (en) Vehicle communication system
JP7049803B2 (en) In-vehicle device and audio output method
US9769568B2 (en) System and method for speech reinforcement
JP4816334B2 (en) Noise reduction device, imaging device, noise reduction method, and program
JP2019068237A (en) Conversation support device, conversation support system, and conversation support method
JP2008236397A (en) Acoustic control system
JP2010156826A (en) Acoustic control device
JP7023131B2 (en) Audio output control device and audio output control program
WO2021156946A1 (en) Voice separation device and voice separation method
US10645494B1 (en) Active control system for a vehicular dual microphone and a control method thereof
JP7065964B2 (en) Sound field control device and sound field control method
WO2020027061A1 (en) Conversation assistance system, method therefor, and program
JP2005354223A (en) Sound source information processing apparatus, sound source information processing method, and sound source information processing program
JP6995254B2 (en) Sound field control device and sound field control method
WO2020026726A1 (en) Sound collecting/amplifying device, method therefor, and program
EP3528509B1 (en) Audio data arrangement
JP2021173881A (en) Voice processing device and voice processing method
WO2018173112A1 (en) Sound output control device, sound output control system, and sound output control method
US20230096846A1 (en) Controlling playback of audio data
JP2014199343A (en) Imaging apparatus, signal processing device and method, and program
CN112544088B (en) Sound pickup and amplification device, method thereof, and recording medium
JP2012165219A (en) Imaging apparatus
WO2021156945A1 (en) Sound separation device and sound separation method
JPH0543200U (en) Audio recording system device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200428

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20200428

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210126

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210507

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211216

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20211216

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20211223

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220208

R150 Certificate of patent or registration of utility model

Ref document number: 7023131

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150