JP5405130B2 - Sound reproducing apparatus and sound reproducing method - Google Patents

Sound reproducing apparatus and sound reproducing method Download PDF

Info

Publication number
JP5405130B2
JP5405130B2 JP2009003880A JP2009003880A JP5405130B2 JP 5405130 B2 JP5405130 B2 JP 5405130B2 JP 2009003880 A JP2009003880 A JP 2009003880A JP 2009003880 A JP2009003880 A JP 2009003880A JP 5405130 B2 JP5405130 B2 JP 5405130B2
Authority
JP
Japan
Prior art keywords
sound source
sound
unit
source direction
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009003880A
Other languages
Japanese (ja)
Other versions
JP2010161735A (en
Inventor
真人 戸上
浩明 小窪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faurecia Clarion Electronics Co Ltd
Original Assignee
Clarion Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Clarion Co Ltd filed Critical Clarion Co Ltd
Priority to JP2009003880A priority Critical patent/JP5405130B2/en
Publication of JP2010161735A publication Critical patent/JP2010161735A/en
Application granted granted Critical
Publication of JP5405130B2 publication Critical patent/JP5405130B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、車室内などの雑音環境下で複数台のスピーカの音再生制御を行う音再生装置および音再生方法に関する。   The present invention relates to a sound reproduction device and a sound reproduction method for performing sound reproduction control of a plurality of speakers under a noisy environment such as a passenger compartment.

これまで複数のスピーカを用いて、高臨場感で音を再生する技術が広く検討されてきている。一例を挙げると、5.1chサラウンド再生が代表的な技術と言える。また、自動車の車室内のように雑音が大きい環境でも、十分な音量で音声を再生することが可能なように、雑音量をモニタリングして、それに合わせて、再生音量をコントロールするオートボリュームコントロール技術が検討されてきている(例えば、特許文献1参照)。   Hitherto, techniques for reproducing sound with a high sense of presence using a plurality of speakers have been widely studied. For example, 5.1ch surround playback is a typical technology. In addition, auto volume control technology that monitors the amount of noise and controls the playback volume accordingly, so that sound can be played at a sufficient volume even in noisy environments such as the interior of a car. Have been studied (see, for example, Patent Document 1).

さらに、複数のマイクロホンを用いた複数チャンネルのデジタルフィルタ処理により、所望の目的音以外の音を高精度に抑圧する技術が検討されてきている(例えば、非特許文献1参照)。この技術は、複数チャンネルのデジタルフィルタ処理により、所望の方向の音のみを歪みを生じさせることなく抽出することを目的とするものである。この音源分離技術を応用すれば、雑音量の高精度なモニタリングが可能である。   Furthermore, a technique for highly accurately suppressing sounds other than a desired target sound by using a plurality of channels of digital filter processing using a plurality of microphones has been studied (for example, see Non-Patent Document 1). This technique is intended to extract only sound in a desired direction without causing distortion by digital filter processing of a plurality of channels. By applying this sound source separation technique, it is possible to monitor the amount of noise with high accuracy.

特開平4−235600号公報JP-A-4-235600

戸上真人,天野明雄“人間共生ロボットEMIEWの騒音下音声認識技術”,計測と制御,Vol.46,No.6,2007年6月Masato Togami, Akio Amano “Speech Recognition Technology Under Noise with Human Symbiotic Robot EMIEW”, Measurement and Control, Vol.46, No.6, June 2007

しかしながら、従来のオートボリュームコントロール技術(特許文献1記載)では、ユーザ聴取位置から見た雑音源の方向と再生音をスピーカアレイで再生した際の音像定位方向が重なった場合に、音が聞き取りにくくなるという問題点があった。つまり、人間の聴覚プロセスには、両耳間到達時間差や振幅差の情報から到来方向ごとに音を聞き分ける機能が組み込まれていると考えられている。しかし、音の方向が重なると、そのような機能ではスピーカ再生音を聞き分けることができなくなってしまうためだと考えられる。   However, in the conventional auto volume control technology (described in Patent Document 1), when the direction of the noise source viewed from the user listening position and the sound image localization direction when the reproduced sound is reproduced by the speaker array overlap, it is difficult to hear the sound. There was a problem of becoming. In other words, it is considered that the human auditory process incorporates a function for listening to sounds for each direction of arrival based on information on arrival time differences between both ears and amplitude differences. However, if the sound directions overlap, it is considered that such a function makes it impossible to distinguish the speaker playback sound.

本発明は、このような問題点に鑑みてなされたものであり、雑音が存在する環境でも、所望音を聞きやすい音で聴取可能にできる音再生装置および音再生方法を提供することを課題とする。   The present invention has been made in view of such problems, and it is an object of the present invention to provide a sound reproducing device and a sound reproducing method capable of listening to a desired sound with an easy-to-hear sound even in an environment where noise exists. To do.

前記課題を解決するために、本発明による音再生装置は、例えば、複数のマイクロホンアレイを用いた音源分離処理により、マイクロホンアレイなどから見た相対的な音源方向を推定するとともに、推定した音源方向をユーザ位置から見た音源方向に変換する音源方向変換処理部を有する。そして、音再生装置は、推定した前記マイクロホンアレイの位置での音源方向をユーザ聴取位置での音源方向に変換する音源方向変換処理部を有する。さらに、音再生装置は、音源方向変換処理部などによって変換された音源方向を基に、再生音源以外の雑音源のユーザ聴取位置での音源方向を算出し、当該雑音源のユーザ聴取位置での音源方向と再生音源としてのスピーカアレイの音像定位方向とが異なるように音像定位方向を制御する出力係数設定部を有する、ことを特徴とする。 In order to solve the above-described problem, the sound reproducing device according to the present invention estimates the relative sound source direction viewed from the microphone array or the like by, for example, sound source separation processing using a plurality of microphone arrays, and the estimated sound source direction. Has a sound source direction conversion processing unit for converting the sound source direction from the user position. The sound reproducing device includes a sound source direction conversion processing unit that converts the sound source direction at the estimated position of the microphone array into the sound source direction at the user listening position. Furthermore, the sound reproduction device calculates the sound source direction at the user listening position of a noise source other than the reproduced sound source based on the sound source direction converted by the sound source direction conversion processing unit and the like, and at the user listening position of the noise source. It has an output coefficient setting unit for controlling the sound image localization direction so that the sound source direction and the sound image localization direction of the speaker array as a reproduction sound source are different.

本発明によれば、雑音が存在する環境でも、所望音を聞きやすい音で聴取可能である。   According to the present invention, it is possible to listen to a desired sound with a sound that is easy to hear even in an environment where noise exists.

本発明による第1実施形態の音再生装置の適用例を示す説明図である。It is explanatory drawing which shows the example of application of the sound reproduction apparatus of 1st Embodiment by this invention. 本発明による第1実施形態の音再生装置を示すハードウェア構成図である。It is a hardware block diagram which shows the sound reproduction apparatus of 1st Embodiment by this invention. 本発明による第1実施形態のプログラム構成を示すブロック図である。It is a block diagram which shows the program structure of 1st Embodiment by this invention. 音源位置変換処理の幾何学的なイメージを示す説明図である。It is explanatory drawing which shows the geometric image of a sound source position conversion process. 本実施形態で設定した出力係数を出力ソースに重畳して、スピーカから出力する構成を示したブロック図である。It is the block diagram which showed the structure which superimposes the output coefficient set in this embodiment on an output source, and outputs it from a speaker. 音源位置変換部の詳細な構成を示すブロック図である。It is a block diagram which shows the detailed structure of a sound source position conversion part. 図3の出力係数決定部の第1例を詳細に示すブロック図である。It is a block diagram which shows the 1st example of the output coefficient determination part of FIG. 3 in detail. 本発明の第1実施形態で生成されるヒストグラムの一例である。It is an example of the histogram produced | generated by 1st Embodiment of this invention. 推定した雑音の音源位置とユーザ位置及びスピーカ合成波面のユーザ位置から見た定位方向の一例を示す説明図である。It is explanatory drawing which shows an example of the localization direction seen from the sound source position and user position of the estimated noise, and the user position of the speaker synthetic | combination wavefront. 図3の出力係数決定部の第2例を詳細に示すブロック図である。It is a block diagram which shows the 2nd example of the output coefficient determination part of FIG. 3 in detail. 変形例の方向行列計算部を示すブロック図である。It is a block diagram which shows the direction matrix calculation part of a modification. 図3の音源分離部を詳細に示すブロック図である。It is a block diagram which shows the sound source separation part of FIG. 3 in detail. 音源分離フィルタの適応処理を示すフローチャートである。It is a flowchart which shows the adaptive process of a sound source separation filter. 図3の音源位置推定部を詳細に示すブロック図である。It is a block diagram which shows the sound source position estimation part of FIG. 3 in detail. 図3の音響エコーキャンセラを詳細に示すブロック図である。It is a block diagram which shows the acoustic echo canceller of FIG. 3 in detail. 本発明による第1実施形態のソフトウェアブロックとハードウェアとの関連性を示す説明図である。It is explanatory drawing which shows the relationship between the software block of 1st Embodiment by this invention, and hardware. 本実施形態において音楽などのオーディオ出力音の出力方法を制御する構成を示すブロック図である。It is a block diagram which shows the structure which controls the output method of audio output sounds, such as music, in this embodiment. 出力係数決定タイミングを決める処理を示すフローチャートである。It is a flowchart which shows the process which determines an output coefficient determination timing. 出力係数設定タイミングとオーディオソース再生タイミングの一例を示したタイミングチャートである。5 is a timing chart showing an example of output coefficient setting timing and audio source reproduction timing. 本発明による第2実施形態の音再生装置を示すハードウェア構成図である。It is a hardware block diagram which shows the sound reproduction apparatus of 2nd Embodiment by this invention. 本発明によるユーザ聴取位置での音源位置変換処理を使って、仮想的な音源位置における音場を再現する音場再現システムのソフトウェア構成を示すブロック図である。It is a block diagram which shows the software structure of the sound field reproduction system which reproduces the sound field in a virtual sound source position using the sound source position conversion process in the user listening position by this invention.

以下、本発明を実施するための最良の形態(以下、「実施形態」という)について、添付した各図を参照し、詳細に説明する。   Hereinafter, the best mode for carrying out the present invention (hereinafter referred to as “embodiment”) will be described in detail with reference to the accompanying drawings.

図1は、本発明による第1実施形態の音再生装置1の適用例を示す説明図である。
図1を参照し、音再生装置1の概要を説明する。自動車10などの車室11内に複数のマイクロホン102を有するマイクロホンアレイ101を設置する。マイクロホンアレイ101で収録した音から雑音の到来方向を推定する。そして、スピーカ112によって再生される音が、ユーザ聴取位置で、雑音の到来方向と異なる方向に定位されるように、スピーカ112ごとにスピーカ出力係数を設定する。このような構成により、ユーザは、聞きやすい音でスピーカ再生音を聞くことが可能となる。
FIG. 1 is an explanatory diagram showing an application example of the sound reproducing device 1 according to the first embodiment of the present invention.
The outline of the sound reproducing device 1 will be described with reference to FIG. A microphone array 101 having a plurality of microphones 102 is installed in a vehicle compartment 11 such as an automobile 10. The direction of noise arrival is estimated from the sound recorded by the microphone array 101. Then, a speaker output coefficient is set for each speaker 112 so that the sound reproduced by the speaker 112 is localized in a direction different from the noise arrival direction at the user listening position. With such a configuration, the user can listen to the speaker playback sound with a sound that is easy to hear.

図2は、本発明による第1実施形態の音再生装置1を示すハードウェア構成図である。
マイクロホンアレイ101は、車室11内で音を収録し、収録した音を示すアナログ信号を出力する。
多チャンネルA/D変換機202は、このアナログ信号をマイクロホン102ごとにデジタル信号に変換する。
スピーカアレイ111は、所望の再生音を車室11内に放射する。
FIG. 2 is a hardware configuration diagram showing the sound reproducing device 1 according to the first embodiment of the present invention.
The microphone array 101 records sound in the passenger compartment 11 and outputs an analog signal indicating the recorded sound.
The multi-channel A / D converter 202 converts this analog signal into a digital signal for each microphone 102.
The speaker array 111 radiates desired reproduction sound into the passenger compartment 11.

中央演算装置203は、変換されたデジタル信号に、デジタル信号処理を施す。具体的には、デジタル信号中に含まれる雑音成分を抽出し、雑音到来方向を推定する。そして、その雑音到来方向からスピーカ出力係数を制御する。信号処理プログラムは、不揮発性メモリ205に蓄えられていて、実行時に揮発性メモリ204にロードされ、展開される。またワークメモリなどプログラム実行に必要なメモリ領域は揮発性メモリ204内に確保される。また、マイクロホン102の配置などの情報は不揮発性メモリ205に蓄えられている。
中央演算装置203は、スピーカ出力係数を制御し、生成したデジタル信号(スピーカ出力信号)を出力する。
The central processing unit 203 performs digital signal processing on the converted digital signal. Specifically, a noise component included in the digital signal is extracted, and the noise arrival direction is estimated. Then, the speaker output coefficient is controlled from the noise arrival direction. The signal processing program is stored in the non-volatile memory 205, loaded into the volatile memory 204 at the time of execution, and expanded. Also, a memory area necessary for program execution such as work memory is secured in the volatile memory 204. Information such as the arrangement of the microphone 102 is stored in the nonvolatile memory 205.
The central processing unit 203 controls the speaker output coefficient and outputs the generated digital signal (speaker output signal).

多チャンネルD/A変換機206は、スピーカ出力信号をアナログ信号に変換して、スピーカアレイ111の複数のスピーカ112ごとに出力する。
スピーカ112は、このアナログ信号によって鳴動し、音を空中に放射する。
The multi-channel D / A converter 206 converts the speaker output signal into an analog signal and outputs it to each of the plurality of speakers 112 of the speaker array 111.
The speaker 112 is sounded by this analog signal and radiates sound into the air.

また、座席センサ208によって乗員/同乗者の存在(着席)を検出し、乗員/同乗者の発話の有無にかかわらず、乗員位置/同乗者位置を音源位置またはユーザ聴取位置とみなして、スピーカ出力係数を制御するような構成にしてもよい。具体的には、乗員/同乗者を雑音源とみなして、乗員方向/同乗者方向と異なる方向にスピーカ出力音が定位されるように制御してもよいし、乗員/同乗者を聴取者とみなして、乗員位置/同乗者位置でのスピーカ出力音の定位方向と雑音の到来方向とが異なるようにスピーカ出力音の係数を制御するような構成にしてもよい。後者の構成を採ることで、運転者のみならず他の乗員/同乗者にとっても所望の音を聞きやすい音場を形成することが可能となる。   Further, the presence / absence of the passenger / passenger is detected by the seat sensor 208, and the speaker output is regarded as the sound source position or the user listening position regardless of whether the passenger / passenger speaks or not. You may make it the structure which controls a coefficient. Specifically, the occupant / passenger may be regarded as a noise source, and control may be performed so that the speaker output sound is localized in a direction different from the occupant direction / passenger direction. Accordingly, the speaker output sound coefficient may be controlled so that the localization direction of the speaker output sound at the passenger position / passenger position differs from the noise arrival direction. By adopting the latter configuration, it is possible to form a sound field in which a desired sound can be easily heard not only by the driver but also by other passengers / passengers.

図3は、本発明による第1実施形態のプログラム構成を示すブロック図である。
波形取り込み部301は、多チャンネルA/D変換機202(図2参照)を制御し、デジタル信号を取得する。
音響エコーキャンセラ307は、取得したデジタル信号に含まれるスピーカ出力に起因する成分(音響エコー成分)を除去する。音響エコーキャンセラ307の具体的な構成については後記する。音響エコーキャンセラ307は、マイクロホン素子ごとに動作する。音響エコー消去後の複数チャンネル信号は、音源分離部302に送られる。
FIG. 3 is a block diagram showing the program configuration of the first embodiment according to the present invention.
The waveform capturing unit 301 controls the multi-channel A / D converter 202 (see FIG. 2) and acquires a digital signal.
The acoustic echo canceller 307 removes a component (acoustic echo component) caused by the speaker output included in the acquired digital signal. A specific configuration of the acoustic echo canceller 307 will be described later. The acoustic echo canceller 307 operates for each microphone element. The multi-channel signal after acoustic echo cancellation is sent to the sound source separation unit 302.

通常、車室11内には多数の音源が存在する。音源分離部302は、この多数の音源を音源ごとの信号に分離する。音源の分離は、音響エコーキャンセラ307の出力信号を一定時間分取得するたびに行う。分離したそれぞれの信号は、音源ごとに音源位置推定部303に送られて、それぞれの音源位置が推定される。推定した音源位置は、マイクロホンアレイ101の位置と音源位置の相対位置となる。本実施形態では、ユーザ聴取位置から音源までの相対位置が必要となるため、音源位置変換部304では、事前のユーザ聴取位置情報から、ユーザ聴取位置(ユーザ位置)から見た音源位置を算出する。   Usually, a large number of sound sources exist in the passenger compartment 11. The sound source separation unit 302 separates the large number of sound sources into signals for each sound source. The sound source is separated every time the output signal of the acoustic echo canceller 307 is acquired for a certain time. The separated signals are sent to the sound source position estimation unit 303 for each sound source, and the respective sound source positions are estimated. The estimated sound source position is a relative position between the position of the microphone array 101 and the sound source position. In the present embodiment, since the relative position from the user listening position to the sound source is necessary, the sound source position conversion unit 304 calculates the sound source position viewed from the user listening position (user position) from the prior user listening position information. .

図4は、音源位置変換処理の幾何学的なイメージを示す説明図である。
具体的には、図4に示すように、ユーザ位置とマイクロホンアレイ101(図1参照)の位置から求めることができるユーザ位置ベクトルV1をマイクロホンアレイ101から見た音源の推定音源位置ベクトルV2に足し合わせることで、ユーザ位置から見た変換後音源位置ベクトルV3を取得することが可能となる。なお、マイクロホンアレイ101の設置位置は固定位置とする。この場合、ユーザ位置ベクトルV1は、ユーザ位置が分かれば決まる。ユーザ位置は、「運転席12」にプリセットしてもよいし、座席センサ208(図2参照)が検知した乗員位置/同乗者位置の情報から決めてもよい。
FIG. 4 is an explanatory diagram showing a geometric image of the sound source position conversion process.
Specifically, as shown in FIG. 4, the user position vector V1 that can be obtained from the user position and the position of the microphone array 101 (see FIG. 1) is added to the estimated sound source position vector V2 of the sound source viewed from the microphone array 101. By combining them, it is possible to obtain the converted sound source position vector V3 viewed from the user position. The installation position of the microphone array 101 is a fixed position. In this case, the user position vector V1 is determined if the user position is known. The user position may be preset to “driver's seat 12” or may be determined from information on the passenger position / passenger position detected by the seat sensor 208 (see FIG. 2).

図3に戻り、ヒストグラム更新部305は、変換した音源位置の情報から、雑音の到来方向のヒストグラムP(θ)を生成する。ここで、θは、音源方位角とする。ヒストグラムは、P(θ,φ)といった形で、方位角θと仰角φの二次元ヒストグラムを生成してもよい。ここでi番目の分離信号の音源方向を方位角θi,仰角φiとする。雑音の到来があるごとに、到来した雑音のθi、φiに相当するヒストグラムP(θii)に値 1を加算する。また、i番目の分離信号の平均パワーもしくはパワーの関数をP(θii)に加えるような構成を採ってもよい。また、ヒストグラムは音源分離部302で一度処理するたびに初期化してもよいし(すなわち、P(θ,φ)=0(すべてのθ、φに対して)としてもよいし)、音源分離を一度行うたびに、P(θ,φ)←αP(θ,φ)(αは0以上1以下の定数)といったように忘却係数αを乗算することで、過去の情報をゆっくりと忘れる構成としてもよい。 Returning to FIG. 3, the histogram update unit 305 generates a histogram P (θ) of the noise arrival direction from the converted sound source position information. Here, θ is a sound source azimuth angle. The histogram may be a two-dimensional histogram of azimuth angle θ and elevation angle φ in the form of P (θ, φ). Here, the sound source direction of the i-th separated signal is defined as an azimuth angle θ i and an elevation angle φ i . Each time there is an incoming noise, the value 1 is added to the histogram P (θ i , φ i ) corresponding to the incoming noise θ i , φ i . Further, the average power of the i-th separated signal or a function of power may be added to P (θ i , φ i ). The histogram may be initialized every time processing is performed by the sound source separation unit 302 (that is, P (θ, φ) = 0 (for all θ and φ)), or sound source separation may be performed. Each time it is done, the past information is slowly forgotten by multiplying it with a forgetting factor α such as P (θ, φ) ← αP (θ, φ) (α is a constant between 0 and 1). Good.

出力係数決定部306は、得られたヒストグラムP(θ,φ)の情報からスピーカ出力係数を決定する。ヒストグラムの値が大きいほど、雑音が大きい方向と考えられる。スピーカ出力係数は、得られたヒストグラムP(θ,φ)の値が大きい方向との方向の異なりが大きい方向にスピーカ出力音が定位されるように制御する。つまり、ヒストグラムP(θ,φ)の値が大きい方向とは、雑音が聞こえる頻度が大きく、雑音が大きいと見なせる方向であるから、本実施形態では、この雑音が大きいと見なせる方向を避けて、雑音が聞こえる方向とは異なる方向(典型的には、反対方向)から所望の音が聞こえるように、スピーカ出力音が定位するようにする。   The output coefficient determination unit 306 determines a speaker output coefficient from the information of the obtained histogram P (θ, φ). The greater the value of the histogram, the greater the noise. The speaker output coefficient is controlled so that the speaker output sound is localized in the direction in which the difference in direction from the direction in which the value of the obtained histogram P (θ, φ) is large. That is, the direction in which the value of the histogram P (θ, φ) is large is a direction in which noise is heard frequently and the noise can be regarded as large. In this embodiment, avoiding the direction in which the noise can be regarded as large, The speaker output sound is localized so that a desired sound can be heard from a direction different from the direction in which noise is heard (typically, the opposite direction).

図5は、本実施形態で設定した出力係数を出力ソースに重畳して、スピーカ112から出力する構成を示したブロック図である。
本実施形態で設定された出力係数記憶部401は、不揮発性メモリ205または揮発性メモリ204上に確保される。出力ソース取得部403は、オーディオやハンズフリー通話の出力音などの原信号を取得する。そして、スピーカ出力部402は、出力するスピーカ112ごとに、出力係数記憶部401に蓄えられている出力係数を重畳して、出力を行う。出力係数は、単なる音量値でもよいし、FIR(Finite Impulse Response)フィルタまたは、短時間フーリエ変換により時間周波数領域に変換した後、周波数ごとに出力係数を設定し、時間周波数領域に戻して出力するような構成を採ってもよい。
FIG. 5 is a block diagram showing a configuration in which the output coefficient set in the present embodiment is superimposed on the output source and output from the speaker 112.
The output coefficient storage unit 401 set in the present embodiment is secured on the nonvolatile memory 205 or the volatile memory 204. The output source acquisition unit 403 acquires original signals such as audio and output sound of a hands-free call. And the speaker output part 402 superimposes the output coefficient stored in the output coefficient memory | storage part 401 for every speaker 112 to output, and outputs it. The output coefficient may be a simple volume value, or after being converted into the time-frequency domain by an FIR (Finite Impulse Response) filter or short-time Fourier transform, an output coefficient is set for each frequency, and the output is returned to the time-frequency domain. You may take such a structure.

図6は、図3の音源位置変換部304の詳細な構成を示すブロック図である。
音源位置推定部303が推定した各音源のマイクロホンアレイ101の位置からみた相対的な音源位置P=(x,y,z)T(肩字のTは、ベクトル・行列の転置であることを示す。)が、音源位置変換部304へ入力となる。
マイク位置データベース504には、マイクロホンアレイ101の車室11内における空間的位置p2(x2,y2,z2)Tが記載されているものとする。ユーザ位置抽出部502は、車室11内におけるユーザ聴取位置の空間的位置pu=(xu,yu,zu)Tを取得する。座席センサ208などにより検出した乗員/同乗者の位置からユーザ聴取位置を決めてもよいし、予めユーザ聴取位置を運転席12(図1参照)に固定するなどしてプリセットしておいてもよい。変換ベクトル生成部503では、ユーザ聴取位置puとマイクロホンアレイ101の空間的位置p2の差b=p2−puを計算する。変換ベクトル加算部505では推定したマイクロホンアレイ位置での音源位置Pにbを加算したP´=P+bを得る。P´は、ユーザ聴取位置から見た音源の相対的な位置となる。
FIG. 6 is a block diagram showing a detailed configuration of the sound source position conversion unit 304 in FIG.
Relative sound source position P = (x, y, z) T as seen from the position of the microphone array 101 of each sound source estimated by the sound source position estimation unit 303 (the superscript T indicates the transposition of a vector / matrix) Is input to the sound source position conversion unit 304.
It is assumed that the microphone position database 504 describes a spatial position p 2 (x 2 , y 2 , z 2 ) T in the passenger compartment 11 of the microphone array 101. The user position extraction unit 502 acquires a spatial position p u = (x u , yu , z u ) T of the user listening position in the passenger compartment 11. The user listening position may be determined from the position of the passenger / passenger detected by the seat sensor 208 or the like, or may be preset by fixing the user listening position to the driver's seat 12 (see FIG. 1) in advance. . The transform vector generator 503 calculates the difference b = p 2 -p u spatial position p 2 of the user listening positions p u and the microphone array 101. The conversion vector addition unit 505 obtains P ′ = P + b by adding b to the sound source position P at the estimated microphone array position. P ′ is a relative position of the sound source viewed from the user listening position.

このように(図4参照)、簡単なベクトル計算によってユーザ聴取位置での音源位置を知ることができる。音源位置変換処理は、音源分離処理を1度実行するごとに、音源分離部302が分離して出力する音源ごとに1回ずつ行ってもよいし、音源分離部302が、音源または周波数ごとに音を分離する場合、音源分離処理を1回行うごとに、音源または周波数ごとに1回ずつ音源位置変換処理を行うようにしてもよい。   In this way (see FIG. 4), the sound source position at the user listening position can be known by simple vector calculation. The sound source position conversion process may be performed once for each sound source separated and output by the sound source separation unit 302 every time the sound source separation process is executed, or the sound source separation unit 302 may be performed for each sound source or frequency. When separating sounds, the sound source position conversion process may be performed once for each sound source or frequency each time the sound source separation process is performed once.

図7は、図3の出力係数決定部306の第1例を詳細に示すブロック図である。
出力係数決定部306は、音源位置変換部304(図3参照)により変換した音源ごとかつ周波数ごとの音源位置から、音源の相対的な方位角θまたは仰角値φを取り出す。これは音源位置(x,y,z)を極座標(rcosθcosφ,rsinθcosφ,sinφ)と見立てて、推定することができる。通常、車室11内では音源はすべて同一水平面上に存在すると仮定しても実用上問題がないと考えられるため、φ=0としてもよい。
FIG. 7 is a block diagram showing in detail a first example of the output coefficient determination unit 306 in FIG.
The output coefficient determination unit 306 extracts the relative azimuth angle θ or elevation angle value φ of the sound source from the sound source position for each sound source and for each frequency converted by the sound source position conversion unit 304 (see FIG. 3). This can be estimated by regarding the sound source position (x, y, z) as polar coordinates (r cos θ cos φ, r sin θ cos φ, sin φ). Usually, even if it is assumed that all the sound sources are present on the same horizontal plane in the passenger compartment 11, it may be considered that there is no practical problem, so φ = 0 may be set.

方向行列計算部602は、抽出した音源ごとかつ周波数ごとの音源方向(θ)または(θ,φ)から、前記した方法で、音源方向ごとの頻度を示すヒストグラムP(θ)またはヒストグラムP(θ,φ)を生成する。   The direction matrix calculation unit 602 uses a histogram P (θ) or a histogram P (θ indicating the frequency for each sound source direction from the extracted sound source directions (θ) or (θ, φ) for each frequency in the manner described above. , φ).

図8は、本発明の第1実施形態で生成されるヒストグラムP(θ)の一例である。
音源方向θごとに、音源の頻度PがヒストグラムP(θ)上に得られる。
FIG. 8 is an example of the histogram P (θ) generated in the first embodiment of the present invention.
For each sound source direction θ, the frequency P of the sound source is obtained on the histogram P (θ).

ここで、以後の説明で用いるステアリングベクトルを定義する。音源位置pに存在する周波数fの音が各マイクロホン102に到達するまでの位相の遅延量を要素に持つベクトルap(f)を、次の式(1)で定義する。 Here, a steering vector used in the following description is defined. A vector a p (f) whose element is a phase delay amount until the sound of the frequency f existing at the sound source position p reaches each microphone 102 is defined by the following equation (1).

Figure 0005405130
Figure 0005405130

ここで、jは虚数単位を表すものとする。ここで、Mはマイクロホン102の数とする。   Here, j represents an imaginary unit. Here, M is the number of microphones 102.

人間の両耳を2つのマイクロホン102と見立てると、音源位置pから両耳に音が届くまでの位相の遅延量もap(f)で表すことができる。本実施形態においては、ap(f)のマイクロホン102間で共通の遅延量は特に意味をもたないため、ap(f)は必ずしも、音源位置からの遅延量として定義する必要はなく、基準のマイクロホン102からの遅延量として定義してもよい。本実施形態では、1番目のマイクロホン102を基準のマイクロホン102として遅延量Tp,m(f)を次の式(2)で定義する。tm(p)は音源位置pの音がm番目のマイクロホン102まで届くまでの時間とする。 If the human ears are regarded as two microphones 102, the amount of phase delay until the sound reaches the ears from the sound source position p can also be expressed as a p (f). In this embodiment, since the delay amount common between the microphones 102 of a p (f) has no particular meaning, a p (f) does not necessarily need to be defined as the delay amount from the sound source position. It may be defined as a delay amount from the reference microphone 102. In the present embodiment, the delay amount T p, m (f) is defined by the following equation (2) using the first microphone 102 as a reference microphone 102. t m (p) is the time until the sound at the sound source position p reaches the m-th microphone 102.

Figure 0005405130
Figure 0005405130

人間の両耳のようにマイクロホン102が直線上に並んでいると仮定し、音源位置pがマイクロホン間隔に対して十分遠い距離に存在すると仮定すると、Tp,m(f)は、次の式(3)で近似することができる。 Assuming that the microphones 102 are aligned in a straight line like both human ears, and assuming that the sound source position p exists at a distance sufficiently far from the microphone interval, T p, m (f) is given by It can be approximated by (3).

Figure 0005405130
Figure 0005405130

ここで、dmはm番目のマイクロホン102と1番目のマイクロホン102の間の距離とする。cは音速であり、常温で340[m/s]程度となるため、通常この値に設定する。θは、マイクロホンアレイ101を構成する直線に対して直交する平面に対して、マイクロホンアレイ101と音源位置pを結んだ直線が成す角とする。これをマイクロホンアレイ101の位置から見た相対的な方位角とする。マイクロホンアレイ101が直線配置以外の場合は、Tp,m(f)はより複雑な形となるが、いずれにせよマイクロホンアレイ101の幾何学配置が既知であれば、単純な幾何学計算により求めることができる。本実施形態では、マイクロホンアレイ101の幾何学配置はあらかじめ不揮発性メモリ205(図2参照)に記憶されているとし、その情報を利用してステアリングベクトルを生成するものとする。 Here, d m is the distance between the m-th microphone 102 and the first microphone 102. Since c is the speed of sound and is about 340 [m / s] at room temperature, it is usually set to this value. θ is an angle formed by a straight line connecting the microphone array 101 and the sound source position p with respect to a plane orthogonal to the straight line constituting the microphone array 101. This is a relative azimuth angle viewed from the position of the microphone array 101. When the microphone array 101 is other than the linear arrangement, T p, m (f) has a more complicated shape. However, if the geometric arrangement of the microphone array 101 is known anyway, it is obtained by simple geometric calculation. be able to. In the present embodiment, it is assumed that the geometric arrangement of the microphone array 101 is stored in advance in the nonvolatile memory 205 (see FIG. 2), and the steering vector is generated using the information.

図7に戻り、方向行列計算部602は、ヒストグラムP(θ)またはヒストグラムP(θ,φ)を使って次の式(4)で定義されるマイクロホンアレイ101の位置での雑音共分散行列推定値Rn(f)を計算する。 Returning to FIG. 7, the direction matrix calculation unit 602 estimates the noise covariance matrix at the position of the microphone array 101 defined by the following equation (4) using the histogram P (θ) or the histogram P (θ, φ). The value R n (f) is calculated.

Figure 0005405130
Figure 0005405130

ここでJはヒストグラムの分割数とする。Jは各分割された格子として、θjは格子jの方位角、φjは格子jの仰角とする。nj(f)は格子jの位置に音源が存在すると仮定した時のユーザ聴取位置から見たステアリングベクトルとする。つまりRn(f)はヒストグラムの頻度が大きいところの影響が大きくなるように設定した行列となる。 Here, J is the number of histogram divisions. J is each divided lattice, θ j is the azimuth angle of the lattice j, and φ j is the elevation angle of the lattice j. n j (f) is a steering vector viewed from the user listening position when it is assumed that a sound source exists at the position of the grid j. That is, R n (f) is a matrix that is set so as to increase the influence of the histogram having a high frequency.

さらにH(f)を次の式(5)で定義する。   Further, H (f) is defined by the following equation (5).

Figure 0005405130
Figure 0005405130

ここで、Lはスピーカ素子数とする。hi(f)はi番目のスピーカ位置に音源があると仮定した時のユーザ聴取位置から見たステアリングベクトルとする。 Here, L is the number of speaker elements. h i (f) is a steering vector viewed from the user listening position when it is assumed that there is a sound source at the i-th speaker position.

H(f)とRn(f)を用いて、行列A(f)を、次の式(6)で求める。 Using H (f) and R n (f), a matrix A (f) is obtained by the following equation (6).

Figure 0005405130
Figure 0005405130

ユーザ聴取位置が複数存在する場合は、次の式(7)のようにユーザ聴取位置ごとに雑音共分散行列Ri,n(f)と、スピーカ112のステアリングベクトルからなる行列Hi(f)を用いてA(f)を構成してもよい。 When there are a plurality of user listening positions, a matrix H i (f) composed of a noise covariance matrix R i, n (f) and a steering vector of the speaker 112 for each user listening position as shown in the following equation (7). A (f) may be configured using

Figure 0005405130
Figure 0005405130

A(f)をこのような構成にすることで、複数の聴取位置で聞き取りやすいスピーカ出力音を得ることができる。   By configuring A (f) in this way, it is possible to obtain speaker output sound that is easy to hear at a plurality of listening positions.

固有値・ベクトル計算部603では、A(f)の最小固有値を与える固有ベクトルS(f)を求める。S(f)はスピーカ素子数分の要素数を持つ。ここで、S(f)の各要素を各スピーカ素子の伝達関数に重畳して、すべてのスピーカ112から同時に音を放射した場合、放射音の合成波面のステアリングベクトルはH(f)S(f)となる。H(f)S(f)は雑音のステアリングベクトルとの異なりが最大となるステアリングベクトルになる。   The eigenvalue / vector calculation unit 603 obtains an eigenvector S (f) that gives the minimum eigenvalue of A (f). S (f) has as many elements as the number of speaker elements. Here, when each element of S (f) is superimposed on the transfer function of each speaker element and sound is radiated simultaneously from all the speakers 112, the steering vector of the synthesized wavefront of the radiated sound is H (f) S (f ). H (f) S (f) is a steering vector having a maximum difference from the noise steering vector.

最小コスト係数算出部604は、求めた周波数ごとのスピーカ出力係数S(f)をスピーカ(素子)112ごとに逆フーリエ変換して時間領域のスピーカ出力係数S(t)を求める。S(t)はFIRフィルタとみなせるため、S(t)をスピーカ112から出力する時間領域の音に畳みこむことで周波数ごとのステアリングベクトルがH(f)S(f)となる合成波面を得ることができる。またS(f)を得るために、次の式(8)で定義される雑音のステアリングベクトルとの異なりが最大となる音源位置pminを得た後、その次の式(9)でS(f)を求めてもよい。 The minimum cost coefficient calculation unit 604 obtains the speaker output coefficient S (t) in the time domain by performing inverse Fourier transform on the obtained speaker output coefficient S (f) for each frequency for each speaker (element) 112. Since S (t) can be regarded as an FIR filter, by convolving S (t) with the time-domain sound output from the speaker 112, a combined wavefront in which the steering vector for each frequency becomes H (f) S (f) is obtained. be able to. Further, in order to obtain S (f), after obtaining the sound source position p min where the difference from the noise steering vector defined by the following equation (8) is maximized, S (f) is obtained by the following equation (9). f) may be obtained.

Figure 0005405130
Figure 0005405130

Figure 0005405130
Figure 0005405130

このようにして求めた合成波面のステアリングベクトルH(f)S(f)は定義される音源位置pminのステアリングベクトルと完全に一致するとともに、出力係数S(f)が最小となるようなものとなる。 The resultant wavefront steering vector H (f) S (f) thus obtained completely coincides with the steering vector at the defined sound source position p min and the output coefficient S (f) is minimized. It becomes.

図9は、推定した雑音の音源位置とユーザ位置及びユーザ位置から見たスピーカ合成波面の定位方向の一例を示す説明図である。
本発明では、このように合成波面の方向を雑音の音源位置との異なりが大きい方向に設定することが可能となる。
FIG. 9 is an explanatory diagram illustrating an example of the estimated noise source position, the user position, and the localization direction of the speaker composite wavefront viewed from the user position.
In the present invention, it is possible to set the direction of the combined wavefront in such a way that the difference from the noise source position is large.

図10は、出力係数決定部306の第2例を詳細に示すブロック図である。
この出力係数決定部306は、複数のスピーカ112の中から雑音とのステアリングベクトルの違いが最も大きいスピーカ(素子)112を選択する構成を有している。
FIG. 10 is a block diagram illustrating in detail a second example of the output coefficient determination unit 306.
The output coefficient determination unit 306 has a configuration that selects a speaker (element) 112 having the largest difference in steering vector from noise from a plurality of speakers 112.

この第2例の方向行列計算部702は、図7に示す第1例の方向行列計算部602と同様に、Rn(f)を計算する。
スピーカ内積計算部703は、次の式(10)で定義される各スピーカ(素子)112のステアリングベクトルとRn(f)との内積計算を行う。
The direction matrix calculation unit 702 of the second example calculates R n (f) in the same manner as the direction matrix calculation unit 602 of the first example shown in FIG.
The speaker inner product calculation unit 703 calculates the inner product of the steering vector of each speaker (element) 112 defined by the following equation (10) and R n (f).

Figure 0005405130
Figure 0005405130

最小コスト係数算出部704は、次の式(11)により内積値が最小となるスピーカ(素子)112を選択する。   The minimum cost coefficient calculation unit 704 selects the speaker (element) 112 having the smallest inner product value according to the following equation (11).

Figure 0005405130
Figure 0005405130

図11は、変形例の方向行列計算部801を示すブロック図である。
この方向行列計算部801は、図10に示す方向行列計算部702に、同乗者位置推定部802および既知雑音位置803が付加された構成である。したがって、この方向行列計算部801は、音源分離により検出した音源の情報のみから雑音共分散行列Rn(f)を生成するのではなく、同乗者位置推定部802からの乗員/同乗者の情報やワイパー音、エンジン音など予め既知の音源の情報を表す既知雑音位置803も用いてRn(f)を生成する構成を有している。
FIG. 11 is a block diagram illustrating a directional matrix calculation unit 801 according to a modification.
The directional matrix calculation unit 801 has a configuration in which a passenger position estimation unit 802 and a known noise position 803 are added to the directional matrix calculation unit 702 shown in FIG. Therefore, the directional matrix calculation unit 801 does not generate the noise covariance matrix R n (f) only from the sound source information detected by sound source separation, but the occupant / passenger information from the passenger position estimation unit 802. R n (f) is also generated using a known noise position 803 that represents information of a known sound source such as a wiper sound and an engine sound.

同乗者位置推定部802は、座席センサ208(図2参照)の情報から乗員/同乗者が座っている位置を検出し、その位置を仮想的な雑音音源位置とみなして、雑音の方向ヒストグラムP(θ)に追加する。追加する頻度値はあらかじめ定めた値を入力する。既知雑音位置803はワイパー音やエンジン音などの既知の音源位置をプリセットしておいたものを読み出し、雑音の方向ヒストグラムP(θ)に追加する。方向行列計算部801では、ユーザ聴取位置への変換後の雑音の音源位置と乗員位置/同乗者位置及び既知雑音位置の情報から作られた雑音の方向ヒストグラムP(θ)から雑音の共分散行列Rn(f)を生成し、Rn(f)を出力する。 The passenger position estimation unit 802 detects the position where the occupant / passenger is sitting from the information of the seat sensor 208 (see FIG. 2), regards the position as a virtual noise source position, and determines the noise direction histogram P. Add to (θ). The frequency value to be added is a predetermined value. The known noise position 803 reads out preset sound source positions such as wiper sounds and engine sounds, and adds them to the noise direction histogram P (θ). In the direction matrix calculation unit 801, the noise covariance matrix is obtained from the noise source histogram and the noise direction histogram P (θ) generated from the information of the occupant position / passenger position and the known noise position after the conversion to the user listening position. R n (f) is generated and R n (f) is output.

図12は、図3の音源分離部302を詳細に示すブロック図である。
各マイクロホン(素子)102で受音したデジタル音圧波形は、バッファリング部901に送られる。
バッファリング部901は、マイクロホン(素子)102ごとに例えば数秒間データが溜められ、データが溜まる度に後段処理にデータを出力する。
短時間周波数変換部902は、バッファリング部901の出力信号を例えば数十[ms]ごとに処理する。処理の単位をフレームと呼び、1フレームで処理するマイクロホン(素子)102ごとのポイント数をフレームサイズLframeと呼ぶ。1フレームごとに処理を開始する位置をフレームシフトLshift分ずつずらす。つまりτ番目のフレームで処理するデータはτ*Lshiftポイントからτ*Lshift+Lframeである。フレームごとにデータを短時間フーリエ変換により周波数領域に変換する。m番目のマイクロホン素子について、フレームτでの周波数f成分をxm(f,τ)と表記する。短時間フーリエ変換に先立って、直流成分カット、窓関数重畳などの処理を波形(信号)に施してもよい。窓関数としてはハミング窓やハニング窓、ブラックマン窓などが適用可能である。
FIG. 12 is a block diagram showing in detail the sound source separation unit 302 of FIG.
The digital sound pressure waveform received by each microphone (element) 102 is sent to the buffering unit 901.
The buffering unit 901 stores data for several seconds for each microphone (element) 102, for example, and outputs the data to subsequent processing each time data is stored.
The short-time frequency conversion unit 902 processes the output signal of the buffering unit 901, for example, every several tens [ms]. The unit of processing is called a frame, and the number of points for each microphone (element) 102 processed in one frame is called a frame size Lframe. The processing start position is shifted by one frame shift Lshift every frame. That is, the data to be processed in the τ-th frame is τ * Lshift + Lframe from the τ * Lshift point. Data is converted into the frequency domain by short-time Fourier transform for each frame. For the m-th microphone element, the frequency f component in the frame τ is expressed as x m (f, τ). Prior to the short-time Fourier transform, processing such as DC component cut and window function superposition may be performed on the waveform (signal). As the window function, a Hamming window, Hanning window, Blackman window, or the like can be applied.

フィルタ適応部903では音源分離に必要なフィルタを周波数fごとに適応処理する。
フィルタリング部904では、フィルタ適応部903で適応した音源分離フィルタを使って、フレームごと、周波数ごとに音を音源ごとに分離する。ここで、ベクトルX(f,τ)を[x1(f,τ),x2(f,τ),…,xM(f,τ)]Tで定義する。つまり、X(f,τ)は、フレームτ、周波数fのすべてのマイクロホン(素子)102の信号を要素に持つベクトルとなる。X(f,τ)から音源分離フィルタWを使って、次の式(12)で分離信号を得る。
A filter adaptation unit 903 adaptively processes a filter necessary for sound source separation for each frequency f.
The filtering unit 904 uses the sound source separation filter adapted by the filter adaptation unit 903 to separate sound for each sound source for each frame and each frequency. Here, the vector X (f, τ) is defined by [x 1 (f, τ), x 2 (f, τ),..., X M (f, τ)] T. That is, X (f, τ) is a vector having elements of signals of all microphones (elements) 102 of frame τ and frequency f. Using the sound source separation filter W from X (f, τ), a separation signal is obtained by the following equation (12).

Figure 0005405130
Figure 0005405130

ここでベクトルy(f,τ)の各要素は、各分離信号の時間τ、周波数f成分に相当する。フィルタリング部904が出力する分離信号は、パワー正規化部905で、時間τ、周波数fごとに、
norm(f,τ)←y(f,τ)/|y(f,τ)|
で正規化される。つまりynorm(f,τ)のパワーは0から1までの値をとる。棄却判定部906では、正規化したパワーのフレーム平均値が閾値より小さい音源・周波数成分については、背景雑音成分と見直して音源分離結果から外し、閾値以上の成分についてのみ音源・周波数成分を出力する。出力の際、音源ごとに短時間フーリエ逆変換をかけて、時間領域の波形に戻した後、出力してもよい。
Here, each element of the vector y (f, τ) corresponds to a time τ and a frequency f component of each separated signal. The separated signal output from the filtering unit 904 is the power normalization unit 905, for each time τ and frequency f.
y norm (f, τ) ← y (f, τ) / | y (f, τ) |
Normalized by. That is, the power of y norm (f, τ) takes a value from 0 to 1. Rejection determination section 906 reexamines the sound source / frequency component whose normalized power frame average value is smaller than the threshold as a background noise component, removes it from the sound source separation result, and outputs the sound source / frequency component only for the component equal to or higher than the threshold. . At the time of output, each sound source may be subjected to a short-time inverse Fourier transform to return to a time domain waveform and then output.

図13は、音源分離フィルタWの適応処理を示すフローチャートである。
音源分離フィルタWの値が十分収束したかどうかを判定する(収束判定;ステップS1001)。フィルタ更新回数が所定回数に達した場合収束したと判定してもよいし、後述する非線形共分散行列の非対角項のパワーが対角項のパワーに対してあらかじめ定める値以下になった場合に収束したと判定してもよい。
FIG. 13 is a flowchart showing an adaptation process of the sound source separation filter W.
It is determined whether or not the value of the sound source separation filter W has sufficiently converged (convergence determination; step S1001). When the filter update count reaches the predetermined number, it may be determined that the filter has converged, or when the power of the non-diagonal term of the nonlinear covariance matrix described later is equal to or less than a predetermined value with respect to the power of the diagonal term It may be determined that it has converged.

収束したと判定されれば(ステップS1001のYes)、処理を終了し、音源分離フィルタWを出力する。
収束したと判定されなければ(ステップS1001のNo)、次のステップへ進む。
If it determines with having converged (Yes of step S1001), a process will be complete | finished and the sound source separation filter W will be output.
If it is not determined that it has converged (No in step S1001), the process proceeds to the next step.

処理開始位置をバッファリング部901が取り込んだ波形の先頭にセットする。また後記するR(f)を0クリアする(初期化;ステップS1002)。   The processing start position is set at the beginning of the waveform fetched by the buffering unit 901. Further, R (f) described later is cleared to 0 (initialization; step S1002).

処理開始位置がバッファリング部901が取り込んだ波形の終了位置以下かどうかを判定する(i≦length?判定、ステップS1003)。   It is determined whether or not the processing start position is equal to or less than the end position of the waveform captured by the buffering unit 901 (i ≦ length? Determination, step S1003).

処理開始位置が波形の終了位置に達していない場合(ステップS1003のNo)、フレームごと、周波数ごとのX(f,τ)をフィルタリング処理して、音源分離音y(f,τ)を得る(フィルタリング;ステップS1004)。   When the processing start position does not reach the end position of the waveform (No in step S1003), X (f, τ) for each frame and frequency is filtered to obtain a sound source separated sound y (f, τ) ( Filtering; step S1004).

ここで、得た音源分離音は、適応中の音源分離フィルタにより分離した波形であるため、分離が不十分であると考えられる。そこで、R(f)を、次の式(13)で更新する(共分散更新;ステップS1005)。   Here, since the obtained sound source separation sound is a waveform separated by the sound source separation filter being applied, it is considered that the separation is insufficient. Therefore, R (f) is updated by the following equation (13) (covariance update; step S1005).

Figure 0005405130
Figure 0005405130

ここでφ(x)は音源の確率分布の微分関数に相当する関数であり、次の式(14)で定義する。   Here, φ (x) is a function corresponding to the differential function of the probability distribution of the sound source and is defined by the following equation (14).

Figure 0005405130
Figure 0005405130

R(f)は非線形共分散行列と呼び、この非対角項が0に近づくほど、分離した各音源が独立になっていることを意味する。対角項は各音源の大きさに相当する。したがって、非対角項と対角項の比が重要になる。分離フィルタの収束判定ではこの比をチェックし、収束判定してもよい。   R (f) is called a nonlinear covariance matrix and means that the separated sound sources become independent as the off-diagonal term approaches zero. The diagonal term corresponds to the size of each sound source. Therefore, the ratio of off-diagonal terms and diagonal terms becomes important. In the convergence determination of the separation filter, this ratio may be checked to determine the convergence.

次に、波形の処理開始位置をフレームシフトLshift分加算する(変数更新;ステップS1007)。
そして、ステップS1003以降の処理を繰り返す。
Next, the processing start position of the waveform is added by the frame shift Lshift (variable update; step S1007).
Then, the processes after step S1003 are repeated.

波形処理開始地点がバッファリング部901で取り込んだ波形の終了地点に達している場合(ステップS1003のNo)、ステップS1006に処理を移す。   When the waveform processing start point has reached the end point of the waveform captured by the buffering unit 901 (No in step S1003), the process proceeds to step S1006.

次の式(15)で分離フィルタを更新する(フィルタ更新;ステップS1006)。   The separation filter is updated by the following equation (15) (filter update; step S1006).

Figure 0005405130
Figure 0005405130

ηはフィルタ更新速度を制御するための変数であり、大きいほどフィルタ収束速度は上がるが、フィルタが発散する可能性が大きくなる。小さいほどフィルタ収束速度は遅いが、フィルタが発散する可能性は低くなる。
そして、ステップS1001以降の処理を繰り返す。
η is a variable for controlling the filter update rate. The larger the value, the higher the filter convergence rate, but the greater the possibility that the filter will diverge. The smaller the value is, the slower the filter convergence speed is, but the possibility that the filter diverges becomes lower.
And the process after step S1001 is repeated.

図14は、図3の音源位置推定部303を詳細に示すブロック図である。
音源分離部302(図3参照)が分離した分離フィルタの逆行列は音源ごとのステアリングベクトルから構成される行列であることが知られている。
逆行列計算部1102は、分離フィルタの逆行列の第i列w(f,τ)−1 iを抽出する。以降のブロックはフレームごと、周波数ごとに実行される。マイクロホンアレイ101は直線配置とする。本実施形態における音源位置推定部303は、マイクロホンアレイ101を構成するマイクロホン(素子)102を2分割する。分割後のマイクロホンアレイ101をサブアレイと呼ぶ。それぞれのサブアレイで音源方向を推定した後、三角測量法により、その音源方向の交点をとることで、方向と距離を知ることができる。
FIG. 14 is a block diagram showing in detail the sound source position estimation unit 303 of FIG.
It is known that the inverse matrix of the separation filter separated by the sound source separation unit 302 (see FIG. 3) is a matrix composed of steering vectors for each sound source.
The inverse matrix calculation unit 1102 extracts the i-th column w (f, τ) −1 i of the inverse matrix of the separation filter. Subsequent blocks are executed for each frame and for each frequency. The microphone array 101 is linearly arranged. The sound source position estimation unit 303 in this embodiment divides the microphone (element) 102 constituting the microphone array 101 into two. The divided microphone array 101 is called a subarray. After estimating the sound source direction in each subarray, the direction and distance can be known by taking the intersection of the sound source directions by triangulation.

2分割したサブアレイで音源方向を推定するので、1つのサブアレイ分割部1103ごとに2つの方向推定部1104を具備し、2つの方向推定部1104の推定結果によって、1つの交点推定部1105は、ひとつの交点を推定することとなる。   Since the sound source direction is estimated using the subarray divided into two, each subarray division unit 1103 includes two direction estimation units 1104, and one intersection estimation unit 1105 includes one direction estimation unit 1105 according to the estimation results of the two direction estimation units 1104. Will be estimated.

分離フィルタの逆行列の第i列は、サブアレイごとに、次の式(16)のように分割される。   The i-th column of the inverse matrix of the separation filter is divided as shown in the following Expression (16) for each subarray.

Figure 0005405130
Figure 0005405130

また音源位置pに音源があると仮定した時のステアリングベクトルも、次の式(17)のようにサブアレイごとに2分割される。   Further, the steering vector when it is assumed that there is a sound source at the sound source position p is also divided into two for each subarray as shown in the following equation (17).

Figure 0005405130
Figure 0005405130

方向推定部1104は、各サブアレイごとに、次の式(18)及び式(19)に基づき、音源方向^θi,1(f,τ)及び音源方向^θi,2(f,τ)を推定する。 The direction estimation unit 1104 generates the sound source direction ^ θ i, 1 (f, τ) and the sound source direction ^ θ i, 2 (f, τ) for each subarray based on the following equations (18) and (19). Is estimated.

Figure 0005405130
Figure 0005405130

Figure 0005405130
Figure 0005405130

交点推定部1105は、各サブアレイの中心位置から見て推定した音源方向に音源が存在すると考え、三角測量により音源方向と距離を推定する。各サブアレイの中心位置間の距離は予め既知であると仮定できるため、三角測量により音源方向と距離の推定は容易に実行可能である。   The intersection point estimation unit 1105 considers that a sound source exists in the sound source direction estimated from the center position of each subarray, and estimates the sound source direction and distance by triangulation. Since it can be assumed that the distance between the center positions of the subarrays is known in advance, the estimation of the sound source direction and the distance can be easily performed by triangulation.

ヒストグラム推定部1106は、周波数ごとに求めた音源方向と距離のヒストグラムを推定し、最もヒストグラムの頻度が大きい音源方向と距離をその音源の方向と距離であると判断し、頻度が大きい音源方向と距離を出力する。   The histogram estimation unit 1106 estimates the histogram of the sound source direction and distance obtained for each frequency, determines the sound source direction and distance with the highest histogram frequency as the direction and distance of the sound source, Output the distance.

図15は、図3の音響エコーキャンセラ307を詳細に示すブロック図である。
スピーカ出力音は空間を伝播し、マイクロホンアレイ101で受音される。本実施形態では、入力音は一義的に雑音であると判定するため、音響エコーキャンセラ307が存在しない場合、マイクロホンアレイ101で受音されたスピーカ出力音は雑音と判断される。したがって、音響エコーキャンセラ307が存在しない場合、スピーカ出力係数を設定する際に、以前のスピーカ出力係数との異なりが大きくなるようにスピーカ出力係数を設定することになり、スピーカ出力係数が安定せず音響出力の定位方向が時々刻々不安定に変化してしまうという問題が起こる。この問題を避けるために、マイクロホンアレイ101で受音されたスピーカ出力音中に含まれるスピーカ出力成分をあらかじめ除去する必要がある。
FIG. 15 is a block diagram showing in detail the acoustic echo canceller 307 of FIG.
The speaker output sound propagates through the space and is received by the microphone array 101. In this embodiment, since the input sound is uniquely determined to be noise, if the acoustic echo canceller 307 is not present, the speaker output sound received by the microphone array 101 is determined to be noise. Therefore, when the acoustic echo canceller 307 is not present, when the speaker output coefficient is set, the speaker output coefficient is set so that the difference from the previous speaker output coefficient is large, and the speaker output coefficient is not stabilized. There is a problem that the localization direction of the sound output changes from time to time in an unstable manner. In order to avoid this problem, it is necessary to remove the speaker output component included in the speaker output sound received by the microphone array 101 in advance.

参照信号取り込み部1501ではスピーカ112からの出力音源信号u(t)を取得する。各スピーカ出力信号はスピーカ112ごとに異なる出力係数Sm(t)を重畳される。出力係数重畳部1503ではu(t)にSm(t)を次の式(20)で畳みこむ。 The reference signal capturing unit 1501 acquires the output sound source signal u (t) from the speaker 112. Each speaker output signal is superimposed with a different output coefficient S m (t) for each speaker 112. The output coefficient superimposing unit 1503 convolves S m (t) with u (t) by the following equation (20).

Figure 0005405130
Figure 0005405130

畳み込み後の信号をum(t)とする。ここでum(t)は後段のエコー量推定フィルタと同じ長さを持つベクトルとし、畳み込み後の信号が時間という観点で新しいものから順番に並んでいるベクトルとする。um(t)をマイクロホンmの音響エコーキャンセラ307の参照信号として使用する。 The signal after convolution is defined as u m (t). Here, u m (t) is a vector having the same length as that of the subsequent echo amount estimation filter, and is a vector in which signals after convolution are arranged in order from the newest in terms of time. u m (t) is used as a reference signal of the acoustic echo canceller 307 of the microphone m.

入力信号バッファリング部1502は、入力信号を所定時間分バッファリングし、後段へ出力する。   The input signal buffering unit 1502 buffers the input signal for a predetermined time and outputs it to the subsequent stage.

フィルタリング部1504は、参照信号にエコー量推定フィルタgmを畳みこむ。
エコー消去部1506は、推定したエコー量をマイクロホン入力信号xm(t)から引くことで、エコー消去後の信号em(t)を次の式(21)のように得る。
The filtering unit 1504 convolves the echo amount estimation filter g m with the reference signal.
Echo canceling unit 1506, by subtracting the estimated echo value from the microphone input signal x m (t), obtained signal after echo cancellation e m (t), as in the following equation (21).

Figure 0005405130
Figure 0005405130

フィルタ更新部1505は、エコー消去後の信号を0に近づけるようにエコー量推定フィルタgmを次の式(22)に定義されるようにして更新する。 The filter update unit 1505 updates the echo amount estimation filter g m as defined by the following equation (22) so that the signal after echo cancellation approaches 0.

Figure 0005405130
Figure 0005405130

ここでμはフィルタ更新係数で0から1までの値をとる。エコー消去部1506で出力したエコー消去後の信号を音響エコーキャンセラ307による処理済の出力信号として出力する。   Here, μ is a filter update coefficient and takes a value from 0 to 1. The signal after echo cancellation output from the echo cancellation unit 1506 is output as an output signal processed by the acoustic echo canceller 307.

図16は、本発明による第1実施形態のソフトウェアブロックとハードウェアとの関連性を示す説明図である。
複数のマイクロホン102から構成されるマイクロホンアレイ101で取り込んだアナログ音圧値は、A/D変換装置1602内に配置されるA/D変換処理部1602aによりデジタル音圧値に変換される。
変換されたデジタル音圧値は、中央演算装置203に送られて各種デジタル信号処理を施される。波形取り込み部1603a(図3の波形取り込み部301に対応)はデジタル音圧波形を取り込んでバッファリングする。
音響エコーキャンセラ1603b(図3の音響エコーキャンセラ307に対応)は取り込んだデジタル音圧波形中のスピーカ出力信号成分を消去する。
エコー消去後の信号は、音源分離部1603d(図3の音源分離部302に対応)に送られ、音源ごとに分離される。
音源位置推定部1603e(図3の音源位置推定部303に対応)は、音源ごとの音源位置を推定する。推定した音源位置はマイクロホンアレイ位置から見た音源位置となる。
音源位置変換部1603f(図3の音源位置変換部304に対応)は、マイクロホンアレイ位置から見た音源位置をユーザ聴取位置から見た音源方向に変換する。
出力係数決定部1603gは、ユーザ聴取位置から見た音源方向とスピーカ出力音の合成波面のユーザ聴取位置での音源方向の異なりが最大となるようにスピーカ出力係数を決定する。
音声再生部1603cは、決定したスピーカ112ごとの出力係数を出力音に畳み込む。ここまでのデジタル信号処理で必要なワークメモリ及びマイク配置等の事前情報は不揮発性メモリ205、揮発性メモリ204(図2参照)に記憶される。
D/A変換装置1604内に配置されるD/A変換処理部1604aは、音声再生部1603cが出力するデジタル信号をアナログ信号に変換する。
このアナログ信号は複数のスピーカ112からなるスピーカアレイ111に送られ、各スピーカ112から音響信号として出力され空中に放射される。
FIG. 16 is an explanatory diagram showing the relationship between software blocks and hardware according to the first embodiment of the present invention.
An analog sound pressure value captured by the microphone array 101 including a plurality of microphones 102 is converted into a digital sound pressure value by an A / D conversion processing unit 1602a disposed in the A / D conversion device 1602.
The converted digital sound pressure value is sent to the central processing unit 203 and subjected to various digital signal processing. A waveform capturing unit 1603a (corresponding to the waveform capturing unit 301 in FIG. 3) captures and buffers the digital sound pressure waveform.
The acoustic echo canceller 1603b (corresponding to the acoustic echo canceller 307 in FIG. 3) deletes the speaker output signal component in the captured digital sound pressure waveform.
The signal after echo cancellation is sent to a sound source separation unit 1603d (corresponding to the sound source separation unit 302 in FIG. 3), and is separated for each sound source.
A sound source position estimation unit 1603e (corresponding to the sound source position estimation unit 303 in FIG. 3) estimates a sound source position for each sound source. The estimated sound source position is the sound source position viewed from the microphone array position.
A sound source position converter 1603f (corresponding to the sound source position converter 304 in FIG. 3) converts the sound source position viewed from the microphone array position into the sound source direction viewed from the user listening position.
The output coefficient determination unit 1603g determines the speaker output coefficient so that the difference between the sound source direction viewed from the user listening position and the sound source direction at the user listening position on the synthesized wavefront of the speaker output sound is maximized.
The audio reproduction unit 1603c convolves the determined output coefficient for each speaker 112 with the output sound. Prior information such as work memory and microphone arrangement necessary for the digital signal processing so far is stored in the nonvolatile memory 205 and the volatile memory 204 (see FIG. 2).
A D / A conversion processing unit 1604a disposed in the D / A conversion device 1604 converts the digital signal output from the audio reproduction unit 1603c into an analog signal.
The analog signal is sent to a speaker array 111 including a plurality of speakers 112, and is output as an acoustic signal from each speaker 112 and radiated into the air.

図17は、本実施形態において音楽などのオーディオ出力音の出力方法を制御する構成を示すブロック図である。
スピーカ出力係数決定部1701は、前記したように、スピーカ合成波面のユーザ聴取位置での音源方向と雑音方向との異なりが最大となるようにスピーカ出力係数を決定する。
FIG. 17 is a block diagram showing a configuration for controlling an output method of audio output sound such as music in the present embodiment.
As described above, the speaker output coefficient determination unit 1701 determines the speaker output coefficient so that the difference between the sound source direction and the noise direction at the user listening position of the speaker composite wavefront is maximized.

オーディオソース取得部1702では、コンパクトディスクプレーヤなどの再生機器から再生音を取得する。オーディオ再生1703では、取得した再生音にスピーカ112ごとの出力係数を重畳した後、各スピーカ112から出力し、空中に放射する。また出力係数を雑音方向が変化するたびに、常に変化させると、かえって聞き取りにくい音になってしまう可能性がある。少なくとも同一ソース、例えば同じ音楽の曲を流している間は出力係数は変えないことが望まれる。   The audio source acquisition unit 1702 acquires playback sound from a playback device such as a compact disc player. In the audio reproduction 1703, the output coefficient for each speaker 112 is superimposed on the acquired reproduction sound, and then output from each speaker 112 and radiated into the air. Moreover, if the output coefficient is constantly changed every time the noise direction changes, the sound may be difficult to hear. It is desirable that the output coefficient is not changed at least while playing the same source, for example, music of the same music.

図18は、出力係数決定タイミングを決める処理を示すフローチャートである。
まず、出力音のソースが変更されたかどうかを判定する(ソース変更判定;ステップS2001)。これは、音楽の場合は再生曲が終了したかどうかをオーディオ機器に問い合わせることで実現可能である。
FIG. 18 is a flowchart showing a process for determining the output coefficient determination timing.
First, it is determined whether or not the source of the output sound has been changed (source change determination; step S2001). In the case of music, this can be realized by inquiring of the audio device whether or not the reproduced music has been completed.

ソースが変更されている場合(ステップS2001のYes)、スピーカ出力係数を変更し(出力係数変更;ステップS2002)、次のステップ(ステップS2003)へ進む。
なお、出力係数変更(ステップS2002)では、更新したヒストグラムからスピーカ出力係数を決定する。
If the source has been changed (Yes in step S2001), the speaker output coefficient is changed (output coefficient change; step S2002), and the process proceeds to the next step (step S2003).
In the output coefficient change (step S2002), the speaker output coefficient is determined from the updated histogram.

ソースが変更されていない場合(ステップS2001のNo)、および出力係数を変更した後は、次の時間の波形を取り込む(波形取り込み;ステップS2003)。   If the source has not been changed (No in step S2001), and after changing the output coefficient, the waveform of the next time is captured (waveform capture; step S2003).

取り込んだ波形は音響エコーキャンセラ307に送られ、音響エコー成分が消去される(ステップS2004)。
次に、音源ごとに分離される(音源分離;ステップS2005)。
そして、音源ごとのマイクロホン位置での音源位置が推定される(音源位置変換推定;ステップS2006)。
そして、ユーザ聴取位置での音源方向が算出される(音源位置変換;ステップS2007)。
そして、ユーザ聴取位置での音源方向のヒストグラムを更新する(ヒストグラム更新;ステップS2008)。
そして、再生終了か否かを判断する(ステップS2009)。再生終了の場合(ステップS2009のYes)、処理を終了する。
再生終了でない場合(ステップS2009のNo)、ステップS2001以降の処理を繰り返す。
The acquired waveform is sent to the acoustic echo canceller 307, and the acoustic echo component is eliminated (step S2004).
Next, the sound sources are separated (sound source separation; step S2005).
Then, the sound source position at the microphone position for each sound source is estimated (sound source position conversion estimation; step S2006).
Then, the sound source direction at the user listening position is calculated (sound source position conversion; step S2007).
Then, the histogram of the sound source direction at the user listening position is updated (histogram update; step S2008).
Then, it is determined whether or not the reproduction is finished (step S2009). If the reproduction has ended (Yes in step S2009), the process ends.
If the reproduction is not finished (No in step S2009), the processes in and after step S2001 are repeated.

図19は、出力係数設定タイミングとオーディオソース再生タイミングの一例を示したタイミングチャートである。
雑音方向はθ1からθ2に変化するものとする。スピーカ出力係数を常時更新する場合、雑音の方向が変化したタイミングでスピーカ出力係数が変化することになるが、この例の場合、ソース(2)再生中に出力係数が変化することになり、ユーザにとって聞き取りにくい音となる。本例に示すように、ソース(2)とソース(3)のソースが変わるタイミングで出力係数を変化させる構成を取ることで、ユーザに与える不快感を軽減することが可能となる。5.1chサラウンド音楽など一つのソースに複数の音源が含まれている場合は、スピーカ出力音の合成波面の音源方向が雑音の音源方向との異なりが大きくなるものから順番に音源数分だけスピーカ出力係数を選択し、それぞれの音源に重畳するような構成を取ってもよい。
FIG. 19 is a timing chart showing an example of output coefficient setting timing and audio source playback timing.
It is assumed that the noise direction changes from θ1 to θ2. When the speaker output coefficient is constantly updated, the speaker output coefficient changes at the timing when the noise direction changes. In this example, the output coefficient changes during playback of the source (2), and the user Sounds that are hard to hear. As shown in this example, by adopting a configuration in which the output coefficient is changed at the timing when the sources (2) and (3) are changed, it is possible to reduce discomfort given to the user. If multiple sources are included in a single source such as 5.1ch surround music, the speaker output is output by the number of sound sources in order starting from the difference in the sound source direction of the synthesized wave front of the speaker output sound from the noise source direction. A configuration may be adopted in which a coefficient is selected and superimposed on each sound source.

図20は、本発明による第2実施形態の音再生装置1bを示すハードウェア構成図である。
図20に示す音再生装置1bは、車室11内でのハンズフリー通話に応用する際のハードウェア構成を示すものであって、図2で示した構成に加えて、携帯電話1801をハードウェアとして加えたものである。
FIG. 20 is a hardware configuration diagram showing the sound reproducing device 1b according to the second embodiment of the present invention.
A sound reproducing device 1b shown in FIG. 20 shows a hardware configuration when applied to a hands-free call in the passenger compartment 11, and in addition to the configuration shown in FIG. Is added as

中央演算装置203で取得した車室11内のデジタル音圧データは携帯電話1801に送られる。
携帯電話1801は電話網を通してデジタル音圧データを通話相手に送信する。また電話網を通して通話相手の音声が送られてきた音を、中央演算装置203内で計算したスピーカごとの出力係数を重畳した後、多チャンネルD/A変換機206に送りアナログ信号に変換する。
アナログ信号はスピーカアレイ111に送られ各スピーカ112から出力されて、空中に放射される。
ハンズフリー通話の構成においては、ユーザ聴取位置から音が放射される可能性がある。そこで、本実施形態のスピーカ出力係数決定部1701においては、音源分離後の各音源の信号のうち音源位置がユーザ聴取位置近傍となる音源については棄却し雑音とみなさないという構成を取ってもよい。また、音源分離後のユーザ聴取位置近傍の音源を携帯電話1801に送信するような構成を取ってもよい。このような構成を取ることで、雑音が存在する車室11内でも雑音の少ないクリアな音を通話相手に送ることが可能となる。
Digital sound pressure data in the passenger compartment 11 acquired by the central processing unit 203 is sent to the mobile phone 1801.
The cellular phone 1801 transmits digital sound pressure data to the other party through the telephone network. Further, the sound transmitted from the other party through the telephone network is superimposed on the output coefficient for each speaker calculated in the central processing unit 203 and then sent to the multi-channel D / A converter 206 to be converted into an analog signal.
The analog signal is sent to the speaker array 111, output from each speaker 112, and radiated into the air.
In a hands-free call configuration, sound may be emitted from the user listening position. Therefore, the speaker output coefficient determination unit 1701 of the present embodiment may be configured such that a sound source whose sound source position is in the vicinity of the user listening position among the signals of each sound source after sound source separation is rejected and not regarded as noise. . Further, a configuration may be adopted in which a sound source near the user listening position after sound source separation is transmitted to the mobile phone 1801. By adopting such a configuration, it becomes possible to send a clear sound with little noise to the other party even in the passenger compartment 11 where the noise exists.

図21は、本発明によるユーザ聴取位置での音源位置変換処理を使って、仮想的な音源位置における音場を再現する音場再現システムのソフトウェア構成を示すブロック図である。
波形取り込み部301で取り込んだ複数チャンネルのデジタル波形は、音響エコーキャンセラ307に送られ、スピーカ出力音の成分が除去される。
音源分離部302は、除去後の波形(信号)を音源ごとに分離する。
音源位置推定部303は、分離した音源ごとにマイクロホンアレイ101の位置での音源位置を推定する。
音源位置変換部304は、仮想的なユーザ聴取位置での音源位置に変換する。
話者ボリューム決定部1906は、音源分離部302で分離した出力信号に仮想的なユーザ聴取位置から見た音源のステアリングベクトルを重畳する。
すべての音源に対して同様な処理を繰り返した後、波形再結合部1907は、マイクロホン(素子)102ごとに音源ごとの波形を統合して出力する。
FIG. 21 is a block diagram showing a software configuration of a sound field reproduction system that reproduces a sound field at a virtual sound source position using the sound source position conversion process at the user listening position according to the present invention.
The digital waveforms of a plurality of channels captured by the waveform capturing unit 301 are sent to the acoustic echo canceller 307 and the speaker output sound component is removed.
The sound source separation unit 302 separates the removed waveform (signal) for each sound source.
The sound source position estimation unit 303 estimates the sound source position at the position of the microphone array 101 for each separated sound source.
The sound source position conversion unit 304 converts the sound source position to the sound source position at the virtual user listening position.
The speaker volume determination unit 1906 superimposes the steering vector of the sound source viewed from the virtual user listening position on the output signal separated by the sound source separation unit 302.
After repeating the same processing for all sound sources, the waveform recombination unit 1907 integrates and outputs the waveforms for each sound source for each microphone (element) 102.

1 音再生装置(第1実施形態)
1b 音再生装置(第2実施形態)
10 自動車
11 車室
12 運転席
101 マイクロホンアレイ
102 マイクロホン
111 スピーカアレイ
112 スピーカ
202 多チャンネルA/D変換機
203 中央演算装置
204 揮発性メモリ
205 不揮発性メモリ
206 多チャンネルD/A変換機
208 座席センサ
301 波形取り込み部
302 音源分離部
303 音源位置推定部
304 音源位置変換部
305 ヒストグラム更新部
306 出力係数決定部
307 音響エコーキャンセラ
401 出力係数記憶部
402 スピーカ出力部
403 出力ソース取得部
502 ユーザ位置抽出部
503 変換ベクトル生成部
504 マイク位置データベース
505 変換ベクトル加算部
602 方向行列計算部
603 固有値・ベクトル計算部
604 最小コスト係数算出部
702 方向行列計算部
703 スピーカ内積計算部
704 最小コスト係数算出部
801 方向行列計算部
802 同乗者位置推定部
803 既知雑音位置
901 バッファリング部
902 短時間周波数変換部
903 フィルタ適応部
904 フィルタリング部
905 パワー正規化部
906 棄却判定部
1102 逆行列計算部
1103 サブアレイ分割部
1104 方向推定部
1105 交点推定部
1106 ヒストグラム推定部
1501 参照信号取り込み部
1503 出力係数重畳部
1504 フィルタリング部
1505 フィルタ更新部
1506 エコー消去部
1602 A/D変換装置
1604 D/A変換装置
1701 スピーカ出力係数決定部
1702 オーディオソース取得部
1703 オーディオ再生
1801 携帯電話
1906 話者ボリューム決定部
1907 波形再結合部
1 sound reproduction device (first embodiment)
1b Sound reproduction device (second embodiment)
DESCRIPTION OF SYMBOLS 10 Car 11 Car compartment 12 Driver's seat 101 Microphone array 102 Microphone 111 Speaker array 112 Speaker 202 Multi-channel A / D converter 203 Central processing unit 204 Volatile memory 205 Non-volatile memory 206 Multi-channel D / A converter 208 Seat sensor 301 Waveform acquisition unit 302 Sound source separation unit 303 Sound source position estimation unit 304 Sound source position conversion unit 305 Histogram update unit 306 Output coefficient determination unit 307 Acoustic echo canceller 401 Output coefficient storage unit 402 Speaker output unit 403 Output source acquisition unit 502 User position extraction unit 503 Conversion vector generation unit 504 Microphone position database 505 Conversion vector addition unit 602 Direction matrix calculation unit 603 Eigenvalue / vector calculation unit 604 Minimum cost coefficient calculation unit 702 Direction Matrix calculation unit 703 Speaker inner product calculation unit 704 Minimum cost coefficient calculation unit 801 Direction matrix calculation unit 802 Passenger position estimation unit 803 Known noise position 901 Buffering unit 902 Short-time frequency conversion unit 903 Filter adaptation unit 904 Filtering unit 905 Power normalization Unit 906 rejection determination unit 1102 inverse matrix calculation unit 1103 subarray division unit 1104 direction estimation unit 1105 intersection estimation unit 1106 histogram estimation unit 1501 reference signal capturing unit 1503 output coefficient superposition unit 1504 filtering unit 1505 filter update unit 1506 echo cancellation unit 1602 A / D conversion device 1604 D / A conversion device 1701 Speaker output coefficient determination unit 1702 Audio source acquisition unit 1703 Audio playback 1801 Cellular phone 1906 Speaker volume Tough 1907 waveform recombination part

Claims (6)

複数のスピーカを再生音源として備えた音再生装置であって、
複数のマイクロホンからなるマイクロホンアレイの位置での音源方向を推定する音源方向推定部と、
推定した前記マイクロホンアレイの位置での音源方向をユーザ聴取位置での音源方向に変換する音源方向変換部と、
前記変換した音源方向を基に、前記再生音源以外の雑音源の前記ユーザ聴取位置での音源方向を算出し、当該雑音源の前記ユーザ聴取位置での音源方向と前記複数のスピーカから音を放射した際の音像定位方向が異なるように前記複数のスピーカそれぞれの出力係数を決定する出力係数決定部と、
を有することを特徴とする音再生装置。
A sound reproduction device including a plurality of speakers as a reproduction sound source ,
A sound source direction estimation unit for estimating a sound source direction at a position of a microphone array including a plurality of microphones ;
A sound source direction conversion unit that converts the sound source direction at the estimated position of the microphone array into the sound source direction at the user listening position;
Based on the converted sound source direction , a sound source direction at the user listening position of a noise source other than the reproduction sound source is calculated, and sound is emitted from the sound source direction of the noise source at the user listening position and the plurality of speakers. An output coefficient determination unit that determines the output coefficient of each of the plurality of speakers so that the sound image localization direction at the time is different,
A sound reproducing device comprising:
乗員を検出する座席センサを備え、
前記出力係数決定部は、前記座席センサによって検出した乗員位置に前記雑音源が存在すると見なして演算を行うことを特徴とする請求項1に記載の音再生装置。
Equipped with a seat sensor to detect occupants,
The output coefficient determination unit, the sound reproducing apparatus according to claim 1, characterized in that the operation is regarded as the noise source is present in the passenger position detected by the seat sensor.
乗員を検出する座席センサを備え、
前記出力係数決定部は、前記座席センサによって検出した乗員位置が前記ユーザ聴取位置であると見なして演算を行うことを特徴とする請求項1に記載の音再生装置。
Equipped with a seat sensor to detect occupants,
The output coefficient determination unit, the sound reproducing apparatus according to claim 1, an occupant position detected by the seat sensor and performing the operation is regarded as the a user listening position.
前記ユーザ聴取位置に対するマイクロホンアレイ位置の位置ベクトルである第1の位置ベクトルに、前記マイクロホンアレイ位置に対する再生音源以外の音源位置の位置ベクトルである第2の位置ベクトルを加算することで、前記ユーザ聴取位置に対する前記音源位置の位置ベクトルである第3の位置ベクトルを算出し、当該第3の位置ベクトルを基に、前記マイクロホンアレイの位置での音源方向をユーザ聴取位置での音源方向に変換することを特徴とする請求項1に記載の音再生装置。By adding a second position vector that is a position vector of a sound source position other than the reproduction sound source with respect to the microphone array position to a first position vector that is a position vector of a microphone array position with respect to the user listening position, the user listening Calculating a third position vector, which is a position vector of the sound source position with respect to a position, and converting a sound source direction at the position of the microphone array into a sound source direction at a user listening position based on the third position vector; The sound reproducing device according to claim 1. 所定の位置に複数のマイクロホンと複数のスピーカとが配置された環境において、前記複数のスピーカを再生音源として用いて音再生装置からの音を再生する音再生方法であって、
複数のマイクロホンからなるマイクロホンアレイからの音の情報と、前記マイクロホンアレイと各前記スピーカとの位置関係の情報とを用いて、前記複数のスピーカからの再生音源以外の音源の、前記マイクロホンアレイの位置での音源方向を推定する音源方向推定工程と、
推定した前記マイクロホンアレイの位置での音源方向をユーザ聴取位置での音源方向に変換する音源方向変換工程と、
前記変換した音源方向を基に、前記再生音源以外の雑音源の前記ユーザ聴取位置での音源方向を算出し、当該雑音源の前記ユーザ聴取位置での音源方向と、前記複数のスピーカから音を放射した際の音像定位方向が異なるようにそれぞれの前記スピーカの出力係数を決定する出力係数決定工程と、
決定した前記出力係数によって前記スピーカから音を放射する音放射工程と、
を含むことを特徴とする音再生方法。
In an environment in which a plurality of microphones and a plurality of speakers are arranged at predetermined positions, a sound reproduction method for reproducing sound from a sound reproduction device using the plurality of speakers as a reproduction sound source ,
The position of the microphone array of a sound source other than the reproduction sound source from the plurality of speakers, using the information on the sound from the microphone array composed of a plurality of microphones and the information on the positional relationship between the microphone array and each of the speakers. A sound source direction estimating step for estimating a sound source direction at
A sound source direction conversion step of converting a sound source direction at the estimated position of the microphone array into a sound source direction at a user listening position;
Based on the converted sound source direction , a sound source direction at the user listening position of a noise source other than the reproduction sound source is calculated, and a sound source direction at the user listening position of the noise source and sound from the plurality of speakers are calculated. An output coefficient determining step for determining the output coefficient of each speaker so that the sound image localization direction when radiated is different;
A sound emission step of emitting sound from the speaker according to the determined output coefficient;
A sound reproduction method comprising:
前記出力係数決定工程では、前記複数のスピーカのうち、前記ユーザ聴取位置での音源方向が異なる方向に位置するものを選択する、
ことを特徴とする請求項5に記載の音再生方法。
In the output coefficient determination step, the speaker selected from the plurality of speakers is located in a direction in which the sound source direction at the user listening position is different.
The sound reproduction method according to claim 5, wherein:
JP2009003880A 2009-01-09 2009-01-09 Sound reproducing apparatus and sound reproducing method Active JP5405130B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009003880A JP5405130B2 (en) 2009-01-09 2009-01-09 Sound reproducing apparatus and sound reproducing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009003880A JP5405130B2 (en) 2009-01-09 2009-01-09 Sound reproducing apparatus and sound reproducing method

Publications (2)

Publication Number Publication Date
JP2010161735A JP2010161735A (en) 2010-07-22
JP5405130B2 true JP5405130B2 (en) 2014-02-05

Family

ID=42578534

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009003880A Active JP5405130B2 (en) 2009-01-09 2009-01-09 Sound reproducing apparatus and sound reproducing method

Country Status (1)

Country Link
JP (1) JP5405130B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9111526B2 (en) * 2010-10-25 2015-08-18 Qualcomm Incorporated Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
JP2012182648A (en) * 2011-03-01 2012-09-20 Mitsubishi Electric Corp Amplifier, mobile body information apparatus, amplifier power saving method
US9210270B2 (en) * 2012-11-15 2015-12-08 Qualcomm Incorporated Echo cancellation for ultrasound
CN108132457A (en) * 2017-12-22 2018-06-08 景晖 The voice arrival bearing method of estimation and device of a kind of determining position

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0983277A (en) * 1995-09-18 1997-03-28 Fujitsu Ten Ltd Sound volume adjustment device
JP2006114942A (en) * 2004-10-12 2006-04-27 Nippon Telegr & Teleph Corp <Ntt> Sound providing system, sound providing method, program for this method, and recording medium
JP2007019980A (en) * 2005-07-08 2007-01-25 Matsushita Electric Ind Co Ltd Audio sound calming device
JP4799443B2 (en) * 2007-02-21 2011-10-26 株式会社東芝 Sound receiving device and method

Also Published As

Publication number Publication date
JP2010161735A (en) 2010-07-22

Similar Documents

Publication Publication Date Title
JP6644197B2 (en) Noise removal device and noise removal method
EP3320692B1 (en) Spatial audio processing apparatus
US9338547B2 (en) Method for denoising an acoustic signal for a multi-microphone audio device operating in a noisy environment
JP4780119B2 (en) Head-related transfer function measurement method, head-related transfer function convolution method, and head-related transfer function convolution device
JP6584930B2 (en) Information processing apparatus, information processing method, and program
JP5878549B2 (en) Apparatus and method for geometry-based spatial audio coding
JP5007442B2 (en) System and method using level differences between microphones for speech improvement
JP6196320B2 (en) Filter and method for infomed spatial filtering using multiple instantaneous arrival direction estimates
JP6616946B2 (en) Artificial hearing headset
JP5156260B2 (en) Method for removing target noise and extracting target sound, preprocessing unit, speech recognition system and program
EP2777297B1 (en) Method and apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an ambisonics representation of the sound field
KR101456866B1 (en) Method and apparatus for extracting the target sound signal from the mixed sound
WO2016194945A1 (en) Sound collecting device, and method of controlling sound collecting device
JP2019511888A (en) Apparatus and method for providing individual sound areas
KR101934999B1 (en) Apparatus for removing noise and method for performing thereof
KR20130116271A (en) Three-dimensional sound capturing and reproducing with multi-microphones
EP1538867B1 (en) Handsfree system for use in a vehicle
WO2015086895A1 (en) Spatial audio processing apparatus
JP5405130B2 (en) Sound reproducing apparatus and sound reproducing method
JP7124506B2 (en) Sound collector, method and program
JP2010085733A (en) Speech enhancement system
JP2001313992A (en) Sound pickup device and sound pickup method
JP6323901B2 (en) Sound collection device, sound collection method, and program
JP5163685B2 (en) Head-related transfer function measurement method, head-related transfer function convolution method, and head-related transfer function convolution device
Kowalczyk Multichannel Wiener filter with early reflection raking for automatic speech recognition in presence of reverberation

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20110711

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131008

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131030

R150 Certificate of patent or registration of utility model

Ref document number: 5405130

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250