JP2012147413A - Narrow directional sound reproduction processing method, device, and program - Google Patents
Narrow directional sound reproduction processing method, device, and program Download PDFInfo
- Publication number
- JP2012147413A JP2012147413A JP2011190776A JP2011190776A JP2012147413A JP 2012147413 A JP2012147413 A JP 2012147413A JP 2011190776 A JP2011190776 A JP 2011190776A JP 2011190776 A JP2011190776 A JP 2011190776A JP 2012147413 A JP2012147413 A JP 2012147413A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- filter
- narrow
- reproduction processing
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、所望の方向を含む狭い範囲に音声を再生するための信号処理技術(狭指向音声再生処理技術)に関する。 The present invention relates to a signal processing technique (narrow-directed voice reproduction processing technique) for reproducing sound in a narrow range including a desired direction.
スピーカを利用した音声再生の状況として、特定の方向に十分な音量で音声を再生することが望まれる状況がある。例えば、展示場で展示物の前方の限られたエリアのみに当該展示物を説明する音声を再生する場合や、階段の手前や駅のプラットホームの縁などの限られたエリアで注意喚起を促す音声を再生する場合である。このような、スピーカから見て所望の方向(目的方向)を含む狭い範囲に音声を再生するための信号処理技術(狭指向音声再生処理技術)は、従来から研究・開発されている。なお、スピーカの周囲とスピーカから発せられた音声の音圧との関係(音圧分布)は指向性と呼ばれ、或る方向への指向性が鋭いほど、当該方向を含む狭い範囲に音声を再生し、当該範囲以外の範囲で当該音声の音圧を抑圧することができる。ここでは、狭指向音声再生処理技術に関する3つの従来技術を例示する。なお、この明細書では、「音声」は、人の発する声に限定されるものではなく、人や動物の声はもとより楽音や環境雑音など「音」一般を指す。 As a situation of sound reproduction using a speaker, there is a situation where it is desired to reproduce sound at a sufficient volume in a specific direction. For example, when playing audio explaining an exhibit in a limited area in front of an exhibit in an exhibition hall, or in a limited area such as the edge of a station platform or near a staircase Is played. Such signal processing technology (narrow-directed speech reproduction processing technology) for reproducing sound in a narrow range including a desired direction (target direction) as viewed from the speaker has been researched and developed conventionally. The relationship (sound pressure distribution) between the surroundings of the speaker and the sound pressure of the sound emitted from the speaker is called directivity. The sharper the directivity in a certain direction, the more the sound is transmitted to a narrow range including that direction. It is possible to reproduce and suppress the sound pressure of the sound in a range other than the range. Here, three conventional techniques related to the narrow-directional sound reproduction processing technique are illustrated. In this specification, “speech” is not limited to a voice uttered by a person, but refers to a general “sound” such as a musical sound or an environmental noise as well as a voice of a person or an animal.
[1]物理特性を用いた狭指向音声再生処理技術
このカテゴリの代表的な例として、ホーンスピーカとパラボラスピーカが挙げられる。ホーンスピーカは、例えば、スピーカの前方に、開口端に向けて断面面積が徐々に広くなるような喇叭状ホーンが取り付けられたスピーカである。ホーン長が長ければ長いほど、ホーンスピーカの指向性は鋭くなる。パラボラスピーカは、パラボラ板(放物面)の焦点にスピーカが配置された構成を持ち、スピーカからパラボラ板に向かって音声を放射することによって、パラボラ板の頂点とパラボラ板の焦点とを結ぶ直線の方向に音声が伝達する。
[1] Narrow-directional audio reproduction processing technology using physical characteristics Representative examples of this category include horn speakers and parabolic speakers. The horn speaker is, for example, a speaker in which a saddle-shaped horn whose cross-sectional area gradually increases toward the opening end in front of the speaker. The longer the horn length, the sharper the directivity of the horn speaker. A parabolic speaker has a configuration in which a speaker is arranged at the focal point of a parabolic plate (paraboloid), and radiates sound from the speaker toward the parabolic plate, thereby connecting the top of the parabolic plate and the focal point of the parabolic plate. Sound is transmitted in the direction of.
[2]超音波を用いた狭指向音声再生処理技術
このカテゴリの代表的な例として、パラメトリックスピーカが挙げられる(例えば特許文献1参照)。パラメトリックスピーカは、直進性の強い超音波を搬送波として、例えば超音波が音源信号で振幅変調された変調波を大音圧で放射する。変調波が空気中を伝播する過程で空気の非線形特性によって歪み成分が生じ、この歪み成分と人間の聴覚特性に起因して可聴帯域の音声が出現する。
[2] Narrow-directional sound reproduction processing technology using ultrasonic waves A typical example of this category is a parametric speaker (see, for example, Patent Document 1). The parametric speaker radiates a modulated wave obtained by amplitude-modulating an ultrasonic wave with a sound source signal with a high sound pressure, using an ultrasonic wave having a strong straightness as a carrier wave. A distortion component is generated by the non-linear characteristic of air in the process in which the modulated wave propagates in the air, and sound in an audible band appears due to the distortion component and human auditory characteristics.
[3]信号処理を用いた狭指向音声再生処理技術
このカテゴリの代表的な例として、フェーズドスピーカアレーが挙げられる(例えば非特許文献1参照)。フェーズドスピーカアレーは、複数のスピーカで構成されたスピーカアレーであり、音源信号に時間差やレベル差の情報が含まれているフィルタを掛けて重畳する信号処理を行うことで得られた信号を各スピーカに入力して音声を空間放射し、この結果、目的方向に音声が再生される。
[3] Narrow-directional audio reproduction processing technology using signal processing A typical example of this category is a phased speaker array (see, for example, Non-Patent Document 1). A phased speaker array is a speaker array composed of a plurality of speakers, and signals obtained by performing signal processing to superimpose a sound source signal by applying a filter containing information on time difference or level difference to each speaker. And the sound is spatially radiated, and as a result, the sound is reproduced in the target direction.
カテゴリ[1]で説明した狭指向音声再生処理技術によると、例えばホーンスピーカとパラボラスピーカの例から理解できるように、目的方向にスピーカ自体を向けないと、目的方向に音声を再生することができない。つまり、目的方向が変わりえる場合には、人の身体活動に拠らないのであれば、ホーンスピーカやパラボラスピーカそのものの向きを変更するための駆動制御手段が必要になってしまう。また、ホーンスピーカとパラボラスピーカは共に、例えば見込み角5°〜10°程度の狭指向性(目的方向に対して±5°〜±10°程度の鋭い指向性)を実現することが困難である。 According to the narrow-directional sound reproduction processing technology described in category [1], as can be understood from the example of the horn speaker and the parabolic speaker, for example, the sound cannot be reproduced in the target direction unless the speaker itself is directed. . That is, when the target direction can be changed, if it does not depend on the human physical activity, a drive control means for changing the direction of the horn speaker or the parabolic speaker itself is required. In addition, it is difficult for both the horn speaker and the parabolic speaker to achieve a narrow directivity (a sharp directivity of about ± 5 ° to ± 10 ° with respect to the target direction) having an expected angle of about 5 ° to 10 °, for example. .
カテゴリ[2]で説明した狭指向音声再生処理技術によると、狭指向性の観点で優れているが、目的方向にパラメトリックスピーカ自体を向けないと、目的方向に音声を再生することができない。つまり、目的方向が変わりえる場合には、人の身体活動に拠らないのであれば、パラメトリックスピーカそのものの向きを変更するための駆動制御手段が必要になってしまう。また、超音波暴露(超音波を大音量で浴びていて健康上の問題がないかどうか)について未だに検討されている問題もある。 The narrow-directional sound reproduction processing technology described in category [2] is excellent in terms of narrow directivity, but sound cannot be reproduced in the target direction unless the parametric speaker itself is directed in the target direction. That is, when the target direction can be changed, if it does not depend on the human physical activity, a drive control means for changing the direction of the parametric speaker itself is required. In addition, there is a problem that is still being investigated about ultrasonic exposure (whether there is no health problem when exposed to a high volume of ultrasonic waves).
カテゴリ[3]で説明した狭指向音声再生処理技術によると、狭指向性を実現するためには、スピーカ数を増やし、アレーサイズ(アレーの全長)を大きくすることが必要となる。フェーズドスピーカアレーを設置する空間の制約、コスト、リアルタイム処理を実行可能なスピーカ数などの観点から、無制限にアレーサイズを大きくすることは現実的ではない。例えば、市場で入手可能なスピーカでリアルタイム処理が可能な信号の最大値は100程度であるところ、100本程度のスピーカを用いたフェーズドスピーカアレーで実現可能な指向性は目的方向に対して±30°程度であり、例えば±5°〜±10°程度の鋭い指向性で目的方向への音声を再生することは困難である。また、カテゴリ[3]の従来技術では、目的方向以外の方向の音声に埋もれないように目的方向に向けて音声を高SN比で再生することが難しい。 According to the narrow-directional sound reproduction processing technology described in category [3], in order to realize narrow directivity, it is necessary to increase the number of speakers and increase the array size (the total length of the array). It is not realistic to increase the array size indefinitely from the viewpoints of space restrictions for installing the phased speaker array, cost, the number of speakers that can execute real-time processing, and the like. For example, the maximum value of a signal that can be processed in real time with a commercially available speaker is about 100, and the directivity that can be realized with a phased speaker array using about 100 speakers is ± 30 with respect to the target direction. It is difficult to reproduce the sound in the target direction with a sharp directivity of, for example, about ± 5 ° to ± 10 °. Also, with the prior art of category [3], it is difficult to reproduce audio with a high S / N ratio in the target direction so as not to be buried in audio in directions other than the target direction.
このような現状に鑑みて、本発明は、十分なSN比で音声を再生し、スピーカの物理的な移動を要することなく任意の方向に向けて音声を再生可能でもありながら、所望の方向に対して従来よりも鋭い指向性を有する狭指向音声再生処理技術を提供することを目的とする。 In view of such a current situation, the present invention reproduces sound with a sufficient signal-to-noise ratio and can reproduce sound in any direction without requiring physical movement of the speaker, but in a desired direction. On the other hand, an object of the present invention is to provide a narrow-directional sound reproduction processing technique having sharper directivity than conventional ones.
音声の進行方向として想定される一つまたは複数の方向に含まれる各方向φに対するM個のスピーカからの音声の伝達特性aφを用いて、音声再生の対象となる方向についてフィルタを求める[フィルタ設計処理]。Mは2以上の整数であり、M個のスピーカはスピーカアレーを構成する。(1)スピーカアレーから放射された音声であって、(2)当該音声が反射物で反射して、反射音の進行方向が方向φとなる音声、を双対音として、各伝達特性aφは、方向φへの直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表される。フィルタは、周波数ごとに、音源信号が周波数領域に変換された周波数領域信号SをMチャネルの周波数領域信号Xに変換するものである。フィルタ設計処理で求められたフィルタを、周波数ごとに周波数領域信号Sに適用してMチャネルの周波数領域信号Xを得る[フィルタ適用処理]。Mチャネルの周波数領域信号Xを時間領域に変換して得られるMチャネルの時間領域信号xは、通常、スピーカアレーで再生されることとなる。 Using the audio transmission characteristics a φ from the M speakers for each direction φ included in one or a plurality of directions assumed as the audio traveling direction, a filter is obtained for the direction that is the target of audio reproduction [Filter Design process]. M is an integer greater than or equal to 2, and M speakers constitute a speaker array. (1) The sound radiated from the speaker array, (2) the sound reflected by the reflector and the direction of travel of the reflected sound is the direction φ, the dual sound, each transfer characteristic a φ is , Expressed as the sum of the direct sound transfer characteristics in the direction φ and the transfer characteristics of one or more dual sounds. The filter converts the frequency domain signal S obtained by converting the sound source signal into the frequency domain for each frequency into an M channel frequency domain signal X. The filter obtained by the filter design process is applied to the frequency domain signal S for each frequency to obtain an M channel frequency domain signal X [filter application process]. The M channel time domain signal x obtained by converting the M channel frequency domain signal X into the time domain is normally reproduced by a speaker array.
各伝達特性aφは、具体例として、直接音のステアリングベクトルと、反射による音の減衰および反射音の直接音に対する時間差が補正された一つ以上の双対音の各ステアリングベクトルとの和、あるいは、実環境下において実測で得られたものでもよい。 Each transfer characteristic a φ is, as a specific example, a sum of a direct sound steering vector and one or more dual sound steering vectors in which a time difference with respect to the direct sound of the sound due to reflection attenuation and reflection is corrected, or It may be obtained by actual measurement in an actual environment.
フィルタ設計処理では、音声再生の対象となる方向以外の方向への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる方向でのSN比が最大となるように、周波数ごとにフィルタを求めてもよい。あるいは、M個のスピーカのうち一つのスピーカに対するフィルタ係数を一定値に固定した状態で音声の進行方向として想定される一つまたは複数の方向への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。 In the filter design process, a filter may be obtained for each frequency so that the power of the sound in a direction other than the direction for sound reproduction is minimized. Or you may obtain | require a filter for every frequency so that the S / N ratio in the direction used as the object of audio | voice reproduction may become the maximum. Alternatively, for each frequency, the sound power in one or more directions assumed as the sound traveling direction is minimized with the filter coefficient for one speaker among M speakers fixed at a constant value. You may ask for a filter.
あるいは、フィルタ設計処理では、(1)音声再生の対象となる方向への音声の全帯域通過、および(2)一つ以上の死角への音声の全帯域抑制、の条件の下、音声再生の対象となる方向と各死角以外の方向への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる方向φ=sの伝達特性asを正規化することによって、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる方向以外の各方向に対応する伝達特性aφによって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。あるいは、音声再生の対象となる方向への音声の劣化量を所定量以下とする条件の下、音声再生の対象となる方向以外の方向への音声のパワーが最小となるように、周波数ごとにフィルタを求めてもよい。あるいは、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、周波数ごとにフィルタを求めてもよい。 Alternatively, in the filter design process, the sound reproduction is performed under the conditions of (1) passing the entire band of the sound in the direction to be reproduced and (2) suppressing the entire band of the sound to one or more blind spots. You may obtain | require a filter for every frequency so that the power of the audio | voice to directions other than a target direction and each blind spot may become the minimum. Alternatively, a filter may be obtained for each frequency by normalizing the transfer characteristic a s in the direction φ = s to be reproduced. Or you may obtain | require a filter for every frequency using the spatial correlation matrix represented by the transfer characteristic a ( phi) corresponding to each direction other than the direction used as the object of audio | voice reproduction | regeneration. Alternatively, for each frequency, the sound power in the direction other than the direction of the audio reproduction is minimized under the condition that the deterioration amount of the sound in the direction of the audio reproduction is a predetermined amount or less. A filter may be obtained. Or you may obtain | require a filter for every frequency using the spatial correlation matrix represented by the frequency domain signal obtained by converting the signal obtained by observing with a microphone array into a frequency domain.
本発明に拠ると、音声再生対象方向への直接音だけでなく反射音も利用しているため、当該方向について十分に大きいSN比で再生可能であるとともに、信号処理によって当該方向への音声再生を行うことからスピーカの物理的な移動を要することなく任意の方向に向けて音声を再生可能でもある。さらに、詳しくは後述の《原理》の項目で説明するが、各伝達特性aφを、方向φへの直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表現することによって、一般的なフィルタ設計基準でフィルタを設計する際に、音声再生対象方向の指向性の広狭を決定付けるコヒーレンスの抑圧の度合いを高くするようなフィルタを設計できる。つまり、音声再生対象方向に対して従来よりも鋭い指向性を有することになる。 According to the present invention, not only the direct sound in the sound reproduction target direction but also the reflected sound is used, so that the reproduction can be performed with a sufficiently large SN ratio in the direction and the sound reproduction in the direction by signal processing. Therefore, the sound can be reproduced in any direction without requiring physical movement of the speaker. Furthermore, as will be explained in detail in the item “Principle” described later, each transfer characteristic a φ is expressed as the sum of the transfer characteristic of the direct sound in the direction φ and the transfer characteristic of one or more dual sounds. Thus, when designing a filter based on a general filter design standard, it is possible to design a filter that increases the degree of coherence suppression that determines the degree of directivity in the direction of sound reproduction. That is, it has a sharper directivity than the conventional one with respect to the direction of audio reproduction.
《原理》
本発明の原理について説明する。本発明は、信号処理に基づいて任意の方向に向けて音声を再生できるというスピーカアレー技術の本質と、反射音を積極的に利用することによって高SN比で音声を再生することとを基本としつつ、鋭い指向性を可能とする信号処理技術を組み合わせたことを特徴の一つとしている。
"principle"
The principle of the present invention will be described. The present invention is based on the essence of speaker array technology that can reproduce sound in an arbitrary direction based on signal processing, and on reproducing sound at a high S / N ratio by actively using reflected sound. On the other hand, it is characterized by combining signal processing technologies that enable sharp directivity.
周波数領域における信号処理を主に説明するので、説明に先立ち、記号を定義する。離散周波数のインデックスをω(周波数fと角周波数ωとの間にはω=2πfの関係があるから、離散周波数のインデックスωをこの角周波数ωと同一視してもかまわない。ωに関して「離散周波数のインデックス」を単に「周波数」ともいう)、フレーム番号のインデックスをkとする。1チャネルの音源信号の第kフレームの周波数領域表現をS(ω,k)、スピーカアレーの中心から見て方向θsを音声再生対象の方向として設計されたフィルタであって周波数ωで音源信号の周波数領域信号S(ω,k)をMチャネルの周波数領域信号に変換するフィルタをW→(ω,θs)、音源信号の周波数領域信号S(ω,k)にフィルタW→(ω,θs)を適用して得られるMチャネルの周波数領域信号(以下、再生信号と呼ぶ)をX→(ω,k)=[X1(ω,k),…,XM(ω,k)]とする。Mは2以上の整数とする。このとき、第kフレームの再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]は式(1)で与えられる。Hはエルミート転置を表す。なお、第kフレームの再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]はMチャネルの時間領域信号に変換され、これらMチャネルの時間領域信号はそれぞれチャネルに対応するスピーカで再生される(詳細は後述する)。スピーカの個数はMである。
「スピーカアレーの中心」は任意に定めることができるが、一般的にはM個のスピーカの配置の幾何学的中心が「スピーカアレーの中心」とされ、例えば線形スピーカアレー(M個のスピーカが直線状に並べられたスピーカアレー)であれば両端のスピーカの中間点が「スピーカアレーの中心」とされ、例えばm×m(m2=M)の正方マトリックス状に配置された平面スピーカアレーであれば、四隅のスピーカの対角線が交わる位置が「スピーカアレーの中心」とされる。 The “center of the speaker array” can be arbitrarily determined. In general, the geometric center of the arrangement of the M speakers is set as the “center of the speaker array”. For example, a linear speaker array (M speakers are In the case of a speaker array arranged in a straight line), the midpoint of the speakers at both ends is set as the “center of the speaker array”. For example, a flat speaker array arranged in a square matrix of m × m (m 2 = M) If there is, the position where the diagonal lines of the four corners of the speaker intersect is defined as the “center of the speaker array”.
フィルタW→(ω,θs)の設計法としては種々あるが、ここでは最小分散無歪応答法(MVDR method;minimum variance distortion response method)に拠る場合を説明する。最小分散無歪応答法では、フィルタW→(ω,θs)は、式(3)の拘束条件の下、空間相関行列Q(ω)を用いて目的方向θs以外の方向への音声(以下、「目的方向θs以外の方向への音声」を「漏れ音声」とも呼ぶ)のパワーが周波数ωで最小となるように設計される(式(2)参照)。a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは、方向θsに受聴位置が在るとして、当該受聴位置とM個のスピーカとの間の周波数ωでの伝達特性である。Tは転置を表す。換言すれば、a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは、スピーカアレーに含まれる各スピーカから方向θsへの音声の周波数ωでの伝達特性である。空間相関行列Q(ω)は、M個のマイクロホンで構成されたマイクロホンアレー(好ましくは、スピーカアレーに含まるスピーカをそれぞれマイクロホンに置換した構成のマイクロホンアレー)によって観測して得られた収音信号を周波数領域に変換して得られる周波数領域信号を用いて表現することもできるが、伝達特性を用いて表現することもできる。以下、しばらくの間、空間相関行列Q(ω)が伝達特性を用いて表現される場合を説明する。
式(2)の最適解であるフィルタW→(ω,θs)は式(4)で与えられることが知られている。
(参考文献1)Simon Haykin著、鈴木博他訳、「適応フィルタ理論」、初版、株式会社科学技術出版、2001.pp.66-73,248-255
(Reference 1) by Simon Haykin, translated by Hiroshi Suzuki et al., "Adaptive Filter Theory", First Edition, Science and Technology Publishing Co., Ltd., 2001. pp.66-73,248-255
空間相関行列Q(ω)の逆行列が式(4)に含まれることから察せられるように、空間相関行列Q(ω)の構造は鋭い指向性を実現する上で重要であることがわかる。また、式(2)から、漏れ音声のパワーは空間相関行列Q(ω)の構造に依存することもわかる。 As can be seen from the fact that the inverse matrix of the spatial correlation matrix Q (ω) is included in the equation (4), it can be seen that the structure of the spatial correlation matrix Q (ω) is important in realizing sharp directivity. It can also be seen from equation (2) that the power of the leaked speech depends on the structure of the spatial correlation matrix Q (ω).
漏れ音声の進行方向(伝搬方向)のインデックスpが属する集合を{1,2,…,P-1}とする。目的方向θsのインデックスsは集合{1,2,…,P-1}に属さないとする。このとき空間相関行列Q(ω)は式(5a)で与えられる。狭指向性を実現するフィルタを作る観点から、Pはある程度大きい値であることが好ましいが、P≦Mを満たす整数であるとする。なお、ここでは発明の原理を分かり易く説明する観点から目的方向θsがあたかも特定の方向の如く説明しているが(それ故、目的方向θs以外の方向を「漏れ音声」の方向としている)、後述の実施形態で明らかになるように、実際には、目的方向θsは音声再生の対象となりえる任意の方向であり、目的方向θsになりえる方向として一般的に複数の方向が想定される。このような観点からすると、目的方向θsと漏れ音声の方向との区別は凡そ主観的なものであり、再生音声か漏れ音声かの区別なく音声の進行方向として想定される複数の方向としてP個の異なる方向を予め決めておき、P個の方向のうち選択された一つの方向が目的方向であり、それ以外の方向が漏れ音声の方向であると理解することがより正確である。そこで、集合{1,2,…,P-1}と集合{s}との和集合をΦとすると、空間相関行列Q(ω)は、音声の進行方向として想定される複数の方向に含まれる各方向θφに対する各スピーカからの音声の伝達特性a→(ω,θφ)=[a1(ω,θφ),…,aM(ω,θφ)]T(φ∈Φ)によって表される空間相関行列であり、式(5b)で表される。なお、|Φ|=Pである。|Φ|は集合Φの要素数を表す。
ここで、目的方向θsへの音声の伝達特性a→(ω,θs)と、方向p∈{1,2,…,P-1}への音声の伝達特性a→(ω,θp)=[a1(ω,θp),…,aM(ω,θp)]Tがお互いに直交すると仮定する。つまり、式(6)で表される条件を満たすP個の直交基底系が存在すると仮定する。記号⊥は直交性を表す。A→⊥B→である場合、ベクトルA→とベクトルB→の内積値はゼロである。ここでP≦Mを満たすとする。なお、式(6)で表される条件を緩和し、近似的に直交基底系と見なせるP個の基底系が存在すると仮定できるような場合には、PはM程度、あるいはM以上のある程度大きい値であることが好ましい。
このとき、空間相関行列Q(ω)は式(7)のように展開できる。式(7)は、直交性を満たすP個の伝達特性で構成された行列V(ω)=[a→(ω,θs),a→(ω,θ1),…,a→(ω,θP-1)]Tと単位行列Λ(ω)によって空間相関行列Q(ω)を分解できることを意味している。ρは空間相関行列Q(ω)による式(6)を満たす伝達特性a→(ω,θφ)の固有値であり実数である。
このとき、空間相関行列Q(ω)の逆行列は式(8)で与えられる。
式(8)を式(2)に代入すると、漏れ音声のパワーが最小となることがわかる。漏れ音声のパワーが最小となれば目的方向θsに対する指向性が実現する。よって、異なる方向の伝達特性の間に直交性が成り立っていることは、目的方向θsに対する指向性を実現する上で、重要な条件となる。 Substituting equation (8) into equation (2) reveals that the power of leaked speech is minimized. If the power of the leaked voice is minimized, directivity with respect to the target direction θ s is realized. Therefore, the fact that orthogonality is established between transfer characteristics in different directions is an important condition for realizing directivity with respect to the target direction θ s .
以下、従来技術において目的方向θsに対して鋭い指向性を実現することが困難な理由について考察する。 Hereinafter, the reason why it is difficult to realize a sharp directivity with respect to the target direction θ s in the prior art will be considered.
従来技術では、伝達特性が直接音のみで構成されると仮定してフィルタの設計を行っていた。現実にはスピーカから発せられた音声が壁や天井等で反射するため、反射音が存在するが、反射音は指向性を悪化させる要因と考えて反射音の存在を無視していたのである。方向θへの直接音のみのステアリングベクトルをh→ d(ω,θ)=[hd1(ω,θ),…,hdM(ω,θ)]Tとすると、従来では、伝達特性a→ conv(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tをa→ conv(ω,θ)=h→ d(ω,θ)としていた。なお、ステアリングベクトルは、スピーカアレーの中心から見て方向θの音波について、基準点に対する各スピーカの周波数ωでの位相応答特性を並べた複素ベクトルである。 In the prior art, the filter is designed on the assumption that the transfer characteristic is composed only of direct sound. In reality, the sound emitted from the speaker is reflected by walls, ceilings, and the like, so there is a reflected sound. However, the reflected sound is considered to be a factor that deteriorates the directivity, and the presence of the reflected sound is ignored. If the steering vector of only direct sound in the direction θ is h → d (ω, θ) = [h d1 (ω, θ), ..., h dM (ω, θ)] T , conventionally, the transfer characteristic a → conv (ω, θ) = [a 1 (ω, θ),..., a M (ω, θ)] T is set as a → conv (ω, θ) = h → d (ω, θ). The steering vector is a complex vector in which the phase response characteristics at the frequency ω of each speaker with respect to the reference point are arranged for sound waves in the direction θ as viewed from the center of the speaker array.
線形スピーカアレーから音声が平面波として放射されると仮定すると、直接音のステアリングベクトルh→ d(ω,θ)を構成するm番目の要素hdm(ω,θ)は例えば式(9a)で与えられる。mは1≦m≦Mを満たす各整数である。cは音速を、uは隣り合うスピーカ間の距離を表す。jは虚数単位である。基準点は線形スピーカアレーの全長の半分の位置(線形スピーカアレーの中心)である。方向θは線形スピーカアレーの中心から見て直接音の方向と線形スピーカアレーに含まれるスピーカの配列方向とがなす角度として定義した(図5参照)。なお、ステアリングベクトルの表し方は種々あり、例えば、基準点を線形スピーカアレーの一端にあるスピーカの位置とすれば、直接音のステアリングベクトルh→ d(ω,θ)を構成するm番目の要素hdm(ω,θ)は例えば式(9b)で与えられる。以下、直接音のステアリングベクトルh→ d(ω,θ)を構成するm番目の要素hdm(ω,θ)は式(9a)で与えられるとして説明する。
方向θの伝達特性と目的方向θsの伝達特性との内積値γconv(ω,θ)は式(10)で表される。なお、θ≠θsとする。
以後、γconv(ω,θ)をコヒーレンスと呼称する。コヒーレンスγconv(ω,θ)が0となる方向θは式(11)で与えられる。qは0を除く任意の整数である。また、0<θ<π/2であるから、qの範囲は周波数帯域ごとに制限されることになる。
式(11)にて、変更可能なパラメータはスピーカアレーのサイズに関わるパラメータ(Mとu)のみであるから、方向の差(角度差)|θ-θs|が小さい場合には、スピーカアレーのサイズに関わるパラメータを変更することなくコヒーレンスγconv(ω,θ)を小さくすることは困難である。この場合、漏れ音声のパワーは十分に小さくならず、図1(a)に模式的に示すように、目的方向θsに対して広いビーム幅を持った指向性となってしまう。 In Formula (11), the only parameters that can be changed are the parameters (M and u) related to the size of the speaker array. Therefore, when the direction difference (angle difference) | θ−θ s | is small, the speaker array It is difficult to reduce the coherence γ conv (ω, θ) without changing the parameters related to the size of. In this case, the power of the leaked voice is not sufficiently reduced, and the directivity having a wide beam width with respect to the target direction θ s is obtained as schematically shown in FIG.
他方、本発明は、このような考察に基づき、目的方向θsに対して鋭い指向性を持つためのフィルタ設計には、方向の差(角度差)|θ-θs|が小さい場合でもコヒーレンスを十分に小さくできるようにすることが重要であるとの知見に基づき、従来技術と異なり反射音を積極的に考慮することを特徴とする。 On the other hand, according to the present invention, based on such consideration, the filter design for having a sharp directivity with respect to the target direction θ s is coherence even when the direction difference (angle difference) | θ−θ s | is small. Unlike the prior art, based on the knowledge that it is important to be able to reduce the noise sufficiently, it is characterized by positively considering reflected sound.
ここで「双対音」を定義する。(1)スピーカアレーから放射された音声であって、(2)当該音声が反射物で反射して、反射音の進行方向が目的方向となる、という条件を満たす音声を目的方向の「双対音」と呼ぶ。 Here, “dual sound” is defined. (1) Voice radiated from a speaker array, and (2) voice that satisfies the condition that the voice is reflected by a reflector and the reflected sound travel direction is the target direction. "
音波を平面波と仮定すると、或る方向θには、スピーカアレーの各スピーカからの音声であって何にも反射せずに進む音声(直接音)と、双対音が反射物300で反射した反射音との二種類の平面波が向かうことになる。反射音(あるいは双対音)の数をΞとする。Ξは1以上の予め定められた整数である。このとき、伝達特性a→(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tは、スピーカアレーから方向θへの直接音の伝達特性と当該直接音に対応する一つ以上の双対音の各伝達特性との和、具体的には、直接音とξ番目(1≦ξ≦Ξ)の反射音との時間差をτξ(θ)とし、αξ(1≦ξ≦Ξ)を反射による音の減衰を考慮するための係数とすると、式(12a)のように、直接音のステアリングベクトルと、反射による音の減衰および反射音の直接音に対する時間差が補正されたΞ個の双対音のステアリングベクトルの和で表現できる。h→ rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tは方向θへの直接音に対応する双対音のステアリングベクトルを表す。αξ(1≦ξ≦Ξ)は、通常、αξ≦1(1≦ξ≦Ξ)である。各反射音について、スピーカアレーからの音声(双対音)が反射物で反射する回数が1回であるならば、αξ(1≦ξ≦Ξ)は、ξ番目の双対音が反射する物体の音の反射率を表していると考えて差し支えない。
M個のスピーカで構成されるスピーカアレーについて一つ以上の反射音が存在することが望まれるので、一つ以上の反射物が存在することが好ましい。このような観点からすると、目的方向に受聴位置が在るとして、当該受聴位置とスピーカアレーと一つ以上の反射物との位置関係は、スピーカアレーからの音声(双対音)が少なくとも一つの反射物で反射して受聴位置に届くように、各反射物が配置されていることが好ましい。各反射物の形状は、2次元形状(例えば平板)または3次元形状(例えばパラボラ形状)である。また、各反射物の大きさはスピーカアレーと同等かそれ以上(1〜2倍程度)の大きさを持つことが好ましい。反射音を効果的に活用するためには、各反射物の反射率αξ(1≦ξ≦Ξ)は少なくとも0よりも大きく、さらに言えば、受聴位置に届く反射音の振幅が直接音の振幅の例えば0.2倍以上であることが望ましく、例えば各反射物は剛性を有する固体とされる。反射物は移動可能な物体(例えば反射板)であっても移動不能な物体(床や壁や天井)であってもよい。なお、移動不能な物体を反射物として設定するとスピーカアレーの設置位置の変更などに伴って、双対音のステアリングベクトルの変更を要することとなり(後述する関数Ψ(θ)やΨξ(θ)を参照のこと)、ひいてはフィルタ計算のやり直し(再設定)が余儀なくされる。そこで、環境変化に対して頑健であるためには、各反射物はスピーカアレーの従物であることが好ましい(この場合、想定されるΞ個の反射音は各反射物によるものであると考えることになる)。ここで「スピーカアレーの従物」とは、「スピーカアレーに対する配置関係(幾何学的関係)を維持したままスピーカアレーの位置や向きなどの変更に従うことができる有体物」のことである。単純な例として、スピーカアレーに各反射物が固定されている構成が挙げられる。 Since it is desired that one or more reflected sounds exist for a speaker array composed of M speakers, it is preferable that one or more reflectors exist. From this point of view, assuming that there is a listening position in the target direction, the positional relationship between the listening position, the speaker array, and one or more reflectors is that the sound (dual sound) from the speaker array reflects at least one reflection. It is preferable that each reflector is arranged so as to be reflected by the object and reach the listening position. Each reflector has a two-dimensional shape (for example, a flat plate) or a three-dimensional shape (for example, a parabolic shape). Moreover, it is preferable that the size of each reflector is equal to or larger than the speaker array (about 1 to 2 times). In order to effectively use the reflected sound, the reflectance α ξ (1 ≦ ξ ≦ Ξ) of each reflector is at least greater than 0, and more specifically, the amplitude of the reflected sound reaching the listening position is the direct sound. It is desirable that the amplitude is, for example, 0.2 times or more. For example, each reflector is a rigid solid. The reflecting object may be a movable object (for example, a reflector) or an immovable object (a floor, a wall, or a ceiling). If an immovable object is set as a reflection object, it is necessary to change the steering vector of the dual sound as the installation position of the speaker array is changed (functions Ψ (θ) and Ψ ξ (θ) described later are changed). (Refer to the above), and the filter calculation must be redone (reset). Therefore, in order to be robust against environmental changes, it is preferable that each reflector is a follower of a speaker array (in this case, it is assumed that the estimated number of reflected sounds is due to each reflector. become). Here, “speaker array subordinate” refers to “a tangible object that can follow changes in the position and orientation of the speaker array while maintaining the positional relationship (geometric relationship) with respect to the speaker array”. A simple example is a configuration in which each reflector is fixed to a speaker array.
以下、本発明の利点を具体的に説明する観点から、Ξ=1とし、双対音の反射回数は1回であって、スピーカアレーの中心からLメートル離れた位置に一つの反射物が存在すると仮定する。反射物は厚みのある剛体とする。この場合、Ξ=1であるからこれを表す添え字を略することとして、式(12a)は式(12b)のように表すことができる。
双対音のステアリングベクトルh→ r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は、直接音のステアリングベクトルの表し方と同様に(式(9a)参照)、式(13a)で表される。関数Ψ(θ)はスピーカアレーの中心から見た双対音の進行方向を出力する。なお、直接音のステアリングベクトルを式(9b)で表す場合には、双対音のステアリングベクトルh→ r(ω,θ)=[hr1(ω,θ),…,hrM(ω,θ)]Tのm番目の要素は式(13b)で表される。一般的に、ξ番目(1≦ξ≦Ξ)のステアリングベクトルh→ rξ(ω,θ)=[hr1ξ(ω,θ),…,hrMξ(ω,θ)]Tのm番目の要素は、式(13c)や式(13d)で表される。関数Ψξ(θ)はスピーカアレーから見たξ番目(1≦ξ≦Ξ)の双対音の進行方向を出力する。
反射物の位置は適宜に設定可能であるから、双対音の進行方向は変更可能なパラメータとして扱うことができる。 Since the position of the reflector can be set as appropriate, the traveling direction of the dual sound can be treated as a variable parameter.
平板状の反射物がスピーカアレーの近傍にある(距離Lがスピーカアレーのサイズに比して極端に大きくない)と仮定すると、コヒーレンスγ(ω,θ)は式(14)で表される。なお、θ≠θsとする。
式(14)から、式(11)の従来のコヒーレンスγconv(ω,θ)よりも式(14)のコヒーレンスγ(ω,θ)の方が小さくなる可能性があることがわかる。反射物の置き方によって変更できるパラメータ(Ψ(θ)やL)が式(14)の第2〜4項目の中に存在するので第1項目のh→ d H(ω,θ)h→ d(ω,θ)を除去できる可能性がある。 From equation (14), it can be seen that the coherence γ (ω, θ) of equation (14) may be smaller than the conventional coherence γ conv (ω, θ) of equation (11). There are parameters (Ψ (θ) and L) that can be changed depending on how the reflector is placed in the second to fourth items of equation (14), so the first item h → d H (ω, θ) h → d (ω, θ) may be removed.
例えば、線形スピーカアレーに対して、スピーカの配列方向が反射板の法線となるように平板の反射板を配置すると、関数Ψ(θ)についてΨ(θ)=π-θが成立し、直接音と反射音との時間差τ(θ)について式(15)が成立するので、式(14)を構成する要素に式(16)(17)の各条件が生成される。記号*は複素共役を表す演算子である。
h→ d H(ω,θ)h→ r(ω,θ)の絶対値はh→ d H(ω,θ)h→ d(ω,θ)よりも十分に小さいので、式(14)の第2項、第3項を無視すると、コヒーレンスγ(ω,θ)は式(18)のように近似できる。
仮にh→ d H(ω,θ)h→ d(ω,θ)≠0であるとしても、近似コヒーレンスγ~(ω,θ)は式(19)の極小解θを持つ。qは任意の正整数である。また、qの範囲は周波数帯域ごとに制限される。
つまり、式(11)で与えられる方向だけではなく、式(19)で与えられる方向でもコヒーレンスを抑圧できる。コヒーレンスを抑圧できれば、漏れ音声のパワーをより小さくできるので、図1(b)に模式的に示すように、鋭い指向性の実現が可能になる。 That is, the coherence can be suppressed not only in the direction given by Expression (11) but also in the direction given by Expression (19). If the coherence can be suppressed, the power of the leaked voice can be reduced, so that a sharp directivity can be realized as schematically shown in FIG.
なお、図1では本発明の原理に拠る場合と従来技術に拠る場合の指向性の違いを模式的に示したが、図2に、式(11)で与えられるθと式(19)で与えられるθの違いを具体的に示す。ω=2π×1000[rad/s],L=0.70[m],θs=π/4[rad]である。図2では両者の比較のために正規化されたコヒーレンスの方向依存性を示してあり、記号○で示された方向が式(11)で与えられるθであり、記号+で示された方向が式(19)で与えられるθである。図2から明らかなように、従来技術に拠るとθs=π/4[rad]に対してコヒーレンスがゼロとなるθは記号○で示された方向だけであるが、本発明の原理に拠るとθs=π/4[rad]に対してコヒーレンスがゼロとなるθは記号+で示される多数の方向に存在し、特に、記号○で示された方向よりもθs=π/4[rad]にはるかに近い方向に記号+で示された方向が存在するため、従来技術に比べて鋭い指向性が実現されることが理解できる。 FIG. 1 schematically shows the difference in directivity between the case of using the principle of the present invention and the case of using the prior art. In FIG. 2, θ given by Expression (11) and Expression (19) are given. The difference in θ obtained will be specifically shown. ω = 2π × 1000 [rad / s], L = 0.70 [m], θ s = π / 4 [rad]. FIG. 2 shows the direction dependency of the normalized coherence for comparison between the two. The direction indicated by the symbol ○ is θ given by the equation (11), and the direction indicated by the symbol + is It is (theta) given by Formula (19). As is apparent from FIG. 2, according to the prior art, the coherence becomes zero with respect to θ s = π / 4 [rad] only in the direction indicated by the symbol ○, but according to the principle of the present invention. And θ s = π / 4 [rad] and coherence is zero in many directions indicated by the symbol +, and in particular, θ s = π / 4 [ Since the direction indicated by the symbol + exists in a direction much closer to rad], it can be understood that sharp directivity is realized as compared with the prior art.
上述の説明から明らかなように、本発明の特徴の要点は、伝達特性a→(ω,θ)=[a1(ω,θ),…,aM(ω,θ)]Tを、例えば式(12a)のように、直接音のステアリングベクトルとΞ個の双対音のステアリングベクトルの和で表現していることにある。従って、フィルタの設計コンセプト自体に影響を与えないので、最小分散無歪応答法以外の手法によってフィルタW→(ω,θs)を設計することができる。 As is apparent from the above description, the main feature of the present invention is that the transfer characteristic a → (ω, θ) = [a 1 (ω, θ),..., A M (ω, θ)] T , for example, As shown in Expression (12a), this is expressed by the sum of the steering vector of the direct sound and the steering vectors of the dual dual sounds. Accordingly, since the filter design concept itself is not affected, the filter W → (ω, θ s ) can be designed by a method other than the minimum variance distortionless response method.
上述の最小分散無歪応答法以外の手法として、<1>SN比最大化規準によるフィルタ設計法、<2>パワーインバージョン(Power Inversion)に基づくフィルタ設計法、<3>一つ以上の死角(漏れ音声のゲインが抑圧される方向)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法、<4>遅延合成(Delay-and-Sum Beam Forming)法によるフィルタ設計法、<5>最尤法によるフィルタ設計法、<6>AMNOR(Adaptive Microphone-array for noise reduction)法によるフィルタ設計法を説明する。<1>SN比最大化規準によるフィルタ設計法と<2>パワーインバージョンに基づくフィルタ設計法については参考文献2を参照のこと。<3>一つ以上の死角(漏れ音声のゲインが抑圧される方向)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法については参考文献3を参照のこと。<6>AMNOR(Adaptive Microphone-array for noise reduction)法によるフィルタ設計法については参考文献4を参照のこと。
(参考文献2)菊間信良著、「アダプティブアンテナ技術」、第1版、株式会社オーム社、2003年、pp.35-90
(参考文献3)浅野太著、「日本音響学会編 音響テクノシリーズ16 音のアレイ信号処理-音源の定位・追跡と分離-」、初版、株式会社コロナ社、pp.88-89, 259-261
(参考文献4)金田豊著、「適応形雑音抑圧マイクロホンアレー(AMNOR)の指向特性」、日本音響学会誌44巻1号(1988)、pp.23-30
Other than the above-mentioned minimum variance distortion-free response method, <1> filter design method based on S / N ratio maximization criteria, <2> filter design method based on Power Inversion, <3> one or more blind spots (4) Filter design method based on minimum variance no distortion response method with the constraint (the direction in which the gain of leaked speech is suppressed), <4> Filter design method based on Delay-and-Sum Beam Forming method, <5> A filter design method using the maximum likelihood method and a filter design method using the <6> AMNOR (Adaptive Microphone-array for Noise Reduction) method will be described. Refer to
(Reference 2) Nobuyoshi Kikuma, “Adaptive Antenna Technology”, 1st Edition, Ohm Corporation, 2003, pp.35-90
(Reference 3) Taiko Asano, “The Acoustical Society of Japan, Acoustic Techno Series 16 Sound Array Signal Processing-Sound Source Localization, Tracking and Separation”, First Edition, Corona Inc., pp.88-89, 259-261
(Reference 4) Yutaka Kaneda, "Directivity characteristics of adaptive noise suppression microphone array (AMNOR)", Journal of the Acoustical Society of Japan, Vol. 44 No. 1 (1988), pp.23-30
<1>SN比最大化規準によるフィルタ設計法
SN比最大化規準によるフィルタ設計法では、目的方向θsでのSN比(SNR)を最大化する規準でフィルタW→(ω,θs)を決定する。目的方向θsへの音声の空間相関行列をRss(ω)、目的方向θs以外の方向への音声の空間相関行列をRnn(ω)とする。このとき、SNRは式(20)で表される。なお、Rss(ω)は式(21)、Rnn(ω)は式(22)で表される。伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(12a)で表される(正確には、式(12a)のθをθsとしたものである)。
In the filter design method based on the SN ratio maximization criterion, the filter W → (ω, θ s ) is determined based on the criterion for maximizing the SN ratio (SNR) in the target direction θ s . The spatial correlation matrix of the audio in the target direction θ s R ss (ω), the spatial correlation matrix of the audio in a direction other than the target direction theta s and R nn (ω). At this time, the SNR is expressed by Expression (20). Note that R ss (ω) is expressed by Expression (21), and R nn (ω) is expressed by Expression (22). Transfer characteristic a → (ω, θ s ) = [a 1 (ω, θ s ),..., A M (ω, θ s )] T is expressed by equation (12a) (exactly, equation (12a ) Is θ s ).
式(20)のSNRを最大にするフィルタW→(ω,θs)は、フィルタW→(ω,θs)に関する勾配をゼロとすること、つまり式(23)によって求めることができる。
これにより、式(20)のSNRを最大にするフィルタW→(ω,θs)は式(24)で与えられる。
式(24)には目的方向θs以外の方向への音声の空間相関行列Rnn(ω)の逆行列が含まれているが、Rnn(ω)の逆行列を、目的方向θsへの音声と目的方向θs以外の方向への音声を含む入力全体の空間相関行列Rxx(ω)の逆行列に置換してもよいことが知られている。なお、Rxx(ω)=Rss(ω)+Rnn(ω)=Q(ω)である(式(5a)、式(21)、式(22)参照)。つまり、式(20)のSNRを最大にするフィルタW→(ω,θs)を式(25)で求めてもよい。
<2>パワーインバージョンに基づくフィルタ設計法
パワーインバージョンに基づくフィルタ設計法では、一つのスピーカに対するフィルタ係数を一定値に固定した状態でビームフォーマの平均出力パワーを最小化する基準でフィルタW→(ω,θs)を決定する。ここでは、一例として、M個のスピーカのうち1番目のスピーカに対するフィルタ係数を固定するとして説明する。この設計法では、フィルタW→(ω,θs)は、式(27)の拘束条件の下、空間相関行列Rxx(ω)を用いて全方向(スピーカアレーからの音声の進行方向として想定される全ての方向)への音声のパワーが最小となるように設計される(式(26)参照)。伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(12a)で表される(正確には、式(12a)のθをθsとしたものである)。なお、Rxx(ω)=Q(ω)である(式(5a)、式(21)、式(22)参照)。
式(26)の最適解であるフィルタW→(ω,θs)は式(28)で与えられることが知られている(参考文献2参照)。
<3>一つ以上の死角を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法
上述の最小分散無歪応答法では、式(3)で表されるように目的方向θsの音声の全帯域通過を拘束条件とし、式(2)で表されるビームフォーマの平均出力パワーが最小となる(つまり、目的方向以外の方向への音声である漏れ音声のパワーが最小となる)フィルタを求める、という単一拘束条件の下の規準でフィルタW→(ω,θs)を設計した。この方法によると、全体的に漏れ音声のパワーを抑圧することはできるが、特定の一つまたは複数の方向への音声伝搬を強く抑圧したい場合には必ずしも好適な方法とは言えない。このような場合、既知の一つまたは複数の特定方向(つまり、死角)を強く抑圧するフィルタが要求される。このため、ここで説明するフィルタ設計法では、(1)目的方向θsの音声の全帯域通過、および(2)既知のB個(Bは1以上の予め定められた整数)の死角θN1,θN2,…,θNBの音声の全帯域抑制、を拘束条件として、式(2)で表されるビームフォーマの平均出力パワーが最小となる(つまり、目的方向と各死角とを除く方向への音声のパワーが最小となる)フィルタを求める。既述のように、音声の伝搬方向のインデックスφが属する集合を{1,2,…,P}とすると、Nj∈{1,2,…,P}(ただし、j∈{1,2,…,B}),B≦P-1である。
<3> Filter design method using minimum variance distortionless response method with one or more blind spots as constraint conditions In the above minimum variance distortionless response method, the speech of the target direction θ s is expressed as expressed by equation (3). A filter in which the average output power of the beamformer represented by Equation (2) is minimized (that is, the power of leaked speech that is speech in a direction other than the target direction is minimized) with the all-band pass as a constraint. The filter W → (ω, θ s ) was designed based on the criterion under the single constraint condition of obtaining. According to this method, the power of leaked voice can be suppressed as a whole, but it is not necessarily a preferable method when it is desired to strongly suppress voice propagation in one or more specific directions. In such a case, a filter that strongly suppresses one or more known specific directions (that is, blind spots) is required. For this reason, in the filter design method described here, (1) the entire band of the voice in the target direction θ s is passed, and (2) known B (B is a predetermined integer of 1 or more) blind angle θ N1. , Θ N2 ,..., Θ NB all the band suppression of the voice, and the average output power of the beamformer represented by Equation (2) is minimized (that is, the direction excluding the target direction and each blind spot) Find the filter that minimizes the power of the voice. As described above, if the set to which the index φ in the voice propagation direction belongs is {1, 2, ..., P}, Nj∈ {1,2, ..., P} (where j∈ {1,2, ..., B}), B ≦ P-1.
このとき、a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]Tを、方向θsに受聴位置が在り方向θNj(ただし、j∈{1,2,…,B})に死角が在るとして、方向θi(ただし、i∈{s,N1,N2,…,NB})とM個のスピーカとの間の周波数ωでの伝達特性、換言すれば、a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]Tは、スピーカアレーに含まれる各スピーカから方向θiへの音声の周波数ωでの伝達特性とすると、拘束条件は式(29)で表される。ただし、インデックスiについて、i∈{s,N1,N2,…,NB}であり、伝達特性a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]Tは式(12a)で表される(正確には、式(12a)のθをθiとしたものである)。fi(ω)は、方向θiに関する周波数ωでの通過特性を表す。
式(29)を行列形式で表現すると、例えば式(30)のように表すことができる。ただし、A→(ω,θs)=[a→(ω,θs),a→(ω,θN1),…,a→(ω,θNB)]である。
(1)目的方向θsの音声の全帯域通過、および(2)既知のB個の死角θN1,θN2,…,θNBの音声の全帯域抑制、という拘束条件を考慮すると、理想的には、fs(ω)=1.0、fi(ω)=0.0(i∈{N1,N2,…,NB})とされるべきである。これは、目的方向θsの音声の全帯域完全通過と、既知のB個の死角θN1,θN2,…,θNBの音声の全帯域完全阻止を表している。しかし、現実には全帯域完全通過や全帯域完全阻止という制御が難しい場合もある。このような場合には、fs(ω)の絶対値を1.0に近い値、fi(ω)(i∈{N1,N2,…,NB})の絶対値を0.0に近い値に設定すればよい。もちろん、fi(ω)とfj(ω)(i≠j、i,j∈{N1,N2,…,NB})は等しくても異なってもよい。 Considering the constraint conditions of (1) all-band passage of speech in the target direction θ s and (2) all-band suppression of speech of known B dead angles θ N1 , θ N2 ,. In this case, f s (ω) = 1.0 and f i (ω) = 0.0 (i∈ {N1, N2,..., NB}) should be satisfied. This represents the full-band complete passage of the sound in the target direction θ s and the full-band complete blocking of the sound of the known B dead angles θ N1 , θ N2 ,. However, in reality, it may be difficult to control full band full passage or full band full blocking. In such a case, the absolute value of f s (ω) is set to a value close to 1.0, and the absolute value of f i (ω) (i∈ {N1, N2,..., NB}) is set to a value close to 0.0. That's fine. Of course, f i (ω) and f j (ω) (i ≠ j, i, j∈ {N1, N2,..., NB}) may be equal or different.
ここで説明したフィルタ設計法によると、拘束条件を表す式(29)の下での式(2)の最適解であるフィルタW→(ω,θs)は式(31)で与えられる(参考文献3参照)。
<4>遅延合成法によるフィルタ設計法
遅延合成法によると、直接音や反射音が平面波伝搬すると仮定すると、フィルタW→(ω,θs)は式(32)で与えられる。つまり、フィルタW→(ω,θs)は伝達特性a→(ω,θs)を正規化して得られる。伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(12a)で表される(正確には、式(12a)のθをθsとしたものである)。この設計法によると、フィルタ精度は必ずしも良好とは言えない場合があるが、計算量が少なくて済む。
<5>最尤法によるフィルタ設計法
上述の最小分散無歪応答法において、空間相関行列Q(ω)内に目的方向への音声の空間情報を含めないことによって、漏れ音声を抑圧する自由度が向上し、漏れ音声のパワーをよりいっそう抑圧できる。このため、ここで説明するフィルタ設計法では、空間相関行列Q(ω)を、式(5a)の右辺第二項、つまり、式(5c)で表す。フィルタW→(ω,θs)は式(4)や式(31)で与えられる。このとき、式(4)や式(31)に含まれるQ(ω)あるいは式(25)や式(28)に含まれるRxx(ω)=Q(ω)は、式(5c)で表される空間相関行列である。
<6>AMNOR法によるフィルタ設計法
AMNOR法は、目的方向の音声の劣化量Dとフィルタ出力信号に残留する雑音のパワーとのトレードオフ関係を踏まえて、目的方向の音声の劣化量Dを或る程度許容し(例えば劣化量Dを或る閾値D^以下に保つようにする)、[a]目的方向の仮想的な信号(以下、仮想目的信号という)に音源とマイクロホンとの間の伝達特性を作用させた信号と[b](例えば目的方向の音声が無い雑音環境でのM個のマイクロホンによる観測によって得られる)雑音との混合信号を入力としたときのフィルタ出力信号が最小2乗誤差の観点から仮想目的信号を最も良く再現する(つまり、フィルタ出力信号に含まれる雑音のパワーが最小となる)フィルタを求める方式である。
<6> Filter design method by AMNOR method
The AMNOR method allows a certain amount of speech degradation amount D in the target direction based on the trade-off relationship between the speech degradation amount D in the target direction and the power of noise remaining in the filter output signal (for example, the degradation amount D). Is kept below a certain threshold value D ^), [a] a signal obtained by applying a transfer characteristic between a sound source and a microphone to a virtual signal in a target direction (hereinafter referred to as a virtual target signal) [b] The filter output signal when the mixed signal with noise (for example, obtained by observation with M microphones in a noise environment where there is no voice in the target direction) is input is the virtual target signal most in terms of the least square error. This is a method for obtaining a filter that reproduces well (that is, the noise power included in the filter output signal is minimized).
ここで説明するフィルタ設計法は、フィルタの入出力を逆にする以外はAMNOR法と同様に考えることができる。すなわち、目的方向への音声の劣化量Dとフィルタ出力信号に残留する漏れ音声のパワーとのトレードオフ関係を踏まえて、目的方向への音声の劣化量Dを或る程度許容し(例えば劣化量Dを或る閾値D^以下に保つようにする)、音源信号の周波数領域信号S(ω,k)を入力としたときのフィルタ出力信号が最小2乗誤差の観点から周波数領域信号S(ω,k)を最も良く再現する(つまり、フィルタ出力信号に含まれる漏れ音声のパワーが最小となる)フィルタを求める。フィルタ出力信号は、[a]スピーカアレーに含まれる各スピーカから目的方向θsへの音声の周波数ωでの伝達特性を周波数領域信号S(ω,k)に作用させた信号(以下、受聴信号という)と[b](例えば雑音環境でのM個のマイクロホンによる観測によって得られる)雑音との混合信号である。 The filter design method described here can be considered in the same way as the AMNOR method except that the input and output of the filter are reversed. That is, based on the trade-off relationship between the speech degradation amount D in the target direction and the power of leaked speech remaining in the filter output signal, the speech degradation amount D in the target direction is allowed to some extent (for example, the degradation amount D is kept below a certain threshold value D ^), and when the frequency domain signal S (ω, k) of the sound source signal is input, the filter output signal is the frequency domain signal S (ω , k) is obtained best (that is, the power of the leaked voice included in the filter output signal is minimized). The filter output signal is a signal (hereinafter referred to as an audible signal) obtained by applying a transfer characteristic at the frequency ω of sound from each speaker included in the speaker array in the target direction θ s to the frequency domain signal S (ω, k). And [b] noise (obtained for example by observation with M microphones in a noisy environment).
ここで説明するフィルタ設計法によると、AMNOR法と同様に、フィルタW→(ω,θs)は式(33)で与えられる(参考文献4参照)。なお、Rss(ω)は式(21)、Rnn(ω)は式(22)で表される。伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]Tは式(12a)で表される(正確には、式(12a)のθをθsとしたものである)。
Psは、受聴信号のレベルを重み付けする係数であり、受聴信号レベルと呼称される。受聴信号レベルPsは、周波数に依存しない定数である。受聴信号レベルPsは、経験則に基づいて決められてもよく、あるいは、目的方向への音声の劣化量Dと閾値D^との差が任意に定められた誤差範囲内となるように決定されてもよい。後者の例を説明する。周波数ωにおいて、フィルタW→(ω,θs)の目的方向θsの音声の周波数応答F(ω)は、式(34)で表される。式(33)で与えられるフィルタW→(ω,θs)を用いたときの劣化量DをD(Ps)と表記すると、劣化量D(Ps)は式(35)で定義される。ω0は、対象となる周波数ωの上限(通常は、離散的な周波数ωに隣接する高域側周波数である)を表す。劣化量D(Ps)はPsの単調減少関数である。従って、D(Ps)の単調性によって、Psを変化させながら劣化量D(Ps)を求めることを繰り返すことで、劣化量D(Ps)と閾値D^との差が任意に定められた誤差範囲内となる受聴信号レベルPsを求めることができる。
<変形例>
上述の説明では、空間相関行列Q(ω)、Rss(ω)、Rnn(ω)を、伝達特性を用いて表現した。しかし、上述のように、マイクロホンアレーによって観測して得られたアナログ信号を周波数領域に変換して得られる周波数領域信号を用いて空間相関行列Q(ω)、Rss(ω)、Rnn(ω)を表現することもできる。以下、空間相関行列Q(ω)について説明するが、Rss(ω)、Rnn(ω)についても同様である(Q(ω)をRss(ω)あるいはRnn(ω)に読み替えればよい)。なお、空間相関行列Rss(ω)は目的方向への音声のみが存在する環境でのマイクロホンアレー(M個のマイクロホンを含む)による観測によって得られたアナログ信号の周波数領域表現によって得られ、空間相関行列Rnn(ω)は目的方向への音声が無い環境(つまり雑音環境)でのマイクロホンアレー(M個のマイクロホンを含む)による観測によって得られたアナログ信号の周波数領域表現によって得られる。
<Modification>
In the above description, the spatial correlation matrices Q (ω), R ss (ω), and R nn (ω) are expressed using transfer characteristics. However, as described above, the spatial correlation matrix Q (ω), R ss (ω), R nn (using the frequency domain signal obtained by converting the analog signal obtained by observation with the microphone array into the frequency domain. ω) can also be expressed. The spatial correlation matrix Q (ω) will be described below, but the same applies to R ss (ω) and R nn (ω) (Q (ω) can be read as R ss (ω) or R nn (ω). Just fine). Note that the spatial correlation matrix R ss (ω) is obtained by the frequency domain representation of the analog signal obtained by observation with a microphone array (including M microphones) in an environment where only sound in the target direction exists. The correlation matrix R nn (ω) is obtained by frequency domain representation of an analog signal obtained by observation with a microphone array (including M microphones) in an environment where there is no sound in the target direction (that is, a noise environment).
周波数領域信号U→(ω,k)=[U1(ω,k),…,UM(ω,k)]Tを用いた空間相関行列Q(ω)は式(36)で表される。演算子E[・]は、統計的平均操作を表す演算子である。M個のマイクロホンで受音したアナログ信号の離散時系列を確率過程と見たとき、それがいわゆる広義の定常ないし2次定常である場合、演算子E[・]は算術平均値(期待値)演算となる。この場合、空間相関行列Q(ω)は、例えば、メモリ等に蓄積された現在および過去の計ζ個のフレームの周波数領域信号U→(ω,k-i)(i=0,1,…,ζ-1)を用いて式(37)で表される。i=0のとき、つまり第kフレームが現在のフレームである。なお、式(36)ないし式(37)による空間相関行列Q(ω)はフレーム毎に計算し直してもよいし、あるいは、定期ないし不定期の間隔で計算し直してもよいし、あるいは、後に説明する実施形態の実施の前に計算しておいてもよい(特に、フィルタ設計にRss(ω)あるいはRnn(ω)を用いる場合には、実施形態の実施の前に取得された周波数領域信号を用いて空間相関行列Q(ω)を事前に計算しておくことが好適である)。フレーム毎に空間相関行列Q(ω)を計算し直す場合、空間相関行列Q(ω)は現在と過去のフレームに依存するから、式(36a)や式(37a)のように明示的に空間相関行列をQ(ω,k)と表すことにする。
式(36a)や式(37a)で表される空間相関行列Q(ω,k)を用いるとフィルタW→(ω,θs)も現在と過去のフレームに依存するから、明示的にこれをW→(ω,θs,k)と表すことにする。このとき、上述の種々のフィルタ設計法で説明した式(4)、式(24)、式(25)、式(28)、式(31)、式(33)のいずれかで表されるフィルタW→(ω,θs)は、表記上、式(4m)、式(24m)、式(25m)、式(28m)、式(31m)、式(33m)に修正される。
《実施形態1》
本発明の実施形態1の機能構成および処理フローを図3と図4に示す。この実施形態1の狭指向音声再生処理装置1は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ設計部260、記憶部290を含む。
The functional configuration and processing flow of the first embodiment of the present invention are shown in FIGS. The narrow-directional sound
[ステップS1]
予め、フィルタ設計部260が音声再生の対象となりえる離散的な方向ごとに、周波数ごとのフィルタW→(ω,θi)を計算しておく。音声再生の対象となりえる離散的な方向の総数をI(Iは1以上の予め定められた整数であり、I≦Pを満たす)とすると、W→(ω,θ1),…,W→(ω,θi),…,W→(ω,θI)(1≦i≦I, ω∈Ω; iは整数、Ωは周波数ωの集合)を事前に計算しておくのである。
[Step S1]
In advance, the filter design unit 260 calculates a filter W → (ω, θ i ) for each frequency for each discrete direction that can be a target of audio reproduction. The total number of I discrete directions that may be subject to audio playback (I is one or more predetermined integer, satisfying the I ≦ P) When, W → (ω, θ 1 ), ..., W → (ω, θ i ),..., W → (ω, θ I ) (1 ≦ i ≦ I, ω∈Ω; i is an integer, Ω is a set of frequencies ω) is calculated in advance.
このためには、上述の<変形例>で説明した場合を除き、伝達特性a→(ω,θi)=[a1(ω,θi),…,aM(ω,θi)]T(1≦i≦I, ω∈Ω)を求める必要があるが、これは、スピーカアレーにおけるスピーカの配置、反射物である例えば反射板、床、壁、天井のスピーカアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との時間差、反射物の音の反射率などの環境情報を基に式(12a)によって具体的に計算できる(正確には、式(12a)のθをθiとしたものである)。なお、上述の<3>一つ以上の死角を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a→(ω,θi)(1≦i≦I, ω∈Ω)を求める際の方向のインデックスiは、少なくともB個の死角の方向のインデックスN1,N2,…,NBの全てを亘ることが望ましい。換言すれば、B個の死角の方向のインデックスN1,N2,…,NBは、1以上I以下のいずれかの異なる整数として設定される。 For this purpose, except for the case described in <Modification> above, transfer characteristics a → (ω, θ i ) = [a 1 (ω, θ i ),..., A M (ω, θ i )] T (1 ≤ i ≤ I, ω ∈ Ω) needs to be obtained. This is because the speaker arrangement in the speaker array, the positional relationship of the reflectors such as the reflector, floor, wall, and ceiling with respect to the speaker array, directly Based on environmental information such as the time difference between the sound and the ξ-th (1 ≦ ξ ≦ Ξ) reflected sound, the reflectance of the sound of the reflector, etc., it can be specifically calculated by the equation (12a) (precisely, the equation (12a ) Of θ) is θ i ). In the case of using the filter design method based on the above-mentioned <3> one or more blind spots and the minimum variance no distortion response method, the transfer characteristic a → (ω, θ i ) (1 ≦ i ≦ I, ω∈ It is desirable that the index i in the direction for obtaining Ω) spans all of the indices N1, N2,. In other words, the indexes N1, N2,..., NB in the direction of the B blind spots are set as any different integer from 1 to I.
反射音(あるいは双対音)の数Ξは1≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。一つの反射板をスピーカアレーの近傍に設置する場合には、伝達特性a→(ω,θi)は式(12b)によって具体的に計算できる(正確には、式(12b)のθをθiとしたものである)。 The number 反射 of the reflected sounds (or dual sounds) is set to an integer that satisfies 1 ≦ Ξ, but the value of Ξ is not particularly limited and may be set appropriately according to the calculation capability. When one reflector is installed in the vicinity of the speaker array, the transfer characteristic a → (ω, θ i ) can be specifically calculated by the equation (12b) (more precisely, θ in the equation (12b) is θ i ).
ステアリングベクトルの計算には、例えば式(9a)、式(9b)、式(13a)、式(13b)、式(13c)、式(13d)を用いることができる。なお、フィルタ設計に用いる伝達特性として、式(12a)や式(12b)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。 For example, the formula (9a), the formula (9b), the formula (13a), the formula (13b), the formula (13c), and the formula (13d) can be used for the calculation of the steering vector. In addition, as a transfer characteristic used for filter design, you may use the transfer characteristic obtained by actual measurement in a real environment, for example, without depending on Formula (12a) and Formula (12b).
そして、上述の<変形例>で説明した場合を除き、伝達特性a→(ω,θi)を用いて、例えば式(4)、式(24)、式(25)、式(28)、式(31)、式(32)、式(33)のいずれかによってW→(ω,θi)(1≦i≦I)を求める。なお、上述の<5>最尤法によるフィルタ設計法で説明した場合を除き、式(4)または式(25)または式(28)または式(31)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(5b)で計算できる。上述の<5>最尤法によるフィルタ設計法に拠って、式(4)または式(25)または式(28)または式(31)を用いる場合には空間相関行列Q(ω)(あるいはRxx(ω))は式(5c)で計算できる。式(24)を用いる場合には空間相関行列Rnn(ω)は式(22)で計算できる。I×|Ω|個のフィルタW→(ω,θi)(1≦i≦I,ω∈Ω)は記憶部290に記憶される。|Ω|は集合Ωの要素数を表す。
Then, except for the case described in <Modification> above, using the transfer characteristic a → (ω, θ i ), for example, Expression (4), Expression (24), Expression (25), Expression (28), W → (ω, θ i ) (1 ≦ i ≦ I) is obtained by any one of the equations (31), (32), and (33). Except for the case described in the filter design method based on the <5> maximum likelihood method described above, when using equation (4), equation (25), equation (28), or equation (31), the spatial correlation matrix Q ( ω) (or R xx (ω)) can be calculated by equation (5b). Based on the above-described <5> maximum likelihood filter design method, when using equation (4), equation (25), equation (28), or equation (31), spatial correlation matrix Q (ω) (or R xx (ω)) can be calculated by equation (5c). When using equation (24), the spatial correlation matrix R nn (ω) can be calculated by equation (22). I × | Ω | filters W → (ω, θ i ) (1 ≦ i ≦ I, ω∈Ω) are stored in the
[ステップS2]
音源200が音源信号ss(t)を出力する。この実施形態1では、音源200からの音源信号ss(t)はアナログ信号であるとする。ただし、音源信号としてディジタル信号を用いることもできる。
[Step S2]
The
[ステップS3]
AD変換部210が、音源信号ss(t)をディジタル信号s(t)へAD変換する。ここでtは離散時間のインデックスを表す。なお、ディジタル信号が音源信号である場合には、ステップS3の処理を行う必要がなく、音源信号をAD変換部210の出力信号であるs(t)と見なすことができる。
[Step S3]
The
[ステップS4]
フレーム生成部220は、AD変換部210が出力したディジタル信号s(t)を入力とし、Nサンプルをバッファに貯めてフレーム単位のディジタル信号s(k)を出力する。kはフレーム番号のインデックスである。s(k)=[s((k-1)N+1),…,s(kN)]である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
[Step S4]
The
[ステップS5]
周波数領域変換部230は、各フレームのディジタル信号s(k)を周波数領域の信号S(ω,k)に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号S(ω,k)は、各周波数ω、フレームkごとに出力される。
[Step S5]
The
[ステップS6]
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号S(ω,k)に、再生したい目的方向θsに対応するフィルタW→(ω,θs)を適用して、再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]を出力する(式(38)参照)。目的方向θsのインデックスsは、s∈{1,…,I}であり、フィルタW→(ω,θs)は記憶部290に記憶されているので、例えば、ステップS6の処理の都度、フィルタ適用部240は、再生したい目的方向θsに対応するフィルタW→(ω,θs)を記憶部290から取得すればよい。目的方向θsのインデックスsが集合{1,…,I}に属さない場合、つまり、目的方向θsに対応するフィルタW→(ω,θs)がステップS1の処理で計算されていない場合、臨時に目的方向θsに対応するフィルタW→(ω,θs)をフィルタ設計部260に計算させてもよいし、あるいは目的方向θsに近い方向θs'に対応するフィルタW→(ω,θs')を用いてよい。
The
[ステップS7]
時間領域変換部250は、第kフレームの各周波数ω∈Ωの再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]を時間領域に変換して第kフレームのフレーム単位時間領域信号x→(k)=[x1(k),…,xM(k)]を得て、さらに、得られたフレーム単位時間領域信号x→(k)=[x1(k),…,xM(k)]をフレーム番号のインデックスの順番に連結して再生方向である目的方向θsに向けて音声が強調された時間領域信号x→(t)=[x1(t),…,xM(t)]を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS5の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
[Step S7]
The time
[ステップS8]
Mチャネルの時間領域信号x1(t),…,xM(t)はそれぞれ、スピーカアレーを構成するM個のスピーカ280−1,…,280−Mのうち、チャネルに対応するスピーカで再生される。つまり、m番目(1≦m≦M)のチャネルの時間領域信号xm(t)はm番目のスピーカ280−mで再生される。
[Step S8]
M channel time domain signals x 1 (t),..., X M (t) are reproduced by the speakers corresponding to the channel among the M speakers 280-1,. Is done. That is, the time domain signal x m (t) of the m-th (1 ≦ m ≦ M) channel is reproduced by the m-th speaker 280-m.
なお、M個のスピーカの並べ方に制限は無い。線形スピーカアレーのように直線状にスピーカを配置するアレー構成でもよいし、2次元または3次元的にM個のスピーカを配置するアレー構成でもよい。また、再生方向として設定できる方向を広くとるためには、各スピーカの指向性は、再生方向である目的方向θsになり得る方向に或る程度の音圧で音声を再生可能な指向性を持っていたほうがよい。したがって、無指向性スピーカや単一指向性スピーカといった指向性が比較的緩やかなスピーカが好適である。 There is no limit to the way the M speakers are arranged. An array configuration in which speakers are linearly arranged like a linear speaker array may be used, or an array configuration in which M speakers are two-dimensionally or three-dimensionally arranged. In addition, in order to make the direction that can be set as the reproduction direction wide, the directivity of each speaker is such that the sound can be reproduced with a certain sound pressure in the direction that can be the target direction θ s that is the reproduction direction. You should have it. Therefore, a speaker having relatively gentle directivity such as a non-directional speaker or a unidirectional speaker is preferable.
ここでは、ステップS1の処理で予めフィルタW→(ω,θi)を計算しておく実施形態1を説明したが、狭指向音声再生処理装置1の計算処理能力などに応じて、再生方向である目的方向θsが定まってからフィルタ設計部260が周波数ごとのフィルタW→(ω,θs)を計算する実施形態を採用することもできる。
Here, the first embodiment in which the filter W → (ω, θ i ) is calculated in advance in the process of step S1 has been described. However, according to the calculation processing capability of the narrow-directional sound
《実施形態2》
本発明の実施形態2の機能構成および処理フローを図17と図18に示す。この実施形態2の狭指向音声再生処理装置2は、AD変換部210、フレーム生成部220、周波数領域変換部230、フィルタ適用部240、時間領域変換部250、フィルタ計算部261、記憶部290、AD変換部310、フレーム生成部320、周波数領域変換部330を含む。
<<
The functional configuration and processing flow of
[ステップS11]
音源200が音源信号ss(t)を出力する。この実施形態2では、音源200からの音源信号ss(t)はアナログ信号であるとする。ただし、音源信号としてディジタル信号を用いることもできる。
[Step S11]
The
[ステップS12]
AD変換部210が、音源信号ss(t)をディジタル信号s(t)へAD変換する。ここでtは離散時間のインデックスを表す。なお、ディジタル信号が音源信号である場合には、ステップS12の処理を行う必要がなく、音源信号をAD変換部210の出力信号であるs(t)と見なすことができる。
[Step S12]
The
[ステップS13]
フレーム生成部220は、AD変換部210が出力したディジタル信号s(t)を入力とし、Nサンプルをバッファに貯めてフレーム単位のディジタル信号s(k)を出力する。kはフレーム番号のインデックスである。s(k)=[s((k-1)N+1),…,s(kN)]である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
[Step S13]
The
[ステップS14]
周波数領域変換部230は、各フレームのディジタル信号s(k)を周波数領域の信号S(ω,k)に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号S(ω,k)は、各周波数ω、フレームkごとに出力される。
[Step S14]
The
[ステップS15]
フィルタ計算部261が、現在の第kフレームで用いられる、目的方向θsに対応する周波数毎のフィルタW→(ω,θs,k)(ω∈Ω; Ωは周波数ωの集合)を計算する。
[Step S15]
The
このためには、伝達特性a→(ω,θs)=[a1(ω,θs),…,aM(ω,θs)]T(ω∈Ω)を用意する必要があるが、これは、スピーカアレーにおけるスピーカの配置、反射物である例えば反射板、床、壁、天井のスピーカアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との時間差、反射物の音の反射率などの環境情報を基に式(12a)によって具体的に計算できる(正確には、式(12a)のθをθsとしたものである)。なお、上述の<3>一つ以上の死角を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法に拠る場合、伝達特性a→(ω,θNj)(1≦j≦B, ω∈Ω)も求める必要があるが、これらはスピーカアレーにおけるスピーカの配置、反射物である例えば反射板、床、壁、天井のスピーカアレーに対する位置関係、直接音とξ番目(1≦ξ≦Ξ)の反射音との時間差、反射物の音の反射率などの環境情報を基に式(12a)によって具体的に計算できる(正確には、式(12a)のθをθNjとしたものである)。 For this purpose, it is necessary to prepare the transfer characteristic a → (ω, θ s ) = [a 1 (ω, θ s ), ..., a M (ω, θ s )] T (ω∈Ω) This is the arrangement of the speakers in the speaker array, the positional relationship of the reflectors such as the reflector, floor, wall, and ceiling with respect to the speaker array, the time difference between the direct sound and the ξth (1 ≦ ξ ≦ Ξ) reflected sound, environmental information such as the reflectivity of sound reflector can specifically calculated by the equation (12a) based on (accurately, in which a theta of formula (12a) was theta s). In the case of using the filter design method based on the above-described <3> one or more blind spots and the minimum variance no distortion response method, the transfer characteristic a → (ω, θ Nj ) (1 ≦ j ≦ B, ω∈ Ω) also needs to be obtained, but these are the arrangement of speakers in the speaker array, the positional relationship of reflectors such as reflectors, floors, walls, and ceilings to the speaker array, direct sound and ξth (1 ≦ ξ ≦ Ξ) (12a) can be specifically calculated based on environmental information such as the time difference from the reflected sound and the reflectance of the sound of the reflector (more precisely, θ in the expression (12a) is θ Nj. ).
反射音の数Ξは1≦Ξを満たす整数に設定されるが、Ξの値として特に限定はなく計算能力などに応じて適宜に設定すればよい。一つの反射板をスピーカアレーの近傍に設置する場合には、伝達特性a→(ω,θs)は式(12b)によって具体的に計算できる(正確には、式(12b)のθをθsとしたものである)。この場合、同様に、伝達特性a→(ω,θNj)(1≦j≦B, ω∈Ω)は式(12b)によって具体的に計算できる(正確には、式(12b)のθをθNjとしたものである)。 The number 反射 of the reflected sound is set to an integer satisfying 1 ≦ Ξ, but the value of Ξ is not particularly limited and may be appropriately set according to the calculation ability. When one reflector is installed in the vicinity of the speaker array, the transfer characteristic a → (ω, θ s ) can be specifically calculated by the equation (12b) (more precisely, θ in the equation (12b) is θ s ). In this case, similarly, the transfer characteristic a → (ω, θ Nj ) (1 ≦ j ≦ B, ω∈Ω) can be specifically calculated by the equation (12b) (more precisely, θ in the equation (12b) is θ Nj ).
ステアリングベクトルの計算には、例えば式(9a)、式(9b)、式(13a)、式(13b)、式(13c)、式(13d)を用いることができる。フィルタ設計に用いる伝達特性として、なお、式(12a)や式(12b)に拠らず、例えば実環境下における実測で得られた伝達特性を用いてもよい。 For example, the formula (9a), the formula (9b), the formula (13a), the formula (13b), the formula (13c), and the formula (13d) can be used for the calculation of the steering vector. As a transfer characteristic used for filter design, a transfer characteristic obtained by actual measurement in an actual environment may be used, for example, without depending on Expression (12a) or Expression (12b).
そして、フィルタ計算部261は、伝達特性a→(ω,θs)(ω∈Ω)や必要に応じて伝達特性a→(ω,θNj)(1≦j≦B, ω∈Ω)を用いて、フィルタW→(ω,θs,k)(ω∈Ω)を、式(4m)、式(24m)、式(25m)、式(28m)、式(31m)、式(33m)のいずれかに従って求める。なお、空間相関行列Q(ω)(あるいはRxx(ω))は例えば式(36a)や式(37a)で計算できる。空間相関行列Q(ω)の計算には、記憶部290に蓄積された現在および過去の計ζ個のフレームの周波数領域信号X→(ω,k-i)(i=0,1,…,ζ-1)が用いられる。
Then, the
周波数領域信号X→(ω,k)は、下記のようにして記憶部290に蓄積される。
マイクロホンアレーを構成するM個のマイクロホン300−1,…,300−Mを用いて収音する。M個のマイクロホンの並べ方等はスピーカアレーと同じとすることが好ましい。
AD変換部310が、M個のマイクロホン300−1,…,300−Mで収音されたアナログ信号(収音信号)をディジタル信号x→(t)=[x1(t),…,xM(t)]へ変換する。tは離散時間のインデックスを表す。
フレーム生成部320は、AD変換部310が出力したディジタル信号x→(t)=[x1(t),…,xM(t)]を入力とし、チャネルごとにNサンプルをバッファに貯めてフレーム単位のディジタル信号x→(k)=[x→ 1(k),…,x→ M(k)]を出力する。kはフレーム番号のインデックスである。x→ m(k)=[xm((k-1)N+1),…,xm(kN)](1≦m≦M)である。Nはサンプリング周波数にもよるが、16kHzサンプリングの場合には512点あたりが妥当である。
周波数領域変換部330は、各フレームのディジタル信号x→(k)を周波数領域の信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]に変換して出力する。ωは離散周波数のインデックスである。時間領域信号を周波数領域信号に変換する方法の一つに高速離散フーリエ変換があるが、これに限定されず、周波数領域信号に変換する他の方法を用いてもよい。周波数領域信号X→(ω,k)は、各周波数ω、フレームkごとに出力され、記憶部290に蓄積される。
The frequency domain signal X → (ω, k) is accumulated in the
Sound is collected using M microphones 300-1,..., 300-M constituting the microphone array. The arrangement of the M microphones is preferably the same as that of the speaker array.
The
The
The frequency
[ステップS16]
フィルタ適用部240は、フレームkごとに、各周波数ω∈Ωについて、周波数領域信号S(ω,k)に、再生したい目的方向θsに対応するフィルタW→(ω,θs,k)を適用して、再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]を出力する(式(39)参照)。
The
[ステップS17]
時間領域変換部250は、第kフレームの各周波数ω∈Ωの再生信号X→(ω,k)=[X1(ω,k),…,XM(ω,k)]を時間領域に変換して第kフレームのフレーム単位時間領域信号x→(k)=[x1(k),…,xM(k)]を得て、さらに、得られたフレーム単位時間領域信号x→(k)=[x1(k),…,xM(k)]をフレーム番号のインデックスの順番に連結して再生方向である目的方向θsに向けて音声が強調された時間領域信号x→(t)=[x1(t),…,xM(t)]を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS14の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
[Step S17]
The time
[ステップS18]
Mチャネルの時間領域信号x1(t),…,xM(t)はそれぞれ、スピーカアレーを構成するM個のスピーカ280−1,…,280−Mのうち、チャネルに対応するスピーカで再生される。つまり、m番目(1≦m≦M)のチャネルの時間領域信号xm(t)はm番目のスピーカ280−mで再生される。
[Step S18]
M channel time domain signals x 1 (t),..., X M (t) are reproduced by the speakers corresponding to the channel among the M speakers 280-1,. Is done. That is, the time domain signal x m (t) of the m-th (1 ≦ m ≦ M) channel is reproduced by the m-th speaker 280-m.
本発明の実施形態1(単一拘束条件の最小分散無歪応答法)による実験結果を説明する。図5に示すように、24本の無指向性スピーカを直線的に配置し、この線形スピーカアレーの配列方向が反射板300の法線となるように反射板300を配置した。反射板300の形状に制限はないが、反射面が平面であって、1.0m×1.0mのサイズと適度な厚みと剛性を持つ平板の反射板を用いた。隣り合うスピーカの間隔を4cm、反射板の反射率αを0.8とした。目的方向θsを45度に設定した。線形スピーカアレーから音声が平面波として放射されると仮定し、伝達特性を式(12b)(式(9a)、式(13a)を参照)で算出して、生成されるフィルタの指向性を検証した。比較対象として、上記非特許文献1に記載された従来法(反射板無しの最小分散無歪応答法)を用いた。
The experimental results according to
実験結果を図6、図7に示す。従来法と比較して、どの周波数帯域でも本発明の実施形態1の方が、目的方向に対して鋭い指向性を実現できていることが分かる。特に、低周波数帯域ほど本発明の有用性が理解される(人の声は100Hz程度から2kHz程度の周波数成分を多く含んでいる)。また、図8には、本発明の実施形態1に従って生成したフィルタW→(ω,θ)による指向性を示した。図8から、目的方向θs=45度に直接音が送波されているだけでなく、反射板300が置かれた方向へも音声が送波されていることが分かる。
The experimental results are shown in FIGS. Compared with the conventional method, it can be seen that the first embodiment of the present invention can achieve sharper directivity with respect to the target direction in any frequency band. In particular, the usefulness of the present invention is understood as the frequency band is lower (a human voice contains more frequency components from about 100 Hz to about 2 kHz). FIG. 8 shows the directivity by the filter W → (ω, θ) generated according to the first embodiment of the present invention. From FIG. 8, it can be seen that not only the direct sound is transmitted in the target direction θ s = 45 degrees, but also the sound is transmitted in the direction in which the
また、図9に示すように、線形スピーカアレーに含まれるスピーカの配列方向と反射板300の平面とのなす角が45度になるように反射板300を配置した場合についても上述の実験と同様の実験を行った。目的方向θsを22.5度に設定し、その他の実験条件は線形スピーカアレーに含まれるスピーカの配列方向が反射板300の法線となるように反射板300を配置した場合と同じとした。
Further, as shown in FIG. 9, the case where the
実験結果を図10、図11に示す。従来法と比較して、どの周波数帯域でも本発明の実施形態1の方が、目的方向に対して鋭い指向性を実現できていることが分かる。特に、低周波数帯域ほど本発明の有用性が理解される。 The experimental results are shown in FIGS. Compared with the conventional method, it can be seen that the first embodiment of the present invention can achieve sharper directivity with respect to the target direction in any frequency band. In particular, the lower the frequency band, the better the utility of the present invention.
次に、本発明の実施構成の例を図12〜図16を参照して説明する。これらの例ではスピーカアレーの構成は線形スピーカアレーとして図示されているが、線形スピーカアレーの構成に限定されない。 Next, an exemplary embodiment of the present invention will be described with reference to FIGS. In these examples, the configuration of the speaker array is illustrated as a linear speaker array, but is not limited to the configuration of the linear speaker array.
図12に示す実施構成例では、線形スピーカアレーを構成するM個のスピーカ280−1,…,280−Mは矩形平板状の支持部材400に固定されており、この状態で各スピーカの拡声孔は支持部材400の或る一つの平面(以下、開口面と呼ぶ)に配置されている(図示の例ではM=13)。なお、各スピーカ280−1,…,280−Mに接続される配線は図示していない。そして、各スピーカ280−1,…,280−Mの配列方向が矩形平板状の反射板300の法線となるように反射板300が支持部材400の端部に固定されている。支持部材400の開口面は、反射板300と90度をなす面である。図12に示す実施構成例では、反射板300の好ましいとされる性状は既述の反射物の性状と同じであり、支持部材400の性状については特に限定はなく各スピーカ280−1,…,280−Mをしっかりと固定できる剛性を持っていれば十分である。
In the embodiment shown in FIG. 12, M speakers 280-1,..., 280-M constituting the linear speaker array are fixed to a
図13(a)に示す実施構成例では、支持部材400の端部に軸部410が固定されており、反射板300は軸部410に回動自在に取り付けられている。この実施構成例によると、スピーカアレーに対する反射板300の幾何学的配置を変更することが可能である。
In the exemplary embodiment shown in FIG. 13A, the
図13(b)に示す実施構成例では、図12に示す実施構成例において、さらに二つの反射板310,320が追加されている。追加された二つの反射板310,320の性状は反射板300の性状と同じでも異なってもよい。また、反射板310の性状は反射板320の性状と同じでも異なってもよい。以下、反射板300を固定反射板300と呼称する。固定反射板300の端部(支持部材400に固定されている固定反射板300の端部とは反対側の端部)に軸部510が固定されており、反射板310は軸部510に回動自在に取り付けられている。また、支持部材400の端部(固定反射板300が固定されている支持部材400の端部とは反対側の端部)に軸部520が固定されており、反射板320は軸部520に回動自在に取り付けられている。以下、反射板310,320を可動反射板310,320と呼称する。図13(b)に示す実施構成例によると、例えば固定反射板300の反射面と可動反射板310の反射面が一致するように可動反射板310の位置を設定すると、固定反射板300と可動反射板310の組み合わせを、固定反射板300よりも大きい反射面を持つ反射板として機能させることができる。また、図13(b)に示す実施構成例によると、可動反射板310,320を適切な位置に設定することによって、例えば図14に示すように支持部材400、固定反射板300、可動反射板310,320で囲まれた空間内で何度も音声を反射させることができるので、反射音の数Ξを制御することができる。なお、図13(b)に示す実施構成例の場合、支持部材400は反射物としての役割を果たすことになるので、既述の反射物の性状と同じ性状を持つことが好ましい。
In the implementation configuration example shown in FIG. 13B, two
図15に示す実施構成例は、反射板300にもスピーカアレー(図示の例では線形スピーカアレー)が設けられていることが図12に示す実施構成例と異なる。図15に示す実施構成例では、支持部材400に固定されたM個のスピーカの配列方向と反射板300に固定されたM’個のスピーカの配列方向が同一平面上にあるが、このような配置構成に限定されない(図示の例ではM’=13)。例えば、支持部材400に固定されたM個のスピーカの配列方向と直交するような配列方向を持つように反射板300にM’個のスピーカが固定されていてもよい。図15に示す実施構成例によると、支持部材400に設けられたスピーカアレーと反射板300(反射板300に設けられたスピーカアレーを使用せず、反射板300を反射物として使用する)との組み合わせで本発明を実施したり、支持部材400(支持部材400に設けられたスピーカアレーを使用せず、支持部材400を反射物として使用する)と反射板300に設けられたスピーカアレーとの組み合わせで本発明を実施したりすることができる。
The embodiment configuration example shown in FIG. 15 is different from the embodiment configuration example shown in FIG. 12 in that the
また、図15に示す実施構成例の拡張実施構成例として、図13(b)に示す実施構成例と同様に、図15に示す実施構成例においてさらに二つの反射板310,320を追加した構成としてもよい(図16参照)。また、図示していないが、可動反射板310,320の少なくとも一つにスピーカアレーを設けてもよい。可動反射板310に設けられるスピーカアレーを構成する各スピーカの拡声孔は、例えば、支持部材400の開口面と対向可能な可動反射板310の平面(開口面)に配置される。可動反射板320に設けられるスピーカアレーを構成する各スピーカの拡声孔は、例えば、支持部材400の開口面と同一平面を形成可能な可動反射板320の平面(開口面)に配置される。このような実施構成例であっても図13(b)に示す実施構成例と同様の使用形態が可能である。また、この実施構成例によると、例えば支持部材400の開口面と可動反射板320の開口面が一致するように可動反射板320の位置を設定すると、支持部材400と可動反射板320の組み合わせを、支持部材400に設けられたスピーカアレーよりも大きいスピーカアレーとして機能させることができる。図16に示す実施構成例においても、可動反射板310,320の少なくとも一つにスピーカアレーを設けた実施構成例においても、図14に示す実施構成例と同様の使用形態が可能である。また、図16に示す実施構成例においても、可動反射板310,320の少なくとも一つにスピーカアレーを設けた実施構成例においても、例えば、可動反射板310,320を通常の反射物として用い、支持部材400に設けられたスピーカアレーと固定反射板300に設けられたスピーカアレーとを一体のスピーカアレーとして用いる使用形態も可能である。この場合、(M+M’)個のスピーカで構成されたスピーカアレーと二つの反射物を使用する実施構成例と等価となる。
Further, as an example of an extended implementation configuration of the implementation configuration example shown in FIG. 15, similarly to the implementation configuration example shown in FIG. 13B, a configuration in which two
可動反射板310にスピーカアレーを設ける場合、可動反射板310に設けられるスピーカアレーを構成する各スピーカの拡声孔が、支持部材400の開口面と対向可能な可動反射板310の平面の反対側の平面(開口面)に配置されるように、可動反射板310にスピーカアレーを設けてもよい。また、可動反射板320にスピーカアレーを設ける場合、可動反射板320に設けられるスピーカアレーを構成する各スピーカの拡声孔が、支持部材400の開口面と同一平面を形成可能な可動反射板320の平面の反対側の平面(開口面)に配置されるように、可動反射板320にスピーカアレーを設けてもよい。もちろん、可動反射板310,320の少なくとも一つについて、その両面に開口面とするように当該可動反射板にスピーカアレーを設けてもよい。
When the
[A]スピーカアレーを可動反射板310,320の少なくとも一つに設けた場合であって、可動反射板310の開口面を支持部材400の開口面と対向可能な平面とした場合ないし可動反射板320の開口面を支持部材400の開口面と同一平面を形成可能な平面とした場合、図14に示す使用形態では、視線方向に対して可動反射板310および/または可動反射板320の開口面が見えないように可動反射板310および/または可動反射板320が配置されることによって視線方向の見かけ上のアレーサイズは小さくなるものの、可動反射板310および/または可動反射板320に設けられたスピーカアレーを利用することによって、アレーサイズを大きくした場合と同じ効果を得ることができる。
[A] When the speaker array is provided on at least one of the
[B]スピーカアレーを可動反射板310,320の少なくとも一つに設けた場合であって、可動反射板310の開口面を支持部材400の開口面と対向可能な平面の反対側の平面とした場合ないし可動反射板320の開口面を支持部材400の開口面と同一平面を形成可能な平面の反対側の平面とした場合、図14に示す使用形態では、視線方向に対して見かけ上のアレーサイズを保ったまま、アレーサイズを大きくした場合と同じ効果を得ることができる。
[B] When the speaker array is provided on at least one of the
可動反射板310,320の少なくとも一つについて、その両面に開口面とするように当該可動反射板にスピーカアレーを設けた場合には、[A]と[B]の双方の効果を得ることも可能である。
When at least one of the
<応用例>
以下、本発明である狭指向音声再生技術が有用なサービス例について述べる。
<Application example>
Examples of services in which the narrow-directional sound reproduction technology of the present invention is useful will be described below.
第1の例として、ディジタルサイネージでの音声再生が挙げられる。本発明によると従来よりも特定方向の狭い範囲のみに音声を提供できるので、周囲に迷惑をかけることなく、当該範囲に居る人にのみ広告を伝えることができる。 As a first example, there is an audio reproduction by digital signage. According to the present invention, since voice can be provided only in a narrow range in a specific direction as compared with the prior art, an advertisement can be transmitted only to people in the range without causing trouble to the surroundings.
第2の例として、TV会議システム(音声会議システムでもよい)への応用が挙げられる。TV会議専用の部屋が用意できないような状況の下で会議を行うときに、本発明によると従来よりも特定方向の狭い範囲のみに音声を提供できるので、周囲に迷惑をかけることなく、会議を行うことができる。 A second example is application to a TV conference system (which may be an audio conference system). According to the present invention, audio can be provided only in a narrow range in a specific direction as compared with the conventional case when a conference is performed in a situation where a room for exclusive use of a video conference cannot be prepared. It can be carried out.
<狭指向音声再生処理装置のハードウェア構成例>
上述の実施形態に関わる狭指向音声再生処理装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、狭指向音声再生処理装置に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Hardware configuration example of narrow-directional sound reproduction processing device>
The narrow-directional sound reproduction processing apparatus according to the above-described embodiment may include an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, a CPU (Central Processing Unit) [cache memory, or the like. ] RAM (Random Access Memory) or ROM (Read Only Memory) and external storage device as a hard disk, and data exchange between these input unit, output unit, CPU, RAM, ROM, and external storage device It has a bus that can be connected. If necessary, the narrow-directional sound reproduction processing device may be provided with a device (drive) that can read and write a storage medium such as a CD-ROM. A physical entity having such hardware resources includes a general-purpose computer.
狭指向音声再生処理装置の外部記憶装置には、目的方向を含む狭い範囲に向けて音声を再生するためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。 The external storage device of the narrow-directional sound reproduction processing device stores a program for reproducing sound in a narrow range including the target direction, data necessary for processing of this program, etc. [in the external storage device] For example, the program may be stored in a ROM that is a read-only storage device. ]. Data obtained by the processing of these programs is appropriately stored in a RAM or an external storage device. Hereinafter, a storage device that stores data, addresses of storage areas, and the like is simply referred to as a “storage unit”.
狭指向音声再生処理装置の記憶部には、音声再生の対象となる方向について式(5a)ないし式(5b)で表される空間相関行列を用いて、周波数ごとにフィルタを求めるためのプログラムと、アナログ信号に対してAD変換を行うためのプログラム、フレーム生成処理を行うためのプログラム、フレームごとのディジタル信号を周波数領域の周波数領域信号に変換するためのプログラム、音声再生の対象となる方向に対応するフィルタを周波数ごとに周波数領域信号に適用して再生信号を得るためのプログラムと、再生信号を時間領域信号に変換するためのプログラムが記憶されている。 A program for obtaining a filter for each frequency by using the spatial correlation matrix expressed by the equations (5a) to (5b) for the direction to be reproduced, in the storage unit of the narrow-directional sound reproduction processing device. , A program for performing AD conversion on an analog signal, a program for performing frame generation processing, a program for converting a digital signal for each frame into a frequency domain signal in a frequency domain, and in a direction to be a target of audio reproduction A program for obtaining a reproduction signal by applying a corresponding filter to a frequency domain signal for each frequency and a program for converting the reproduction signal into a time domain signal are stored.
狭指向音声再生処理装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(フィルタ設計部、AD変換部、フレーム生成部、周波数領域変換部、フィルタ適用部、時間領域変換部)を実現することで狭指向音声再生が実現される。 In the narrow-directional sound reproduction processing apparatus, each program stored in the storage unit and data necessary for processing each program are read into the RAM as necessary, and are interpreted and executed by the CPU. As a result, narrow-directional sound reproduction is realized by the CPU realizing predetermined functions (filter design unit, AD conversion unit, frame generation unit, frequency domain conversion unit, filter application unit, time domain conversion unit).
<補記>
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、上述の実施形態では音波が平面波として進行することを仮定したが、音波が球面波として進行する場合であってもよい。この場合、ステアリングベクトルは球面波に応じた表現に変更される。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
<Supplementary note>
The present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the spirit of the present invention. For example, in the above-described embodiment, it is assumed that the sound wave travels as a plane wave. However, the sound wave may travel as a spherical wave. In this case, the steering vector is changed to an expression corresponding to the spherical wave. In addition, the processing described in the above embodiment may be executed not only in time series according to the order of description but also in parallel or individually as required by the processing capability of the apparatus that executes the processing. .
また、上記実施形態において説明したハードウェアエンティティ(狭指向音声再生処理装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。 Further, when the processing functions in the hardware entity (narrow-directed sound reproduction processing device) described in the above embodiment are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. Then, by executing this program on a computer, the processing functions in the hardware entity are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, a hardware entity is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
Claims (14)
音声の進行方向として想定される一つまたは複数の方向に含まれる各方向φに対する上記各スピーカからの音声の伝達特性aφを用いて、音声再生の対象となる方向について、上記周波数ごとの上記フィルタを求めるフィルタ設計ステップと、
上記フィルタ設計ステップで求められた上記フィルタを、上記周波数ごとに上記周波数領域信号Sに適用して上記Mチャネルの周波数領域信号Xを得るフィルタ適用ステップと
を有し、
(1)上記スピーカアレーから放射された音声であって、(2)当該音声が反射物で反射して、反射音の進行方向が方向φとなる音声、を双対音として、各上記伝達特性aφは、方向φへの直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表される
ことを特徴とする狭指向音声再生処理方法。 M is an integer of 2 or more, and an M channel time domain signal x reproduced by a speaker array composed of M speakers is converted into a frequency domain signal S obtained by converting a sound source signal into a frequency domain. A narrow-directional sound reproduction processing method obtained by converting the frequency domain signal X of the M channel obtained by applying a filter that converts S into the frequency domain signal X of the M channel for each frequency into the time domain,
Using the audio transmission characteristic a φ from each speaker for each direction φ included in one or a plurality of directions assumed as the audio traveling direction, the above-mentioned for each frequency with respect to the direction to be reproduced. A filter design step for obtaining a filter;
Applying the filter obtained in the filter design step to the frequency domain signal S for each frequency to obtain the M channel frequency domain signal X, and
(1) The sound radiated from the speaker array, (2) the sound reflected by the reflector, and the reflected sound traveling in the direction φ is a dual sound, and each of the transfer characteristics a A narrow-directional sound reproduction processing method characterized in that φ is represented by the sum of direct sound transfer characteristics in the direction φ and one or more dual sound transfer characteristics.
各上記伝達特性aφは、上記直接音のステアリングベクトルと、反射による音の減衰および上記反射音の上記直接音に対する時間差が補正された一つ以上の上記双対音の各ステアリングベクトルとの和である
ことを特徴とする狭指向音声再生処理方法。 The narrow-directional sound reproduction processing method according to claim 1,
Each of the transfer characteristics a φ is the sum of the steering vector of the direct sound and one or more steering vectors of the one or more dual sounds in which the sound attenuation due to reflection and the time difference of the reflected sound with respect to the direct sound are corrected. A narrow-directional sound reproduction processing method characterized in that:
各上記伝達特性aφは、実環境下において実測で得られたものである
ことを特徴とする狭指向音声再生処理方法。 The narrow-directional sound reproduction processing method according to claim 1,
Each of the transfer characteristics aφ is obtained by actual measurement in an actual environment.
上記フィルタ設計ステップにおいて、音声再生の対象となる上記方向以外の方向への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする狭指向音声再生処理方法。 The narrow-directional sound reproduction processing method according to any one of claims 1 to 3,
A narrow-directional sound reproduction processing method characterized in that, in the filter design step, the filter is obtained for each frequency so that the power of sound in a direction other than the direction to be reproduced is minimized.
上記フィルタ設計ステップにおいて、音声再生の対象となる上記方向でのSN比が最大となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする狭指向音声再生処理方法。 The narrow-directional sound reproduction processing method according to any one of claims 1 to 3,
The narrow-directional sound reproduction processing method according to claim 1, wherein, in the filter design step, the filter is obtained for each of the frequencies so that an SN ratio in the direction to be reproduced is maximized.
上記フィルタ設計ステップにおいて、M個の上記スピーカのうち一つのスピーカに対するフィルタ係数を一定値に固定した状態で音声の進行方向として想定される上記一つまたは複数の方向への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする狭指向音声再生処理方法。 The narrow-directional sound reproduction processing method according to any one of claims 1 to 3,
In the filter design step, the power of the voice in the one or more directions assumed as the voice traveling direction with the filter coefficient for one of the M speakers fixed to a constant value is minimized. As described above, the narrow-directional sound reproduction processing method, wherein the filter is obtained for each frequency.
上記フィルタ設計ステップにおいて、(1)音声再生の対象となる上記方向への音声の全帯域通過、および(2)一つ以上の死角の音声の全帯域抑制、の条件の下、音声再生の対象となる上記方向と各上記死角以外の方向への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする狭指向音声再生処理方法。 The narrow-directional sound reproduction processing method according to any one of claims 1 to 3,
In the filter design step, the target of audio reproduction under the conditions of (1) the entire band of audio in the above direction to be reproduced, and (2) the suppression of the entire band of one or more blind spots. The narrow-directional sound reproduction processing method, wherein the filter is obtained for each frequency so that the power of the sound in a direction other than the direction and the blind spot is minimized.
上記フィルタ設計ステップにおいて、音声再生の対象となる上記方向φ=sの伝達特性asを正規化することによって、上記周波数ごとに上記フィルタが求められる
ことを特徴とする狭指向音声再生処理方法。 The narrow-directional sound reproduction processing method according to any one of claims 1 to 3,
In the filter design step, by normalizing the transfer characteristics a s the direction phi = s to be audio playback, narrow directional audio reproduction processing method characterized by the filter is required for each of the frequencies.
上記フィルタ設計ステップにおいて、音声再生の対象となる上記方向以外の各方向に対応する上記伝達特性aφによって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする狭指向音声再生処理方法。 The narrow-directional sound reproduction processing method according to any one of claims 1 to 3,
In the filter design step, the filter is obtained for each frequency by using a spatial correlation matrix represented by the transfer characteristic a φ corresponding to each direction other than the direction to be reproduced. Narrow-directional sound reproduction processing method.
上記フィルタ設計ステップにおいて、音声再生の対象となる上記方向への音声の劣化量を所定量以下とする条件の下、音声再生の対象となる上記方向以外の方向への音声のパワーが最小となるように、上記周波数ごとに上記フィルタが求められる
ことを特徴とする狭指向音声再生処理方法。 The narrow-directional sound reproduction processing method according to any one of claims 1 to 3,
In the filter design step, the power of the sound in the direction other than the direction to be reproduced is minimized under the condition that the deterioration amount of the sound in the direction to be reproduced is a predetermined amount or less. Thus, the narrow-directional sound reproduction processing method characterized in that the filter is required for each frequency.
上記フィルタ設計ステップにおいて、マイクロホンアレーによって観測して得られた信号を周波数領域に変換して得られる周波数領域信号によって表される空間相関行列を用いて、上記周波数ごとに上記フィルタが求められる
ことを特徴とする狭指向音声再生処理方法。 The narrow-directional sound reproduction processing method according to any one of claims 1 to 3,
In the filter design step, the filter is obtained for each frequency by using a spatial correlation matrix represented by a frequency domain signal obtained by converting a signal obtained by observing with a microphone array into a frequency domain. A narrow-directional audio reproduction processing method as a feature.
音声の進行方向として想定される一つまたは複数の方向に含まれる各方向φに対する上記各スピーカからの音声の伝達特性aφを用いて、音声再生の対象となる方向について、上記周波数ごとの上記フィルタを求めるフィルタ設計部と、
上記フィルタ設計部によって求められた上記フィルタを、上記周波数ごとに上記周波数領域信号Sに適用して上記Mチャネルの周波数領域信号Xを得るフィルタ適用部と
を含み、
(1)上記スピーカアレーから放射された音声であって、(2)当該音声が反射物で反射して、反射音の進行方向が方向φとなる音声を、双対音として、各上記伝達特性aφは、方向φへの直接音の伝達特性と一つ以上の双対音の各伝達特性との和で表される
ことを特徴とする狭指向音声再生処理装置。 M is an integer of 2 or more, and an M channel time domain signal x reproduced by a speaker array composed of M speakers is converted into a frequency domain signal S obtained by converting a sound source signal into a frequency domain. A narrow-directional sound reproduction processing apparatus obtained by converting the frequency domain signal X of the M channel obtained by applying a filter for converting S into the frequency domain signal X of the M channel for each frequency into the time domain,
Using the audio transmission characteristic a φ from each speaker for each direction φ included in one or a plurality of directions assumed as the audio traveling direction, the above-mentioned for each frequency with respect to the direction to be reproduced. A filter design section for obtaining a filter;
A filter application unit that obtains the M channel frequency domain signal X by applying the filter obtained by the filter design unit to the frequency domain signal S for each frequency;
(1) The sound radiated from the speaker array, (2) the sound reflected by the reflector and the reflected sound traveling in the direction φ is a dual sound, and each of the transfer characteristics a A narrow-directional sound reproduction processing apparatus characterized in that φ is represented by the sum of the direct sound transfer characteristics in the direction φ and the transfer characteristics of one or more dual sounds.
上記双対音に対して各上記反射音を与える一つ以上の反射物をさらに含む
ことを特徴とする狭指向音声再生処理装置。 The narrow-directional sound reproduction processing device according to claim 12,
A narrow-directional sound reproduction processing apparatus, further comprising one or more reflectors that give each of the reflected sounds to the dual sound.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011190776A JP5486567B2 (en) | 2010-12-21 | 2011-09-01 | Narrow-directional sound reproduction processing method, apparatus, and program |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010285178 | 2010-12-21 | ||
JP2010285178 | 2010-12-21 | ||
JP2011190776A JP5486567B2 (en) | 2010-12-21 | 2011-09-01 | Narrow-directional sound reproduction processing method, apparatus, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012147413A true JP2012147413A (en) | 2012-08-02 |
JP5486567B2 JP5486567B2 (en) | 2014-05-07 |
Family
ID=46790477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011190776A Expired - Fee Related JP5486567B2 (en) | 2010-12-21 | 2011-09-01 | Narrow-directional sound reproduction processing method, apparatus, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5486567B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016144129A (en) * | 2015-02-04 | 2016-08-08 | 日本電信電話株式会社 | Sound field reproducing device, sound field reproducing method and program |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10708686B2 (en) * | 2016-05-30 | 2020-07-07 | Sony Corporation | Local sound field forming apparatus and local sound field forming method |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004172661A (en) * | 2002-11-15 | 2004-06-17 | Sony Corp | Processing method and processing apparatus for audio signal |
-
2011
- 2011-09-01 JP JP2011190776A patent/JP5486567B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004172661A (en) * | 2002-11-15 | 2004-06-17 | Sony Corp | Processing method and processing apparatus for audio signal |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016144129A (en) * | 2015-02-04 | 2016-08-08 | 日本電信電話株式会社 | Sound field reproducing device, sound field reproducing method and program |
Also Published As
Publication number | Publication date |
---|---|
JP5486567B2 (en) | 2014-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5486694B2 (en) | Speech enhancement method, apparatus, program, and recording medium | |
Teutsch et al. | Acoustic source detection and localization based on wavefield decomposition using circular microphone arrays | |
Chang et al. | Sound field control with a circular double-layer array of loudspeakers | |
Poletti et al. | Sound-field reproduction systems using fixed-directivity loudspeakers | |
JP5728094B2 (en) | Sound acquisition by extracting geometric information from direction of arrival estimation | |
Chang et al. | Experimental validation of sound field control with a circular double-layer array of loudspeakers | |
Poletti et al. | Sound reproduction systems using variable-directivity loudspeakers | |
Landschoot et al. | Model-based Bayesian direction of arrival analysis for sound sources using a spherical microphone array | |
JP2017153126A (en) | Sound collecting device | |
JP5738218B2 (en) | Acoustic signal emphasizing device, perspective determination device, method and program thereof | |
JP5486567B2 (en) | Narrow-directional sound reproduction processing method, apparatus, and program | |
JP6117142B2 (en) | Conversion device | |
Caviedes-Nozal et al. | A Bayesian spherical harmonics source radiation model for sound field control | |
Bouchard et al. | Beamforming with microphone arrays for directional sources | |
Wang et al. | On the design of differential loudspeaker arrays with broadside radiation patterns | |
JP5337189B2 (en) | Reflector arrangement determination method, apparatus, and program for filter design | |
Bountourakis et al. | Parametric spatial post-filtering utilising high-order circular harmonics with applications to underwater sound-field visualisation | |
JP5486568B2 (en) | Audio spot reproduction processing method, apparatus, and program | |
JP5815489B2 (en) | Sound enhancement device, method, and program for each sound source | |
Wang et al. | Spherical harmonic representation of the observed directional wave front in the time domain | |
Peled et al. | Objective performance analysis of spherical microphone arrays for speech enhancement in rooms | |
JP2013135373A (en) | Zoom microphone device | |
JP2019050492A (en) | Filter coefficient determining device, filter coefficient determining method, program, and acoustic system | |
JP6063890B2 (en) | Conversion device | |
JP6031364B2 (en) | Sound collection device and playback device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130718 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140131 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140221 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5486567 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |