JP2007295085A - Sound source separation apparatus, and sound source separation method - Google Patents
Sound source separation apparatus, and sound source separation method Download PDFInfo
- Publication number
- JP2007295085A JP2007295085A JP2006117994A JP2006117994A JP2007295085A JP 2007295085 A JP2007295085 A JP 2007295085A JP 2006117994 A JP2006117994 A JP 2006117994A JP 2006117994 A JP2006117994 A JP 2006117994A JP 2007295085 A JP2007295085 A JP 2007295085A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- sound source
- input
- source separation
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、所定の音響空間に複数のマイクロホンが存在する状態で、そのマイクロホン各々を通じて入力される複数の入力音声信号(音源各々からの音源信号が重畳された信号)に対し、独立成分分析法に基づくブラインド音源分離方式の音源分離処理を施すことにより複数の分離信号を生成する機能を備えた音源分離装置及び音源分離方法に関するものである。 The present invention provides an independent component analysis method for a plurality of input audio signals (a signal in which a sound source signal from each sound source is superimposed) input through each microphone in a state where a plurality of microphones exist in a predetermined acoustic space. The present invention relates to a sound source separation device and a sound source separation method having a function of generating a plurality of separated signals by performing a sound source separation process of a blind sound source separation method based on the above.
所定の音響空間に複数の音源と複数のマイクロホンとが存在する場合、その複数のマイクロホンごとに、複数の音源各々からの音声信号(以下、音源信号という)が重畳された音声信号(以下、入力音声信号という)が取得される。このようにして取得(入力)された複数の入力音声信号のみに基づいて、前記音源信号各々を同定(分離)する音源分離処理の方式は、ブラインド音源分離方式(Blind Source Separation方式、以下、BSS方式という)と呼ばれる。
さらに、BSS方式の音源分離処理の1つに、独立成分分析法(Independent Component Analysis、以下、ICA法という)に基づくBSS方式の音源分離処理がある。このICA法に基づくBSS方式は、複数のマイクを通じて入力される複数の入力音声信号(時系列の音声信号)において、前記音源信号どうしが統計的に独立であることを利用して所定の分離行列(逆混合行列)を最適化し、入力された複数の入力音声信号に対して最適化された分離行列によるフィルタ処理(行列演算)を施すことによって前記音源信号の同定(音源分離)を行う処理方式である。
なお、本明細書において、「演算」、「計算」及び「算出」の用語は同義を表すものとする。
When there are a plurality of sound sources and a plurality of microphones in a predetermined acoustic space, a sound signal (hereinafter referred to as an input) in which sound signals from the plurality of sound sources (hereinafter referred to as sound source signals) are superimposed on each of the plurality of microphones. Audio signal). A sound source separation processing method for identifying (separating) each of the sound source signals based only on a plurality of input sound signals acquired (input) in this way is a blind source separation method (hereinafter referred to as BSS). Called the method).
Furthermore, as one of the BSS sound source separation processes, there is a BSS sound source separation process based on an independent component analysis method (hereinafter referred to as ICA method). The BSS method based on the ICA method uses a predetermined separation matrix by utilizing the fact that the sound source signals are statistically independent among a plurality of input audio signals (time-series audio signals) input through a plurality of microphones. A processing method for identifying the sound source signal (sound source separation) by optimizing (inverse mixing matrix) and applying a filtering process (matrix operation) using an optimized separation matrix to a plurality of input speech signals inputted It is.
In the present specification, the terms “calculation”, “calculation”, and “calculation” are synonymous.
ここで、学習計算開始時には、所定の初期値が設定された分離行列(以下、初期行列という)が与えられ、その初期行列が学習計算により更新されて音源分離(前記分離用フィルタ処理)に用いる分離行列として設定される。通常、最初の学習計算開始時には、予め定められた所定の行列が初期行列として設定され、以後、学習計算が行われるごとに、学習後の分離行列が次の学習計算開始時の初期行列として設定される。このようなICA法に基づくBSS方式の音源分離処理(以下、ICA−BSS音源分離処理という)は、例えば、非特許文献1や非特許文献2等に詳説されている。
ここで、ICA−BSS音源分離処理における分離行列の学習計算は、演算負荷が高く、現状の実用的なプロセッサではそれをリアルタイムで行うことはできない。このため、ICA−BSS音源分離処理をリアルタイムで行う場合、逐次入力される入力音声信号に対し、分離行列を用いた行列演算(前記分離用フィルタ処理)を逐次施してリアルタイムで出力信号としての分離信号を得る一方、これと並行して学習計算を行い、その学習計算によって新たな分離行列が得られる都度、リアルタイムの分離処理に用いる分離行列を新たな分離行列に更新するという処理を行えばよい。
また、特許文献1には、話者が音源である場合に、話者が発話中であるか否かを判別し、その判別結果に応じて分離行列の学習及び分離処理をON/OFF制御する技術が示されている。
Here, the learning calculation of the separation matrix in the ICA-BSS sound source separation processing has a high calculation load, and it cannot be performed in real time with a current practical processor. Therefore, when the ICA-BSS sound source separation processing is performed in real time, matrix calculation using the separation matrix (the separation filter processing) is sequentially performed on the input audio signal that is sequentially input to separate the output signal in real time. While obtaining a signal, a learning calculation is performed in parallel, and whenever a new separation matrix is obtained by the learning calculation, a process of updating a separation matrix used for real-time separation processing to a new separation matrix may be performed. .
In
ところで、ICA−BSS音源分離処理では、処理対象とする入力音声信号の数に応じて分離行列のサイズが定まり、処理対象とする入力音声信号の数と同数の分離信号が生成される。また、従来のICA−BSS音源分離処理は、処理対象とする入力音声信号の数は、音響空間に配置されるマイクロホンの数に等しい。
しかしながら、ICA−BSS音源分離処理において、音響空間に存在する音源の数に対し、処理対象となる入力音声信号の数(一般には、マイクロホンの数)に過不足が生じると、音源分離性能が悪化するという問題点があった。
即ち、音源の数よりも処理対象となる入力音声信号の数(マイクロホンの数)が多い場合、1つの音源信号を複数の分離信号に分離する処理がなされてしまうことから、音源分離性能が悪化する。また、音源の数よりも処理対象となる入力音声信号の数が少ない場合、音源の数よりも少ない分離信号しか生成されないことから、音源分離性能が悪化する。
このため、音響空間に存在する音源の数が予め定まっていない場合、従来のICA−BSS音源分離処理を行う音源分離装置は、音響空間に存在する音源の数に対し、処理対象となる入力音声信号の数(マイクロホンの数)に過不足が生じ、音源分離性能が悪化するという問題点があった。
従って、本発明は上記事情に鑑みてなされたものであり、その目的とするところは、ICA法に基づくBSS方式による音源分離処理を行うに当たり、音響空間に存在する音源の数に増減があった場合でも、高い音源分離性能を維持できる音源分離装置及び音源分離方法を提供することにある。
By the way, in the ICA-BSS sound source separation process, the size of the separation matrix is determined according to the number of input speech signals to be processed, and the same number of separation signals as the number of input speech signals to be processed are generated. In the conventional ICA-BSS sound source separation process, the number of input audio signals to be processed is equal to the number of microphones arranged in the acoustic space.
However, in ICA-BSS sound source separation processing, if the number of input audio signals to be processed (generally, the number of microphones) is excessive or insufficient with respect to the number of sound sources existing in the acoustic space, the sound source separation performance deteriorates. There was a problem of doing.
That is, when the number of input audio signals to be processed (the number of microphones) is larger than the number of sound sources, processing for separating one sound source signal into a plurality of separated signals is performed, so that sound source separation performance is deteriorated. To do. Further, when the number of input audio signals to be processed is smaller than the number of sound sources, only separated signals that are smaller than the number of sound sources are generated, so that sound source separation performance is deteriorated.
For this reason, when the number of sound sources existing in the acoustic space is not determined in advance, the sound source separation device that performs the conventional ICA-BSS sound source separation processing is the input sound to be processed with respect to the number of sound sources present in the acoustic space. There was a problem that the number of signals (the number of microphones) became excessive and insufficient, and the sound source separation performance deteriorated.
Therefore, the present invention has been made in view of the above circumstances, and the purpose thereof is to increase or decrease the number of sound sources existing in the acoustic space when performing sound source separation processing by the BSS method based on the ICA method. Even in such a case, it is an object to provide a sound source separation device and a sound source separation method that can maintain high sound source separation performance.
上記目的を達成するために本発明は、所定の音響空間に複数の指向性マイクロホンが各々異なる指向方向で配置された状況下で、それら指向性マイクロホンを通じて入力される複数の入力音声信号に基づいて音源分離処理を行う音源分離装置又は音源分離方法として構成されるものであり、以下の(1)〜(3)に示す各構成要素(手段又は手順)を有するものである。
(1)前記複数の指向性マイクロホンを通じて入力される複数の入力音声信号各々の信号強度を検出する信号強度検出手段、又はその信号検出手段により信号強度を検出する信号強度検出手順。
(2)前記信号強度検出手段(又は手順)の検出結果に基づいて前記複数の入力音声信号の中から前記音響空間に存在する1又は複数の音源に対応する1又は複数の採用入力音声信号を選択する信号選択手段、又は信号選択手段による選択を実行する信号選択手順。
(3)前記信号選択手段により複数の前記採用入力信号が選択された場合に、該複数の採用入力音声信号に対し独立成分分析法に基づくブラインド音源分離方式の音源分離処理を施すことにより前記採用入力音声信号の数と同数の分離信号を生成するICA−BSS音源分離手段、又はその分離信号の生成処理を所定のプロセッサにより実行するICA−BSS音源分離手順。
ここで、前記信号選択手段又は信号選択手順としては、例えば、前記信号強度検出手段(又は同手順)により検出された信号強度が第1の設定強度を超えた前記入力音声信号を前記採用入力音声信号として選択するものが考えられる。
In order to achieve the above object, the present invention is based on a plurality of input audio signals input through a directional microphone in a situation where a plurality of directional microphones are arranged in different directional directions in a predetermined acoustic space. It is configured as a sound source separation device or a sound source separation method for performing sound source separation processing, and has each component (means or procedure) shown in the following (1) to (3).
(1) Signal strength detection means for detecting the signal strength of each of the plurality of input audio signals input through the plurality of directional microphones, or a signal strength detection procedure for detecting the signal strength by the signal detection means.
(2) One or a plurality of adopted input sound signals corresponding to one or a plurality of sound sources existing in the acoustic space from the plurality of input sound signals based on a detection result of the signal intensity detection means (or procedure). A signal selection means for selecting, or a signal selection procedure for executing selection by the signal selection means.
(3) When a plurality of adopted input signals are selected by the signal selection means, the adopted input is performed by subjecting the plurality of adopted input speech signals to a sound source separation process of a blind sound source separation method based on an independent component analysis method. An ICA-BSS sound source separation means for generating the same number of separated signals as the number of input audio signals, or an ICA-BSS sound source separation procedure for executing the separation signal generation processing by a predetermined processor.
Here, as the signal selection means or the signal selection procedure, for example, the input voice signal in which the signal strength detected by the signal strength detection means (or the same procedure) exceeds a first set strength is used as the adopted input voice. What is selected as the signal is conceivable.
以上に示す構成要素を有する音源分離装置又は音源分離方法を採用した場合、以下のような作用及び効果が得られる。
即ち、ある指向性マイクロホンの指向方向(主な集音範囲)に音源が存在すれば、その指向性マイクロホンを通じて得られる入力音声信号の強度(パワー)が特に強くなる。もちろん、他の指向性マイクロホンを通じて得られる入力音声信号の強度にも多少は影響するものの、その影響の度合いは比較的小さい。
このため、前記信号選択手段(又は同手順)により、全ての入力音声信号の中から、信号強度が一定レベル以上であるもののみを音源分離処理の対象(前記採用入力音声信号)として選択すれば、音源の数に対し、過不足のない数の前記採用入力音声信号が選択される。
従って、前記入力音声信号を得るための前記指向性マイクロホンを、変動する音源の数に対して十分な数だけ設けておけば、音響空間に存在する音源の数に増減があった場合でも、高い音源分離性能を維持できる。
When the sound source separation device or the sound source separation method having the components described above is employed, the following operations and effects can be obtained.
That is, if a sound source exists in the direction of a certain directional microphone (main sound collection range), the intensity (power) of the input audio signal obtained through the directional microphone is particularly strong. Of course, although the intensity of the input audio signal obtained through other directional microphones is somewhat affected, the degree of the influence is relatively small.
For this reason, if the signal selection means (or the same procedure) selects only input signals having a signal strength of a certain level or higher from all input audio signals as the target of the sound source separation process (the adopted input audio signal). The employed input audio signals are selected so as not to exceed the number of sound sources.
Accordingly, if a sufficient number of the directional microphones for obtaining the input audio signal is provided for the number of sound sources that fluctuate, even if the number of sound sources existing in the acoustic space increases or decreases, Sound source separation performance can be maintained.
また、前記信号選択手段(又は手順)としては、例えば、前記信号強度検出手段(又は手順)により検出された信号強度が強いものから最大2つまでの前記入力音声信号を前記採用入力音声信号として選択するものが考えられる。
これにより、音源分離処理の演算負荷を低減できる。このような構成を有する音源分離装置や音源分離方法は、例えば、ある特定の指向性マイクロホンの指向方向(主な集音範囲)に存在する音源(目的音源)の音源信号と、その他の音源(ノイズ音源)の音源信号とを分離したい場合(複数のノイズ音源の音源信号を分離する必要がない場合)などに有効である。
また、前記信号選択手段(又は手順)としては、例えば、前記採用入力信号として選択している前記入力音声信号のうち、前記信号強度検出手段(又は手順)により検出された信号強度が第2の設定強度以下である状態が所定時間継続したものを前記採用入力音声信号から除外するものが考えられる。
これにより、ICA−BSS音源分離手段(又は手順)の入力数(採用入力音声信号の数)の増減が、音源の一時的な音量増減に応じて無用に頻発することを防止できる。
In addition, as the signal selection means (or procedure), for example, a maximum of two input audio signals from those having a strong signal intensity detected by the signal intensity detection means (or procedure) are used as the adopted input audio signals. You can choose what to choose.
Thereby, the calculation load of sound source separation processing can be reduced. The sound source separation device and the sound source separation method having such a configuration include, for example, a sound source signal of a sound source (target sound source) existing in a direction of a specific directional microphone (main sound collection range) and other sound sources ( This is effective when it is desired to separate the sound source signal of the noise source (when it is not necessary to separate the sound source signals of a plurality of noise sources).
In addition, as the signal selection means (or procedure), for example, the signal strength detected by the signal strength detection means (or procedure) out of the input audio signals selected as the adopted input signal is a second value. One that excludes from the adopted input audio signal those in which the state of being below the set intensity has continued for a predetermined time is conceivable.
Thereby, it is possible to prevent the number of inputs (the number of adopted input audio signals) of the ICA-BSS sound source separation means (or procedure) from increasing frequently and unnecessarily in accordance with the temporary volume increase / decrease of the sound source.
ところで、音源が、隣り合う指向性マイクロホンの一方の集音範囲から他方の集音範囲へ移動した場合、指向方向(集音範囲)が隣り合う2つの指向性マイクロホンにおいて、その一方の入力音声信号の強度が強い状態から弱い状態に変化するとともに、他方の入力音声信号の強度が弱い状態から強い状態に変化する。
そこで、前記信号選択手段(又は手順)としては、指向方向が隣り合う2つの前記指向性マイクロホン各々を通じて入力された入力音声信号(これらを、第1の入力音声信号及び第2の入力音声信号と称する)のうち、その第2の入力音声信号が前記採用入力音声信号として選択しているときに、前記第1の入力音声信号の信号強度が前記第1の設定強度を超えた際に前記第2の入力音声信号の信号強度が第2の設定強度以下となった場合に、その第2の入力音声信号を前記採用入力音声信号から除外するものも考えられる。
なお、以上に示した第1の設定強度及び第2の設定強度は、それぞれ同じ強度に設定されることや、第1の設定強度よりも第2の設定強度の方が弱い強度に設定されること等が考えられる。
By the way, when the sound source moves from one sound collection range of the adjacent directional microphones to the other sound collection range, in one of the two directional microphones whose directivity directions (sound collection ranges) are adjacent, one of the input sound signals Changes from a strong state to a weak state, and the other input voice signal changes from a weak state to a strong state.
Therefore, as the signal selection means (or procedure), the input sound signals (the first input sound signal and the second input sound signal, which are input through each of the two directional microphones whose directional directions are adjacent to each other) When the second input audio signal is selected as the adopted input audio signal, the first input audio signal exceeds the first set intensity when the signal intensity of the first input audio signal exceeds the first set intensity. When the signal intensity of the second input audio signal is equal to or lower than the second set intensity, it is possible to exclude the second input audio signal from the adopted input audio signal.
The first set intensity and the second set intensity shown above are set to the same intensity, or the second set intensity is set to be weaker than the first set intensity. It is conceivable.
本発明によれば、前記入力音声信号を得るための前記指向性マイクロホンを、変動する音源の数に対して十分な数だけ設けておけば、音響空間に存在する音源の数に増減があった場合でも、音源の数に対し、過不足のない数の入力音声信号(前記採用入力音声信号)が選択されるので、高い音源分離性能を維持できる。 According to the present invention, if the directional microphones for obtaining the input audio signal are provided in a sufficient number with respect to the number of fluctuating sound sources, the number of sound sources existing in the acoustic space has increased or decreased. Even in this case, since the number of input audio signals (adopted input audio signal) that is not excessive or insufficient with respect to the number of sound sources is selected, high sound source separation performance can be maintained.
以下添付図面を参照しながら、本発明の実施の形態について説明し、本発明の理解に供する。尚、以下の実施の形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格のものではない。
ここに、図1は本発明の実施形態に係る音源分離装置Xの概略構成を表すブロック図、図2は音源分離装置Xが備える指向性マイクロホンの配置状態の一例を表す平面図、図3は音源分離装置Xにおける音源分離処理の手順を表すフローチャート、図4は音源分離装置Xの適用対象の一例である携帯電話機V1の概略斜視図、図5は音源分離装置Xの適用対象の一例であるロボットV2の概略斜視図、図6はTDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニットZ1の概略構成を表すブロック図、図7はFDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニットZ2の概略構成を表すブロック図である。
Embodiments of the present invention will be described below with reference to the accompanying drawings for understanding of the present invention. In addition, the following embodiment is an example which actualized this invention, Comprising: It is not the thing of the character which limits the technical scope of this invention.
FIG. 1 is a block diagram showing a schematic configuration of the sound source separation device X according to the embodiment of the present invention, FIG. 2 is a plan view showing an example of an arrangement state of directional microphones included in the sound source separation device X, and FIG. FIG. 4 is a schematic perspective view of a cellular phone V1 that is an example of an application target of the sound source separation device X, and FIG. 5 is an example of an application target of the sound source separation device X. 6 is a schematic perspective view of the robot V2, FIG. 6 is a block diagram showing a schematic configuration of a sound source separation unit Z1 that performs BSS sound source separation processing based on the TDICA method, and FIG. 7 is a sound source that performs BSS sound source separation processing based on the FDICA method. It is a block diagram showing schematic structure of the separation unit Z2.
まず、本発明の実施形態について説明する前に、図6及び図7に示すブロック図を用いて、本発明の構成要素として適用可能な各種のICA−BSS方式の音源分離ユニットの例について説明する。
図6は、ICA−BSS方式の一種である時間領域独立成分分析方式(time-domain independent component analysis方式、以下、TDICA方式という)に基づくBSS方式の音源分離処理を行う従来の音源分離ユニットZ1の概略構成を表すブロック図である。なお、本処理の詳細は、非特許文献1や非特許文献2等に示されている。
音源分離ユニットZ1は、分離フィルタ処理部11tにより、2つの音源1、2からの音源信号S1(t)、S2(t)(音源ごとの音声信号)を2つのマイクロホン(音声入力手段)111、112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t)、x2(t)について、分離行列W(z)によりフィルタ処理を施すことによって音源分離を行う。なお、混合音声信号x1(t)、x2(t)は、所定のサンプリング周期でデジタル化された信号であるが、図6、図7においては、A/D変換手段の記載を省略している。
図6には、2つの音源1、2からの音源信号S1(t)、S2(t)(個別音声信号)を2つのマイクロホン(音声入力手段)111、112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t)、x2(t)に基づいて音源分離を行う例について示しているが、2チャンネル以上であっても同様である。ICA−BSS方式による音源分離の場合、(入力される混合音声信号のチャンネル数n(即ち、マイクロホンの数))≧(音源の数m)であればよい。但し、前述したように、高い音源分離性能を確保するためには、音源分離処理の対象とするチャンネル数と音源の数とを一致させることが望ましい。
複数のマイクロホン111、112各々で集音された各混合音声信号x1(t)、x2(t)には、複数音源からの音源信号が重畳されている。以下、各混合音声信号x1(t)、x2(t)を総称してx(t)と表す。この混合音声信号x(t)は音源信号S(t)の時間的空間的な畳み込み信号として表現され、次の(1)式のように表される。
ここで、当該音源分離処理に用いる分離行列をW(z)とすれば、分離信号(即ち、同定信号)y(t)は、次の(2)式で表される。
なお、音源合成処理はこのW(z)に関する情報により、逆演算処理に相当する配列を形成し、これを用いて逆演算を行えばよい。また、分離行列W(z)の逐次計算を行う際の分離行列の初期値(初期行列)は、予め定められたものが設定される。
このようなICA−BSS方式による音源分離を行うことにより、例えば、人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から、歌声の音源信号と楽器の音源信号とが分離(同定)される。
ここで、(2)式は、次の(3)式のように書き換えて表現できる。
FIG. 6 shows a conventional sound source separation unit Z1 that performs sound source separation processing of a BSS method based on a time-domain independent component analysis method (hereinafter referred to as a TDICA method), which is a kind of ICA-BSS method. It is a block diagram showing a schematic structure. Details of this processing are shown in
The sound source separation unit Z1 uses the separation
FIG. 6 shows two channels (the number of microphones) in which sound source signals S1 (t) and S2 (t) (individual audio signals) from two
Sound source signals from a plurality of sound sources are superimposed on each of the mixed sound signals x1 (t) and x2 (t) collected by each of the plurality of
Here, if the separation matrix used for the sound source separation processing is W (z), the separated signal (that is, the identification signal) y (t) is expressed by the following equation (2).
In the sound source synthesis process, an array corresponding to the inverse calculation process is formed based on the information on W (z), and the inverse calculation may be performed using this. In addition, a predetermined value is set as an initial value (initial matrix) of the separation matrix when the separation matrix W (z) is sequentially calculated.
By performing sound source separation by such an ICA-BSS method, for example, from a mixed sound signal for a plurality of channels in which a human singing voice and a sound of an instrument such as a guitar are mixed, a singing sound source signal and a sound source signal of the instrument Are separated (identified).
Here, the expression (2) can be rewritten and expressed as the following expression (3).
次に、図7に示すブロック図を用いて、ICA−BSS方式の一種であるFDICA方式(Frequency-Domain ICA)に基づく音源分離処理を行う従来の音源分離ユニットZ2について説明する。
FDICA方式では、まず、入力された混合音声信号x(t)について、ST−DFT処理部13によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換(Short Time Discrete Fourier Transform、以下、ST−DFT処理という)を行うことにより、観測信号の短時間分析(時間領域から周波数領域への変換)を行う。離散フーリエ変換後の信号は、周波数ビンと呼ばれる所定範囲の周波数帯域ごとに区分された信号となる。そして、そのST−DFT処理後の各チャンネルの信号(各周波数成分の信号)について、分離フィルタ処理部11fにより分離行列W(f)に基づく分離フィルタ処理を施すことによって音源分離(音源信号の同定)を行う。ここでfを周波数ビン、mを分析フレーム番号とすると、分離信号(同定信号)y(f、m)は、次の(5)式のように表すことができる。
In the FDICA method, first, a short time discrete Fourier transform (Short Time Discrete Fourier Transform) is performed for each frame, which is a signal divided for each predetermined period by the ST-
以下、図1に示すブロック図を用いて、本発明の実施形態に係る音源分離装置Xについて説明する。
音源分離装置Xは、1又は複数の音源が存在し得る音響空間に配置される複数の指向性マイクロホン111〜11n(以下、指向性マイクという)を備え、その指向性マイク111〜11n各々を通じて逐次入力される複数の音声信号(以下、入力音声信号xiという(但し、i=1〜n))から、複数の音源信号を分離(同定)した分離信号(即ち、音源信号に対応した同定信号)yjを逐次生成し、スピーカ等に対してリアルタイム出力するものである。ここで、音響空間に音源が複数存在する場合、各入力音声信号xiは、その複数の音源各々からの音源信号が重畳された混合音声信号である。なお、図1には、音響空間に2つの音源1、2が存在する例を示しているが、指向性マイク111〜11nが配置される音響空間には、0個〜n個の音源が存在し得るものとし、いくつの音源が存在するかは予め定まっていないものとする。
Hereinafter, the sound source separation apparatus X according to the embodiment of the present invention will be described with reference to the block diagram shown in FIG.
The sound source separation device X includes a plurality of
図1に示すように、音源分離装置Xは、n個の指向性マイク111〜11n、A/Dコンバータ21(図中、ADCと表記)、D/Aコンバータ22(図中、DACと表記)、入力バッファ23、出力バッファ24、ICA部20、パワー検出・信号選択部25及び外部入力インターフェース26等を備えて構成されている。
さらに、ICA部20は、ST−DFT処理部20a、学習演算部20b、分離フィルタ処理部20c、分離制御部20e等を具備して構成されている。
ここで、ICA部20及びパワー検出・信号選択部25は、それぞれDSP(Digital Signal Processor)等の演算用のプロセッサ及びそのプロセッサにより実行されるプログラムが記憶されたROM等の記憶手段、並びにRAM等のその他の周辺装置により構成されたものが考えられる。或いは、1つのCPU及びその周辺装置を有するコンピュータにより、上記各構成要素が行う処理に対応するプログラムモジュールを実行するよう構成されたもの等も考えられる。また、所定のコンピュータ(音源分離装置が備えるプロセッサを含む)に各構成要素の処理を実行させる音源分離装置用のプログラムとして提供することも考えられる。
As shown in FIG. 1, the sound source separation device X includes n
Further, the ICA unit 20 includes an ST-
Here, each of the ICA unit 20 and the power detection /
ADC21は、複数のマイクロホン111〜11n各々から入力されるアナログの入力音声信号各々を所定のサンプリング周期でサンプリングすることにより、デジタルの入力音声信号Xi(t)に変換(A/D変換)するすものである。例えば、各音源が人の声である場合、8kHz程度のサンプリング周期でデジタル化すればよい。
入力バッファ23は、ADC21により逐次A/D変換されて得られるデジタルの入力音声信号xi(t)を入力し、常に最新の所定時間長分の入力音声信号xiを保持するデータバッファである。
パワー検出・信号選択部25は、複数の指向性マイク111〜11nを通じて入力される複数の入力音声信号xi各々のパワーPi(信号強度)を検出するとともに、そのパワーPiに基づいて、複数の入力音声信号xiの中から、音響空間に存在する1又は複数の音源に対応する1又は複数の入力音声信号(以下、採用入力音声信号xjという)を選択する処理を行うものである(信号強度検出手段及び信号選択手段の一例)。その詳細については後述する。
外部入力インターフェース26は、パワー検出・信号選択部25が計算機等の外部装置から後述する信号パワー設定値Ps1、Ps2を取得するための信号伝送用のインターフェースである。
ICA部20は、パワー検出・信号選択部25によって複数の前記採用入力信号xjが選択された場合に、その複数の採用入力音声信号xjに対し、独立成分分析法に基づくブラインド音源分離方式の音源分離処理(前述したICA−BSS音源分離処理)を施すことにより、採用入力音声信号xjの数と同数の分離信号yjを生成する処理を実行するものである(ICA−BSS音源分離手段の一例)。
The
The
The power detection /
The
When a plurality of adopted input signals xj are selected by the power detection /
具体的には、ST−DFT処理部20aにより、入力バッファに蓄積された入力音声信号のうち、パワー検出・信号選択部25によって選択された所定時間長分(1フレーム分)の採用入力音声信号xjに対して短時間離散フーリエ変換処理を行い、所定の時間長分の時間領域の採用入力音声信号xj(図6におけるxi(t)に相当)を、同時間長分の周波数領域の入力音声信号xj(f)(周波数ビンと呼ばれる所定範囲の周波数帯域ごとに区分された信号)に変換する。なお、採用入力音声信号xjは、所定周期でサンプリングされてデジタル化されているので、採用入力音声信号xjの時間長を規定することは、採用入力音声信号xjのサンプル数を規定することと同義である。
さらに、分離フィルタ処理部20cにより、ST−DFT処理部20aを通じて逐次入力される複数の周波数領域の採用入力音声信号xj(f)に対し、分離行列W(f)を用いた行列演算を施すことにより、複数の音源各々に対応する周波数領域の複数の分離信号yj(f)を逐次生成する。なお、周波数ビンをf、フレーム番号をmとすると、分離フィルタ処理部20cの処理によって得られる分離信号y(f、m)(上記yj(f)と同義)は、前述した(5)式で表される。
ここで、分離信号yj(f)各々は、採用入力音声信号xjの数と同じ数だけ出力される。図1に示す例は、2つの入力音声信号x1及びx3が、採用入力音声信号xjとして選択されている状態を表しているが、採用入力音声信号xjの数及び組合せは、パワー検出・信号選択部25による選択結果に応じて変動し得る。
Specifically, among the input audio signals accumulated in the input buffer by the ST-
Further, the separation filter processing unit 20c performs a matrix operation using the separation matrix W (f) on the adopted input speech signals xj (f) in a plurality of frequency domains sequentially input through the ST-
Here, as many separated signals yj (f) as the number of adopted input audio signals xj are output. The example shown in FIG. 1 shows a state in which two input audio signals x1 and x3 are selected as adopted input audio signals xj, but the number and combination of adopted input audio signals xj are power detection / signal selection. It may vary depending on the selection result by the
さらに、IDFT処理部20dにより、分離フィルタ処理部20cによって生成された周波数領域の分離信号yj(f)に対して逆離散フーリエ変換(Inverse Discrete Fourier Transform)処理が施される。これにより、周波数領域の分離信号yj(f)が、時間領域の分離信号yjに変換され、出力バッファ24に格納される。
そして、出力バッファ24に保持された時間領域の分離信号yj(デジタル信号)は、D/Aコンバータ22によってアナログの音声信号に変換されて出力される。このアナログの音声信号は、例えば、不図示のスピーカを通じて音声出力される。
Further, the
The time domain separation signal yj (digital signal) held in the
一方、学習演算部20bにより、予め定められた時間長分の複数の周波数領域の採用入力音声信号xj(f)を用いて、FDICA方式のBSS音源分離処理における分離行列W(f)の学習演算が行われ、この学習演算により得られる分離行列W(f)が、分離フィルタ処理部20bで用いられる分離行列W(f)として設定される。学習演算部20bは、入力バッファ23に保持されている採用入力音声信号xjを用いて学習演算を行う。この学習演算は、分離フィルタ処理部20cによる分離処理が実行される場合、その分離処理と並行して実行される。
ここで、学習演算部20bによる分離行列W(f)の算出(学習演算)は、図7に示した音源分離ユニットZ2(FDICA方式に基づく分離行列(分離フィルタ)の学習演算)が採用される。即ち、ST−DFT処理部20a及び学習演算部20bが、前述した音源分離ユニットZ2に相当する。
また、分離制御部20eは、パワー検出・信号選択部25から、採用入力音声信号がいずれであるかの情報を取得し、その取得情報に基づいて、入力バッファ23に保持された入力音声信号xiの伝送と、当該ICA部20による音源分離処理を実行するか否かとを制御するものである。その詳細については後述する。
On the other hand, the learning
Here, the calculation (learning calculation) of the separation matrix W (f) by the learning
Also, the
図2は、n個(nチャンネル分)の指向性マイク111〜11nの配置状態の一例を表す平面図である。
図2に示すように、音源分離装置Xが備えるn個(図2に示す例では6個)の指向性マイク111〜11nは、0個〜n個の音源が存在し得る音響空間において、各々異なる指向方向で配置される。これにより、各指向性マイク111〜11nの主な集音範囲(図2において破線で示す範囲)は、ほとんど重ならない状態となっている。
このように、複数の指向性マイク111〜11nを図2に示すように配置することにより、ある指向性マイクの指向方向(主な集音範囲)に音源が存在すれば、その指向性マイクを通じて得られる入力音声信号のパワーが特に強くなる。もちろん、他の指向性マイクを通じて得られる入力音声信号のパワーにも多少は影響するものの、その影響の度合いは比較的小さい。
FIG. 2 is a plan view illustrating an example of an arrangement state of n (for n channels)
As shown in FIG. 2, n (6 in the example shown in FIG. 2)
In this way, by arranging a plurality of
次に、図3に示すフローチャートを参照しつつ、音源分離装置Xにおける音源分離処理の手順について説明する。以下、S1、S2、…は、処理手順(ステップ)の識別符号を表す。また、図3に示す処理は、音源分離装置Xが備える不図示の電源スイッチがONされた場合に実行が開始される。
[ステップS1、S2]
まず、音源分離装置Xが処理を開始すると、各構成要素において、各種の初期処理が実行される(S1)。
例えば、パワー検出・信号選択部25は、外部入力インターフェース26を通じて外部装置から入力される信号パワー設定値Ps1、Ps2を取得し、パワー検出・信号選択部25が備える記憶部に記憶する。
また、パワー検出・信号選択部25は、採用入力音声信号の選択状態を、1つも選択されていない状態(初期状態)に設定する。
また、学習演算部20bは、学習計算に用いる分離行列W(f)に所定の初期値を設定する。
さらに、ADC21によるA/D変換処理、即ち、入力音声信号xiの入力処理が開始される(S2)。これにより、以後、所定時間分(例えば、2フレーム分)の最新の入力音声信号xi(デジタル音声信号)が入力バッファ23に順次蓄積される。
Next, the procedure of the sound source separation process in the sound source separation device X will be described with reference to the flowchart shown in FIG. Hereinafter, S1, S2,... Represent identification codes of processing procedures (steps). The processing shown in FIG. 3 is started when a power switch (not shown) provided in the sound source separation device X is turned on.
[Steps S1, S2]
First, when the sound source separation device X starts processing, various initial processes are executed in each component (S1).
For example, the power detection /
In addition, the power detection /
In addition, the learning
Furthermore, A / D conversion processing by the
[ステップS3〜S5]
次に、パワー検出・信号選択部25により、入力バッファ23に蓄積された1フレーム分の各チャンネルの入力音声信号xiについて、信号のパワーPi(信号強度)が検出される(S3、信号強度検出手順の一例)。なお、このステップS3の処理が実行される前に、既に各入力音声信号xiについて検出(算出)されたパワーPiが存在する場合、前回の各入力音声信号xiのパワーとしてパワー検出・信号選択部25の記憶部に記憶される。
例えば、パワー検出・信号選択部25は、入力バッファ23に蓄積されたαサンプル分(αは例えば1フレーム分のサンプル数)の入力音声信号xiの絶対値の平均値や2乗平均値等を信号のパワーPiとして算出(検出)する。
さらに、パワー検出・信号選択部25により、ステップS3で検出された信号のパワーPiに基づいて、全ての(複数の)入力音声信号xiの中から、指向性マイク111〜11nが配置される音響空間に存在する1又は複数の音源に対応する1又は複数の採用入力音声信号xj(チャンネル)を選択する処理(S4、S5)が実行される(信号選択手順の一例)。なお、このステップS4及びS5の処理が実行される前に、その時点で既に選択されている採用入力音声信号のチャンネルが、前回の採用入力信号xjのチャンネルとしてパワー検出・信号選択部25の記憶部に記憶される。
具体的には、パワー検出・信号選択部25は、ステップS3で検出した信号のパワーPiが、予め外部入力インターフェース26を取得している信号パワー設定値Ps1(第1の設定強度の一例)を超えた入力音声信号xiを、採用入力音声信号xjとして追加的に選択する(S4)。
また、パワー検出・信号選択部25は、既に採用入力信号xjとして選択している入力音声信号xiのうち、ステップS3で検出した信号のパワーPiが、予め外部入力インターフェース26を取得している信号パワー設定値Ps2(第2の設定強度の一例)以下である状態が所定の設定時間t0[秒]以上継続したものを、採用入力音声信号xjから除外する(S5)。例えば、t0は、数秒〜10秒程度に設定することが考えられる。
このように、設定時間t0以上の継続を、採用入力信号xjから除外する条件とすることにより、ICA部20への信号入力数(採用入力音声信号xjの数)の増減が、音源の一時的な音量増減に応じて無用に頻発することを防止できる。
ここで、信号パワー設定値Ps1、Ps2は、Ps1=Ps2とすること、或いはPs1>Ps2とすることが考えられる。
[Steps S3 to S5]
Next, the power detection /
For example, the power detection /
Furthermore, the sound in which the
Specifically, the power detection /
Further, the power detection /
In this way, by setting the continuation of the set time t0 or longer as a condition to exclude from the adopted input signal xj, the increase / decrease in the number of signal inputs to the ICA unit 20 (the number of adopted input audio signals xj) can be made temporarily. It is possible to prevent unnecessary frequent occurrence in accordance with the volume increase / decrease.
Here, it is conceivable that the signal power setting values Ps1 and Ps2 are Ps1 = Ps2 or Ps1> Ps2.
[ステップS6〜S8]
次に、パワー検出・信号選択部25により、ステップS4及びS5の処理によって選択した採用入力音声信号xjの数が、1個以上であるか否か(選択されたか否か)の判別(S6)、及び1個であるか2個以上であるかの判別(S7)が行われる。
ここで、採用入力音声信号xjの数が1個以上ではない(0個である)場合、その旨の情報がパワー検出・信号選択部25からICA部20の分離制御部20eに伝送される。このように、採用入力音声信号xjの数が0個(選択されていない)場合、分離制御部20eは、音源の分離処理(分離フィルタ処理部20c及び学習演算部20bの処理)を実行させない。その結果、出力バッファ24への分離信号yjの出力及びDAC22を通じた分離音声信号の出力も実行されない。
また、採用入力音声信号xjの数が1個である場合、その旨の情報がパワー検出・信号選択部25からICA部20の分離制御部20eに伝送される。これにより、分離制御部20eは、音源の分離処理(分離フィルタ処理部20c及び学習演算部20bの処理)を停止させるとともに、その1つの採用入力音声信号xjをそのまま(分離処理を施さずに)分離信号yjとして出力バッファ24に出力する(S8)。
そして、採用入力音声信号xjの数が0個である場合、又はステップS9の処理が実行された場合、パワー検出・信号選択部25は、処理を前述したステップS3に戻す。
[Steps S6 to S8]
Next, it is determined whether or not the number of adopted input audio signals xj selected by the processing of steps S4 and S5 by the power detection /
Here, when the number of adopted input audio signals xj is not 1 or more (0), information to that effect is transmitted from the power detection /
When the number of adopted input audio signals xj is one, information to that effect is transmitted from the power detection /
When the number of adopted input audio signals xj is 0, or when the process of step S9 is executed, the power detection /
[ステップS9〜S11]
一方、採用入力音声信号xjの数が2個以上である場合、パワー検出・信号選択部25により、今回選択された採用入力音声信号xjのチャンネルと、前回の採用入力音声信号xjのチャンネルとが同じであるか否かが判別される(S9)。
ここで、今回と前回の採用入力音声信号xjのチャンネルが同じである場合、パワー検出・信号選択部25は、処理を後述するステップS12へ移行させ、そうでない場合は、処理を次のステップS10へ移行させる。
ステップS10では、パワー検出・信号選択部25により、音源の移動があったか否かの判別処理が行われる(S10)。
具体的には、パワー検出・信号選択部25は、指向方向(集音範囲)が隣り合う2つの指向性マイク(これらを、第1マイク及び第2マイクと称する)各々を通じて入力された入力音声信号xi(これらを、第1入力音声信号及x1iび第2入力音声信号x2iと称する)のうち、その第2入力音声信号x2iが採用入力音声信号xjとして選択されており、かつ、今回、第1入力音声信号x1iのパワーが信号パワー設定値Ps1(第1の設定強度の一例)を超える(前回から変化した)とともに、第2入力音声信号x2iのパワーが信号パワー設定値Ps2(第2の設定強度の一例)以下となった(前回から変化した)場合に、第1入力音声信号x1iは、第2マイクの指向方向(集音範囲)から第1マイクの指向方向(集音範囲)に移動した音源からの音声信号であると判別する。
そして、パワー検出・信号選択部25は、このような判別処理によって音源の移動があったと判別した場合、その第2入力音声信号x2iを採用入力音声信号から除外し(S11)、処理を次のステップS12へ移行させる。
即ち、指向方向(集音範囲)が隣り合う2つの指向性マイクにおいて、その一方(第2マイク)の入力音声信号のパワーが強い状態から弱い状態に変化するとともに、他方(第1マイク)の入力音声信号のパワーが弱い状態から強い状態に変化した場合、音源が、隣り合う指向性マイクの一方の集音範囲から他方の集音範囲へ移動したと判別する。
一方、パワー検出・信号選択部25は、音源の移動があったと判別しなかった場合、処理を後述するステップS14へ移行させる。
[Steps S9 to S11]
On the other hand, when the number of adopted input audio signals xj is two or more, the channel of the adopted input audio signal xj selected this time and the channel of the previous adopted input audio signal xj are selected by the power detection /
Here, when the channel of the adopted input audio signal xj this time and the previous time is the same, the power detection /
In step S10, the power detection /
Specifically, the power detection /
When the power detection /
That is, in two directional microphones whose directional directions (sound collection ranges) are adjacent to each other, the power of the input audio signal of one (second microphone) changes from a strong state to a weak state, and the other (first microphone). When the power of the input audio signal changes from a weak state to a strong state, it is determined that the sound source has moved from one sound collection range of the adjacent directional microphone to the other sound collection range.
On the other hand, when the power detection /
[ステップS12、S13]
次に、ステップS12において、その時点で選択されている採用入力音声信号xjのチャンネル情報がパワー検出・信号選択部25からICA部20の分離制御部20eに伝送され、分離制御部20eがICA部20を構成する他の構成要素を制御することにより、ICA部20は、採用入力音声信号xjを入力信号として、ICA−BSS音源分離処理を実行する(S12)。これにより、採用入力音声信号xjの数と同数(複数)の分離信号yjが生成され、これが出力バッファ24に格納される(ICA−BSS音源分離手順の一例)。
ここで、ステップS12の処理では、ICA部20の学習演算部20bは、それまでに学習済みの分離行列W(f)を、新たな学習計算に用いる分離行列W(f)の初期値として引き継ぐ。即ち、分離行列W(f)の初期化を行わない。このステップS12に至る状況は、音響環境における音源の増減がない状況(新たな音源が増えた、或いはそれまで存在していた音源が無くなった状況)であるからである。これにより、高い音源分離性能が維持される。
さらに、DAC22により、出力バッファ24に蓄積された分離信号yjのA/D変換処理がなされ、分離信号(アナログ信号)が不図示のスピーカを通じて音声出力される(S13)。そして、処理が前述したステップS3へ戻される。
[Steps S12 and S13]
Next, in step S12, the channel information of the adopted input audio signal xj selected at that time is transmitted from the power detection /
Here, in the process of step S12, the learning
Further, the
[ステップS14〜S16]
一方、ステップS14(採用入力音声信号xjが複数かつそのチャンネルに変化がある場合)では、その時点で選択されている採用入力音声信号xjのチャンネル情報がパワー検出・信号選択部25からICA部20の分離制御部20eに伝送され、分離制御部20eが学習演算部20bを制御することにより、学習演算部20bが、分離行列W(f)を初期化する(S14)。
さらに、分離制御部20eがICA部20を構成する他の構成要素を制御することにより、ICA部20は、採用入力音声信号xjを入力信号として、ICA−BSS音源分離処理を実行する(S15)。これにより、採用入力音声信号xjの数と同数の分離信号yjが生成され、これが出力バッファ24に格納される(ICA−BSS音源分離手順の一例)。
さらに、DAC22により、出力バッファ24に蓄積された分離信号yjのA/D変換処理がなされ、分離信号(アナログ信号)が不図示のスピーカを通じて音声出力される(S16)。そして、処理が前述したステップS3へ戻される。
[Steps S14 to S16]
On the other hand, in step S14 (when there are a plurality of adopted input audio signals xj and the channel is changed), the channel information of the adopted input audio signal xj selected at that time is converted from the power detection /
Further, when the
Further, the
以上に示したように、音源分離装置Xでは、ある指向性マイクの指向方向(主な集音範囲)に音源が存在すれば、その指向性マイクを通じて得られる入力音声信号xiのパワーPiが特に強くなる。もちろん、他の指向性マイクを通じて得られる入力音声信号xiのパワーPiにも多少は影響するものの、その影響の度合いは比較的小さい。
そして、パワー検出・信号選択部25により、全ての入力音声信号xiの中から、パワーが一定レベル以上なったもののみが、採用入力音声信号xj(音源分離処理の対象とする信号)として選択される(S4)ので、予め想定できない音源の数に対し、過不足のない数の採用入力音声信号xjが選択される。
従って、入力音声信号xiを得るための指向性マイク111〜11nを、変動する音源の数に対して十分な数だけ設けておけば、音響空間に存在する音源の数に増減があった場合でも、音源の数に対し、過不足のない数の入力音声信号(採用入力音声信号xj)が選択されるので、高い音源分離性能を維持できる。
As described above, in the sound source separation device X, if a sound source exists in the directivity direction (main sound collection range) of a certain directional microphone, the power Pi of the input audio signal xi obtained through the directional microphone is particularly high. Become stronger. Of course, although the power Pi of the input audio signal xi obtained through another directional microphone is somewhat affected, the degree of the effect is relatively small.
Then, the power detection /
Therefore, if the
ところで、以上に示した実施形態では、パワー検出・信号選択部25は、ステップS4及びS5の処理において、採用入力音声信号xjとして選択する信号数(チャンネル数)を特に制限するものではなかったが、これに制限を加えることも考えられる。
例えば、パワー検出・信号選択部25が、ステップS4及びS5の処理において、採用入力音声信号xjとして選択した信号数(チャンネル数)が3つ以上となった場合、ステップS3の処理によって検出した信号のパワーPiが強いものから最大2つまでの入力音声信号xiを、採用入力音声信号xjとして選択することが考えられる。
これにより、ICA部20の演算負荷を低減できる。また、比較的パワーの弱い信号の成分が分離信号yiに混在しても、実用上大きな問題は生じない。このような構成を有する音源分離装置は、例えば、ある特定の指向性マイクロホンの指向方向(主な集音範囲)に存在する音源(目的音源)の音源信号と、その他の音源(ノイズ音源)の音源信号とを分離したい場合(複数のノイズ音源の音源信号を分離する必要がない場合)などに有効である。
また、前述した音源分離装置Xは、独立成分分析法に基づくブラインド音源分離方式の音源分離処理を実行するICA部20は、演算負荷低減のため、FDICA方式に基づく音源分離処理を行う音源分離ユニットZ2(図7参照)が採用された例を示した。しかしながら、これに限るものではなく、例えば、ICA部20に、TDICA方式に基づく音源分離処理を行う音源分離ユニットZ1(図6参照)を採用することも考えられる。
In the embodiment described above, the power detection /
For example, when the number of signals (number of channels) selected by the power detection /
Thereby, the calculation load of the ICA part 20 can be reduced. Further, even if a component of a signal having relatively low power is mixed in the separated signal yi, no serious problem is caused in practice. The sound source separation device having such a configuration includes, for example, a sound source signal of a sound source (target sound source) existing in a directivity direction (main sound collection range) of a specific directional microphone and other sound sources (noise sound source). This is effective when it is desired to separate the sound source signal (when it is not necessary to separate the sound source signals of a plurality of noise sound sources).
In addition, the sound source separation apparatus X described above performs the sound source separation process of the blind sound source separation method based on the independent component analysis method, and the ICA unit 20 performs the sound source separation unit based on the FDICA method to reduce the calculation load. An example in which Z2 (see FIG. 7) was employed was shown. However, the present invention is not limited to this. For example, it may be possible to employ a sound source separation unit Z1 (see FIG. 6) that performs sound source separation processing based on the TDICA method in the ICA unit 20.
次に、図4及び図5を参照しつつ、音源分離装置Xの適用例について説明する。
図4は、音源分離装置Xの適用対象の一例である携帯電話機V1の概略斜視図である。
図4に示すように、音源分離装置Xは、話者の音声とそれ以外のノイズ音声とを分離するために携帯電話機V1に搭載することが考えられる。
この場合、図4に示すように、携帯電話機V1に対して、音源分離装置Xが備える複数(図4に示す例では6個)の指向性マイク111〜116が、各々異なる指向方向で配置される。図4に示す例では、当該携帯電話機V1に対する話者の音源方向である正面方向に向けられた指向性マイク111と、その反対方向(背面方向)に向けられた指向性マイク112と、正面方向に対して左右及び上下方向の各々に向けられた指向性マイク113〜116とが、携帯電話機V1に設けられている。
このような携帯電話機V1において、音源分離装置Xによって生成された指向性マイク111に対応する分離信号yiを、通話の相手先の携帯電話機に送信する音声信号として出力すれば、ノイズの少ない高音質の通話を実現する携帯電話機を提供できる。
Next, application examples of the sound source separation device X will be described with reference to FIGS. 4 and 5.
FIG. 4 is a schematic perspective view of a mobile phone V1 which is an example of an application target of the sound source separation device X.
As shown in FIG. 4, it is conceivable that the sound source separation device X is mounted on the mobile phone V1 in order to separate the voice of the speaker and other noise voices.
In this case, as shown in FIG. 4, a plurality of (six in the example shown in FIG. 4)
In such a cellular phone V1, if the separation signal yi corresponding to the
また、図5は音源分離装置Xの適用対象の一例であるロボットV2の概略斜視図である。
図5に示すように、音源分離装置Xは、周囲に存在する音源からの音声を音声認識することによって動作制御を行うロボットV2に搭載し、周囲に複数の音源が存在する場合に、各音源からの音声信号について個別に音声認識を行うことができるよう、音声認識処理の実行部に各音源に対応する分離信号yjを個別に入力させるよう構成されたものが考えられる。
この場合、図5に示すように、ロボットV2に対して、音源分離装置Xが備える複数(図5に示す例では4個)の指向性マイク111〜114が、各々異なる指向方向で配置される。図5に示す例では、当該ロボットV2の正面方向に向けられた指向性マイク111と、その反対方向(背面方向)に向けられた指向性マイク112と、正面方向に対して左右方向の各々に向けられた指向性マイク113、114とが、ロボットV2に設けられている。
このようなロボットV2において、音源分離装置Xによって生成された各指向性マイク111〜114に対応する分離信号yiを、音声認識処理の実行部に個別に入力させれば、ノイズの少ない音声信号について高精度の音声認識処理及びその処理結果に基づく高精度の動作制御を行うことができるロボットを提供できる。
FIG. 5 is a schematic perspective view of a robot V2, which is an example to which the sound source separation device X is applied.
As shown in FIG. 5, the sound source separation device X is mounted on a robot V2 that performs operation control by recognizing sound from sound sources existing in the surroundings, and each sound source is separated when there are a plurality of sound sources in the surroundings. It is conceivable that the separated signal yj corresponding to each sound source is individually input to the voice recognition processing execution unit so that the voice signal can be individually recognized.
In this case, as shown in FIG. 5, a plurality of (four in the example shown in FIG. 5)
In such a robot V2, if the separation signal yi corresponding to each of the
本発明は、音源分離装置への利用が可能である。 The present invention can be used for a sound source separation device.
X…本発明の実施形態に係る音源分離装置
V1…本発明の実施形態に係る音源分離装置を適用した携帯電話機
V2…本発明の実施形態に係る音源分離装置を適用したロボット
Z1…TDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニット
Z2…FDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニット
1、2…音源
11t、11f…分離フィルタ処理部
20…ICA部
20a…ST−DFT処理部
20b…学習演算部
20c…分離フィルタ処理部
20d…IDFT処理部
20e…分離制御部
21…A/Dコンバータ
22…D/Aコンバータ
23…入力バッファ
24…出力バッファ
25…パワー検出・信号選択部
26…外部入力インターフェース
111〜11n…指向性マイクロホン
S1、S2、〜…処理手順(ステップ)
X ... sound source separation device V1 according to the embodiment of the present invention ... mobile phone V2 to which the sound source separation device according to the embodiment of the present invention is applied ... robot Z1 to which the sound source separation device according to the embodiment of the present invention is applied. Sound source separation unit Z2 that performs BSS-based sound source separation processing based on sound
Claims (6)
前記信号強度検出手段の検出結果に基づいて前記複数の入力音声信号の中から前記音響空間に存在する1又は複数の音源に対応する1又は複数の採用入力音声信号を選択する信号選択手段と、
前記信号選択手段により複数の前記採用入力信号が選択された場合に、該複数の採用入力音声信号に対し独立成分分析法に基づくブラインド音源分離方式の音源分離処理を施すことにより前記採用入力音声信号の数と同数の分離信号を生成するICA−BSS音源分離手段と、
を具備してなることを特徴とする音源分離装置。 Signal intensity detecting means for detecting the signal intensity of each of a plurality of input audio signals input through the plurality of directional microphones in a state where the plurality of directional microphones are arranged in different directional directions in a predetermined acoustic space; ,
Signal selecting means for selecting one or a plurality of adopted input sound signals corresponding to one or a plurality of sound sources existing in the acoustic space from the plurality of input sound signals based on a detection result of the signal intensity detecting means;
When a plurality of adopted input signals are selected by the signal selection means, the adopted input speech signal is subjected to a sound source separation process of a blind sound source separation method based on an independent component analysis method for the plurality of adopted input speech signals. ICA-BSS sound source separation means for generating the same number of separated signals as
A sound source separation device comprising:
前記信号強度検出手順の検出結果に基づいて前記複数の入力音声信号の中から前記音響空間に存在する1又は複数の音源に対応する1又は複数の採用入力音声信号を所定の信号選択手段により選択する信号選択手順と、
前記信号選択手順により複数の前記採用入力信号が選択された場合に、該複数の採用入力音声信号に対し独立成分分析法に基づくブラインド音源分離方式の音源分離処理を施すことにより前記採用入力音声信号の数と同数の分離信号を生成する処理を所定のプロセッサにより実行するICA−BSS音源分離手順と、
を有してなることを特徴とする音源分離方法。 In a situation where a plurality of directional microphones are arranged in different directional directions in a predetermined acoustic space, the signal intensity of each of the plurality of input audio signals input through the plurality of directional microphones is determined by a predetermined signal intensity detection unit. A signal intensity detection procedure to detect;
Based on the detection result of the signal intensity detection procedure, one or a plurality of adopted input sound signals corresponding to one or a plurality of sound sources existing in the acoustic space are selected from the plurality of input sound signals by a predetermined signal selection unit. Signal selection procedure,
When a plurality of adopted input signals are selected by the signal selection procedure, the adopted input speech signal is subjected to a sound source separation process of a blind sound source separation method based on an independent component analysis method for the plurality of adopted input speech signals. An ICA-BSS sound source separation procedure in which a predetermined processor executes a process of generating the same number of separated signals as
A sound source separation method characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006117994A JP2007295085A (en) | 2006-04-21 | 2006-04-21 | Sound source separation apparatus, and sound source separation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006117994A JP2007295085A (en) | 2006-04-21 | 2006-04-21 | Sound source separation apparatus, and sound source separation method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007295085A true JP2007295085A (en) | 2007-11-08 |
Family
ID=38765287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006117994A Pending JP2007295085A (en) | 2006-04-21 | 2006-04-21 | Sound source separation apparatus, and sound source separation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007295085A (en) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009097417A1 (en) * | 2008-01-29 | 2009-08-06 | Qualcomm Incorporated | Improving sound quality by intelligently selecting between signals from a plurality of microphones |
JP2010112995A (en) * | 2008-11-04 | 2010-05-20 | Sony Corp | Call voice processing device, call voice processing method and program |
EP2237272A2 (en) | 2009-03-30 | 2010-10-06 | Sony Corporation | Signal processing apparatus, signal processing method, and program |
WO2011004503A1 (en) * | 2009-07-08 | 2011-01-13 | 株式会社日立製作所 | Noise removal device and noise removal method |
JP2011048302A (en) * | 2009-08-28 | 2011-03-10 | Fujitsu Ltd | Noise reduction device and noise reduction program |
JP2011508533A (en) * | 2007-12-19 | 2011-03-10 | クゥアルコム・インコーポレイテッド | System, method and apparatus for multi-microphone based speech enhancement |
JP2012042953A (en) * | 2010-08-17 | 2012-03-01 | Honda Motor Co Ltd | Sound source separation device and sound source separation method |
US8898056B2 (en) | 2006-03-01 | 2014-11-25 | Qualcomm Incorporated | System and method for generating a separated signal by reordering frequency components |
CN105788599A (en) * | 2016-04-14 | 2016-07-20 | 北京小米移动软件有限公司 | Speech processing method, router and intelligent speech control system |
CN110491376A (en) * | 2018-05-11 | 2019-11-22 | 北京国双科技有限公司 | A kind of method of speech processing and device |
JP2020109941A (en) * | 2018-12-28 | 2020-07-16 | 深セン市優必選科技股▲ふん▼有限公司Ubtech Pobotics Corp Ltd | Robot and audio data processing method thereof |
CN112216303A (en) * | 2019-07-11 | 2021-01-12 | 北京声智科技有限公司 | Voice processing method and device and electronic equipment |
CN113270099A (en) * | 2021-06-29 | 2021-08-17 | 深圳市欧瑞博科技股份有限公司 | Intelligent voice extraction method and device, electronic equipment and storage medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04273298A (en) * | 1991-02-28 | 1992-09-29 | Fujitsu Ltd | Voice recognition device |
JP2005031169A (en) * | 2003-07-08 | 2005-02-03 | Kobe Steel Ltd | Sound signal processing device, method therefor and program therefor |
WO2005024788A1 (en) * | 2003-09-02 | 2005-03-17 | Nippon Telegraph And Telephone Corporation | Signal separation method, signal separation device, signal separation program, and recording medium |
JP2005091560A (en) * | 2003-09-16 | 2005-04-07 | Nissan Motor Co Ltd | Method and apparatus for signal separation |
-
2006
- 2006-04-21 JP JP2006117994A patent/JP2007295085A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04273298A (en) * | 1991-02-28 | 1992-09-29 | Fujitsu Ltd | Voice recognition device |
JP2005031169A (en) * | 2003-07-08 | 2005-02-03 | Kobe Steel Ltd | Sound signal processing device, method therefor and program therefor |
WO2005024788A1 (en) * | 2003-09-02 | 2005-03-17 | Nippon Telegraph And Telephone Corporation | Signal separation method, signal separation device, signal separation program, and recording medium |
JP2005091560A (en) * | 2003-09-16 | 2005-04-07 | Nissan Motor Co Ltd | Method and apparatus for signal separation |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8898056B2 (en) | 2006-03-01 | 2014-11-25 | Qualcomm Incorporated | System and method for generating a separated signal by reordering frequency components |
JP2011508533A (en) * | 2007-12-19 | 2011-03-10 | クゥアルコム・インコーポレイテッド | System, method and apparatus for multi-microphone based speech enhancement |
CN101911723A (en) * | 2008-01-29 | 2010-12-08 | 高通股份有限公司 | By between from the signal of a plurality of microphones, selecting to improve sound quality intelligently |
WO2009097417A1 (en) * | 2008-01-29 | 2009-08-06 | Qualcomm Incorporated | Improving sound quality by intelligently selecting between signals from a plurality of microphones |
JP2011511571A (en) * | 2008-01-29 | 2011-04-07 | クゥアルコム・インコーポレイテッド | Improve sound quality by intelligently selecting between signals from multiple microphones |
CN101911723B (en) * | 2008-01-29 | 2015-03-18 | 高通股份有限公司 | Improving sound quality by intelligently selecting between signals from a plurality of microphones |
US8411880B2 (en) | 2008-01-29 | 2013-04-02 | Qualcomm Incorporated | Sound quality by intelligently selecting between signals from a plurality of microphones |
JP2014045507A (en) * | 2008-01-29 | 2014-03-13 | Qualcomm Incorporated | Improving sound quality by intelligently selecting among signals from plural microphones |
JP2010112995A (en) * | 2008-11-04 | 2010-05-20 | Sony Corp | Call voice processing device, call voice processing method and program |
EP2237272A2 (en) | 2009-03-30 | 2010-10-06 | Sony Corporation | Signal processing apparatus, signal processing method, and program |
US8577054B2 (en) | 2009-03-30 | 2013-11-05 | Sony Corporation | Signal processing apparatus, signal processing method, and program |
WO2011004503A1 (en) * | 2009-07-08 | 2011-01-13 | 株式会社日立製作所 | Noise removal device and noise removal method |
JP2011048302A (en) * | 2009-08-28 | 2011-03-10 | Fujitsu Ltd | Noise reduction device and noise reduction program |
US8867755B2 (en) | 2010-08-17 | 2014-10-21 | Honda Motor Co., Ltd. | Sound source separation apparatus and sound source separation method |
JP2012042953A (en) * | 2010-08-17 | 2012-03-01 | Honda Motor Co Ltd | Sound source separation device and sound source separation method |
CN105788599A (en) * | 2016-04-14 | 2016-07-20 | 北京小米移动软件有限公司 | Speech processing method, router and intelligent speech control system |
CN105788599B (en) * | 2016-04-14 | 2019-08-06 | 北京小米移动软件有限公司 | Method of speech processing, router and intelligent sound control system |
CN110491376A (en) * | 2018-05-11 | 2019-11-22 | 北京国双科技有限公司 | A kind of method of speech processing and device |
JP2020109941A (en) * | 2018-12-28 | 2020-07-16 | 深セン市優必選科技股▲ふん▼有限公司Ubtech Pobotics Corp Ltd | Robot and audio data processing method thereof |
CN112216303A (en) * | 2019-07-11 | 2021-01-12 | 北京声智科技有限公司 | Voice processing method and device and electronic equipment |
CN113270099A (en) * | 2021-06-29 | 2021-08-17 | 深圳市欧瑞博科技股份有限公司 | Intelligent voice extraction method and device, electronic equipment and storage medium |
CN113270099B (en) * | 2021-06-29 | 2023-08-29 | 深圳市欧瑞博科技股份有限公司 | Intelligent voice extraction method and device, electronic equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007295085A (en) | Sound source separation apparatus, and sound source separation method | |
JP4675177B2 (en) | Sound source separation device, sound source separation program, and sound source separation method | |
US20070133811A1 (en) | Sound source separation apparatus and sound source separation method | |
CN111133511B (en) | sound source separation system | |
JP2007034184A (en) | Device, program, and method for sound source separation | |
CN108464015B (en) | Microphone array signal processing system | |
JP6334895B2 (en) | Signal processing apparatus, control method therefor, and program | |
GB2548325A (en) | Acoustic source seperation systems | |
JP2008035259A (en) | Sound source separation device, sound source separation method, and sound source separation program | |
JP5374427B2 (en) | Sound source separation device, sound source separation method and program therefor, video camera device using the same, and mobile phone device with camera | |
JP4462617B2 (en) | Sound source separation device, sound source separation program, and sound source separation method | |
JP2007279517A (en) | Sound source separating device, program for sound source separating device, and sound source separating method | |
CN115171713A (en) | Voice noise reduction method, device and equipment and computer readable storage medium | |
JP2005227512A (en) | Sound signal processing method and its apparatus, voice recognition device, and program | |
JP4519901B2 (en) | Objective sound extraction device, objective sound extraction program, objective sound extraction method | |
US20130238327A1 (en) | Speech recognition processing device and speech recognition processing method | |
JP2008292974A (en) | Object sound extraction apparatus, object sound extraction program, and object sound extraction method | |
JP2022544065A (en) | Method and Apparatus for Normalizing Features Extracted from Audio Data for Signal Recognition or Correction | |
JP2007282177A (en) | Sound source separation apparatus, sound source separation program and sound source separation method | |
JP4527654B2 (en) | Voice communication device | |
JP2007033804A (en) | Sound source separation device, sound source separation program, and sound source separation method | |
US10887709B1 (en) | Aligned beam merger | |
JP2008278406A (en) | Sound source separation apparatus, sound source separation program and sound source separation method | |
JP4519900B2 (en) | Objective sound extraction device, objective sound extraction program, objective sound extraction method | |
JP6729186B2 (en) | Audio processing program, audio processing method, and audio processing apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080926 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101028 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110317 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110329 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110802 |