JP2007295085A - Sound source separation apparatus, and sound source separation method - Google Patents

Sound source separation apparatus, and sound source separation method Download PDF

Info

Publication number
JP2007295085A
JP2007295085A JP2006117994A JP2006117994A JP2007295085A JP 2007295085 A JP2007295085 A JP 2007295085A JP 2006117994 A JP2006117994 A JP 2006117994A JP 2006117994 A JP2006117994 A JP 2006117994A JP 2007295085 A JP2007295085 A JP 2007295085A
Authority
JP
Japan
Prior art keywords
signal
sound source
input
source separation
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006117994A
Other languages
Japanese (ja)
Inventor
Yohei Ikeda
陽平 池田
Takayuki Hiekata
孝之 稗方
Koji Morita
孝司 森田
Hiroshi Hashimoto
裕志 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kobe Steel Ltd
Original Assignee
Kobe Steel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kobe Steel Ltd filed Critical Kobe Steel Ltd
Priority to JP2006117994A priority Critical patent/JP2007295085A/en
Publication of JP2007295085A publication Critical patent/JP2007295085A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To maintain high sound source separation performance even when the number of sound sources existing in an acoustic space is increased or decreased when performing sound source separation processing adopting the BSS system on the basis of the ICA method. <P>SOLUTION: In the acoustic space where 0 to n sets of sound sources can exist, n directivity microphones 111 to 11n are arranged in different directive directions respectively, a power detection/signal selection section 25 detects each power Pi of input sound signals xi, selects one or more acceptance input sound signals xj (channels) corresponding to one or more sound sources existing in the acoustic space where the directivity microphones 111 to 11n are arranged among the input sound signals xi on the basis of the power Pi, and when a plurality of the acceptance input sound signals xj are selected thereby, an ICA section 20 applies sound source separation processing adopting the blind source separation system on the basis of the Independent Component Analysis method to produce separation signals yi whose number is equal to the number of the acceptance input sound signals xj. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、所定の音響空間に複数のマイクロホンが存在する状態で、そのマイクロホン各々を通じて入力される複数の入力音声信号(音源各々からの音源信号が重畳された信号)に対し、独立成分分析法に基づくブラインド音源分離方式の音源分離処理を施すことにより複数の分離信号を生成する機能を備えた音源分離装置及び音源分離方法に関するものである。   The present invention provides an independent component analysis method for a plurality of input audio signals (a signal in which a sound source signal from each sound source is superimposed) input through each microphone in a state where a plurality of microphones exist in a predetermined acoustic space. The present invention relates to a sound source separation device and a sound source separation method having a function of generating a plurality of separated signals by performing a sound source separation process of a blind sound source separation method based on the above.

所定の音響空間に複数の音源と複数のマイクロホンとが存在する場合、その複数のマイクロホンごとに、複数の音源各々からの音声信号(以下、音源信号という)が重畳された音声信号(以下、入力音声信号という)が取得される。このようにして取得(入力)された複数の入力音声信号のみに基づいて、前記音源信号各々を同定(分離)する音源分離処理の方式は、ブラインド音源分離方式(Blind Source Separation方式、以下、BSS方式という)と呼ばれる。
さらに、BSS方式の音源分離処理の1つに、独立成分分析法(Independent Component Analysis、以下、ICA法という)に基づくBSS方式の音源分離処理がある。このICA法に基づくBSS方式は、複数のマイクを通じて入力される複数の入力音声信号(時系列の音声信号)において、前記音源信号どうしが統計的に独立であることを利用して所定の分離行列(逆混合行列)を最適化し、入力された複数の入力音声信号に対して最適化された分離行列によるフィルタ処理(行列演算)を施すことによって前記音源信号の同定(音源分離)を行う処理方式である。
なお、本明細書において、「演算」、「計算」及び「算出」の用語は同義を表すものとする。
When there are a plurality of sound sources and a plurality of microphones in a predetermined acoustic space, a sound signal (hereinafter referred to as an input) in which sound signals from the plurality of sound sources (hereinafter referred to as sound source signals) are superimposed on each of the plurality of microphones. Audio signal). A sound source separation processing method for identifying (separating) each of the sound source signals based only on a plurality of input sound signals acquired (input) in this way is a blind source separation method (hereinafter referred to as BSS). Called the method).
Furthermore, as one of the BSS sound source separation processes, there is a BSS sound source separation process based on an independent component analysis method (hereinafter referred to as ICA method). The BSS method based on the ICA method uses a predetermined separation matrix by utilizing the fact that the sound source signals are statistically independent among a plurality of input audio signals (time-series audio signals) input through a plurality of microphones. A processing method for identifying the sound source signal (sound source separation) by optimizing (inverse mixing matrix) and applying a filtering process (matrix operation) using an optimized separation matrix to a plurality of input speech signals inputted It is.
In the present specification, the terms “calculation”, “calculation”, and “calculation” are synonymous.

ここで、学習計算開始時には、所定の初期値が設定された分離行列(以下、初期行列という)が与えられ、その初期行列が学習計算により更新されて音源分離(前記分離用フィルタ処理)に用いる分離行列として設定される。通常、最初の学習計算開始時には、予め定められた所定の行列が初期行列として設定され、以後、学習計算が行われるごとに、学習後の分離行列が次の学習計算開始時の初期行列として設定される。このようなICA法に基づくBSS方式の音源分離処理(以下、ICA−BSS音源分離処理という)は、例えば、非特許文献1や非特許文献2等に詳説されている。
ここで、ICA−BSS音源分離処理における分離行列の学習計算は、演算負荷が高く、現状の実用的なプロセッサではそれをリアルタイムで行うことはできない。このため、ICA−BSS音源分離処理をリアルタイムで行う場合、逐次入力される入力音声信号に対し、分離行列を用いた行列演算(前記分離用フィルタ処理)を逐次施してリアルタイムで出力信号としての分離信号を得る一方、これと並行して学習計算を行い、その学習計算によって新たな分離行列が得られる都度、リアルタイムの分離処理に用いる分離行列を新たな分離行列に更新するという処理を行えばよい。
また、特許文献1には、話者が音源である場合に、話者が発話中であるか否かを判別し、その判別結果に応じて分離行列の学習及び分離処理をON/OFF制御する技術が示されている。
特開2005−227512号公報 猿渡洋、「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告、vol.EA2001-7、pp.49-56、April 2001. 高谷智哉他、「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」電子情報通信学会技術報告、vol.US2002-87、EA2002-108、January 2003.
Here, at the start of learning calculation, a separation matrix (hereinafter referred to as an initial matrix) in which a predetermined initial value is set is given, and the initial matrix is updated by learning calculation and used for sound source separation (the separation filter processing). Set as separation matrix. Normally, at the start of the first learning calculation, a predetermined predetermined matrix is set as the initial matrix, and after that, every time learning calculation is performed, the separated matrix after learning is set as the initial matrix at the start of the next learning calculation. Is done. Such BSS sound source separation processing based on the ICA method (hereinafter referred to as ICA-BSS sound source separation processing) is described in detail in, for example, Non-Patent Document 1, Non-Patent Document 2, and the like.
Here, the learning calculation of the separation matrix in the ICA-BSS sound source separation processing has a high calculation load, and it cannot be performed in real time with a current practical processor. Therefore, when the ICA-BSS sound source separation processing is performed in real time, matrix calculation using the separation matrix (the separation filter processing) is sequentially performed on the input audio signal that is sequentially input to separate the output signal in real time. While obtaining a signal, a learning calculation is performed in parallel, and whenever a new separation matrix is obtained by the learning calculation, a process of updating a separation matrix used for real-time separation processing to a new separation matrix may be performed. .
In Patent Document 1, when a speaker is a sound source, it is determined whether or not the speaker is speaking, and learning / separation processing of a separation matrix is controlled on / off according to the determination result. Technology is shown.
JP 2005-227512 A Hiroshi Saruwatari, “Basics of Blind Sound Source Separation Using Array Signal Processing,” IEICE Technical Report, vol.EA2001-7, pp.49-56, April 2001. Tomoya Takatani et al., "High fidelity blind source separation using ICA based on SIMO model" IEICE Technical Report, vol.US2002-87, EA2002-108, January 2003.

ところで、ICA−BSS音源分離処理では、処理対象とする入力音声信号の数に応じて分離行列のサイズが定まり、処理対象とする入力音声信号の数と同数の分離信号が生成される。また、従来のICA−BSS音源分離処理は、処理対象とする入力音声信号の数は、音響空間に配置されるマイクロホンの数に等しい。
しかしながら、ICA−BSS音源分離処理において、音響空間に存在する音源の数に対し、処理対象となる入力音声信号の数(一般には、マイクロホンの数)に過不足が生じると、音源分離性能が悪化するという問題点があった。
即ち、音源の数よりも処理対象となる入力音声信号の数(マイクロホンの数)が多い場合、1つの音源信号を複数の分離信号に分離する処理がなされてしまうことから、音源分離性能が悪化する。また、音源の数よりも処理対象となる入力音声信号の数が少ない場合、音源の数よりも少ない分離信号しか生成されないことから、音源分離性能が悪化する。
このため、音響空間に存在する音源の数が予め定まっていない場合、従来のICA−BSS音源分離処理を行う音源分離装置は、音響空間に存在する音源の数に対し、処理対象となる入力音声信号の数(マイクロホンの数)に過不足が生じ、音源分離性能が悪化するという問題点があった。
従って、本発明は上記事情に鑑みてなされたものであり、その目的とするところは、ICA法に基づくBSS方式による音源分離処理を行うに当たり、音響空間に存在する音源の数に増減があった場合でも、高い音源分離性能を維持できる音源分離装置及び音源分離方法を提供することにある。
By the way, in the ICA-BSS sound source separation process, the size of the separation matrix is determined according to the number of input speech signals to be processed, and the same number of separation signals as the number of input speech signals to be processed are generated. In the conventional ICA-BSS sound source separation process, the number of input audio signals to be processed is equal to the number of microphones arranged in the acoustic space.
However, in ICA-BSS sound source separation processing, if the number of input audio signals to be processed (generally, the number of microphones) is excessive or insufficient with respect to the number of sound sources existing in the acoustic space, the sound source separation performance deteriorates. There was a problem of doing.
That is, when the number of input audio signals to be processed (the number of microphones) is larger than the number of sound sources, processing for separating one sound source signal into a plurality of separated signals is performed, so that sound source separation performance is deteriorated. To do. Further, when the number of input audio signals to be processed is smaller than the number of sound sources, only separated signals that are smaller than the number of sound sources are generated, so that sound source separation performance is deteriorated.
For this reason, when the number of sound sources existing in the acoustic space is not determined in advance, the sound source separation device that performs the conventional ICA-BSS sound source separation processing is the input sound to be processed with respect to the number of sound sources present in the acoustic space. There was a problem that the number of signals (the number of microphones) became excessive and insufficient, and the sound source separation performance deteriorated.
Therefore, the present invention has been made in view of the above circumstances, and the purpose thereof is to increase or decrease the number of sound sources existing in the acoustic space when performing sound source separation processing by the BSS method based on the ICA method. Even in such a case, it is an object to provide a sound source separation device and a sound source separation method that can maintain high sound source separation performance.

上記目的を達成するために本発明は、所定の音響空間に複数の指向性マイクロホンが各々異なる指向方向で配置された状況下で、それら指向性マイクロホンを通じて入力される複数の入力音声信号に基づいて音源分離処理を行う音源分離装置又は音源分離方法として構成されるものであり、以下の(1)〜(3)に示す各構成要素(手段又は手順)を有するものである。
(1)前記複数の指向性マイクロホンを通じて入力される複数の入力音声信号各々の信号強度を検出する信号強度検出手段、又はその信号検出手段により信号強度を検出する信号強度検出手順。
(2)前記信号強度検出手段(又は手順)の検出結果に基づいて前記複数の入力音声信号の中から前記音響空間に存在する1又は複数の音源に対応する1又は複数の採用入力音声信号を選択する信号選択手段、又は信号選択手段による選択を実行する信号選択手順。
(3)前記信号選択手段により複数の前記採用入力信号が選択された場合に、該複数の採用入力音声信号に対し独立成分分析法に基づくブラインド音源分離方式の音源分離処理を施すことにより前記採用入力音声信号の数と同数の分離信号を生成するICA−BSS音源分離手段、又はその分離信号の生成処理を所定のプロセッサにより実行するICA−BSS音源分離手順。
ここで、前記信号選択手段又は信号選択手順としては、例えば、前記信号強度検出手段(又は同手順)により検出された信号強度が第1の設定強度を超えた前記入力音声信号を前記採用入力音声信号として選択するものが考えられる。
In order to achieve the above object, the present invention is based on a plurality of input audio signals input through a directional microphone in a situation where a plurality of directional microphones are arranged in different directional directions in a predetermined acoustic space. It is configured as a sound source separation device or a sound source separation method for performing sound source separation processing, and has each component (means or procedure) shown in the following (1) to (3).
(1) Signal strength detection means for detecting the signal strength of each of the plurality of input audio signals input through the plurality of directional microphones, or a signal strength detection procedure for detecting the signal strength by the signal detection means.
(2) One or a plurality of adopted input sound signals corresponding to one or a plurality of sound sources existing in the acoustic space from the plurality of input sound signals based on a detection result of the signal intensity detection means (or procedure). A signal selection means for selecting, or a signal selection procedure for executing selection by the signal selection means.
(3) When a plurality of adopted input signals are selected by the signal selection means, the adopted input is performed by subjecting the plurality of adopted input speech signals to a sound source separation process of a blind sound source separation method based on an independent component analysis method. An ICA-BSS sound source separation means for generating the same number of separated signals as the number of input audio signals, or an ICA-BSS sound source separation procedure for executing the separation signal generation processing by a predetermined processor.
Here, as the signal selection means or the signal selection procedure, for example, the input voice signal in which the signal strength detected by the signal strength detection means (or the same procedure) exceeds a first set strength is used as the adopted input voice. What is selected as the signal is conceivable.

以上に示す構成要素を有する音源分離装置又は音源分離方法を採用した場合、以下のような作用及び効果が得られる。
即ち、ある指向性マイクロホンの指向方向(主な集音範囲)に音源が存在すれば、その指向性マイクロホンを通じて得られる入力音声信号の強度(パワー)が特に強くなる。もちろん、他の指向性マイクロホンを通じて得られる入力音声信号の強度にも多少は影響するものの、その影響の度合いは比較的小さい。
このため、前記信号選択手段(又は同手順)により、全ての入力音声信号の中から、信号強度が一定レベル以上であるもののみを音源分離処理の対象(前記採用入力音声信号)として選択すれば、音源の数に対し、過不足のない数の前記採用入力音声信号が選択される。
従って、前記入力音声信号を得るための前記指向性マイクロホンを、変動する音源の数に対して十分な数だけ設けておけば、音響空間に存在する音源の数に増減があった場合でも、高い音源分離性能を維持できる。
When the sound source separation device or the sound source separation method having the components described above is employed, the following operations and effects can be obtained.
That is, if a sound source exists in the direction of a certain directional microphone (main sound collection range), the intensity (power) of the input audio signal obtained through the directional microphone is particularly strong. Of course, although the intensity of the input audio signal obtained through other directional microphones is somewhat affected, the degree of the influence is relatively small.
For this reason, if the signal selection means (or the same procedure) selects only input signals having a signal strength of a certain level or higher from all input audio signals as the target of the sound source separation process (the adopted input audio signal). The employed input audio signals are selected so as not to exceed the number of sound sources.
Accordingly, if a sufficient number of the directional microphones for obtaining the input audio signal is provided for the number of sound sources that fluctuate, even if the number of sound sources existing in the acoustic space increases or decreases, Sound source separation performance can be maintained.

また、前記信号選択手段(又は手順)としては、例えば、前記信号強度検出手段(又は手順)により検出された信号強度が強いものから最大2つまでの前記入力音声信号を前記採用入力音声信号として選択するものが考えられる。
これにより、音源分離処理の演算負荷を低減できる。このような構成を有する音源分離装置や音源分離方法は、例えば、ある特定の指向性マイクロホンの指向方向(主な集音範囲)に存在する音源(目的音源)の音源信号と、その他の音源(ノイズ音源)の音源信号とを分離したい場合(複数のノイズ音源の音源信号を分離する必要がない場合)などに有効である。
また、前記信号選択手段(又は手順)としては、例えば、前記採用入力信号として選択している前記入力音声信号のうち、前記信号強度検出手段(又は手順)により検出された信号強度が第2の設定強度以下である状態が所定時間継続したものを前記採用入力音声信号から除外するものが考えられる。
これにより、ICA−BSS音源分離手段(又は手順)の入力数(採用入力音声信号の数)の増減が、音源の一時的な音量増減に応じて無用に頻発することを防止できる。
In addition, as the signal selection means (or procedure), for example, a maximum of two input audio signals from those having a strong signal intensity detected by the signal intensity detection means (or procedure) are used as the adopted input audio signals. You can choose what to choose.
Thereby, the calculation load of sound source separation processing can be reduced. The sound source separation device and the sound source separation method having such a configuration include, for example, a sound source signal of a sound source (target sound source) existing in a direction of a specific directional microphone (main sound collection range) and other sound sources ( This is effective when it is desired to separate the sound source signal of the noise source (when it is not necessary to separate the sound source signals of a plurality of noise sources).
In addition, as the signal selection means (or procedure), for example, the signal strength detected by the signal strength detection means (or procedure) out of the input audio signals selected as the adopted input signal is a second value. One that excludes from the adopted input audio signal those in which the state of being below the set intensity has continued for a predetermined time is conceivable.
Thereby, it is possible to prevent the number of inputs (the number of adopted input audio signals) of the ICA-BSS sound source separation means (or procedure) from increasing frequently and unnecessarily in accordance with the temporary volume increase / decrease of the sound source.

ところで、音源が、隣り合う指向性マイクロホンの一方の集音範囲から他方の集音範囲へ移動した場合、指向方向(集音範囲)が隣り合う2つの指向性マイクロホンにおいて、その一方の入力音声信号の強度が強い状態から弱い状態に変化するとともに、他方の入力音声信号の強度が弱い状態から強い状態に変化する。
そこで、前記信号選択手段(又は手順)としては、指向方向が隣り合う2つの前記指向性マイクロホン各々を通じて入力された入力音声信号(これらを、第1の入力音声信号及び第2の入力音声信号と称する)のうち、その第2の入力音声信号が前記採用入力音声信号として選択しているときに、前記第1の入力音声信号の信号強度が前記第1の設定強度を超えた際に前記第2の入力音声信号の信号強度が第2の設定強度以下となった場合に、その第2の入力音声信号を前記採用入力音声信号から除外するものも考えられる。
なお、以上に示した第1の設定強度及び第2の設定強度は、それぞれ同じ強度に設定されることや、第1の設定強度よりも第2の設定強度の方が弱い強度に設定されること等が考えられる。
By the way, when the sound source moves from one sound collection range of the adjacent directional microphones to the other sound collection range, in one of the two directional microphones whose directivity directions (sound collection ranges) are adjacent, one of the input sound signals Changes from a strong state to a weak state, and the other input voice signal changes from a weak state to a strong state.
Therefore, as the signal selection means (or procedure), the input sound signals (the first input sound signal and the second input sound signal, which are input through each of the two directional microphones whose directional directions are adjacent to each other) When the second input audio signal is selected as the adopted input audio signal, the first input audio signal exceeds the first set intensity when the signal intensity of the first input audio signal exceeds the first set intensity. When the signal intensity of the second input audio signal is equal to or lower than the second set intensity, it is possible to exclude the second input audio signal from the adopted input audio signal.
The first set intensity and the second set intensity shown above are set to the same intensity, or the second set intensity is set to be weaker than the first set intensity. It is conceivable.

本発明によれば、前記入力音声信号を得るための前記指向性マイクロホンを、変動する音源の数に対して十分な数だけ設けておけば、音響空間に存在する音源の数に増減があった場合でも、音源の数に対し、過不足のない数の入力音声信号(前記採用入力音声信号)が選択されるので、高い音源分離性能を維持できる。   According to the present invention, if the directional microphones for obtaining the input audio signal are provided in a sufficient number with respect to the number of fluctuating sound sources, the number of sound sources existing in the acoustic space has increased or decreased. Even in this case, since the number of input audio signals (adopted input audio signal) that is not excessive or insufficient with respect to the number of sound sources is selected, high sound source separation performance can be maintained.

以下添付図面を参照しながら、本発明の実施の形態について説明し、本発明の理解に供する。尚、以下の実施の形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格のものではない。
ここに、図1は本発明の実施形態に係る音源分離装置Xの概略構成を表すブロック図、図2は音源分離装置Xが備える指向性マイクロホンの配置状態の一例を表す平面図、図3は音源分離装置Xにおける音源分離処理の手順を表すフローチャート、図4は音源分離装置Xの適用対象の一例である携帯電話機V1の概略斜視図、図5は音源分離装置Xの適用対象の一例であるロボットV2の概略斜視図、図6はTDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニットZ1の概略構成を表すブロック図、図7はFDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニットZ2の概略構成を表すブロック図である。
Embodiments of the present invention will be described below with reference to the accompanying drawings for understanding of the present invention. In addition, the following embodiment is an example which actualized this invention, Comprising: It is not the thing of the character which limits the technical scope of this invention.
FIG. 1 is a block diagram showing a schematic configuration of the sound source separation device X according to the embodiment of the present invention, FIG. 2 is a plan view showing an example of an arrangement state of directional microphones included in the sound source separation device X, and FIG. FIG. 4 is a schematic perspective view of a cellular phone V1 that is an example of an application target of the sound source separation device X, and FIG. 5 is an example of an application target of the sound source separation device X. 6 is a schematic perspective view of the robot V2, FIG. 6 is a block diagram showing a schematic configuration of a sound source separation unit Z1 that performs BSS sound source separation processing based on the TDICA method, and FIG. 7 is a sound source that performs BSS sound source separation processing based on the FDICA method. It is a block diagram showing schematic structure of the separation unit Z2.

まず、本発明の実施形態について説明する前に、図6及び図7に示すブロック図を用いて、本発明の構成要素として適用可能な各種のICA−BSS方式の音源分離ユニットの例について説明する。
図6は、ICA−BSS方式の一種である時間領域独立成分分析方式(time-domain independent component analysis方式、以下、TDICA方式という)に基づくBSS方式の音源分離処理を行う従来の音源分離ユニットZ1の概略構成を表すブロック図である。なお、本処理の詳細は、非特許文献1や非特許文献2等に示されている。
音源分離ユニットZ1は、分離フィルタ処理部11tにより、2つの音源1、2からの音源信号S1(t)、S2(t)(音源ごとの音声信号)を2つのマイクロホン(音声入力手段)111、112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t)、x2(t)について、分離行列W(z)によりフィルタ処理を施すことによって音源分離を行う。なお、混合音声信号x1(t)、x2(t)は、所定のサンプリング周期でデジタル化された信号であるが、図6、図7においては、A/D変換手段の記載を省略している。
図6には、2つの音源1、2からの音源信号S1(t)、S2(t)(個別音声信号)を2つのマイクロホン(音声入力手段)111、112で入力した2チャンネル(マイクロホンの数)の混合音声信号x1(t)、x2(t)に基づいて音源分離を行う例について示しているが、2チャンネル以上であっても同様である。ICA−BSS方式による音源分離の場合、(入力される混合音声信号のチャンネル数n(即ち、マイクロホンの数))≧(音源の数m)であればよい。但し、前述したように、高い音源分離性能を確保するためには、音源分離処理の対象とするチャンネル数と音源の数とを一致させることが望ましい。
複数のマイクロホン111、112各々で集音された各混合音声信号x1(t)、x2(t)には、複数音源からの音源信号が重畳されている。以下、各混合音声信号x1(t)、x2(t)を総称してx(t)と表す。この混合音声信号x(t)は音源信号S(t)の時間的空間的な畳み込み信号として表現され、次の(1)式のように表される。

Figure 2007295085
TDICAによる音源分離の理論は、この音源信号S(t)のそれぞれの音源同士が統計的に独立であることを利用すると、x(t)がわかればS(t)を推測することができ、従って、音源を分離することができるという発想に基づく理論である。
ここで、当該音源分離処理に用いる分離行列をW(z)とすれば、分離信号(即ち、同定信号)y(t)は、次の(2)式で表される。
Figure 2007295085
ここで、W(z)は、出力y(t)から逐次計算(学習計算)により求められる。また、分離信号は、チャンネルの数だけ得られる。
なお、音源合成処理はこのW(z)に関する情報により、逆演算処理に相当する配列を形成し、これを用いて逆演算を行えばよい。また、分離行列W(z)の逐次計算を行う際の分離行列の初期値(初期行列)は、予め定められたものが設定される。
このようなICA−BSS方式による音源分離を行うことにより、例えば、人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から、歌声の音源信号と楽器の音源信号とが分離(同定)される。
ここで、(2)式は、次の(3)式のように書き換えて表現できる。
Figure 2007295085
そして、(3)式における分離フィルタ(分離行列)W(n)は、次の(4)式により表される処理(以下、第1の単位処理という)を繰り返し実行する逐次計算により求められる。即ち、前回(j)の出力y(t)を(4)式に適用することよって今回(j+1)のW(n)を求め、今回求めたW(n)を用いて所定時間長分の混合音声信号に対してフィルタ処理(行列演算)を施すことによって今回(j+1)の出力y(t)を求める、という前記第1の単位処理を複数回繰り返す。これにより、分離フィルタ(分離行列)W(n)が、徐々に上記逐次計算で用いられる混合音声信号に対応した内容となる。
Figure 2007295085
First, before describing embodiments of the present invention, examples of various ICA-BSS sound source separation units applicable as components of the present invention will be described using the block diagrams shown in FIGS. 6 and 7. .
FIG. 6 shows a conventional sound source separation unit Z1 that performs sound source separation processing of a BSS method based on a time-domain independent component analysis method (hereinafter referred to as a TDICA method), which is a kind of ICA-BSS method. It is a block diagram showing a schematic structure. Details of this processing are shown in Non-Patent Document 1, Non-Patent Document 2, and the like.
The sound source separation unit Z1 uses the separation filter processing unit 11t to convert sound source signals S1 (t) and S2 (t) (audio signals for each sound source) from the two sound sources 1 and 2 into two microphones (audio input means) 111, The mixed sound signals x1 (t) and x2 (t) of the two channels (the number of microphones) input at 112 are subjected to sound source separation by performing filter processing using a separation matrix W (z). Note that the mixed audio signals x1 (t) and x2 (t) are signals digitized at a predetermined sampling period, but the description of the A / D conversion means is omitted in FIGS. .
FIG. 6 shows two channels (the number of microphones) in which sound source signals S1 (t) and S2 (t) (individual audio signals) from two sound sources 1 and 2 are input by two microphones (audio input means) 111 and 112. ), An example of performing sound source separation based on the mixed audio signals x1 (t) and x2 (t) is shown. In the case of sound source separation by the ICA-BSS system, it is sufficient if (number of channels of input mixed audio signal n (that is, number of microphones)) ≧ (number of sound sources m). However, as described above, in order to ensure high sound source separation performance, it is desirable to match the number of channels targeted for sound source separation processing with the number of sound sources.
Sound source signals from a plurality of sound sources are superimposed on each of the mixed sound signals x1 (t) and x2 (t) collected by each of the plurality of microphones 111 and 112. Hereinafter, the mixed audio signals x1 (t) and x2 (t) are collectively referred to as x (t). This mixed sound signal x (t) is expressed as a temporal and spatial convolution signal of the sound source signal S (t) and is expressed as the following equation (1).
Figure 2007295085
The theory of sound source separation by TDICA is that if each sound source of the sound source signal S (t) is statistically independent, S (t) can be estimated if x (t) is known, Therefore, the theory is based on the idea that sound sources can be separated.
Here, if the separation matrix used for the sound source separation processing is W (z), the separated signal (that is, the identification signal) y (t) is expressed by the following equation (2).
Figure 2007295085
Here, W (z) is obtained by sequential calculation (learning calculation) from the output y (t). In addition, as many separation signals as the number of channels are obtained.
In the sound source synthesis process, an array corresponding to the inverse calculation process is formed based on the information on W (z), and the inverse calculation may be performed using this. In addition, a predetermined value is set as an initial value (initial matrix) of the separation matrix when the separation matrix W (z) is sequentially calculated.
By performing sound source separation by such an ICA-BSS method, for example, from a mixed sound signal for a plurality of channels in which a human singing voice and a sound of an instrument such as a guitar are mixed, a singing sound source signal and a sound source signal of the instrument Are separated (identified).
Here, the expression (2) can be rewritten and expressed as the following expression (3).
Figure 2007295085
The separation filter (separation matrix) W (n) in equation (3) is obtained by sequential calculation that repeatedly executes the processing represented by the following equation (4) (hereinafter referred to as first unit processing). That is, by applying the output y (t) of the previous time (j) to the equation (4), W (n) of this time (j + 1) is obtained, and mixing for a predetermined time length is performed using W (n) obtained this time. The first unit processing of obtaining the current output (j + 1) y (t) by performing filter processing (matrix operation) on the audio signal is repeated a plurality of times. Thereby, the separation filter (separation matrix) W (n) gradually becomes a content corresponding to the mixed speech signal used in the sequential calculation.
Figure 2007295085

次に、図7に示すブロック図を用いて、ICA−BSS方式の一種であるFDICA方式(Frequency-Domain ICA)に基づく音源分離処理を行う従来の音源分離ユニットZ2について説明する。
FDICA方式では、まず、入力された混合音声信号x(t)について、ST−DFT処理部13によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換(Short Time Discrete Fourier Transform、以下、ST−DFT処理という)を行うことにより、観測信号の短時間分析(時間領域から周波数領域への変換)を行う。離散フーリエ変換後の信号は、周波数ビンと呼ばれる所定範囲の周波数帯域ごとに区分された信号となる。そして、そのST−DFT処理後の各チャンネルの信号(各周波数成分の信号)について、分離フィルタ処理部11fにより分離行列W(f)に基づく分離フィルタ処理を施すことによって音源分離(音源信号の同定)を行う。ここでfを周波数ビン、mを分析フレーム番号とすると、分離信号(同定信号)y(f、m)は、次の(5)式のように表すことができる。

Figure 2007295085
そして、(5)式における分離フィルタ(分離行列)W(f)は、次の(6)式により表される処理(以下、第2の単位処理という)を繰り返し実行する逐次計算により求められる。即ち、前回(i)の出力y(f)を(6)式に適用することよって今回(i+1)のW(f)を求め、今回求めたW(f)を用いて所定時間長分の混合音声信号(周波数領域に変換されたもの)に対してフィルタ処理(行列演算)を施すことによって今回(i+1)の出力y(f)を求める、という前記第2の単位処理を複数回繰り返す。これにより、分離フィルタ(分離行列)W(f)が、徐々に上記逐次計算で用いられる混合音声信号に対応した内容となる。
Figure 2007295085
このFDICA方式によれば、音源分離処理が各狭帯域における瞬時混合問題として取り扱われ、比較的簡単かつ安定に分離フィルタ(分離行列)W(f)を更新することができる。 Next, a conventional sound source separation unit Z2 that performs sound source separation processing based on the FDICA method (Frequency-Domain ICA), which is a type of ICA-BSS method, will be described using the block diagram shown in FIG.
In the FDICA method, first, a short time discrete Fourier transform (Short Time Discrete Fourier Transform) is performed for each frame, which is a signal divided for each predetermined period by the ST-DFT processing unit 13 with respect to the input mixed audio signal x (t). , Hereinafter referred to as ST-DFT processing), the observation signal is analyzed in a short time (conversion from the time domain to the frequency domain). The signal after the discrete Fourier transform becomes a signal divided for each predetermined frequency band called a frequency bin. The signal of each channel (the signal of each frequency component) after the ST-DFT processing is subjected to separation filter processing based on the separation matrix W (f) by the separation filter processing unit 11f, whereby sound source separation (sound source signal identification) is performed. )I do. Here, when f is a frequency bin and m is an analysis frame number, the separation signal (identification signal) y (f, m) can be expressed as the following equation (5).
Figure 2007295085
The separation filter (separation matrix) W (f) in equation (5) is obtained by sequential calculation that repeatedly executes the processing represented by the following equation (6) (hereinafter referred to as second unit processing). That is, by applying the output y (f) of the previous (i) to the equation (6), W (f) of this time (i + 1) is obtained, and mixing for a predetermined time length is performed using W (f) obtained this time. The second unit process of obtaining the current output (i + 1) y (f) by applying a filter process (matrix operation) to the audio signal (converted to the frequency domain) is repeated a plurality of times. As a result, the separation filter (separation matrix) W (f) gradually becomes content corresponding to the mixed speech signal used in the sequential calculation.
Figure 2007295085
According to this FDICA method, sound source separation processing is handled as an instantaneous mixing problem in each narrow band, and the separation filter (separation matrix) W (f) can be updated relatively easily and stably.

以下、図1に示すブロック図を用いて、本発明の実施形態に係る音源分離装置Xについて説明する。
音源分離装置Xは、1又は複数の音源が存在し得る音響空間に配置される複数の指向性マイクロホン111〜11n(以下、指向性マイクという)を備え、その指向性マイク111〜11n各々を通じて逐次入力される複数の音声信号(以下、入力音声信号xiという(但し、i=1〜n))から、複数の音源信号を分離(同定)した分離信号(即ち、音源信号に対応した同定信号)yjを逐次生成し、スピーカ等に対してリアルタイム出力するものである。ここで、音響空間に音源が複数存在する場合、各入力音声信号xiは、その複数の音源各々からの音源信号が重畳された混合音声信号である。なお、図1には、音響空間に2つの音源1、2が存在する例を示しているが、指向性マイク111〜11nが配置される音響空間には、0個〜n個の音源が存在し得るものとし、いくつの音源が存在するかは予め定まっていないものとする。
Hereinafter, the sound source separation apparatus X according to the embodiment of the present invention will be described with reference to the block diagram shown in FIG.
The sound source separation device X includes a plurality of directional microphones 111 to 11n (hereinafter referred to as directional microphones) arranged in an acoustic space where one or a plurality of sound sources can exist, and sequentially through each of the directional microphones 111 to 11n. A separated signal (ie, an identification signal corresponding to the sound source signal) obtained by separating (identifying) a plurality of sound source signals from a plurality of input sound signals (hereinafter referred to as input sound signals xi (where i = 1 to n)). yj is sequentially generated and output to a speaker or the like in real time. Here, when there are a plurality of sound sources in the acoustic space, each input sound signal xi is a mixed sound signal on which sound source signals from the plurality of sound sources are superimposed. FIG. 1 shows an example in which two sound sources 1 and 2 exist in the acoustic space, but 0 to n sound sources exist in the acoustic space in which the directional microphones 111 to 11n are arranged. It is assumed that how many sound sources exist is not determined in advance.

図1に示すように、音源分離装置Xは、n個の指向性マイク111〜11n、A/Dコンバータ21(図中、ADCと表記)、D/Aコンバータ22(図中、DACと表記)、入力バッファ23、出力バッファ24、ICA部20、パワー検出・信号選択部25及び外部入力インターフェース26等を備えて構成されている。
さらに、ICA部20は、ST−DFT処理部20a、学習演算部20b、分離フィルタ処理部20c、分離制御部20e等を具備して構成されている。
ここで、ICA部20及びパワー検出・信号選択部25は、それぞれDSP(Digital Signal Processor)等の演算用のプロセッサ及びそのプロセッサにより実行されるプログラムが記憶されたROM等の記憶手段、並びにRAM等のその他の周辺装置により構成されたものが考えられる。或いは、1つのCPU及びその周辺装置を有するコンピュータにより、上記各構成要素が行う処理に対応するプログラムモジュールを実行するよう構成されたもの等も考えられる。また、所定のコンピュータ(音源分離装置が備えるプロセッサを含む)に各構成要素の処理を実行させる音源分離装置用のプログラムとして提供することも考えられる。
As shown in FIG. 1, the sound source separation device X includes n directional microphones 111 to 11n, an A / D converter 21 (indicated as ADC in the figure), and a D / A converter 22 (indicated as DAC in the figure). , An input buffer 23, an output buffer 24, an ICA unit 20, a power detection / signal selection unit 25, an external input interface 26, and the like.
Further, the ICA unit 20 includes an ST-DFT processing unit 20a, a learning calculation unit 20b, a separation filter processing unit 20c, a separation control unit 20e, and the like.
Here, each of the ICA unit 20 and the power detection / signal selection unit 25 includes a processor for calculation such as a DSP (Digital Signal Processor), a storage unit such as a ROM storing a program executed by the processor, a RAM, and the like. It may be configured by other peripheral devices. Or what was comprised so that the program module corresponding to the process which each said component performs by the computer which has one CPU and its peripheral device may be considered. It is also conceivable to provide a program for a sound source separation device that causes a predetermined computer (including a processor included in the sound source separation device) to execute processing of each component.

ADC21は、複数のマイクロホン111〜11n各々から入力されるアナログの入力音声信号各々を所定のサンプリング周期でサンプリングすることにより、デジタルの入力音声信号Xi(t)に変換(A/D変換)するすものである。例えば、各音源が人の声である場合、8kHz程度のサンプリング周期でデジタル化すればよい。
入力バッファ23は、ADC21により逐次A/D変換されて得られるデジタルの入力音声信号xi(t)を入力し、常に最新の所定時間長分の入力音声信号xiを保持するデータバッファである。
パワー検出・信号選択部25は、複数の指向性マイク111〜11nを通じて入力される複数の入力音声信号xi各々のパワーPi(信号強度)を検出するとともに、そのパワーPiに基づいて、複数の入力音声信号xiの中から、音響空間に存在する1又は複数の音源に対応する1又は複数の入力音声信号(以下、採用入力音声信号xjという)を選択する処理を行うものである(信号強度検出手段及び信号選択手段の一例)。その詳細については後述する。
外部入力インターフェース26は、パワー検出・信号選択部25が計算機等の外部装置から後述する信号パワー設定値Ps1、Ps2を取得するための信号伝送用のインターフェースである。
ICA部20は、パワー検出・信号選択部25によって複数の前記採用入力信号xjが選択された場合に、その複数の採用入力音声信号xjに対し、独立成分分析法に基づくブラインド音源分離方式の音源分離処理(前述したICA−BSS音源分離処理)を施すことにより、採用入力音声信号xjの数と同数の分離信号yjを生成する処理を実行するものである(ICA−BSS音源分離手段の一例)。
The ADC 21 converts (A / D conversion) into a digital input audio signal Xi (t) by sampling each analog input audio signal input from each of the plurality of microphones 111 to 11n at a predetermined sampling period. Is. For example, when each sound source is a human voice, it may be digitized with a sampling period of about 8 kHz.
The input buffer 23 is a data buffer that receives a digital input audio signal xi (t) obtained by successive A / D conversion by the ADC 21 and always holds the input audio signal xi for the latest predetermined time length.
The power detection / signal selection unit 25 detects the power Pi (signal intensity) of each of the plurality of input audio signals xi input through the plurality of directional microphones 111 to 11n, and a plurality of inputs based on the power Pi. A process of selecting one or a plurality of input sound signals (hereinafter referred to as adopted input sound signals xj) corresponding to one or a plurality of sound sources existing in the acoustic space from the sound signals xi (signal intensity detection). Examples of means and signal selection means). Details thereof will be described later.
The external input interface 26 is a signal transmission interface for the power detection / signal selection unit 25 to acquire signal power setting values Ps1 and Ps2 described later from an external device such as a computer.
When a plurality of adopted input signals xj are selected by the power detection / signal selection unit 25, the ICA unit 20 applies a blind sound source separation type sound source based on an independent component analysis method to the plurality of adopted input audio signals xj. By performing a separation process (the ICA-BSS sound source separation process described above), a process for generating the same number of separated signals yj as the number of adopted input audio signals xj is executed (an example of an ICA-BSS sound source separation unit). .

具体的には、ST−DFT処理部20aにより、入力バッファに蓄積された入力音声信号のうち、パワー検出・信号選択部25によって選択された所定時間長分(1フレーム分)の採用入力音声信号xjに対して短時間離散フーリエ変換処理を行い、所定の時間長分の時間領域の採用入力音声信号xj(図6におけるxi(t)に相当)を、同時間長分の周波数領域の入力音声信号xj(f)(周波数ビンと呼ばれる所定範囲の周波数帯域ごとに区分された信号)に変換する。なお、採用入力音声信号xjは、所定周期でサンプリングされてデジタル化されているので、採用入力音声信号xjの時間長を規定することは、採用入力音声信号xjのサンプル数を規定することと同義である。
さらに、分離フィルタ処理部20cにより、ST−DFT処理部20aを通じて逐次入力される複数の周波数領域の採用入力音声信号xj(f)に対し、分離行列W(f)を用いた行列演算を施すことにより、複数の音源各々に対応する周波数領域の複数の分離信号yj(f)を逐次生成する。なお、周波数ビンをf、フレーム番号をmとすると、分離フィルタ処理部20cの処理によって得られる分離信号y(f、m)(上記yj(f)と同義)は、前述した(5)式で表される。
ここで、分離信号yj(f)各々は、採用入力音声信号xjの数と同じ数だけ出力される。図1に示す例は、2つの入力音声信号x1及びx3が、採用入力音声信号xjとして選択されている状態を表しているが、採用入力音声信号xjの数及び組合せは、パワー検出・信号選択部25による選択結果に応じて変動し得る。
Specifically, among the input audio signals accumulated in the input buffer by the ST-DFT processing unit 20a, the adopted input audio signal for a predetermined time length (for one frame) selected by the power detection / signal selection unit 25. A short-time discrete Fourier transform process is performed on xj, and a time domain adopted input speech signal xj (corresponding to xi (t) in FIG. 6) for a predetermined time length is converted into a frequency domain input speech for the same time length. The signal is converted into a signal xj (f) (a signal divided for each frequency band in a predetermined range called a frequency bin). Since the adopted input audio signal xj is sampled and digitized at a predetermined period, defining the time length of the adopted input audio signal xj is synonymous with defining the number of samples of the adopted input audio signal xj. It is.
Further, the separation filter processing unit 20c performs a matrix operation using the separation matrix W (f) on the adopted input speech signals xj (f) in a plurality of frequency domains sequentially input through the ST-DFT processing unit 20a. Thus, a plurality of separated signals yj (f) in the frequency domain corresponding to each of the plurality of sound sources are sequentially generated. If the frequency bin is f and the frame number is m, the separated signal y (f, m) (synonymous with yj (f) above) obtained by the processing of the separation filter processing unit 20c is the equation (5) described above. expressed.
Here, as many separated signals yj (f) as the number of adopted input audio signals xj are output. The example shown in FIG. 1 shows a state in which two input audio signals x1 and x3 are selected as adopted input audio signals xj, but the number and combination of adopted input audio signals xj are power detection / signal selection. It may vary depending on the selection result by the unit 25.

さらに、IDFT処理部20dにより、分離フィルタ処理部20cによって生成された周波数領域の分離信号yj(f)に対して逆離散フーリエ変換(Inverse Discrete Fourier Transform)処理が施される。これにより、周波数領域の分離信号yj(f)が、時間領域の分離信号yjに変換され、出力バッファ24に格納される。
そして、出力バッファ24に保持された時間領域の分離信号yj(デジタル信号)は、D/Aコンバータ22によってアナログの音声信号に変換されて出力される。このアナログの音声信号は、例えば、不図示のスピーカを通じて音声出力される。
Further, the IDFT processing unit 20d performs an inverse discrete Fourier transform process on the frequency domain separation signal yj (f) generated by the separation filter processing unit 20c. As a result, the separated signal yj (f) in the frequency domain is converted into the separated signal yj in the time domain and stored in the output buffer 24.
The time domain separation signal yj (digital signal) held in the output buffer 24 is converted into an analog audio signal by the D / A converter 22 and output. The analog audio signal is output as audio through a speaker (not shown), for example.

一方、学習演算部20bにより、予め定められた時間長分の複数の周波数領域の採用入力音声信号xj(f)を用いて、FDICA方式のBSS音源分離処理における分離行列W(f)の学習演算が行われ、この学習演算により得られる分離行列W(f)が、分離フィルタ処理部20bで用いられる分離行列W(f)として設定される。学習演算部20bは、入力バッファ23に保持されている採用入力音声信号xjを用いて学習演算を行う。この学習演算は、分離フィルタ処理部20cによる分離処理が実行される場合、その分離処理と並行して実行される。
ここで、学習演算部20bによる分離行列W(f)の算出(学習演算)は、図7に示した音源分離ユニットZ2(FDICA方式に基づく分離行列(分離フィルタ)の学習演算)が採用される。即ち、ST−DFT処理部20a及び学習演算部20bが、前述した音源分離ユニットZ2に相当する。
また、分離制御部20eは、パワー検出・信号選択部25から、採用入力音声信号がいずれであるかの情報を取得し、その取得情報に基づいて、入力バッファ23に保持された入力音声信号xiの伝送と、当該ICA部20による音源分離処理を実行するか否かとを制御するものである。その詳細については後述する。
On the other hand, the learning calculation unit 20b uses the input speech signals xj (f) in a plurality of frequency regions for a predetermined time length to perform the learning calculation of the separation matrix W (f) in the BSS sound source separation processing of the FDICA method. The separation matrix W (f) obtained by this learning calculation is set as the separation matrix W (f) used in the separation filter processing unit 20b. The learning calculation unit 20 b performs learning calculation using the adopted input audio signal xj held in the input buffer 23. This learning calculation is executed in parallel with the separation processing when the separation processing by the separation filter processing unit 20c is executed.
Here, the calculation (learning calculation) of the separation matrix W (f) by the learning calculation unit 20b employs the sound source separation unit Z2 (learning calculation of the separation matrix (separation filter) based on the FDICA method) shown in FIG. . That is, the ST-DFT processing unit 20a and the learning calculation unit 20b correspond to the sound source separation unit Z2 described above.
Also, the separation control unit 20e acquires information indicating which input audio signal is adopted from the power detection / signal selection unit 25, and the input audio signal xi held in the input buffer 23 based on the acquired information. And whether or not the sound source separation processing by the ICA unit 20 is executed. Details thereof will be described later.

図2は、n個(nチャンネル分)の指向性マイク111〜11nの配置状態の一例を表す平面図である。
図2に示すように、音源分離装置Xが備えるn個(図2に示す例では6個)の指向性マイク111〜11nは、0個〜n個の音源が存在し得る音響空間において、各々異なる指向方向で配置される。これにより、各指向性マイク111〜11nの主な集音範囲(図2において破線で示す範囲)は、ほとんど重ならない状態となっている。
このように、複数の指向性マイク111〜11nを図2に示すように配置することにより、ある指向性マイクの指向方向(主な集音範囲)に音源が存在すれば、その指向性マイクを通じて得られる入力音声信号のパワーが特に強くなる。もちろん、他の指向性マイクを通じて得られる入力音声信号のパワーにも多少は影響するものの、その影響の度合いは比較的小さい。
FIG. 2 is a plan view illustrating an example of an arrangement state of n (for n channels) directional microphones 111 to 11n.
As shown in FIG. 2, n (6 in the example shown in FIG. 2) directional microphones 111 to 11n included in the sound source separation device X are respectively in an acoustic space where 0 to n sound sources can exist. Arranged in different directivity directions. Thereby, the main sound collection ranges (ranges indicated by broken lines in FIG. 2) of the directional microphones 111 to 11n are in a state where they do not overlap each other.
In this way, by arranging a plurality of directional microphones 111 to 11n as shown in FIG. 2, if a sound source exists in the directional direction (main sound collection range) of a certain directional microphone, the directional microphones are passed through. The power of the obtained input audio signal is particularly strong. Of course, although the power of the input audio signal obtained through other directional microphones is somewhat affected, the degree of the influence is relatively small.

次に、図3に示すフローチャートを参照しつつ、音源分離装置Xにおける音源分離処理の手順について説明する。以下、S1、S2、…は、処理手順(ステップ)の識別符号を表す。また、図3に示す処理は、音源分離装置Xが備える不図示の電源スイッチがONされた場合に実行が開始される。
[ステップS1、S2]
まず、音源分離装置Xが処理を開始すると、各構成要素において、各種の初期処理が実行される(S1)。
例えば、パワー検出・信号選択部25は、外部入力インターフェース26を通じて外部装置から入力される信号パワー設定値Ps1、Ps2を取得し、パワー検出・信号選択部25が備える記憶部に記憶する。
また、パワー検出・信号選択部25は、採用入力音声信号の選択状態を、1つも選択されていない状態(初期状態)に設定する。
また、学習演算部20bは、学習計算に用いる分離行列W(f)に所定の初期値を設定する。
さらに、ADC21によるA/D変換処理、即ち、入力音声信号xiの入力処理が開始される(S2)。これにより、以後、所定時間分(例えば、2フレーム分)の最新の入力音声信号xi(デジタル音声信号)が入力バッファ23に順次蓄積される。
Next, the procedure of the sound source separation process in the sound source separation device X will be described with reference to the flowchart shown in FIG. Hereinafter, S1, S2,... Represent identification codes of processing procedures (steps). The processing shown in FIG. 3 is started when a power switch (not shown) provided in the sound source separation device X is turned on.
[Steps S1, S2]
First, when the sound source separation device X starts processing, various initial processes are executed in each component (S1).
For example, the power detection / signal selection unit 25 acquires signal power setting values Ps1 and Ps2 input from an external device through the external input interface 26, and stores them in a storage unit included in the power detection / signal selection unit 25.
In addition, the power detection / signal selection unit 25 sets the selection state of the adopted input audio signal to a state where none is selected (initial state).
In addition, the learning calculation unit 20b sets a predetermined initial value in the separation matrix W (f) used for learning calculation.
Furthermore, A / D conversion processing by the ADC 21, that is, input processing of the input audio signal xi is started (S2). Thereby, the latest input audio signal xi (digital audio signal) for a predetermined time (for example, 2 frames) is sequentially stored in the input buffer 23 thereafter.

[ステップS3〜S5]
次に、パワー検出・信号選択部25により、入力バッファ23に蓄積された1フレーム分の各チャンネルの入力音声信号xiについて、信号のパワーPi(信号強度)が検出される(S3、信号強度検出手順の一例)。なお、このステップS3の処理が実行される前に、既に各入力音声信号xiについて検出(算出)されたパワーPiが存在する場合、前回の各入力音声信号xiのパワーとしてパワー検出・信号選択部25の記憶部に記憶される。
例えば、パワー検出・信号選択部25は、入力バッファ23に蓄積されたαサンプル分(αは例えば1フレーム分のサンプル数)の入力音声信号xiの絶対値の平均値や2乗平均値等を信号のパワーPiとして算出(検出)する。
さらに、パワー検出・信号選択部25により、ステップS3で検出された信号のパワーPiに基づいて、全ての(複数の)入力音声信号xiの中から、指向性マイク111〜11nが配置される音響空間に存在する1又は複数の音源に対応する1又は複数の採用入力音声信号xj(チャンネル)を選択する処理(S4、S5)が実行される(信号選択手順の一例)。なお、このステップS4及びS5の処理が実行される前に、その時点で既に選択されている採用入力音声信号のチャンネルが、前回の採用入力信号xjのチャンネルとしてパワー検出・信号選択部25の記憶部に記憶される。
具体的には、パワー検出・信号選択部25は、ステップS3で検出した信号のパワーPiが、予め外部入力インターフェース26を取得している信号パワー設定値Ps1(第1の設定強度の一例)を超えた入力音声信号xiを、採用入力音声信号xjとして追加的に選択する(S4)。
また、パワー検出・信号選択部25は、既に採用入力信号xjとして選択している入力音声信号xiのうち、ステップS3で検出した信号のパワーPiが、予め外部入力インターフェース26を取得している信号パワー設定値Ps2(第2の設定強度の一例)以下である状態が所定の設定時間t0[秒]以上継続したものを、採用入力音声信号xjから除外する(S5)。例えば、t0は、数秒〜10秒程度に設定することが考えられる。
このように、設定時間t0以上の継続を、採用入力信号xjから除外する条件とすることにより、ICA部20への信号入力数(採用入力音声信号xjの数)の増減が、音源の一時的な音量増減に応じて無用に頻発することを防止できる。
ここで、信号パワー設定値Ps1、Ps2は、Ps1=Ps2とすること、或いはPs1>Ps2とすることが考えられる。
[Steps S3 to S5]
Next, the power detection / signal selection unit 25 detects the signal power Pi (signal strength) of the input audio signal xi of each channel for one frame accumulated in the input buffer 23 (S3, signal strength detection). An example of the procedure). If the power Pi already detected (calculated) for each input audio signal xi exists before the processing of step S3 is executed, the power detection / signal selection unit is used as the power of each previous input audio signal xi. 25 storage units.
For example, the power detection / signal selection unit 25 calculates an average value or a square average value of the absolute value of the input audio signal xi for α samples (α is the number of samples for one frame, for example) accumulated in the input buffer 23. It is calculated (detected) as the signal power Pi.
Furthermore, the sound in which the directional microphones 111 to 11n are arranged from all (a plurality of) input audio signals xi based on the power Pi of the signal detected in step S3 by the power detection / signal selection unit 25. Processing (S4, S5) for selecting one or a plurality of adopted input audio signals xj (channels) corresponding to one or a plurality of sound sources existing in the space is executed (an example of a signal selection procedure). Before the processes of steps S4 and S5 are executed, the channel of the adopted input audio signal already selected at that time is stored in the power detection / signal selection unit 25 as the channel of the previous adopted input signal xj. Stored in the department.
Specifically, the power detection / signal selection unit 25 uses the signal power Pi detected in step S3 as the signal power setting value Ps1 (an example of the first setting intensity) acquired in advance from the external input interface 26. The input audio signal xi that has exceeded is additionally selected as the adopted input audio signal xj (S4).
Further, the power detection / signal selection unit 25 is a signal in which the power Pi of the signal detected in step S3 among the input audio signals xi that have already been selected as the adopted input signal xj has acquired the external input interface 26 in advance. A case where the state of being lower than or equal to the power set value Ps2 (an example of the second set intensity) continues for a predetermined set time t0 [seconds] is excluded from the employed input audio signal xj (S5). For example, t0 may be set to about several seconds to 10 seconds.
In this way, by setting the continuation of the set time t0 or longer as a condition to exclude from the adopted input signal xj, the increase / decrease in the number of signal inputs to the ICA unit 20 (the number of adopted input audio signals xj) can be made temporarily. It is possible to prevent unnecessary frequent occurrence in accordance with the volume increase / decrease.
Here, it is conceivable that the signal power setting values Ps1 and Ps2 are Ps1 = Ps2 or Ps1> Ps2.

[ステップS6〜S8]
次に、パワー検出・信号選択部25により、ステップS4及びS5の処理によって選択した採用入力音声信号xjの数が、1個以上であるか否か(選択されたか否か)の判別(S6)、及び1個であるか2個以上であるかの判別(S7)が行われる。
ここで、採用入力音声信号xjの数が1個以上ではない(0個である)場合、その旨の情報がパワー検出・信号選択部25からICA部20の分離制御部20eに伝送される。このように、採用入力音声信号xjの数が0個(選択されていない)場合、分離制御部20eは、音源の分離処理(分離フィルタ処理部20c及び学習演算部20bの処理)を実行させない。その結果、出力バッファ24への分離信号yjの出力及びDAC22を通じた分離音声信号の出力も実行されない。
また、採用入力音声信号xjの数が1個である場合、その旨の情報がパワー検出・信号選択部25からICA部20の分離制御部20eに伝送される。これにより、分離制御部20eは、音源の分離処理(分離フィルタ処理部20c及び学習演算部20bの処理)を停止させるとともに、その1つの採用入力音声信号xjをそのまま(分離処理を施さずに)分離信号yjとして出力バッファ24に出力する(S8)。
そして、採用入力音声信号xjの数が0個である場合、又はステップS9の処理が実行された場合、パワー検出・信号選択部25は、処理を前述したステップS3に戻す。
[Steps S6 to S8]
Next, it is determined whether or not the number of adopted input audio signals xj selected by the processing of steps S4 and S5 by the power detection / signal selection unit 25 is one or more (whether or not it is selected) (S6). And whether the number is one or more (S7).
Here, when the number of adopted input audio signals xj is not 1 or more (0), information to that effect is transmitted from the power detection / signal selection unit 25 to the separation control unit 20e of the ICA unit 20. As described above, when the number of adopted input audio signals xj is 0 (not selected), the separation control unit 20e does not execute sound source separation processing (processing of the separation filter processing unit 20c and the learning calculation unit 20b). As a result, the output of the separated signal yj to the output buffer 24 and the output of the separated audio signal through the DAC 22 are not executed.
When the number of adopted input audio signals xj is one, information to that effect is transmitted from the power detection / signal selection unit 25 to the separation control unit 20e of the ICA unit 20. As a result, the separation control unit 20e stops the sound source separation processing (the processing of the separation filter processing unit 20c and the learning calculation unit 20b), and the one adopted input audio signal xj is used as it is (without performing the separation processing). The separated signal yj is output to the output buffer 24 (S8).
When the number of adopted input audio signals xj is 0, or when the process of step S9 is executed, the power detection / signal selection unit 25 returns the process to step S3 described above.

[ステップS9〜S11]
一方、採用入力音声信号xjの数が2個以上である場合、パワー検出・信号選択部25により、今回選択された採用入力音声信号xjのチャンネルと、前回の採用入力音声信号xjのチャンネルとが同じであるか否かが判別される(S9)。
ここで、今回と前回の採用入力音声信号xjのチャンネルが同じである場合、パワー検出・信号選択部25は、処理を後述するステップS12へ移行させ、そうでない場合は、処理を次のステップS10へ移行させる。
ステップS10では、パワー検出・信号選択部25により、音源の移動があったか否かの判別処理が行われる(S10)。
具体的には、パワー検出・信号選択部25は、指向方向(集音範囲)が隣り合う2つの指向性マイク(これらを、第1マイク及び第2マイクと称する)各々を通じて入力された入力音声信号xi(これらを、第1入力音声信号及x1iび第2入力音声信号x2iと称する)のうち、その第2入力音声信号x2iが採用入力音声信号xjとして選択されており、かつ、今回、第1入力音声信号x1iのパワーが信号パワー設定値Ps1(第1の設定強度の一例)を超える(前回から変化した)とともに、第2入力音声信号x2iのパワーが信号パワー設定値Ps2(第2の設定強度の一例)以下となった(前回から変化した)場合に、第1入力音声信号x1iは、第2マイクの指向方向(集音範囲)から第1マイクの指向方向(集音範囲)に移動した音源からの音声信号であると判別する。
そして、パワー検出・信号選択部25は、このような判別処理によって音源の移動があったと判別した場合、その第2入力音声信号x2iを採用入力音声信号から除外し(S11)、処理を次のステップS12へ移行させる。
即ち、指向方向(集音範囲)が隣り合う2つの指向性マイクにおいて、その一方(第2マイク)の入力音声信号のパワーが強い状態から弱い状態に変化するとともに、他方(第1マイク)の入力音声信号のパワーが弱い状態から強い状態に変化した場合、音源が、隣り合う指向性マイクの一方の集音範囲から他方の集音範囲へ移動したと判別する。
一方、パワー検出・信号選択部25は、音源の移動があったと判別しなかった場合、処理を後述するステップS14へ移行させる。
[Steps S9 to S11]
On the other hand, when the number of adopted input audio signals xj is two or more, the channel of the adopted input audio signal xj selected this time and the channel of the previous adopted input audio signal xj are selected by the power detection / signal selection unit 25. It is determined whether or not they are the same (S9).
Here, when the channel of the adopted input audio signal xj this time and the previous time is the same, the power detection / signal selection unit 25 shifts the process to step S12 described later, and if not, the process proceeds to the next step S10. To move to.
In step S10, the power detection / signal selection unit 25 determines whether or not the sound source has moved (S10).
Specifically, the power detection / signal selection unit 25 receives input sound input through each of two directional microphones (which are referred to as a first microphone and a second microphone) whose directivity directions (sound collection ranges) are adjacent to each other. Of the signals xi (these are referred to as the first input audio signal and the x1i and second input audio signals x2i), the second input audio signal x2i is selected as the adopted input audio signal xj, and this time, The power of the first input audio signal x1i exceeds the signal power setting value Ps1 (an example of the first setting intensity) (changed from the previous time), and the power of the second input audio signal x2i changes to the signal power setting value Ps2 (second An example of the setting intensity) When the following becomes (changed from the previous time), the first input audio signal x1i changes from the directivity direction (sound collection range) of the second microphone to the directivity direction (sound collection range) of the first microphone. Moved sound source Determined to be in al of the speech signal.
When the power detection / signal selection unit 25 determines that the sound source has moved by such determination processing, the power detection / signal selection unit 25 excludes the second input audio signal x2i from the adopted input audio signal (S11), and performs the following processing. The process proceeds to step S12.
That is, in two directional microphones whose directional directions (sound collection ranges) are adjacent to each other, the power of the input audio signal of one (second microphone) changes from a strong state to a weak state, and the other (first microphone). When the power of the input audio signal changes from a weak state to a strong state, it is determined that the sound source has moved from one sound collection range of the adjacent directional microphone to the other sound collection range.
On the other hand, when the power detection / signal selection unit 25 does not determine that the sound source has moved, the power detection / signal selection unit 25 shifts the processing to step S14 to be described later.

[ステップS12、S13]
次に、ステップS12において、その時点で選択されている採用入力音声信号xjのチャンネル情報がパワー検出・信号選択部25からICA部20の分離制御部20eに伝送され、分離制御部20eがICA部20を構成する他の構成要素を制御することにより、ICA部20は、採用入力音声信号xjを入力信号として、ICA−BSS音源分離処理を実行する(S12)。これにより、採用入力音声信号xjの数と同数(複数)の分離信号yjが生成され、これが出力バッファ24に格納される(ICA−BSS音源分離手順の一例)。
ここで、ステップS12の処理では、ICA部20の学習演算部20bは、それまでに学習済みの分離行列W(f)を、新たな学習計算に用いる分離行列W(f)の初期値として引き継ぐ。即ち、分離行列W(f)の初期化を行わない。このステップS12に至る状況は、音響環境における音源の増減がない状況(新たな音源が増えた、或いはそれまで存在していた音源が無くなった状況)であるからである。これにより、高い音源分離性能が維持される。
さらに、DAC22により、出力バッファ24に蓄積された分離信号yjのA/D変換処理がなされ、分離信号(アナログ信号)が不図示のスピーカを通じて音声出力される(S13)。そして、処理が前述したステップS3へ戻される。
[Steps S12 and S13]
Next, in step S12, the channel information of the adopted input audio signal xj selected at that time is transmitted from the power detection / signal selection unit 25 to the separation control unit 20e of the ICA unit 20, and the separation control unit 20e is transmitted to the ICA unit. The ICA unit 20 performs ICA-BSS sound source separation processing using the adopted input audio signal xj as an input signal by controlling the other components constituting the component 20 (S12). Thereby, the same number (plural) of separated signals yj as the number of adopted input audio signals xj are generated and stored in the output buffer 24 (an example of an ICA-BSS sound source separation procedure).
Here, in the process of step S12, the learning calculation unit 20b of the ICA unit 20 takes over the separation matrix W (f) that has been learned so far as the initial value of the separation matrix W (f) that is used for a new learning calculation. . That is, the separation matrix W (f) is not initialized. This is because the situation leading to Step S12 is a situation where there is no increase or decrease in the sound source in the acoustic environment (a situation where a new sound source has increased or a sound source that has existed until then has disappeared). Thereby, high sound source separation performance is maintained.
Further, the DAC 22 performs A / D conversion processing on the separated signal yj stored in the output buffer 24, and the separated signal (analog signal) is output as sound through a speaker (not shown) (S13). Then, the process returns to step S3 described above.

[ステップS14〜S16]
一方、ステップS14(採用入力音声信号xjが複数かつそのチャンネルに変化がある場合)では、その時点で選択されている採用入力音声信号xjのチャンネル情報がパワー検出・信号選択部25からICA部20の分離制御部20eに伝送され、分離制御部20eが学習演算部20bを制御することにより、学習演算部20bが、分離行列W(f)を初期化する(S14)。
さらに、分離制御部20eがICA部20を構成する他の構成要素を制御することにより、ICA部20は、採用入力音声信号xjを入力信号として、ICA−BSS音源分離処理を実行する(S15)。これにより、採用入力音声信号xjの数と同数の分離信号yjが生成され、これが出力バッファ24に格納される(ICA−BSS音源分離手順の一例)。
さらに、DAC22により、出力バッファ24に蓄積された分離信号yjのA/D変換処理がなされ、分離信号(アナログ信号)が不図示のスピーカを通じて音声出力される(S16)。そして、処理が前述したステップS3へ戻される。
[Steps S14 to S16]
On the other hand, in step S14 (when there are a plurality of adopted input audio signals xj and the channel is changed), the channel information of the adopted input audio signal xj selected at that time is converted from the power detection / signal selection unit 25 to the ICA unit 20. The separation control unit 20e controls the learning calculation unit 20b, and the learning calculation unit 20b initializes the separation matrix W (f) (S14).
Further, when the separation control unit 20e controls other components constituting the ICA unit 20, the ICA unit 20 executes the ICA-BSS sound source separation process using the adopted input audio signal xj as an input signal (S15). . As a result, the same number of separated signals yj as the number of adopted input audio signals xj are generated and stored in the output buffer 24 (an example of an ICA-BSS sound source separation procedure).
Further, the DAC 22 performs A / D conversion processing of the separated signal yj stored in the output buffer 24, and the separated signal (analog signal) is output as sound through a speaker (not shown) (S16). Then, the process returns to step S3 described above.

以上に示したように、音源分離装置Xでは、ある指向性マイクの指向方向(主な集音範囲)に音源が存在すれば、その指向性マイクを通じて得られる入力音声信号xiのパワーPiが特に強くなる。もちろん、他の指向性マイクを通じて得られる入力音声信号xiのパワーPiにも多少は影響するものの、その影響の度合いは比較的小さい。
そして、パワー検出・信号選択部25により、全ての入力音声信号xiの中から、パワーが一定レベル以上なったもののみが、採用入力音声信号xj(音源分離処理の対象とする信号)として選択される(S4)ので、予め想定できない音源の数に対し、過不足のない数の採用入力音声信号xjが選択される。
従って、入力音声信号xiを得るための指向性マイク111〜11nを、変動する音源の数に対して十分な数だけ設けておけば、音響空間に存在する音源の数に増減があった場合でも、音源の数に対し、過不足のない数の入力音声信号(採用入力音声信号xj)が選択されるので、高い音源分離性能を維持できる。
As described above, in the sound source separation device X, if a sound source exists in the directivity direction (main sound collection range) of a certain directional microphone, the power Pi of the input audio signal xi obtained through the directional microphone is particularly high. Become stronger. Of course, although the power Pi of the input audio signal xi obtained through another directional microphone is somewhat affected, the degree of the effect is relatively small.
Then, the power detection / signal selection unit 25 selects only the input power signal xj (the signal to be subjected to sound source separation processing) from among all the input sound signals xi that has a power of a certain level or more. (S4), the number of adopted input audio signals xj is selected so as not to be excessive or insufficient with respect to the number of sound sources that cannot be assumed in advance.
Therefore, if the directional microphones 111 to 11n for obtaining the input audio signal xi are provided in a sufficient number with respect to the number of fluctuating sound sources, even when the number of sound sources existing in the acoustic space is increased or decreased. Since the number of input audio signals (adopted input audio signal xj) that is not excessive or insufficient with respect to the number of sound sources is selected, high sound source separation performance can be maintained.

ところで、以上に示した実施形態では、パワー検出・信号選択部25は、ステップS4及びS5の処理において、採用入力音声信号xjとして選択する信号数(チャンネル数)を特に制限するものではなかったが、これに制限を加えることも考えられる。
例えば、パワー検出・信号選択部25が、ステップS4及びS5の処理において、採用入力音声信号xjとして選択した信号数(チャンネル数)が3つ以上となった場合、ステップS3の処理によって検出した信号のパワーPiが強いものから最大2つまでの入力音声信号xiを、採用入力音声信号xjとして選択することが考えられる。
これにより、ICA部20の演算負荷を低減できる。また、比較的パワーの弱い信号の成分が分離信号yiに混在しても、実用上大きな問題は生じない。このような構成を有する音源分離装置は、例えば、ある特定の指向性マイクロホンの指向方向(主な集音範囲)に存在する音源(目的音源)の音源信号と、その他の音源(ノイズ音源)の音源信号とを分離したい場合(複数のノイズ音源の音源信号を分離する必要がない場合)などに有効である。
また、前述した音源分離装置Xは、独立成分分析法に基づくブラインド音源分離方式の音源分離処理を実行するICA部20は、演算負荷低減のため、FDICA方式に基づく音源分離処理を行う音源分離ユニットZ2(図7参照)が採用された例を示した。しかしながら、これに限るものではなく、例えば、ICA部20に、TDICA方式に基づく音源分離処理を行う音源分離ユニットZ1(図6参照)を採用することも考えられる。
In the embodiment described above, the power detection / signal selection unit 25 does not particularly limit the number of signals (number of channels) to be selected as the adopted input audio signal xj in the processes of steps S4 and S5. It is possible to limit this.
For example, when the number of signals (number of channels) selected by the power detection / signal selection unit 25 as the adopted input audio signal xj in the processes of steps S4 and S5 is three or more, the signal detected by the process of step S3 It is conceivable to select up to two input audio signals xi having the highest power Pi as adopted input audio signals xj.
Thereby, the calculation load of the ICA part 20 can be reduced. Further, even if a component of a signal having relatively low power is mixed in the separated signal yi, no serious problem is caused in practice. The sound source separation device having such a configuration includes, for example, a sound source signal of a sound source (target sound source) existing in a directivity direction (main sound collection range) of a specific directional microphone and other sound sources (noise sound source). This is effective when it is desired to separate the sound source signal (when it is not necessary to separate the sound source signals of a plurality of noise sound sources).
In addition, the sound source separation apparatus X described above performs the sound source separation process of the blind sound source separation method based on the independent component analysis method, and the ICA unit 20 performs the sound source separation unit based on the FDICA method to reduce the calculation load. An example in which Z2 (see FIG. 7) was employed was shown. However, the present invention is not limited to this. For example, it may be possible to employ a sound source separation unit Z1 (see FIG. 6) that performs sound source separation processing based on the TDICA method in the ICA unit 20.

次に、図4及び図5を参照しつつ、音源分離装置Xの適用例について説明する。
図4は、音源分離装置Xの適用対象の一例である携帯電話機V1の概略斜視図である。
図4に示すように、音源分離装置Xは、話者の音声とそれ以外のノイズ音声とを分離するために携帯電話機V1に搭載することが考えられる。
この場合、図4に示すように、携帯電話機V1に対して、音源分離装置Xが備える複数(図4に示す例では6個)の指向性マイク111〜116が、各々異なる指向方向で配置される。図4に示す例では、当該携帯電話機V1に対する話者の音源方向である正面方向に向けられた指向性マイク111と、その反対方向(背面方向)に向けられた指向性マイク112と、正面方向に対して左右及び上下方向の各々に向けられた指向性マイク113〜116とが、携帯電話機V1に設けられている。
このような携帯電話機V1において、音源分離装置Xによって生成された指向性マイク111に対応する分離信号yiを、通話の相手先の携帯電話機に送信する音声信号として出力すれば、ノイズの少ない高音質の通話を実現する携帯電話機を提供できる。
Next, application examples of the sound source separation device X will be described with reference to FIGS. 4 and 5.
FIG. 4 is a schematic perspective view of a mobile phone V1 which is an example of an application target of the sound source separation device X.
As shown in FIG. 4, it is conceivable that the sound source separation device X is mounted on the mobile phone V1 in order to separate the voice of the speaker and other noise voices.
In this case, as shown in FIG. 4, a plurality of (six in the example shown in FIG. 4) directional microphones 111 to 116 included in the sound source separation device X are arranged in different directivity directions with respect to the mobile phone V <b> 1. The In the example shown in FIG. 4, a directional microphone 111 directed in the front direction that is the sound source direction of the speaker with respect to the mobile phone V1, a directional microphone 112 directed in the opposite direction (backward direction), and the front direction On the other hand, directional microphones 113 to 116 directed in the left and right and up and down directions are provided in the mobile phone V1.
In such a cellular phone V1, if the separation signal yi corresponding to the directional microphone 111 generated by the sound source separation device X is output as an audio signal to be transmitted to the other party's cellular phone, high sound quality with less noise is obtained. Can be provided.

また、図5は音源分離装置Xの適用対象の一例であるロボットV2の概略斜視図である。
図5に示すように、音源分離装置Xは、周囲に存在する音源からの音声を音声認識することによって動作制御を行うロボットV2に搭載し、周囲に複数の音源が存在する場合に、各音源からの音声信号について個別に音声認識を行うことができるよう、音声認識処理の実行部に各音源に対応する分離信号yjを個別に入力させるよう構成されたものが考えられる。
この場合、図5に示すように、ロボットV2に対して、音源分離装置Xが備える複数(図5に示す例では4個)の指向性マイク111〜114が、各々異なる指向方向で配置される。図5に示す例では、当該ロボットV2の正面方向に向けられた指向性マイク111と、その反対方向(背面方向)に向けられた指向性マイク112と、正面方向に対して左右方向の各々に向けられた指向性マイク113、114とが、ロボットV2に設けられている。
このようなロボットV2において、音源分離装置Xによって生成された各指向性マイク111〜114に対応する分離信号yiを、音声認識処理の実行部に個別に入力させれば、ノイズの少ない音声信号について高精度の音声認識処理及びその処理結果に基づく高精度の動作制御を行うことができるロボットを提供できる。
FIG. 5 is a schematic perspective view of a robot V2, which is an example to which the sound source separation device X is applied.
As shown in FIG. 5, the sound source separation device X is mounted on a robot V2 that performs operation control by recognizing sound from sound sources existing in the surroundings, and each sound source is separated when there are a plurality of sound sources in the surroundings. It is conceivable that the separated signal yj corresponding to each sound source is individually input to the voice recognition processing execution unit so that the voice signal can be individually recognized.
In this case, as shown in FIG. 5, a plurality of (four in the example shown in FIG. 5) directional microphones 111 to 114 included in the sound source separation device X are arranged in different directivity directions with respect to the robot V2. . In the example shown in FIG. 5, the directional microphone 111 directed in the front direction of the robot V2, the directional microphone 112 directed in the opposite direction (backward direction), and the left and right directions with respect to the front direction. Directed directional microphones 113 and 114 are provided in the robot V2.
In such a robot V2, if the separation signal yi corresponding to each of the directional microphones 111 to 114 generated by the sound source separation device X is individually input to the execution unit of the speech recognition process, the sound signal with less noise can be obtained. A robot capable of performing highly accurate voice recognition processing and highly accurate motion control based on the processing result can be provided.

本発明は、音源分離装置への利用が可能である。   The present invention can be used for a sound source separation device.

本発明の実施形態に係る音源分離装置Xの概略構成を表すブロック図。The block diagram showing the schematic structure of the sound source separation apparatus X which concerns on embodiment of this invention. 音源分離装置Xが備える指向性マイクロホンの配置状態の一例を表す平面図。The top view showing an example of the arrangement | positioning state of the directional microphone with which the sound source separation apparatus X is provided. 音源分離装置Xにおける音源分離処理の手順を表すフローチャート。6 is a flowchart showing a procedure of sound source separation processing in the sound source separation device X. 音源分離装置Xの適用対象の一例である携帯電話機V1の概略斜視図。The schematic perspective view of the mobile telephone V1 which is an example of the application object of the sound source separation apparatus X. FIG. 音源分離装置Xの適用対象の一例であるロボットV2の概略斜視図。The schematic perspective view of the robot V2 which is an example of the application object of the sound source separation apparatus X. FIG. TDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニットZ1の概略構成を表すブロック図。The block diagram showing the schematic structure of the sound source separation unit Z1 which performs the sound source separation process of the BSS system based on the TDICA method. FDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニットZ2の概略構成を表すブロック図。The block diagram showing the schematic structure of the sound source separation unit Z2 which performs the sound source separation process of the BSS system based on the FDICA method.

符号の説明Explanation of symbols

X…本発明の実施形態に係る音源分離装置
V1…本発明の実施形態に係る音源分離装置を適用した携帯電話機
V2…本発明の実施形態に係る音源分離装置を適用したロボット
Z1…TDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニット
Z2…FDICA法に基づくBSS方式の音源分離処理を行う音源分離ユニット
1、2…音源
11t、11f…分離フィルタ処理部
20…ICA部
20a…ST−DFT処理部
20b…学習演算部
20c…分離フィルタ処理部
20d…IDFT処理部
20e…分離制御部
21…A/Dコンバータ
22…D/Aコンバータ
23…入力バッファ
24…出力バッファ
25…パワー検出・信号選択部
26…外部入力インターフェース
111〜11n…指向性マイクロホン
S1、S2、〜…処理手順(ステップ)
X ... sound source separation device V1 according to the embodiment of the present invention ... mobile phone V2 to which the sound source separation device according to the embodiment of the present invention is applied ... robot Z1 to which the sound source separation device according to the embodiment of the present invention is applied. Sound source separation unit Z2 that performs BSS-based sound source separation processing based on sound source separation unit 1, 2 that performs BSS-based sound source separation processing based on the FDICA method, sound sources 11t, 11f, separation filter processing unit 20, ICA unit 20a, ST- DFT processing unit 20b ... learning calculation unit 20c ... separation filter processing unit 20d ... IDFT processing unit 20e ... separation control unit 21 ... A / D converter 22 ... D / A converter 23 ... input buffer 24 ... output buffer 25 ... power detection / signal Selection unit 26 ... external input interfaces 111 to 11n ... Directional microphones S1, S2, ... Processing procedure Step)

Claims (6)

所定の音響空間に複数の指向性マイクロホンが各々異なる指向方向で配置された状況下で、該複数の指向性マイクロホンを通じて入力される複数の入力音声信号各々の信号強度を検出する信号強度検出手段と、
前記信号強度検出手段の検出結果に基づいて前記複数の入力音声信号の中から前記音響空間に存在する1又は複数の音源に対応する1又は複数の採用入力音声信号を選択する信号選択手段と、
前記信号選択手段により複数の前記採用入力信号が選択された場合に、該複数の採用入力音声信号に対し独立成分分析法に基づくブラインド音源分離方式の音源分離処理を施すことにより前記採用入力音声信号の数と同数の分離信号を生成するICA−BSS音源分離手段と、
を具備してなることを特徴とする音源分離装置。
Signal intensity detecting means for detecting the signal intensity of each of a plurality of input audio signals input through the plurality of directional microphones in a state where the plurality of directional microphones are arranged in different directional directions in a predetermined acoustic space; ,
Signal selecting means for selecting one or a plurality of adopted input sound signals corresponding to one or a plurality of sound sources existing in the acoustic space from the plurality of input sound signals based on a detection result of the signal intensity detecting means;
When a plurality of adopted input signals are selected by the signal selection means, the adopted input speech signal is subjected to a sound source separation process of a blind sound source separation method based on an independent component analysis method for the plurality of adopted input speech signals. ICA-BSS sound source separation means for generating the same number of separated signals as
A sound source separation device comprising:
前記信号選択手段が、前記信号強度検出手段により検出された信号強度が第1の設定強度を超えた前記入力音声信号を前記採用入力音声信号として選択してなる請求項1に記載の音源分離装置。   The sound source separation device according to claim 1, wherein the signal selection unit selects the input audio signal whose signal intensity detected by the signal intensity detection unit exceeds a first set intensity as the adopted input audio signal. . 前記信号選択手段が、前記信号強度検出手段により検出された信号強度が強いものから最大2つまでの前記入力音声信号を前記採用入力音声信号として選択してなる請求項2に記載の音源分離装置。   3. The sound source separation device according to claim 2, wherein the signal selection unit selects, from the strongest signal strength detected by the signal strength detection unit, up to two input speech signals as the adopted input speech signal. . 前記信号選択手段が、前記採用入力信号として選択している前記入力音声信号のうち、前記信号強度検出手段により検出された信号強度が第2の設定強度以下である状態が所定時間継続したものを前記採用入力音声信号から除外してなる請求項2又は3のいずれかに記載の音源分離装置。   Of the input audio signals selected by the signal selection means as the adopted input signals, those in which the signal intensity detected by the signal intensity detection means is below a second set intensity for a predetermined time 4. The sound source separation device according to claim 2, wherein the sound source separation device is excluded from the adopted input audio signal. 前記信号選択手段が、指向方向が隣り合う2つの前記指向性マイクロホン各々を通じて入力された第1の入力音声信号及び第2の入力音声信号のうち該第2の入力音声信号が前記採用入力音声信号として選択しているときに、前記第1の入力音声信号の信号強度が前記第1の設定強度を超えた際に前記第2の入力音声信号の信号強度が第2の設定強度以下となった場合に、該第2の入力音声信号を前記採用入力音声信号から除外してなる請求項2〜4のいずれかに記載の音源分離装置。   Of the first input audio signal and the second input audio signal, the signal selection means inputs the adopted input audio signal among the first input audio signal and the second input audio signal input through each of the two directional microphones whose direction of direction is adjacent. When the signal strength of the first input voice signal exceeds the first set strength, the signal strength of the second input voice signal becomes equal to or lower than the second set strength. In this case, the sound source separation device according to any one of claims 2 to 4, wherein the second input audio signal is excluded from the adopted input audio signal. 所定の音響空間に複数の指向性マイクロホンが各々異なる指向方向で配置された状況下で、該複数の指向性マイクロホンを通じて入力される複数の入力音声信号各々の信号強度を所定の信号強度検出手段により検出する信号強度検出手順と、
前記信号強度検出手順の検出結果に基づいて前記複数の入力音声信号の中から前記音響空間に存在する1又は複数の音源に対応する1又は複数の採用入力音声信号を所定の信号選択手段により選択する信号選択手順と、
前記信号選択手順により複数の前記採用入力信号が選択された場合に、該複数の採用入力音声信号に対し独立成分分析法に基づくブラインド音源分離方式の音源分離処理を施すことにより前記採用入力音声信号の数と同数の分離信号を生成する処理を所定のプロセッサにより実行するICA−BSS音源分離手順と、
を有してなることを特徴とする音源分離方法。
In a situation where a plurality of directional microphones are arranged in different directional directions in a predetermined acoustic space, the signal intensity of each of the plurality of input audio signals input through the plurality of directional microphones is determined by a predetermined signal intensity detection unit. A signal intensity detection procedure to detect;
Based on the detection result of the signal intensity detection procedure, one or a plurality of adopted input sound signals corresponding to one or a plurality of sound sources existing in the acoustic space are selected from the plurality of input sound signals by a predetermined signal selection unit. Signal selection procedure,
When a plurality of adopted input signals are selected by the signal selection procedure, the adopted input speech signal is subjected to a sound source separation process of a blind sound source separation method based on an independent component analysis method for the plurality of adopted input speech signals. An ICA-BSS sound source separation procedure in which a predetermined processor executes a process of generating the same number of separated signals as
A sound source separation method characterized by comprising:
JP2006117994A 2006-04-21 2006-04-21 Sound source separation apparatus, and sound source separation method Pending JP2007295085A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006117994A JP2007295085A (en) 2006-04-21 2006-04-21 Sound source separation apparatus, and sound source separation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006117994A JP2007295085A (en) 2006-04-21 2006-04-21 Sound source separation apparatus, and sound source separation method

Publications (1)

Publication Number Publication Date
JP2007295085A true JP2007295085A (en) 2007-11-08

Family

ID=38765287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006117994A Pending JP2007295085A (en) 2006-04-21 2006-04-21 Sound source separation apparatus, and sound source separation method

Country Status (1)

Country Link
JP (1) JP2007295085A (en)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009097417A1 (en) * 2008-01-29 2009-08-06 Qualcomm Incorporated Improving sound quality by intelligently selecting between signals from a plurality of microphones
JP2010112995A (en) * 2008-11-04 2010-05-20 Sony Corp Call voice processing device, call voice processing method and program
EP2237272A2 (en) 2009-03-30 2010-10-06 Sony Corporation Signal processing apparatus, signal processing method, and program
WO2011004503A1 (en) * 2009-07-08 2011-01-13 株式会社日立製作所 Noise removal device and noise removal method
JP2011048302A (en) * 2009-08-28 2011-03-10 Fujitsu Ltd Noise reduction device and noise reduction program
JP2011508533A (en) * 2007-12-19 2011-03-10 クゥアルコム・インコーポレイテッド System, method and apparatus for multi-microphone based speech enhancement
JP2012042953A (en) * 2010-08-17 2012-03-01 Honda Motor Co Ltd Sound source separation device and sound source separation method
US8898056B2 (en) 2006-03-01 2014-11-25 Qualcomm Incorporated System and method for generating a separated signal by reordering frequency components
CN105788599A (en) * 2016-04-14 2016-07-20 北京小米移动软件有限公司 Speech processing method, router and intelligent speech control system
CN110491376A (en) * 2018-05-11 2019-11-22 北京国双科技有限公司 A kind of method of speech processing and device
JP2020109941A (en) * 2018-12-28 2020-07-16 深セン市優必選科技股▲ふん▼有限公司Ubtech Pobotics Corp Ltd Robot and audio data processing method thereof
CN112216303A (en) * 2019-07-11 2021-01-12 北京声智科技有限公司 Voice processing method and device and electronic equipment
CN113270099A (en) * 2021-06-29 2021-08-17 深圳市欧瑞博科技股份有限公司 Intelligent voice extraction method and device, electronic equipment and storage medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04273298A (en) * 1991-02-28 1992-09-29 Fujitsu Ltd Voice recognition device
JP2005031169A (en) * 2003-07-08 2005-02-03 Kobe Steel Ltd Sound signal processing device, method therefor and program therefor
WO2005024788A1 (en) * 2003-09-02 2005-03-17 Nippon Telegraph And Telephone Corporation Signal separation method, signal separation device, signal separation program, and recording medium
JP2005091560A (en) * 2003-09-16 2005-04-07 Nissan Motor Co Ltd Method and apparatus for signal separation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04273298A (en) * 1991-02-28 1992-09-29 Fujitsu Ltd Voice recognition device
JP2005031169A (en) * 2003-07-08 2005-02-03 Kobe Steel Ltd Sound signal processing device, method therefor and program therefor
WO2005024788A1 (en) * 2003-09-02 2005-03-17 Nippon Telegraph And Telephone Corporation Signal separation method, signal separation device, signal separation program, and recording medium
JP2005091560A (en) * 2003-09-16 2005-04-07 Nissan Motor Co Ltd Method and apparatus for signal separation

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8898056B2 (en) 2006-03-01 2014-11-25 Qualcomm Incorporated System and method for generating a separated signal by reordering frequency components
JP2011508533A (en) * 2007-12-19 2011-03-10 クゥアルコム・インコーポレイテッド System, method and apparatus for multi-microphone based speech enhancement
CN101911723A (en) * 2008-01-29 2010-12-08 高通股份有限公司 By between from the signal of a plurality of microphones, selecting to improve sound quality intelligently
WO2009097417A1 (en) * 2008-01-29 2009-08-06 Qualcomm Incorporated Improving sound quality by intelligently selecting between signals from a plurality of microphones
JP2011511571A (en) * 2008-01-29 2011-04-07 クゥアルコム・インコーポレイテッド Improve sound quality by intelligently selecting between signals from multiple microphones
CN101911723B (en) * 2008-01-29 2015-03-18 高通股份有限公司 Improving sound quality by intelligently selecting between signals from a plurality of microphones
US8411880B2 (en) 2008-01-29 2013-04-02 Qualcomm Incorporated Sound quality by intelligently selecting between signals from a plurality of microphones
JP2014045507A (en) * 2008-01-29 2014-03-13 Qualcomm Incorporated Improving sound quality by intelligently selecting among signals from plural microphones
JP2010112995A (en) * 2008-11-04 2010-05-20 Sony Corp Call voice processing device, call voice processing method and program
EP2237272A2 (en) 2009-03-30 2010-10-06 Sony Corporation Signal processing apparatus, signal processing method, and program
US8577054B2 (en) 2009-03-30 2013-11-05 Sony Corporation Signal processing apparatus, signal processing method, and program
WO2011004503A1 (en) * 2009-07-08 2011-01-13 株式会社日立製作所 Noise removal device and noise removal method
JP2011048302A (en) * 2009-08-28 2011-03-10 Fujitsu Ltd Noise reduction device and noise reduction program
US8867755B2 (en) 2010-08-17 2014-10-21 Honda Motor Co., Ltd. Sound source separation apparatus and sound source separation method
JP2012042953A (en) * 2010-08-17 2012-03-01 Honda Motor Co Ltd Sound source separation device and sound source separation method
CN105788599A (en) * 2016-04-14 2016-07-20 北京小米移动软件有限公司 Speech processing method, router and intelligent speech control system
CN105788599B (en) * 2016-04-14 2019-08-06 北京小米移动软件有限公司 Method of speech processing, router and intelligent sound control system
CN110491376A (en) * 2018-05-11 2019-11-22 北京国双科技有限公司 A kind of method of speech processing and device
JP2020109941A (en) * 2018-12-28 2020-07-16 深セン市優必選科技股▲ふん▼有限公司Ubtech Pobotics Corp Ltd Robot and audio data processing method thereof
CN112216303A (en) * 2019-07-11 2021-01-12 北京声智科技有限公司 Voice processing method and device and electronic equipment
CN113270099A (en) * 2021-06-29 2021-08-17 深圳市欧瑞博科技股份有限公司 Intelligent voice extraction method and device, electronic equipment and storage medium
CN113270099B (en) * 2021-06-29 2023-08-29 深圳市欧瑞博科技股份有限公司 Intelligent voice extraction method and device, electronic equipment and storage medium

Similar Documents

Publication Publication Date Title
JP2007295085A (en) Sound source separation apparatus, and sound source separation method
JP4675177B2 (en) Sound source separation device, sound source separation program, and sound source separation method
US20070133811A1 (en) Sound source separation apparatus and sound source separation method
CN111133511B (en) sound source separation system
JP2007034184A (en) Device, program, and method for sound source separation
CN108464015B (en) Microphone array signal processing system
JP6334895B2 (en) Signal processing apparatus, control method therefor, and program
GB2548325A (en) Acoustic source seperation systems
JP2008035259A (en) Sound source separation device, sound source separation method, and sound source separation program
JP5374427B2 (en) Sound source separation device, sound source separation method and program therefor, video camera device using the same, and mobile phone device with camera
JP4462617B2 (en) Sound source separation device, sound source separation program, and sound source separation method
JP2007279517A (en) Sound source separating device, program for sound source separating device, and sound source separating method
CN115171713A (en) Voice noise reduction method, device and equipment and computer readable storage medium
JP2005227512A (en) Sound signal processing method and its apparatus, voice recognition device, and program
JP4519901B2 (en) Objective sound extraction device, objective sound extraction program, objective sound extraction method
US20130238327A1 (en) Speech recognition processing device and speech recognition processing method
JP2008292974A (en) Object sound extraction apparatus, object sound extraction program, and object sound extraction method
JP2022544065A (en) Method and Apparatus for Normalizing Features Extracted from Audio Data for Signal Recognition or Correction
JP2007282177A (en) Sound source separation apparatus, sound source separation program and sound source separation method
JP4527654B2 (en) Voice communication device
JP2007033804A (en) Sound source separation device, sound source separation program, and sound source separation method
US10887709B1 (en) Aligned beam merger
JP2008278406A (en) Sound source separation apparatus, sound source separation program and sound source separation method
JP4519900B2 (en) Objective sound extraction device, objective sound extraction program, objective sound extraction method
JP6729186B2 (en) Audio processing program, audio processing method, and audio processing apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080926

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101028

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110317

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110329

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110802