JP4519900B2 - Objective sound extraction device, objective sound extraction program, objective sound extraction method - Google Patents
Objective sound extraction device, objective sound extraction program, objective sound extraction method Download PDFInfo
- Publication number
- JP4519900B2 JP4519900B2 JP2007325036A JP2007325036A JP4519900B2 JP 4519900 B2 JP4519900 B2 JP 4519900B2 JP 2007325036 A JP2007325036 A JP 2007325036A JP 2007325036 A JP2007325036 A JP 2007325036A JP 4519900 B2 JP4519900 B2 JP 4519900B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- sound
- target sound
- separation
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は,マイクロホンを通じて得られる音響信号に基づいて,所定の目的音源からの目的音に相当する音響信号を抽出して出力する目的音抽出装置,そのプログラム及びその方法に関するものである。 The present invention relates to a target sound extraction apparatus that extracts and outputs an acoustic signal corresponding to a target sound from a predetermined target sound source based on an acoustic signal obtained through a microphone, a program thereof, and a method thereof.
電話会議システム,テレビ会議システム,券売機,カーナビゲーションシステム等,話者等の音源が発する音響を入力する機能を備えた装置においては,マイクロホンによってある特定の音源(以下,目的音源という)から発せられる音(以下,目的音という)が収音されるが,音源の存在する環境に応じて,そのマイクロホンを通じて得られる音響信号に,前記目的音に相当する音響信号成分以外の雑音成分が含まれる。そして,マイクロホンを通じて得られる音響信号において,雑音成分の割合が大きいと,目的音の明瞭性が損なわれ,通話品質の悪化や自動音声認識率の悪化等の問題が生じる。
従来,例えば非特許文献1に示されるように,話者の発する音声(目的音の一例)を主として入力する主マイクロホン(音声マイクロホン)と,その話者の周囲の雑音を主として入力する(話者の音声がほとんど混入しない)副マイクロホン(雑音マイクロホン)とを用い,前記主マイクロホンを通じて得られる音響信号から,前記副マイクロホンを通じて得られる音響信号に基づく雑音信号を除去する2入力スペクトルサブストラクション処理が知られている。ここで,2入力スペクトルサブストラクション処理は,前記主マイクロホンによる入力信号及び前記副マイクロホンによる入力信号それぞれの時系列特徴ベクトルの減算処理により,話者が発する音声(前記目的音)に相当する音響信号を抽出(即ち,雑音成分を除去する)する処理である。
In a device with a function to input sound emitted from a sound source such as a speaker, such as a telephone conference system, video conference system, ticket vending machine, car navigation system, etc., the sound can be emitted from a specific sound source (hereinafter referred to as a target sound source) by a microphone. Sound (hereinafter referred to as the target sound) is collected, but depending on the environment in which the sound source exists, the sound signal obtained through the microphone includes a noise component other than the sound signal component corresponding to the target sound. . In the acoustic signal obtained through the microphone, if the ratio of the noise component is large, the clarity of the target sound is impaired, and problems such as deterioration in call quality and automatic speech recognition rate occur.
Conventionally, as shown in Non-Patent
ところで,前記副マイクロホンは,これに前記目的音が極力混入しないよう,前記主マイクロホンとは異なる位置に配置されたマイクロホン,或いは前記主マイクロホンとは異なる方向に指向性を有するマイクロホンが採用される。このため,複数の方向から異なる雑音が各マイクロホンに到来する場合,前記副マイクロホンにより主に収音される雑音と前記主マイクロホンに主に混入する雑音とが異なる状況が生じ得る。そのような状況が発生した場合,前記2入力スペクトルサブストラクション処理による雑音除去性能が悪化する。
これに対し,特許文献1には,複数の前記副マイクロホン(雑音マイクロホン)を用い,そのそれぞれを通じて入力される音響信号について,状況に応じてその中からいずれかを選択した信号又は予め定められた重みで加重平均した合成信号と,前記主マイクロホンを通じて入力される音響信号とに基づいて,前記2入力スペクトルサブストラクション処理を実行する雑音除去装置が示されている。これにより,時間的,空間的に性質が変化するような非定常雑音が生じる音響空間においても有効な雑音除去が可能になるとされている。
また,特許文献2には,カメラ一体型VTR装置において,撮影範囲における複数方向からの音声を収音した複数の音声信号の相関係数を求め,その相関係数に基づいて,撮影範囲中央の方向に存在する人物からの音声信号を強調する技術が示されている。
また,特許文献3〜5には,目的音を主として入力するマイクロホン(前記主マイクロホンに相当)を通じて得られる音響信号(以下,主音響信号という)から,目的音以外の参照音(非目的音)を主として入力するマイクロホン(前記副マイクロホンに相当)を通じて得られる音響信号を適応フィルタにより処理した信号を除去することによって目的音の抽出信号を得るとともに,その抽出信号のパワーが最小化するように適応フィルタを調整する技術が示されている。
By the way, as the sub microphone, a microphone disposed at a position different from the main microphone or a microphone having directivity in a direction different from the main microphone is adopted so that the target sound is not mixed therein. For this reason, when different noises arrive at each microphone from a plurality of directions, a situation may occur in which noise mainly picked up by the sub-microphone and noise mainly mixed in the main microphone are different. When such a situation occurs, the noise removal performance by the two-input spectrum subtraction process deteriorates.
On the other hand,
Further, in
In
一方,所定の音響空間に複数の音源と複数のマイクロホン(音響入力手段)とが存在する場合,その複数のマイクロホンごとに,複数の音源各々からの個別の音響信号(以下,音源信号という)が重畳された音響信号(以下,混合音響信号という)が入力される。このようにして入力された複数の前記混合音響信号のみに基づいて,前記音源信号各々を同定(分離)する音源分離処理の方式は,ブラインド音源分離方式(Blind Source Separation方式,以下,BSS方式という)と呼ばれる。
さらに,BSS方式の音源分離処理の1つに,独立成分分析法(Independent Component Analysis,以下,ICA法という)に基づくBSS方式の音源分離処理がある。このICA法に基づくBSS方式は,複数のマイクロホンを通じて入力される複数の前記混合音響信号において,前記音源信号どうしが統計的に独立であることを利用して所定の分離行列(逆混合行列)を最適化し,入力された複数の前記混合音響信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定(音源分離)を行う処理方式である。その際,分離行列の最適化は,ある時点で設定されている分離行列を用いたフィルタ処理により同定(分離)された信号(分離信号)に基づいて,逐次計算(学習計算)により以降に用いる分離行列を計算することによって行われる。
ここで,ICA法に基づくBSS方式の音源分離処理によれば,分離信号各々は,混合音響信号の入力数(=マイクロホンの数)と同じ数の出力端(出力チャンネルといってもよい)各々を通じて出力される。このようなICA法に基づくBSS方式の音源分離処理は,例えば,非特許文献2や非特許文献3等に詳説されている。
また,音源分離処理としては,バイナリーマスキング処理(バイノーラル信号処理の一例)による音源分離処理も知られている。バイナリーマスキング処理は,複数の指向性マイクロホンを通じて入力される混合音声信号相互間で,複数に区分された周波数成分(周波数ビン)ごとのレベル(パワー)を比較することにより,混合音声信号それぞれについて主となる音源からの音声信号以外の信号成分を除去する処理であり,比較的低い演算負荷で実現できる音源分離処理である。これについては,例えば,非特許文献4や非特許文献5等に詳説されている。
Further, as one of the BSS sound source separation processes, there is a BSS sound source separation process based on an independent component analysis method (hereinafter referred to as ICA method). The BSS method based on the ICA method uses a fact that the sound source signals are statistically independent among a plurality of the mixed acoustic signals input through a plurality of microphones to generate a predetermined separation matrix (inverse mixing matrix). In this processing method, the sound source signal is identified (sound source separation) by performing a filtering process using an optimized separation matrix on the plurality of input mixed sound signals. At that time, the optimization of the separation matrix is used later by sequential calculation (learning calculation) based on the signal (separated signal) identified (separated) by the filter processing using the separation matrix set at a certain time. This is done by calculating the separation matrix.
Here, according to the sound source separation processing of the BSS method based on the ICA method, each separated signal has the same number of output terminals (also called output channels) as the number of mixed acoustic signals input (= the number of microphones). Is output through. Such BSS sound source separation processing based on the ICA method is described in detail in, for example, Non-Patent
As sound source separation processing, sound source separation processing by binary masking processing (an example of binaural signal processing) is also known. The binary masking process is performed mainly for each mixed audio signal by comparing the level (power) of each divided frequency component (frequency bin) between the mixed audio signals input through a plurality of directional microphones. Is a sound source separation process that can be realized with a relatively low calculation load. For example,
しかしながら,非特許文献1に示される技術や特許文献3〜5に示される技術では,目的音が前記副マイクロホンに対して比較的大きな音量で混入した場合,その目的音に対応する音響信号の成分が雑音成分として誤って除去されること等により,高い雑音除去性能が得られないという問題点があった。
また,特許文献1に示されるように,複数の前記副マイクロホン(雑音マイクロホン)を通じて入力される複数の音声信号を予め定められた重みで加重平均して得られる合成信号を前記2入力スペクトルサブストラクション処理の入力信号として採用した場合,音響環境の変化によって加重平均の重みと,複数の前記副マイクロホンそれぞれに対する前記目的音の混入度合いとの不整合が生じて雑音除去性能が悪化するという問題点があった。また,特許文献1に示されるように,複数の前記副マイクロホン(雑音マイクロホン)を通じて入力される複数の音響信号の中からいずれかを選択した信号を前記2入力スペクトルサブストラクション処理の入力信号として採用した場合,複数の方向から異なる雑音が各マイクロホンに到来する状況下においては,選択に漏れた音響信号に基づく雑音成分が除去されず,やはり雑音除去性能が悪化するという問題点があった。
また,特許文献2に示される技術は,撮影範囲中央の人物からの音声信号が強調されるものの,それ以外の音声信号も残存し,目的音の信号が抽出されるわけではない。
However, in the technique shown in
Further, as shown in
In the technique disclosed in
また,前記主音響信号及び前記副音響信号に基づいて,前記ICA法に基づくBSS方式の音源分離処理や前記バイナリーマスキング処理を実行すれば,目的音に対応する分離信号を得ることができるが,音響環境によっては,その分離信号に目的音以外の雑音の信号成分が比較的高い割合で含まれてしまう場合が生じるという問題点があった。例えば,前記ICA法に基づくBSS方式の音源分離処理において,目的音及びそれ以外の雑音の音源がマイクロホンの数以上に存在したり,雑音が反射・反響するような環境では,音源分離性能が悪化する。
また,鋭い指向特性を実現する音響入力装置としては,例えば,マイクロホンアレイ及び遅延和型フィルタを備えた音響入力装置が知られているが,それは指向性を鋭くするほど装置が大型化するという問題点があった。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,複数のマイクロホンを通じて得られる音響信号に目的音及びそれ以外の雑音(非目的音)が混入し,またその混入状態が変化し得る音響環境下において,小型の装置によって高い目的音抽出性能(雑音除去性能)を確保できる目的音抽出装置,目的音抽出プログラム及び目的音抽出方法を提供することにある。
In addition, if the BSS sound source separation processing based on the ICA method and the binary masking processing are executed based on the main acoustic signal and the sub acoustic signal, a separation signal corresponding to the target sound can be obtained. Depending on the acoustic environment, there is a problem in that the separated signal may contain a signal component of noise other than the target sound at a relatively high rate. For example, in the BSS sound source separation processing based on the ICA method, the sound source separation performance is deteriorated in an environment where the target sound and other noise sound sources are present more than the number of microphones, or the noise is reflected / reflected. To do.
As an acoustic input device that realizes a sharp directional characteristic, for example, an acoustic input device including a microphone array and a delay-and-sum type filter is known. However, the larger the directivity, the larger the size of the device. There was a point.
Therefore, the present invention has been made in view of the above circumstances, and the object of the present invention is that the target sound and other noise (non-target sound) are mixed in the acoustic signal obtained through a plurality of microphones, and An object of the present invention is to provide a target sound extraction device, a target sound extraction program, and a target sound extraction method that can ensure high target sound extraction performance (noise removal performance) with a small device in an acoustic environment in which the mixing state can change.
上記目的を達成するために本発明(後述する第1発明に相当)に係る目的音抽出装置は,所定の目的音源から出力される目的音を主に入力する1つの主マイクロホンを通じて得られる1つの主音響信号と,前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する複数の副マイクロホンそれぞれを通じて得られる複数の副音響信号と,に基づいて,前記目的音に相当する音響信号を抽出して抽出信号を出力する目的音抽出装置であり,次の(1−1)〜(1−3)に示す各構成要素を備えるものである。
(1−1)前記主音響信号と前記複数の副音響信号それぞれとからなる2つの音響信号の組合せそれぞれについて個別に設けられ,当該2つの音響信号に基づいて,前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する参照音分離信号とを独立成分分析法に基づくブラインド音源分離方式による音源分離処理によって分離生成する音源分離手段。
(1−2)前記音源分離手段により分離生成された複数の前記目的音分離信号を合成する目的音分離信号合成手段。
(1−3)前記目的音分離信号合成手段により得られた合成信号と前記音源分離手段により分離生成された複数の前記参照音分離信号との間でスペクトル減算処理を行うことにより,前記目的音分離信号合成手段により得られた合成信号から前記目的音に相当する音響信号を抽出して抽出信号を出力するスペクトル減算処理手段。
本発明において,前記音源分離手段により分離生成される複数の前記目的音分離信号は,目的音の信号成分を主として含む信号である。同様に,前記音源分離手段により分離生成される複数の前記参照音分離信号は,位置や指向性の方向がそれぞれ異なる前記副マイクロホンそれぞれの収音範囲におけるノイズ音源の音(目的音以外の音(参照音))の信号成分を主として含む信号である。
しかしながら,複数のマイクロホン(前記主マイクロホン及び前記副マイクロホン)に対する目的音源の位置や雑音の発生状況によっては,前記目的音分離信号に,目的音以外の雑音の信号成分が比較的多く残存する場合もある。従って,それらを合成した前記合成信号も,基本的には目的音の信号成分を主として含む信号ではあるが,状況によっては雑音の信号成分が比較的多く残存する場合もある。
一方,前記合成信号に目的音以外のノイズ音(参照音)の成分が含まれている場合であっても,スペクトル減算処理によって前記合成信号から前記目的音の信号成分を抽出した信号は,前記参照音分離信号の信号成分が除去された信号である。しかも,前記スペクトル減算処理手段による抽出信号は,複数の方向から異なる雑音(参照音)が前記主マイクロホンに到来する状況においても,それら複数の雑音それぞれに対応する前記参照音分離信号全ての信号成分が除去された信号である。
従って,複数の前記目的音分離信号の合成信号に対し,前記参照音分離信号それぞれの信号成分を除去する前記スペクトル減算処理を施すことにより,比較的強い特定の雑音が前記主マイクロホンに到来する状況や,複数の方向から異なる雑音が前記主マイクロホンに到来する状況においても,高い雑音除去性能を確保できる。
In order to achieve the above object, a target sound extraction apparatus according to the present invention (corresponding to a first invention described later) is a single target microphone obtained through one main microphone that mainly inputs a target sound output from a predetermined target sound source . a main audio signal, and a plurality of sub-acoustic signals obtained through the respective plurality of sub microphones having directivity in a plurality of different directions from the front Kinushi microphone, based on the extracted audio signal corresponding to the target sound Thus, the target sound extraction apparatus that outputs the extraction signal includes the following components (1-1) to (1-3).
(1-1) provided separately for each combination of the main acoustic signal and two acoustic signals consisting of said plurality of sub-acoustic signal, target sound based on the two acoustic signals, corresponding to the target sound Sound source separation means for separating and generating a separation signal and a reference sound separation signal corresponding to a reference sound other than the target sound by sound source separation processing by a blind sound source separation method based on an independent component analysis method .
(1-2) A target sound separation signal synthesizing unit that synthesizes a plurality of target sound separation signals separated and generated by the sound source separation unit.
(1-3) The target sound is obtained by performing spectral subtraction processing between the synthesized signal obtained by the target sound separation signal synthesizing means and the plurality of reference sound separation signals separated and generated by the sound source separation means. spectrum subtraction processing means to output an extraction signal to extract an acoustic signal from the obtained combined signal corresponding to the target sound by separating the signal combining means.
In the onset Ming, a plurality of target sound separation signal generated separated by the sound source separation unit is mainly including signal a signal component of the target sound. Similarly, the plurality of reference sound separation signals separated and generated by the sound source separation means are noise sound sources (sounds other than the target sound ( This signal mainly includes the signal component of the reference sound)).
However, depending on the position of the target sound source and the occurrence of noise for a plurality of microphones (the main microphone and the sub microphone), a relatively large amount of noise signal components other than the target sound may remain in the target sound separation signal. is there. Therefore, the synthesized signal obtained by synthesizing them is basically a signal mainly including the signal component of the target sound, but a relatively large amount of noise signal components may remain depending on the situation.
On the other hand, even when the synthesized signal includes a component of a noise sound (reference sound) other than the target sound, the signal obtained by extracting the signal component of the target sound from the synthesized signal by spectral subtraction processing is The signal from which the signal component of the reference sound separation signal is removed. In addition, the signal extracted by the spectrum subtraction processing means includes all signal components of the reference sound separation signal corresponding to each of the plurality of noises even when different noises (reference sounds) arrive at the main microphone from a plurality of directions. Is a signal that has been removed.
Therefore, a situation in which relatively strong specific noise arrives at the main microphone by performing the spectral subtraction process for removing the signal component of each of the reference sound separation signals on a composite signal of the plurality of target sound separation signals. Even in a situation where different noises arrive at the main microphone from a plurality of directions, high noise removal performance can be ensured.
ところで,一般に,ICA法に基づくBSS方式による音源分離処理において,高い音源分離性能を得るためには,分離処理(フィルタ処理)に用いる分離行列を求めるための逐次計算(学習計算)の回数を増やす,或いはその逐次計算に用いる音響信号(ディジタル信号)のサンプル数を増やすことが必要となり,そうすると,演算負荷が大きくなる。例えば,その逐次計算を実用的なプロセッサで行った場合,入力される音響信号の時間長に対して数倍の時間を要することもあり,リアルタイム処理に適さない。
一方,スペクトル減算処理は,その演算負荷が比較的小さく,実用的なプロセッサによってもリアルタイム処理が可能である。
そこで,本発明に係る目的音抽出装置において,前記音源分離手段が実行する音源分離処理が,次の(1−1−1)又は(1−1−2)のいずれかに示す処理であることが考えられる。
(1−1−1)前記音源分離手段が実行する前記音源分離処理において,マイクロホンを通じて時系列に入力される音響信号に対し所定の分離行列に基づくフィルタ処理を順次実行して分離信号を生成するとともに,前記時系列に入力される音響信号における予め定められた周期で区分された区間信号ごとに該区間信号全てを用いて以降の前記フィルタ処理に用いる前記分離行列を求める逐次計算を行い,該逐次計算の回数を予め定められた回数に制限する。
(1−1−2)前記音源分離手段が実行する前記音源分離処理において,マイクロホンを通じて時系列に入力される音響信号に対し所定の分離行列に基づくフィルタ処理を順次実行して分離信号を生成するとともに,前記時系列に入力される音響信号における予め定められた周期で区分された区間信号の先頭側の一部の時間帯の信号ごとに,その信号を用いて以降の前記フィルタ処理に用いる前記分離行列を求める逐次計算を実行する。
上記(1−1−1)又は(1−1−2)に示した音源分離処理において,前記フィルタ処理は,演算負荷の小さな処理であり,実用的なプロセッサによって前記スペクトル減算処理と併せて実行されても,比較的余裕をもってリアルタイムでの処理を実現できる。
また,上記(1−1−1)又は(1−1−2)に示した音源分離処理における前記逐次計算(学習計算)も,逐次計算回数やその逐次計算に用いる音響信号(ディジタル信号)のサンプル数(時間帯)が制限された演算負荷の小さな処理である。そのため,前記逐次計算(学習計算)は,実用的なプロセッサによって前記フィルタ処理及び前記スペクトル減算処理(リアルタイム処理)と併せて実行されても,比較的短時間でその処理(以降に用いる前記分離行列の算出)が完了する。その結果,前記フィルタ処理に用いられる前記分離行列が,音響環境の変化に適応した状態に速やかに更新され,音響環境の変化に対する目的音抽出の適応力が高まる。また,このような前記逐次計算(学習計算)の簡素化より,前記音源分離処理により得られる分離信号に多少のノイズが含まれることとなっても,前記音源分離処理とスペクトル減算処理との組合せにより,全体として目的音の抽出性能を十分に確保できる。
By the way, generally, in the sound source separation process by the BSS method based on the ICA method, in order to obtain a high sound source separation performance, the number of sequential calculations (learning calculations) for obtaining a separation matrix used for the separation process (filter process) is increased. Alternatively, it is necessary to increase the number of samples of the acoustic signal (digital signal) used for the sequential calculation, which increases the calculation load. For example, when the sequential calculation is performed by a practical processor, it may take several times the time length of the input acoustic signal, and is not suitable for real-time processing.
On the other hand, spectral subtraction processing has a relatively small calculation load, and real-time processing is possible even with a practical processor.
Therefore, in the target sound extraction apparatus according to the present invention, the sound source separation process executed by the sound source separation means is a process shown in either of the following (1-1-1) or (1-1-2). Can be considered.
(1-1-1) the sound the sound source separation processing Oite sense the separating means is executed, sequential execution to separation signal filter processing based on a predetermined separating matrix to audio signals inputted in time series through the microphone And sequentially calculating the separation matrix used for the subsequent filter processing using all the section signals for each section signal divided by a predetermined period in the acoustic signal input in time series. And the number of sequential calculations is limited to a predetermined number.
(1-1-2) the sound the sound source separation processing Oite sense the separating means is executed, sequential execution to separation signal filter processing based on a predetermined separating matrix to audio signals inputted in time series through the microphone For each of the signals in the partial time zone on the head side of the section signal divided by a predetermined period in the acoustic signal input in time series, the subsequent filter processing using the signal The sequential calculation for obtaining the separation matrix used in the above is executed.
In the sound source separation process shown in (1-1-1) or (1-1-2), the filter process is a process with a small calculation load, and is executed together with the spectrum subtraction process by a practical processor. However, real-time processing can be realized with a relatively large margin.
In addition, the sequential calculation (learning calculation) in the sound source separation processing shown in (1-1-1) or (1-1-2) is the same as the number of sequential calculations and the acoustic signal (digital signal) used for the sequential calculation. This is a processing with a small calculation load with a limited number of samples (time zone). Therefore, even if the sequential calculation (learning calculation) is executed by a practical processor in combination with the filter processing and the spectral subtraction processing (real-time processing), the processing (the separation matrix used later) is performed in a relatively short time. Calculation) is completed. As a result, the separation matrix used for the filtering process is quickly updated to a state adapted to the change in the acoustic environment, and the adaptability of the target sound extraction to the change in the acoustic environment is increased. Further, due to the simplification of the sequential calculation (learning calculation), even if some noise is included in the separated signal obtained by the sound source separation process, the combination of the sound source separation process and the spectrum subtraction process is combined. Therefore, the target sound extraction performance can be sufficiently secured as a whole.
また,本発明に係る目的音抽出装置が,さらに次の(1−4)及び(1−5)に示す構成要素を備えればなお好適である。
(1−4)それぞれ指向性の方向が異なる3つ以上のマイクロホンを通じて得られる3つ以上の入力音響信号に基づいて,該3つ以上の入力音響信号の中から1つの前記主音響信号と複数の前記副音響信号とを特定する主・副音響信号特定手段。
(1−5)前記主・副音響信号特定手段による特定結果に従って,前記3つ以上のマイクロホンから前記音源分離手段への音響信号の伝送経路を切り替える信号経路切替手段。
例えば,前記主・副音響信号特定手段が,例えば,前記3つ以上の入力音響信号それぞれの信号強度の比較に基づいて,又は前記3つ以上の入力音響信号それぞれにおける予め定められた周波数成分の占める割合の比較に基づいて,1つの前記主音響信号と複数の前記副音響信号とを特定すること等が考えられる。
これらの構成要素を備えることにより,本発明に係る目的音抽出装置は,目的音源の位置が変わり得るために,複数のマイクロホンのうちの予め定められた1つを前記主マイクロホンとして固定できない対象に対しても適用できる。
It is further preferable that the target sound extraction apparatus according to the present invention further includes the constituent elements shown in the following (1-4) and (1-5).
(1-4) its Re respectively based on three or more input audio signals obtained through directional three or more microphones in different directions, and one of the main sound among the three or more input audio signals Main / sub-acoustic signal specifying means for specifying a signal and a plurality of the sub-acoustic signals;
(1-5) Signal path switching means for switching the transmission path of the acoustic signal from the three or more microphones to the sound source separation means according to the identification result by the main / sub acoustic signal identification means.
For example, the main / sub-acoustic signal specifying means may determine, for example, a predetermined frequency component in each of the three or more input sound signals based on a comparison of signal strengths of the three or more input sound signals. It may be possible to specify one main acoustic signal and a plurality of sub-acoustic signals based on comparison of the proportions occupied.
By providing these components, the target sound extraction apparatus according to the present invention can change the position of the target sound source, so that a predetermined one of a plurality of microphones cannot be fixed as the main microphone. It can also be applied to.
また,本発明は,以上に示した目的音抽出装置における各手段が実行する処理をコンピュータに実行させる目的音抽出プログラムとして捉えることもできる。
即ち,本発明に係る目的音抽出プログラムは,所定の目的音源から出力される目的音を主に入力する1つの主マイクロホンを通じて得られる1つの主音響信号と,前記主マイクロホンとは異なる複数の方向それぞれに指向性を有する複数の副マイクロホンそれぞれを通じて得られる複数の副音響信号と,に基づいて,前記目的音に相当する音響信号を抽出して抽出信号を出力する処理をコンピュータに実行させる目的音抽出プログラムであり,さらに,次の(2−1)〜(2−3)に示す処理をコンピュータに実行させるプログラムである。
(2−1)前記主音響信号と前記複数の副音響信号それぞれとからなる2つの音響信号の組合せそれぞれについて個別に,当該2つの音響信号に基づいて,前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する参照音分離信号とを独立成分分析法に基づくブラインド音源分離方式の処理により分離生成する音源分離処理。
(2−2)前記音源分離処理により分離生成された複数の前記目的音分離信号を合成する目的音分離信号合成処理。
(2−3)前記目的音分離信号合成処理により得られた合成信号と前記音源分離処理により分離生成された複数の前記参照音分離信号との間でスペクトル減算処理を行うことにより,前記目的音分離信号合成処理により得られた合成信号から前記目的音に相当する音響信号を抽出して抽出信号を出力する処理。
以上に示した目的音抽出プログラムを実行するコンピュータによっても,前述した本発明に係る目的音抽出装置と同様の作用効果が得られる。
また,本発明は,以上に示した本発明に係る目的音抽出プログラムにおける各処理をコンピュータによって実行する目的音抽出方法として捉えることもできる。
The present invention can also be understood as a target sound extraction program that causes a computer to execute the processing executed by each means in the target sound extraction apparatus described above.
That is, target sound extraction program according to the present invention, one of the main sound signal obtained through one of the primary microphone for inputting a target sound to be outputted from a predetermined target source mainly before several different from the Kinushi microphone An object of causing a computer to execute a process of extracting an acoustic signal corresponding to the target sound and outputting an extracted signal based on a plurality of sub-acoustic signals obtained through a plurality of sub-microphones each having directivity in each direction It is a sound extraction program, and is a program that causes a computer to execute the following processes (2-1) to (2-3).
(2-1) individually for each combination of the main acoustic signal and two acoustic signals consisting of said plurality of sub-acoustic signal, based on the two acoustic signals, target sound separation signals corresponding to the target sound Sound source separation processing for separating and generating a reference sound separation signal corresponding to a reference sound other than the target sound by a blind sound source separation method based on an independent component analysis method .
(2-2) A target sound separation signal synthesis process for synthesizing a plurality of target sound separation signals separated and generated by the sound source separation process.
(2-3) Spectral subtraction processing is performed between the synthesized signal obtained by the target sound separation signal synthesis processing and the plurality of reference sound separation signals separated and generated by the sound source separation processing, whereby the target sound is obtained. A process of extracting an acoustic signal corresponding to the target sound from the synthesized signal obtained by the separated signal synthesizing process and outputting the extracted signal.
The same effect as that of the above-described target sound extraction apparatus according to the present invention can be obtained by a computer that executes the target sound extraction program described above.
The present invention can also be understood as a target sound extraction method in which each process in the target sound extraction program according to the present invention described above is executed by a computer.
本発明(後述する第1発明に相当)によれば,複数の方向から異なる雑音が各マイクロホンに到来する音響環境下や,目的音が前記副マイクロホンのいずれかに対して比較的大きな音量で混入するような音響環境下,さらににはそのような音響環境が変化するような場合でも高い雑音除去性能を確保できる。
また,本発明によれば,後述するように,前記主マイクロホン自体の指向性が緩やかなものであっても,本発明に係る目的音抽出装置は非常に急峻な指向性を有する音響入力装置として機能する。しかも,前記主マイクロホンの位置若しくは指向性の方向に対する前記副マイクロホンの位置若しくは指向性の方向を調節する(近づけたり遠ざけたりする)ことにより,雑音として取り扱われる(除去される)音の音源の位置や方向を調節できるため,本発明に係る目的音抽出装置の指向性能を調節することができ,利便性が高い。また,後述するように,そのように急峻な,或いはフレキシブルな指向性を有する音響入力装置として機能する装置を,非常に小型の装置として実現できる。
According to the present invention (corresponding to the first invention described later), the target sound is mixed at a relatively large volume with respect to any of the sub-microphones in an acoustic environment where different noises arrive at each microphone from a plurality of directions. High noise removal performance can be ensured under such an acoustic environment, and even when such an acoustic environment changes.
Further, according to the present invention, as will be described later, even if the directivity of the main microphone itself is moderate, the target sound extraction device according to the present invention is an acoustic input device having a very steep directivity. Function. Moreover, the position of the sound source of the sound treated (removed) as noise by adjusting (approaching or moving away) the position or directionality of the sub microphone relative to the position or directionality of the main microphone Since the directivity of the target sound extraction apparatus according to the present invention can be adjusted, the convenience is high. Further, as will be described later, a device that functions as an acoustic input device having such steep or flexible directivity can be realized as a very small device.
以下添付図面を参照しながら,本発明の実施の形態について説明し,本発明の理解に供する。尚,以下の実施の形態は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は第1発明の実施形態に係る目的音抽出装置X1の概略構成を表すブロック図,図2は目的音抽出装置X1における目的音抽出処理の過程を表す概念図,図3は第2発明の実施形態に係る目的音抽出装置X2の概略構成を表すブロック図,図4は目的音抽出装置X2における目的音抽出処理の過程を表す概念図,図5は第3発明の実施形態に係る目的音抽出装置X3の概略構成を表すブロック図,図6は目的音抽出装置X3における目的音抽出処理の過程を表す概念図,図7は目的音抽出装置X1〜X3の目的音抽出性能を評価する第1の実験条件を表す図,図8は目的音抽出装置X1〜X3の目的音抽出性能を評価する第2の実験条件を表す図,図9は第1の実験条件の下での目的音抽出装置X1〜X3及び従来の目的音抽出処理の目的音抽出性能を表す図,図10は第2の実験条件の下での目的音抽出装置X1〜X3及び従来の目的音抽出処理の目的音抽出性能を表す図,図11は目的音抽出装置X1の指向性を評価する第3の実験条件を表す図,図12は第3の実験条件の下での目的音抽出装置X1の指向性を表す図,図13は目的音抽出装置X1〜X3に採用され得る音響入力装置V2の概略構成を表すブロック図,図14はFDICA法に基づくBSS方式の音源分離処理を行う音源分離装置Zの概略構成を表すブロック図,図15は目的音抽出装置X1〜X3の音源分離処理における学習計算を除く処理のシーケンスの第1例を表すタイムチャート,図16は目的音抽出装置X1〜X3の音源分離処理における学習計算を除く処理のシーケンスの第2例を表すタイムチャート,図17は目的音抽出装置X1〜X3の音源分離処理における第1実施例に係る学習計算のシーケンスを表すタイムチャート,図18は目的音抽出装置X1〜X3の音源分離処理における第2実施例に係る学習計算のシーケンスを表すタイムチャートである。
Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings so that the present invention can be understood. The following embodiment is an example embodying the present invention, and does not limit the technical scope of the present invention.
FIG. 1 is a block diagram showing a schematic configuration of the target sound extraction device X1 according to the embodiment of the first invention, FIG. 2 is a conceptual diagram showing a process of target sound extraction processing in the target sound extraction device X1, and FIG. FIG. 4 is a block diagram showing a schematic configuration of the target sound extraction device X2 according to the embodiment of the second invention, FIG. 4 is a conceptual diagram showing a process of target sound extraction processing in the target sound extraction device X2, and FIG. 5 is an embodiment of the third invention. FIG. 6 is a conceptual diagram showing the process of target sound extraction processing in the target sound extraction device X3, and FIG. 7 is the target sound extraction performance of the target sound extraction devices X1 to X3. FIG. 8 is a diagram showing a second experimental condition for evaluating the target sound extraction performance of the target sound extraction devices X1 to X3, and FIG. 9 is a graph showing the first experimental condition for evaluating the target sound extraction device X1 to X3. Target sound extraction devices X1 to X3 and conventional target sound extraction FIG. 10 shows the target sound extraction performance of the target sound extraction devices X1 to X3 and the conventional target sound extraction processing under the second experimental conditions, and FIG. 11 shows the target sound extraction performance. FIG. 12 is a diagram showing the third experimental condition for evaluating the directivity of the extracting device X1, FIG. 12 is a diagram showing the directivity of the target sound extracting device X1 under the third experimental condition, and FIG. 13 is the target sound extracting device X1. FIG. 14 is a block diagram showing a schematic configuration of a sound source separation device Z that performs BSS type sound source separation processing based on the FDICA method, and FIG. 15 is a target sound. FIG. 16 is a time chart showing a first example of a processing sequence excluding learning calculation in the sound source separation processing of the extraction devices X1 to X3. FIG. 16 shows a first processing sequence excluding learning calculation in the sound source separation processing of the target sound extraction devices X1 to X3. 2 examples FIG. 17 is a time chart showing a learning calculation sequence according to the first embodiment in the sound source separation processing of the target sound extraction devices X1 to X3, and FIG. It is a time chart showing the sequence of the learning calculation which concerns on 2 Example.
[第1発明]
まず,図1に示すブロック図を参照しつつ,第1発明の実施形態に係る目的音抽出装置X1について説明する。
図1に示すように,目的音抽出装置X1は,複数のマイクロホンを含む音響入力装置V1,複数(図1では3つ)の音源分離処理部10(10−1〜10−3),目的音分離信号合成処理部20及びスペクトル減算処理部31を備えている。ここで,前記音響入力装置V1は,1つの主マイクロホン101及び複数(図1では3つ)の副マイクロホン102(102−1〜102−3)を含む。また,前記主マイクロホン101及び複数の前記副マイクロホン102は,それぞれ複数の異なる位置に配置されたもの,又はそれぞれ異なる複数の方向に指向性を有するものである。
前記主マイクロホン101は,所定の目的音源(例えば,所定範囲内で移動し得る話者等)が発する音響(以下,目的音という)を主に入力する音響入力手段である。
また,複数の前記副マイクロホン102−1〜102−3は,前記主マイクロホン101とは異なる複数の位置それぞれに配置されたもの,或いはそれぞれ異なる複数の方向に指向性を有するものであり,主として目的音以外の参照音(雑音)を入力する音響入力手段である。なお,副マイクロホン102との記載は,複数の副マイクロホン102−1〜102−3を総称した記載である。
なお,図1に示す主マイクロホン101及び副マイクロホン102は,それぞれ指向性を有するマイクロホンであり,副マイクロホン102は,それぞれ前記主マイクロホン102とは異なる複数の方向それぞれに指向性を有するよう配置されている。
[First invention]
First, the target sound extraction device X1 according to the embodiment of the first invention will be described with reference to the block diagram shown in FIG.
As shown in FIG. 1, the target sound extraction device X1 includes a sound input device V1 including a plurality of microphones, a plurality (three in FIG. 1) of sound source separation processing units 10 (10-1 to 10-3), a target sound. A separated signal
The
The plurality of sub-microphones 102-1 to 102-3 are arranged at a plurality of positions different from the
The
前記主マイクロホン101及び前記副マイクロホン102それぞれが指向性を有するマイクロホンである場合,前記主マイクロホン101の指向中心方向(正面方向)を中心(0°)として一方の側の+180°未満の方向(例えば,+90°の方向),及び他方の側の−180°未満の方向(例えば,−90°の方向)のそれぞれに,前記副マイクロホン102の指向中心方向(正面方向)が設定されることが望ましい。
また,各マイクロホン101,102の指向方向が,同一平面内においてそれぞれ異なる方向に設定される他,三次元的に異なる方向に設定されることも考えられる。
When each of the
It is also conceivable that the directivity directions of the
そして,目的音抽出装置X1は,前記主マイクロホン101を通じて得られる主音響信号と,それ以外の複数の前記副マイクロホン102を通じて得られる副音響信号とに基づいて,前記目的音に相当する音響信号を抽出してその抽出信号(以下,目的音抽出信号という)を出力するものである。
目的音抽出装置X1において,前記音源分離処理部10,前記目的音分離信号合成処理部20及び前記スペクトル減算処理部31は,例えばコンピュータの一例であるDSP(Digital Signal Processor)及びそのDSPにより実行されるプログラムが記憶されたROM,或いはASIC等により具現化される。この場合,そのROMには,前記音源分離処理部10,前記目的音分離信号合成処理部20及び前記スペクトル減算処理部31が行う処理(後述)を前記DSPに実行させるためのプログラムが予め記憶されている。
Then, the target sound extraction device X1 generates an acoustic signal corresponding to the target sound based on the main acoustic signal obtained through the
In the target sound extraction apparatus X1, the sound source
前記音源分離処理部10(10−1〜10−3)は,前記主音響信号と複数の前記副音響信号それぞれとの組合せそれぞれについて設けられ,その組合せである主音響信号及び副音響信号とに基づいて,前記目的音に対応する分離信号(目的音の同定信号)である目的音分離信号と,前記目的音以外の音である参照音(雑音といってもよい)に対応する参照音分離信号(参照音の同定信号)とを分離生成する音源分離処理を実行するものである(前記音源分離手段の一例)。
なお,各マイクロホン101,102と前記音源分離処理部10との間には,不図示のA/Dコンバータが設けられており,そのA/Dコンバータによってデジタル信号に変換された音響信号が,前記音源分離処理部10に伝送される。例えば,目的音が人の声である場合,8kHz程度のサンプリング周期でデジタル化すればよい。
ここで,前記音源分離処理部10(10−1〜10−3)は,例えば,非特許文献2や非特許文献3に示される独立成分分析法に基づくブラインド音源分離方式による音源分離処理,或いは非特許文献4や非特許文献5に示されるバイナリーマスキング処理等の音源分離処理を実行するものである。
The sound source separation processing unit 10 (10-1 to 10-3) is provided for each combination of the main acoustic signal and each of the plurality of sub-acoustic signals. Based on the target sound separation signal corresponding to the target sound (identification signal of the target sound) and the reference sound separation corresponding to the reference sound (may be referred to as noise) other than the target sound. A sound source separation process for separating and generating a signal (identification signal of a reference sound) is executed (an example of the sound source separation means).
An A / D converter (not shown) is provided between each of the
Here, the sound source separation processing unit 10 (10-1 to 10-3) is, for example, a sound source separation process by a blind sound source separation method based on an independent component analysis method shown in
以下,図14に示すブロック図を参照しつつ,前記音源分離処理部10として採用可能な装置の一例である音源分離装置Zについて説明する。
以下に示す音源分離装置Zは,所定の音響空間に複数の音源と複数のマイクロホン101,102が存在する状態で,そのマイクロホン101,102各々を通じて,音源各々からの個別の音声信号(以下,音源信号という)が重畳された信号である複数の混合音声信号が逐次入力される場合に,その混合音声信号に対してICA法に基づくBSS方式の音源分離処理を施すことにより,前記音源信号に対応する複数の分離信号(音源信号を同定した信号)を逐次生成する処理を行うものである。
また,図14に示す前記音源分離装置Zは,ICA−BSS方式の一種であるFDICA方式(Frequency-Domain ICA)に基づく音源分離処理を行うものである。
Hereinafter, a sound source separation device Z that is an example of a device that can be employed as the sound source
The sound source separation device Z shown below is a state in which a plurality of sound sources and a plurality of
The sound source separation device Z shown in FIG. 14 performs sound source separation processing based on the FDICA method (Frequency-Domain ICA) which is a kind of ICA-BSS method.
FDICA方式では,まず,入力された混合音声信号x(t)について,ST−DFT処理部13によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換(Short Time Discrete Fourier Transform,以下,ST−DFT処理という)を行い,観測信号の短時間分析を行う。そして,そのST−DFT処理後の各チャンネルの信号(各周波数成分の信号)について,分離演算処理部11fにより分離行列W(f)に基づく分離演算処理(フィルタ処理)を施すことによって音源分離(音源信号の同定)を行う。ここでfを周波数ビン,mを分析フレーム番号とすると,分離信号(同定信号)y(f,m)は,次の(1)式のように表すことができる。
ここで,分離フィルタW(f)の更新式は,例えば次の(2)式のように表すことができる。
図14において,主マイクロホン101に対応する分離信号y1(f)が前記目的音分離信号である。また,副マイクロホン102に対応する分離信号y2(f)が前記参照音分離信号である。
なお,図14においては,入力される混合音声信号x1,x2のチャンネル数(即ち,マイクロホンの数)が2つである例について示しているが,(チャンネル数n)≧(音源の数m)であれば,3チャンネル以上であっても同様の構成により実現できる。
In the FDICA method, first, a short time discrete Fourier transform (Short Time Discrete Fourier Transform) is performed for each frame, which is a signal divided by the ST-
Here, the update formula of the separation filter W (f) can be expressed as the following formula (2), for example.
In FIG. 14, a separation signal y1 (f) corresponding to the
FIG. 14 shows an example in which the number of channels (that is, the number of microphones) of the input mixed audio signals x1 and x2 is two, but (number of channels n) ≧ (number of sound sources m). If so, it can be realized with the same configuration even if there are three or more channels.
また,目的音抽出装置X1において,前記目的音分離信号合成処理部20は,前記音源分離処理部10それぞれにより分離生成された複数の前記目的音分離信号の合成処理を実行し,それにより得られる合成信号を出力するものである(前記目的音分離信号合成手段の一例)。
例えば,前記目的音分離信号合成処理部20は,複数の前記目的音分離信号について,複数に区分された周波数成分(周波数ビン)ごとに平均処理や加重平均処理を実行すること等により,それら目的音分離信号を合成する。
また,目的音抽出装置X1において,前記スペクトル減算処理部31は,前記目的音分離信号合成処理部20により得られた合成信号と,前記音源分離処理部10それぞれにより分離生成された複数の前記参照音分離信号との間でスペクトル減算処理を行うことにより,前記合成信号から前記目的音に相当する音響信号を抽出し,その抽出信号(前記目的音抽出信号)を出力するものである(前記スペクトル減算処理手段の一例)。
前記スペクトル減算処理部31は,周知のスペクトル減算処理(スペクトラム差分法に基づく目的音抽出処理)により,前記合成信号から前記参照音分離信号それぞれの信号成分を除去することによって前記目的音抽出信号を抽出する処理を実行するものである。
前記スペクトル減算処理において,前記スペクトル減算処理部31は,前記合成信号及び前記参照音分離信号それぞれについて,所定時間長分のフレームごとに離散フーリエ変換処理(DFT)を実行し,観測信号(ここでは,前記合成信号)の短時間分析を行う。ここで,周波数ビンをf,分析フレーム番号をm,観測信号である前記合成信号のスペクトル値(DFT後の信号値)をY(f,m)とし,目的音信号のスペクトル値がS(f,m),雑音信号(目的音以外の音の信号)のスペクトル値がN(f,m)であるとすると,前記合成信号のスペクトル値Y(f,m)は,次の(3)式により表される。
For example, the target sound separation signal
Further, in the target sound extraction device X1, the spectrum
The spectrum
In the spectrum subtraction process, the spectrum
次に,図2を参照しつつ,目的音抽出装置X1における目的音抽出処理の過程について説明する。なお,説明の簡単化のため,図2には,前記副音響信号が2つである場合(即ち,前記副マイクロホン102が2つである場合)の例を示している。
前記音源分離処理部10により分離生成される複数の前記目的音分離信号は,目的音の信号成分を主として含む信号である。同様に,前記音源分離処理部10により分離生成される複数の前記参照音分離信号(図2におけるYB1,YB2)は,位置や指向性の方向がそれぞれ異なる前記副マイクロホン102それぞれの収音範囲におけるノイズ音源の音(参照音)の信号成分(図2において斜線のバーグラフ以外のバーグラフで示される成分)を主として含む信号である。
しかしながら,目的音源の位置や雑音の発生状況によっては,前記目的音分離信号に,目的音以外の参照音の信号成分が比較的多く残存する場合もある。従って,それらを合成した前記合成信号(図2におけるYC)も,基本的には目的音の信号成分(図2において斜線のバーグラフで示される成分)を主として含む信号ではあるが,状況によっては雑音の信号成分が比較的多く残存する場合もある。
一方,前記目的音分離信号に目的音以外のノイズ音(参照音)の成分が含まれている場合であっても,前記スペクトル減算処理部31により,前記合成信号から前記目的音の信号成分を抽出した結果である前記目的音抽出信号(図2におけるYO)は,前記参照音分離信号の信号成分が除去された信号である。しかも,前記目的音抽出信号は,複数の方向から異なる雑音(参照音)が前記主マイクロホン101に到来する状況においても,それら複数の雑音それぞれに対応する前記参照音分離信号全ての信号成分が除去された信号である。
従って,目的音抽出装置Y1によれば,比較的強い特定の雑音が前記主マイクロホン101に到来する状況や,複数の方向から異なる雑音が前記主マイクロホン101に到来する状況においても,高い雑音除去性能を確保できる。
また,非線形処理である前記スペクトル減算処理のみでは,その出力信号(目的音の抽出信号)に非線形処理に特有のミュージカル雑音が生じやすいが,目的音抽出装置X1においては,前記音源分離処理部10による線形フィルタ処理が施された後の信号に基づいて前記スペクトル減算処理が行われるので,前記目的音抽出信号に耳障りなミュージカル雑音が含まれることを防止できる。特に,目的音及び雑音を含む音源の数が少数(3つ以下程度)の点音源である場合,音源分離処理が特に有効に目的音抽出に寄与し,ミュージカル雑音の抑制効果が高まる。
Next, the process of target sound extraction processing in the target sound extraction device X1 will be described with reference to FIG. For simplification of explanation, FIG. 2 shows an example in which there are two sub-acoustic signals (that is, there are two sub-microphones 102).
The plurality of target sound separation signals separated and generated by the sound source
However, depending on the position of the target sound source and the occurrence of noise, a relatively large amount of reference sound signal components other than the target sound may remain in the target sound separation signal. Therefore, the synthesized signal obtained by synthesizing them (Y C in FIG. 2) is basically a signal mainly including the signal component of the target sound (the component indicated by the hatched bar graph in FIG. 2). In some cases, a relatively large amount of noise signal components may remain.
On the other hand, even if the target sound separation signal includes a noise sound (reference sound) component other than the target sound, the spectrum
Therefore, according to the target sound extraction device Y1, high noise removal performance can be obtained even in a situation where a relatively strong specific noise arrives at the
Further, only the spectral subtraction process, which is a non-linear process, tends to generate musical noise peculiar to the non-linear process in its output signal (target sound extraction signal). However, in the target sound extraction apparatus X1, the sound source
[第2発明]
次に,図3に示すブロック図を参照しつつ,第2発明の実施形態に係る目的音抽出装置X2について説明する。なお,図3において,目的音抽出装置X2が備える構成要素のうち,前記目的音抽出装置X1が備えるものと同じ処理を実行する構成要素については図1における符号と同じ符号を付している。
図3に示すように,目的音抽出装置X2は,複数のマイクロホンを含む音響入力装置V1,複数(図3では3つ)の音源分離処理部10(10−1〜10−3)及びスペクトル近似信号抽出処理部32を備えている。ここで,前記音響入力装置V1は,前記目的音抽出装置X1における前記音響入力装置V1と同じものである。
そして,目的音抽出装置X2も,前記主マイクロホン101を通じて得られる主音響信号と,それ以外の複数の前記副マイクロホン102を通じて得られる副音響信号とに基づいて,前記目的音に相当する音響信号を抽出してその抽出信号(前記目的音抽出信号)を出力するものである。
目的音抽出装置X2において,前記音源分離処理部10及び前記スペクトル近似信号抽出処理部32は,例えばコンピュータの一例であるDSP及びそのDSPにより実行されるプログラムが記憶されたROM,或いはASIC等により具現化される。この場合,そのROMには,前記音源分離処理部10及び前記スペクトル近似信号抽出処理部32が行う処理(後述)を前記DSPに実行させるためのプログラムが予め記憶されている。
[Second invention]
Next, the target sound extraction device X2 according to the embodiment of the second invention will be described with reference to the block diagram shown in FIG. In FIG. 3, among the constituent elements included in the target sound extraction device X2, the same reference numerals as those in FIG. 1 are assigned to the constituent elements that perform the same processing as that included in the target sound extraction device X1.
As shown in FIG. 3, the target sound extraction device X2 includes an acoustic input device V1 including a plurality of microphones, a plurality (three in FIG. 3) of sound source separation processing units 10 (10-1 to 10-3), and a spectrum approximation. A signal
The target sound extraction device X2 also obtains an acoustic signal corresponding to the target sound based on the main acoustic signal obtained through the
In the target sound extraction apparatus X2, the sound source
前記音源分離処理部10(10−1〜10−3)は,前記主音響信号と複数の前記副音響信号それぞれとの組合せそれぞれについて設けられ,前記主音響信号と前記副音響信号とに基づいて,前記目的音に対応する分離信号(同定信号)である目的音分離信号を分離生成する音源分離処理を実行するものである。
なお,各マイクロホン101,102と前記音源分離処理部10との間には,前記目的音抽出装置X1と同様に,不図示のA/Dコンバータが設けられている。
ここで,前記音源分離処理部10(10−1〜10−3)は,前記目的音抽出装置X1の場合と同様に,例えば,非特許文献2や非特許文献3に示される独立成分分析法に基づくブラインド音源分離方式による音源分離処理,或いは非特許文献4や非特許文献5に示されるバイナリーマスキング処理等の音源分離処理を実行するものである。
The sound source separation processing unit 10 (10-1 to 10-3) is provided for each combination of the main sound signal and each of the plurality of sub sound signals, and based on the main sound signal and the sub sound signal. , A sound source separation process for separating and generating a target sound separation signal which is a separation signal (identification signal) corresponding to the target sound is executed.
Note that an A / D converter (not shown) is provided between the
Here, the sound source separation processing unit 10 (10-1 to 10-3) is, for example, the independent component analysis method shown in
また,前記スペクトル近似信号抽出処理部32は,前記音源分離処理部10によって分離生成された複数の前記目的音分離信号について,複数に区分された周波数帯域(周波数ビン)ごとの信号成分のうち,その信号成分が前記目的音分離信号相互間で所定の近似条件を満たすものを抽出することにより,複数の前記目的音分離信号から前記目的音に相当する音響信号を抽出し,その抽出信号(前記目的音抽出信号)を出力するものである。
例えば,前記スペクトル近似信号抽出処理部32は,複数の前記目的音分離信号について,周波数ビンごとにそれらの信号成分のレベル(パワー)を比較し,そのレベルの比や差が予め定められた範囲内にあるという前記近似条件を満たす場合に,それらの信号成分のいずれか1つを選択する,又はそれらの信号成分を合成する(例えば平均値や最小値を算出する)ことによって前記目的音抽出信号を抽出する。
In addition, the spectrum approximate signal
For example, the spectrum approximation signal
次に,図4を参照しつつ,目的音抽出装置X2における目的音抽出処理の過程について説明する。なお,説明の簡単化のため,図4には,前記副音響信号が2つである場合(即ち,前記副マイクロホン102が2つである場合)の例を示している。
前記音源分離処理部10により分離生成される複数の前記目的音分離信号(図4におけるYA1,YA2)は,それぞれ目的音の信号成分(図4において斜線のバーグラフで示される成分)を主として含む信号である。
しかしながら,目的音源の位置や雑音の発生状況によっては,前記目的音分離信号に,目的音以外の参照音の信号成分(図4において斜線のバーグラフ以外のバーグラフで示される成分)が比較的多く残存する場合もある。
一方,前記目的音分離信号に目的音以外のノイズ音(参照音)の成分が含まれている場合であっても,複数のマイクロホン101,102それぞれの位置又は指向性の方向が異なるので,雑音成分を多く含む前記目的音分離信号は,その全てのうちの一部であるか,或いは前記目的音分離信号それぞれに含まれる雑音成分の種類が異なることが通常である。
従って,前記スペクトル近似信号抽出処理部32により,複数の前記目的音分離信号(図4におけるYA1,YA2)において近似する信号成分を抽出した結果である前記目的音抽出信号(図4におけるYO)は,各種の雑音の信号成分が除去された信号である。
従って,目的音抽出装置Y2によれば,比較的強い特定の雑音が前記主マイクロホン101に到来する状況や,複数の方向から異なる雑音が前記主マイクロホン101に到来する状況においても,高い雑音除去性能を確保できる。
Next, the process of target sound extraction processing in the target sound extraction device X2 will be described with reference to FIG. For simplification of explanation, FIG. 4 shows an example in which there are two sub-acoustic signals (that is, there are two sub-microphones 102).
A plurality of the target sound separation signals (Y A1 and Y A2 in FIG. 4) separated and generated by the sound source
However, depending on the position of the target sound source and the state of noise generation, the target sound separation signal may include a signal component of a reference sound other than the target sound (a component indicated by a bar graph other than the shaded bar graph in FIG. 4). There may be many remaining.
On the other hand, even if the target sound separation signal includes a noise sound (reference sound) component other than the target sound, the position or directivity direction of each of the plurality of
Accordingly, the target sound extraction signal (Y in FIG. 4) is obtained as a result of extracting approximate signal components in the plurality of target sound separation signals (Y A1 and Y A2 in FIG. 4) by the spectrum approximate signal extraction processing unit 32. O ) is a signal from which various noise signal components have been removed.
Therefore, according to the target sound extraction device Y2, high noise removal performance can be obtained even in a situation where a relatively strong specific noise arrives at the
[第3発明]
次に,図5に示すブロック図を参照しつつ,第3発明の実施形態に係る目的音抽出装置X3について説明する。なお,図5において,目的音抽出装置X3が備える構成要素のうち,前記目的音抽出装置X1が備えるものと同じ処理を実行する構成要素については図1における符号と同じ符号を付している。
図5に示すように,目的音抽出装置X3は,複数のマイクロホンを含む音響入力装置V1,複数(図3では3つ)の音源分離処理部10(10−1〜10−3)及びスペクトル減算処理部31’を備えている。ここで,前記音響入力装置V1は,前記目的音抽出装置X1における前記音響入力装置V1と同じものである。
そして,目的音抽出装置X3も,前記主マイクロホン101を通じて得られる主音響信号と,それ以外の複数の前記副マイクロホン102を通じて得られる副音響信号とに基づいて,前記目的音に相当する音響信号を抽出してその抽出信号(前記目的音抽出信号)を出力するものである。
目的音抽出装置X3において,前記音源分離処理部10及び前記スペクトル減算処理部31’は,例えばコンピュータの一例であるDSP及びそのDSPにより実行されるプログラムが記憶されたROM,或いはASIC等により具現化される。この場合,そのROMには,前記音源分離処理部10及び前記スペクトル減算処理部31’が行う処理(後述)を前記DSPに実行させるためのプログラムが予め記憶されている。
[Third invention]
Next, the target sound extraction device X3 according to the embodiment of the third invention will be described with reference to the block diagram shown in FIG. In FIG. 5, among the constituent elements included in the target sound extracting device X3, constituent elements that execute the same processes as those included in the target sound extracting device X1 are denoted by the same reference numerals as those in FIG.
As shown in FIG. 5, the target sound extraction device X3 includes an acoustic input device V1 including a plurality of microphones, a plurality (three in FIG. 3) of sound source separation processing units 10 (10-1 to 10-3), and a spectral subtraction. A
The target sound extraction device X3 also generates an acoustic signal corresponding to the target sound based on the main acoustic signal obtained through the
In the target sound extraction device X3, the sound source
前記音源分離処理部10(10−1〜10−3)は,前記主音響信号と複数の前記副音響信号それぞれとの組合せそれぞれについて設けられ,前記主音響信号と前記副音響信号とに基づいて,前記目的音以外の雑音(参照音)に対応する分離信号(同定信号)である参照音分離信号を分離生成する音源分離処理を実行するものである。
なお,各マイクロホン101,102と前記音源分離処理部10との間には,前記目的音抽出装置X1と同様に,不図示のA/Dコンバータが設けられている。
ここで,前記音源分離処理部10(10−1〜10−3)は,前記目的音抽出装置X1の場合と同様に,例えば,非特許文献2や非特許文献3に示される独立成分分析法に基づくブラインド音源分離方式による音源分離処理,或いは非特許文献4や非特許文献5に示されるバイナリーマスキング処理等の音源分離処理を実行するものである。
The sound source separation processing unit 10 (10-1 to 10-3) is provided for each combination of the main sound signal and each of the plurality of sub sound signals, and based on the main sound signal and the sub sound signal. The sound source separation process for separating and generating a reference sound separation signal that is a separation signal (identification signal) corresponding to noise (reference sound) other than the target sound is executed.
Note that an A / D converter (not shown) is provided between the
Here, the sound source separation processing unit 10 (10-1 to 10-3) is, for example, the independent component analysis method shown in
また,前記スペクトル減算処理部31’は,前記主マイクロホン101を通じて得られる前記主音響信号と,前記音源分離処理部10により分離生成された複数の前記参照音分離信号との間で前述したスペクトル減算処理を行うことにより,前記主音響信号から前記目的音に相当する音響信号を抽出し,その抽出信号(前記目的音抽出信号)を出力するものである。このスペクトル減算処理部31’は,処理対象(観測信号)が前記合成信号から前記主音響信号に入れ替わったこと以外は前記目的音抽出装置X1における前記スペクトル減算処理部31と同じ処理を実行するものである。
Further, the spectral
次に,図6を参照しつつ,目的音抽出装置X1における目的音抽出処理の過程について説明する。なお,説明の簡単化のため,図6には,前記副音響信号が2つである場合(即ち,前記副マイクロホン102が2つである場合)の例を示している。
前記音源分離処理部10により分離生成され複数の前記参照音分離信号(図6におけるYB1,YB2)は,位置や指向性の方向がそれぞれ異なる前記副マイクロホン102それぞれの収音範囲におけるノイズ音源の音(参照音)の信号成分(図6において斜線のバーグラフ以外のバーグラフで示される成分)を主として含む信号である。
一方,前記主音響信号には,目的音以外の参照音の信号成分が比較的多く残存する場合もある。このように,前記主音響信号に目的音以外のノイズ音(参照音)の成分が含まれていても,前記スペクトル減算処理部31’により,前記主音響信号から前記目的音の信号成分を抽出した結果である前記目的音抽出信号(図6におけるYO)は,前記参照音分離信号の信号成分が除去された信号である。しかも,前記目的音抽出信号は,複数の方向から異なる雑音(参照音)が前記主マイクロホン101に到来する状況においても,それら複数の雑音それぞれに対応する前記参照音分離信号全ての信号成分が除去された信号である。
従って,目的音抽出装置Y3によれば,比較的強い特定の雑音が前記主マイクロホン101に到来する状況や,複数の方向から異なる雑音が前記主マイクロホン101に到来する状況においても,高い雑音除去性能を確保できる。
また,非線形処理である前記スペクトル減算処理のみでは,その出力信号(目的音の抽出信号)に非線形処理に特有のミュージカル雑音が生じやすいが,目的音抽出装置X3においては,前記音源分離処理部10による線形フィルタ処理が施された後の信号に基づいて前記スペクトル減算処理が行われるので,前記目的音抽出信号に耳障りなミュージカル雑音が含まれることを防止できる。特に,目的音及び雑音を含む音源の数が少数(3つ以下程度)の点音源である場合,音源分離処理が特に有効に雑音抽出に寄与し,ミュージカル雑音の抑制効果が高まる。
なお,FDICA方式の音源分離処理を実行する前記音源分離処理部10の処理結果である前記参照音分離信号,前記目的音分離信号及びそれらの合成信号,並びに,前記スペクトル減算処理や前記スペクトル近似信号抽出処理により得られる前記目的抽出信号は,いずれも周波数領域の音響信号である。このため,図1,3,5には図示されていないが,目的音抽出装置Y1,Y2,Y3は,さらに,IDFT処理部と音響出力処理部とを備えている。
前記IDFT処理部は,周波数領域の前記目的音抽出信号を時間領域の信号に変換する処理,即ち,逆離散フーリエ変換(IDFT)処理を施して所定のバッファメモリに出力する処理を実行する。
また,前記音響出力処理部は,前記IDFT処理部により得られた時間領域の目的音抽出信号を順次外部出力する(例えば,実時間で出力する)。
Next, the process of target sound extraction processing in the target sound extraction device X1 will be described with reference to FIG. For simplification of explanation, FIG. 6 shows an example in which there are two sub-acoustic signals (that is, there are two sub-microphones 102).
A plurality of the reference sound separation signals (Y B1 and Y B2 in FIG. 6) separated and generated by the sound source
On the other hand, there may be a case where a relatively large amount of the reference sound signal component other than the target sound remains in the main sound signal. As described above, even if the main sound signal includes a noise sound (reference sound) component other than the target sound, the spectrum
Therefore, according to the target sound extraction device Y3, high noise removal performance can be obtained even in a situation where a relatively strong specific noise arrives at the
Further, only the spectral subtraction process, which is a non-linear process, tends to generate musical noise peculiar to the non-linear process in its output signal (target sound extraction signal). However, in the target sound extraction apparatus X3, the sound source
The reference sound separation signal, the target sound separation signal and their combined signal, which are the processing results of the sound source
The IDFT processing unit executes a process of converting the target sound extraction signal in the frequency domain into a signal in the time domain, that is, a process of performing an inverse discrete Fourier transform (IDFT) process and outputting it to a predetermined buffer memory.
The sound output processing unit sequentially outputs the target sound extraction signal in the time domain obtained by the IDFT processing unit to the outside (for example, outputs in real time).
[目的音抽出性能の評価]
以下,図7〜図10を参照しつつ,以上に示した目的音抽出装置X1〜X3それぞれの目的音抽出性能の評価結果について説明する。
図7及び図8に,目的音抽出装置X1〜X3の目的音抽出性能を評価する第1の実験条件及び第2の実験条件を示す。
前記第1の実験条件は,指向性を有する前記主マイクロホン101の正面方向に目的音源が,指向性を有する前記副マイクロホン102それぞれの正面方向にその他のノイズ音源(参照音源)が存在するという理想状態に比較的近い条件である。
また,前記第2の実験条件は,指向性を有する前記主マイクロホン101の正面方向に目的音源が存在する一方,その他のノイズ音源(参照音源)が前記副マイクロホン102それぞれに必ずしも対応していないという実際の使用環境に比較的近い条件である。
前記第1の実験条件及び前記第2の実験条件それぞれの下での前記目的音抽出装置X1〜X3及び従来の目的音抽出装置の目的音抽出性能を,前記目的音抽出信号におけるNRR(Noise Reduction Rate)により表したものが図9及び図10である。図9及び図10において,前記目的音抽出装置X1〜X3それぞれを装置X1〜装置X3,従来の目的音抽出装置を従来装置と記している。なお,ここでいう従来の目的音抽出装置は,前記主音響信号から,前記副音響信号に基づく前記スペクトル減算処理によって目的音に対応する信号成分を抽出するものである。
図9及び図10からわかるように,実験条件にかかわらず,前記目的音抽出装置X1〜X3のいずれによっても,従来装置に比べて極めて高い目的音抽出性能が得られることがわかる。
また,前記目的音抽出装置X1〜X3の中では,特に,前記目的音抽出装置X1による目的音抽出性能が高く,それに続いて前記目的音抽出装置X3,前記目的音抽出装置X2の順で,高い目的音抽出性能が得られることがわかる。
このように,前記目的音抽出装置X1〜X3によれば,様々な音響環境の下において,従来よりも高い目的音抽出性能(雑音除去性能)を確保できる。
[Evaluation of target sound extraction performance]
Hereinafter, the evaluation results of the target sound extraction performance of each of the target sound extraction devices X1 to X3 described above will be described with reference to FIGS.
7 and 8 show the first experimental condition and the second experimental condition for evaluating the target sound extraction performance of the target sound extraction devices X1 to X3.
The first experimental condition is that the target sound source exists in the front direction of the
The second experimental condition is that the target sound source exists in the front direction of the
The target sound extraction performance of the target sound extraction devices X1 to X3 and the conventional target sound extraction device under each of the first experimental condition and the second experimental condition is expressed as NRR (Noise Reduction) in the target sound extraction signal. FIG. 9 and FIG. 10 show those expressed by (Rate). 9 and 10, the target sound extraction devices X1 to X3 are referred to as devices X1 to X3, and the conventional target sound extraction device is referred to as a conventional device. The conventional target sound extraction device here extracts a signal component corresponding to the target sound from the main sound signal by the spectral subtraction process based on the sub-acoustic signal.
As can be seen from FIGS. 9 and 10, regardless of the experimental conditions, any of the target sound extraction devices X1 to X3 can obtain extremely high target sound extraction performance as compared with the conventional device.
Among the target sound extraction devices X1 to X3, in particular, the target sound extraction performance by the target sound extraction device X1 is high, followed by the target sound extraction device X3 and the target sound extraction device X2. It can be seen that high target sound extraction performance can be obtained.
As described above, according to the target sound extraction devices X1 to X3, higher target sound extraction performance (noise removal performance) than the conventional one can be ensured under various acoustic environments.
[指向性の評価]
以下,図11及び図12を参照しつつ,前記目的音抽出装置X1の指向性の評価結果について説明する。
図11に,目的音抽出装置X1の指向性を評価する第3の実験条件を示す。この第3の実験条件は,目的音源を移動させることにより,前記主マイクロホン101の正面方向を基準としてどの程度の範囲まで目的音を抽出できるかを評価する実験条件である。
前記第3の実験条件の下での前記目的音抽出装置X1及び指向性を有する前記主マイクロホン101自体の指向特性,即ち,全360度方向からの音源に対するマイク感度(単位dB)を表したものが図12である。
[Evaluation of directivity]
The directivity evaluation results of the target sound extraction device X1 will be described below with reference to FIGS.
FIG. 11 shows a third experimental condition for evaluating the directivity of the target sound extraction device X1. This third experimental condition is an experimental condition for evaluating to what extent the target sound can be extracted by moving the target sound source with reference to the front direction of the
The directional characteristic of the target sound extraction device X1 and the directional
図12からわかるように,前記主マイクロホン101自体の指向性が非常に緩やかなものであるにもかかわらず,前記目的音抽出装置X1においては,前記主マイクロホン101の正面方向を中心としたごく狭い範囲で高いNRRが得られる一方で,目的音源がその範囲から外れると急激にNRRが低下する。
このように,前記主マイクロホン101自体の指向性が非常に緩やかなものであっても,前記目的音抽出装置X1としては非常に急峻な指向性を有する音響入力装置として機能する。
As can be seen from FIG. 12, although the directivity of the
Thus, even if the directivity of the
また,図12に示す結果において,前記主マイクロホン101の正面方向(指向範囲の中心方向)を中心(0°方向)として概ね+45°及び−45°の方向が,指向性の範囲の境界を形成する方向となっている。
一方,前記第3の実験条件において,それぞれ左右対称でほぼ同じ指向特性を有する前記主マイクロホン101及び前記副マイクロホン102が,前記主マイクロホン101の指向中心方向(0°)に対して2つの前記副マイクロホン102それぞれの指向中心方向が+90°及び−90°に設定されている。このことから,前記目的音抽出装置X1〜X3において,前記主マイクロホン101及び前記副マイクロホン102がそれぞれ左右対称でほぼ同じ指向特性を有する場合,指向性の範囲の境界を形成する方向が,前記主マイクロホン101の指向中心方向と,前記副マイクロホン102それぞれの指向中心方向との中間方向となることがわかる。
また,図12に示す例は,各マイクロホン101,102の指向方向が,同一平面内においてそれぞれ異なる方向に設定された場合の例であるが,それらが三次元的に異なる方向に設定した場合,指向性の範囲の境界を三次元的に所望の方向に設定できる。
例えば,ある一の平面内において前記主マイクロホン101の正面方向と2つの前記副マイクロホン102−1,102−2の正面方向とを0°方向及び±90°の方向に向け,もう1つの前記副マイクロホン102−3の正面方向を前記一の平面に直交する方向に向けること等も考えられる。これにより,前記目的音抽出装置X1の指向特性を三次元的に所望の特性に設定できる。
従って,前記目的音抽出装置X1に,前記主マイクロホン101の位置若しくは指向性の方向に対する前記副マイクロホン102の位置若しくは指向性の方向を調節する(近づけたり遠ざけたりする)ためのスイッチやダイヤル等の操作部を設けることにより,前記目的音抽出装置X1の指向性能を容易に調節することができ,利便性が高い。
また,以上に示した前記目的音抽出装置X1の指向性能は,前記目的音抽出装置X2及びX3も同様に有する。
Further, in the result shown in FIG. 12, directions of + 45 ° and −45 ° with the front direction (center direction of the directivity range) of the
On the other hand, in the third experimental condition, the
Further, the example shown in FIG. 12 is an example in which the directivity directions of the
For example, in a certain plane, the front direction of the
Therefore, the target sound extraction device X1 has a switch, a dial, etc. for adjusting the position or directivity direction of the
Further, the target sound extraction devices X2 and X3 have the directivity performance of the target sound extraction device X1 described above.
ところで,鋭い指向特性を実現する音響入力装置としては,例えば,マイクロホンアレイ及び遅延和型フィルタを備えた音響入力装置が知られている。しかしながら,そのような従来の音響入力装置において,図12に示すような鋭い指向性を実現するためには,マイクロホンアレイを構成するマイクロホンの数を増やし,かつそれらマイクロホンを数メートルに渡って配列しなければならず,人が簡単に運搬できないほどに装置が大型化してしまう。
一方,前記目的音抽出装置X1〜X3は,数センチメートルの間隔で配置された3〜5個程度のマイクロホンと,信号処理を行うDSPやASIC等のごく小型のプロセッサとを備えた小型の装置(一般的なハンディマイク程度の大きさの装置)により,図12に示すような鋭い指向性を実現できる。
By the way, as an acoustic input device that realizes a sharp directional characteristic, for example, an acoustic input device including a microphone array and a delay sum filter is known. However, in such a conventional acoustic input device, in order to realize the sharp directivity as shown in FIG. 12, the number of microphones constituting the microphone array is increased, and the microphones are arranged over several meters. The equipment becomes so large that it cannot be easily transported by people.
On the other hand, the target sound extraction devices X1 to X3 are small devices including about 3 to 5 microphones arranged at intervals of several centimeters and a very small processor such as a DSP or ASIC for performing signal processing. A sharp directivity as shown in FIG. 12 can be realized by (an apparatus having a size of a general handy microphone).
次に,図13に示すブロック図を参照しつつ,前記目的音抽出装置X1〜X3において,前記音響入力装置V1の代わりに採用可能な装置の一例である音響入力装置V2について説明する。
前記音響入力装置V1においては,前記主音響信号を得るための前記主マイクロホン101及び前記副音響信号を得るための複数の前記副マイクロホン102が予め定められていたが,前記音響入力装置V2は,複数のマイクロホンを備え,そのいずれを前記主マイクロホン101及び前記副マイクロホン102として機能させるかを状況に応じて切り替えるものである。
図13に示すように,前記音響入力装置V2は,3つ以上(図13では4つ)のマイクロホン100−1〜100−4と,主・副音響信号特定部41と,信号切替器42とを備えている。
3つ以上の前記マイクロホン100−1〜100−4は,それぞれ配置位置が異なる又はそれぞれ指向性の方向が異なるマイクロホンである。これらのマイクロホン100−1〜100−4は,状況に応じて,前記主マイクロホン101として機能したり,或いは前記副マイクロホン102として機能する。
例えば,前記マイクロホン100−1〜100−4は,それぞれ同じ指向性を有するマイクロホンであり,図13に示すように,所定の円周(中心PO)上にその円における放射線方向外側に向けて等間隔に(マイクロホン位置と円の中心POとを結んだときの中心角が等しくなるように)配置される。
Next, an acoustic input device V2 that is an example of a device that can be used in place of the acoustic input device V1 in the target sound extraction devices X1 to X3 will be described with reference to a block diagram shown in FIG.
In the sound input device V1, the
As shown in FIG. 13, the acoustic input device V2 includes three or more (four in FIG. 13) microphones 100-1 to 100-4, a main / sub acoustic
The three or more microphones 100-1 to 100-4 are microphones having different arrangement positions or different directivity directions. These microphones 100-1 to 100-4 function as the
For example, each of the microphones 100-1 to 100-4 is a microphone having the same directivity, and as shown in FIG. 13, on the predetermined circumference (center PO) toward the outside in the radiation direction in the circle, etc. They are arranged at intervals (so that the central angles when the microphone position and the center PO of the circle are connected are equal).
また,前記主・副音響信号特定部41は,3つ以上の前記マイクロホン100−1〜100−4それぞれを通じて得られる3つ以上の入力音響信号に基づいて,それら入力音響信号の中から1つの前記主音響信号と,複数の前記副音響信号とを特定する処理を実行するものである(前記主・副音響信号特定手段の一例)。さらに,前記主・副音響信号特定部41は,前記主音響信号及び前記副音響信号の特定結果に応じた制御信号を前記信号切替器42に対して出力する。
前記主・副音響信号特定部41は,例えば,3つ以上の前記入力音響信号それぞれの信号強度(音圧)を比較し,その信号強度が最大である入力音響信号を前記主音響信号として特定し,その他の入力音響信号の全て又はその一部(2つ以上)を前記副音響信号として特定する。前記その他の入力音響信号のうちの一部を前記副音響信号として特定する方法としては,例えば,前記主音響信号を得るマイクロホンに対し,配置位置又は指向方向が両側それぞれに隣接する2つのマイクロホンを通じて得られる音響信号を前記副音響信号として特定すること等が考えられる。
また,前記主・副音響信号特定部41が,3つ以上の前記入力音響信号それぞれにおける予め定められた周波数成分の占める割合を比較し,その割合が最大であるものを前記主音響信号として特定し,その他の入力音響信号の全て又はその一部(2つ以上)を前記副音響信号として特定すること等も考えられる。これは,前記目的音源が発する音響の周波数特性がある程度既知である場合等に有効である。
前記主・副音響信号特定部41は,例えばコンピュータの一例であるDSP及びそのDSPにより実行されるプログラムが記憶されたROM,或いはASIC等により具現化される。この場合,そのROMには,前記主・副音響信号特定部41が行う処理(後述)を前記DSPに実行させるためのプログラムが予め記憶されている。
The main / sub-acoustic
The main / sub-acoustic
Further, the main / sub-acoustic
The main / sub-acoustic
また,前記信号切替器42は,前記主・副音響信号特定部41から出力される制御信号(信号の特定結果に応じた信号)に従って,3つ以上の前記マイクロホン100−1〜100−4から前記音源分離処理部10への音響信号の伝送経路を切り替える装置である(前記信号経路切替手段の一例)。
前記信号切替器42は,前記マイクロホン100−1〜100−4それぞれに接続される信号入力端In1〜In4と,前記主音響信号の出力用の1つの信号出力端Ot1と,前記副音響信号の出力用の複数(図13では3つ)の信号出力端Ot2〜Ot4とを備えている。さらに,前記信号切替器42は,前記主・副音響信号特定部41から出力される制御信号に応じて,各信号入力端In1〜In4と各信号出力端Ot1〜Ot4とを接続する信号経路を,予め定められた複数の切替パターンの中から選択的に切り替える。これにより,前記主・副音響信号特定部41によって前記主音響信号として特定された音響信号が前記出力端Ot1から出力され,前記主・副音響信号特定部41によって前記副音響信号として特定された音響信号が前記出力端Ot2〜Ot4から出力される。
前記目的音抽出装置X1〜X3は,図13に示すような音響入力装置V2を備えることにより,目的音源の位置が変わり得るために,複数のマイクロホンのうちの予め定められた1つを前記主マイクロホン101として固定できない対象に対しても適用可能となる。
Further, the
The
Since the target sound extraction devices X1 to X3 include a sound input device V2 as shown in FIG. 13, the position of the target sound source can be changed, so that a predetermined one of a plurality of microphones is selected as the main sound source. It can also be applied to a target that cannot be fixed as the
次に,図15〜図18に示すタイムチャートを参照しつつ,前記音源分離処理部10が前記FDICA方式に基づく音源分離処理を行う場合について,その音源分離処理のシーケンスについて説明する。なお,前述したように,前記FDICA方式に基づく音源分離処理は,独立成分分析法に基づくブラインド音源分離方式による音源分離処理の一例である。なお,以下の説明において,前記目的音抽出装置X1における前記目的音分離信号合成処理部20及び前記スペクトル減算処理部31の処理と,前記目的音抽出装置X2における前記スペクトル近似信号抽出処理部32の処理と,前記目的音抽出装置X3における前記スペクトル減算処理部31’の処理とを総称してポスト処理という。
前記FDICA方式に基づく音源分離処理では,複数のマイクロホン(目的音抽出装置X1〜X3における前記主マイクロホン101及び前記副マイクロホン102)を通じて時系列に入力される音響信号(以下,入力音響信号という)に対し,これを周波数領域の信号に変換した上で,分離行列W(f)に基づくフィルタ処理(行列演算)を順次実行して分離信号(前記参照音分離信号や前記目的音分離信号)を生成する処理が実行される。ここで,前記入力音響信号は,図14における前記混合音声信号x1(t),x2(t)に相当し,図1,図3及び図5における前記主音響信号及び前記副音響信号に相当する。
また,前述したように,前記フィルタ処理は,所定時間長分のフレーム信号(例えば,前記混合音声信号が数十ms〜数百ms程度の周期で区分された信号)ごとに行われる。このフィルタ処理は,演算負荷の小さな処理であり,実用的なプロセッサによって前記ポスト処理と併せて実行されても,比較的余裕をもってリアルタイムでの処理を実現できる。
さらに,前述したように,前記FDICA方式に基づく音源分離処理では,時系列に入力される前記入力音響信号を用いて,前記フィルタ処理に用いる前記分離行列W(f)を求める学習計算(逐次計算)も行われる。この学習計算は,演算負荷が大きく,一般に,リアルタイム処理に適さない。
Next, with reference to the time charts shown in FIGS. 15 to 18, a description will be given of a sequence of the sound source separation processing when the sound source
In the sound source separation processing based on the FDICA method, sound signals (hereinafter referred to as input sound signals) input in time series through a plurality of microphones (the
Further, as described above, the filtering process is performed for each frame signal of a predetermined time length (for example, a signal obtained by dividing the mixed audio signal with a period of about several tens of ms to several hundreds of ms). This filter process is a process with a small calculation load, and even if it is executed together with the post process by a practical processor, it is possible to realize a real-time process with a relatively large margin.
Further, as described above, in the sound source separation processing based on the FDICA method, learning calculation (sequential calculation) for obtaining the separation matrix W (f) used for the filter processing is performed using the input acoustic signals input in time series. ) Is also performed. This learning calculation is computationally intensive and is generally not suitable for real-time processing.
図15は,目的音抽出装置X1〜X3における前記学習計算を除く処理のシーケンスの第1例を表すタイムチャートである。なお,以下に示すSt1,St2,…は,処理手順(ステップ)の識別符号を表す。
図15に示すように,目的音抽出装置X1〜X3においては,前記音源分離処理部10が,前記入力音響信号について,所定時間長分のフレーム信号{Frame(i−1),Frame(i),Frame(i+1)…}ごとに,離散フーリエ変換(DFT)処理(St1)を施し,その処理結果である周波数領域のフレーム信号をメモリに一時記憶させる。この第1例では,前記音源分離処理部10は,離散フーリエ変換処理(St1)を,前記フレーム信号の時間長と同じ周期で実行する。これにより,連続する2つのフレーム信号は,時間帯の重複のない信号となる。
さらに,前記音源分離処理部10は,DFT処理により得られる周波数領域のフレーム信号ごとに,分離行列W(f)に基づくフィルタ処理(St2:行列演算)を順次実行して分離信号を生成する。
次に,他の処理部(前記目的音分離信号合成処理部20及び前記スペクトル減算処理部31,又は前記スペクトル近似信号抽出処理部32,又は前記スペクトル減算処理部31’)が,前記フィルタ処理(St2)により得られた分離信号に基づいて前記ポスト処理(St3)を実行する。これにより,前記入力音響信号における前記フレーム信号それぞれに対応する周波数領域の前記目的音抽出信号が得られる。
さらに,前記IDFT処理部(不図示)が,逆離散フーリエ変換(IDFT)処理(St4)を実行して周波数領域の前記目的音抽出信号を時間領域の信号に変換し,前記音響出力処理部が,時間領域の目的音抽出信号(出力音響信号)を順次外部出力する(St5)。
以上に示したステップSt1〜St4の処理は,演算負荷の小さな処理であり,実用的なプロセッサによって実行されても,比較的余裕をもって前記フレーム信号の時間長の範囲内で処理を完了できる。従って,前記出力音響信号は,前記入力音響信号に対して若干の遅延時間td(数十ms〜数百ms未満)が生じるものの,前記入力音響信号の入力に応じて実時間で出力される音響信号となる。
FIG. 15 is a time chart showing a first example of a processing sequence excluding the learning calculation in the target sound extraction devices X1 to X3. St1, St2,... Shown below represent identification codes of processing procedures (steps).
As shown in FIG. 15, in the target sound extraction devices X1 to X3, the sound source
Further, the sound source
Next, another processing unit (the target sound separation signal
Further, the IDFT processing unit (not shown) executes an inverse discrete Fourier transform (IDFT) process (St4) to convert the target sound extraction signal in the frequency domain into a time domain signal, and the sound output processing unit The target sound extraction signal (output acoustic signal) in the time domain is sequentially output to the outside (St5).
The processing of steps St1 to St4 described above is processing with a small calculation load, and even if executed by a practical processor, the processing can be completed within a range of the time length of the frame signal with a comparative margin. Therefore, although the output sound signal has a slight delay time td (several tens of ms to less than several hundred ms) with respect to the input sound signal, the sound output in real time according to the input sound signal is input. Signal.
また,図16は,目的音抽出装置X1〜X3における前記学習計算を除く処理のシーケンスの第2例を表すタイムチャートである。
図16に示す例においても,前記音源分離処理部10が,前記入力音響信号について,前記フレーム信号{Frame(i−1),Frame(i),Frame(i+1)…}ごとに,離散フーリエ変換(DFT)処理(St1)を施し,その処理結果である周波数領域のフレーム信号をメモリに一時記憶させる。但し,この第2例では,前記音源分離処理部10は,離散フーリエ変換処理(St1)を,前記フレーム信号の時間長よりも短い周期で実行する。これにより,連続する2つのフレーム信号は,一部の時間帯が重複する信号となる。
さらに,前記音源分離処理部10は,DFT処理により得られる周波数領域のフレーム信号ごとに,分離行列W(f)に基づくフィルタ処理(St2:行列演算)を順次実行して分離信号を生成する。その際,前記音源分離処理部10が生成する連続する2フレーム分の分離信号も,一部の時間帯(図16において波線の円内の時間帯)が重複する信号となる。そのため,前記音源分離処理部10は,連続する2フレーム分の分離信号における重複する時間帯の部分について合成処理(加重平均処理等)を施すことにより,出力する分離信号を生成する。
次に,前記第1例(図15)と同様に,他の処理部が,前記フィルタ処理(St2)により得られた分離信号に基づいて前記ポスト処理(St3)を実行する。
さらに,前記第1例(図15)と同様に,前記IDFT処理部(不図示)が,逆離散フーリエ変換(IDFT)処理(St4)を実行して周波数領域の前記目的音抽出信号を時間領域の信号に変換し,前記音響出力処理部が,時間領域の目的音抽出信号(出力音響信号)を順次外部出力する(St5)。
以上に示した第2例の処理においても,前記出力音響信号は,前記入力音響信号に対して若干の遅延時間td(数十ms〜数百ms未満)が生じるものの,前記入力音響信号の入力に応じて実時間で出力される音響信号となる。
FIG. 16 is a time chart showing a second example of a processing sequence excluding the learning calculation in the target sound extraction devices X1 to X3.
Also in the example shown in FIG. 16, the sound source
Further, the sound source
Next, as in the first example (FIG. 15), another processing unit executes the post processing (St3) based on the separated signal obtained by the filter processing (St2).
Further, as in the first example (FIG. 15), the IDFT processing unit (not shown) executes an inverse discrete Fourier transform (IDFT) process (St4) to convert the target sound extraction signal in the frequency domain into the time domain. The sound output processing unit sequentially outputs the target sound extraction signal (output sound signal) in the time domain to the outside (St5).
Also in the processing of the second example described above, the output acoustic signal has a slight delay time td (several tens of ms to less than several hundred ms) with respect to the input acoustic signal, but the input acoustic signal is input. The acoustic signal is output in real time according to
一方,前記FDICA方式に基づく音源分離処理における前記学習計算は,連続する複数の前記フレーム信号が入力されるごとに,その複数のフレーム信号を用いた逐次計算によって新たな前記分離行列W(f)(以降の前記フィルタ処理に用いられる分離行列)を算出する処理であり,図5に示した各処理(St1〜St5)と並行して実行される。このようにして新たに算出された分離行列W(f)は,以降に実行される前記フィルタ処理に用いられる。
以下,前記学習計算において新たな分離行列W(f)を算出するごとに用いられる予め定められた数(複数)の連続する前記フレーム信号の集合のことを,以下,メタフレーム信号という。このメタフレーム信号は,時系列に入力される前記入力音響信号における予め定められた周期で区分された信号(前記区間信号に相当)であり,直接的には,周波数領域の信号に変換された(逆離散フーリエ変換処理が施された)メタフレーム信号が前記学習計算に用いられる。前記フレーム信号の時間長(信号区分の周期)が数十ミリ秒〜数百ミリ秒であるのに対し,前記メタフレーム信号の時間長(信号区分の周期)は,処理を実行するプロセッサの能力にもよるが,音響環境の変化への適応時間として許容される時間(例えば,数秒程度)である。
On the other hand, the learning calculation in the sound source separation processing based on the FDICA method is performed every time a plurality of continuous frame signals are input, and a new separation matrix W (f) is obtained by sequential calculation using the plurality of frame signals. This is a process for calculating (separation matrix used in the subsequent filter process), and is executed in parallel with each process (St1 to St5) shown in FIG. The newly calculated separation matrix W (f) is used for the filter processing to be executed later.
Hereinafter, a set of a predetermined number (several) consecutive frame signals used every time a new separation matrix W (f) is calculated in the learning calculation is hereinafter referred to as a metaframe signal. This metaframe signal is a signal (corresponding to the section signal) divided in a predetermined cycle in the input acoustic signal input in time series, and is directly converted to a frequency domain signal. A metaframe signal (which has been subjected to inverse discrete Fourier transform processing) is used for the learning calculation. Whereas the time length of the frame signal (period of signal division) is several tens of milliseconds to several hundred milliseconds, the time length of the metaframe signal (period of signal division) is the ability of the processor to execute processing. Although it depends, it is the time (for example, about several seconds) allowed as the adaptation time to the change of the acoustic environment.
図17は,前記FDICA方式に基づく音源分離処理を行う前記音源分離処理部10が実行する前記学習計算の第1実施例のタイムチャートである。
図17に示す前記学習計算(逐次計算)の例(第1実施例)は,前記メタフレーム信号{Mframe(1),Mframe(2),Mframe(3),…}ごとに,そのメタフレーム信号全てを用いて以降の前記フィルタ処理に用いる前記分離行列W(f)を求める場合の例である。但し,この場合,学習計算における逐次計算の回数が,予め定められた上限回数以下となるように(その上限回数に至れば逐次計算を完了させるように)制限されている。
図17に示す第1実施例の学習計算では,時刻Ti〜Ti+1の期間(周期:Ti+1−Ti)に入力された前記入力音響信号に相当する前記メタフレーム信号Mframe(i)の全てを用いて分離行列W(f)の計算(学習)を行う。そして,以降の前記フィルタ処理により用いられる分離行列W(f)が,前記学習計算により求められた新たな分離行列W(f)に更新される。このとき,ある前記メタフレーム信号Mframe(i)を用いて計算(学習)された分離行列W(f)を,次の前記メタフレーム信号Mframe(i+1)を用いて分離行列W(f)を計算(逐次計算)する際の初期値(初期分離行列)として用いれば(初期行列の引き継ぎ),逐次計算(学習)の収束が早まり好適である。
ここで,演算負荷の高い前記学習計算を特に制限無しで実行した場合,前記メタフレーム信号ごとの学習計算の時間tsが,前記メタフレーム信号の時間長(Ti+1−Ti)より大きくなり,音響環境の変化への速やかな適応が困難になる事態が生じる。
そこで,前記メタフレーム信号ごとの学習計算の時間tsが,前記メタフレーム信号の時間長(Ti+1−Ti)よりも常に短くなるように,前記学習計算における逐次計算回数を前記上限回数で制限すれば,音響環境の変化への速やかな適応が可能となる。
また,このような逐次計算回数の制限(学習計算の簡素化)より,前記音源分離処理により得られる分離信号に多少のノイズが含まれることとなっても,前記音源分離処理と前記ポスト処理(スペクトル減算処理やスペクトル近似信号抽出処理)との組合せにより,全体として目的音の抽出性能を十分に確保できる。
なお,前記目的音抽出装置X1〜X3の処理の開始時(装置の電源ON時)の最初の前記フィルタ処理においては,例えば,予め用意された初期行列や,前回の処理終了時(装置の電源OFF時)にメモリに記憶させておいた分離行列等を前記分離行列として用いることが考えられる。
また,前記上限回数は,本処理を実行するプロセッサ(DSPやASIC等)の能力に応じて,予め実験や計算により定められる。
FIG. 17 is a time chart of the first embodiment of the learning calculation executed by the sound source
The example (first embodiment) of the learning calculation (sequential calculation) shown in FIG. 17 is that each metaframe signal {Mframe (1), Mframe (2), Mframe (3),. This is an example in which the separation matrix W (f) used for the subsequent filter processing is obtained using all of them. However, in this case, the number of sequential calculations in the learning calculation is limited to be equal to or less than a predetermined upper limit number (so that the sequential calculation is completed when the upper limit number is reached).
In the learning calculation of the first embodiment shown in FIG. 17, the metaframe signal Mframe (i) corresponding to the input acoustic signal input during the period of time Ti to Ti + 1 (period: Ti + 1−Ti). All are used to calculate (learn) the separation matrix W (f). Then, the separation matrix W (f) used in the subsequent filtering process is updated to a new separation matrix W (f) obtained by the learning calculation. At this time, the separation matrix W (f) calculated (learned) using a certain metaframe signal Mframe (i) is used as the separation matrix W (f) using the next metaframe signal Mframe (i + 1). Is used as the initial value (initial separation matrix) when calculating (sequential calculation) (inheritance of the initial matrix), it is preferable that convergence of the sequential calculation (learning) is accelerated.
Here, when the learning calculation with a high calculation load is executed without particular limitation, the learning calculation time ts for each metaframe signal becomes larger than the time length (Ti + 1−Ti) of the metaframe signal, A situation occurs in which it is difficult to quickly adapt to changes in the acoustic environment.
Therefore, the number of sequential calculations in the learning calculation is limited by the upper limit number so that the learning calculation time ts for each metaframe signal is always shorter than the time length (Ti + 1−Ti) of the metaframe signal. This will enable quick adaptation to changes in the acoustic environment.
In addition, due to the limitation of the number of times of sequential calculation (simplification of learning calculation), even if some noise is included in the separated signal obtained by the sound source separation process, the sound source separation process and the post process ( By combining with the spectral subtraction processing and spectral approximate signal extraction processing), the target sound extraction performance can be sufficiently secured as a whole.
In the first filter processing at the start of the processing of the target sound extraction devices X1 to X3 (when the device is turned on), for example, an initial matrix prepared in advance or at the end of the previous processing (the power of the device) It is conceivable to use a separation matrix or the like stored in the memory at the time of OFF) as the separation matrix.
In addition, the upper limit number of times is determined in advance by experiments or calculations in accordance with the ability of a processor (DSP, ASIC, etc.) that executes this processing.
図18は,前記FDICA方式に基づく音源分離処理を行う前記音源分離処理部10が実行する前記学習計算の第2実施例のタイムチャートである。
図18に示す前記学習計算(逐次計算)の例(第2実施例)は,前記メタフレーム信号{Mframe(1),Mframe(2),Mframe(3),…}の先頭側の一部の時間帯の信号ごとに,その一部の時間帯の信号を用いて以降の前記フィルタ処理に用いる前記分離行列W(f)を求める場合の例である。
図17に示す第2実施例の学習計算では,時刻Ti〜Ti+1の期間(周期:Ti+1−Ti)に入力された前記入力音響信号に相当する前記メタフレーム信号Mframe(i)の先頭側の一部を用いて分離行列W(f)の計算(学習)を行う。そして,以降の前記フィルタ処理により用いられる分離行列W(f)が,前記学習計算により求められた新たな分離行列W(f)に更新される。このときも,ある前記メタフレーム信号Mframe(i)の一部を用いて計算(学習)された分離行列W(f)を,次の前記メタフレーム信号Mframe(i+1)の一部を用いて分離行列W(f)を計算(逐次計算)する際の初期値(初期分離行列)として用いれば(初期行列の引き継ぎ),逐次計算(学習)の収束が早まり好適である。
この第2実施例では,前記メタフレーム信号ごとの学習計算の時間tsが,前記メタフレーム信号の時間長(Ti+1−Ti)よりも常に短くなるように,前記メタフレーム信号の一部を間引いて前記学習計算に用いることにより,音響環境の変化への速やかな適応が可能となる。
また,このような学習計算に用いる信号の間引き(学習計算の簡素化)により,前記音源分離処理により得られる分離信号に多少のノイズが含まれることとなっても,前記音源分離処理と前記ポスト処理(スペクトル減算処理やスペクトル近似信号抽出処理)との組合せにより,全体として目的音の抽出性能を十分に確保できる。
なお,前記メタフレーム信号における前記学習計算に用いる部分の時間長(ディジタル信号のサンプル数)は,本処理を実行するプロセッサ(DSPやASIC等)の能力に応じて,予め実験や計算により定められる。
FIG. 18 is a time chart of the second embodiment of the learning calculation executed by the sound source
The learning calculation (sequential calculation) example (second embodiment) shown in FIG. 18 is a part of the top side of the metaframe signal {Mframe (1), Mframe (2), Mframe (3),. This is an example of obtaining the separation matrix W (f) used for the subsequent filter processing by using a part of the time zone signals for each time zone signal.
In the learning calculation of the second embodiment shown in FIG. 17, the metaframe signal Mframe (i) corresponding to the input acoustic signal input during the period of time Ti to Ti + 1 (period: Ti + 1−Ti). The separation matrix W (f) is calculated (learned) using a part of the head side. Then, the separation matrix W (f) used in the subsequent filtering process is updated to a new separation matrix W (f) obtained by the learning calculation. Also at this time, a separation matrix W (f) calculated (learned) using a part of a certain metaframe signal Mframe (i) is used as a part of the next metaframe signal Mframe (i + 1). If the separation matrix W (f) is used as an initial value (initial separation matrix) when calculating (sequential calculation) (inheritance of the initial matrix), the convergence of the sequential calculation (learning) is accelerated.
In the second embodiment, a part of the metaframe signal is set so that the learning calculation time ts for each metaframe signal is always shorter than the time length (Ti + 1−Ti) of the metaframe signal. By thinning and using for the learning calculation, it is possible to quickly adapt to changes in the acoustic environment.
In addition, even if some noise is included in the separated signal obtained by the sound source separation processing due to the thinning of the signals used for the learning calculation (simplification of the learning calculation), the sound source separation processing and the post processing are performed. By combining with processing (spectral subtraction processing and spectral approximate signal extraction processing), it is possible to ensure sufficient target sound extraction performance as a whole.
Note that the time length (number of digital signal samples) used for the learning calculation in the metaframe signal is determined in advance by experiment or calculation according to the ability of the processor (DSP, ASIC, etc.) that executes this processing. .
本発明は,目的音成分と雑音成分とを含む音響信号から目的音に相当する音響信号を抽出して出力する目的音抽出装置に利用可能である。 The present invention is applicable to a target sound extraction apparatus that extracts and outputs an acoustic signal corresponding to a target sound from an acoustic signal including the target sound component and a noise component.
X1:第1発明の実施形態に係る目的音抽出装置
X2:第2発明の実施形態に係る目的音抽出装置
X3:第3発明の実施形態に係る目的音抽出装置
V1,V2:音響入力装置
10(10−1〜10−3):音源分離処理部
20:目的音分離信号合成処理部
31,31’:スペクトル減算処理部
32:スペクトル近似信号抽出処理部
41:主・副音響信号特定部
42:信号切替器
101:主マイクロホン
102:副マイクロホン
X1: target sound extraction device X2 according to the embodiment of the first invention X2: target sound extraction device X3 according to the embodiment of the second invention X: target sound extraction devices V1, V2 according to the embodiment of the third invention: sound input device 10 (10-1 to 10-3): sound source separation processing unit 20: target sound separation signal
Claims (7)
前記主音響信号と前記複数の副音響信号それぞれとからなる2つの音響信号の組合せそれぞれについて個別に設けられ,当該2つの音響信号に基づいて,前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する参照音分離信号とを独立成分分析法に基づくブラインド音源分離方式による音源分離処理によって分離生成する音源分離手段と,
前記音源分離手段により分離生成された複数の前記目的音分離信号を合成する目的音分離信号合成手段と,
前記目的音分離信号合成手段により得られた合成信号と前記音源分離手段により分離生成された複数の前記参照音分離信号との間でスペクトル減算処理を行うことにより,前記目的音分離信号合成手段により得られた合成信号から前記目的音に相当する音響信号を抽出して抽出信号を出力するスペクトル減算処理手段と,
を具備してなることを特徴とする目的音抽出装置。 And one of the main sound signal obtained through one of the primary microphone mainly enter the target sound to be outputted from a predetermined target source, a plurality of sub microphones each having directivity in a plurality of different directions from the front Kinushi microphone A target sound extraction device that extracts an acoustic signal corresponding to the target sound and outputs an extraction signal based on a plurality of sub-acoustic signals obtained through
Provided individually for each combination of the two acoustic signals consisting of each of the main acoustic signal and the plurality of sub-acoustic signal, based on the two acoustic signals, wherein the objective sound separation signals corresponding to the target sound object Sound source separation means for separating and generating a reference sound separation signal corresponding to a reference sound other than sound by sound source separation processing by a blind sound source separation method based on an independent component analysis method ;
Target sound separation signal synthesis means for synthesizing a plurality of target sound separation signals separated and generated by the sound source separation means;
Spectral subtraction processing is performed between the synthesized signal obtained by the target sound separation signal synthesizing means and the plurality of reference sound separation signals separated and generated by the sound source separation means, thereby the target sound separation signal synthesizing means. Spectral subtraction processing means for extracting an acoustic signal corresponding to the target sound from the obtained synthesized signal and outputting the extracted signal;
A target sound extraction apparatus comprising:
前記主・副音響信号特定手段による特定結果に従って,前記3つ以上のマイクロホンから前記音源分離手段への音響信号の伝送経路を切り替える信号経路切替手段と,
を具備してなる請求項1〜3のいずれかに記載の目的音抽出装置。 Three or more, based on the input audio signal their Re respective directivity direction is obtained through different three or more microphones, one of the main acoustic signal and a plurality of the out of the three or more input audio signals Main / sub-acoustic signal specifying means for specifying sub-acoustic signals;
Signal path switching means for switching the transmission path of the acoustic signal from the three or more microphones to the sound source separation means according to the identification result by the main / sub acoustic signal identification means;
Target sound extraction apparatus according to any one of claims 1 to 3 and comprising comprises a.
コンピュータに,
前記主音響信号と前記複数の副音響信号それぞれとからなる2つの音響信号の組合せそれぞれについて個別に,当該2つの音響信号に基づいて,前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する参照音分離信号とを独立成分分析法に基づくブラインド音源分離方式の処理により分離生成する音源分離処理と,
前記音源分離処理により分離生成された複数の前記目的音分離信号を合成する目的音分離信号合成処理と,
前記目的音分離信号合成処理により得られた合成信号と前記音源分離処理により分離生成された複数の前記参照音分離信号との間でスペクトル減算処理を行うことにより,前記目的音分離信号合成処理により得られた合成信号から前記目的音に相当する音響信号を抽出して抽出信号を出力する処理と,
を実行させてなることを特徴とする目的音抽出プログラム。 And one of the main sound signal obtained through one of the primary microphone mainly enter the target sound to be outputted from a predetermined target source, a plurality of sub microphones each having directivity in a plurality of different directions from the front Kinushi microphone A target sound extraction program for causing a computer to execute a process of extracting an acoustic signal corresponding to the target sound and outputting the extracted signal based on a plurality of sub-acoustic signals obtained through
Computer
Individually for each combination of the two acoustic signals consisting of each of the main acoustic signal and the plurality of sub-acoustic signal, based on the two acoustic signals, target sound separation signal corresponding to the target sound and other than the target sound A sound source separation process for separating and generating a reference sound separation signal corresponding to the reference sound of the sound by a blind sound source separation method based on an independent component analysis method ;
A target sound separation signal synthesis process for synthesizing a plurality of target sound separation signals separated and generated by the sound source separation process;
By performing spectral subtraction processing between the synthesized signal obtained by the target sound separation signal synthesis processing and the plurality of reference sound separation signals separated and generated by the sound source separation processing, the target sound separation signal synthesis processing is performed. A process of extracting an acoustic signal corresponding to the target sound from the resultant synthesized signal and outputting an extracted signal;
The target sound extraction program characterized by running.
コンピュータにより,
前記主音響信号と前記複数の副音響信号それぞれとからなる2つの音響信号の組合せそれぞれについて個別に,当該2つの音響信号に基づいて,前記目的音に対応する目的音分離信号と前記目的音以外の参照音に対応する参照音分離信号とを独立成分分析法に基づくブラインド音源分離方式の処理により分離生成する音源分離処理と,
前記音源分離処理により分離生成された複数の前記目的音分離信号を合成する目的音分離信号合成処理と,
前記目的音分離信号合成処理により得られた合成信号と前記音源分離処理により分離生成された複数の前記参照音分離信号との間でスペクトル減算処理を行うことにより,前記目的音分離信号合成処理により得られた合成信号から前記目的音に相当する音響信号を抽出して抽出信号を出力する処理と,
を実行してなることを特徴とする目的音抽出方法。 And one of the main sound signal obtained through one of the primary microphone mainly enter the target sound to be outputted from a predetermined target source, a plurality of sub microphones each having directivity in a plurality of different directions from the front Kinushi microphone A target sound extraction method in which a computer executes a process of extracting an acoustic signal corresponding to the target sound and outputting the extracted signal based on a plurality of sub-acoustic signals obtained through
By computer
Individually for each combination of the two acoustic signals consisting of each of the main acoustic signal and the plurality of sub-acoustic signal, based on the two acoustic signals, target sound separation signal corresponding to the target sound and other than the target sound A sound source separation process for separating and generating a reference sound separation signal corresponding to the reference sound of the sound by a blind sound source separation method based on an independent component analysis method ;
A target sound separation signal synthesis process for synthesizing a plurality of target sound separation signals separated and generated by the sound source separation process;
By performing spectral subtraction processing between the synthesized signal obtained by the target sound separation signal synthesis processing and the plurality of reference sound separation signals separated and generated by the sound source separation processing, the target sound separation signal synthesis processing is performed. A process of extracting an acoustic signal corresponding to the target sound from the resultant synthesized signal and outputting an extracted signal;
The target sound extraction method characterized by performing.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007325036A JP4519900B2 (en) | 2007-04-26 | 2007-12-17 | Objective sound extraction device, objective sound extraction program, objective sound extraction method |
US12/078,839 US20080267423A1 (en) | 2007-04-26 | 2008-04-07 | Object sound extraction apparatus and object sound extraction method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007116519 | 2007-04-26 | ||
JP2007325036A JP4519900B2 (en) | 2007-04-26 | 2007-12-17 | Objective sound extraction device, objective sound extraction program, objective sound extraction method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008295010A JP2008295010A (en) | 2008-12-04 |
JP4519900B2 true JP4519900B2 (en) | 2010-08-04 |
Family
ID=40169250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007325036A Expired - Fee Related JP4519900B2 (en) | 2007-04-26 | 2007-12-17 | Objective sound extraction device, objective sound extraction program, objective sound extraction method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4519900B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017138254A (en) | 2016-02-05 | 2017-08-10 | 国立研究開発法人海洋研究開発機構 | System and method for estimating resources |
JP6675693B2 (en) * | 2019-03-22 | 2020-04-01 | 国立研究開発法人海洋研究開発機構 | Resource estimation system and resource estimation method |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04167698A (en) * | 1990-10-29 | 1992-06-15 | Purimo:Kk | Directional microphone following up objective sound source |
JP2000047699A (en) * | 1998-07-31 | 2000-02-18 | Toshiba Corp | Noise suppressing processor and method therefor |
JP2005077731A (en) * | 2003-08-29 | 2005-03-24 | Univ Waseda | Sound source separating method and system therefor, and speech recognizing method and system therefor |
JP2005234246A (en) * | 2004-02-19 | 2005-09-02 | Univ Waseda | Sound source separating method and system therefor |
JP2007033825A (en) * | 2005-07-26 | 2007-02-08 | Kobe Steel Ltd | Device, program, and method for sound source separation |
JP2007034238A (en) * | 2005-07-29 | 2007-02-08 | Kobe Steel Ltd | On-site operation support system |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101238511B (en) * | 2005-08-11 | 2011-09-07 | 旭化成株式会社 | Sound source separating device, speech recognizing device, portable telephone, and sound source separating method, and program |
-
2007
- 2007-12-17 JP JP2007325036A patent/JP4519900B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04167698A (en) * | 1990-10-29 | 1992-06-15 | Purimo:Kk | Directional microphone following up objective sound source |
JP2000047699A (en) * | 1998-07-31 | 2000-02-18 | Toshiba Corp | Noise suppressing processor and method therefor |
JP2005077731A (en) * | 2003-08-29 | 2005-03-24 | Univ Waseda | Sound source separating method and system therefor, and speech recognizing method and system therefor |
JP2005234246A (en) * | 2004-02-19 | 2005-09-02 | Univ Waseda | Sound source separating method and system therefor |
JP2007033825A (en) * | 2005-07-26 | 2007-02-08 | Kobe Steel Ltd | Device, program, and method for sound source separation |
JP2007034238A (en) * | 2005-07-29 | 2007-02-08 | Kobe Steel Ltd | On-site operation support system |
Also Published As
Publication number | Publication date |
---|---|
JP2008295010A (en) | 2008-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4897519B2 (en) | Sound source separation device, sound source separation program, and sound source separation method | |
JP4675177B2 (en) | Sound source separation device, sound source separation program, and sound source separation method | |
JP4496186B2 (en) | Sound source separation device, sound source separation program, and sound source separation method | |
EP3655949B1 (en) | Acoustic source separation systems | |
KR101670313B1 (en) | Signal separation system and method for selecting threshold to separate sound source | |
EP2306457B1 (en) | Automatic sound recognition based on binary time frequency units | |
JP4519901B2 (en) | Objective sound extraction device, objective sound extraction program, objective sound extraction method | |
CN101964192B (en) | Sound processing device, and sound processing method | |
JP2008236077A (en) | Target sound extracting apparatus, target sound extracting program | |
KR20130116299A (en) | Apparatus and method for spatially selective sound acquisition by acoustic triangulation | |
KR20090037692A (en) | Method and apparatus for extracting the target sound signal from the mixed sound | |
CN101828335A (en) | Robust two microphone noise suppression system | |
US11978471B2 (en) | Signal processing apparatus, learning apparatus, signal processing method, learning method and program | |
JP4336378B2 (en) | Objective sound extraction device, objective sound extraction program, objective sound extraction method | |
JP4462617B2 (en) | Sound source separation device, sound source separation program, and sound source separation method | |
US20080267423A1 (en) | Object sound extraction apparatus and object sound extraction method | |
JP4493690B2 (en) | Objective sound extraction device, objective sound extraction program, objective sound extraction method | |
AU2020316738B2 (en) | Speech-tracking listening device | |
JP4519900B2 (en) | Objective sound extraction device, objective sound extraction program, objective sound extraction method | |
KR102313958B1 (en) | Method and apparatus for reducing noise of mixed signal | |
JP2010152107A (en) | Device and program for extraction of target sound | |
JP6524463B2 (en) | Automatic mixing device and program | |
JP2005091560A (en) | Method and apparatus for signal separation | |
JP5251473B2 (en) | Audio processing apparatus and audio processing method | |
JP2017211637A (en) | Acoustic signal processing device, acoustic signal processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090414 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090612 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100511 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100519 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130528 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |