JP2006180392A - 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体 - Google Patents

音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体 Download PDF

Info

Publication number
JP2006180392A
JP2006180392A JP2004373809A JP2004373809A JP2006180392A JP 2006180392 A JP2006180392 A JP 2006180392A JP 2004373809 A JP2004373809 A JP 2004373809A JP 2004373809 A JP2004373809 A JP 2004373809A JP 2006180392 A JP2006180392 A JP 2006180392A
Authority
JP
Japan
Prior art keywords
band
sound source
signal
weight value
source separation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004373809A
Other languages
English (en)
Other versions
JP4249697B2 (ja
Inventor
Mariko Aoki
真理子 青木
Kenichi Furuya
賢一 古家
Akitoshi Kataoka
章俊 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004373809A priority Critical patent/JP4249697B2/ja
Publication of JP2006180392A publication Critical patent/JP2006180392A/ja
Application granted granted Critical
Publication of JP4249697B2 publication Critical patent/JP4249697B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】定常時は1本のマイクロホンで収音した目的音から雑音を除去し、SN比のよい目的音を再生する。
【解決手段】音源分離学習装置は予め2本のマイクロホンで収音した信号を用いて模範となる雑音除去用の帯域別重み値で構成される第1学習データと、この第1学習データに最も近似する帯域別重み値が得られる音響特徴量の種別を第2学習データとして取得する。音源分離装置は単一のマイクロホンで収音した信号を第2学習データで指定される種別の音響特徴量を用いて雑音除去用の帯域別重み値を算出し、この帯域別重み値を単一のマイクロホンで収音した信号を帯域分割した帯域分割信号のそれぞれに乗算し、雑音成分を除去する。
【選択図】図1

Description

本発明は、目的音源と雑音源が同時に鳴っている環境において、雑音信号を抑圧し、目的音を高いSN比で収音するための音源分離学習方法、その装置、プログラムと、この学習方法及び学習装置で学習した学習データを用いて音源分離動作を実行する音源分離方法、その装置、プログラムとこれらのプログラムを記録した記録媒体に関する。
目的音と雑音が同時に鳴っている環境において、雑音を抑圧し、目的音を強調する方法としては、従来、複数のマイクロホンを用いて音源との方向情報を元に、帯域分割して各帯域が目的音源の成分であるか、雑音源の成分であるかを判定することにより、目的音源を抽出するSAFIAと呼ばれている方法(非特許文献1)が提案されている。
M. Aoki, M. Okamoto, S. Aoki, H. Matsui, T. Sakurai and Y. Kaneda, "Sound source segregation based on estimating incident angle of each frequency component of imput signals acquired by multiple microphones," Acoust. Sci. & Tech., vol.22, no.2,pp.149 157,2001.
この方法は音源との方向情報を用いるため雑音源が音声や音楽など非定常な雑音に対しても適用できる特徴があるが、2本以上のマイクロホンを必要とするため、装置規模が大きくなるという課題があった。
本発明の目的は単一のマイクロホンで音源分離動作を可能とした音源分離方法及び音源分離装置を提案すると共に、それを可能とするための音源分離学習方法及び音源分離学習装置を提案するものである。
この発明の第1の実施形態によれば少なくとも2個の音声入力手段により方向情報を含む目的音信号及び雑音信号とを収音し、それぞれの音声入力手段で収音した複数チャネルの信号をそれぞれ周波数帯域分割し、帯域分割した各帯域分割信号のそれぞれのチャネル間パワー差を求め、このチャネル間パワー差により上記方向情報に基づいて上記雑音を除去するための第1学習データを取得する第1学習過程と、単一の音声入力手段により雑音を含む目的音を収音し、この目的音信号を複数の帯域信号に周波数分割し、周波数分割した帯域分割信号から複数種の音響的特徴量を算出し、複数種の音響特徴量の中から上記第1学習データに最も近似する音響特徴量を検索し、その検索結果に従って決定した音響特徴量を第2学習データとして取得する第2学習過程とを実行する音源分離学習方法を提案する。
この発明の第2の実施形態によれば、第1実施形態で提案した音源分離学習方法において、第1学習データは各帯域分割信号のそれぞれのチャネル間パワー差に基づいて目的音成分か雑音成分かを判定して決定した重み値であり、第2学習データは第1学習データに最も近似する音響特徴量の種別であることを特徴とする音源分離学習方法を提案する。
この発明の第3の実施形態によれば少なくとも2個の音声入力手段により方向情報を含む目的音信号及び雑音信号とを収音し、それぞれの音声入力手段で収音した複数チャネルの信号をそれぞれ周波数帯域分割する少なくとも2個の周波数分割手段と、この2つの帯域分割手段で分割した各帯域分割信号のそれぞれのチャネル間パワー差を求めるチャネル間パワー差算出手段と、このチャネル間パワー差算出手段が算出したチャネル間パワー差に基づいて各帯域信号が目的音成分か雑音成分かの属性を判定する属性判定手段と、この属性判定手段の判定結果に従って雑音と判定した帯域にはゼロに近い値を付与し、目的音と判定した帯域にはゼロより大きい重み値を付与し、これら重み値を第1学習データとして所定の時間長分保持する帯域別重み値決定手段と、単一の音声入力手段で雑音を含む目的音を収音し、この収音した信号を上記2つの帯域分割手段の何れか一方で帯域分割した帯域分割信号から複数種の音響特徴量を算出する特徴量算出手段と、この特徴量算出手段が算出した複数種の特徴量のそれぞれの値に従って目的音成分か雑音成分かを判定する属性判定手段と、この属性判定手段の判定結果に従って目的音成分及び雑音成分を表わす重み値を付与する帯域別重み値決定手段と、この帯域別重み値決定手段で決定した各特徴量毎の重み値と上記第1学習データとを比較し、第1学習データに最も近似する特徴量を検索し、検索した特徴量の種別を第2学習データとして保持する検索手段と、より成る音源分離学習装置を提案する。
この発明の第4の実施形態によればコンピュータが解読可能なプログラム言語によって記述され、コンピュータに実施形態3で提案した音源分離学習装置として機能させる音源分離学習プログラムを提案する。
この発明の第5の実施形態によれば単一の音声入力手段で収音した雑音を含む目的音信号を複数の帯域信号に分割し、分割された帯域信号のそれぞれから実施形態1又は実施形態2に記載の音源分離学習方法で学習した第2学習データで指定される特徴量を算出し、算出された各帯域の特徴量に基づいて各帯域の信号が主に目的音成分であるか、雑音成分であるかの属性を判定し、その属性判定結果に従って、雑音成分と判定した帯域にはゼロに近い重み値を付与し、目的音成分と判定した帯域にはゼロより大きい重み値を付与し、これらの重み値を各帯域分割信号に乗算し、重み値が乗算された帯域分割信号を時間信号に合成して出力する音源分離方法を提案する。
この発明の第6の実施形態によれば単一の音声入力手段で収音した雑音を含む目的音信号を複数の帯域信号に分割する帯域分割手段と、この帯域分割手段で分割した帯域分割信号のそれぞれから第5の実施形態で提案した音源分離学習方法で学習した第2学習データで指定される特徴量を算出する帯域別特徴量算出手段と、この帯域別特徴量算出手段で算出した各帯域別特徴量の値に従って各帯域信号のそれぞれが目的音成分であるか、雑音成分であるかの属性を判定する属性判定手段と、この属性判定手段の判定結果に従って主に雑音成分と判定した帯域にはゼロに近い重み値を付与し、目的音成分と判定した帯域にはゼロより大きい重み値を付与する帯域別重み値決定手段と、この帯域別重み値決定手段で決定した各帯域毎の重み値を帯域分割手段で分割した各帯域分割信号に乗算する帯域別乗算手段と、重み値が乗算された各帯域信号を時間信号に合成する信号合成手段とより成る音源分離装置を提案する。
この発明の第7の実施形態によればコンピュータが解読可能なプログラム言語によって記述され、コンピュータに実施形態6て提案した音源分離装置として機能させる音源分離プログラムを提案する。
この発明の第8の実施形態によればコンピュータが読み取り可能な記録媒体で構成され、この記録媒体に少なくとも実施形態4で提案したの音源分離学習プログラム又は実施形態7で提案した音源分離プログラムの何れかを記録した記録媒体を提案する。
本発明による音源分離学習方法及びその装置によれば少なくとも2本の音声入力手段を用いて、方向情報を含む形態で目的音と雑音とを収音し、この収音した複数チャネルの信号をそれぞれ帯域分割し、帯域分割した各帯域信号から、或る音響特徴量として各帯域毎のパワー値を算出し、このパワー値からチャネル間のパワー差を求め、このチャネル間パワー差に基づいて各帯域の信号毎に目的音成分と雑音成分とを判定し、この判定に従って、雑音と判定した帯域には限りなくゼロに近い重み値を付与し、目的音と判定した帯域にはゼロより大きい、例えば1の重み値を付与する。この重み値はチャネル間のパワー差に基づいて決定した値であるため、その判定精度は高い。従って、この重み値を所定の時間長分第1学習データとして保持させる。
次に、単一の音声入力手段により雑音を含む目的音を収音し、収音した目的音を複数の帯域に分割する。帯域分割した各帯域信号から複数種の音響特徴量を算出する。ここで算出する特徴量としては例えば帯域毎のパワー、信号のケプストラム、相関、尖鋭度、ピッチ等が考えられる。これら複数の特徴量のそれぞれの値に応じて、各帯域毎に雑音を主成分とするか、目的音を主成分とするかの判定を行い、その判定結果に従って、上述と同様に重み値を決定する。つまり、雑音と判定した帯域にはゼロに近い重み値を付与し、目的音と判定した帯域には例えば1に近い重み値を付与する動作を所定の時間長分繰り返し、所定の時間長分の重み値データ列を得る。
各種別に決定した重み値列と第1学習データとして保持している所定の時間長分の重み値列とを比較し、第1学習データに最も近似している特徴量を検索する。第1学習データに近似している特徴量を検索するには第1学習データで与えられる重み値と単一の収音信号から求めた重み値との距離を計算し、距離が最も小さくなる特徴量を検出する。検出した特徴量の種別を第2学習データとして保存する。
音源分離装置として動作させる場合は、単一の音声入力手段で収音した雑音を含む目的音信号を帯域分割手段で帯域分割し、帯域分割した帯域分割信号のそれぞれから、先に学習した第2学習データで指定される特徴量を算出し、この特徴量の値に応じて各帯域の信号成分が目的信号であるか、雑音成分であるかを判定し、その判定結果に従って各帯域に重み値を付与する。付与された重み値を各帯域分割信号に乗算し、その乗算された帯域分割信号を時間信号に合成すれば雑音が抑圧された目的音信号を得ることができる。
従って、本発明によれば単一の音声入力手段で収音した信号でも、それに含まれる雑音成分を抑圧することができることになる。
本発明の音源分離学習方法及びその装置によれば複数チャネルの信号を用いて音の方向情報に基づいて目的音と雑音とを識別する第1学習データを取得したから、この第1学習データの識別性能は高い。この識別性能の高い第1学習データを手本として単一チャネルの信号から抽出した音響特徴量の中から第1学習データに最も近似する特徴量の種別を第2学習データとして選定するから、この第2学習データの識別性能も第1学習データと同様に高い。従って、単一チャネルの信号のみから目的音を分離して抽出することができ、本発明で解決しようとする課題を解決することができる。
本発明による音源分離学習方法及び装置と、音源分離方法及び装置は全てハードウェアにより構成することもできるが、それより、むしろ、コンピュータに本発明で提案する音源分離学習プログラム及び音源分離プログラムをインストールし、コンピュータを音源分離学習装置及び音源分離装置として機能させる実施形態が最良の実施形態である。
コンピュータに本発明による音源分離学習装置として機能させる場合、コンピュータには音源分離学習プログラムにより少なくとも2つの帯域分割手段と、2つの帯域分割手段で帯域分割した帯域分割信号からチャネル間パワー差を算出するチャネル間パワー差算出手段と、チャネル間パワー差に基づいて各帯域信号の属性を判定する属性判定手段と、この属性判定手段の判定結果に従って、各帯域に雑音を表わす重み値と目的音を表わす重み値とを決定し、この決定した重み値を第1学習データとして保持する帯域別重み値決定手段と、更に、単一の音声入力手段で収音した信号を帯域分割し、この帯域分割した帯域分割信号から複数種の音響特徴量を算出する特徴量算出手段と、各種別毎に算出した特徴量に基づいて各帯域別に目的音成分が雑音成分かを判定する属性判定手段と、属性判定手段の判定結果に従って、各特徴量毎に帯域別に雑音と判定した帯域にはゼロに近い重み値を付与し、目的音と判定した帯域にはゼロより大きい重み値を付与する帯域別重み値決定手段と、この帯域別重み値決定手段で決定した重み値と第1学習データとを比較し、第1学習データに最も近似する重み値のパターンを持つ特徴量の種別を検索し、その検索結果を第2学習データとして保持する検索手段とを構築する。
更に、コンピュータを本発明による音源分離装置として機能させる場合には、コンピュータに単一の音声入力手段で収音した収音信号を複数の帯域信号に分割する帯域分割手段と、帯域分割された帯域分割信号から第2学習データで指定される種類の特徴量を算出する帯域別特徴量算出手段と、帯域別特徴量算出手段で算出した特徴量から雑音か目的音かの属性を判定する属性判定手段と、この続定判定手段の判定結果に従って各帯域別に重み値を決定する帯域別重み値決定手段と、この帯域別重み値決定手段で決定した重み値を帯域分割信号に乗算する帯域別重み値乗算手段と、重み値が乗算された帯域分割信号を時間信号に合成する信号合成手段とを構築する。
図1に本発明の請求項3で提案する音源分離学習装置と請求項6で提案する音源分離装置の実施例を示す。図中100は音源分離学習装置として機能する部分、200は音源分離装置として機能する部分を示す。
1A、1Bは例えばマイクロホンのような音声入力手段を示す。これら2個の音声入力手段1A、1Bは目的音源Mと雑音源Nの信号S(t)とN(t)を方向情報(距離情報)を含む形態で収音する。ここでは説明を簡略化するために雑音源を一つとして説明するが、一般に雑音源Nの個数は複数でも良い。
音声入力手段1A、1Bで収音した信号x(t)とx(t)はそれぞれ帯域分割手段2Aと2Bで例えば高速フーリエ変換などで複数の帯域に分割される。このとき、各帯域の出力信号は主として一つの音響信号成分よりなる程度に細かく分割する。一つの音響信号成分とは信号x(t)及びx(t)に含まれる各スペクトルを指し、各スペクトルを分離できる程度の細かさに分割することを意味する。その一例としては20Hz程度の細かさに分割すれば良しとされている(更に詳しくは特許第3355598号明細書を参照)。
帯域分割手段2Aで帯域分割した帯域信号X(ω),X(ω)…X(ω)と帯域分割手段2Bで帯域分割した帯域信号X(ω),X(ω)…X(ω)はそれぞれチャネル間パワー差算出手段3Bに入力される。このチャネル間パワー差算出手段3Bでは各帯域信号X(ω),X(ω)…X(ω)とX(ω),X(ω)…X(ω)のそれぞれの帯域の音響特徴量としてパワーを算出し、そのパワー差τ(ωi,j)を式(1)で算出する。ここでインデックスiは帯域番号を表わすインデックス、インデックスjは時間のインデックス(フレームの意味)し、パワー差τ(ωi,j)は複数フレームにわたって算出され、例えば数10秒分程度のデータ長を有する。
τ(ωi,j)=20log10(|X(ωi,j)|/|X(ωi,j)|) …(1)
図1に示した音源配置においては目的音源Mは音声入力手段1Bに比べて音声入力手段1Aの近くにあり、逆に雑音源Nは音声入力手段1Aに比べて音声入力手段1Bの近くにあるので目的音信号のチャネル間パワー差は正の値となることから、τ2(ωi,j)>0を満たすある周波数帯域X(ωi,j)の信号は主に目的音源Mの信号であると推定できる。またτ2(ωi,j)<0を満たす或る周波数帯域X(ωi,j)の信号は主に雑音源Nの信号であると推定できる。
属性判定手段4Bではチャネル間パワー差算出手段3Bが算出したチャネル間パワー差の極性を読み取って、各帯域の信号成分が目的音成分であるか、雑音成分であるかを判定する。帯域別重み値決定手段5Bは属性判定手段4Bの判定結果に従って、目的音源Mの信号と判定された帯域には重み値α(ωi,j)として0より大きい例えばα(ωi,j)=1.0を付与する。また雑音源Nの信号と判定された帯域には重み値α(ωi,j)としてα(ωi,j)=0.0を付与する。各帯域毎に重み値α(ωi,j)を付与する動作を所定時間長分繰り返し、この重み値列α(ωi,j)を第1の学習データとして帯域別重み決定手段5Bに記憶する。この学習は目的音源Mの状況が変化する毎に実行される。
次に第2の学習を実行する。この第2の学習は単一の音声入力手段1Aを用いて雑音を含む目的音を収音し、その収音した目的音信号を帯域分割手段2Aで複数の帯域信号に分割する。分割の細かさは先の説明と同じである。帯域分割した帯域分割信号X(ω),X(ω)…X(ω)から帯域別特徴量算出手段3Aで複数種の音響特徴量τ(ω)…τ(ω)を算出する。複数種の音響特徴量τ(ω)…τ(ω)とは例えば各帯域信号のパワーであるとか、各帯域信号のケプストラム、相関、尖鋭度、ピッチなどを算出する。これらの特徴量の算出は特徴量算出手段を並列に設けて一度に複数種の特徴量を算出することもできるし、また共通の特徴量計算手段を時間をずらして動作させて種別に計算するように構成することもできる。
属性判定手段4A及び帯域別重み値決定手段5Aでは各特徴量に適合した処理方法で目的音と雑音を判別し、重み値を決定する。
各特徴量に適合した処理方法の例を以下に示す。
例えはパワーの場合、各帯域のパワー、およびそのうちの最大値を算出し、各帯域のパワー(平均値)をその最大値で除算した値を特徴量とする。尖鋭度の場合も同様に、各帯域の尖鋭度とその最大値を算出し、各帯域の尖鋭度を最大値で除算した値を特徴量として用いる。このようにして求めた特徴量に対して属性判定手段4Aは或る閾値を設定し、閾値以上を目的音、以下を雑音と判定する。ピッチを用いる場合は、信号の基本周波数を算出し、その整数倍の周波数成分の特徴量には1を用い、その他の帯域には0を特徴量として用いる。相関の場合には、例えば現フレームと過去のフレームについて相互相関を算出し、相関が高い帯域(例えば、相互相関の値が0.5以上)には重み値0を、相関が低い帯域(例えば、相互相関の値が0.5以下)には重み値1を用いる。最後に、ケプストラムを用いた場合について述べる。ケプストラムとは、音声信号の短時間振幅スペクトルの対数を逆フーリエ変換することで算出され、音声信号のスペクトル包絡と微細構造を分離して抽出することができる(参考文献:“ディジタル音声処理”、古井、東海大学出版会、1985.)。このスペクトル包絡は残響が短い場合には音声信号の包絡を表し、ピークの数はせいぜい4つ程度である。しかし、残響が長くなるにつれ部屋の特性が畳み込まれ、ピークの数が増大することがある。よって、ピークの数が少ない(例えば4つ以下)の場合には近傍で鳴っている音源であると判断して、全ての帯域の重み値を1とする。ピークの数が多い(例えば4つ以上)の場合には、遠方で鳴っている音源であると判断して、全ての帯域の重み値を0とする。ピークの個数の数え方は、例えば、スペクトル包絡の平均値より5dB以上大きくなる帯域をピークとしてカウントする。
検索手段6は複数種の特徴量τ(ω)…τ(ω)から求めた重み値β(ωi,j)を第1学習データとして記憶している重み値α(ωi,j)と比較し、その第1学習データに最も近似している重み値を持つ特徴量の種別を検索する。このためには例えば第1学習データとして記憶している重み値α(ωi,j)と各種の特徴量から求めた重み値β(ωi,j)との距離dを計算し、距離dが最も小さくなる特徴量の種別を特定する。距離dは式(2)で求められる。
Figure 2006180392
距離dは帯域別特徴量算出手段3Aで算出される全ての特徴量毎に算出し、距離dが最も小さくなる特徴量を検索し、距離dが最も小さくなる特徴量の種別を特定し、この特徴量の種別を第2学習データとして例えば検索手段6に記憶する。
以上により音源分離学習装置100の動作が終了する。第2の学習データが取得されることにより、音源分離装置200の動作開始条件が整えられる。
音源分離装置200は検索手段6に取得されている第2学習データを用いて、音源分離動作を実行する。つまり、音声入力手段1Aで雑音n(t)を含む目的音s(t)を収音し、その収音信号を帯域分割手段2Aで帯域分割し、帯域分割した各帯域信号X(ω)…X(ω)から第2学習データを用いて帯域別特徴量算出手段3Aで帯域別に第2学習データで指定される特徴量τ1(ω)…τ1(ω)を算出する。
属性判定手段4Aは算出された特徴量τ(ω)…τ(ω)に対して例えばその特徴量に適合した閾値を用いて各帯域の信号が目的音成分か雑音成分かの属性を判定し、その判定結果を帯域別重み値決定手段5Aに引き渡す。帯域別重み値決定手段5Aは属性判定手段4Aで判定した属性に従って、各帯域の重み値β(ω)…β(ω)を決定し、この重み値β(ω)…β(ω)を重み値選定手段7を通じて帯域別重み値乗算手段8に出力し、この帯域別重み値乗算手段8で帯域分割信号X(ω)…X(ω)にそれぞれ乗算し、その乗算結果を信号合成手段9で時間信号s~(t)に合成する。
信号合成手段9で時間信号に合成される各帯域信号X(ω)…X(ω)には雑音成分を抑圧するための重み値β(ω)…β(ω)が乗算されているから、合成された時間信号s~(t)のSN比は元の入力信号のSN比より高められる。この音源分離動作は目的音源Mの条件が変化しない限り継続することができる。目的音源Mの条件、例えば話者の入れ替わりが生じた場合等では再度、学習により第1学習データと第2学習データを取得すれば、音源分離動作を再開することができる。
以上説明した帯域分割手段2A,2B、帯域別特徴量算出手段3A、チャネル間パワー差算出手段3B、属性判定手段4A,4B、帯域別重み値決定手段5A,5B、検索手段6、重み値選定手段7、帯域別重み値乗算手段8、信号合成手段9はそれぞれコンピュータにインストールした本発明の音源分離学習プログラム及び音源分離プログラムによって実現される。
本発明による音源分離学習プログラム及び音源分離プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータが読み取り可能な、例えば磁気ディスク、或はCD−ROM等の記録媒体に記録され、これらの記録媒体或は通信回線を通じてコンピュータにインストールされ、コンピュータに備えられたCPUに解読されて実行される。
本発明による音源分離学習装置及び音源分離装置は例えばハンズフリー方式の音声会議システムの分野或はその他の音源収音装置の分野に活用される。
この発明による音源分離学習装置及び音源分離装置の一実施例を説明するためのブロック図。
符号の説明
100 音源分離学習装置 4A,4B 属性判定手段
200 音源分離装置 5A,5B 帯域別重み値決定手段
M 目的音源 6 検索手段
N 雑音源 7 重み値選定手段
1A,1B 音声入力手段 8 帯域別重み値乗算手段
2A,2B 帯域分割手段 9 信号合成手段
3A 帯域別特徴量算出手段
3B チャネル間パワー差算出手段










Claims (8)

  1. 少なくとも2個の音声入力手段により方向情報を含む目的音信号及び雑音信号とを収音し、それぞれの音声入力手段で収音した複数チャネルの信号をそれぞれ周波数帯域分割し、帯域分割した各帯域分割信号のそれぞれのチャネル間パワー差を求め、このチャネル間パワー差により上記方向情報に基づいて上記雑音を除去するための第1学習データを取得する第1学習過程と、
    単一の音声入力手段により雑音を含む目的音を収音し、この目的音信号を複数の帯域信号に周波数分割し、周波数分割した帯域分割信号から複数種の音響的特徴量を算出し、複数種の音響特徴量の中から上記第1学習データに最も近似する音響特徴量を検索し、その検索結果に従って決定した音響特徴量を第2学習データとして取得する第2学習過程とを含むことを特徴とする音源分離学習方法。
  2. 請求項1記載の音源分離学習方法において、上記第1学習データは上記各帯域分割信号のそれぞれのチャネル間パワー差に基づいて目的音成分か雑音成分かを所定の時間長にわたって判定して決定した重み値列であり、上記第2学習データは上記第1学習データに最も近似する音響特徴量の種別であることを特徴とする音源分離学習方法。
  3. 少なくとも2個の音声入力手段により方向情報を含む目的音信号及び雑音信号とを収音し、それぞれの音声入力手段で収音した複数チャネルの信号をそれぞれ周波数帯域分割する少なくとも2個の周波数分割手段と、
    この2つの帯域分割手段で分割した各帯域分割信号のそれぞれのチャネル間パワー差を求めるチャネル間パワー差算出手段と、
    このチャネル間パワー差算出手段が算出したチャネル間パワー差に基づいて各帯域信号が目的音成分か雑音成分かの属性を判定する属性判定手段と、
    この属性判定手段の判定結果に従って雑音と判定した帯域にはゼロに近い重み値を付与し、目的音と判定した帯域にはゼロより大きい重み値を付与し、これら重み値を第1学習データとして所定の時間長分収録する帯域別重み値決定手段と、
    単一の音声入力手段で雑音を含む目的音を収音し、この収音した信号を上記2つの帯域分割手段の何れか一方で帯域分割した帯域分割信号から複数種の音響特徴量を算出する特徴量算出手段と、
    この特徴量算出手段が算出した複数種の特徴量のそれぞれの値に従って目的音成分か雑音成分かを判定する属性判定手段と、
    この属性判定手段の判定結果に従って目的音成分及び雑音成分を表わす重み値を所定の時間長にわたって付与する帯域別重み値決定手段と、
    この帯域別重み値決定手段で決定した各特徴量毎の重み値列と上記第1学習データとを比較し、第1学習データに最も近似する特徴量を検索し、検索した特徴量の種別を第2学習データとして保持する検索手段と、
    より成る音源分離学習装置。
  4. コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項3記載の音源分離学習装置として機能させる音源分離学習プログラム。
  5. 単一の音声入力手段で収音した雑音を含む目的音信号を複数の帯域信号に分割し、分割された帯域信号のそれぞれから請求項1又は2記載の音源分離学習方法で学習した第2学習データで指定される特徴量を算出し、算出された各帯域の特徴量に基づいて各帯域の信号が主に目的音成分であるか、雑音成分であるかの属性を判定し、その属性判定結果に従って、雑音成分と判定した帯域にはゼロに近い重み値を付与し、目的音成分と判定した帯域にはゼロより大きい重み値を付与し、これらの重み値を各帯域分割信号に乗算し、重み値が乗算された帯域分割信号を時間信号に合成して出力することを特徴とする音源分離方法。
  6. 単一の音声入力手段で収音した雑音を含む目的音信号を複数の帯域信号に分割する帯域分割手段と、
    この帯域分割手段で分割した帯域分割信号のそれぞれから請求項3記載の音源分離学習装置で学習した第2学習データで指定される特徴量を算出する帯域別特徴量算出手段と、
    この帯域別特徴量算出手段で算出した各帯域別特徴量の値に従って各帯域信号のそれぞれが目的音成分であるか、雑音成分であるかの属性を判定する属性判定手段と、
    この属性判定手段の判定結果に従って主に雑音成分と判定した帯域にはゼロに近い重み値を付与し、目的音成分と判定した帯域にはゼロより大きい重み値を付与する帯域別重み値決定手段と、
    この帯域別重み値決定手段で決定した各帯域毎の重み値を上記帯域分割手段で分割した各帯域分割信号に乗算する帯域別乗算手段と、
    重み値が乗算された各帯域信号を時間信号に合成する信号合成手段と、
    より成る音源分離装置。
  7. コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項6記載の音源分離装置として機能させる音源分離プログラム。
  8. コンピュータが読み取り可能な記録媒体で構成され、この記録媒体に少なくとも請求項4記載の音源分離学習プログラム又は請求項7記載の音源分離プログラムの何れかを記録した記録媒体。
JP2004373809A 2004-12-24 2004-12-24 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体 Expired - Fee Related JP4249697B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004373809A JP4249697B2 (ja) 2004-12-24 2004-12-24 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004373809A JP4249697B2 (ja) 2004-12-24 2004-12-24 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体

Publications (2)

Publication Number Publication Date
JP2006180392A true JP2006180392A (ja) 2006-07-06
JP4249697B2 JP4249697B2 (ja) 2009-04-02

Family

ID=36734043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004373809A Expired - Fee Related JP4249697B2 (ja) 2004-12-24 2004-12-24 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体

Country Status (1)

Country Link
JP (1) JP4249697B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009047803A (ja) * 2007-08-16 2009-03-05 Toshiba Corp 音響信号処理方法及び装置
JPWO2012070668A1 (ja) * 2010-11-25 2014-05-19 日本電気株式会社 信号処理装置、信号処理方法、及び信号処理プログラム
JP2019211685A (ja) * 2018-06-07 2019-12-12 日本電信電話株式会社 音響信号分離装置、学習装置、それらの方法、およびプログラム
US11308970B2 (en) 2018-12-14 2022-04-19 Fujitsu Limited Voice correction apparatus and voice correction method

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009047803A (ja) * 2007-08-16 2009-03-05 Toshiba Corp 音響信号処理方法及び装置
JPWO2012070668A1 (ja) * 2010-11-25 2014-05-19 日本電気株式会社 信号処理装置、信号処理方法、及び信号処理プログラム
JP6064600B2 (ja) * 2010-11-25 2017-01-25 日本電気株式会社 信号処理装置、信号処理方法、及び信号処理プログラム
US9792925B2 (en) 2010-11-25 2017-10-17 Nec Corporation Signal processing device, signal processing method and signal processing program
JP2019211685A (ja) * 2018-06-07 2019-12-12 日本電信電話株式会社 音響信号分離装置、学習装置、それらの方法、およびプログラム
WO2019235194A1 (ja) * 2018-06-07 2019-12-12 日本電信電話株式会社 音響信号分離装置、学習装置、それらの方法、およびプログラム
JP7024615B2 (ja) 2018-06-07 2022-02-24 日本電信電話株式会社 音響信号分離装置、学習装置、それらの方法、およびプログラム
US11308970B2 (en) 2018-12-14 2022-04-19 Fujitsu Limited Voice correction apparatus and voice correction method

Also Published As

Publication number Publication date
JP4249697B2 (ja) 2009-04-02

Similar Documents

Publication Publication Date Title
KR101670313B1 (ko) 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
EP1741313B1 (en) A method and system for sound source separation
JP6019969B2 (ja) 音響処理装置
JP6174856B2 (ja) 雑音抑制装置、その制御方法、及びプログラム
EP2731359B1 (en) Audio processing device, method and program
JP6485711B2 (ja) 音場再現装置および方法、並びにプログラム
JP2004528599A (ja) オーディトリーイベントに基づく特徴付けを使ったオーディオの比較
KR20130112898A (ko) 시간 변화 정보를 갖는 기저 함수를 사용한 음악 신호의 분해
US9478232B2 (en) Signal processing apparatus, signal processing method and computer program product for separating acoustic signals
JP6482173B2 (ja) 音響信号処理装置およびその方法
US20160027421A1 (en) Audio signal analysis
JP2015118361A (ja) 情報処理装置、情報処理方法、及びプログラム
JP3033061B2 (ja) 音声雑音分離装置
Ick et al. Sound event detection in urban audio with single and multi-rate PCEN
JP5605574B2 (ja) 多チャンネル音響信号処理方法、そのシステム及びプログラム
JP2005266797A (ja) 音源信号分離装置及び方法、並びにピッチ検出装置及び方法
JP4462063B2 (ja) 音声処理装置
Olvera et al. Foreground-background ambient sound scene separation
JP2000081900A (ja) 収音方法、その装置及びプログラム記録媒体
JP4249697B2 (ja) 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体
US9648411B2 (en) Sound processing apparatus and sound processing method
JP4533126B2 (ja) 近接音分離収音方法、近接音分離収音装置、近接音分離収音プログラム、記録媒体
JP2003044077A (ja) 音声特徴量抽出方法と装置及びプログラム
JP3787103B2 (ja) 音声処理装置、音声処理方法、音声処理プログラム
JP6961545B2 (ja) 音信号処理装置、音信号処理方法、およびプログラム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20061225

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090115

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120123

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130123

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees