JP2004258422A

JP2004258422A - 音源情報を用いた音源分離・抽出方法および装置

Info

Publication number: JP2004258422A
Application number: JP2003050174A
Authority: JP
Inventors: Toshio Irino; 俊夫入野; Hidenori Kawahara; 英紀河原
Original assignee: Japan Science and Technology Agency
Current assignee: Japan Science and Technology Agency
Priority date: 2003-02-27
Filing date: 2003-02-27
Publication date: 2004-09-16

Abstract

【課題】周波数軸上の調波成分の抽出を行わないで、目的音だけを抽出することができる音源情報を用いた音源分離・抽出方法および装置を提供する。
【解決手段】入力信号１が入力される聴覚フィルタバンク／ウェーブレット分析器２と、前記入力信号１又は前記聴覚フィルタバンク／ウェーブレット分析器２からの出力信号が入力される目的音イベント検出器３と、前記聴覚フィルタバンク／ウェーブレット分析器２および前記目的音イベント検出器３からの出力信号が入力され、安定化聴覚イメージ５が出力される安定化処理器４と、前記目的音イベント検出器３からの出力および前記安定化聴覚イメージ５が入力される写像器６と、前記目的音イベント検出器３からの出力が入力される音源パルス／雑音発生器７と、前記写像器６および音源パルス／雑音発生器７からの出力が入力されるスペクトルフィルタ８とを具備する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音源情報を用いた音源分離・抽出方法および装置に関するものである。
【０００２】
【従来の技術】
従来、複数話者同時発声からの音声音源分離手法は、特に有声音の場合を中心に検討されている。これに対して無声音の場合は手法によりまちまちで確固たる手法は見つかっていない。有声音は、特徴として、基本周波数と多くの高調波成分からなっている。このことを利用して、最も一般的な音声音源分離は次のようなステップで行われることが多い（下記非特許文献１１、１３参照）。
（１）目的音声の基本周波数を抽出する。
（２）目的音声に窓関数をかけて短時間フーリエ変換をしてスペクトログラムを抽出する。
（３）基本周波数の整数倍の調波成分だけを強調あるいは抽出する。
（４）強調あるいは抽出された調波成分から音を再合成する。
【０００３】
もちろん、ここで挙げたものだけではなく様々なバリエーションがあるが、どの手法も、周波数軸上で等価的に櫛形のフィルタをかけて必要な部分だけを取り出す手法を取っている。また、この手法と一見異なるように見える正弦波分解を用いた手法（下記非特許文献１４参照）も提案されているが、やはり調波成分に対応するものだけを取り出すので、上記手法と同等である。
【０００４】
【非特許文献１】
阿竹義徳・入野俊夫・河原英紀・陸金林・中村哲・鹿野清宏（２０００），
“調波成分の瞬時周波数を用いた基本周波数推定方法”電子情報通信学会誌Ｄ−ＩＩ，Ｊ８３−Ｄ−ＩＩ，ｐｐ．２０７７−２０８６
【非特許文献２】
Ｐａｔｔｅｒｓｏｎ，Ａｌｌｅｒｈａｎｄ，ａｎｄＧｉｇｕｅｒｅ（１９９５），“Ｔｉｍｅ−ｄｏｍａｉｎｍｏｄｅｌｉｎｇｏｆｐｅｒｉｐｈｅｒａｌｐｒｏｃｅｓｓｉｎｇ：ａｍｏｄｕｌａｒａｒｃｈｉｔｅｃｔｕｒｅａｎｄａｓｏｆｔｗａｒｅｐｌａｔｆｏｒｍ．”Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．，Ｖｏｌ．９８，ｐｐ．１８９０−１８９４．
【非特許文献３】
Ｉｒｉｎｏ，Ｔ．，Ｐａｔｔｅｒｓｏｎ，Ｒ．Ｄ．（２００２ａ），“Ｓｅｇｒｅｇａｔｉｎｇｉｎｆｏｒｍａｔｉｏｎａｂｏｕｔｔｈｅｓｉｚｅａｎｄｓｈａｐｅｔｈｅｖｏｃａｌｔｒａｃｔｕｓｉｎｇａｔｉｍｅ−ｄｏｍａｉｎａｕｄｉｔｏｒｙｍｏｄｅｌ：ＴｈｅＳｔａｂｉｌｉｓｅｄｗａｖｅｌｅｔ−Ｍｅｌｌｉｎｔｒａｎｓｆｏｒｍ，”ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ，３６，ｐｐ．１８１−２０３．
【非特許文献４】
Ｉｒｉｎｏ，Ｔ．，Ｐａｔｔｅｒｓｏｎ，Ｒ．Ｄ．，Ｋａｗａｈａｒａ，Ｈ．（２００２ｂ），“ＡｕｄｉｔｏｒｙＶＯＣＯＤＥＲ：ＳｐｅｅｃｈｒｅｓｙｎｔｈｅｓｉｓｆｒｏｍａｎａｕｄｉｔｏｒｙＭｅｌｌｉｎｒｅｐｒｅｓｅｎｔａｔｉｏｎ，”ＩＥＥＥＩｎｔ．Ｃｏｎｆ．Ａｃｏｕｓｔ．，ＳｐｅｅｃｈＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ−２００２），２，ｐｐ．１９２１−１９２４．
【非特許文献５】
ＴｏｓｈｉｏＩｒｉｎｏ，ＲｏｙＤ．Ｐａｔｔｅｒｓｏｎ，ａｎｄＨｉｄｅｋｉＫａｗａｈａｒａ（２００２ｃ），“ＡｎａｕｄｉｔｏｒｙｖｏｃｏｄｅｒｒｅｓｙｎｔｈｅｓｉｓｏｆｓｐｅｅｃｈｆｒｏｍａｎａｕｄｉｔｏｒｙＭｅｌｌｉｎｒｅｐｒｅｓｅｎｔａｔｉｏｎ，”ＥｕｒｏｐｅａｎａｎｄＪａｐａｎｅｓｅＡｃｏｕｓｔｉｃＳｏｃｉｅｔｉｅｓＳｙｍｐｏｓｉｕｍ（ＥＡＡ−ＳＥＡ−ＡＳＪ），ＦｏｒｕｍＡｃｕｓｔｉｃｕｍＳｅｖｉｌｌａ２００２，ＨＥＡ−０２−００５−ＩＰ，Ｓｅｖｉｌｌａ，Ｓｐａｉｎ，１６−２０，Ｓｅｐｔ．，２００２．
【非特許文献６】
入野俊夫，ＲｏｙＤ．Ｐａｔｔｅｒｓｏｎ，河原英紀（２００２ｄ），“イベント検出に基づいた聴覚ボコーダ，”日本音響学会秋季大会講演論文集，Ｉ，ｐｐ．３２１−３２２，秋田大学
【非特許文献７】
Ｋａｗａｈａｒａ，Ｈ．，Ｍａｓｕｄａ−Ｋａｔｓｕｓｅ，Ｉ．，ａｎｄｄｅＣｈｅｖｅｉｇｎｅ，Ａ．（１９９９），“Ｒｅｓｔｒｕｃｔｕｒｉｎｇｓｐｅｅｃｈｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｕｓｉｎｇａｐｉｔｃｈ−ａｄａｐｔｉｖｅｔｉｍｅ−ｆｒｅｑｕｅｎｃｙｓｍｏｏｔｈｉｎｇａｎｄａｎｉｎｓｔａｎｔａｎｅｏｕｓ−ｆｒｅｑｕｅｎｃｙ−ｂａｓｅｄＦ０ｅｘｔｒａｃｔｉｏｎ：Ｐｏｓｓｉｂｌｅｒｏｌｅｏｆａｒｅｐｅｔｉｔｉｖｅｓｔｒｕｃｔｕｒｅｉｎｓｏｕｎｄｓ，”ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ，２７，ｐｐ．１８７−２０７．
【非特許文献８】
Ｋａｗａｈａｒａ，Ｈ．，ＡｔａｋｅＹ．，ａｎｄＺｏｌｆａｇｈａｒｉ，Ｐ．（２０００），“Ａｃｃｕｒａｔｅｖｏｃａｌｅｖｅｎｔｄｅｔｅｃｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎａｆｉｘｅｄ−ｐｏｉｎｔｔｏｗｅｉｇｈｔｅｄａｖｅｒａｇｅｇｒｏｕｐｄｅｌａｙ”６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｐｏｋｅｎＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＩＣＳＬＰ）２０００，ｐｐ．６６４−６６７，Ｂｅｉｊｉｎ．
【非特許文献９】
ＭｏｕｌｉｎｅｓＥ．ａｎｄＣｈａｒｐｅｎｔｉｅｒ，Ｆ．（１９９１），“Ｐｉｔｃｈ−ｓｙｎｃｈｒｏｎｏｕｓｗａｖｅｆｏｒｍｐｒｏｃｅｓｓｉｎｇｔｅｃｈｎｉｑｕｅｓｆｏｒｔｅｓｔ−ｔｏ−ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓｕｓｉｎｇｄｉｐｈｏｎｅｓ，”ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ，９，ｐｐ．４５３−４６７．
【非特許文献１０】
Ｎａｋａｔａｎｉ，Ｔ．ａｎｄＩｒｉｎｏ，Ｔ．（２００２），“Ｒｏｂｕｓｔｆｕｎｄａｍｅｎｔａｌｆｒｅｑｕｅｎｃｙｅｓｔｉｍａｔｉｏｎａｇａｉｎｓｔｂａｃｋｇｒｏｕｎｄｎｏｉｓｅａｎｄｓｐｅｃｔｒａｌｄｉｓｔｏｒｔｉｏｎ，”Ｉｎｔ．Ｃｏｎｆ．ＳｐｏｋｅｎＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＩＣＳＬＰ２００２），ｐｐ．１７３３−１７３６，Ｄｅｎｖｅｒ，Ｃｏｌｏｒａｄｏ，ＵＳＡ．
【非特許文献１１】
長渕裕実（１９８６），“コームフィルタリング雑音抑圧法の基本性能とＰＣＭ音声の品質改善への応用，”電子通信学会論文誌（Ａ），Ｊ６５−Ａ，ｐｐ．５７２−５７８．
【非特許文献１２】
西一樹、安藤繁（２０００），“定Ｑくし形フィルタとその時間／周波数特性−ピッチ変動誤差に頑健な調波信号推定のためのフィルタ特性−”，電子情報通信学会論文誌（Ａ），Ｊ８３−Ａ，ｐｐ．１５２−１６０．
【非特許文献１３】
Ｐａｒｓｏｎｓ，Ｔ．Ｗ．（１９７６），“Ｓｅｐａｒａｔｉｏｎｏｆｓｐｅｅｃｈｆｒｏｍｉｎｔｅｒｆｅｒｉｎｇｓｐｅｅｃｈｂｙｍｅａｎｓｏｆｈａｒｍｏｎｉｃｓｅｌｅｃｔｉｏ，”Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．，６０，ｐｐ．９１１−９１８．
【非特許文献１４】
ＱｕａｔｉｅｒｉａｎｄＤａｎｉｓｅｗｉｃｚ，（１９９０），“Ａｎａｐｐｒｏａｃｈｔｏｃｏ−ｃｈａｎｎｅｌｔａｌｋｅｒｉｎｔｅｒｆｅｒｅｎｃｅｓｕｐｐｒｅｓｓｉｏｎｕｓｉｎｇａｓｉｎｕｓｏｉｄａｌｍｏｄｅｌｆｏｒｓｐｅｅｃｈ，”ＩＥＥＥＡｃｏｕｓｔ．，Ｓｐｅｅｃｈ，ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．３８，Ｎｏ．１，ｐｐ．５６−６９
【０００５】
【発明が解決しようとする課題】
上述した手法を用いると、基本周波数を推定した後、基本周波数のおおむね３〜４倍程度くらいまでの割合低い調波成分に関しては比較的良く抽出できる。
【０００６】
しかしながら、それ以上の高調波については、基本周波数の推定誤差やゆらぎが倍数で効いてくるため櫛形のフィルタの位置や抽出の対応関係がずれてしまい、有効に調波成分を抽出できない。このために、再合成された音の音質や音韻性の劣化を招くことが知られている。
【０００７】
この誤差やゆらぎの影響を軽減するために定Ｑ型の櫛形フィルタを用いることが提案されている（上記非特許文献１２参照）が、本質的な解決にはなっていない。
【０００８】
このように、調波成分の抽出という周波数上での処理を取らざるを得ないのは、短時間フーリエ変換を行った後に音源の分離を行おうとするからである。
【０００９】
すなわち、前述したように、まず、目的音声に窓関数をかけることにより、声帯振動パルスが数個、窓の中に入った波形が得られる。これをフーリエ分析することによって調波成分が現れる。
【００１０】
ところが、声帯振動は時間的にゆらいでいるので、この数パルス分の基本周波数をどう定義するかが問題となるし、仮に平均値を取るとしてもここで生じる誤差によって上記のような抽出誤りの問題が生じる。つまり、信号処理の都合から出た窓かけをすることによって、処理能力に限界を与えていることになる。
【００１１】
また、これとは別の目的で、時間的なピッチ同期処理によって、音声の基本周波数を変換するＰＳＯＬＡという手法が提案されており（上記非特許文献９参照）、その改良手法も多く提案されている。しかしながら、波形の上での加算をしたり、処理の途中で窓関数をかけることをしているため、音源分離には全く用いることができていない。
【００１２】
本発明は、上記状況に鑑みて、周波数軸上の調波成分の抽出を行わないで、目的音だけを抽出することができる音源情報を用いた音源分離・抽出方法および装置を提供することを目的とする。
【００１３】
【課題を解決するための手段】
本発明は、上記目的を達成するために、
〔１〕音源情報を用いた音源分離・抽出方法において、強調や抽出をしたい目的音の駆動源の周期成分や非周期成分の情報を時間的なイベントとして抽出し、このイベントの生起の時間情報を利用して雑音抑制や音情報の分離・抽出を行うことを特徴とする。
【００１４】
〔２〕音源情報を用いた音源分離・抽出方法において、周波数軸上の調波成分の抽出を行わないで、イベント情報を用いて信号表現の安定化を図る信号分析方法と、その信号分析結果から元の音を再現する方法を用いて、目的音のイベント検出器の出力に同期して処理を行い、目的音だけを分離・抽出することを特徴とする。
【００１５】
〔３〕音源情報を用いた音源分離・抽出方法において、聴覚イメージモデルを分析系として持つ信号分析合成方式の聴覚ボコーダに、目的音のイベント検出器を設けることにより、目的音だけを分離・抽出することを特徴とする。
【００１６】
〔４〕上記〔１〕、〔２〕又は〔３〕記載の音源情報を用いた音源分離・抽出方法において、基本周波数の調波成分を周波数軸上で相対的に強調する処理を組み合わせることを特徴とする。
【００１７】
〔５〕音源情報を用いた音源分離・抽出装置において、入力信号が入力される聴覚フィルタバンク／ウェーブレット分析器と、前記入力信号又は前記聴覚フィルタバンク／ウェーブレット分析器からの出力信号が入力される目的音イベント検出器と、前記聴覚フィルタバンク／ウェーブレット分析器および前記目的音イベント検出器からの出力信号が入力され、安定化聴覚イメージが出力される安定化処理器と、前記目的音イベント検出器からの出力および前記安定化聴覚イメージが入力される写像器と、前記目的音イベント検出器からの出力が入力され音源パルス／雑音発生器と、前記写像器および音源パルス／雑音発生器からの出力が入力され、分離音が出力されるスペクトルフィルタとを具備することを特徴とする。
【００１８】
〔６〕上記〔５〕記載の音源情報を用いた音源分離・抽出装置において、前記目的音イベント検出器が、入力信号が入力される高耐雑音性基本周波数抽出器と、この高耐雑音性基本周波数抽出器に接続されるイベント生成器と、このイベント生成器に接続されるイベント時点調整器とを具備することを特徴とする。
【００１９】
〔７〕上記〔５〕または〔６〕記載の音源情報を用いた音源分離・抽出装置において、多チャンネル入力信号が入力される適応ビームフォーマ／独立成分分析器と、この適応ビームフォーマ／独立成分分析器からの出力を入力し、目的音イベント情報を出力する目的音イベント検出器とを具備することを特徴とする。
【００２０】
【発明の実施の形態】
以下、本発明の実施の形態について詳細に説明する。
【００２１】
音声は、声道をフィルタとして、声帯振動を駆動音源としてみなす、音源フィルタモデルで近似できることが知られている。駆動音源はパルス的で、フィルタの応答情報が音韻性情報を担っている。そこで、駆動の時点、すなわち声門閉止のイベント情報さえ正確に抽出すれば、フィルタのインパルス応答情報が得られる。もちろん、インパルス応答が音源の基本周期よりも長ければ、波形レベルで見ると次のイベントに重畳する。しかし、実際はパルスに近い所にほとんどの情報が集まり、だんだんエネルギーが小さくなって、次のパルスの時点になる。さらにフィルタの性質から高周波成分は基本的に減衰が早いので重ならない。このことは、聴覚フィルタバンクやウェーブレット変換で信号を分析することによって見ることができる。つまり、高周波数の成分は、分析フィルタのインパルス応答も短いので重畳しなくなることが観察できる。
【００２２】
そこで、聴覚フィルタバンクやウェーブレット変換で時間周波数分析された２次元の情報から、イベント毎にフィルタのインパルス応答情報を収集し、これをまたつなぎ合わせて合成をしてやることができれば、原理的には元の音声を合成することができる。具体的な信号処理方法については、後述する。
【００２３】
従来手法での処理の流れは、信号→窓かけによる安定化→フーリエ周波数分析、あるいは、信号→フィルタバンクによる周波数分析→窓かけによる安定化だった。これによって、詳細な時間情報を使うことをあきらめて、信号をどこで分析しても同じ結果が得られる「シフト不変」的な性質をおおよそ実現させていた。
【００２４】
これに対し、本発明では、信号→フィルタバンクによる周波数分析→イベントの検出→イベント時点を原点とした時間間隔表現の抽出→時間間隔表現の時系列の生成と積分（平均化処理）による安定化という処理の流れとなる。これは、むしろ「シフト不変」的な性質を使わずに、詳細な時間情報を残すことによって特徴を取る戦略であり、この安定化によって得られた情報は、十分元の情報を保持している。この後者のような処理は、聴覚イメージモデル（上記非特許文献２参照）として既に提案されていて、これをさらに発展させ数理的な背景を与えた安定化ウェーブレットメリン変換（上記非特許文献３参照）として定式化されている。
【００２５】
これによって、イベントを原点とした信号分析が実現できたが、分析結果を音声として合成できなければ、分析合成が完結しない。このような、聴覚イメージモデルによる分析結果から音声を合成する手法は本願発明者らによって提案されている（上記非特許文献４参照）。これは聴覚ボコーダと呼ばれ、合成系のＳＴＲＡＩＧＨＴ（上記非特許文献７参照）を用いて、その間の写像関数を求めることによって実現されている。初期の聴覚ボコーダは、合成音の品質があまり高くなかったが、声帯振動イベントを積極的に用いることによって改善されることも示されている（上記非特許文献５、６参照）。
【００２６】
しかしながら、従来のボコーダ型の音声分析合成系は、背景雑音に弱いため音源分離を達成できないばかりでなく、最悪の場合むしろ雑音を増幅してしまう性質を持っていた。本発明は、この難点を解消し、イベント駆動型の聴覚ボコーダを含むイベント駆動型分析合成系を雑音抑圧や音声強調・音声分離に用いる方法と、そのための装置を提供する。
【００２７】
例えば、このイベント駆動型分析合成系を、二話者が同時に発声している場合に適用する。話者１の声帯振動イベント情報が完全に分かっているとすると、話者１の声道フィルタ情報だけを常に監視できることになる。話者２のイベント時点は、話者１のイベント時点に対して相対的にゆらぐので、平均化処理をすることによってイベント情報を相対的に減少させることができる。これにより、着目した話者１の音声だけを強調して取り出すことができるという原理である。
【００２８】
ここで、もっとも重要なのは、イベント情報を正確に抽出することであり、背景雑音がある中でいかにして目的とする音のイベント情報だけを抽出するかということが問題となる。しかしながら、逆に言えば、イベント情報だけを抽出すれば良くスペクトル形状を同時に取る必要がないので、耐雑音性を極限まで高められる可能性がある。これらについても以下の実施形態で説明する。
【００２９】
図１は本発明の実施例を示す具体的な信号処理方式のブロック図であり、ここでは、本発明のアルゴリズムの例を示す。図２はその各部の出力を示す図である。
【００３０】
まず、入力信号１は、聴覚フィルタバンク／ウェーブレット分析器（聴覚フィルタバンクあるいはウェーブレット分析器）２に入力され、周波数分析が行われる。この聴覚フィルタバンク／ウェーブレット分析器２からの出力は、図２（ａ）に示されるような、横軸が時間で縦軸がフィルタの中心周波数の２次元表示のパターンを出力する。このパターンは、フィルタバンク出力を半波整流・対数圧縮したもので、神経発火パターン（ＮｅｕｒａｌＡｃｔｉｖｉｔｙＰａｔｔｅｒｎ，ＮＡＰ）とも呼ばれ、黒いところほど活性度が高い。
【００３１】
このＮＡＰを、各聴覚フィルタの群遅延分だけ補正したものが、図２（ｂ）であり、活性度が高い部分を示す黒い帯が縦方向に揃っている。そこで、この活性度を周波数方向に縦に加算した結果が、図２（ｃ）の実線で示された周期波形である。ここで、この波のピーク位置が、音声のイベント時点に対応すると考えられる。点線で示した適応閾値処理によってピークを検出し、ピンマークで示された位置がイベント時点として得られる。たとえば、このような処理が、図１に示す目的音イベント検出器３で行われる。混合音の場合は、さらに耐雑音性を向上させるための処理を入れて、分離・処理したい目的音だけのイベント情報を取り出す。この目的音イベント検出器３の入力には、入力信号１を直接入れてもよいし、聴覚フィルタバンク／ウェーブレット分析器２の出力を用いてもよい。また、両者を用いてもかまわない。
【００３２】
この目的音イベント検出器３からの目的音イベント情報は、安定化処理器４に入力されて、たとえば聴覚イメージモデルで取られているストローブ積分のように、そのイベント時点を原点に対応付けて積分して、時間間隔ヒストグラムを作るような処理が施される。この結果、安定化聴覚イメージ５が出力される。
【００３３】
この安定化聴覚イメージ処理を、図３を用いて説明する。
【００３４】
図３（ａ）に、同時発話の音声が入った場合の群遅延補正後のＮＡＰ〔図２（ｂ）に相当〕の様子を示す。黒線の組で表された基本周期１０ｍｓの音声を目的音とし、灰色線の組を周期７ｍｓの背景音声とする。目的音と背景音は周期が異なるので、相対的な位置がいつもずれていることがわかる。
【００３５】
聴覚ボコーダの基本となっている、聴覚イメージモデルにおいては、ストローブ時間積分機構を使って、時間とともに流れていくＮＡＰから、時間的に安定化した２次元の聴覚イメージを作り出している。図３（ａ）の群遅延補正後のＮＡＰを目的音の周期である１０ｍｓごとにストローブさせると、図３（ｂ）のように、１０ｍｓ間隔で瞬時的に固定した聴覚イメージが図３（ｂ）の例ではたまたま５枚だけ生成できる。各イメージは、横軸に時間間隔軸（ＴＩ）、縦軸は聴覚フィルタ周波数の２次元の表現で、イベント時点からのおおよその時間遅れを表現している。各イメージにおいて、目的音の活性度の時間間隔位置（黒線の位置）は常に一定なのに対し、背景音の位置（灰色線の位置）はイメージごとに異なる。
【００３６】
このイメージの列に対して、ビデオ画像のフレーム間の荷重平均化と同様な操作をすることにより、時間積分を行う。この結果得られた安定化聴覚イメージを、図３（ｃ）に示す。目的音の活性度が相対的に強調され、背景音は活性度が下がり全体に広がることが分かる。すなわち、この聴覚イメージ表現の上で、目的音と背景音の強度差を強調したことになる。また、あらかじめ決めた適当な閾値処理により、さらに強度差を強調できる。
【００３７】
ここで、従来のように信号の時間方向に対して窓関数をかける代わりに、信号情報を十分に保持したまま安定化処理を行うことがポイントである。さらに、フィルタバンクの低い周波数の部分では、時間情報ばかりでなく周波数軸上で、目的音の基本周波数の調波成分を相対的に強調することも性能改善には役立つと考えられる。
【００３８】
このようにして得られた安定化聴覚イメージ５を、写像器６を用いて合成系のフーリエスペクトル情報に変換する。これには、安定化聴覚イメージ５をメリン変換することによって、スペクトル情報との対応関係が取りやすい安定化ウェーブレットメリン表現を経由してもかまわないし、直接周波数軸の変更で変換してもかまわない。
【００３９】
音声の場合、音源波形でスペクトル情報を表現するフィルタを駆動することによって音声を合成できることが知られている。そこで、目的音イベント検出器３から出力されるイベント情報によって、音源信号を作り出す音源パルス／雑音発生器７を制御する。また、スペクトルフィルタ８の周波数特性は、安定化聴覚イメージ５から写像器６を通して得られるが、この時、やはり目的音イベント検出器３の出力イベント情報を用いることによって、正確な写像を得ることができる。
【００４０】
以上の処理によって、目的音だけを分離・抽出した分離音出力９が得られる。
【００４１】
ここで、背景雑音や背景音声がある場合に、目的音のイベント情報を、目的音イベント検出器３でいかに正確に抽出するかが、本発明の音源分離装置の性能を左右する。イベント情報の抽出については、信号の時間情報から直接抽出する手法が提案されている（上記非特許文献５、６、８参照）が、まだ耐雑音性が評価されていない。これに対して基本周波数を抽出する方法については、高耐雑音性のものが提案されているので、これを用いてイベント時点を決定する方法について述べる。
【００４２】
図４は本発明の実施例を示す耐雑音性の高い目的音イベント検出器のブロック図である。
【００４３】
この図に示すように、入力信号１が、高耐雑音性基本周波数抽出器１０に入力されて、基本周波数情報が抽出される。この高耐雑音性基本周波数抽出器１０には、現在知られているもっとも優れている基本周波数推定手法、たとえば、上記非特許文献１や非特許文献１０の手法を用いることができる。これらは、基本周波数の値の１次元の時系列を出力するので、これをイベント生起の時間情報に変換する必要がある。このために、高耐雑音性基本周波数抽出器１０の出力によってイベント生成器１１を駆動してイベント系列を作り出す。このイベント生成器１１からの出力と、聴覚フィルタバンク／ウェーブレット分析器２の出力を、イベント時点調整器１２を用いて比較・補正・調整することによって、イベント時点を正確に割り出す。この結果については、高耐雑音性基本周波数抽出器１０に再入力して、周波数情報としても妥当かも確認できる。この相互作用の結果、得られた正確なイベント情報を、目的音イベント情報出力１３とする。入力情報が、たとえばマイクロホンアレーのように複数得られる場合は、さらに耐雑音性を向上させることができる、図５のような構成が考えられる。
【００４４】
図５は本発明の実施例を示す更に耐雑音性の高い目的音イベント検出器のブロック図である。
【００４５】
この図において、多チャンネル入力信号１４は、現在よく知られているような、適応ビームフォーマ／独立成分分析器１５に入力されて、目的音の情報が強調される。ここで、基本周波数を取るための情報以外は必要ないので、音韻性を担うスペクトル変形は大きくても構わず、その分、強調作用を強化できると考えられる。この適応ビームフォーマ／独立成分分析器１５からの出力を、目的音イベント検出器３に入力すれば、更に耐雑音性の高い目的音イベント情報出力１３が得られる。
【００４６】
なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づいて種々の変形が可能であり、これらを本発明の範囲から排除するものではない。
【００４７】
【発明の効果】
以上、詳細に説明したように、本発明によれば、以下のような効果を奏することができる。
【００４８】
（Ａ）従来より知られている周波数軸上で調波成分を分離・抽出する方式を用いなくても、雑音抑制や音情報分離・抽出を行うことができる。
【００４９】
（Ｂ）聴覚ボコーダによって、聴覚イメージから音を再合成できるので、この目的音が強調された聴覚イメージから音を再合成すれば、目的音を強調した音を得ることできる。
【００５０】
詳細に述べると、これまでボコーダと言えば雑音に弱いことが常識で、音声分離に用いることなど検討もされていなかったが、本発明は、その今まで考えられてこなかった聴覚ボコーダを用いた新しい方法及び装置を提供するものである。また、必要に応じて、特に低周波側で、周波数情報を用いた分離処理も導入可能である。安定化ウェーブレットメリン変換を含む聴覚イメージモデルは、人間の聴知覚系の制約を導入したモデルであって、これを用いて得られる表現は人間の知覚特性を反映させていると考えられるが、聴覚ボコーダの考え方によってこの出力表現を音として合成できる。実際に、例えば、２話者混合音から目的音声だけを分離できることを示したことは、人間の聴知覚系の特性を実現できる可能性を示したことになり、この意味で、脳科学の発展に寄与する聴覚の計算理論の一翼を担っており、人間の聴知覚系を工学的に実現するステップを確実に歩んでいると言える。この波及効果はきわめて大きく、人間がどのように音を聞くかを予測する基礎となり、応用範囲も人間が聞く音に対する信号処理すべてに関わってくる。例をいくつか挙げると、自然に聞こえる音声の分析・変形・合成や・補聴器における雑音抑圧・信号強調処理等が挙げられる。
【００５１】
また、工学的にも、現在は耐雑音性が低い音声認識装置や、携帯電話での雑音抑圧処理にも、新しい観点の信号処理として用いられる可能性がある。また、音声ばかりではなく、機械や地震の振動解析等、耐雑音性能も要求される音波に関連する信号処理にも幅広く応用が可能であると考えられる。
【図面の簡単な説明】
【図１】本発明の実施例を示す具体的な信号処理方式のブロック図である。
【図２】本発明の実施例を示す信号処理方式の各部の出力を示す図である。
【図３】本発明の実施例を示す安定化聴覚イメージ処理のプロセスを示す模式図である。
【図４】本発明の実施例を示す耐雑音性の高い目的音イベント検出器のブロック図である。
【図５】本発明の実施例を示す更なる耐雑音性の高い目的音イベント検出器のブロック図である。
【符号の説明】
１入力信号
２聴覚フィルタバンク／ウェーブレット分析器
３目的音イベント検出器
４安定化処理器
５安定化聴覚イメージ
６写像器
７音源パルス／雑音発生器
８スペクトルフィルタ
９分離音出力
１０高耐雑音性基本周波数抽出器
１１イベント生成器
１２イベント時点調整器
１３目的音イベント情報出力
１４多チャンネル入力信号
１５適応ビームフォーマ／独立成分分析器

Claims

強調や抽出をしたい目的音の駆動源の周期成分や非周期成分の情報を時間的なイベントとして抽出し、該イベントの生起の時間情報を利用して雑音抑制や音情報の分離・抽出を行うことを特徴とする音源情報を用いた音源分離・抽出方法。
周波数軸上の調波成分の抽出を行わないで、イベント情報を用いて信号表現の安定化を図る信号分析方法と、その信号分析結果から元の音を再現する方法を用いて、目的音のイベント検出器の出力に同期して処理を行い、目的音だけを分離・抽出することを特徴とする音源情報を用いた音源分離・抽出方法。
聴覚イメージモデルを分析系として持つ信号分析合成方式の聴覚ボコーダに、目的音のイベント検出器を設けることにより、目的音だけを分離・抽出することを特徴とする音源情報を用いた音源分離・抽出方法。
請求項１、２又は３記載の音源情報を用いた音源分離・抽出方法において、基本周波数の調波成分を周波数軸上で相対的に強調する処理を組み合わせることを特徴とする音源情報を用いた音源分離・抽出方法。
（ａ）入力信号が入力される聴覚フィルタバンク／ウェーブレット分析器と、
（ｂ）前記入力信号又は前記聴覚フィルタバンク／ウェーブレット分析器からの出力信号が入力される目的音イベント検出器と、
（ｃ）前記聴覚フィルタバンク／ウェーブレット分析器および前記目的音イベント検出器からの出力信号が入力され、安定化聴覚イメージが出力される安定化処理器と、
（ｄ）前記目的音イベント検出器からの出力および前記安定化聴覚イメージが入力される写像器と、
（ｅ）前記目的音イベント検出器からの出力が入力される音源パルス／雑音発生器と、
（ｆ）前記写像器および音源パルス／雑音発生器からの出力が入力され、分離音が出力されるスペクトルフィルタとを具備することを特徴とする音源情報を用いた音源分離・抽出装置。
請求項５記載の音源情報を用いた音源分離・抽出装置において、前記目的音イベント検出器が、入力信号が入力される高耐雑音性基本周波数抽出器と、該高耐雑音性基本周波数抽出器に接続されるイベント生成器と、該イベント生成器に接続されるイベント時点調整器とを具備することを特徴とする音源情報を用いた音源分離・抽出装置。
請求項５または６記載の音源情報を用いた音源分離・抽出装置において、多チャンネル入力信号が入力される適応ビームフォーマ／独立成分分析器と、該適応ビームフォーマ／独立成分分析器からの出力を入力し、目的音イベント情報を出力する目的音イベント検出器とを具備することを特徴とする音源情報を用いた音源分離・抽出装置。