JP2004258422A - 音源情報を用いた音源分離・抽出方法および装置 - Google Patents
音源情報を用いた音源分離・抽出方法および装置 Download PDFInfo
- Publication number
- JP2004258422A JP2004258422A JP2003050174A JP2003050174A JP2004258422A JP 2004258422 A JP2004258422 A JP 2004258422A JP 2003050174 A JP2003050174 A JP 2003050174A JP 2003050174 A JP2003050174 A JP 2003050174A JP 2004258422 A JP2004258422 A JP 2004258422A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- sound
- event
- information
- target sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【解決手段】入力信号1が入力される聴覚フィルタバンク/ウェーブレット分析器2と、前記入力信号1又は前記聴覚フィルタバンク/ウェーブレット分析器2からの出力信号が入力される目的音イベント検出器3と、前記聴覚フィルタバンク/ウェーブレット分析器2および前記目的音イベント検出器3からの出力信号が入力され、安定化聴覚イメージ5が出力される安定化処理器4と、前記目的音イベント検出器3からの出力および前記安定化聴覚イメージ5が入力される写像器6と、前記目的音イベント検出器3からの出力が入力される音源パルス/雑音発生器7と、前記写像器6および音源パルス/雑音発生器7からの出力が入力されるスペクトルフィルタ8とを具備する。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、音源情報を用いた音源分離・抽出方法および装置に関するものである。
【0002】
【従来の技術】
従来、複数話者同時発声からの音声音源分離手法は、特に有声音の場合を中心に検討されている。これに対して無声音の場合は手法によりまちまちで確固たる手法は見つかっていない。有声音は、特徴として、基本周波数と多くの高調波成分からなっている。このことを利用して、最も一般的な音声音源分離は次のようなステップで行われることが多い(下記非特許文献11、13参照)。
(1)目的音声の基本周波数を抽出する。
(2)目的音声に窓関数をかけて短時間フーリエ変換をしてスペクトログラムを抽出する。
(3)基本周波数の整数倍の調波成分だけを強調あるいは抽出する。
(4)強調あるいは抽出された調波成分から音を再合成する。
【0003】
もちろん、ここで挙げたものだけではなく様々なバリエーションがあるが、どの手法も、周波数軸上で等価的に櫛形のフィルタをかけて必要な部分だけを取り出す手法を取っている。また、この手法と一見異なるように見える正弦波分解を用いた手法(下記非特許文献14参照)も提案されているが、やはり調波成分に対応するものだけを取り出すので、上記手法と同等である。
【0004】
【非特許文献1】
阿竹義徳・入野俊夫・河原英紀・陸金林・中村哲・鹿野清宏(2000),
“調波成分の瞬時周波数を用いた基本周波数推定方法”電子情報通信学会誌 D−II,J83−D−II,pp.2077−2086
【非特許文献2】
Patterson,Allerhand,and Giguere(1995),“Time−domain modeling of peripheral processing:a modular architectureand a software platform.”J.Acoust.Soc.Am.,Vol.98,pp.1890−1894.
【非特許文献3】
Irino,T.,Patterson,R.D.(2002a),“Segregating information about the size and shape the vocal tract using a time−domain auditory model:The Stabilised wavelet−Mellin transform,”SpeechCommunication,36,pp.181−203.
【非特許文献4】
Irino,T.,Patterson,R.D.,Kawahara,H.(2002b),“Auditory VOCODER:Speech resynthesis from an auditory Mellin representation,”IEEE Int.Conf.Acoust.,Speech Signal Processing(ICASSP−2002),2,pp.1921−1924.
【非特許文献5】
Toshio Irino,Roy D.Patterson,and Hideki Kawahara(2002c),“An auditory vocoder resynthesis of speech from an auditory Mellin representation,”European and Japanese Acoustic SocietiesSymposium(EAA−SEA−ASJ),Forum Acusticum Sevilla 2002,HEA−02−005−IP,Sevilla,Spain,16−20,Sept.,2002.
【非特許文献6】
入野俊夫,Roy D.Patterson,河原英紀(2002d),“イベント検出に基づいた聴覚ボコーダ,”日本音響学会秋季大会講演論文集,I,pp.321−322,秋田大学
【非特許文献7】
Kawahara,H.,Masuda−Katsuse,I.,and de Cheveigne,A.(1999),“Restructuring speech representations using a pitch−adaptive time−frequency smoothing and an instantaneous−frequency−based F0 extraction:Possible role of a repetitive structure in sounds,”Speech Communication,27,pp.187−207.
【非特許文献8】
Kawahara,H.,Atake Y.,and Zolfaghari,P.(2000),“Accurate vocal event detection method based on a fixed−point to weighted average group delay”6th International Conference on Spoken Language Processing(ICSLP)2000,pp.664−667,Beijin.
【非特許文献9】
Moulines E.and Charpentier,F.(1991),“Pitch−synchronous waveform processing techniques for test−to−speech synthesis using diphones,”Speech Communication,9,pp.453−467.
【非特許文献10】
Nakatani,T.and Irino,T.(2002),“Robust fundamental frequency estimation against background noise and spectral distortion,”Int.Conf.Spoken Language Processing(ICSLP 2002),pp.1733−1736,Denver,Colorado,USA.
【非特許文献11】
長渕裕実(1986),“コームフィルタリング雑音抑圧法の基本性能とPCM音声の品質改善への応用,”電子通信学会論文誌(A),J65−A,pp.572−578.
【非特許文献12】
西一樹、安藤繁(2000),“定Qくし形フィルタとその時間/周波数特性−ピッチ変動誤差に頑健な調波信号推定のためのフィルタ特性−”,電子情報通信学会論文誌(A),J83−A,pp.152−160.
【非特許文献13】
Parsons,T.W.(1976),“Separation of speech from interfering speech by means of harmonic selectio,”J.Acoust.Soc.Am.,60,pp.911−918.
【非特許文献14】
Quatieri and Danisewicz,(1990),“An approach to co−channel talker interference suppression using a sinusoidal model for speech,”IEEE Acoust.,Speech,Signal Processing,vol.38,No.1,pp.56−69
【0005】
【発明が解決しようとする課題】
上述した手法を用いると、基本周波数を推定した後、基本周波数のおおむね3〜4倍程度くらいまでの割合低い調波成分に関しては比較的良く抽出できる。
【0006】
しかしながら、それ以上の高調波については、基本周波数の推定誤差やゆらぎが倍数で効いてくるため櫛形のフィルタの位置や抽出の対応関係がずれてしまい、有効に調波成分を抽出できない。このために、再合成された音の音質や音韻性の劣化を招くことが知られている。
【0007】
この誤差やゆらぎの影響を軽減するために定Q型の櫛形フィルタを用いることが提案されている(上記非特許文献12参照)が、本質的な解決にはなっていない。
【0008】
このように、調波成分の抽出という周波数上での処理を取らざるを得ないのは、短時間フーリエ変換を行った後に音源の分離を行おうとするからである。
【0009】
すなわち、前述したように、まず、目的音声に窓関数をかけることにより、声帯振動パルスが数個、窓の中に入った波形が得られる。これをフーリエ分析することによって調波成分が現れる。
【0010】
ところが、声帯振動は時間的にゆらいでいるので、この数パルス分の基本周波数をどう定義するかが問題となるし、仮に平均値を取るとしてもここで生じる誤差によって上記のような抽出誤りの問題が生じる。つまり、信号処理の都合から出た窓かけをすることによって、処理能力に限界を与えていることになる。
【0011】
また、これとは別の目的で、時間的なピッチ同期処理によって、音声の基本周波数を変換するPSOLAという手法が提案されており(上記非特許文献9参照)、その改良手法も多く提案されている。しかしながら、波形の上での加算をしたり、処理の途中で窓関数をかけることをしているため、音源分離には全く用いることができていない。
【0012】
本発明は、上記状況に鑑みて、周波数軸上の調波成分の抽出を行わないで、目的音だけを抽出することができる音源情報を用いた音源分離・抽出方法および装置を提供することを目的とする。
【0013】
【課題を解決するための手段】
本発明は、上記目的を達成するために、
〔1〕音源情報を用いた音源分離・抽出方法において、強調や抽出をしたい目的音の駆動源の周期成分や非周期成分の情報を時間的なイベントとして抽出し、このイベントの生起の時間情報を利用して雑音抑制や音情報の分離・抽出を行うことを特徴とする。
【0014】
〔2〕音源情報を用いた音源分離・抽出方法において、周波数軸上の調波成分の抽出を行わないで、イベント情報を用いて信号表現の安定化を図る信号分析方法と、その信号分析結果から元の音を再現する方法を用いて、目的音のイベント検出器の出力に同期して処理を行い、目的音だけを分離・抽出することを特徴とする。
【0015】
〔3〕音源情報を用いた音源分離・抽出方法において、聴覚イメージモデルを分析系として持つ信号分析合成方式の聴覚ボコーダに、目的音のイベント検出器を設けることにより、目的音だけを分離・抽出することを特徴とする。
【0016】
〔4〕上記〔1〕、〔2〕又は〔3〕記載の音源情報を用いた音源分離・抽出方法において、基本周波数の調波成分を周波数軸上で相対的に強調する処理を組み合わせることを特徴とする。
【0017】
〔5〕音源情報を用いた音源分離・抽出装置において、入力信号が入力される聴覚フィルタバンク/ウェーブレット分析器と、前記入力信号又は前記聴覚フィルタバンク/ウェーブレット分析器からの出力信号が入力される目的音イベント検出器と、前記聴覚フィルタバンク/ウェーブレット分析器および前記目的音イベント検出器からの出力信号が入力され、安定化聴覚イメージが出力される安定化処理器と、前記目的音イベント検出器からの出力および前記安定化聴覚イメージが入力される写像器と、前記目的音イベント検出器からの出力が入力され音源パルス/雑音発生器と、前記写像器および音源パルス/雑音発生器からの出力が入力され、分離音が出力されるスペクトルフィルタとを具備することを特徴とする。
【0018】
〔6〕上記〔5〕記載の音源情報を用いた音源分離・抽出装置において、前記目的音イベント検出器が、入力信号が入力される高耐雑音性基本周波数抽出器と、この高耐雑音性基本周波数抽出器に接続されるイベント生成器と、このイベント生成器に接続されるイベント時点調整器とを具備することを特徴とする。
【0019】
〔7〕上記〔5〕または〔6〕記載の音源情報を用いた音源分離・抽出装置において、多チャンネル入力信号が入力される適応ビームフォーマ/独立成分分析器と、この適応ビームフォーマ/独立成分分析器からの出力を入力し、目的音イベント情報を出力する目的音イベント検出器とを具備することを特徴とする。
【0020】
【発明の実施の形態】
以下、本発明の実施の形態について詳細に説明する。
【0021】
音声は、声道をフィルタとして、声帯振動を駆動音源としてみなす、音源フィルタモデルで近似できることが知られている。駆動音源はパルス的で、フィルタの応答情報が音韻性情報を担っている。そこで、駆動の時点、すなわち声門閉止のイベント情報さえ正確に抽出すれば、フィルタのインパルス応答情報が得られる。もちろん、インパルス応答が音源の基本周期よりも長ければ、波形レベルで見ると次のイベントに重畳する。しかし、実際はパルスに近い所にほとんどの情報が集まり、だんだんエネルギーが小さくなって、次のパルスの時点になる。さらにフィルタの性質から高周波成分は基本的に減衰が早いので重ならない。このことは、聴覚フィルタバンクやウェーブレット変換で信号を分析することによって見ることができる。つまり、高周波数の成分は、分析フィルタのインパルス応答も短いので重畳しなくなることが観察できる。
【0022】
そこで、聴覚フィルタバンクやウェーブレット変換で時間周波数分析された2次元の情報から、イベント毎にフィルタのインパルス応答情報を収集し、これをまたつなぎ合わせて合成をしてやることができれば、原理的には元の音声を合成することができる。具体的な信号処理方法については、後述する。
【0023】
従来手法での処理の流れは、信号→窓かけによる安定化→フーリエ周波数分析、あるいは、信号→フィルタバンクによる周波数分析→窓かけによる安定化だった。これによって、詳細な時間情報を使うことをあきらめて、信号をどこで分析しても同じ結果が得られる「シフト不変」的な性質をおおよそ実現させていた。
【0024】
これに対し、本発明では、信号→フィルタバンクによる周波数分析→イベントの検出→イベント時点を原点とした時間間隔表現の抽出→時間間隔表現の時系列の生成と積分(平均化処理)による安定化という処理の流れとなる。これは、むしろ「シフト不変」的な性質を使わずに、詳細な時間情報を残すことによって特徴を取る戦略であり、この安定化によって得られた情報は、十分元の情報を保持している。この後者のような処理は、聴覚イメージモデル(上記非特許文献2参照)として既に提案されていて、これをさらに発展させ数理的な背景を与えた安定化ウェーブレットメリン変換(上記非特許文献3参照)として定式化されている。
【0025】
これによって、イベントを原点とした信号分析が実現できたが、分析結果を音声として合成できなければ、分析合成が完結しない。このような、聴覚イメージモデルによる分析結果から音声を合成する手法は本願発明者らによって提案されている(上記非特許文献4参照)。これは聴覚ボコーダと呼ばれ、合成系のSTRAIGHT(上記非特許文献7参照)を用いて、その間の写像関数を求めることによって実現されている。初期の聴覚ボコーダは、合成音の品質があまり高くなかったが、声帯振動イベントを積極的に用いることによって改善されることも示されている(上記非特許文献5、6参照)。
【0026】
しかしながら、従来のボコーダ型の音声分析合成系は、背景雑音に弱いため音源分離を達成できないばかりでなく、最悪の場合むしろ雑音を増幅してしまう性質を持っていた。本発明は、この難点を解消し、イベント駆動型の聴覚ボコーダを含むイベント駆動型分析合成系を雑音抑圧や音声強調・音声分離に用いる方法と、そのための装置を提供する。
【0027】
例えば、このイベント駆動型分析合成系を、二話者が同時に発声している場合に適用する。話者1の声帯振動イベント情報が完全に分かっているとすると、話者1の声道フィルタ情報だけを常に監視できることになる。話者2のイベント時点は、話者1のイベント時点に対して相対的にゆらぐので、平均化処理をすることによってイベント情報を相対的に減少させることができる。これにより、着目した話者1の音声だけを強調して取り出すことができるという原理である。
【0028】
ここで、もっとも重要なのは、イベント情報を正確に抽出することであり、背景雑音がある中でいかにして目的とする音のイベント情報だけを抽出するかということが問題となる。しかしながら、逆に言えば、イベント情報だけを抽出すれば良くスペクトル形状を同時に取る必要がないので、耐雑音性を極限まで高められる可能性がある。これらについても以下の実施形態で説明する。
【0029】
図1は本発明の実施例を示す具体的な信号処理方式のブロック図であり、ここでは、本発明のアルゴリズムの例を示す。図2はその各部の出力を示す図である。
【0030】
まず、入力信号1は、聴覚フィルタバンク/ウェーブレット分析器(聴覚フィルタバンクあるいはウェーブレット分析器)2に入力され、周波数分析が行われる。この聴覚フィルタバンク/ウェーブレット分析器2からの出力は、図2(a)に示されるような、横軸が時間で縦軸がフィルタの中心周波数の2次元表示のパターンを出力する。このパターンは、フィルタバンク出力を半波整流・対数圧縮したもので、神経発火パターン(Neural Activity Pattern,NAP)とも呼ばれ、黒いところほど活性度が高い。
【0031】
このNAPを、各聴覚フィルタの群遅延分だけ補正したものが、図2(b)であり、活性度が高い部分を示す黒い帯が縦方向に揃っている。そこで、この活性度を周波数方向に縦に加算した結果が、図2(c)の実線で示された周期波形である。ここで、この波のピーク位置が、音声のイベント時点に対応すると考えられる。点線で示した適応閾値処理によってピークを検出し、ピンマークで示された位置がイベント時点として得られる。たとえば、このような処理が、図1に示す目的音イベント検出器3で行われる。混合音の場合は、さらに耐雑音性を向上させるための処理を入れて、分離・処理したい目的音だけのイベント情報を取り出す。この目的音イベント検出器3の入力には、入力信号1を直接入れてもよいし、聴覚フィルタバンク/ウェーブレット分析器2の出力を用いてもよい。また、両者を用いてもかまわない。
【0032】
この目的音イベント検出器3からの目的音イベント情報は、安定化処理器4に入力されて、たとえば聴覚イメージモデルで取られているストローブ積分のように、そのイベント時点を原点に対応付けて積分して、時間間隔ヒストグラムを作るような処理が施される。この結果、安定化聴覚イメージ5が出力される。
【0033】
この安定化聴覚イメージ処理を、図3を用いて説明する。
【0034】
図3(a)に、同時発話の音声が入った場合の群遅延補正後のNAP〔図2(b)に相当〕の様子を示す。黒線の組で表された基本周期10msの音声を目的音とし、灰色線の組を周期7msの背景音声とする。目的音と背景音は周期が異なるので、相対的な位置がいつもずれていることがわかる。
【0035】
聴覚ボコーダの基本となっている、聴覚イメージモデルにおいては、ストローブ時間積分機構を使って、時間とともに流れていくNAPから、時間的に安定化した2次元の聴覚イメージを作り出している。図3(a)の群遅延補正後のNAPを目的音の周期である10msごとにストローブさせると、図3(b)のように、10ms間隔で瞬時的に固定した聴覚イメージが図3(b)の例ではたまたま5枚だけ生成できる。各イメージは、横軸に時間間隔軸(TI)、縦軸は聴覚フィルタ周波数の2次元の表現で、イベント時点からのおおよその時間遅れを表現している。各イメージにおいて、目的音の活性度の時間間隔位置(黒線の位置)は常に一定なのに対し、背景音の位置(灰色線の位置)はイメージごとに異なる。
【0036】
このイメージの列に対して、ビデオ画像のフレーム間の荷重平均化と同様な操作をすることにより、時間積分を行う。この結果得られた安定化聴覚イメージを、図3(c)に示す。目的音の活性度が相対的に強調され、背景音は活性度が下がり全体に広がることが分かる。すなわち、この聴覚イメージ表現の上で、目的音と背景音の強度差を強調したことになる。また、あらかじめ決めた適当な閾値処理により、さらに強度差を強調できる。
【0037】
ここで、従来のように信号の時間方向に対して窓関数をかける代わりに、信号情報を十分に保持したまま安定化処理を行うことがポイントである。さらに、フィルタバンクの低い周波数の部分では、時間情報ばかりでなく周波数軸上で、目的音の基本周波数の調波成分を相対的に強調することも性能改善には役立つと考えられる。
【0038】
このようにして得られた安定化聴覚イメージ5を、写像器6を用いて合成系のフーリエスペクトル情報に変換する。これには、安定化聴覚イメージ5をメリン変換することによって、スペクトル情報との対応関係が取りやすい安定化ウェーブレットメリン表現を経由してもかまわないし、直接周波数軸の変更で変換してもかまわない。
【0039】
音声の場合、音源波形でスペクトル情報を表現するフィルタを駆動することによって音声を合成できることが知られている。そこで、目的音イベント検出器3から出力されるイベント情報によって、音源信号を作り出す音源パルス/雑音発生器7を制御する。また、スペクトルフィルタ8の周波数特性は、安定化聴覚イメージ5から写像器6を通して得られるが、この時、やはり目的音イベント検出器3の出力イベント情報を用いることによって、正確な写像を得ることができる。
【0040】
以上の処理によって、目的音だけを分離・抽出した分離音出力9が得られる。
【0041】
ここで、背景雑音や背景音声がある場合に、目的音のイベント情報を、目的音イベント検出器3でいかに正確に抽出するかが、本発明の音源分離装置の性能を左右する。イベント情報の抽出については、信号の時間情報から直接抽出する手法が提案されている(上記非特許文献5、6、8参照)が、まだ耐雑音性が評価されていない。これに対して基本周波数を抽出する方法については、高耐雑音性のものが提案されているので、これを用いてイベント時点を決定する方法について述べる。
【0042】
図4は本発明の実施例を示す耐雑音性の高い目的音イベント検出器のブロック図である。
【0043】
この図に示すように、入力信号1が、高耐雑音性基本周波数抽出器10に入力されて、基本周波数情報が抽出される。この高耐雑音性基本周波数抽出器10には、現在知られているもっとも優れている基本周波数推定手法、たとえば、上記非特許文献1や非特許文献10の手法を用いることができる。これらは、基本周波数の値の1次元の時系列を出力するので、これをイベント生起の時間情報に変換する必要がある。このために、高耐雑音性基本周波数抽出器10の出力によってイベント生成器11を駆動してイベント系列を作り出す。このイベント生成器11からの出力と、聴覚フィルタバンク/ウェーブレット分析器2の出力を、イベント時点調整器12を用いて比較・補正・調整することによって、イベント時点を正確に割り出す。この結果については、高耐雑音性基本周波数抽出器10に再入力して、周波数情報としても妥当かも確認できる。この相互作用の結果、得られた正確なイベント情報を、目的音イベント情報出力13とする。入力情報が、たとえばマイクロホンアレーのように複数得られる場合は、さらに耐雑音性を向上させることができる、図5のような構成が考えられる。
【0044】
図5は本発明の実施例を示す更に耐雑音性の高い目的音イベント検出器のブロック図である。
【0045】
この図において、多チャンネル入力信号14は、現在よく知られているような、適応ビームフォーマ/独立成分分析器15に入力されて、目的音の情報が強調される。ここで、基本周波数を取るための情報以外は必要ないので、音韻性を担うスペクトル変形は大きくても構わず、その分、強調作用を強化できると考えられる。この適応ビームフォーマ/独立成分分析器15からの出力を、目的音イベント検出器3に入力すれば、更に耐雑音性の高い目的音イベント情報出力13が得られる。
【0046】
なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づいて種々の変形が可能であり、これらを本発明の範囲から排除するものではない。
【0047】
【発明の効果】
以上、詳細に説明したように、本発明によれば、以下のような効果を奏することができる。
【0048】
(A)従来より知られている周波数軸上で調波成分を分離・抽出する方式を用いなくても、雑音抑制や音情報分離・抽出を行うことができる。
【0049】
(B)聴覚ボコーダによって、聴覚イメージから音を再合成できるので、この目的音が強調された聴覚イメージから音を再合成すれば、目的音を強調した音を得ることできる。
【0050】
詳細に述べると、これまでボコーダと言えば雑音に弱いことが常識で、音声分離に用いることなど検討もされていなかったが、本発明は、その今まで考えられてこなかった聴覚ボコーダを用いた新しい方法及び装置を提供するものである。また、必要に応じて、特に低周波側で、周波数情報を用いた分離処理も導入可能である。安定化ウェーブレットメリン変換を含む聴覚イメージモデルは、人間の聴知覚系の制約を導入したモデルであって、これを用いて得られる表現は人間の知覚特性を反映させていると考えられるが、聴覚ボコーダの考え方によってこの出力表現を音として合成できる。実際に、例えば、2話者混合音から目的音声だけを分離できることを示したことは、人間の聴知覚系の特性を実現できる可能性を示したことになり、この意味で、脳科学の発展に寄与する聴覚の計算理論の一翼を担っており、人間の聴知覚系を工学的に実現するステップを確実に歩んでいると言える。この波及効果はきわめて大きく、人間がどのように音を聞くかを予測する基礎となり、応用範囲も人間が聞く音に対する信号処理すべてに関わってくる。例をいくつか挙げると、自然に聞こえる音声の分析・変形・合成や・補聴器における雑音抑圧・信号強調処理等が挙げられる。
【0051】
また、工学的にも、現在は耐雑音性が低い音声認識装置や、携帯電話での雑音抑圧処理にも、新しい観点の信号処理として用いられる可能性がある。また、音声ばかりではなく、機械や地震の振動解析等、耐雑音性能も要求される音波に関連する信号処理にも幅広く応用が可能であると考えられる。
【図面の簡単な説明】
【図1】本発明の実施例を示す具体的な信号処理方式のブロック図である。
【図2】本発明の実施例を示す信号処理方式の各部の出力を示す図である。
【図3】本発明の実施例を示す安定化聴覚イメージ処理のプロセスを示す模式図である。
【図4】本発明の実施例を示す耐雑音性の高い目的音イベント検出器のブロック図である。
【図5】本発明の実施例を示す更なる耐雑音性の高い目的音イベント検出器のブロック図である。
【符号の説明】
1 入力信号
2 聴覚フィルタバンク/ウェーブレット分析器
3 目的音イベント検出器
4 安定化処理器
5 安定化聴覚イメージ
6 写像器
7 音源パルス/雑音発生器
8 スペクトルフィルタ
9 分離音出力
10 高耐雑音性基本周波数抽出器
11 イベント生成器
12 イベント時点調整器
13 目的音イベント情報出力
14 多チャンネル入力信号
15 適応ビームフォーマ/独立成分分析器
Claims (7)
- 強調や抽出をしたい目的音の駆動源の周期成分や非周期成分の情報を時間的なイベントとして抽出し、該イベントの生起の時間情報を利用して雑音抑制や音情報の分離・抽出を行うことを特徴とする音源情報を用いた音源分離・抽出方法。
- 周波数軸上の調波成分の抽出を行わないで、イベント情報を用いて信号表現の安定化を図る信号分析方法と、その信号分析結果から元の音を再現する方法を用いて、目的音のイベント検出器の出力に同期して処理を行い、目的音だけを分離・抽出することを特徴とする音源情報を用いた音源分離・抽出方法。
- 聴覚イメージモデルを分析系として持つ信号分析合成方式の聴覚ボコーダに、目的音のイベント検出器を設けることにより、目的音だけを分離・抽出することを特徴とする音源情報を用いた音源分離・抽出方法。
- 請求項1、2又は3記載の音源情報を用いた音源分離・抽出方法において、基本周波数の調波成分を周波数軸上で相対的に強調する処理を組み合わせることを特徴とする音源情報を用いた音源分離・抽出方法。
- (a)入力信号が入力される聴覚フィルタバンク/ウェーブレット分析器と、
(b)前記入力信号又は前記聴覚フィルタバンク/ウェーブレット分析器からの出力信号が入力される目的音イベント検出器と、
(c)前記聴覚フィルタバンク/ウェーブレット分析器および前記目的音イベント検出器からの出力信号が入力され、安定化聴覚イメージが出力される安定化処理器と、
(d)前記目的音イベント検出器からの出力および前記安定化聴覚イメージが入力される写像器と、
(e)前記目的音イベント検出器からの出力が入力される音源パルス/雑音発生器と、
(f)前記写像器および音源パルス/雑音発生器からの出力が入力され、分離音が出力されるスペクトルフィルタとを具備することを特徴とする音源情報を用いた音源分離・抽出装置。 - 請求項5記載の音源情報を用いた音源分離・抽出装置において、前記目的音イベント検出器が、入力信号が入力される高耐雑音性基本周波数抽出器と、該高耐雑音性基本周波数抽出器に接続されるイベント生成器と、該イベント生成器に接続されるイベント時点調整器とを具備することを特徴とする音源情報を用いた音源分離・抽出装置。
- 請求項5または6記載の音源情報を用いた音源分離・抽出装置において、多チャンネル入力信号が入力される適応ビームフォーマ/独立成分分析器と、該適応ビームフォーマ/独立成分分析器からの出力を入力し、目的音イベント情報を出力する目的音イベント検出器とを具備することを特徴とする音源情報を用いた音源分離・抽出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003050174A JP2004258422A (ja) | 2003-02-27 | 2003-02-27 | 音源情報を用いた音源分離・抽出方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003050174A JP2004258422A (ja) | 2003-02-27 | 2003-02-27 | 音源情報を用いた音源分離・抽出方法および装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004258422A true JP2004258422A (ja) | 2004-09-16 |
Family
ID=33115656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003050174A Pending JP2004258422A (ja) | 2003-02-27 | 2003-02-27 | 音源情報を用いた音源分離・抽出方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004258422A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013543987A (ja) * | 2010-10-22 | 2013-12-09 | クゥアルコム・インコーポレイテッド | 遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体 |
JP2015045737A (ja) * | 2013-08-28 | 2015-03-12 | 日本電信電話株式会社 | 信号区間分類装置、信号区間分類方法、およびプログラム |
CN113053354A (zh) * | 2021-03-12 | 2021-06-29 | 云知声智能科技股份有限公司 | 一种提高语音合成效果的方法和设备 |
-
2003
- 2003-02-27 JP JP2003050174A patent/JP2004258422A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013543987A (ja) * | 2010-10-22 | 2013-12-09 | クゥアルコム・インコーポレイテッド | 遠距離場マルチ音源追跡および分離のためのシステム、方法、装置およびコンピュータ可読媒体 |
US9100734B2 (en) | 2010-10-22 | 2015-08-04 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation |
JP2015045737A (ja) * | 2013-08-28 | 2015-03-12 | 日本電信電話株式会社 | 信号区間分類装置、信号区間分類方法、およびプログラム |
CN113053354A (zh) * | 2021-03-12 | 2021-06-29 | 云知声智能科技股份有限公司 | 一种提高语音合成效果的方法和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6279181B2 (ja) | 音響信号強調装置 | |
US9536540B2 (en) | Speech signal separation and synthesis based on auditory scene analysis and speech modeling | |
Yegnanarayana et al. | Epoch-based analysis of speech signals | |
US8255222B2 (en) | Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus | |
JP4516157B2 (ja) | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム | |
JPWO2011004579A1 (ja) | 声質変換装置、音高変換装置および声質変換方法 | |
JP2011033717A (ja) | 雑音抑圧装置 | |
JP4736632B2 (ja) | ボーカル・フライ検出装置及びコンピュータプログラム | |
JP3960834B2 (ja) | 音声強調装置及び音声強調方法 | |
Aneeja et al. | Extraction of fundamental frequency from degraded speech using temporal envelopes at high SNR frequencies | |
US20080219457A1 (en) | Enhancement of Speech Intelligibility in a Mobile Communication Device by Controlling the Operation of a Vibrator of a Vibrator in Dependance of the Background Noise | |
JP2005266797A (ja) | 音源信号分離装置及び方法、並びにピッチ検出装置及び方法 | |
JP4381404B2 (ja) | 音声合成システム、音声合成方法、音声合成プログラム | |
JP2012208177A (ja) | 帯域拡張装置及び音声補正装置 | |
JP4999757B2 (ja) | 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体 | |
JP2006017946A (ja) | 音声処理装置およびプログラム | |
JP3174777B2 (ja) | 信号処理方法および装置 | |
Babacan et al. | Parametric representation for singing voice synthesis: A comparative evaluation | |
JP2004258422A (ja) | 音源情報を用いた音源分離・抽出方法および装置 | |
JP2841797B2 (ja) | 音声分析・合成装置 | |
Lehana et al. | Speech synthesis in Indian languages | |
CN111226278A (zh) | 低复杂度的浊音语音检测和基音估计 | |
KR20050062643A (ko) | 대역확장장치 및 방법 | |
JP7378770B2 (ja) | 評価装置、評価方法、及び評価プログラム | |
JP2005189483A (ja) | 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050308 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050628 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060523 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060614 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20060728 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20061110 |