JP2005031169A - 音声信号処理装置,その方法,そのプログラム - Google Patents
音声信号処理装置,その方法,そのプログラム Download PDFInfo
- Publication number
- JP2005031169A JP2005031169A JP2003193356A JP2003193356A JP2005031169A JP 2005031169 A JP2005031169 A JP 2005031169A JP 2003193356 A JP2003193356 A JP 2003193356A JP 2003193356 A JP2003193356 A JP 2003193356A JP 2005031169 A JP2005031169 A JP 2005031169A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- time axis
- sound
- signals
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】入力音声信号に複数の音源からの音声信号が重畳されている場合であっても,各音源からの音声信号の特性に応じた時間軸伸縮を行い,伸縮後の音声品質の劣化を防止できること。
【解決手段】入力音声信号(CH1〜CHn)から該入力音声信号に重畳されている複数の要素音声信号(y1〜ym)を分離する音源分離ぶ10と,分離された要素音声信号ごとに同じ伸縮率で時間軸の圧縮又は伸長を行う時間軸調節部20と,圧縮又は伸長された後の複数の要素音声信号(y1’〜ym’)を音源分離部10における分離処理と逆の処理により合成する音源合成部30とを具備する音声信号処理装置X。
【選択図】図1
【解決手段】入力音声信号(CH1〜CHn)から該入力音声信号に重畳されている複数の要素音声信号(y1〜ym)を分離する音源分離ぶ10と,分離された要素音声信号ごとに同じ伸縮率で時間軸の圧縮又は伸長を行う時間軸調節部20と,圧縮又は伸長された後の複数の要素音声信号(y1’〜ym’)を音源分離部10における分離処理と逆の処理により合成する音源合成部30とを具備する音声信号処理装置X。
【選択図】図1
Description
【0001】
【発明の属する技術分野】
本発明は,複数の音源からの音声信号が重畳されている入力音声信号の時間軸の圧縮及び/又は伸張を行う音声信号処理装置及びその方法に関するものである。
【0002】
【従来の技術】
カラオケのテンポ(速度)変更やビデオの再生速度変更等を行う際に,音程を変えずに音声信号(オーディオ信号)の再生速度を速くしたり遅くしたりする時間軸圧縮伸張処理(音声信号処理の一例)が必要となる。
従来,時間軸圧縮伸長の方式としては,例えば,特許文献1に示されるように,対象波形より対象音源の波形の一部を伸縮率(時間比率)に合う長さになるようにカット&ペーストして生成する方式や,特許文献2に示されるように,ある区間毎の周波数単位で抽出されたピーク周波数毎にサイン波のモデリングを行い合成を行う方式,或いは特許文献3,非特許文献1及び非特許文献2に示されるように,対象音源のピッチ周期に基づいて時間伸縮する方式等が提案されている。
特許文献3,非特許文献1及び非特許文献2に示される技術は,音声信号の周期性の強い部分を見出し,その周期(ピッチ周期)の単位での音声信号の省略や繰り返し(挿入)によって(ピッチ周期に基づく)時間軸圧縮伸張処理を行うPICOLA(Pointer Interval Control OverLap and Add,ポインター移動量制御による重複加算法)方式に関するものである。このPICOLA方式では,音声信号における省略するピッチ周期分の信号をその次のピッチ周期分の信号にクロスフェードの重み付けにより重複加算する,或いは挿入するピッチ周期分の信号をその前後のピッチ周期分の信号をクロスフェードの重み付けにより重複加算した信号とする手法が採用されている。
【0003】
図8は,PICOLA方式により時間軸圧縮が行われる際の音声信号の波形を模式的に表したものである。
まず,図8(a)に示すように,時間軸圧縮(音声信号の省略)の対象となる音声信号の範囲の先頭位置Po1にポインタが設定され,このポインタ位置Po1からの音声信号について,そのピッチ周期P(強い周期性を有する周期)が検出される。ピッチ周期Pの検出方法の例については後述する。
次に,図8(b)に示すように,前記ポインタ位置Po1からピッチ周期P分の(ピッチ周期Pの長さの)2つの信号a,bをクロスフェードの重み付けにより重複加算した信号a’を生成する。即ち,2つの信号a,bを合成(加算)する際に,図8(a)に破線W1,W2で示すように,信号aに対する重みは時間軸が進むに従ってフェードアウト(次第に低下)し,信号bに対する重みは時間軸が進むに従ってフェードイン(次第に増大)するようクロスフェードの重み付けがなされる。
次に,信号aを削除(省略)するとともに,信号bを信号a’に置き換える。これにより,1ピッチ周期P分の時間軸圧縮が完了する。ここで,音声信号の省略部に設定された信号a’は,クロスフェードの重み付けにより重複加算した信号であるので,その前後の音声信号との繋がりがスムーズとなり,違和感の少ない時間軸圧縮が可能となる。
次に,目標圧縮比(目標時間比率)がRx(0<Rx<1)であるとすると,ポインタが,前記Po1の位置からC(=P×Rx/(1−Rx))だけ進んだ位置Po2に再設定され,前記Po1の位置から位置Po2までの圧縮処理後の音声信号が出力されるとともに,このポインタ位置Po2から同様の時間軸圧縮処理が繰り返される。これにより,P+Cの長さの元の音声信号から,Cの長さの圧縮音声信号が生成(出力)されることになり,目標圧縮比Rx(=C/(P+C))を達成する時間軸圧縮がなされる。
【0004】
一方,図9は,PICOLA方式により時間軸伸張が行われる際の音声信号の波形を模式的に表したものである。
まず,図9(a)に示すように,時間軸伸張(音声信号の挿入)の対象となる音声信号の範囲の先頭位置Po3にポインタが設定され,このポインタ位置Po3からの音声信号について,そのピッチ周期P(強い周期性を有する周期)が検出される。
次に,図9(b)に示すように,前記ポインタ位置Po3からピッチ周期P分の(ピッチ周期Pの長さの)2つの信号a,bをクロスフェードの重み付けにより重複加算した信号a’を生成する。時間軸伸張の場合のクロスフェードの重み付けは,図9(a)に破線W3,W4で示すように,信号aに対する重みは時間軸が進むに従ってフェードイン(次第に増加)し,信号bに対する重みは時間軸が進むに従ってフェードアウト(次第に低下)するよう重み付けがなされる。
次に,信号a,bの間に信号a’を挿入する。これにより,1ピッチ周期P分の時間軸伸張が完了する。ここで,挿入された信号a’は,クロスフェードの重み付けにより重複加算した信号であるので,その前後の音声信号との繋がりがスムーズとなり,違和感の少ない時間軸伸張が可能となる。
次に,目標伸張比がRy(0<Ry<1)であるとすると,ポインタが,前記Po3の位置からP+S(S=P×1/(Ry−1))だけ進んだ位置Po4に再設定され,前記Po3の位置から位置Po4までの伸張処理後の音声信号が出力されるとともに,このポインタ位置Po4から同様の時間軸伸張処理が繰り返される。これにより,Sの長さの元の音声信号から,P+Sの長さの圧縮音声信号が生成(出力)されることになり,目標伸張比Ry(=(P+S)/S)を達成する時間軸伸張がなされる。
【0005】
一方,ステレオオーディオ信号等のように入力音声信号が複数チャンネルの音声信号である場合に,音声信号の圧縮伸張に用いるピッチ周期を,全てのチャンネルで統一(共通化)する従来技術がある。
例えば,特許文献4には,ステレオ音声信号のLチャンネルとRチャンネルとを加算した信号(L+R)についてピッチ周期を検出し,そのピッチ周期に基づいて両チャンネルの音声信号の圧縮伸張処理(PICOLA)を行う技術が提案されている。
さらに,特許文献5には,複数のチャンネル信号を加算した信号或いは最大の振幅を有するチャンネル信号についてピッチ周期を検出し,そのピッチ周期に基づいて全てのチャンネル信号の圧縮伸張処理を行う技術が提案されている。
【0006】
【特許文献1】
特開平10−25759号公報
【特許文献2】
特開2000−20100号公報
【特許文献3】
特開2001−1256号公報
【特許文献4】
特開2001−5500号公報
【特許文献5】
特開2002−297200号公報
【非特許文献1】
森田,板倉「自己相関関数を用いた音声の時間軸での伸縮」日本音響学会講演論文集,S61.3,PP199−200
【非特許文献2】
森田,板倉「ポインター移動量制御による重複加算法(PICOLA)を用いた音声の時間軸での伸張圧縮とその評価」,S61.10,PP149−150
【非特許文献3】
猿渡洋「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告,vol.EA2001−7,pp.49−56,April 2001.
【非特許文献4】
高谷智哉他「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」電子情報通信学会技術報告,vol.US2002−87,EA2002−108,January 2003.
【非特許文献5】
T.Nishikawa, H.Saruwatari, and K.Shikano,”Comparison of blind source separation methods based on time−domain ICA using nonstationarity and multistage ICA”,IEICE Technical Report, vol.EA2001−112, pp49−56, April 2001.
【0007】
【発明が解決しようとする課題】
ところで,処理する入力音声信号が,1つの音源(一人の声,1つの楽器の音等)からの音声信号(以下,要素音声信号という)からなる場合,その要素音声信号を所定のサンプリングレートでサンプリングすると,比較的強い周期性を有するので,前記ピッチ周期Pに基づいて時間軸伸縮(音声信号の部分的挿入/削除)を行えば,前後の繋がりがスムーズな違和感の少ない時間軸伸縮が可能となる。
しかしながら,入力音声信号に複数の前記要素音声信号が混在している(重畳されている)場合,その音声信号(以下,重畳音声信号という)から検出した前記ピッチ周期Pは,前記要素音声信号それぞれの周期性の全てには合致せず,そのような前記ピッチ周期Pに基づいて時間軸伸縮を行うと,前後の繋がりのスムーズ性が欠け,音声品質が劣化するという問題点があった。これは,入力音声信号における複数チャンネルの各チャンネル信号が前記要素音声信号に相当すると考えた場合,特許文献4に示される技術で時間軸伸縮を行うときに生じる問題でもあるといえる。
また,特許文献5に示される技術を適用するため,仮に,前記重畳音声信号から最大の振幅を有する前記要素音声信号についての前記ピッチ周期Pを検出できたとしても,そのピッチ周期Pはその他の(相対的に振幅の小さい)前記要素音声信号の周期性とは合致せず,そのような前記ピッチ周期Pに基づいて時間軸伸縮を行うと,やはり前後の繋がりのスムーズ性が欠け,音声品質が劣化するという問題点があった。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,入力音声信号に複数の音源からの音声信号が重畳されている場合であっても,各音源からの音声信号の特性に応じた時間軸伸縮を行い,伸縮後の音声品質の劣化を防止できる音声信号処理装置及びその方法並びにそのプログラムを提供することにある。
【0008】
【課題を解決するための手段】
上記目的を達成するために本発明は,1又は複数のチャンネルの入力音声信号の時間軸の伸長及び/又は圧縮を行う音声信号処理装置において,前記入力音声信号から該入力音声信号に重畳されている複数の要素音声信号を分離する音源分離手段と,前記音源分離手段により分離された前記要素音声信号ごとに同じ時間比率で時間軸の圧縮及び/又は伸長を行う時間軸調節手段と,前記時間軸調節手段により圧縮又は伸長された後の複数の前記要素音声信号を所定の処理により合成する音声合成手段と,を具備してなることを特徴とする音声信号処理装置として構成されるものである。
これにより,入力音声信号に複数の音源からの音声信号(前記要素音声信号)が重畳されている場合でも,その要素音声信号それぞれについて時間軸の伸縮が行われるので,処理後の音声品質の劣化を防止することができる。
ここで,好適な前記時間軸調節手段としては,前記要素音声信号から得られるピッチ周期に基づいて時間軸の圧縮及び/又は伸張を行うものが考えられる。
また,前記音声合成手段の処理としては,前記音源分離手段における分離処理と逆の処理とすることや,単に足し合わせる処理等が考えられる。
【0009】
また,前記音源分離手段としては,複数チャンネルの前記入力音声信号から独立成分分析によるブラインド音源分離方式に基づいて複数の要素音声信号を分離するものや,それぞれ通過帯域の異なる複数の周波数フィルタによる周波数分離に基づいて複数の要素音声信号を分離するもの等が考えられる。
【0010】
また,本発明は,前記音声信号処理装置の処理に対応する音声信号処理方法として捉えたものであってもよい。
即ち,1又は複数のチャンネルの入力音声信号の時間軸の伸長及び/又は圧縮を行う音声信号処理方法において,前記入力音声信号から該入力音声信号に合成されている複数の要素音声信号を分離する音源分離工程と,前記音源分離工程により分離された前記要素音声信号ごとに同じ時間比率で時間軸の圧縮及び/又は伸長を行う時間軸調節工程と,前記時間軸調節工程により圧縮又は伸長された後の複数の前記要素音声信号を所定の処理により合成する音声合成工程と,を有してなることを特徴とする音声信号処理方法である。
【0011】
同様に,本発明は,前記音声信号処理装置の処理をコンピュータに実行させるための音声信号処理プログラムとして捉えたものであってもよい。
即ち,1又は複数のチャンネルの入力音声信号の時間軸の伸長及び/又は圧縮を行う処理をコンピュータに実行させるための音声信号処理プログラムにおいて,前記入力音声信号から該入力音声信号に合成されている複数の要素音声信号を分離する音源分離工程と,前記音源分離工程により分離された前記要素音声信号ごとに同じ時間比率で時間軸の圧縮及び/又は伸長を行う時間軸調節工程と,前記時間軸調節工程により圧縮又は伸長された後の複数の前記要素音声信号を所定の処理により合成する音声合成工程と,をコンピュータに実行させることを特徴とする音声信号処理プログラムである。
【0012】
【発明の実施の形態】
以下添付図面を参照しながら,本発明の実施の形態及び実施例について説明し,本発明の理解に供する。尚,以下の実施の形態及び実施例は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は本発明の実施の形態に係る音声信号処理装置Xの概略構成を表すブロック図,図2は音声信号処理装置Xが備える時間軸伸縮部をピッチ周期に基づく時間軸伸縮部としたときの概略構成を表すブロック図,図3は複数の音源からの音声信号が重畳された入力音声信号の波形の一例を表す図,図4は入力音声信号に重畳された各音源からの音声信号それぞれの波形の一例を表す図,図5は複数の音源からの音声信号が重畳された入力音声信号の周波数分布を表すグラフ,図6は音声信号処理装置Xが備える音源分離部を構成する周波数フィルタのフィルタ特性を表すグラフ,図7は本発明の第1の実施例に係る音声信号処理装置におけるTDICAによるブラインド音源分離方式の音源分離部の概略構成を表すブロック図,図8はPICOLA方式により音声信号の時間軸圧縮が行われる際の音声信号の波形を模式的に表した図,図9はPICOLA方式により音声信号の時間軸伸張が行われる際の音声信号の波形を模式的に表した図,図10は本発明の第2の実施例に係る音声信号処理装置におけるSIMO−ICAによるブラインド音源分離方式の音源分離部の概略構成を表すブロック図である。
【0013】
以下,図1を用いて,本発明の実施の形態に係る音声信号処理装置Xについて説明する。
音声信号処理装置Xは,複数(nチャンネル)のチャンネル信号(CH1〜CHn)からなる入力音声信号を入力し,該入力音声信号(チャンネル信号)に重畳されている複数の音源からの音声信号(要素音声信号(y1〜ym))を分離する音源分離部10と,該音源分離部10により分離された前記要素音声信号(y1〜ym)ごとに同じ時間比率で時間軸の圧縮及び伸長を行う時間軸伸縮部(21〜2m)からなる時間軸調節部20と,該時間軸調節部20により圧縮又は伸長された後の複数の前記要素音声信号(y1’〜ym’)を,前記音源分離部10から入力する所定の分離情報に基づいて前記音源分離部10における分離処理と逆の処理により合成した出力音声信号として,複数チャンネルの前記入力信号(CH1〜CHn)それぞれに対応する時間軸伸縮後の複数チャンネルの出力音声信号(CH1’〜CHn’)を出力する音源合成部30(前記音声合成手段の一例)とを具備している。
【0014】
図2は,図1に示した音声信号処理装置Xが備える前記時間軸伸縮部(21〜2m)として,ピッチ周期に基づくPICOLA方式の時間軸伸縮部を適用した場合の概略構成を表すブロック図である。
この場合,前記時間軸伸縮部(21〜2m)は,それぞれ前記要素音声信号(y1〜ym)からピッチ周期(周期性の強い部分の周期)を検出するピッチ周期検出部(211〜2m1)と,該ピッチ周期検出部により検出されたピッチ周期に基づいて前記要素音声信号それぞれについてPICOLA方式により時間軸の伸長又は圧縮を行う信号伸縮部(212〜2m2)とを具備している。
図1及び図2に示す各構成要素10〜30は,それぞれCPU及びその周辺装置(ROM,RAM等)とそのCPUにより実行されるプログラムとにより構成することも考えられるが,1つのCPU及びその周辺装置を有するコンピュータにより,図1及び図2に示す各構成要素が行う処理に対応するプログラムモジュールを実行するよう構成されたものも考えられる。
【0015】
前記ピッチ周期検出部(211〜2m1)によるピッチ周期の検出(算出)方法の一例としては,ピッチ周期Pの候補jとして予めj=N0〜Nの所定範囲を設定し,このピッチ周期候補j(N0〜N)それぞれについての周期性の強さを比較し,最も周期性が強いと評価される周期をピッチ周期Pとする方法が考えられる。
例えば,周期性の評価対象とする前記有効信号Xiの時間範囲(サンプル数)iを0〜N(ここで,参照される有効信号の最大時間範囲は,0〜2N)としたときに,周期性の強さの評価関数を,次の(1)式や(2)式とすることが考えられる。
【数1】
【数2】
これらは,jサンプルだけ離れた信号値同士の差(絶対値又は2乗値)を計算し,その差が小さいほど周期jにおける周期性が強い(即ち,周期jごとに似た波形が現れる)として評価するものである。従って,j=N0〜Nそれぞれについて,(1)式又は(2)式による評価値を計算し,その評価値が最も小さくなるときのjをピッチ周期Pとして検出(算出)する。
そして,前記信号伸縮部(212〜2m2)は,以上のようにして検出されたピッチ周期Pに基づいて,前記要素音声信号(y1〜ym)それぞれについて所望の伸縮率(時間比率)で前述したPICOLA方式(図8,図9参照)によって時間軸圧縮又は伸張を行い,圧縮又は伸張後の要素音声信号(y1’〜ym’)を出力する。
【0016】
図3は,複数の音源からの音声信号(前記要素音声信号)が重畳された1チャンネルの入力音声信号の波形の一例を表す図である。
また,図4(a),(b)は,図3に示した入力音声信号(チャンネル信号)に重畳された各音源からの音声信号(前記要素音声信号)それぞれの波形を表す。
さらに図5は,図3に示した入力音声信号(チャンネル信号)の周波数分布を表すグラフである。
図4,図5からわかるように,図3に示した入力音声信号(チャンネル信号)は,周波数の異なる(70Hz帯と100Hz帯)2つの前記要素音声信号が重畳された(混在した)音声信号である。以下,図3に示すような入力音声信号が入力される場合についての実施の形態について述べる。
【0017】
図3に示す音声信号のように,入力音声信号にそれぞれ周波数の異なる複数の音源の前記要素音声信号が重畳されている場合,前記音源分離部10としては,前記要素音声信号それぞれの周波数を通過帯域とする複数の周波数フィルタを具備し,入力音声信号をそれらの周波数フィルタに通過させることによって前記要素音声信号それぞれを分離するものが考えられる。
例えば,図3に示す音声信号を処理する場合は,図6(a)に示す通過周波数特性を有する周波数フィルタA(約85Hz以下を通過帯域とするLOWパスフィルタ)と,図6(b)に示す通過周波数特性を有する周波数フィルタB(約85Hz以上を通過帯域とするHighパスフィルタ)とを設け,1チャンネルの入力音声信号を単純分岐(分岐後の出力レベルは各々元の1/2)して両フィルタA,Bに通過させれば,図4に示した2つの前記要素音声信号をそれぞれ分離(周波数分離)できる。
また,所定の時間ごとに入力音声信号の周波数ピークを検出する周波数ピーク検出手段を設け,検出されたピーク周波数(図3〜図5の例では,70Hz付近と100Hz付近)及び個数に対応する周波数フィルタ(帯域分割フィルタ)を選択して周波数フィルタリングを行うよう構成したものも考えられる。
【0018】
以上のようにして周波数分離された前記要素音声信号(y1,y2)は,それぞれ前記時間軸伸縮部(21,22)によって同じ伸縮率(時間比率)でPICOLA方式による時間軸の伸長又は圧縮が行われる。ここで,伸縮率は外部から不図示のインターフェースを通じて前記時間軸処理部(21,22)それぞれに設定される。
このように,音源ごとに(前記要素音声信号ごとに)ピッチ周期を検出して音源それぞれの周期性に基づく時間軸伸縮が行われるので,前記要素信号それぞれについて前後の繋がりがスムーズな違和感の少ない時間軸伸縮が可能となる。
そして,このように繋がりがスムーズな時間軸伸縮が行われた前記要素音声信号(y1’,y2’)について,前記音源合成部30において合成を行った出力音声信号(CH1’)は,劣化の少ない高音質の音声信号となる。
【0019】
ところで,ピッチ周期分の音声信号の削除・挿入により時間軸圧縮・伸張が施された出力音声信号(CH1’〜CHn’)は,その周波数が変換されて圧縮・伸張される場合と異なり,入出力間で音程は変わらない。
ここで,前記音源合成部30の後段に,時間軸圧縮・伸張が施された音声信号(CH1’〜CHn’)それぞれについて,元の時間長に戻すようにサンプリングレート変換を行うサンプリングレート変換部(音程変換手段)を設ければ,音声品質の劣化が小さい音程変換処理の実現が可能となる。
即ち,目標圧縮比Rx(0<Rx<1)で時間軸圧縮された音声信号(CH1〜CHn’)を,その時間長が1/Rx倍となるようにサンプリングレート変換を行って再生すれば,信号が遅く再生されることになるので,再生信号(サンプリングレート変換後の信号)の周波数がRx倍となり,音程がその分だけ低くなる。同様に,目標伸張率Ry(>1)で時間軸伸張された音声信号(CH1’〜CHn’)を,その時間長が1/Ry倍となるようにサンプリングレート変換を行って再生すれば,信号が速く再生されることになるので,再生信号の周波数がRy倍となり,音程がその分だけ高くなる。従って,入力音声信号の周波数に対する出力音声信号(再生信号)の周波数の比をRzとすると,所望のRzが設定された場合に,0<Rz<1の場合は,Rx←Rzとして時間軸圧縮を,Rz>1の場合は,Ry←Rzとして時間軸伸張を行った後に,元の時間長となるようにサンプリングレート変換を行えば,所望の音程変換が可能となる。
【0020】
また,本実施の形態では,入力音声信号に2つの前記要素音声信号が重畳されている場合について示したが,3つ以上の前記要素音声信号が重畳された音声信号を入力音声信号とすることも考えられる。
この場合,前記音源分離部10に,それぞれ通過周波数帯域が異なる3つ以上の周波数フィルタを設け,前記入力音声信号をそれらに分岐して通過させるよう構成すればよい。この場合,分岐後の信号を前記時間軸伸縮部(21〜2m)に出力する前に増幅するアンプを設け,前記音源合成部30においてその増幅分と逆比率の信号レベル調節を行えば,分岐信号のレベル低下によるSN比の悪化を防止できる。
【0021】
【実施例】
(第1の実施例)
次に,図7を用いて,前記音声信号処理装置Xにおける前記音源分離部10に,ブラインド音源分離方式(BSS方式)の音源分離手段を適用した場合の第1の実施例について説明する。
BSS(Blind Source Separation)方式の詳細は,例えば非特許文献3や非特許文献4等に詳説されている。
図7は,独立成分分析によるBSS方式の一種であるTDICA(time−domain independent component analysis)による音源分離部10’の概略構成を表す。図7には,2つの音源1,2からの音声を2つのマイクロホン(111,112)で入力した2チャンネルの入力音声信号(x1(t),x2(t))について音源分離を行う例について示しているが,2チャンネル以上であっても同様である。BSS方式による音源分離の場合,(入力音声信号のチャンネル数n)≧(音源(要素音声信号)の数m)であればよい。
複数のマイクロホン(111,112)で集音された入力音声信号x(t)は音源信号S(t)の時間的空間的なたたみ込み信号として表現され,次の(3)式のように表される。
x(t) = A(z)・S(t) …(3)
TDICAによる音源分離の理論は,この音源信号S(t)のそれぞれの音源同士が統計的に独立であることを利用すると,x(t)がわかればS(t)を推測することができ,従って,音源を分離することができるという発想に基づく理論である。
ここで,音源分離演算手段12における音源分離に用いる行列をW(z)とすれば,分離後の信号をy(t)は,次の(4)式で表される。
y(t) = W(z)・x(t) …(4)
また,W(z)は,逐次y(t)の出力から求められる。
なお,音源合成処理はこのW(z)に関する情報により,逆演算処理に相当する配列を形成し,これを用いて逆演算を行えばよい。
このようなBSS方式による音源分離を行うことにより,例えば,人の歌声とギター等の楽器の音とが混合した入力音声信号が歌声のみの信号(要素音声信号)と楽器の音のみの信号(要素音声信号)とに分離される。
その結果,前記時間軸伸縮部(21,22)により,音源ごとに(前記要素音声信号ごとに)ピッチ周期を検出して音源それぞれの周期性に基づく時間軸伸縮が行われるので音質劣化を大幅に軽減でき,高音質の音声信号を出力することができる。
【0022】
(第2の実施例)
次に,図10を用いて,前記音声信号処理装置Xにおける前記音源分離部10に,非特許文献4の図3に示されるBSS方式の音源分離手段を適用する場合の第2の実施例について説明する。
図10は,非特許文献4の図3を引用したものであり,独立成分分析によるBSS方式の一種であるSIMO−ICA(single−input multiple−output independent component analysis)による音源分離部10”の概略構成を表す。図10には,L個の音源音声信号(音源音声信号)S1〜SLがK個のマイクロホンで入力され,前記音源信号S1〜SLが重畳したKチャンネルの入力音声信号(x1(t)〜xk(t))について音源分離を行う例について示している。
入力音声信号(x1(t)〜xk(t))が,独立成分分析の基本ブロック(ICA1〜ICAL)を用いて構成されたSIMO−ICAブロック41により処理されて,音声信号y(以下,細分離信号yという)が得られる。この細分離信号yそれぞれは,各チャンネルで観測される(各マイクに入力された)各音源信号に対応するものである。
例えば,図10では,細分離信号y1 (1)(t)は,A11(Z)S1(t)と等価である旨を示しているが,これは1つ目の音源信号S1(t)が,所定の音響特性A11(Z)を経て1つ目のマイクに入力された(第1チャンネルの)音声信号であり,1つ目のマイクの入力音声信号x1(t)に重畳されている前記音源信号の1つの成分を意味している。
ここで,SIMO−ICAでは,前記細分離信号yを各入力チャンネルごとに関連するものを全て加算すると,元の入力音声信号xに戻ることを制約条件として定式化されている。
例えば,図10におけるA1j(Z)Sj(t),(j:1〜L)を全て加算すると,x1(t)に戻る。この特性は,SIMO−ICAによる音源分離方式を前記音源分離部10”に適用した場合,これを再度合成する際には単に加算すればよいことを意味し,合成処理が単純化され都合が良い。
【0023】
前記SIMO−ICAブロック41により分離された前記細分離信号yに基づいて時間軸伸縮を行う場合,例えば,以下のようにすることが考えられる。
まず,前記細分離信号yを各音源に対応するものどうしでグループ化する。これにより音源の数(L個)の信号群にグループ化される。以下,このグループ化された信号群を音声信号グループ42という。この音声信号グループ42(複数の音声信号)が前記要素音声信号に相当する。このような複数の音声信号からなる信号群も前記要素音声信号の一例である。
次に,前記音声信号グループ42(要素音声信号)ごとに,同じ伸縮率(時間比率)で時間軸の圧縮又は伸長を行う。例えば,前記音声信号グループ42に含まれる前記細分離信号yのうち,少なくとも1つを用いて前記ピッチ周期を求め,そのピッチ周期を用いてその音声信号グループ42内の全ての前記細分離信号yについて時間軸伸長処理を行う。この処理を,全ての前記音声信号グループ42について実行する。このようにして前記細分離信号yについて時間軸伸縮が施された後の信号を,以下,伸縮後細分離信号y’という。
次に,前記音源合成部30において,前記伸縮後細分離信号y’を,今度は,各チャンネルごとにグループ化し,各グループごとに含まれる前記伸縮後細分離信号y’を合成する。この合成は,SIMO−ICAによる音源分離を行っている場合には,前述したように単に加算するだけでよい。
この第2の実施例のような時間軸伸縮によっても,音源ごとに(前記要素音声信号ごとに)ピッチ周期を検出して音源それぞれの周期性に基づく時間軸伸縮が行われるので,音質劣化を大幅に軽減でき,高音質の音声信号を出力することができる。しかも,合成処理が簡易である。
【0024】
また,本実施例では,BSS方式の一例として,TDICA及びSIMO−ICAの例について説明したが,この他にもFDICA(Frequency−domain independent component analysis)法やそれらを統合するような多段ICA法等,様々な方式が種々存在し,これらを適応してもかまわない。多段ICA法については,非特許文献5に詳しい。BSS法を用いることにより複数音源の周波数成分がオーバーラップしているような信号でも音源を分離することができ,前記実施の形態に示した帯域フィルタ手法では実現できなかった,より実用性の高い構成とすることができる。
【0025】
【発明の効果】
以上説明したように,本発明によれば,入力音声信号に重畳されている複数の音源からの要素音声信号を分離し,分離後のそれぞれの要素音声信号についてその特性(ピッチ周期等)に応じた時間軸伸縮が行われた信号を合成するので,伸縮処理後の音声品質の劣化を防止することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る音声信号処理装置Xの概略構成を表すブロック図。
【図2】音声信号処理装置Xが備える時間軸伸縮部をピッチ周期に基づく時間軸伸縮部としたときの概略構成を表すブロック図。
【図3】複数の音源からの音声信号が重畳された入力音声信号の波形の一例を表す図。
【図4】入力音声信号に重畳された各音源からの音声信号それぞれの波形の一例を表す図。
【図5】複数の音源からの音声信号が重畳された入力音声信号の周波数分布を表すグラフ。
【図6】音声信号処理装置Xが備える音源分離部を構成する周波数フィルタのフィルタ特性を表すグラフ。
【図7】本発明の第1の実施例に係る音声信号処理装置におけるTDICAによるブラインド音源分離方式の音源分離部の概略構成を表すブロック図。
【図8】PICOLA方式により音声信号の時間軸圧縮が行われる際の音声信号の波形を模式的に表した図。
【図9】PICOLA方式により音声信号の時間軸伸張が行われる際の音声信号の波形を模式的に表した図。
【図10】本発明の第2の実施例に係る音声信号処理装置におけるSIMO−ICAによるブラインド音源分離方式の音源分離部の概略構成を表すブロック図。
【符号の説明】
1,2…音源
10,10’,10”…音源分離部(音源分離手段)
111,112…マイクロホン
12…音源分離演算手段
20…時間軸調節部(時間軸調節手段)
21〜2m…時間軸伸縮部
211〜2m1…ピッチ周期検出部
212〜2m2…信号伸縮部
30…音源合成部(音声合成手段)
【発明の属する技術分野】
本発明は,複数の音源からの音声信号が重畳されている入力音声信号の時間軸の圧縮及び/又は伸張を行う音声信号処理装置及びその方法に関するものである。
【0002】
【従来の技術】
カラオケのテンポ(速度)変更やビデオの再生速度変更等を行う際に,音程を変えずに音声信号(オーディオ信号)の再生速度を速くしたり遅くしたりする時間軸圧縮伸張処理(音声信号処理の一例)が必要となる。
従来,時間軸圧縮伸長の方式としては,例えば,特許文献1に示されるように,対象波形より対象音源の波形の一部を伸縮率(時間比率)に合う長さになるようにカット&ペーストして生成する方式や,特許文献2に示されるように,ある区間毎の周波数単位で抽出されたピーク周波数毎にサイン波のモデリングを行い合成を行う方式,或いは特許文献3,非特許文献1及び非特許文献2に示されるように,対象音源のピッチ周期に基づいて時間伸縮する方式等が提案されている。
特許文献3,非特許文献1及び非特許文献2に示される技術は,音声信号の周期性の強い部分を見出し,その周期(ピッチ周期)の単位での音声信号の省略や繰り返し(挿入)によって(ピッチ周期に基づく)時間軸圧縮伸張処理を行うPICOLA(Pointer Interval Control OverLap and Add,ポインター移動量制御による重複加算法)方式に関するものである。このPICOLA方式では,音声信号における省略するピッチ周期分の信号をその次のピッチ周期分の信号にクロスフェードの重み付けにより重複加算する,或いは挿入するピッチ周期分の信号をその前後のピッチ周期分の信号をクロスフェードの重み付けにより重複加算した信号とする手法が採用されている。
【0003】
図8は,PICOLA方式により時間軸圧縮が行われる際の音声信号の波形を模式的に表したものである。
まず,図8(a)に示すように,時間軸圧縮(音声信号の省略)の対象となる音声信号の範囲の先頭位置Po1にポインタが設定され,このポインタ位置Po1からの音声信号について,そのピッチ周期P(強い周期性を有する周期)が検出される。ピッチ周期Pの検出方法の例については後述する。
次に,図8(b)に示すように,前記ポインタ位置Po1からピッチ周期P分の(ピッチ周期Pの長さの)2つの信号a,bをクロスフェードの重み付けにより重複加算した信号a’を生成する。即ち,2つの信号a,bを合成(加算)する際に,図8(a)に破線W1,W2で示すように,信号aに対する重みは時間軸が進むに従ってフェードアウト(次第に低下)し,信号bに対する重みは時間軸が進むに従ってフェードイン(次第に増大)するようクロスフェードの重み付けがなされる。
次に,信号aを削除(省略)するとともに,信号bを信号a’に置き換える。これにより,1ピッチ周期P分の時間軸圧縮が完了する。ここで,音声信号の省略部に設定された信号a’は,クロスフェードの重み付けにより重複加算した信号であるので,その前後の音声信号との繋がりがスムーズとなり,違和感の少ない時間軸圧縮が可能となる。
次に,目標圧縮比(目標時間比率)がRx(0<Rx<1)であるとすると,ポインタが,前記Po1の位置からC(=P×Rx/(1−Rx))だけ進んだ位置Po2に再設定され,前記Po1の位置から位置Po2までの圧縮処理後の音声信号が出力されるとともに,このポインタ位置Po2から同様の時間軸圧縮処理が繰り返される。これにより,P+Cの長さの元の音声信号から,Cの長さの圧縮音声信号が生成(出力)されることになり,目標圧縮比Rx(=C/(P+C))を達成する時間軸圧縮がなされる。
【0004】
一方,図9は,PICOLA方式により時間軸伸張が行われる際の音声信号の波形を模式的に表したものである。
まず,図9(a)に示すように,時間軸伸張(音声信号の挿入)の対象となる音声信号の範囲の先頭位置Po3にポインタが設定され,このポインタ位置Po3からの音声信号について,そのピッチ周期P(強い周期性を有する周期)が検出される。
次に,図9(b)に示すように,前記ポインタ位置Po3からピッチ周期P分の(ピッチ周期Pの長さの)2つの信号a,bをクロスフェードの重み付けにより重複加算した信号a’を生成する。時間軸伸張の場合のクロスフェードの重み付けは,図9(a)に破線W3,W4で示すように,信号aに対する重みは時間軸が進むに従ってフェードイン(次第に増加)し,信号bに対する重みは時間軸が進むに従ってフェードアウト(次第に低下)するよう重み付けがなされる。
次に,信号a,bの間に信号a’を挿入する。これにより,1ピッチ周期P分の時間軸伸張が完了する。ここで,挿入された信号a’は,クロスフェードの重み付けにより重複加算した信号であるので,その前後の音声信号との繋がりがスムーズとなり,違和感の少ない時間軸伸張が可能となる。
次に,目標伸張比がRy(0<Ry<1)であるとすると,ポインタが,前記Po3の位置からP+S(S=P×1/(Ry−1))だけ進んだ位置Po4に再設定され,前記Po3の位置から位置Po4までの伸張処理後の音声信号が出力されるとともに,このポインタ位置Po4から同様の時間軸伸張処理が繰り返される。これにより,Sの長さの元の音声信号から,P+Sの長さの圧縮音声信号が生成(出力)されることになり,目標伸張比Ry(=(P+S)/S)を達成する時間軸伸張がなされる。
【0005】
一方,ステレオオーディオ信号等のように入力音声信号が複数チャンネルの音声信号である場合に,音声信号の圧縮伸張に用いるピッチ周期を,全てのチャンネルで統一(共通化)する従来技術がある。
例えば,特許文献4には,ステレオ音声信号のLチャンネルとRチャンネルとを加算した信号(L+R)についてピッチ周期を検出し,そのピッチ周期に基づいて両チャンネルの音声信号の圧縮伸張処理(PICOLA)を行う技術が提案されている。
さらに,特許文献5には,複数のチャンネル信号を加算した信号或いは最大の振幅を有するチャンネル信号についてピッチ周期を検出し,そのピッチ周期に基づいて全てのチャンネル信号の圧縮伸張処理を行う技術が提案されている。
【0006】
【特許文献1】
特開平10−25759号公報
【特許文献2】
特開2000−20100号公報
【特許文献3】
特開2001−1256号公報
【特許文献4】
特開2001−5500号公報
【特許文献5】
特開2002−297200号公報
【非特許文献1】
森田,板倉「自己相関関数を用いた音声の時間軸での伸縮」日本音響学会講演論文集,S61.3,PP199−200
【非特許文献2】
森田,板倉「ポインター移動量制御による重複加算法(PICOLA)を用いた音声の時間軸での伸張圧縮とその評価」,S61.10,PP149−150
【非特許文献3】
猿渡洋「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告,vol.EA2001−7,pp.49−56,April 2001.
【非特許文献4】
高谷智哉他「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」電子情報通信学会技術報告,vol.US2002−87,EA2002−108,January 2003.
【非特許文献5】
T.Nishikawa, H.Saruwatari, and K.Shikano,”Comparison of blind source separation methods based on time−domain ICA using nonstationarity and multistage ICA”,IEICE Technical Report, vol.EA2001−112, pp49−56, April 2001.
【0007】
【発明が解決しようとする課題】
ところで,処理する入力音声信号が,1つの音源(一人の声,1つの楽器の音等)からの音声信号(以下,要素音声信号という)からなる場合,その要素音声信号を所定のサンプリングレートでサンプリングすると,比較的強い周期性を有するので,前記ピッチ周期Pに基づいて時間軸伸縮(音声信号の部分的挿入/削除)を行えば,前後の繋がりがスムーズな違和感の少ない時間軸伸縮が可能となる。
しかしながら,入力音声信号に複数の前記要素音声信号が混在している(重畳されている)場合,その音声信号(以下,重畳音声信号という)から検出した前記ピッチ周期Pは,前記要素音声信号それぞれの周期性の全てには合致せず,そのような前記ピッチ周期Pに基づいて時間軸伸縮を行うと,前後の繋がりのスムーズ性が欠け,音声品質が劣化するという問題点があった。これは,入力音声信号における複数チャンネルの各チャンネル信号が前記要素音声信号に相当すると考えた場合,特許文献4に示される技術で時間軸伸縮を行うときに生じる問題でもあるといえる。
また,特許文献5に示される技術を適用するため,仮に,前記重畳音声信号から最大の振幅を有する前記要素音声信号についての前記ピッチ周期Pを検出できたとしても,そのピッチ周期Pはその他の(相対的に振幅の小さい)前記要素音声信号の周期性とは合致せず,そのような前記ピッチ周期Pに基づいて時間軸伸縮を行うと,やはり前後の繋がりのスムーズ性が欠け,音声品質が劣化するという問題点があった。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,入力音声信号に複数の音源からの音声信号が重畳されている場合であっても,各音源からの音声信号の特性に応じた時間軸伸縮を行い,伸縮後の音声品質の劣化を防止できる音声信号処理装置及びその方法並びにそのプログラムを提供することにある。
【0008】
【課題を解決するための手段】
上記目的を達成するために本発明は,1又は複数のチャンネルの入力音声信号の時間軸の伸長及び/又は圧縮を行う音声信号処理装置において,前記入力音声信号から該入力音声信号に重畳されている複数の要素音声信号を分離する音源分離手段と,前記音源分離手段により分離された前記要素音声信号ごとに同じ時間比率で時間軸の圧縮及び/又は伸長を行う時間軸調節手段と,前記時間軸調節手段により圧縮又は伸長された後の複数の前記要素音声信号を所定の処理により合成する音声合成手段と,を具備してなることを特徴とする音声信号処理装置として構成されるものである。
これにより,入力音声信号に複数の音源からの音声信号(前記要素音声信号)が重畳されている場合でも,その要素音声信号それぞれについて時間軸の伸縮が行われるので,処理後の音声品質の劣化を防止することができる。
ここで,好適な前記時間軸調節手段としては,前記要素音声信号から得られるピッチ周期に基づいて時間軸の圧縮及び/又は伸張を行うものが考えられる。
また,前記音声合成手段の処理としては,前記音源分離手段における分離処理と逆の処理とすることや,単に足し合わせる処理等が考えられる。
【0009】
また,前記音源分離手段としては,複数チャンネルの前記入力音声信号から独立成分分析によるブラインド音源分離方式に基づいて複数の要素音声信号を分離するものや,それぞれ通過帯域の異なる複数の周波数フィルタによる周波数分離に基づいて複数の要素音声信号を分離するもの等が考えられる。
【0010】
また,本発明は,前記音声信号処理装置の処理に対応する音声信号処理方法として捉えたものであってもよい。
即ち,1又は複数のチャンネルの入力音声信号の時間軸の伸長及び/又は圧縮を行う音声信号処理方法において,前記入力音声信号から該入力音声信号に合成されている複数の要素音声信号を分離する音源分離工程と,前記音源分離工程により分離された前記要素音声信号ごとに同じ時間比率で時間軸の圧縮及び/又は伸長を行う時間軸調節工程と,前記時間軸調節工程により圧縮又は伸長された後の複数の前記要素音声信号を所定の処理により合成する音声合成工程と,を有してなることを特徴とする音声信号処理方法である。
【0011】
同様に,本発明は,前記音声信号処理装置の処理をコンピュータに実行させるための音声信号処理プログラムとして捉えたものであってもよい。
即ち,1又は複数のチャンネルの入力音声信号の時間軸の伸長及び/又は圧縮を行う処理をコンピュータに実行させるための音声信号処理プログラムにおいて,前記入力音声信号から該入力音声信号に合成されている複数の要素音声信号を分離する音源分離工程と,前記音源分離工程により分離された前記要素音声信号ごとに同じ時間比率で時間軸の圧縮及び/又は伸長を行う時間軸調節工程と,前記時間軸調節工程により圧縮又は伸長された後の複数の前記要素音声信号を所定の処理により合成する音声合成工程と,をコンピュータに実行させることを特徴とする音声信号処理プログラムである。
【0012】
【発明の実施の形態】
以下添付図面を参照しながら,本発明の実施の形態及び実施例について説明し,本発明の理解に供する。尚,以下の実施の形態及び実施例は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は本発明の実施の形態に係る音声信号処理装置Xの概略構成を表すブロック図,図2は音声信号処理装置Xが備える時間軸伸縮部をピッチ周期に基づく時間軸伸縮部としたときの概略構成を表すブロック図,図3は複数の音源からの音声信号が重畳された入力音声信号の波形の一例を表す図,図4は入力音声信号に重畳された各音源からの音声信号それぞれの波形の一例を表す図,図5は複数の音源からの音声信号が重畳された入力音声信号の周波数分布を表すグラフ,図6は音声信号処理装置Xが備える音源分離部を構成する周波数フィルタのフィルタ特性を表すグラフ,図7は本発明の第1の実施例に係る音声信号処理装置におけるTDICAによるブラインド音源分離方式の音源分離部の概略構成を表すブロック図,図8はPICOLA方式により音声信号の時間軸圧縮が行われる際の音声信号の波形を模式的に表した図,図9はPICOLA方式により音声信号の時間軸伸張が行われる際の音声信号の波形を模式的に表した図,図10は本発明の第2の実施例に係る音声信号処理装置におけるSIMO−ICAによるブラインド音源分離方式の音源分離部の概略構成を表すブロック図である。
【0013】
以下,図1を用いて,本発明の実施の形態に係る音声信号処理装置Xについて説明する。
音声信号処理装置Xは,複数(nチャンネル)のチャンネル信号(CH1〜CHn)からなる入力音声信号を入力し,該入力音声信号(チャンネル信号)に重畳されている複数の音源からの音声信号(要素音声信号(y1〜ym))を分離する音源分離部10と,該音源分離部10により分離された前記要素音声信号(y1〜ym)ごとに同じ時間比率で時間軸の圧縮及び伸長を行う時間軸伸縮部(21〜2m)からなる時間軸調節部20と,該時間軸調節部20により圧縮又は伸長された後の複数の前記要素音声信号(y1’〜ym’)を,前記音源分離部10から入力する所定の分離情報に基づいて前記音源分離部10における分離処理と逆の処理により合成した出力音声信号として,複数チャンネルの前記入力信号(CH1〜CHn)それぞれに対応する時間軸伸縮後の複数チャンネルの出力音声信号(CH1’〜CHn’)を出力する音源合成部30(前記音声合成手段の一例)とを具備している。
【0014】
図2は,図1に示した音声信号処理装置Xが備える前記時間軸伸縮部(21〜2m)として,ピッチ周期に基づくPICOLA方式の時間軸伸縮部を適用した場合の概略構成を表すブロック図である。
この場合,前記時間軸伸縮部(21〜2m)は,それぞれ前記要素音声信号(y1〜ym)からピッチ周期(周期性の強い部分の周期)を検出するピッチ周期検出部(211〜2m1)と,該ピッチ周期検出部により検出されたピッチ周期に基づいて前記要素音声信号それぞれについてPICOLA方式により時間軸の伸長又は圧縮を行う信号伸縮部(212〜2m2)とを具備している。
図1及び図2に示す各構成要素10〜30は,それぞれCPU及びその周辺装置(ROM,RAM等)とそのCPUにより実行されるプログラムとにより構成することも考えられるが,1つのCPU及びその周辺装置を有するコンピュータにより,図1及び図2に示す各構成要素が行う処理に対応するプログラムモジュールを実行するよう構成されたものも考えられる。
【0015】
前記ピッチ周期検出部(211〜2m1)によるピッチ周期の検出(算出)方法の一例としては,ピッチ周期Pの候補jとして予めj=N0〜Nの所定範囲を設定し,このピッチ周期候補j(N0〜N)それぞれについての周期性の強さを比較し,最も周期性が強いと評価される周期をピッチ周期Pとする方法が考えられる。
例えば,周期性の評価対象とする前記有効信号Xiの時間範囲(サンプル数)iを0〜N(ここで,参照される有効信号の最大時間範囲は,0〜2N)としたときに,周期性の強さの評価関数を,次の(1)式や(2)式とすることが考えられる。
【数1】
【数2】
これらは,jサンプルだけ離れた信号値同士の差(絶対値又は2乗値)を計算し,その差が小さいほど周期jにおける周期性が強い(即ち,周期jごとに似た波形が現れる)として評価するものである。従って,j=N0〜Nそれぞれについて,(1)式又は(2)式による評価値を計算し,その評価値が最も小さくなるときのjをピッチ周期Pとして検出(算出)する。
そして,前記信号伸縮部(212〜2m2)は,以上のようにして検出されたピッチ周期Pに基づいて,前記要素音声信号(y1〜ym)それぞれについて所望の伸縮率(時間比率)で前述したPICOLA方式(図8,図9参照)によって時間軸圧縮又は伸張を行い,圧縮又は伸張後の要素音声信号(y1’〜ym’)を出力する。
【0016】
図3は,複数の音源からの音声信号(前記要素音声信号)が重畳された1チャンネルの入力音声信号の波形の一例を表す図である。
また,図4(a),(b)は,図3に示した入力音声信号(チャンネル信号)に重畳された各音源からの音声信号(前記要素音声信号)それぞれの波形を表す。
さらに図5は,図3に示した入力音声信号(チャンネル信号)の周波数分布を表すグラフである。
図4,図5からわかるように,図3に示した入力音声信号(チャンネル信号)は,周波数の異なる(70Hz帯と100Hz帯)2つの前記要素音声信号が重畳された(混在した)音声信号である。以下,図3に示すような入力音声信号が入力される場合についての実施の形態について述べる。
【0017】
図3に示す音声信号のように,入力音声信号にそれぞれ周波数の異なる複数の音源の前記要素音声信号が重畳されている場合,前記音源分離部10としては,前記要素音声信号それぞれの周波数を通過帯域とする複数の周波数フィルタを具備し,入力音声信号をそれらの周波数フィルタに通過させることによって前記要素音声信号それぞれを分離するものが考えられる。
例えば,図3に示す音声信号を処理する場合は,図6(a)に示す通過周波数特性を有する周波数フィルタA(約85Hz以下を通過帯域とするLOWパスフィルタ)と,図6(b)に示す通過周波数特性を有する周波数フィルタB(約85Hz以上を通過帯域とするHighパスフィルタ)とを設け,1チャンネルの入力音声信号を単純分岐(分岐後の出力レベルは各々元の1/2)して両フィルタA,Bに通過させれば,図4に示した2つの前記要素音声信号をそれぞれ分離(周波数分離)できる。
また,所定の時間ごとに入力音声信号の周波数ピークを検出する周波数ピーク検出手段を設け,検出されたピーク周波数(図3〜図5の例では,70Hz付近と100Hz付近)及び個数に対応する周波数フィルタ(帯域分割フィルタ)を選択して周波数フィルタリングを行うよう構成したものも考えられる。
【0018】
以上のようにして周波数分離された前記要素音声信号(y1,y2)は,それぞれ前記時間軸伸縮部(21,22)によって同じ伸縮率(時間比率)でPICOLA方式による時間軸の伸長又は圧縮が行われる。ここで,伸縮率は外部から不図示のインターフェースを通じて前記時間軸処理部(21,22)それぞれに設定される。
このように,音源ごとに(前記要素音声信号ごとに)ピッチ周期を検出して音源それぞれの周期性に基づく時間軸伸縮が行われるので,前記要素信号それぞれについて前後の繋がりがスムーズな違和感の少ない時間軸伸縮が可能となる。
そして,このように繋がりがスムーズな時間軸伸縮が行われた前記要素音声信号(y1’,y2’)について,前記音源合成部30において合成を行った出力音声信号(CH1’)は,劣化の少ない高音質の音声信号となる。
【0019】
ところで,ピッチ周期分の音声信号の削除・挿入により時間軸圧縮・伸張が施された出力音声信号(CH1’〜CHn’)は,その周波数が変換されて圧縮・伸張される場合と異なり,入出力間で音程は変わらない。
ここで,前記音源合成部30の後段に,時間軸圧縮・伸張が施された音声信号(CH1’〜CHn’)それぞれについて,元の時間長に戻すようにサンプリングレート変換を行うサンプリングレート変換部(音程変換手段)を設ければ,音声品質の劣化が小さい音程変換処理の実現が可能となる。
即ち,目標圧縮比Rx(0<Rx<1)で時間軸圧縮された音声信号(CH1〜CHn’)を,その時間長が1/Rx倍となるようにサンプリングレート変換を行って再生すれば,信号が遅く再生されることになるので,再生信号(サンプリングレート変換後の信号)の周波数がRx倍となり,音程がその分だけ低くなる。同様に,目標伸張率Ry(>1)で時間軸伸張された音声信号(CH1’〜CHn’)を,その時間長が1/Ry倍となるようにサンプリングレート変換を行って再生すれば,信号が速く再生されることになるので,再生信号の周波数がRy倍となり,音程がその分だけ高くなる。従って,入力音声信号の周波数に対する出力音声信号(再生信号)の周波数の比をRzとすると,所望のRzが設定された場合に,0<Rz<1の場合は,Rx←Rzとして時間軸圧縮を,Rz>1の場合は,Ry←Rzとして時間軸伸張を行った後に,元の時間長となるようにサンプリングレート変換を行えば,所望の音程変換が可能となる。
【0020】
また,本実施の形態では,入力音声信号に2つの前記要素音声信号が重畳されている場合について示したが,3つ以上の前記要素音声信号が重畳された音声信号を入力音声信号とすることも考えられる。
この場合,前記音源分離部10に,それぞれ通過周波数帯域が異なる3つ以上の周波数フィルタを設け,前記入力音声信号をそれらに分岐して通過させるよう構成すればよい。この場合,分岐後の信号を前記時間軸伸縮部(21〜2m)に出力する前に増幅するアンプを設け,前記音源合成部30においてその増幅分と逆比率の信号レベル調節を行えば,分岐信号のレベル低下によるSN比の悪化を防止できる。
【0021】
【実施例】
(第1の実施例)
次に,図7を用いて,前記音声信号処理装置Xにおける前記音源分離部10に,ブラインド音源分離方式(BSS方式)の音源分離手段を適用した場合の第1の実施例について説明する。
BSS(Blind Source Separation)方式の詳細は,例えば非特許文献3や非特許文献4等に詳説されている。
図7は,独立成分分析によるBSS方式の一種であるTDICA(time−domain independent component analysis)による音源分離部10’の概略構成を表す。図7には,2つの音源1,2からの音声を2つのマイクロホン(111,112)で入力した2チャンネルの入力音声信号(x1(t),x2(t))について音源分離を行う例について示しているが,2チャンネル以上であっても同様である。BSS方式による音源分離の場合,(入力音声信号のチャンネル数n)≧(音源(要素音声信号)の数m)であればよい。
複数のマイクロホン(111,112)で集音された入力音声信号x(t)は音源信号S(t)の時間的空間的なたたみ込み信号として表現され,次の(3)式のように表される。
x(t) = A(z)・S(t) …(3)
TDICAによる音源分離の理論は,この音源信号S(t)のそれぞれの音源同士が統計的に独立であることを利用すると,x(t)がわかればS(t)を推測することができ,従って,音源を分離することができるという発想に基づく理論である。
ここで,音源分離演算手段12における音源分離に用いる行列をW(z)とすれば,分離後の信号をy(t)は,次の(4)式で表される。
y(t) = W(z)・x(t) …(4)
また,W(z)は,逐次y(t)の出力から求められる。
なお,音源合成処理はこのW(z)に関する情報により,逆演算処理に相当する配列を形成し,これを用いて逆演算を行えばよい。
このようなBSS方式による音源分離を行うことにより,例えば,人の歌声とギター等の楽器の音とが混合した入力音声信号が歌声のみの信号(要素音声信号)と楽器の音のみの信号(要素音声信号)とに分離される。
その結果,前記時間軸伸縮部(21,22)により,音源ごとに(前記要素音声信号ごとに)ピッチ周期を検出して音源それぞれの周期性に基づく時間軸伸縮が行われるので音質劣化を大幅に軽減でき,高音質の音声信号を出力することができる。
【0022】
(第2の実施例)
次に,図10を用いて,前記音声信号処理装置Xにおける前記音源分離部10に,非特許文献4の図3に示されるBSS方式の音源分離手段を適用する場合の第2の実施例について説明する。
図10は,非特許文献4の図3を引用したものであり,独立成分分析によるBSS方式の一種であるSIMO−ICA(single−input multiple−output independent component analysis)による音源分離部10”の概略構成を表す。図10には,L個の音源音声信号(音源音声信号)S1〜SLがK個のマイクロホンで入力され,前記音源信号S1〜SLが重畳したKチャンネルの入力音声信号(x1(t)〜xk(t))について音源分離を行う例について示している。
入力音声信号(x1(t)〜xk(t))が,独立成分分析の基本ブロック(ICA1〜ICAL)を用いて構成されたSIMO−ICAブロック41により処理されて,音声信号y(以下,細分離信号yという)が得られる。この細分離信号yそれぞれは,各チャンネルで観測される(各マイクに入力された)各音源信号に対応するものである。
例えば,図10では,細分離信号y1 (1)(t)は,A11(Z)S1(t)と等価である旨を示しているが,これは1つ目の音源信号S1(t)が,所定の音響特性A11(Z)を経て1つ目のマイクに入力された(第1チャンネルの)音声信号であり,1つ目のマイクの入力音声信号x1(t)に重畳されている前記音源信号の1つの成分を意味している。
ここで,SIMO−ICAでは,前記細分離信号yを各入力チャンネルごとに関連するものを全て加算すると,元の入力音声信号xに戻ることを制約条件として定式化されている。
例えば,図10におけるA1j(Z)Sj(t),(j:1〜L)を全て加算すると,x1(t)に戻る。この特性は,SIMO−ICAによる音源分離方式を前記音源分離部10”に適用した場合,これを再度合成する際には単に加算すればよいことを意味し,合成処理が単純化され都合が良い。
【0023】
前記SIMO−ICAブロック41により分離された前記細分離信号yに基づいて時間軸伸縮を行う場合,例えば,以下のようにすることが考えられる。
まず,前記細分離信号yを各音源に対応するものどうしでグループ化する。これにより音源の数(L個)の信号群にグループ化される。以下,このグループ化された信号群を音声信号グループ42という。この音声信号グループ42(複数の音声信号)が前記要素音声信号に相当する。このような複数の音声信号からなる信号群も前記要素音声信号の一例である。
次に,前記音声信号グループ42(要素音声信号)ごとに,同じ伸縮率(時間比率)で時間軸の圧縮又は伸長を行う。例えば,前記音声信号グループ42に含まれる前記細分離信号yのうち,少なくとも1つを用いて前記ピッチ周期を求め,そのピッチ周期を用いてその音声信号グループ42内の全ての前記細分離信号yについて時間軸伸長処理を行う。この処理を,全ての前記音声信号グループ42について実行する。このようにして前記細分離信号yについて時間軸伸縮が施された後の信号を,以下,伸縮後細分離信号y’という。
次に,前記音源合成部30において,前記伸縮後細分離信号y’を,今度は,各チャンネルごとにグループ化し,各グループごとに含まれる前記伸縮後細分離信号y’を合成する。この合成は,SIMO−ICAによる音源分離を行っている場合には,前述したように単に加算するだけでよい。
この第2の実施例のような時間軸伸縮によっても,音源ごとに(前記要素音声信号ごとに)ピッチ周期を検出して音源それぞれの周期性に基づく時間軸伸縮が行われるので,音質劣化を大幅に軽減でき,高音質の音声信号を出力することができる。しかも,合成処理が簡易である。
【0024】
また,本実施例では,BSS方式の一例として,TDICA及びSIMO−ICAの例について説明したが,この他にもFDICA(Frequency−domain independent component analysis)法やそれらを統合するような多段ICA法等,様々な方式が種々存在し,これらを適応してもかまわない。多段ICA法については,非特許文献5に詳しい。BSS法を用いることにより複数音源の周波数成分がオーバーラップしているような信号でも音源を分離することができ,前記実施の形態に示した帯域フィルタ手法では実現できなかった,より実用性の高い構成とすることができる。
【0025】
【発明の効果】
以上説明したように,本発明によれば,入力音声信号に重畳されている複数の音源からの要素音声信号を分離し,分離後のそれぞれの要素音声信号についてその特性(ピッチ周期等)に応じた時間軸伸縮が行われた信号を合成するので,伸縮処理後の音声品質の劣化を防止することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る音声信号処理装置Xの概略構成を表すブロック図。
【図2】音声信号処理装置Xが備える時間軸伸縮部をピッチ周期に基づく時間軸伸縮部としたときの概略構成を表すブロック図。
【図3】複数の音源からの音声信号が重畳された入力音声信号の波形の一例を表す図。
【図4】入力音声信号に重畳された各音源からの音声信号それぞれの波形の一例を表す図。
【図5】複数の音源からの音声信号が重畳された入力音声信号の周波数分布を表すグラフ。
【図6】音声信号処理装置Xが備える音源分離部を構成する周波数フィルタのフィルタ特性を表すグラフ。
【図7】本発明の第1の実施例に係る音声信号処理装置におけるTDICAによるブラインド音源分離方式の音源分離部の概略構成を表すブロック図。
【図8】PICOLA方式により音声信号の時間軸圧縮が行われる際の音声信号の波形を模式的に表した図。
【図9】PICOLA方式により音声信号の時間軸伸張が行われる際の音声信号の波形を模式的に表した図。
【図10】本発明の第2の実施例に係る音声信号処理装置におけるSIMO−ICAによるブラインド音源分離方式の音源分離部の概略構成を表すブロック図。
【符号の説明】
1,2…音源
10,10’,10”…音源分離部(音源分離手段)
111,112…マイクロホン
12…音源分離演算手段
20…時間軸調節部(時間軸調節手段)
21〜2m…時間軸伸縮部
211〜2m1…ピッチ周期検出部
212〜2m2…信号伸縮部
30…音源合成部(音声合成手段)
Claims (6)
- 1又は複数のチャンネルの入力音声信号の時間軸の伸長及び/又は圧縮を行う音声信号処理装置において,
前記入力音声信号から該入力音声信号に重畳されている複数の要素音声信号を分離する音源分離手段と,
前記音源分離手段により分離された前記要素音声信号ごとに同じ時間比率で時間軸の圧縮及び/又は伸長を行う時間軸調節手段と,
前記時間軸調節手段により圧縮又は伸長された後の複数の前記要素音声信号を所定の処理により合成する音声合成手段と,
を具備してなることを特徴とする音声信号処理装置。 - 前記時間軸調節手段が,前記要素音声信号から得られるピッチ周期に基づいて時間軸の圧縮及び/又は伸張を行うものである請求項1に記載の音声信号処理装置。
- 前記音源分離手段が,複数チャンネルの前記入力音声信号から独立成分分析によるブラインド音源分離方式に基づいて複数の要素音声信号を分離するものである請求項1又は2のいずれかに記載の音声信号処理装置。
- 前記音源分離手段が,それぞれ通過帯域の異なる複数の周波数フィルタによる周波数分離に基づいて複数の要素音声信号を分離するものである請求項1又は2のいずれかに記載の音声信号処理装置。
- 1又は複数のチャンネルの入力音声信号の時間軸の伸長及び/又は圧縮を行う音声信号処理方法において,
前記入力音声信号から該入力音声信号に合成されている複数の要素音声信号を分離する音源分離工程と,
前記音源分離工程により分離された前記要素音声信号ごとに同じ時間比率で時間軸の圧縮及び/又は伸長を行う時間軸調節工程と,
前記時間軸調節工程により圧縮又は伸長された後の複数の前記要素音声信号を所定の処理により合成する音声合成工程と,
を有してなることを特徴とする音声信号処理方法。 - 1又は複数のチャンネルの入力音声信号の時間軸の伸長及び/又は圧縮を行う処理をコンピュータに実行させるための音声信号処理プログラムにおいて,
前記入力音声信号から該入力音声信号に合成されている複数の要素音声信号を分離する音源分離工程と,
前記音源分離工程により分離された前記要素音声信号ごとに同じ時間比率で時間軸の圧縮及び/又は伸長を行う時間軸調節工程と,
前記時間軸調節工程により圧縮又は伸長された後の複数の前記要素音声信号を所定の処理により合成する音声合成工程と,
をコンピュータに実行させることを特徴とする音声信号処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003193356A JP2005031169A (ja) | 2003-07-08 | 2003-07-08 | 音声信号処理装置,その方法,そのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003193356A JP2005031169A (ja) | 2003-07-08 | 2003-07-08 | 音声信号処理装置,その方法,そのプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005031169A true JP2005031169A (ja) | 2005-02-03 |
Family
ID=34204839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003193356A Pending JP2005031169A (ja) | 2003-07-08 | 2003-07-08 | 音声信号処理装置,その方法,そのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005031169A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007094004A (ja) * | 2005-09-29 | 2007-04-12 | Kowa Co | 音声信号の時間軸圧伸方法および音声信号の時間軸圧伸装置 |
WO2007083814A1 (ja) * | 2006-01-23 | 2007-07-26 | Kabushiki Kaisha Kobe Seiko Sho | 音源分離装置及び音源分離方法 |
JP2007295085A (ja) * | 2006-04-21 | 2007-11-08 | Kobe Steel Ltd | 音源分離装置及び音源分離方法 |
JPWO2010005050A1 (ja) * | 2008-07-11 | 2012-01-05 | 日本電気株式会社 | 信号分析装置、信号制御装置及びその方法と、プログラム |
JP2015022236A (ja) * | 2013-07-22 | 2015-02-02 | 日本放送協会 | 信号処理装置及びプログラム |
-
2003
- 2003-07-08 JP JP2003193356A patent/JP2005031169A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007094004A (ja) * | 2005-09-29 | 2007-04-12 | Kowa Co | 音声信号の時間軸圧伸方法および音声信号の時間軸圧伸装置 |
WO2007083814A1 (ja) * | 2006-01-23 | 2007-07-26 | Kabushiki Kaisha Kobe Seiko Sho | 音源分離装置及び音源分離方法 |
JP2007219479A (ja) * | 2006-01-23 | 2007-08-30 | Kobe Steel Ltd | 音源分離装置、音源分離プログラム及び音源分離方法 |
JP4496186B2 (ja) * | 2006-01-23 | 2010-07-07 | 株式会社神戸製鋼所 | 音源分離装置、音源分離プログラム及び音源分離方法 |
JP2007295085A (ja) * | 2006-04-21 | 2007-11-08 | Kobe Steel Ltd | 音源分離装置及び音源分離方法 |
JPWO2010005050A1 (ja) * | 2008-07-11 | 2012-01-05 | 日本電気株式会社 | 信号分析装置、信号制御装置及びその方法と、プログラム |
JP2015022236A (ja) * | 2013-07-22 | 2015-02-02 | 日本放送協会 | 信号処理装置及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2627484C (en) | Sound masking system and masking sound generation method | |
JPH10509256A (ja) | ピッチ操作器を使用する音声信号の変換方法 | |
JP5103974B2 (ja) | マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム | |
US20070025564A1 (en) | Sound source separation apparatus and sound source separation method | |
EP1840871B1 (en) | Audio waveform processing device, method, and program | |
US8635077B2 (en) | Apparatus and method for expanding/compressing audio signal | |
JP2005031169A (ja) | 音声信号処理装置,その方法,そのプログラム | |
JP4175376B2 (ja) | オーディオ信号処理装置、オーディオ信号処理方法、及びオーディオ信号処理プログラム | |
JP2008072600A (ja) | 音響信号処理装置、音響信号処理プログラム、音響信号処理方法 | |
JP2905191B1 (ja) | 信号処理装置、信号処理方法および信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
KR20170080387A (ko) | 인-이어 마이크로폰을 갖는 이어셋의 대역폭 확장 장치 및 방법 | |
JP2007033804A (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP4471780B2 (ja) | 音声信号処理装置及びその方法 | |
JP2841797B2 (ja) | 音声分析・合成装置 | |
JP3197975B2 (ja) | ピッチ制御方法及び装置 | |
JP3185363B2 (ja) | 補聴器 | |
JPH0580796A (ja) | 話速制御型補聴方法および装置 | |
US10524052B2 (en) | Dominant sub-band determination | |
JP2002236499A (ja) | 音楽信号圧縮装置、音楽信号圧縮伸張装置及び前処理制御装置 | |
JP2003345397A (ja) | 再生速度変換装置 | |
JP2004029377A (ja) | 圧縮データ処理装置、方法および圧縮データ処理プログラム | |
Saputri et al. | Effect Of Using Window Type On Time Scale Modification On Voice Recording Using Waveform Similarity Overlap and Add | |
JP2003271198A (ja) | 圧縮データ処理装置、方法および圧縮データ処理プログラム | |
Ghanavi | Final Proposal for Digital Audio Systems, DESC9115, 2018 | |
JP3599831B2 (ja) | 疑似ステレオ化装置 |