JP2005031169A

JP2005031169A - 音声信号処理装置，その方法，そのプログラム

Info

Publication number: JP2005031169A
Application number: JP2003193356A
Authority: JP
Inventors: Takayuki Hiekata; 孝之稗方; Tetsuya Takahashi; 哲也高橋
Original assignee: Kobe Steel Ltd
Current assignee: Kobe Steel Ltd
Priority date: 2003-07-08
Filing date: 2003-07-08
Publication date: 2005-02-03

Abstract

【課題】入力音声信号に複数の音源からの音声信号が重畳されている場合であっても，各音源からの音声信号の特性に応じた時間軸伸縮を行い，伸縮後の音声品質の劣化を防止できること。
【解決手段】入力音声信号（ＣＨ１〜ＣＨｎ）から該入力音声信号に重畳されている複数の要素音声信号（ｙ１〜ｙｍ）を分離する音源分離ぶ１０と，分離された要素音声信号ごとに同じ伸縮率で時間軸の圧縮又は伸長を行う時間軸調節部２０と，圧縮又は伸長された後の複数の要素音声信号（ｙ１’〜ｙｍ’）を音源分離部１０における分離処理と逆の処理により合成する音源合成部３０とを具備する音声信号処理装置Ｘ。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は，複数の音源からの音声信号が重畳されている入力音声信号の時間軸の圧縮及び／又は伸張を行う音声信号処理装置及びその方法に関するものである。
【０００２】
【従来の技術】
カラオケのテンポ（速度）変更やビデオの再生速度変更等を行う際に，音程を変えずに音声信号（オーディオ信号）の再生速度を速くしたり遅くしたりする時間軸圧縮伸張処理（音声信号処理の一例）が必要となる。
従来，時間軸圧縮伸長の方式としては，例えば，特許文献１に示されるように，対象波形より対象音源の波形の一部を伸縮率（時間比率）に合う長さになるようにカット＆ペーストして生成する方式や，特許文献２に示されるように，ある区間毎の周波数単位で抽出されたピーク周波数毎にサイン波のモデリングを行い合成を行う方式，或いは特許文献３，非特許文献１及び非特許文献２に示されるように，対象音源のピッチ周期に基づいて時間伸縮する方式等が提案されている。
特許文献３，非特許文献１及び非特許文献２に示される技術は，音声信号の周期性の強い部分を見出し，その周期（ピッチ周期）の単位での音声信号の省略や繰り返し（挿入）によって（ピッチ周期に基づく）時間軸圧縮伸張処理を行うＰＩＣＯＬＡ（ＰｏｉｎｔｅｒＩｎｔｅｒｖａｌＣｏｎｔｒｏｌＯｖｅｒＬａｐａｎｄＡｄｄ，ポインター移動量制御による重複加算法）方式に関するものである。このＰＩＣＯＬＡ方式では，音声信号における省略するピッチ周期分の信号をその次のピッチ周期分の信号にクロスフェードの重み付けにより重複加算する，或いは挿入するピッチ周期分の信号をその前後のピッチ周期分の信号をクロスフェードの重み付けにより重複加算した信号とする手法が採用されている。
【０００３】
図８は，ＰＩＣＯＬＡ方式により時間軸圧縮が行われる際の音声信号の波形を模式的に表したものである。
まず，図８（ａ）に示すように，時間軸圧縮（音声信号の省略）の対象となる音声信号の範囲の先頭位置Ｐｏ１にポインタが設定され，このポインタ位置Ｐｏ１からの音声信号について，そのピッチ周期Ｐ（強い周期性を有する周期）が検出される。ピッチ周期Ｐの検出方法の例については後述する。
次に，図８（ｂ）に示すように，前記ポインタ位置Ｐｏ１からピッチ周期Ｐ分の（ピッチ周期Ｐの長さの）２つの信号ａ，ｂをクロスフェードの重み付けにより重複加算した信号ａ’を生成する。即ち，２つの信号ａ，ｂを合成（加算）する際に，図８（ａ）に破線Ｗ１，Ｗ２で示すように，信号ａに対する重みは時間軸が進むに従ってフェードアウト（次第に低下）し，信号ｂに対する重みは時間軸が進むに従ってフェードイン（次第に増大）するようクロスフェードの重み付けがなされる。
次に，信号ａを削除（省略）するとともに，信号ｂを信号ａ’に置き換える。これにより，１ピッチ周期Ｐ分の時間軸圧縮が完了する。ここで，音声信号の省略部に設定された信号ａ’は，クロスフェードの重み付けにより重複加算した信号であるので，その前後の音声信号との繋がりがスムーズとなり，違和感の少ない時間軸圧縮が可能となる。
次に，目標圧縮比（目標時間比率）がＲｘ（０＜Ｒｘ＜１）であるとすると，ポインタが，前記Ｐｏ１の位置からＣ（＝Ｐ×Ｒｘ／（１−Ｒｘ））だけ進んだ位置Ｐｏ２に再設定され，前記Ｐｏ１の位置から位置Ｐｏ２までの圧縮処理後の音声信号が出力されるとともに，このポインタ位置Ｐｏ２から同様の時間軸圧縮処理が繰り返される。これにより，Ｐ＋Ｃの長さの元の音声信号から，Ｃの長さの圧縮音声信号が生成（出力）されることになり，目標圧縮比Ｒｘ（＝Ｃ／（Ｐ＋Ｃ））を達成する時間軸圧縮がなされる。
【０００４】
一方，図９は，ＰＩＣＯＬＡ方式により時間軸伸張が行われる際の音声信号の波形を模式的に表したものである。
まず，図９（ａ）に示すように，時間軸伸張（音声信号の挿入）の対象となる音声信号の範囲の先頭位置Ｐｏ３にポインタが設定され，このポインタ位置Ｐｏ３からの音声信号について，そのピッチ周期Ｐ（強い周期性を有する周期）が検出される。
次に，図９（ｂ）に示すように，前記ポインタ位置Ｐｏ３からピッチ周期Ｐ分の（ピッチ周期Ｐの長さの）２つの信号ａ，ｂをクロスフェードの重み付けにより重複加算した信号ａ’を生成する。時間軸伸張の場合のクロスフェードの重み付けは，図９（ａ）に破線Ｗ３，Ｗ４で示すように，信号ａに対する重みは時間軸が進むに従ってフェードイン（次第に増加）し，信号ｂに対する重みは時間軸が進むに従ってフェードアウト（次第に低下）するよう重み付けがなされる。
次に，信号ａ，ｂの間に信号ａ’を挿入する。これにより，１ピッチ周期Ｐ分の時間軸伸張が完了する。ここで，挿入された信号ａ’は，クロスフェードの重み付けにより重複加算した信号であるので，その前後の音声信号との繋がりがスムーズとなり，違和感の少ない時間軸伸張が可能となる。
次に，目標伸張比がＲｙ（０＜Ｒｙ＜１）であるとすると，ポインタが，前記Ｐｏ３の位置からＰ＋Ｓ（Ｓ＝Ｐ×１／（Ｒｙ−１））だけ進んだ位置Ｐｏ４に再設定され，前記Ｐｏ３の位置から位置Ｐｏ４までの伸張処理後の音声信号が出力されるとともに，このポインタ位置Ｐｏ４から同様の時間軸伸張処理が繰り返される。これにより，Ｓの長さの元の音声信号から，Ｐ＋Ｓの長さの圧縮音声信号が生成（出力）されることになり，目標伸張比Ｒｙ（＝（Ｐ＋Ｓ）／Ｓ）を達成する時間軸伸張がなされる。
【０００５】
一方，ステレオオーディオ信号等のように入力音声信号が複数チャンネルの音声信号である場合に，音声信号の圧縮伸張に用いるピッチ周期を，全てのチャンネルで統一（共通化）する従来技術がある。
例えば，特許文献４には，ステレオ音声信号のＬチャンネルとＲチャンネルとを加算した信号（Ｌ＋Ｒ）についてピッチ周期を検出し，そのピッチ周期に基づいて両チャンネルの音声信号の圧縮伸張処理（ＰＩＣＯＬＡ）を行う技術が提案されている。
さらに，特許文献５には，複数のチャンネル信号を加算した信号或いは最大の振幅を有するチャンネル信号についてピッチ周期を検出し，そのピッチ周期に基づいて全てのチャンネル信号の圧縮伸張処理を行う技術が提案されている。
【０００６】
【特許文献１】
特開平１０−２５７５９号公報
【特許文献２】
特開２０００−２０１００号公報
【特許文献３】
特開２００１−１２５６号公報
【特許文献４】
特開２００１−５５００号公報
【特許文献５】
特開２００２−２９７２００号公報
【非特許文献１】
森田，板倉「自己相関関数を用いた音声の時間軸での伸縮」日本音響学会講演論文集，Ｓ６１．３，ＰＰ１９９−２００
【非特許文献２】
森田，板倉「ポインター移動量制御による重複加算法（ＰＩＣＯＬＡ）を用いた音声の時間軸での伸張圧縮とその評価」，Ｓ６１．１０，ＰＰ１４９−１５０
【非特許文献３】
猿渡洋「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告，ｖｏｌ．ＥＡ２００１−７，ｐｐ．４９−５６，Ａｐｒｉｌ２００１．
【非特許文献４】
高谷智哉他「ＳＩＭＯモデルに基づくＩＣＡを用いた高忠実度なブラインド音源分離」電子情報通信学会技術報告，ｖｏｌ．ＵＳ２００２−８７，ＥＡ２００２−１０８，Ｊａｎｕａｒｙ２００３．
【非特許文献５】
Ｔ．Ｎｉｓｈｉｋａｗａ，Ｈ．Ｓａｒｕｗａｔａｒｉ，ａｎｄＫ．Ｓｈｉｋａｎｏ，”Ｃｏｍｐａｒｉｓｏｎｏｆｂｌｉｎｄｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎｍｅｔｈｏｄｓｂａｓｅｄｏｎｔｉｍｅ−ｄｏｍａｉｎＩＣＡｕｓｉｎｇｎｏｎｓｔａｔｉｏｎａｒｉｔｙａｎｄｍｕｌｔｉｓｔａｇｅＩＣＡ”，ＩＥＩＣＥＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ，ｖｏｌ．ＥＡ２００１−１１２，ｐｐ４９−５６，Ａｐｒｉｌ２００１．
【０００７】
【発明が解決しようとする課題】
ところで，処理する入力音声信号が，１つの音源（一人の声，１つの楽器の音等）からの音声信号（以下，要素音声信号という）からなる場合，その要素音声信号を所定のサンプリングレートでサンプリングすると，比較的強い周期性を有するので，前記ピッチ周期Ｐに基づいて時間軸伸縮（音声信号の部分的挿入／削除）を行えば，前後の繋がりがスムーズな違和感の少ない時間軸伸縮が可能となる。
しかしながら，入力音声信号に複数の前記要素音声信号が混在している（重畳されている）場合，その音声信号（以下，重畳音声信号という）から検出した前記ピッチ周期Ｐは，前記要素音声信号それぞれの周期性の全てには合致せず，そのような前記ピッチ周期Ｐに基づいて時間軸伸縮を行うと，前後の繋がりのスムーズ性が欠け，音声品質が劣化するという問題点があった。これは，入力音声信号における複数チャンネルの各チャンネル信号が前記要素音声信号に相当すると考えた場合，特許文献４に示される技術で時間軸伸縮を行うときに生じる問題でもあるといえる。
また，特許文献５に示される技術を適用するため，仮に，前記重畳音声信号から最大の振幅を有する前記要素音声信号についての前記ピッチ周期Ｐを検出できたとしても，そのピッチ周期Ｐはその他の（相対的に振幅の小さい）前記要素音声信号の周期性とは合致せず，そのような前記ピッチ周期Ｐに基づいて時間軸伸縮を行うと，やはり前後の繋がりのスムーズ性が欠け，音声品質が劣化するという問題点があった。
従って，本発明は上記事情に鑑みてなされたものであり，その目的とするところは，入力音声信号に複数の音源からの音声信号が重畳されている場合であっても，各音源からの音声信号の特性に応じた時間軸伸縮を行い，伸縮後の音声品質の劣化を防止できる音声信号処理装置及びその方法並びにそのプログラムを提供することにある。
【０００８】
【課題を解決するための手段】
上記目的を達成するために本発明は，１又は複数のチャンネルの入力音声信号の時間軸の伸長及び／又は圧縮を行う音声信号処理装置において，前記入力音声信号から該入力音声信号に重畳されている複数の要素音声信号を分離する音源分離手段と，前記音源分離手段により分離された前記要素音声信号ごとに同じ時間比率で時間軸の圧縮及び／又は伸長を行う時間軸調節手段と，前記時間軸調節手段により圧縮又は伸長された後の複数の前記要素音声信号を所定の処理により合成する音声合成手段と，を具備してなることを特徴とする音声信号処理装置として構成されるものである。
これにより，入力音声信号に複数の音源からの音声信号（前記要素音声信号）が重畳されている場合でも，その要素音声信号それぞれについて時間軸の伸縮が行われるので，処理後の音声品質の劣化を防止することができる。
ここで，好適な前記時間軸調節手段としては，前記要素音声信号から得られるピッチ周期に基づいて時間軸の圧縮及び／又は伸張を行うものが考えられる。
また，前記音声合成手段の処理としては，前記音源分離手段における分離処理と逆の処理とすることや，単に足し合わせる処理等が考えられる。
【０００９】
また，前記音源分離手段としては，複数チャンネルの前記入力音声信号から独立成分分析によるブラインド音源分離方式に基づいて複数の要素音声信号を分離するものや，それぞれ通過帯域の異なる複数の周波数フィルタによる周波数分離に基づいて複数の要素音声信号を分離するもの等が考えられる。
【００１０】
また，本発明は，前記音声信号処理装置の処理に対応する音声信号処理方法として捉えたものであってもよい。
即ち，１又は複数のチャンネルの入力音声信号の時間軸の伸長及び／又は圧縮を行う音声信号処理方法において，前記入力音声信号から該入力音声信号に合成されている複数の要素音声信号を分離する音源分離工程と，前記音源分離工程により分離された前記要素音声信号ごとに同じ時間比率で時間軸の圧縮及び／又は伸長を行う時間軸調節工程と，前記時間軸調節工程により圧縮又は伸長された後の複数の前記要素音声信号を所定の処理により合成する音声合成工程と，を有してなることを特徴とする音声信号処理方法である。
【００１１】
同様に，本発明は，前記音声信号処理装置の処理をコンピュータに実行させるための音声信号処理プログラムとして捉えたものであってもよい。
即ち，１又は複数のチャンネルの入力音声信号の時間軸の伸長及び／又は圧縮を行う処理をコンピュータに実行させるための音声信号処理プログラムにおいて，前記入力音声信号から該入力音声信号に合成されている複数の要素音声信号を分離する音源分離工程と，前記音源分離工程により分離された前記要素音声信号ごとに同じ時間比率で時間軸の圧縮及び／又は伸長を行う時間軸調節工程と，前記時間軸調節工程により圧縮又は伸長された後の複数の前記要素音声信号を所定の処理により合成する音声合成工程と，をコンピュータに実行させることを特徴とする音声信号処理プログラムである。
【００１２】
【発明の実施の形態】
以下添付図面を参照しながら，本発明の実施の形態及び実施例について説明し，本発明の理解に供する。尚，以下の実施の形態及び実施例は，本発明を具体化した一例であって，本発明の技術的範囲を限定する性格のものではない。
ここに，図１は本発明の実施の形態に係る音声信号処理装置Ｘの概略構成を表すブロック図，図２は音声信号処理装置Ｘが備える時間軸伸縮部をピッチ周期に基づく時間軸伸縮部としたときの概略構成を表すブロック図，図３は複数の音源からの音声信号が重畳された入力音声信号の波形の一例を表す図，図４は入力音声信号に重畳された各音源からの音声信号それぞれの波形の一例を表す図，図５は複数の音源からの音声信号が重畳された入力音声信号の周波数分布を表すグラフ，図６は音声信号処理装置Ｘが備える音源分離部を構成する周波数フィルタのフィルタ特性を表すグラフ，図７は本発明の第１の実施例に係る音声信号処理装置におけるＴＤＩＣＡによるブラインド音源分離方式の音源分離部の概略構成を表すブロック図，図８はＰＩＣＯＬＡ方式により音声信号の時間軸圧縮が行われる際の音声信号の波形を模式的に表した図，図９はＰＩＣＯＬＡ方式により音声信号の時間軸伸張が行われる際の音声信号の波形を模式的に表した図，図１０は本発明の第２の実施例に係る音声信号処理装置におけるＳＩＭＯ−ＩＣＡによるブラインド音源分離方式の音源分離部の概略構成を表すブロック図である。
【００１３】
以下，図１を用いて，本発明の実施の形態に係る音声信号処理装置Ｘについて説明する。
音声信号処理装置Ｘは，複数（ｎチャンネル）のチャンネル信号（ＣＨ１〜ＣＨｎ）からなる入力音声信号を入力し，該入力音声信号（チャンネル信号）に重畳されている複数の音源からの音声信号（要素音声信号（ｙ１〜ｙｍ））を分離する音源分離部１０と，該音源分離部１０により分離された前記要素音声信号（ｙ１〜ｙｍ）ごとに同じ時間比率で時間軸の圧縮及び伸長を行う時間軸伸縮部（２１〜２ｍ）からなる時間軸調節部２０と，該時間軸調節部２０により圧縮又は伸長された後の複数の前記要素音声信号（ｙ１’〜ｙｍ’）を，前記音源分離部１０から入力する所定の分離情報に基づいて前記音源分離部１０における分離処理と逆の処理により合成した出力音声信号として，複数チャンネルの前記入力信号（ＣＨ１〜ＣＨｎ）それぞれに対応する時間軸伸縮後の複数チャンネルの出力音声信号（ＣＨ１’〜ＣＨｎ’）を出力する音源合成部３０（前記音声合成手段の一例）とを具備している。
【００１４】
図２は，図１に示した音声信号処理装置Ｘが備える前記時間軸伸縮部（２１〜２ｍ）として，ピッチ周期に基づくＰＩＣＯＬＡ方式の時間軸伸縮部を適用した場合の概略構成を表すブロック図である。
この場合，前記時間軸伸縮部（２１〜２ｍ）は，それぞれ前記要素音声信号（ｙ１〜ｙｍ）からピッチ周期（周期性の強い部分の周期）を検出するピッチ周期検出部（２１１〜２ｍ１）と，該ピッチ周期検出部により検出されたピッチ周期に基づいて前記要素音声信号それぞれについてＰＩＣＯＬＡ方式により時間軸の伸長又は圧縮を行う信号伸縮部（２１２〜２ｍ２）とを具備している。
図１及び図２に示す各構成要素１０〜３０は，それぞれＣＰＵ及びその周辺装置（ＲＯＭ，ＲＡＭ等）とそのＣＰＵにより実行されるプログラムとにより構成することも考えられるが，１つのＣＰＵ及びその周辺装置を有するコンピュータにより，図１及び図２に示す各構成要素が行う処理に対応するプログラムモジュールを実行するよう構成されたものも考えられる。
【００１５】
前記ピッチ周期検出部（２１１〜２ｍ１）によるピッチ周期の検出（算出）方法の一例としては，ピッチ周期Ｐの候補ｊとして予めｊ＝Ｎ_０〜Ｎの所定範囲を設定し，このピッチ周期候補ｊ（Ｎ_０〜Ｎ）それぞれについての周期性の強さを比較し，最も周期性が強いと評価される周期をピッチ周期Ｐとする方法が考えられる。
例えば，周期性の評価対象とする前記有効信号Ｘ_ｉの時間範囲（サンプル数）ｉを０〜Ｎ（ここで，参照される有効信号の最大時間範囲は，０〜２Ｎ）としたときに，周期性の強さの評価関数を，次の（１）式や（２）式とすることが考えられる。
【数１】

【数２】

これらは，ｊサンプルだけ離れた信号値同士の差（絶対値又は２乗値）を計算し，その差が小さいほど周期ｊにおける周期性が強い（即ち，周期ｊごとに似た波形が現れる）として評価するものである。従って，ｊ＝Ｎ_０〜Ｎそれぞれについて，（１）式又は（２）式による評価値を計算し，その評価値が最も小さくなるときのｊをピッチ周期Ｐとして検出（算出）する。
そして，前記信号伸縮部（２１２〜２ｍ２）は，以上のようにして検出されたピッチ周期Ｐに基づいて，前記要素音声信号（ｙ１〜ｙｍ）それぞれについて所望の伸縮率（時間比率）で前述したＰＩＣＯＬＡ方式（図８，図９参照）によって時間軸圧縮又は伸張を行い，圧縮又は伸張後の要素音声信号（ｙ１’〜ｙｍ’）を出力する。
【００１６】
図３は，複数の音源からの音声信号（前記要素音声信号）が重畳された１チャンネルの入力音声信号の波形の一例を表す図である。
また，図４（ａ），（ｂ）は，図３に示した入力音声信号（チャンネル信号）に重畳された各音源からの音声信号（前記要素音声信号）それぞれの波形を表す。
さらに図５は，図３に示した入力音声信号（チャンネル信号）の周波数分布を表すグラフである。
図４，図５からわかるように，図３に示した入力音声信号（チャンネル信号）は，周波数の異なる（７０Ｈｚ帯と１００Ｈｚ帯）２つの前記要素音声信号が重畳された（混在した）音声信号である。以下，図３に示すような入力音声信号が入力される場合についての実施の形態について述べる。
【００１７】
図３に示す音声信号のように，入力音声信号にそれぞれ周波数の異なる複数の音源の前記要素音声信号が重畳されている場合，前記音源分離部１０としては，前記要素音声信号それぞれの周波数を通過帯域とする複数の周波数フィルタを具備し，入力音声信号をそれらの周波数フィルタに通過させることによって前記要素音声信号それぞれを分離するものが考えられる。
例えば，図３に示す音声信号を処理する場合は，図６（ａ）に示す通過周波数特性を有する周波数フィルタＡ（約８５Ｈｚ以下を通過帯域とするＬＯＷパスフィルタ）と，図６（ｂ）に示す通過周波数特性を有する周波数フィルタＢ（約８５Ｈｚ以上を通過帯域とするＨｉｇｈパスフィルタ）とを設け，１チャンネルの入力音声信号を単純分岐（分岐後の出力レベルは各々元の１／２）して両フィルタＡ，Ｂに通過させれば，図４に示した２つの前記要素音声信号をそれぞれ分離（周波数分離）できる。
また，所定の時間ごとに入力音声信号の周波数ピークを検出する周波数ピーク検出手段を設け，検出されたピーク周波数（図３〜図５の例では，７０Ｈｚ付近と１００Ｈｚ付近）及び個数に対応する周波数フィルタ（帯域分割フィルタ）を選択して周波数フィルタリングを行うよう構成したものも考えられる。
【００１８】
以上のようにして周波数分離された前記要素音声信号（ｙ１，ｙ２）は，それぞれ前記時間軸伸縮部（２１，２２）によって同じ伸縮率（時間比率）でＰＩＣＯＬＡ方式による時間軸の伸長又は圧縮が行われる。ここで，伸縮率は外部から不図示のインターフェースを通じて前記時間軸処理部（２１，２２）それぞれに設定される。
このように，音源ごとに（前記要素音声信号ごとに）ピッチ周期を検出して音源それぞれの周期性に基づく時間軸伸縮が行われるので，前記要素信号それぞれについて前後の繋がりがスムーズな違和感の少ない時間軸伸縮が可能となる。
そして，このように繋がりがスムーズな時間軸伸縮が行われた前記要素音声信号（ｙ１’，ｙ２’）について，前記音源合成部３０において合成を行った出力音声信号（ＣＨ１’）は，劣化の少ない高音質の音声信号となる。
【００１９】
ところで，ピッチ周期分の音声信号の削除・挿入により時間軸圧縮・伸張が施された出力音声信号（ＣＨ１’〜ＣＨｎ’）は，その周波数が変換されて圧縮・伸張される場合と異なり，入出力間で音程は変わらない。
ここで，前記音源合成部３０の後段に，時間軸圧縮・伸張が施された音声信号（ＣＨ１’〜ＣＨｎ’）それぞれについて，元の時間長に戻すようにサンプリングレート変換を行うサンプリングレート変換部（音程変換手段）を設ければ，音声品質の劣化が小さい音程変換処理の実現が可能となる。
即ち，目標圧縮比Ｒｘ（０＜Ｒｘ＜１）で時間軸圧縮された音声信号（ＣＨ１〜ＣＨｎ’）を，その時間長が１／Ｒｘ倍となるようにサンプリングレート変換を行って再生すれば，信号が遅く再生されることになるので，再生信号（サンプリングレート変換後の信号）の周波数がＲｘ倍となり，音程がその分だけ低くなる。同様に，目標伸張率Ｒｙ（＞１）で時間軸伸張された音声信号（ＣＨ１’〜ＣＨｎ’）を，その時間長が１／Ｒｙ倍となるようにサンプリングレート変換を行って再生すれば，信号が速く再生されることになるので，再生信号の周波数がＲｙ倍となり，音程がその分だけ高くなる。従って，入力音声信号の周波数に対する出力音声信号（再生信号）の周波数の比をＲｚとすると，所望のＲｚが設定された場合に，０＜Ｒｚ＜１の場合は，Ｒｘ←Ｒｚとして時間軸圧縮を，Ｒｚ＞１の場合は，Ｒｙ←Ｒｚとして時間軸伸張を行った後に，元の時間長となるようにサンプリングレート変換を行えば，所望の音程変換が可能となる。
【００２０】
また，本実施の形態では，入力音声信号に２つの前記要素音声信号が重畳されている場合について示したが，３つ以上の前記要素音声信号が重畳された音声信号を入力音声信号とすることも考えられる。
この場合，前記音源分離部１０に，それぞれ通過周波数帯域が異なる３つ以上の周波数フィルタを設け，前記入力音声信号をそれらに分岐して通過させるよう構成すればよい。この場合，分岐後の信号を前記時間軸伸縮部（２１〜２ｍ）に出力する前に増幅するアンプを設け，前記音源合成部３０においてその増幅分と逆比率の信号レベル調節を行えば，分岐信号のレベル低下によるＳＮ比の悪化を防止できる。
【００２１】
【実施例】
（第１の実施例）
次に，図７を用いて，前記音声信号処理装置Ｘにおける前記音源分離部１０に，ブラインド音源分離方式（ＢＳＳ方式）の音源分離手段を適用した場合の第１の実施例について説明する。
ＢＳＳ（ＢｌｉｎｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）方式の詳細は，例えば非特許文献３や非特許文献４等に詳説されている。
図７は，独立成分分析によるＢＳＳ方式の一種であるＴＤＩＣＡ（ｔｉｍｅ−ｄｏｍａｉｎｉｎｄｅｐｅｎｄｅｎｔｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓ）による音源分離部１０’の概略構成を表す。図７には，２つの音源１，２からの音声を２つのマイクロホン（１１１，１１２）で入力した２チャンネルの入力音声信号（ｘ１（ｔ），ｘ２（ｔ））について音源分離を行う例について示しているが，２チャンネル以上であっても同様である。ＢＳＳ方式による音源分離の場合，（入力音声信号のチャンネル数ｎ）≧（音源（要素音声信号）の数ｍ）であればよい。
複数のマイクロホン（１１１，１１２）で集音された入力音声信号ｘ（ｔ）は音源信号Ｓ（ｔ）の時間的空間的なたたみ込み信号として表現され，次の（３）式のように表される。
ｘ（ｔ）＝Ａ（ｚ）・Ｓ（ｔ） …（３）
ＴＤＩＣＡによる音源分離の理論は，この音源信号Ｓ（ｔ）のそれぞれの音源同士が統計的に独立であることを利用すると，ｘ（ｔ）がわかればＳ（ｔ）を推測することができ，従って，音源を分離することができるという発想に基づく理論である。
ここで，音源分離演算手段１２における音源分離に用いる行列をＷ（ｚ）とすれば，分離後の信号をｙ（ｔ）は，次の（４）式で表される。
ｙ（ｔ）＝Ｗ（ｚ）・ｘ（ｔ） …（４）
また，Ｗ（ｚ）は，逐次ｙ（ｔ）の出力から求められる。
なお，音源合成処理はこのＷ（ｚ）に関する情報により，逆演算処理に相当する配列を形成し，これを用いて逆演算を行えばよい。
このようなＢＳＳ方式による音源分離を行うことにより，例えば，人の歌声とギター等の楽器の音とが混合した入力音声信号が歌声のみの信号（要素音声信号）と楽器の音のみの信号（要素音声信号）とに分離される。
その結果，前記時間軸伸縮部（２１，２２）により，音源ごとに（前記要素音声信号ごとに）ピッチ周期を検出して音源それぞれの周期性に基づく時間軸伸縮が行われるので音質劣化を大幅に軽減でき，高音質の音声信号を出力することができる。
【００２２】
（第２の実施例）
次に，図１０を用いて，前記音声信号処理装置Ｘにおける前記音源分離部１０に，非特許文献４の図３に示されるＢＳＳ方式の音源分離手段を適用する場合の第２の実施例について説明する。
図１０は，非特許文献４の図３を引用したものであり，独立成分分析によるＢＳＳ方式の一種であるＳＩＭＯ−ＩＣＡ（ｓｉｎｇｌｅ−ｉｎｐｕｔｍｕｌｔｉｐｌｅ−ｏｕｔｐｕｔｉｎｄｅｐｅｎｄｅｎｔｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓ）による音源分離部１０”の概略構成を表す。図１０には，Ｌ個の音源音声信号（音源音声信号）Ｓ１〜ＳＬがＫ個のマイクロホンで入力され，前記音源信号Ｓ１〜ＳＬが重畳したＫチャンネルの入力音声信号（ｘ１（ｔ）〜ｘｋ（ｔ））について音源分離を行う例について示している。
入力音声信号（ｘ１（ｔ）〜ｘｋ（ｔ））が，独立成分分析の基本ブロック（ＩＣＡ１〜ＩＣＡＬ）を用いて構成されたＳＩＭＯ−ＩＣＡブロック４１により処理されて，音声信号ｙ（以下，細分離信号ｙという）が得られる。この細分離信号ｙそれぞれは，各チャンネルで観測される（各マイクに入力された）各音源信号に対応するものである。
例えば，図１０では，細分離信号ｙ_１ ^（１）（ｔ）は，Ａ_１１（Ｚ）Ｓ１（ｔ）と等価である旨を示しているが，これは１つ目の音源信号Ｓ１（ｔ）が，所定の音響特性Ａ１１（Ｚ）を経て１つ目のマイクに入力された（第１チャンネルの）音声信号であり，１つ目のマイクの入力音声信号ｘ１（ｔ）に重畳されている前記音源信号の１つの成分を意味している。
ここで，ＳＩＭＯ−ＩＣＡでは，前記細分離信号ｙを各入力チャンネルごとに関連するものを全て加算すると，元の入力音声信号ｘに戻ることを制約条件として定式化されている。
例えば，図１０におけるＡ１ｊ（Ｚ）Ｓｊ（ｔ），（ｊ：１〜Ｌ）を全て加算すると，ｘ１（ｔ）に戻る。この特性は，ＳＩＭＯ−ＩＣＡによる音源分離方式を前記音源分離部１０”に適用した場合，これを再度合成する際には単に加算すればよいことを意味し，合成処理が単純化され都合が良い。
【００２３】
前記ＳＩＭＯ−ＩＣＡブロック４１により分離された前記細分離信号ｙに基づいて時間軸伸縮を行う場合，例えば，以下のようにすることが考えられる。
まず，前記細分離信号ｙを各音源に対応するものどうしでグループ化する。これにより音源の数（Ｌ個）の信号群にグループ化される。以下，このグループ化された信号群を音声信号グループ４２という。この音声信号グループ４２（複数の音声信号）が前記要素音声信号に相当する。このような複数の音声信号からなる信号群も前記要素音声信号の一例である。
次に，前記音声信号グループ４２（要素音声信号）ごとに，同じ伸縮率（時間比率）で時間軸の圧縮又は伸長を行う。例えば，前記音声信号グループ４２に含まれる前記細分離信号ｙのうち，少なくとも１つを用いて前記ピッチ周期を求め，そのピッチ周期を用いてその音声信号グループ４２内の全ての前記細分離信号ｙについて時間軸伸長処理を行う。この処理を，全ての前記音声信号グループ４２について実行する。このようにして前記細分離信号ｙについて時間軸伸縮が施された後の信号を，以下，伸縮後細分離信号ｙ’という。
次に，前記音源合成部３０において，前記伸縮後細分離信号ｙ’を，今度は，各チャンネルごとにグループ化し，各グループごとに含まれる前記伸縮後細分離信号ｙ’を合成する。この合成は，ＳＩＭＯ−ＩＣＡによる音源分離を行っている場合には，前述したように単に加算するだけでよい。
この第２の実施例のような時間軸伸縮によっても，音源ごとに（前記要素音声信号ごとに）ピッチ周期を検出して音源それぞれの周期性に基づく時間軸伸縮が行われるので，音質劣化を大幅に軽減でき，高音質の音声信号を出力することができる。しかも，合成処理が簡易である。
【００２４】
また，本実施例では，ＢＳＳ方式の一例として，ＴＤＩＣＡ及びＳＩＭＯ−ＩＣＡの例について説明したが，この他にもＦＤＩＣＡ（Ｆｒｅｑｕｅｎｃｙ−ｄｏｍａｉｎｉｎｄｅｐｅｎｄｅｎｔｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓ）法やそれらを統合するような多段ＩＣＡ法等，様々な方式が種々存在し，これらを適応してもかまわない。多段ＩＣＡ法については，非特許文献５に詳しい。ＢＳＳ法を用いることにより複数音源の周波数成分がオーバーラップしているような信号でも音源を分離することができ，前記実施の形態に示した帯域フィルタ手法では実現できなかった，より実用性の高い構成とすることができる。
【００２５】
【発明の効果】
以上説明したように，本発明によれば，入力音声信号に重畳されている複数の音源からの要素音声信号を分離し，分離後のそれぞれの要素音声信号についてその特性（ピッチ周期等）に応じた時間軸伸縮が行われた信号を合成するので，伸縮処理後の音声品質の劣化を防止することができる。
【図面の簡単な説明】
【図１】本発明の実施の形態に係る音声信号処理装置Ｘの概略構成を表すブロック図。
【図２】音声信号処理装置Ｘが備える時間軸伸縮部をピッチ周期に基づく時間軸伸縮部としたときの概略構成を表すブロック図。
【図３】複数の音源からの音声信号が重畳された入力音声信号の波形の一例を表す図。
【図４】入力音声信号に重畳された各音源からの音声信号それぞれの波形の一例を表す図。
【図５】複数の音源からの音声信号が重畳された入力音声信号の周波数分布を表すグラフ。
【図６】音声信号処理装置Ｘが備える音源分離部を構成する周波数フィルタのフィルタ特性を表すグラフ。
【図７】本発明の第１の実施例に係る音声信号処理装置におけるＴＤＩＣＡによるブラインド音源分離方式の音源分離部の概略構成を表すブロック図。
【図８】ＰＩＣＯＬＡ方式により音声信号の時間軸圧縮が行われる際の音声信号の波形を模式的に表した図。
【図９】ＰＩＣＯＬＡ方式により音声信号の時間軸伸張が行われる際の音声信号の波形を模式的に表した図。
【図１０】本発明の第２の実施例に係る音声信号処理装置におけるＳＩＭＯ−ＩＣＡによるブラインド音源分離方式の音源分離部の概略構成を表すブロック図。
【符号の説明】
１，２…音源
１０，１０’，１０”…音源分離部（音源分離手段）
１１１，１１２…マイクロホン
１２…音源分離演算手段
２０…時間軸調節部（時間軸調節手段）
２１〜２ｍ…時間軸伸縮部
２１１〜２ｍ１…ピッチ周期検出部
２１２〜２ｍ２…信号伸縮部
３０…音源合成部（音声合成手段）

Claims

１又は複数のチャンネルの入力音声信号の時間軸の伸長及び／又は圧縮を行う音声信号処理装置において，
前記入力音声信号から該入力音声信号に重畳されている複数の要素音声信号を分離する音源分離手段と，
前記音源分離手段により分離された前記要素音声信号ごとに同じ時間比率で時間軸の圧縮及び／又は伸長を行う時間軸調節手段と，
前記時間軸調節手段により圧縮又は伸長された後の複数の前記要素音声信号を所定の処理により合成する音声合成手段と，
を具備してなることを特徴とする音声信号処理装置。
前記時間軸調節手段が，前記要素音声信号から得られるピッチ周期に基づいて時間軸の圧縮及び／又は伸張を行うものである請求項１に記載の音声信号処理装置。
前記音源分離手段が，複数チャンネルの前記入力音声信号から独立成分分析によるブラインド音源分離方式に基づいて複数の要素音声信号を分離するものである請求項１又は２のいずれかに記載の音声信号処理装置。
前記音源分離手段が，それぞれ通過帯域の異なる複数の周波数フィルタによる周波数分離に基づいて複数の要素音声信号を分離するものである請求項１又は２のいずれかに記載の音声信号処理装置。
１又は複数のチャンネルの入力音声信号の時間軸の伸長及び／又は圧縮を行う音声信号処理方法において，
前記入力音声信号から該入力音声信号に合成されている複数の要素音声信号を分離する音源分離工程と，
前記音源分離工程により分離された前記要素音声信号ごとに同じ時間比率で時間軸の圧縮及び／又は伸長を行う時間軸調節工程と，
前記時間軸調節工程により圧縮又は伸長された後の複数の前記要素音声信号を所定の処理により合成する音声合成工程と，
を有してなることを特徴とする音声信号処理方法。
１又は複数のチャンネルの入力音声信号の時間軸の伸長及び／又は圧縮を行う処理をコンピュータに実行させるための音声信号処理プログラムにおいて，
前記入力音声信号から該入力音声信号に合成されている複数の要素音声信号を分離する音源分離工程と，
前記音源分離工程により分離された前記要素音声信号ごとに同じ時間比率で時間軸の圧縮及び／又は伸長を行う時間軸調節工程と，
前記時間軸調節工程により圧縮又は伸長された後の複数の前記要素音声信号を所定の処理により合成する音声合成工程と，
をコンピュータに実行させることを特徴とする音声信号処理プログラム。