JP2006220806A

JP2006220806A - 音声信号処理装置，音声信号処理プログラム，音声信号処理方法

Info

Publication number: JP2006220806A
Application number: JP2005032821A
Authority: JP
Inventors: Koji Morita; 孝司森田; Takayuki Hiekata; 孝之稗方; Yohei Ikeda; 陽平池田; Toshiaki Shimoda; 敏章下田
Original assignee: Kobe Steel Ltd
Current assignee: Kobe Steel Ltd
Priority date: 2005-02-09
Filing date: 2005-02-09
Publication date: 2006-08-24

Abstract

【課題】入力音声信号からそのピッチ周期を検出し，そのピッチ周期に基づいて入力音声信号の時間軸の圧縮や伸張を行う音声信号処理装置において，ピッチ周期の演算負荷を軽減すること。
【解決手段】周期性評価部１４ｂにより，入力音声信号Ｓ_inのサンプリング周期の２倍以上の時間間隔で設定された複数の第１のピッチ周期候補Ｔ各々についての入力音声信号Ｓ_inの周期性を評価し，最も周期性が強いと評価されたピッチ周期候補Ｔ_x1とそれに最も時間間隔が近い他のピッチ周期候補Ｔ_j-1，Ｔ_j+1との間に１又は複数の第２のピッチ周期候補Ｔ'を設定し，その各々についての入力音声信号Ｓ_inの周期性を評価するとともに，両評価結果に基づいてピッチ周期決定部１４ｃによりピッチ周期の検出値Ｔ₀を決定する。
【選択図】図１

Description

本発明は，入力音声信号からそのピッチ周期を検出し，そのピッチ周期に基づいて入力音声信号の時間軸の圧縮や伸張を行う音声信号処理装置及びその方法に関するものである。

カラオケのテンポ（速度）変更やビデオの再生速度変更等を行う際に，音程を変えずに音声信号（オーディオ信号）の再生速度を速くしたり遅くしたりする時間軸圧縮伸張処理（音声信号処理の一例）が必要となる。また，再生速度を変えずに，音程（音の高低）のみを変更する音程変換処理（音声信号処理の一例）が必要となることもある。
従来，非特許文献１及び非特許文献２には，ある時間帯の音声信号について強い周期性（ある周期ごとに相関の高い時系列データが繰り返す性質）を有するピッチ周期を見出し，そのピッチ周期の単位での音声信号の省略や繰り返し（挿入）によって（ピッチ周期に基づく）時間軸圧縮伸張処理を行う技術が示されている。この技術では，音声信号における省略するピッチ周期分の信号をその次のピッチ周期分の信号にクロスフェードの重み付けにより重複加算する（時間軸圧縮），或いは「ある時点」の前後のピッチ周期分の信号をクロスフェードの重み付けにより重複加算したピッチ周期分の信号をその「ある時点」に挿入する（時間軸伸張）ＰＩＣＯＬＡ（Pointer Interval Control Over Lap and Add，ポンター移動量制御による重複加算法）という手法が採用されている。

図３は，ＰＩＣＯＬＡ方式により時間軸圧縮が行われる際の音声信号の波形を模式的に表したものである。
まず，図３（ａ）に示すように，時間軸圧縮（音声信号の省略）の対象となる音声信号の範囲の先頭位置Ｐｏ１にポインタが設定され，このポインタ位置Ｐｏ１からの音声信号について，そのピッチ周期Ｔ₀（強い周期性を有する周期）が検出される。ピッチ周期Ｔ₀の検出方法の例については後述する。
次に，図３（ｂ）に示すように，前記ポインタ位置Ｐｏ１からピッチ周期Ｔ₀分の（ピッチ周期Ｔ₀の長さの）２つの信号ａ，ｂをクロスフェードの重み付けにより重複加算した重複加算信号ａ’を生成する。即ち，２つの信号ａ，ｂを合成（重複加算）する際に，図３（ａ）に破線Ｗ１，Ｗ２で示すように，信号ａに対する重みは時間軸が進むに従ってフェードアウト（次第に低下）し，信号ｂに対する重みは時間軸が進むに従ってフェードイン（次第に増大）するようクロスフェードの重み付けがなされる。
次に，信号ａを削除（省略）するとともに，信号ｂを信号ａ’に置き換える。これにより，１ピッチ周期Ｔ₀分の時間軸圧縮が完了する。ここで，音声信号の省略部に設定された信号ａ’は，クロスフェードの重み付けにより重複加算した信号であるので，その前後の音声信号との繋がりがスムーズとなり，違和感の少ない時間軸圧縮が可能となる。
次に，目標伸縮比（圧縮比）がＲ（０＜Ｒ＜１）であるとすると，ポインタが，前記Ｐｏ１の位置からＣ（＝Ｔ₀×Ｒ／（１−Ｒ））だけ進んだ位置Ｐｏ２に再設定され，前記Ｐｏ１の位置から位置Ｐｏ２までの圧縮処理後の音声信号が出力されるとともに，このポインタ位置Ｐｏ２から同様の時間軸圧縮処理が繰り返される。これにより，Ｔ₀＋Ｃの長さの元の音声信号から，Ｃの長さの圧縮音声信号が生成（出力）されることになり，目標伸縮比（圧縮比）Ｒ（＝Ｃ／（Ｔ₀＋Ｃ））を達成する時間軸圧縮がなされる。

一方，図４は，ＰＩＣＯＬＡ方式により時間軸伸張が行われる際の音声信号の波形を模式的に表したものである。
まず，図４（ａ）に示すように，時間軸伸張（音声信号の挿入）の対象となる音声信号の範囲の先頭位置Ｐｏ３にポインタが設定され，このポインタ位置Ｐｏ３からの音声信号について，そのピッチ周期Ｔ₀（強い周期性を有する周期）が検出される。
次に，図４（ｂ）に示すように，前記ポインタ位置Ｐｏ３からピッチ周期Ｔ₀分の（ピッチ周期Ｔ₀の長さの）２つの信号ａ，ｂをクロスフェードの重み付けにより重複加算した重複加算信号ａ’を生成する。時間軸伸張の場合のクロスフェードの重み付けは，図４（ａ）に破線Ｗ３，Ｗ４で示すように，信号ａに対する重みは時間軸が進むに従ってフェードイン（次第に増加）し，信号ｂに対する重みは時間軸が進むに従ってフェードアウト（次第に低下）するよう重み付けがなされる。
次に，信号ａ，ｂの間に信号ａ’を挿入する。これにより，１ピッチ周期Ｔ₀分の時間軸伸張が完了する。ここで，挿入された信号ａ’は，クロスフェードの重み付けにより重複加算した信号であるので，その前後の音声信号との繋がりがスムーズとなり，違和感の少ない時間軸伸張が可能となる。
次に，目標伸縮比（伸張比）がＲ（１＜Ｒ）であるとすると，ポインタが，前記Ｐｏ３の位置からＴ₀＋Ｓ（Ｓ＝Ｔ₀×１／（Ｒ−１））だけ進んだ位置Ｐｏ４に再設定され，前記Ｐｏ３の位置から位置Ｐｏ４までの伸張処理後の音声信号が出力されるとともに，このポインタ位置Ｐｏ４から同様の時間軸伸張処理が繰り返される。これにより，Ｓの長さの元の音声信号から，Ｔ₀＋Ｓの長さの圧縮音声信号が生成（出力）されることになり，目標伸縮比（伸張比）Ｒ（＝（Ｔ₀＋Ｓ）／Ｓ）を達成する時間軸伸張がなされる。

また，特許文献１には，入力音声信号をＰＩＣＯＬＡ等を用いた時間軸圧縮又は伸張により時間調整をした後，補間処理によりサンプリングレートを変換して入力信号と同じ時間長（サンプル数）に戻すことによって，音声信号の音程変換を行う技術が示されている。これにより，音声信号のテンポ（速度）を変えずに，音程のみを変更することが可能となる。

一般に，ピッチ周期の検出（算出）方法としては，入力音声信号のサンプリング周期が各々の時間間隔となるよう設定された複数のピッチ周期候補それぞれについて，ピッチ周期を検出（算出）する対象である音声信号（入力音声信号）の周期性を比較し，最も周期性の強いピッチ周期候補を選択してピッチ周期とする方法が採用される。
即ち，所定の最小ピッチ周期Ｔ_minから最大ピッチ周期Ｔ_maxまでの範囲で複数のピッチ周期候補Ｔ（各Ｔの時間間隔は入力音声信号のサンプリング周期Δｔ）を設定し，このピッチ周期候補Ｔそれぞれについての周期性の強さを評価してその評価結果を比較し，最も周期性が強いと評価されるピッチ周期候補Ｔをピッチ周期Ｔ₀（ピッチ周期の検出値）とする。
ここで，前記ピッチ周期候補Ｔ各々についての周期性評価は，例えば，次の（１）式で定義される平均歪みｄ(Ｔ)を評価値とする。なお，（１）式において，ｘ(ｉ)は，音声信号のサンプルを表し，Ｔ，Ｔ_min及びＴ_maxは，各々ピッチ周期，その最小値及び最大値を入力音声信号のサンプル数に換算したもの表す。即ち，Ｔ，Ｔ_min及びＴ_max各々に入力音声信号のサンプリング周期Δｔを乗算して得られる時間が実際のピッチ周期，その最小値及び最大値を表す。

この（１）式は，時間Ｔ（サンプル数Ｔ）だけ離れた信号値どうしの差（絶対値）の平均値を計算し，その差の平均値が小さいほど周期Ｔにおける周期性が強い（即ち，周期Ｔごとに似た波形が現れる）として評価するものである。従って，ピッチ周期候補Ｔ各々について（１）式による評価値ｄ(Ｔ)を計算し，その評価値が最も小さくなるときのピッチ周期候補Ｔをピッチ周期の検出値Ｔ₀とする。
この場合，最も時間長の長いピッチ周期候補Ｔ_maxについて１周期分の評価が可能なように，周期性の評価対象とする音声信号ｘ（ｉ）の時間軸上の最大時間範囲は，Ｔ_maxの２倍の時間範囲（＝２・Ｔ_max）となる。
このようにして検出されたピッチ周期Ｔ₀に基づいて，前述したＰＩＣＯＬＡ方式により時間軸圧縮・伸張が行われる。
特開平８−２７２３９０号公報森田，板倉「自己相関関数を用いた音声の時間軸での伸縮」日本音響学会講演論文集，S61.3，PP199-200 森田，板倉「ポインター移動量制御による重複加算法（ＰＩＣＯＬＡ）を用いた音声の時間軸での伸張圧縮とその評価」，S61.10，PP149-150

しかしながら，前述したピッチ周期の検出方法では，処理対象とする音声信号が高いサンプリング周波数を有する場合には，評価対象（処理対象）とする時間範囲に存在する音声信号のサンプル数が増大，即ち，ピッチ周期候補の数が増大し，ピッチ周期検出の演算回数が増大するため，演算負荷が増大するという問題点があった。
従って，本発明は上記事情に鑑みてなされたものであり，その目的とするところは，入力音声信号からそのピッチ周期を検出し，そのピッチ周期に基づいて入力音声信号の時間軸の圧縮や伸張を行う音声信号処理装置において，ピッチ周期の演算負荷を軽減する音声信号処理装置及びそのプログラム並びにその方法を提供することにある。

上記目的を達成するために本発明は，入力音声信号からそのピッチ周期を検出し，検出した前記ピッチ周期に基づいて前記入力音声信号の時間軸の圧縮や伸張を行う音声信号処理装置，そのプログラム或いはその方法に適用されるものであり，前記入力音声信号のサンプリング周期の２倍以上の時間間隔で設定された複数のピッチ周期候補（以下，第１のピッチ周期候補という）各々についての前記入力音声信号の周期性を評価し（以下，第１の周期性評価という），その評価結果に基づいて前記入力音声信号における前記ピッチ周期の検出値を決定するものである。
これにより，従来のようにピッチ周期候補各々の時間間隔を前記入力信号のサンプリング周期に合わせる場合に比べ，前記ピッチ周期検出のための周期性評価演算の回数を少なくとも半分以下に減らすことができる。
この場合，前記第１のピッチ周期候補を，既定の時間範囲においてその数が既定の目標個数に最も近い数となるように自動設定すれば，前記入力音声信号のサンプリング周期に関わらず，周期性評価演算の回数を常にほぼ同程度の回数とすることができ，演算負荷が安定するので好適である。
ここで，前記ピッチ周期の検出値の決定方法としては，例えば，前記第１の周期性評価により最も周期性が強いと評価された前記第１のピッチ周期候補を前記ピッチ周期の検出値とすることが最もシンプルな方法である。
ところで，一般に，前記第１のピッチ周期候補各々の時間間隔が，前記入力音声信号のサンプリング周期に対して大きくなればなるほど（ピッチ周期候補が粗になるほど），演算負荷が下がる一方で周期性評価がなされないピッチ周期候補が増えるので，ピッチ周期の検出精度が悪化する可能性が高くなる。
即ち，前記第１のピッチ周期候補が粗になるほど，前記第１の周期性評価によって最も周期性が強いと評価された前記第１のピッチ周期候補が，最も理想的な（本来検出されるべき）ピッチ周期の検出値に対してずれている可能性が高くなり，また，そのずれ幅も大きくなる可能性が高くなる。
そこで，前記第１の周期性評価により最も周期性が強いと評価された前記第１のピッチ周期候補とそれに最も時間間隔が近い（即ち，時間軸上において隣接する）他の前記第１のピッチ周期候補との間に１又は複数の第２のピッチ周期候補を設定し，その設定された前記第２のピッチ周期候補各々についての前記入力音声信号の周期性を評価し（以下，第２の周期性評価という），その上で，前記１の周期性評価により最も周期性が強いと評価された前記第１のピッチ周期候補についての周期性の評価結果と，前記第２の周期性評価による前記第２のピッチ周期候補各々についての周期性の評価結果とに基づいて，前記ピッチ周期の検出値を決定することが考えられる。
これにより，まず，前記第１の周期性評価により，粗に設定された前記第１のピッチ周期候補の中から，前記ピッチ周期の検出値とされるべき周期或いはそれに最も近い周期（最も周期性が強いと評価されたもの）が粗選択される。さらに，前記第２の周期性評価により，前記第１の周期性評価に基づいて粗選択された前記第１のピッチ周期候補の近傍周期について，今度は密に周期性評価が行われ，それら両方の評価結果に基づいて，最も理想的な（本来検出されるべき）ピッチ周期の検出値或いはそれに近い検出値がピッチ周期の検出値とされる。
その結果，演算負荷の低減と，ピッチ周期検出精度の確保とを両立することが可能となる。
特に，前記第２のピッチ周期候補各々の時間間隔を前記入力音声信号のサンプリング周期と一致させれば，最も密な時間間隔のピッチ周期候補各々について前記第２の周期性評価がなされるので，ピッチ周期検出精度の確保を重視する場合に好適である。

本発明によれば，入力音声信号のサンプリング周期の２倍以上の時間間隔で設定された複数の第１のピッチ周期候補各々についての前記入力音声信号の周期性を評価し（第１の周期性評価），その評価結果に基づいて前記入力音声信号における前記ピッチ周期の検出値を決定するので，前記ピッチ周期検出のための周期性評価演算の回数を少なくとも従来の半分以下に減らすことができる。その結果，前記入力音声信号のサンプリング周波数が高い（サンプリング周期が短い）場合であっても，当該音声信号処理を行う演算手段として比較的小型，省電力，低コストのものを採用できる。
さらに，前記第１の周期性評価により最も周期性が強いと評価された前記第１のピッチ周期候補とそれに最も時間間隔が近い他の前記第１のピッチ周期候補との間に１又は複数の第２のピッチ周期候補を設定し，その設定された前記第２のピッチ周期候補各々についての前記入力音声信号の周期性を評価（第２の周期性評価）するとともに，両評価結果に基づいて前記ピッチ周期の検出値を決定すれば，演算負荷の低減と，ピッチ周期検出精度の確保とを両立することが可能となる。

以下添付図面を参照しながら，本発明の実施の形態について説明し，本発明の理解に供する。尚，以下の実施の形態は，本発明を具体化した一例であって，本発明の技術的範囲を限定する性格のものではない。
以下添付図面を参照しながら，本発明の実施の形態及び実施例について説明し，本発明の理解に供する。尚，以下の実施の形態及び実施例は，本発明を具体化した一例であって，本発明の技術的範囲を限定する性格のものではない。
ここに，図１は本発明の実施の形態に係る音声信号処理装置Ｘの概略構成を表すブロック図，図２は音声信号処理装置Ｘにおける入力音声信号の時間軸伸縮処理の手順を表すフローチャート，図３はＰＩＣＯＬＡ方式により音声信号の時間軸圧縮が行われる際の音声信号の波形を模式的に表した図，図４はＰＩＣＯＬＡ方式により音声信号の時間軸伸張が行われる際の音声信号の波形を模式的に表した図である。

以下，図１を用いて，本発明の実施の形態に係る音声信号処理装置Ｘについて説明する。
音声信号処理装置Ｘは，音声信号（入力音声信号Ｓ_in）を入力し，その所定時間長分を切り出してバッファメモリ１２に格納する信号入力部１１と，その信号入力部１１によって入力音声信号Ｓ_inの一部が一時格納されるバッファメモリ１２と，そのバッファメモリ１２に格納された入力音声信号Ｓ_inに基づいてそのピッチ周期を検出するピッチ周期検出部１４と，そのピッチ周期検出部１４によるピッチ周期の検出値と予め設定された目標伸縮比とに基づいて，前記バッファメモリ１２に格納された入力信号Ｓ_inに対してＰＩＣＯＬＡ方式による時間軸圧縮若しくは伸張の処理を施し，前記バッファメモリ１２内の入力音声信号Ｓ_inを圧縮若しくは伸張後の伸縮後信号に更新する（時間軸の圧縮及び伸張を行う）伸縮処理部１３と，前記バッファメモリ内１２の前記伸縮後信号を順次読み出してスピーカ等の音声出力手段へ出力するとともに，出力済みのデータを前記バッファメモリ１２から消去するデータ出力部１５とを具備している。
さらに，前記ピッチ周期検出部１５は，前記バッファメモリ１２に取り込まれた入力音声信号Ｓ_inについて，その周期性評価を行う際のピッチ周期候補を設定するピッチ周期候補設定部１４ａと，設定されたピッチ周期候補各々について入力音声信号Ｓ_inの周期性を評価する周期性評価部１４ｂと，その評価結果に基づいてピッチ周期の検出値を決定するピッチ周期決定部１４ｃとを有している。
図１に示す音声信号処理装置Ｘは，その各構成要素を，それぞれＣＰＵやメモリ等からなる処理回路やＤＳＰ(Digital Signal Processor)等により構成することが考えられるが，その他にも，各構成要素が行う処理（工程）を実現する処理プログラムをＲＯＭ等の記憶手段に予め記憶させておき，これを所定のコンピュータによって実行するもの等であってもよい。

次に，図２に示すフローチャートを用いて，音声信号処理装置Ｘにおける時間軸伸縮処理の手順について説明する。以下，Ｓ１，Ｓ２，…は，処理手順（ステップ）の識別符号を表す。
まず，時間軸伸縮処理が開始されると，前記信号入力部１１により，所定時間Ｔ_in分の入力音声信号Ｓ_inが前記バッファメモリ１２に取り込まれる（Ｓ１）。ここで，取り込まれる入力音声信号Ｓ_inの時間長Ｔ_inは，ピッチ周期検出の際の周期性の評価対象とするピッチ周期候補の最大値Ｔ_maxの２倍の時間長である。
＜第１のピッチ周期設定＞
次に，前記周期候補設定部１４ａにより，入力音声信号Ｓ_inのサンプリング周期の整数倍かつ２倍以上の時間間隔で複数のピッチ周期候補Ｔが自動設定される（Ｓ２）。
本実施形態では，前記周期候補設定部１４ａにより設定されるピッチ周期候補Ｔは，予め定められたピッチ周期候補の最小値Ｔ_minから最大値Ｔ_maxまでの範囲内であり（Ｔ_min≦Ｔｉ≦Ｔ_max），かつ，その時間範囲において，ピッチ周期候補Ｔの数が，予め定められた目標個数に最も近い数となるようにピッチ周期候補Ｔ各々の時間間隔が自動設定される（第１のピッチ周期候補設定）。ここで，入力音声信号Ｓ_inのサンプリング周期は，例えば，前記信号入力部１１により自動検出され，それが前記周期候補設定部１４ａに通知される。
もちろんそれ以外にも，例えば，入力音声信号Ｓ_inのサンプリング周期に，予め設定された２以上の整数を掛けて求まる時間間隔を，ピッチ周期候補Ｔ各々の時間間隔として設定すること等も考えられる。

＜第１の周期性評価＞
次に，前記周期性評価部１４ｂにより実行される以下のステップＳ３〜Ｓ８の処理により，前記バッファメモリ１２に取り込まれた入力音声信号Ｓ_inについて，ステップＳ２で設定された複数のピッチ周期候補Ｔ，即ち，入力音声信号Ｓ_inのサンプリング周期の整数倍かつ２倍以上の時間間隔で設定された複数のピッチ周期候補Ｔ各々についての周期性評価がなされる（第１の周期性評価）。
以下，前記周期性評価部１４ｂによるステップＳ３〜Ｓ８の処理について説明する。
まず，所定のワーク変数ｉ，ｄ１_minの初期化処理（ｉ＝１，ｄ１_min＝∞（考え得る最大値））がなされる（Ｓ３）。
次に，ステップＳ２で設定された複数のピッチ周期候補Ｔのうちｉ番目（初期値は１番目）のピッチ周期候補Ｔ_iについて，前述の（１）式等の評価式に基づいて周期性の評価値ｄ(Ｔ_i)が計算される（Ｓ４）。ここでは，ピッチ周期候補Ｔ各々の番号ｉが小さいほどそのピッチ周期候補Ｔ_iの値が小さいものとし，評価値ｄ(Ｔ_i)の値が低いほど，周期性が強いことを表すものとする。
次に，計算された評価値ｄ(Ｔ_i)が，その時点での評価値の最小値を格納するためのワーク変数ｄ１_min（初期値は考え得る最大値）より小さいか否かが判別され（Ｓ５），ｄ(Ｔ_i)＜ｄ１_minの場合はそのときの評価値ｄ(Ｔ_i)がワーク変数ｄ１_minに代入され，同様にワーク変数Ｔ_x1にそのときのピッチ周期候補Ｔ_iが，ワーク変数ｊにそのときのｉ（番目）が代入（Ｓ６）された後，処理がステップＳ７へ移行される一方，その他の場合はそのままステップＳ７へ移行される。
次に，ステップＳ７では，ワーク変数ｉがインクリメント（ｉ＝ｉ＋１）され，さらにステップＳ８において，全てのピッチ周期候補Ｔについての周期性評価が終了したか否かが判別される。そして，全てのピッチ周期候補Ｔについての周期性評価が終了するまで，ステップＳ４〜Ｓ８の処理が繰り返された後，処理がステップＳ９へ移行される。
これにより，ワーク変数Ｔ_x1，ｊ及びｄ１_minの各々には，ステップＳ２で設定された複数のピッチ周期候補Ｔ（第１のピッチ周期候補）各々のうち，入力音声信号Ｓ_inについて最も周期性が強いと評価されたピッチ周期候補Ｔ_i，その番号ｉ及びその評価値ｄ(Ｔ_i)が代入された状態となる。

＜第２のピッチ周期候補設定＞
次に，前記周期候補設定部１４ａにより，前述のステップＳ３〜Ｓ８の処理（第１の周期性評価）で最も周期性が強いと評価された前記ピッチ周期候補Ｔ_x1と，ステップＳ２で設定されたピッチ周期候補Ｔのうち前記ピッチ周期候補Ｔ_x1に最も時間間隔が近い他のピッチ周期候補Ｔ_j-1及びＴ_j+1各々との間において，１又は複数のピッチ周期候補Ｔ'（第２のピッチ周期候補）が設定される（Ｓ８，第２のピッチ周期候補設定）。
本実施形態では，前記周期候補設定部１４ａにより設定されるピッチ周期候補Ｔ'は（Ｔ_j-1＜Ｔ'＜Ｔ_x1）の範囲と，（Ｔ_x1＜Ｔ'＜Ｔ_j+1）の範囲の各々において設定される。
さらに，ピッチ周期候補Ｔ'の時間間隔は，入力音声信号Ｓ_inのサンプリング周期と一致するように設定される。
それ以外にも，例えば，（Ｔ_j-1＜Ｔ'＜Ｔ_x1）の範囲と，（Ｔ_x1＜Ｔ'＜Ｔ_j+1）の範囲の各々において，ピッチ周期候補Ｔ'の数が，予め定められた目標個数に最も近い数となるようにピッチ周期候補Ｔ'各々の時間間隔を設定すること等も考えられる。

＜第２の周期性評価＞
次に，前記周期性評価部１４ｂにより実行される以下のステップＳ１０〜Ｓ１５の処理により，前記バッファメモリ１２に取り込まれた入力音声信号Ｓ_inについて，ステップＳ２で設定された複数のピッチ周期候補Ｔ，即ち，入力音声信号Ｓ_inのサンプリング周期の整数倍かつ２倍以上の時間間隔で設定された複数のピッチ周期候補Ｔ各々についての周期性評価がなされる（第２の周期性評価）。
ここで，前記周期性評価部１４ｂによるステップＳ１０〜Ｓ１５の処理は，前述のステップＳ３〜Ｓ８の処理と同様であり，このステップＳ１０〜Ｓ１５におけるピッチ周期候補Ｔ'及びワーク変数ｄ２_min，Ｔ_x2各々は，前述のピッチ周期候補Ｔ及びワーク変数ｄ１_min，Ｔ_x1各々に相当する。但し，ワーク変数ｄ２_minの初期値は，ステップＳ３〜Ｓ８の処理で最も周期性が強いと評価されたピッチ周期候補Ｔ_x1の評価値ｄ１_minである。
このステップＳ１０〜Ｓ１５の処理により，ワーク変数Ｔ_x2及びｄ２_minの各々には，ステップＳ９で設定されたピッチ周期候補Ｔ'（第２のピッチ周期候補）各々のうち，入力音声信号Ｓ_inについて最も周期性が強いと評価されたピッチ周期候補Ｔ'_i及びその評価値ｄ(Ｔ'_i)が代入された状態となる。

＜ピッチ周期決定＞
次に，前記ピッチ周期決定部１４ｃにより，ステップＳ３〜Ｓ８の処理（第１の周期性評価）により最も周期性が強いと評価されたピッチ周期候補Ｔ_x1についての周期性の評価値ｄ１_minと，ステップＳ１０〜Ｓ１５の処理（第２の周期性評価）により最も周期性が強いと評価されたピッチ周期候補Ｔ_x2の評価値ｄ２_minとが比較され（Ｓ１６），評価値の低い方（より周期性が強いと評価された方）のピッチ周期候補がピッチ周期の検出値Ｔ₀として決定される（Ｓ１７，Ｓ１８）。

＜時間軸圧縮・伸張＞
次に，前記伸縮処理部１３により，ステップＳ２〜Ｓ１の処理により検出されたピッチ周期の検出値Ｔ₀に基づいて，前記バッファメモリ１２に取り込まれている入力音声信号Ｓ_inから，図３及び図４を用いて前述した重み付け重複加算処理により，１ピッチ周期Ｔ₀分の重複加算信号（図３，図４におけるａ’）が生成される（Ｓ１９）。
さらに，前記伸縮処理部１３により，予め設定された目標伸縮比Ｒ（目標圧縮比Ｒ（０＜Ｒ＜１）若しくは目標伸張比Ｒ（１＜Ｒ））に従って，前記重複加算信号ａ’を入力音声信号Ｓ_inにおける所定位置に挿入，或いは所定部分と置換することにより，前記バッファメモリ１２に格納された入力音声信号Ｓｉｎを，時間軸伸縮後の信号（伸縮信号）に更新される（Ｓ２０）。
即ち，予め設定された目標伸縮比が１より大きい場合は，前記重複加算信号ａ’が入力音声信号Ｓ_inにおける所定位置（図４におけるＰｏ３’の位置）に挿入され，前記目標伸縮比が１未満である場合は，入力音声信号Ｓ_inにおける所定部分（図３におけるａの部分）と置換される。
このようにして時間軸伸縮処理が施された前記バッファメモリ１２内の音声信号（伸縮後信号）は，前記データ出力部１５により順次読み出されてスピーカ等の音声出力手段へ出力されるとともに，出力済みのデータは前記バッファメモリ１２から消去される。

さらに，前記伸縮処理部１３により，図３及び図４を用いて前述した要領により，前記目標伸縮比Ｒと，前記ピッチ周期の検出値Ｔ₀とに基づいて，次回のステップＳ４の処理において前記バッファメモリ１２における入力音声信号Ｓ_inの周期性評価を行う際の評価開始位置を特定するポインタ位置が設定される（Ｓ２１）さらに，次回のステップＳ１の処理において前記ポインタ位置から前記時間長Ｔ_in分の入力音声信号Ｓ_inが前記バッファメモリ１２内に確保されるように，前記信号入力部１１に対して次回の信号取込長が設定される（Ｓ２１）。
次に，前記伸縮処理部１３により，当該伸縮処理の終了状態となったか否かが判別され（Ｓ２２），終了状態となっていないと判別された場合は，ステップＳ１に処理が戻されて前述した処理が繰り返される一方，終了状態となっていると判別された場合は当該処理が終了される。
前記終了状態となったか否かは，例えば，前記バッファメモリ１２内に未処理の入力音声信号Ｓ_inが存在しなくなったこと（即ち，処理対象となる入力音声信号Ｓ_inの最後まで伸縮処理が完了したこと）の検知の有無や，所定の操作入力部（不図示）から終了操作がなされたことの検知の有無により判別される。

以上示したように，音声信号処理装置Ｘでは，入力音声信号Ｓ_inのサンプリング周期の２倍以上の時間間隔で設定（Ｓ２）された複数のピッチ周期候補Ｔ各々についての入力音声信号Ｓ_inの周期性を評価し（Ｓ３〜Ｓ８，第１の周期性評価），その評価結果に基づいて入力音声信号Ｓ_inにおけるピッチ周期の検出値Ｔ₀を決定（Ｓ１６〜Ｓ１８）するので，ピッチ周期検出のための周期性評価演算の回数を少なくとも従来の半分以下に減らすことができる。その結果，入力音声信号Ｓ_inのサンプリング周波数が高い（サンプリング周期が短い）場合であっても，当該音声信号処理を行う演算手段として比較的小型，省電力，低コストのものを採用できる。
また，ステップＳ２において，ピッチ周期候補が既定の時間範囲Ｔ_min〜Ｔ_maxにおいてその数が既定の目標個数に最も近い数となるように設定するので，入力音声信号Ｓ_inのサンプリング周期に関わらず，周期性評価演算の回数を常にほぼ同程度の回数とすることができ，演算負荷が安定するので好適である。
さらに，ステップＳ３〜Ｓ８の処理（第１の周期性評価）により最も周期性が強いと評価されたピッチ周期候補Ｔ_x1の前後の狭い時間間隔で設定されたピッチ周期候補Ｔ'（Ｓ９）について，入力音声信号Ｓ_inの周期性を評価（第２の周期性評価）する（Ｓ１０〜Ｓ１５）とともに，両評価結果に基づいてピッチ周期の検出値Ｔ₀を決定するので，演算負荷の低減と，ピッチ周期検出精度の確保とを両立することが可能となる。
ここで，処理の簡素化をより優先する場合は，ピッチ周期の検出値Ｔ₀の決定方法として，例えば，ステップＳ３〜Ｓ８の処理（第１の周期性評価）により最も周期性が強いと評価されたピッチ周期候補Ｔ_x1をピッチ周期の検出値Ｔ₀とすることも考えられる。

以上示した実施形態では，１つの入力音声信号を処理する場合について示したが，例えば，２チャンネルのステレオ音声信号や３チャンネル以上のマルチチャンネル音声信号を入力音声信号とすることも考えられる。
この場合，各チャンネル信号について前述のピッチ周期検出処理及び伸縮処理を施すことの他，例えば，全チャンネル信号を合成した合成信号についてピッチ周期検出を行い，求められた１つのピッチ周期に基づいて，全チャンネル信号それぞれについて伸縮処理を行うことも考えられる。
これにより，チャンネル信号それぞれについて個別にピッチ周期検出を行う必要がなく，演算負荷の増大を防止できる。さらに，各チャンネル信号の周期性が反映されたピッチ周期が採用されるので，音声品質の劣化を防止しつつ，聞く人に違和感を与えるようなチャンネル間の位相差発生も防止できる。

本発明は，入力音声信号からそのピッチ周期を検出し，そのピッチ周期に基づいて入力音声信号の時間軸の圧縮や伸張を行う音声信号処理装置等に利用可能である。

本発明の実施の形態に係る音声信号処理装置Ｘの概略構成を表すブロック図。音声信号処理装置Ｘにおける入力音声信号の時間軸伸縮処理の手順を表すフローチャート。ＰＩＣＯＬＡ方式により音声信号の時間軸圧縮が行われる際の音声信号の波形を模式的に表した図。ＰＩＣＯＬＡ方式により音声信号の時間軸伸張が行われる際の音声信号の波形を模式的に表した図。

符号の説明

１１…信号入力部
１２…バッファメモリ
１３…伸縮処理部
１４…ピッチ周期検出部
１５…データ出力部
Ｓ１，Ｓ２，，，…処理手順（ステップ）

Claims

入力音声信号からそのピッチ周期を検出し，該ピッチ周期に基づいて前記入力音声信号の時間軸の圧縮及び／又は伸張を行う音声信号処理装置であって，
前記入力音声信号のサンプリング周期の整数倍かつ２倍以上の時間間隔で設定された複数の第１のピッチ周期候補各々についての前記入力音声信号の周期性を評価する第１の周期性評価手段と，
前記第１の周期性評価手段の評価結果に基づいて前記入力音声信号における前記ピッチ周期の検出値を決定するピッチ周期決定手段と，
を具備してなることを特徴とする音声信号処理装置。
前記第１のピッチ周期候補を，既定の時間範囲においてその数が既定の目標個数に最も近い数となるように自動設定する第１のピッチ周期候補設定手段を具備してなる請求項１に記載の音声信号処理装置。
前記ピッチ周決定手段が，前記第１の周期性評価手段により最も周期性が強いと評価された前記第１のピッチ周期候補を前記ピッチ周期の検出値とするものである請求項１又は２のいずれかに記載の音声信号処理装置。
前記第１の周期性評価手段により最も周期性が強いと評価された前記第１のピッチ周期候補とそれに最も時間間隔が近い他の前記第１のピッチ周期候補との間に１又は複数の第２のピッチ周期候補を設定する第２のピッチ周期候補設定手段と，
前記第２のピッチ周期候補設定手段により設定された前記第２のピッチ周期候補各々についての前記入力音声信号の周期性を評価する第２の周期性評価手段と，を具備し，
前記ピッチ周期決定手段が，前記１の周期性評価手段により最も周期性が強いと評価された前記第１のピッチ周期候補についての周期性の評価結果と前記第２の周期性評価手段による前記第２のピッチ周期候補各々についての周期性の評価結果とに基づいて前記ピッチ周期の検出値を決定してなる請求項１又は２のいずれかに記載の音声信号処理装置。
前記第２のピッチ周期候補設定手段が，前記第２のピッチ周期候補各々の時間間隔を前記入力音声信号のサンプリング周期と一致させてなる請求項４に記載の音声信号処理装置。
入力音声信号からそのピッチ周期を検出し，該ピッチ周期に基づいて前記入力音声信号の時間軸の圧縮及び／又は伸張を行う処理をコンピュータに実行させるための音声信号処理プログラムであって，
前記入力音声信号のサンプリング周期の２倍以上の時間間隔で設定された複数の第１のピッチ周期候補各々についての前記入力音声信号の周期性を評価する第１の周期性評価処理と，
前記第１の周期性評価処理の評価結果に基づいて前記入力音声信号における前記ピッチ周期の検出値を決定するピッチ周期決定処理と，
をコンピュータに実行させるための音声信号処理プログラム。
入力音声信号からそのピッチ周期を検出し，該ピッチ周期に基づいて前記入力音声信号の時間軸の圧縮及び／又は伸張を行う音声信号処理方法であって，
前記入力音声信号のサンプリング周期の２倍以上の時間間隔で設定された複数の第１のピッチ周期候補各々についての前記入力音声信号の周期性を評価する第１の周期性評価工程と，
前記第１の周期性評価工程の評価結果に基づいて前記入力音声信号における前記ピッチ周期の検出値を決定するピッチ周期決定工程と，
を有してなることを特徴とする音声信号処理方法。