JP2006220806A - 音声信号処理装置,音声信号処理プログラム,音声信号処理方法 - Google Patents
音声信号処理装置,音声信号処理プログラム,音声信号処理方法 Download PDFInfo
- Publication number
- JP2006220806A JP2006220806A JP2005032821A JP2005032821A JP2006220806A JP 2006220806 A JP2006220806 A JP 2006220806A JP 2005032821 A JP2005032821 A JP 2005032821A JP 2005032821 A JP2005032821 A JP 2005032821A JP 2006220806 A JP2006220806 A JP 2006220806A
- Authority
- JP
- Japan
- Prior art keywords
- pitch period
- audio signal
- periodicity
- pitch
- input audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
Abstract
【課題】 入力音声信号からそのピッチ周期を検出し,そのピッチ周期に基づいて入力音声信号の時間軸の圧縮や伸張を行う音声信号処理装置において,ピッチ周期の演算負荷を軽減すること。
【解決手段】 周期性評価部14bにより,入力音声信号Sinのサンプリング周期の2倍以上の時間間隔で設定された複数の第1のピッチ周期候補T各々についての入力音声信号Sinの周期性を評価し,最も周期性が強いと評価されたピッチ周期候補Tx1とそれに最も時間間隔が近い他のピッチ周期候補Tj-1,Tj+1との間に1又は複数の第2のピッチ周期候補T'を設定し,その各々についての入力音声信号Sinの周期性を評価するとともに,両評価結果に基づいてピッチ周期決定部14cによりピッチ周期の検出値T0を決定する。
【選択図】図1
【解決手段】 周期性評価部14bにより,入力音声信号Sinのサンプリング周期の2倍以上の時間間隔で設定された複数の第1のピッチ周期候補T各々についての入力音声信号Sinの周期性を評価し,最も周期性が強いと評価されたピッチ周期候補Tx1とそれに最も時間間隔が近い他のピッチ周期候補Tj-1,Tj+1との間に1又は複数の第2のピッチ周期候補T'を設定し,その各々についての入力音声信号Sinの周期性を評価するとともに,両評価結果に基づいてピッチ周期決定部14cによりピッチ周期の検出値T0を決定する。
【選択図】図1
Description
本発明は,入力音声信号からそのピッチ周期を検出し,そのピッチ周期に基づいて入力音声信号の時間軸の圧縮や伸張を行う音声信号処理装置及びその方法に関するものである。
カラオケのテンポ(速度)変更やビデオの再生速度変更等を行う際に,音程を変えずに音声信号(オーディオ信号)の再生速度を速くしたり遅くしたりする時間軸圧縮伸張処理(音声信号処理の一例)が必要となる。また,再生速度を変えずに,音程(音の高低)のみを変更する音程変換処理(音声信号処理の一例)が必要となることもある。
従来,非特許文献1及び非特許文献2には,ある時間帯の音声信号について強い周期性(ある周期ごとに相関の高い時系列データが繰り返す性質)を有するピッチ周期を見出し,そのピッチ周期の単位での音声信号の省略や繰り返し(挿入)によって(ピッチ周期に基づく)時間軸圧縮伸張処理を行う技術が示されている。この技術では,音声信号における省略するピッチ周期分の信号をその次のピッチ周期分の信号にクロスフェードの重み付けにより重複加算する(時間軸圧縮),或いは「ある時点」の前後のピッチ周期分の信号をクロスフェードの重み付けにより重複加算したピッチ周期分の信号をその「ある時点」に挿入する(時間軸伸張)PICOLA(Pointer Interval Control Over Lap and Add,ポンター移動量制御による重複加算法)という手法が採用されている。
従来,非特許文献1及び非特許文献2には,ある時間帯の音声信号について強い周期性(ある周期ごとに相関の高い時系列データが繰り返す性質)を有するピッチ周期を見出し,そのピッチ周期の単位での音声信号の省略や繰り返し(挿入)によって(ピッチ周期に基づく)時間軸圧縮伸張処理を行う技術が示されている。この技術では,音声信号における省略するピッチ周期分の信号をその次のピッチ周期分の信号にクロスフェードの重み付けにより重複加算する(時間軸圧縮),或いは「ある時点」の前後のピッチ周期分の信号をクロスフェードの重み付けにより重複加算したピッチ周期分の信号をその「ある時点」に挿入する(時間軸伸張)PICOLA(Pointer Interval Control Over Lap and Add,ポンター移動量制御による重複加算法)という手法が採用されている。
図3は,PICOLA方式により時間軸圧縮が行われる際の音声信号の波形を模式的に表したものである。
まず,図3(a)に示すように,時間軸圧縮(音声信号の省略)の対象となる音声信号の範囲の先頭位置Po1にポインタが設定され,このポインタ位置Po1からの音声信号について,そのピッチ周期T0(強い周期性を有する周期)が検出される。ピッチ周期T0の検出方法の例については後述する。
次に,図3(b)に示すように,前記ポインタ位置Po1からピッチ周期T0分の(ピッチ周期T0の長さの)2つの信号a,bをクロスフェードの重み付けにより重複加算した重複加算信号a’を生成する。即ち,2つの信号a,bを合成(重複加算)する際に,図3(a)に破線W1,W2で示すように,信号aに対する重みは時間軸が進むに従ってフェードアウト(次第に低下)し,信号bに対する重みは時間軸が進むに従ってフェードイン(次第に増大)するようクロスフェードの重み付けがなされる。
次に,信号aを削除(省略)するとともに,信号bを信号a’に置き換える。これにより,1ピッチ周期T0分の時間軸圧縮が完了する。ここで,音声信号の省略部に設定された信号a’は,クロスフェードの重み付けにより重複加算した信号であるので,その前後の音声信号との繋がりがスムーズとなり,違和感の少ない時間軸圧縮が可能となる。
次に,目標伸縮比(圧縮比)がR(0<R<1)であるとすると,ポインタが,前記Po1の位置からC(=T0×R/(1−R))だけ進んだ位置Po2に再設定され,前記Po1の位置から位置Po2までの圧縮処理後の音声信号が出力されるとともに,このポインタ位置Po2から同様の時間軸圧縮処理が繰り返される。これにより,T0+Cの長さの元の音声信号から,Cの長さの圧縮音声信号が生成(出力)されることになり,目標伸縮比(圧縮比)R(=C/(T0+C))を達成する時間軸圧縮がなされる。
まず,図3(a)に示すように,時間軸圧縮(音声信号の省略)の対象となる音声信号の範囲の先頭位置Po1にポインタが設定され,このポインタ位置Po1からの音声信号について,そのピッチ周期T0(強い周期性を有する周期)が検出される。ピッチ周期T0の検出方法の例については後述する。
次に,図3(b)に示すように,前記ポインタ位置Po1からピッチ周期T0分の(ピッチ周期T0の長さの)2つの信号a,bをクロスフェードの重み付けにより重複加算した重複加算信号a’を生成する。即ち,2つの信号a,bを合成(重複加算)する際に,図3(a)に破線W1,W2で示すように,信号aに対する重みは時間軸が進むに従ってフェードアウト(次第に低下)し,信号bに対する重みは時間軸が進むに従ってフェードイン(次第に増大)するようクロスフェードの重み付けがなされる。
次に,信号aを削除(省略)するとともに,信号bを信号a’に置き換える。これにより,1ピッチ周期T0分の時間軸圧縮が完了する。ここで,音声信号の省略部に設定された信号a’は,クロスフェードの重み付けにより重複加算した信号であるので,その前後の音声信号との繋がりがスムーズとなり,違和感の少ない時間軸圧縮が可能となる。
次に,目標伸縮比(圧縮比)がR(0<R<1)であるとすると,ポインタが,前記Po1の位置からC(=T0×R/(1−R))だけ進んだ位置Po2に再設定され,前記Po1の位置から位置Po2までの圧縮処理後の音声信号が出力されるとともに,このポインタ位置Po2から同様の時間軸圧縮処理が繰り返される。これにより,T0+Cの長さの元の音声信号から,Cの長さの圧縮音声信号が生成(出力)されることになり,目標伸縮比(圧縮比)R(=C/(T0+C))を達成する時間軸圧縮がなされる。
一方,図4は,PICOLA方式により時間軸伸張が行われる際の音声信号の波形を模式的に表したものである。
まず,図4(a)に示すように,時間軸伸張(音声信号の挿入)の対象となる音声信号の範囲の先頭位置Po3にポインタが設定され,このポインタ位置Po3からの音声信号について,そのピッチ周期T0(強い周期性を有する周期)が検出される。
次に,図4(b)に示すように,前記ポインタ位置Po3からピッチ周期T0分の(ピッチ周期T0の長さの)2つの信号a,bをクロスフェードの重み付けにより重複加算した重複加算信号a’を生成する。時間軸伸張の場合のクロスフェードの重み付けは,図4(a)に破線W3,W4で示すように,信号aに対する重みは時間軸が進むに従ってフェードイン(次第に増加)し,信号bに対する重みは時間軸が進むに従ってフェードアウト(次第に低下)するよう重み付けがなされる。
次に,信号a,bの間に信号a’を挿入する。これにより,1ピッチ周期T0分の時間軸伸張が完了する。ここで,挿入された信号a’は,クロスフェードの重み付けにより重複加算した信号であるので,その前後の音声信号との繋がりがスムーズとなり,違和感の少ない時間軸伸張が可能となる。
次に,目標伸縮比(伸張比)がR(1<R)であるとすると,ポインタが,前記Po3の位置からT0+S(S=T0×1/(R−1))だけ進んだ位置Po4に再設定され,前記Po3の位置から位置Po4までの伸張処理後の音声信号が出力されるとともに,このポインタ位置Po4から同様の時間軸伸張処理が繰り返される。これにより,Sの長さの元の音声信号から,T0+Sの長さの圧縮音声信号が生成(出力)されることになり,目標伸縮比(伸張比)R(=(T0+S)/S)を達成する時間軸伸張がなされる。
まず,図4(a)に示すように,時間軸伸張(音声信号の挿入)の対象となる音声信号の範囲の先頭位置Po3にポインタが設定され,このポインタ位置Po3からの音声信号について,そのピッチ周期T0(強い周期性を有する周期)が検出される。
次に,図4(b)に示すように,前記ポインタ位置Po3からピッチ周期T0分の(ピッチ周期T0の長さの)2つの信号a,bをクロスフェードの重み付けにより重複加算した重複加算信号a’を生成する。時間軸伸張の場合のクロスフェードの重み付けは,図4(a)に破線W3,W4で示すように,信号aに対する重みは時間軸が進むに従ってフェードイン(次第に増加)し,信号bに対する重みは時間軸が進むに従ってフェードアウト(次第に低下)するよう重み付けがなされる。
次に,信号a,bの間に信号a’を挿入する。これにより,1ピッチ周期T0分の時間軸伸張が完了する。ここで,挿入された信号a’は,クロスフェードの重み付けにより重複加算した信号であるので,その前後の音声信号との繋がりがスムーズとなり,違和感の少ない時間軸伸張が可能となる。
次に,目標伸縮比(伸張比)がR(1<R)であるとすると,ポインタが,前記Po3の位置からT0+S(S=T0×1/(R−1))だけ進んだ位置Po4に再設定され,前記Po3の位置から位置Po4までの伸張処理後の音声信号が出力されるとともに,このポインタ位置Po4から同様の時間軸伸張処理が繰り返される。これにより,Sの長さの元の音声信号から,T0+Sの長さの圧縮音声信号が生成(出力)されることになり,目標伸縮比(伸張比)R(=(T0+S)/S)を達成する時間軸伸張がなされる。
また,特許文献1には,入力音声信号をPICOLA等を用いた時間軸圧縮又は伸張により時間調整をした後,補間処理によりサンプリングレートを変換して入力信号と同じ時間長(サンプル数)に戻すことによって,音声信号の音程変換を行う技術が示されている。これにより,音声信号のテンポ(速度)を変えずに,音程のみを変更することが可能となる。
一般に,ピッチ周期の検出(算出)方法としては,入力音声信号のサンプリング周期が各々の時間間隔となるよう設定された複数のピッチ周期候補それぞれについて,ピッチ周期を検出(算出)する対象である音声信号(入力音声信号)の周期性を比較し,最も周期性の強いピッチ周期候補を選択してピッチ周期とする方法が採用される。
即ち,所定の最小ピッチ周期Tminから最大ピッチ周期Tmaxまでの範囲で複数のピッチ周期候補T(各Tの時間間隔は入力音声信号のサンプリング周期Δt)を設定し,このピッチ周期候補Tそれぞれについての周期性の強さを評価してその評価結果を比較し,最も周期性が強いと評価されるピッチ周期候補Tをピッチ周期T0(ピッチ周期の検出値)とする。
ここで,前記ピッチ周期候補T各々についての周期性評価は,例えば,次の(1)式で定義される平均歪みd(T)を評価値とする。なお,(1)式において,x(i)は,音声信号のサンプルを表し,T,Tmin及びTmaxは,各々ピッチ周期,その最小値及び最大値を入力音声信号のサンプル数に換算したもの表す。即ち,T,Tmin及びTmax各々に入力音声信号のサンプリング周期Δtを乗算して得られる時間が実際のピッチ周期,その最小値及び最大値を表す。
この(1)式は,時間T(サンプル数T)だけ離れた信号値どうしの差(絶対値)の平均値を計算し,その差の平均値が小さいほど周期Tにおける周期性が強い(即ち,周期Tごとに似た波形が現れる)として評価するものである。従って,ピッチ周期候補T各々について(1)式による評価値d(T)を計算し,その評価値が最も小さくなるときのピッチ周期候補Tをピッチ周期の検出値T0とする。
この場合,最も時間長の長いピッチ周期候補Tmaxについて1周期分の評価が可能なように,周期性の評価対象とする音声信号x(i)の時間軸上の最大時間範囲は,Tmaxの2倍の時間範囲(=2・Tmax)となる。
このようにして検出されたピッチ周期T0に基づいて,前述したPICOLA方式により時間軸圧縮・伸張が行われる。
特開平8−272390号公報
森田,板倉「自己相関関数を用いた音声の時間軸での伸縮」日本音響学会講演論文集,S61.3,PP199-200
森田,板倉「ポインター移動量制御による重複加算法(PICOLA)を用いた音声の時間軸での伸張圧縮とその評価」,S61.10,PP149-150
即ち,所定の最小ピッチ周期Tminから最大ピッチ周期Tmaxまでの範囲で複数のピッチ周期候補T(各Tの時間間隔は入力音声信号のサンプリング周期Δt)を設定し,このピッチ周期候補Tそれぞれについての周期性の強さを評価してその評価結果を比較し,最も周期性が強いと評価されるピッチ周期候補Tをピッチ周期T0(ピッチ周期の検出値)とする。
ここで,前記ピッチ周期候補T各々についての周期性評価は,例えば,次の(1)式で定義される平均歪みd(T)を評価値とする。なお,(1)式において,x(i)は,音声信号のサンプルを表し,T,Tmin及びTmaxは,各々ピッチ周期,その最小値及び最大値を入力音声信号のサンプル数に換算したもの表す。即ち,T,Tmin及びTmax各々に入力音声信号のサンプリング周期Δtを乗算して得られる時間が実際のピッチ周期,その最小値及び最大値を表す。
この場合,最も時間長の長いピッチ周期候補Tmaxについて1周期分の評価が可能なように,周期性の評価対象とする音声信号x(i)の時間軸上の最大時間範囲は,Tmaxの2倍の時間範囲(=2・Tmax)となる。
このようにして検出されたピッチ周期T0に基づいて,前述したPICOLA方式により時間軸圧縮・伸張が行われる。
しかしながら,前述したピッチ周期の検出方法では,処理対象とする音声信号が高いサンプリング周波数を有する場合には,評価対象(処理対象)とする時間範囲に存在する音声信号のサンプル数が増大,即ち,ピッチ周期候補の数が増大し,ピッチ周期検出の演算回数が増大するため,演算負荷が増大するという問題点があった。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,入力音声信号からそのピッチ周期を検出し,そのピッチ周期に基づいて入力音声信号の時間軸の圧縮や伸張を行う音声信号処理装置において,ピッチ周期の演算負荷を軽減する音声信号処理装置及びそのプログラム並びにその方法を提供することにある。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,入力音声信号からそのピッチ周期を検出し,そのピッチ周期に基づいて入力音声信号の時間軸の圧縮や伸張を行う音声信号処理装置において,ピッチ周期の演算負荷を軽減する音声信号処理装置及びそのプログラム並びにその方法を提供することにある。
上記目的を達成するために本発明は,入力音声信号からそのピッチ周期を検出し,検出した前記ピッチ周期に基づいて前記入力音声信号の時間軸の圧縮や伸張を行う音声信号処理装置,そのプログラム或いはその方法に適用されるものであり,前記入力音声信号のサンプリング周期の2倍以上の時間間隔で設定された複数のピッチ周期候補(以下,第1のピッチ周期候補という)各々についての前記入力音声信号の周期性を評価し(以下,第1の周期性評価という),その評価結果に基づいて前記入力音声信号における前記ピッチ周期の検出値を決定するものである。
これにより,従来のようにピッチ周期候補各々の時間間隔を前記入力信号のサンプリング周期に合わせる場合に比べ,前記ピッチ周期検出のための周期性評価演算の回数を少なくとも半分以下に減らすことができる。
この場合,前記第1のピッチ周期候補を,既定の時間範囲においてその数が既定の目標個数に最も近い数となるように自動設定すれば,前記入力音声信号のサンプリング周期に関わらず,周期性評価演算の回数を常にほぼ同程度の回数とすることができ,演算負荷が安定するので好適である。
ここで,前記ピッチ周期の検出値の決定方法としては,例えば,前記第1の周期性評価により最も周期性が強いと評価された前記第1のピッチ周期候補を前記ピッチ周期の検出値とすることが最もシンプルな方法である。
ところで,一般に,前記第1のピッチ周期候補各々の時間間隔が,前記入力音声信号のサンプリング周期に対して大きくなればなるほど(ピッチ周期候補が粗になるほど),演算負荷が下がる一方で周期性評価がなされないピッチ周期候補が増えるので,ピッチ周期の検出精度が悪化する可能性が高くなる。
即ち,前記第1のピッチ周期候補が粗になるほど,前記第1の周期性評価によって最も周期性が強いと評価された前記第1のピッチ周期候補が,最も理想的な(本来検出されるべき)ピッチ周期の検出値に対してずれている可能性が高くなり,また,そのずれ幅も大きくなる可能性が高くなる。
そこで,前記第1の周期性評価により最も周期性が強いと評価された前記第1のピッチ周期候補とそれに最も時間間隔が近い(即ち,時間軸上において隣接する)他の前記第1のピッチ周期候補との間に1又は複数の第2のピッチ周期候補を設定し,その設定された前記第2のピッチ周期候補各々についての前記入力音声信号の周期性を評価し(以下,第2の周期性評価という),その上で,前記1の周期性評価により最も周期性が強いと評価された前記第1のピッチ周期候補についての周期性の評価結果と,前記第2の周期性評価による前記第2のピッチ周期候補各々についての周期性の評価結果とに基づいて,前記ピッチ周期の検出値を決定することが考えられる。
これにより,まず,前記第1の周期性評価により,粗に設定された前記第1のピッチ周期候補の中から,前記ピッチ周期の検出値とされるべき周期或いはそれに最も近い周期(最も周期性が強いと評価されたもの)が粗選択される。さらに,前記第2の周期性評価により,前記第1の周期性評価に基づいて粗選択された前記第1のピッチ周期候補の近傍周期について,今度は密に周期性評価が行われ,それら両方の評価結果に基づいて,最も理想的な(本来検出されるべき)ピッチ周期の検出値或いはそれに近い検出値がピッチ周期の検出値とされる。
その結果,演算負荷の低減と,ピッチ周期検出精度の確保とを両立することが可能となる。
特に,前記第2のピッチ周期候補各々の時間間隔を前記入力音声信号のサンプリング周期と一致させれば,最も密な時間間隔のピッチ周期候補各々について前記第2の周期性評価がなされるので,ピッチ周期検出精度の確保を重視する場合に好適である。
これにより,従来のようにピッチ周期候補各々の時間間隔を前記入力信号のサンプリング周期に合わせる場合に比べ,前記ピッチ周期検出のための周期性評価演算の回数を少なくとも半分以下に減らすことができる。
この場合,前記第1のピッチ周期候補を,既定の時間範囲においてその数が既定の目標個数に最も近い数となるように自動設定すれば,前記入力音声信号のサンプリング周期に関わらず,周期性評価演算の回数を常にほぼ同程度の回数とすることができ,演算負荷が安定するので好適である。
ここで,前記ピッチ周期の検出値の決定方法としては,例えば,前記第1の周期性評価により最も周期性が強いと評価された前記第1のピッチ周期候補を前記ピッチ周期の検出値とすることが最もシンプルな方法である。
ところで,一般に,前記第1のピッチ周期候補各々の時間間隔が,前記入力音声信号のサンプリング周期に対して大きくなればなるほど(ピッチ周期候補が粗になるほど),演算負荷が下がる一方で周期性評価がなされないピッチ周期候補が増えるので,ピッチ周期の検出精度が悪化する可能性が高くなる。
即ち,前記第1のピッチ周期候補が粗になるほど,前記第1の周期性評価によって最も周期性が強いと評価された前記第1のピッチ周期候補が,最も理想的な(本来検出されるべき)ピッチ周期の検出値に対してずれている可能性が高くなり,また,そのずれ幅も大きくなる可能性が高くなる。
そこで,前記第1の周期性評価により最も周期性が強いと評価された前記第1のピッチ周期候補とそれに最も時間間隔が近い(即ち,時間軸上において隣接する)他の前記第1のピッチ周期候補との間に1又は複数の第2のピッチ周期候補を設定し,その設定された前記第2のピッチ周期候補各々についての前記入力音声信号の周期性を評価し(以下,第2の周期性評価という),その上で,前記1の周期性評価により最も周期性が強いと評価された前記第1のピッチ周期候補についての周期性の評価結果と,前記第2の周期性評価による前記第2のピッチ周期候補各々についての周期性の評価結果とに基づいて,前記ピッチ周期の検出値を決定することが考えられる。
これにより,まず,前記第1の周期性評価により,粗に設定された前記第1のピッチ周期候補の中から,前記ピッチ周期の検出値とされるべき周期或いはそれに最も近い周期(最も周期性が強いと評価されたもの)が粗選択される。さらに,前記第2の周期性評価により,前記第1の周期性評価に基づいて粗選択された前記第1のピッチ周期候補の近傍周期について,今度は密に周期性評価が行われ,それら両方の評価結果に基づいて,最も理想的な(本来検出されるべき)ピッチ周期の検出値或いはそれに近い検出値がピッチ周期の検出値とされる。
その結果,演算負荷の低減と,ピッチ周期検出精度の確保とを両立することが可能となる。
特に,前記第2のピッチ周期候補各々の時間間隔を前記入力音声信号のサンプリング周期と一致させれば,最も密な時間間隔のピッチ周期候補各々について前記第2の周期性評価がなされるので,ピッチ周期検出精度の確保を重視する場合に好適である。
本発明によれば,入力音声信号のサンプリング周期の2倍以上の時間間隔で設定された複数の第1のピッチ周期候補各々についての前記入力音声信号の周期性を評価し(第1の周期性評価),その評価結果に基づいて前記入力音声信号における前記ピッチ周期の検出値を決定するので,前記ピッチ周期検出のための周期性評価演算の回数を少なくとも従来の半分以下に減らすことができる。その結果,前記入力音声信号のサンプリング周波数が高い(サンプリング周期が短い)場合であっても,当該音声信号処理を行う演算手段として比較的小型,省電力,低コストのものを採用できる。
さらに,前記第1の周期性評価により最も周期性が強いと評価された前記第1のピッチ周期候補とそれに最も時間間隔が近い他の前記第1のピッチ周期候補との間に1又は複数の第2のピッチ周期候補を設定し,その設定された前記第2のピッチ周期候補各々についての前記入力音声信号の周期性を評価(第2の周期性評価)するとともに,両評価結果に基づいて前記ピッチ周期の検出値を決定すれば,演算負荷の低減と,ピッチ周期検出精度の確保とを両立することが可能となる。
さらに,前記第1の周期性評価により最も周期性が強いと評価された前記第1のピッチ周期候補とそれに最も時間間隔が近い他の前記第1のピッチ周期候補との間に1又は複数の第2のピッチ周期候補を設定し,その設定された前記第2のピッチ周期候補各々についての前記入力音声信号の周期性を評価(第2の周期性評価)するとともに,両評価結果に基づいて前記ピッチ周期の検出値を決定すれば,演算負荷の低減と,ピッチ周期検出精度の確保とを両立することが可能となる。
以下添付図面を参照しながら,本発明の実施の形態について説明し,本発明の理解に供する。尚,以下の実施の形態は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
以下添付図面を参照しながら,本発明の実施の形態及び実施例について説明し,本発明の理解に供する。尚,以下の実施の形態及び実施例は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は本発明の実施の形態に係る音声信号処理装置Xの概略構成を表すブロック図,図2は音声信号処理装置Xにおける入力音声信号の時間軸伸縮処理の手順を表すフローチャート,図3はPICOLA方式により音声信号の時間軸圧縮が行われる際の音声信号の波形を模式的に表した図,図4はPICOLA方式により音声信号の時間軸伸張が行われる際の音声信号の波形を模式的に表した図である。
以下添付図面を参照しながら,本発明の実施の形態及び実施例について説明し,本発明の理解に供する。尚,以下の実施の形態及び実施例は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は本発明の実施の形態に係る音声信号処理装置Xの概略構成を表すブロック図,図2は音声信号処理装置Xにおける入力音声信号の時間軸伸縮処理の手順を表すフローチャート,図3はPICOLA方式により音声信号の時間軸圧縮が行われる際の音声信号の波形を模式的に表した図,図4はPICOLA方式により音声信号の時間軸伸張が行われる際の音声信号の波形を模式的に表した図である。
以下,図1を用いて,本発明の実施の形態に係る音声信号処理装置Xについて説明する。
音声信号処理装置Xは,音声信号(入力音声信号Sin)を入力し,その所定時間長分を切り出してバッファメモリ12に格納する信号入力部11と,その信号入力部11によって入力音声信号Sinの一部が一時格納されるバッファメモリ12と,そのバッファメモリ12に格納された入力音声信号Sinに基づいてそのピッチ周期を検出するピッチ周期検出部14と,そのピッチ周期検出部14によるピッチ周期の検出値と予め設定された目標伸縮比とに基づいて,前記バッファメモリ12に格納された入力信号Sinに対してPICOLA方式による時間軸圧縮若しくは伸張の処理を施し,前記バッファメモリ12内の入力音声信号Sinを圧縮若しくは伸張後の伸縮後信号に更新する(時間軸の圧縮及び伸張を行う)伸縮処理部13と,前記バッファメモリ内12の前記伸縮後信号を順次読み出してスピーカ等の音声出力手段へ出力するとともに,出力済みのデータを前記バッファメモリ12から消去するデータ出力部15とを具備している。
さらに,前記ピッチ周期検出部15は,前記バッファメモリ12に取り込まれた入力音声信号Sinについて,その周期性評価を行う際のピッチ周期候補を設定するピッチ周期候補設定部14aと,設定されたピッチ周期候補各々について入力音声信号Sinの周期性を評価する周期性評価部14bと,その評価結果に基づいてピッチ周期の検出値を決定するピッチ周期決定部14cとを有している。
図1に示す音声信号処理装置Xは,その各構成要素を,それぞれCPUやメモリ等からなる処理回路やDSP(Digital Signal Processor)等により構成することが考えられるが,その他にも,各構成要素が行う処理(工程)を実現する処理プログラムをROM等の記憶手段に予め記憶させておき,これを所定のコンピュータによって実行するもの等であってもよい。
音声信号処理装置Xは,音声信号(入力音声信号Sin)を入力し,その所定時間長分を切り出してバッファメモリ12に格納する信号入力部11と,その信号入力部11によって入力音声信号Sinの一部が一時格納されるバッファメモリ12と,そのバッファメモリ12に格納された入力音声信号Sinに基づいてそのピッチ周期を検出するピッチ周期検出部14と,そのピッチ周期検出部14によるピッチ周期の検出値と予め設定された目標伸縮比とに基づいて,前記バッファメモリ12に格納された入力信号Sinに対してPICOLA方式による時間軸圧縮若しくは伸張の処理を施し,前記バッファメモリ12内の入力音声信号Sinを圧縮若しくは伸張後の伸縮後信号に更新する(時間軸の圧縮及び伸張を行う)伸縮処理部13と,前記バッファメモリ内12の前記伸縮後信号を順次読み出してスピーカ等の音声出力手段へ出力するとともに,出力済みのデータを前記バッファメモリ12から消去するデータ出力部15とを具備している。
さらに,前記ピッチ周期検出部15は,前記バッファメモリ12に取り込まれた入力音声信号Sinについて,その周期性評価を行う際のピッチ周期候補を設定するピッチ周期候補設定部14aと,設定されたピッチ周期候補各々について入力音声信号Sinの周期性を評価する周期性評価部14bと,その評価結果に基づいてピッチ周期の検出値を決定するピッチ周期決定部14cとを有している。
図1に示す音声信号処理装置Xは,その各構成要素を,それぞれCPUやメモリ等からなる処理回路やDSP(Digital Signal Processor)等により構成することが考えられるが,その他にも,各構成要素が行う処理(工程)を実現する処理プログラムをROM等の記憶手段に予め記憶させておき,これを所定のコンピュータによって実行するもの等であってもよい。
次に,図2に示すフローチャートを用いて,音声信号処理装置Xにおける時間軸伸縮処理の手順について説明する。以下,S1,S2,…は,処理手順(ステップ)の識別符号を表す。
まず,時間軸伸縮処理が開始されると,前記信号入力部11により,所定時間Tin分の入力音声信号Sinが前記バッファメモリ12に取り込まれる(S1)。ここで,取り込まれる入力音声信号Sinの時間長Tinは,ピッチ周期検出の際の周期性の評価対象とするピッチ周期候補の最大値Tmaxの2倍の時間長である。
<第1のピッチ周期設定>
次に,前記周期候補設定部14aにより,入力音声信号Sinのサンプリング周期の整数倍かつ2倍以上の時間間隔で複数のピッチ周期候補Tが自動設定される(S2)。
本実施形態では,前記周期候補設定部14aにより設定されるピッチ周期候補Tは,予め定められたピッチ周期候補の最小値Tminから最大値Tmaxまでの範囲内であり(Tmin≦Ti≦Tmax),かつ,その時間範囲において,ピッチ周期候補Tの数が,予め定められた目標個数に最も近い数となるようにピッチ周期候補T各々の時間間隔が自動設定される(第1のピッチ周期候補設定)。ここで,入力音声信号Sinのサンプリング周期は,例えば,前記信号入力部11により自動検出され,それが前記周期候補設定部14aに通知される。
もちろんそれ以外にも,例えば,入力音声信号Sinのサンプリング周期に,予め設定された2以上の整数を掛けて求まる時間間隔を,ピッチ周期候補T各々の時間間隔として設定すること等も考えられる。
まず,時間軸伸縮処理が開始されると,前記信号入力部11により,所定時間Tin分の入力音声信号Sinが前記バッファメモリ12に取り込まれる(S1)。ここで,取り込まれる入力音声信号Sinの時間長Tinは,ピッチ周期検出の際の周期性の評価対象とするピッチ周期候補の最大値Tmaxの2倍の時間長である。
<第1のピッチ周期設定>
次に,前記周期候補設定部14aにより,入力音声信号Sinのサンプリング周期の整数倍かつ2倍以上の時間間隔で複数のピッチ周期候補Tが自動設定される(S2)。
本実施形態では,前記周期候補設定部14aにより設定されるピッチ周期候補Tは,予め定められたピッチ周期候補の最小値Tminから最大値Tmaxまでの範囲内であり(Tmin≦Ti≦Tmax),かつ,その時間範囲において,ピッチ周期候補Tの数が,予め定められた目標個数に最も近い数となるようにピッチ周期候補T各々の時間間隔が自動設定される(第1のピッチ周期候補設定)。ここで,入力音声信号Sinのサンプリング周期は,例えば,前記信号入力部11により自動検出され,それが前記周期候補設定部14aに通知される。
もちろんそれ以外にも,例えば,入力音声信号Sinのサンプリング周期に,予め設定された2以上の整数を掛けて求まる時間間隔を,ピッチ周期候補T各々の時間間隔として設定すること等も考えられる。
<第1の周期性評価>
次に,前記周期性評価部14bにより実行される以下のステップS3〜S8の処理により,前記バッファメモリ12に取り込まれた入力音声信号Sinについて,ステップS2で設定された複数のピッチ周期候補T,即ち,入力音声信号Sinのサンプリング周期の整数倍かつ2倍以上の時間間隔で設定された複数のピッチ周期候補T各々についての周期性評価がなされる(第1の周期性評価)。
以下,前記周期性評価部14bによるステップS3〜S8の処理について説明する。
まず,所定のワーク変数i,d1minの初期化処理(i=1,d1min=∞(考え得る最大値))がなされる(S3)。
次に,ステップS2で設定された複数のピッチ周期候補Tのうちi番目(初期値は1番目)のピッチ周期候補Tiについて,前述の(1)式等の評価式に基づいて周期性の評価値d(Ti)が計算される(S4)。ここでは,ピッチ周期候補T各々の番号iが小さいほどそのピッチ周期候補Tiの値が小さいものとし,評価値d(Ti)の値が低いほど,周期性が強いことを表すものとする。
次に,計算された評価値d(Ti)が,その時点での評価値の最小値を格納するためのワーク変数d1min(初期値は考え得る最大値)より小さいか否かが判別され(S5),d(Ti)<d1minの場合はそのときの評価値d(Ti)がワーク変数d1minに代入され,同様にワーク変数Tx1にそのときのピッチ周期候補Tiが,ワーク変数jにそのときのi(番目)が代入(S6)された後,処理がステップS7へ移行される一方,その他の場合はそのままステップS7へ移行される。
次に,ステップS7では,ワーク変数iがインクリメント(i=i+1)され,さらにステップS8において,全てのピッチ周期候補Tについての周期性評価が終了したか否かが判別される。そして,全てのピッチ周期候補Tについての周期性評価が終了するまで,ステップS4〜S8の処理が繰り返された後,処理がステップS9へ移行される。
これにより,ワーク変数Tx1,j及びd1minの各々には,ステップS2で設定された複数のピッチ周期候補T(第1のピッチ周期候補)各々のうち,入力音声信号Sinについて最も周期性が強いと評価されたピッチ周期候補Ti,その番号i及びその評価値d(Ti)が代入された状態となる。
次に,前記周期性評価部14bにより実行される以下のステップS3〜S8の処理により,前記バッファメモリ12に取り込まれた入力音声信号Sinについて,ステップS2で設定された複数のピッチ周期候補T,即ち,入力音声信号Sinのサンプリング周期の整数倍かつ2倍以上の時間間隔で設定された複数のピッチ周期候補T各々についての周期性評価がなされる(第1の周期性評価)。
以下,前記周期性評価部14bによるステップS3〜S8の処理について説明する。
まず,所定のワーク変数i,d1minの初期化処理(i=1,d1min=∞(考え得る最大値))がなされる(S3)。
次に,ステップS2で設定された複数のピッチ周期候補Tのうちi番目(初期値は1番目)のピッチ周期候補Tiについて,前述の(1)式等の評価式に基づいて周期性の評価値d(Ti)が計算される(S4)。ここでは,ピッチ周期候補T各々の番号iが小さいほどそのピッチ周期候補Tiの値が小さいものとし,評価値d(Ti)の値が低いほど,周期性が強いことを表すものとする。
次に,計算された評価値d(Ti)が,その時点での評価値の最小値を格納するためのワーク変数d1min(初期値は考え得る最大値)より小さいか否かが判別され(S5),d(Ti)<d1minの場合はそのときの評価値d(Ti)がワーク変数d1minに代入され,同様にワーク変数Tx1にそのときのピッチ周期候補Tiが,ワーク変数jにそのときのi(番目)が代入(S6)された後,処理がステップS7へ移行される一方,その他の場合はそのままステップS7へ移行される。
次に,ステップS7では,ワーク変数iがインクリメント(i=i+1)され,さらにステップS8において,全てのピッチ周期候補Tについての周期性評価が終了したか否かが判別される。そして,全てのピッチ周期候補Tについての周期性評価が終了するまで,ステップS4〜S8の処理が繰り返された後,処理がステップS9へ移行される。
これにより,ワーク変数Tx1,j及びd1minの各々には,ステップS2で設定された複数のピッチ周期候補T(第1のピッチ周期候補)各々のうち,入力音声信号Sinについて最も周期性が強いと評価されたピッチ周期候補Ti,その番号i及びその評価値d(Ti)が代入された状態となる。
<第2のピッチ周期候補設定>
次に,前記周期候補設定部14aにより,前述のステップS3〜S8の処理(第1の周期性評価)で最も周期性が強いと評価された前記ピッチ周期候補Tx1と,ステップS2で設定されたピッチ周期候補Tのうち前記ピッチ周期候補Tx1に最も時間間隔が近い他のピッチ周期候補Tj-1及びTj+1各々との間において,1又は複数のピッチ周期候補T'(第2のピッチ周期候補)が設定される(S8,第2のピッチ周期候補設定)。
本実施形態では,前記周期候補設定部14aにより設定されるピッチ周期候補T'は(Tj-1<T'<Tx1)の範囲と,(Tx1<T'<Tj+1)の範囲の各々において設定される。
さらに,ピッチ周期候補T'の時間間隔は,入力音声信号Sinのサンプリング周期と一致するように設定される。
それ以外にも,例えば,(Tj-1<T'<Tx1)の範囲と,(Tx1<T'<Tj+1)の範囲の各々において,ピッチ周期候補T'の数が,予め定められた目標個数に最も近い数となるようにピッチ周期候補T'各々の時間間隔を設定すること等も考えられる。
次に,前記周期候補設定部14aにより,前述のステップS3〜S8の処理(第1の周期性評価)で最も周期性が強いと評価された前記ピッチ周期候補Tx1と,ステップS2で設定されたピッチ周期候補Tのうち前記ピッチ周期候補Tx1に最も時間間隔が近い他のピッチ周期候補Tj-1及びTj+1各々との間において,1又は複数のピッチ周期候補T'(第2のピッチ周期候補)が設定される(S8,第2のピッチ周期候補設定)。
本実施形態では,前記周期候補設定部14aにより設定されるピッチ周期候補T'は(Tj-1<T'<Tx1)の範囲と,(Tx1<T'<Tj+1)の範囲の各々において設定される。
さらに,ピッチ周期候補T'の時間間隔は,入力音声信号Sinのサンプリング周期と一致するように設定される。
それ以外にも,例えば,(Tj-1<T'<Tx1)の範囲と,(Tx1<T'<Tj+1)の範囲の各々において,ピッチ周期候補T'の数が,予め定められた目標個数に最も近い数となるようにピッチ周期候補T'各々の時間間隔を設定すること等も考えられる。
<第2の周期性評価>
次に,前記周期性評価部14bにより実行される以下のステップS10〜S15の処理により,前記バッファメモリ12に取り込まれた入力音声信号Sinについて,ステップS2で設定された複数のピッチ周期候補T,即ち,入力音声信号Sinのサンプリング周期の整数倍かつ2倍以上の時間間隔で設定された複数のピッチ周期候補T各々についての周期性評価がなされる(第2の周期性評価)。
ここで,前記周期性評価部14bによるステップS10〜S15の処理は,前述のステップS3〜S8の処理と同様であり,このステップS10〜S15におけるピッチ周期候補T'及びワーク変数d2min,Tx2各々は,前述のピッチ周期候補T及びワーク変数d1min,Tx1各々に相当する。但し,ワーク変数d2minの初期値は,ステップS3〜S8の処理で最も周期性が強いと評価されたピッチ周期候補Tx1の評価値d1minである。
このステップS10〜S15の処理により,ワーク変数Tx2及びd2minの各々には,ステップS9で設定されたピッチ周期候補T'(第2のピッチ周期候補)各々のうち,入力音声信号Sinについて最も周期性が強いと評価されたピッチ周期候補T'i及びその評価値d(T'i)が代入された状態となる。
次に,前記周期性評価部14bにより実行される以下のステップS10〜S15の処理により,前記バッファメモリ12に取り込まれた入力音声信号Sinについて,ステップS2で設定された複数のピッチ周期候補T,即ち,入力音声信号Sinのサンプリング周期の整数倍かつ2倍以上の時間間隔で設定された複数のピッチ周期候補T各々についての周期性評価がなされる(第2の周期性評価)。
ここで,前記周期性評価部14bによるステップS10〜S15の処理は,前述のステップS3〜S8の処理と同様であり,このステップS10〜S15におけるピッチ周期候補T'及びワーク変数d2min,Tx2各々は,前述のピッチ周期候補T及びワーク変数d1min,Tx1各々に相当する。但し,ワーク変数d2minの初期値は,ステップS3〜S8の処理で最も周期性が強いと評価されたピッチ周期候補Tx1の評価値d1minである。
このステップS10〜S15の処理により,ワーク変数Tx2及びd2minの各々には,ステップS9で設定されたピッチ周期候補T'(第2のピッチ周期候補)各々のうち,入力音声信号Sinについて最も周期性が強いと評価されたピッチ周期候補T'i及びその評価値d(T'i)が代入された状態となる。
<ピッチ周期決定>
次に,前記ピッチ周期決定部14cにより,ステップS3〜S8の処理(第1の周期性評価)により最も周期性が強いと評価されたピッチ周期候補Tx1についての周期性の評価値d1minと,ステップS10〜S15の処理(第2の周期性評価)により最も周期性が強いと評価されたピッチ周期候補Tx2の評価値d2minとが比較され(S16),評価値の低い方(より周期性が強いと評価された方)のピッチ周期候補がピッチ周期の検出値T0として決定される(S17,S18)。
次に,前記ピッチ周期決定部14cにより,ステップS3〜S8の処理(第1の周期性評価)により最も周期性が強いと評価されたピッチ周期候補Tx1についての周期性の評価値d1minと,ステップS10〜S15の処理(第2の周期性評価)により最も周期性が強いと評価されたピッチ周期候補Tx2の評価値d2minとが比較され(S16),評価値の低い方(より周期性が強いと評価された方)のピッチ周期候補がピッチ周期の検出値T0として決定される(S17,S18)。
<時間軸圧縮・伸張>
次に,前記伸縮処理部13により,ステップS2〜S1の処理により検出されたピッチ周期の検出値T0に基づいて,前記バッファメモリ12に取り込まれている入力音声信号Sinから,図3及び図4を用いて前述した重み付け重複加算処理により,1ピッチ周期T0分の重複加算信号(図3,図4におけるa’)が生成される(S19)。
さらに,前記伸縮処理部13により,予め設定された目標伸縮比R(目標圧縮比R(0<R<1)若しくは目標伸張比R(1<R))に従って,前記重複加算信号a’を入力音声信号Sinにおける所定位置に挿入,或いは所定部分と置換することにより,前記バッファメモリ12に格納された入力音声信号Sinを,時間軸伸縮後の信号(伸縮信号)に更新される(S20)。
即ち,予め設定された目標伸縮比が1より大きい場合は,前記重複加算信号a’が入力音声信号Sinにおける所定位置(図4におけるPo3’の位置)に挿入され,前記目標伸縮比が1未満である場合は,入力音声信号Sinにおける所定部分(図3におけるaの部分)と置換される。
このようにして時間軸伸縮処理が施された前記バッファメモリ12内の音声信号(伸縮後信号)は,前記データ出力部15により順次読み出されてスピーカ等の音声出力手段へ出力されるとともに,出力済みのデータは前記バッファメモリ12から消去される。
次に,前記伸縮処理部13により,ステップS2〜S1の処理により検出されたピッチ周期の検出値T0に基づいて,前記バッファメモリ12に取り込まれている入力音声信号Sinから,図3及び図4を用いて前述した重み付け重複加算処理により,1ピッチ周期T0分の重複加算信号(図3,図4におけるa’)が生成される(S19)。
さらに,前記伸縮処理部13により,予め設定された目標伸縮比R(目標圧縮比R(0<R<1)若しくは目標伸張比R(1<R))に従って,前記重複加算信号a’を入力音声信号Sinにおける所定位置に挿入,或いは所定部分と置換することにより,前記バッファメモリ12に格納された入力音声信号Sinを,時間軸伸縮後の信号(伸縮信号)に更新される(S20)。
即ち,予め設定された目標伸縮比が1より大きい場合は,前記重複加算信号a’が入力音声信号Sinにおける所定位置(図4におけるPo3’の位置)に挿入され,前記目標伸縮比が1未満である場合は,入力音声信号Sinにおける所定部分(図3におけるaの部分)と置換される。
このようにして時間軸伸縮処理が施された前記バッファメモリ12内の音声信号(伸縮後信号)は,前記データ出力部15により順次読み出されてスピーカ等の音声出力手段へ出力されるとともに,出力済みのデータは前記バッファメモリ12から消去される。
さらに,前記伸縮処理部13により,図3及び図4を用いて前述した要領により,前記目標伸縮比Rと,前記ピッチ周期の検出値T0とに基づいて,次回のステップS4の処理において前記バッファメモリ12における入力音声信号Sinの周期性評価を行う際の評価開始位置を特定するポインタ位置が設定される(S21)さらに,次回のステップS1の処理において前記ポインタ位置から前記時間長Tin分の入力音声信号Sinが前記バッファメモリ12内に確保されるように,前記信号入力部11に対して次回の信号取込長が設定される(S21)。
次に,前記伸縮処理部13により,当該伸縮処理の終了状態となったか否かが判別され(S22),終了状態となっていないと判別された場合は,ステップS1に処理が戻されて前述した処理が繰り返される一方,終了状態となっていると判別された場合は当該処理が終了される。
前記終了状態となったか否かは,例えば,前記バッファメモリ12内に未処理の入力音声信号Sinが存在しなくなったこと(即ち,処理対象となる入力音声信号Sinの最後まで伸縮処理が完了したこと)の検知の有無や,所定の操作入力部(不図示)から終了操作がなされたことの検知の有無により判別される。
次に,前記伸縮処理部13により,当該伸縮処理の終了状態となったか否かが判別され(S22),終了状態となっていないと判別された場合は,ステップS1に処理が戻されて前述した処理が繰り返される一方,終了状態となっていると判別された場合は当該処理が終了される。
前記終了状態となったか否かは,例えば,前記バッファメモリ12内に未処理の入力音声信号Sinが存在しなくなったこと(即ち,処理対象となる入力音声信号Sinの最後まで伸縮処理が完了したこと)の検知の有無や,所定の操作入力部(不図示)から終了操作がなされたことの検知の有無により判別される。
以上示したように,音声信号処理装置Xでは,入力音声信号Sinのサンプリング周期の2倍以上の時間間隔で設定(S2)された複数のピッチ周期候補T各々についての入力音声信号Sinの周期性を評価し(S3〜S8,第1の周期性評価),その評価結果に基づいて入力音声信号Sinにおけるピッチ周期の検出値T0を決定(S16〜S18)するので,ピッチ周期検出のための周期性評価演算の回数を少なくとも従来の半分以下に減らすことができる。その結果,入力音声信号Sinのサンプリング周波数が高い(サンプリング周期が短い)場合であっても,当該音声信号処理を行う演算手段として比較的小型,省電力,低コストのものを採用できる。
また,ステップS2において,ピッチ周期候補が既定の時間範囲Tmin〜Tmaxにおいてその数が既定の目標個数に最も近い数となるように設定するので,入力音声信号Sinのサンプリング周期に関わらず,周期性評価演算の回数を常にほぼ同程度の回数とすることができ,演算負荷が安定するので好適である。
さらに,ステップS3〜S8の処理(第1の周期性評価)により最も周期性が強いと評価されたピッチ周期候補Tx1の前後の狭い時間間隔で設定されたピッチ周期候補T'(S9)について,入力音声信号Sinの周期性を評価(第2の周期性評価)する(S10〜S15)とともに,両評価結果に基づいてピッチ周期の検出値T0を決定するので,演算負荷の低減と,ピッチ周期検出精度の確保とを両立することが可能となる。
ここで,処理の簡素化をより優先する場合は,ピッチ周期の検出値T0の決定方法として,例えば,ステップS3〜S8の処理(第1の周期性評価)により最も周期性が強いと評価されたピッチ周期候補Tx1をピッチ周期の検出値T0とすることも考えられる。
また,ステップS2において,ピッチ周期候補が既定の時間範囲Tmin〜Tmaxにおいてその数が既定の目標個数に最も近い数となるように設定するので,入力音声信号Sinのサンプリング周期に関わらず,周期性評価演算の回数を常にほぼ同程度の回数とすることができ,演算負荷が安定するので好適である。
さらに,ステップS3〜S8の処理(第1の周期性評価)により最も周期性が強いと評価されたピッチ周期候補Tx1の前後の狭い時間間隔で設定されたピッチ周期候補T'(S9)について,入力音声信号Sinの周期性を評価(第2の周期性評価)する(S10〜S15)とともに,両評価結果に基づいてピッチ周期の検出値T0を決定するので,演算負荷の低減と,ピッチ周期検出精度の確保とを両立することが可能となる。
ここで,処理の簡素化をより優先する場合は,ピッチ周期の検出値T0の決定方法として,例えば,ステップS3〜S8の処理(第1の周期性評価)により最も周期性が強いと評価されたピッチ周期候補Tx1をピッチ周期の検出値T0とすることも考えられる。
以上示した実施形態では,1つの入力音声信号を処理する場合について示したが,例えば,2チャンネルのステレオ音声信号や3チャンネル以上のマルチチャンネル音声信号を入力音声信号とすることも考えられる。
この場合,各チャンネル信号について前述のピッチ周期検出処理及び伸縮処理を施すことの他,例えば,全チャンネル信号を合成した合成信号についてピッチ周期検出を行い,求められた1つのピッチ周期に基づいて,全チャンネル信号それぞれについて伸縮処理を行うことも考えられる。
これにより,チャンネル信号それぞれについて個別にピッチ周期検出を行う必要がなく,演算負荷の増大を防止できる。さらに,各チャンネル信号の周期性が反映されたピッチ周期が採用されるので,音声品質の劣化を防止しつつ,聞く人に違和感を与えるようなチャンネル間の位相差発生も防止できる。
この場合,各チャンネル信号について前述のピッチ周期検出処理及び伸縮処理を施すことの他,例えば,全チャンネル信号を合成した合成信号についてピッチ周期検出を行い,求められた1つのピッチ周期に基づいて,全チャンネル信号それぞれについて伸縮処理を行うことも考えられる。
これにより,チャンネル信号それぞれについて個別にピッチ周期検出を行う必要がなく,演算負荷の増大を防止できる。さらに,各チャンネル信号の周期性が反映されたピッチ周期が採用されるので,音声品質の劣化を防止しつつ,聞く人に違和感を与えるようなチャンネル間の位相差発生も防止できる。
本発明は,入力音声信号からそのピッチ周期を検出し,そのピッチ周期に基づいて入力音声信号の時間軸の圧縮や伸張を行う音声信号処理装置等に利用可能である。
11…信号入力部
12…バッファメモリ
13…伸縮処理部
14…ピッチ周期検出部
15…データ出力部
S1,S2,,,…処理手順(ステップ)
12…バッファメモリ
13…伸縮処理部
14…ピッチ周期検出部
15…データ出力部
S1,S2,,,…処理手順(ステップ)
Claims (7)
- 入力音声信号からそのピッチ周期を検出し,該ピッチ周期に基づいて前記入力音声信号の時間軸の圧縮及び/又は伸張を行う音声信号処理装置であって,
前記入力音声信号のサンプリング周期の整数倍かつ2倍以上の時間間隔で設定された複数の第1のピッチ周期候補各々についての前記入力音声信号の周期性を評価する第1の周期性評価手段と,
前記第1の周期性評価手段の評価結果に基づいて前記入力音声信号における前記ピッチ周期の検出値を決定するピッチ周期決定手段と,
を具備してなることを特徴とする音声信号処理装置。 - 前記第1のピッチ周期候補を,既定の時間範囲においてその数が既定の目標個数に最も近い数となるように自動設定する第1のピッチ周期候補設定手段を具備してなる請求項1に記載の音声信号処理装置。
- 前記ピッチ周決定手段が,前記第1の周期性評価手段により最も周期性が強いと評価された前記第1のピッチ周期候補を前記ピッチ周期の検出値とするものである請求項1又は2のいずれかに記載の音声信号処理装置。
- 前記第1の周期性評価手段により最も周期性が強いと評価された前記第1のピッチ周期候補とそれに最も時間間隔が近い他の前記第1のピッチ周期候補との間に1又は複数の第2のピッチ周期候補を設定する第2のピッチ周期候補設定手段と,
前記第2のピッチ周期候補設定手段により設定された前記第2のピッチ周期候補各々についての前記入力音声信号の周期性を評価する第2の周期性評価手段と,を具備し,
前記ピッチ周期決定手段が,前記1の周期性評価手段により最も周期性が強いと評価された前記第1のピッチ周期候補についての周期性の評価結果と前記第2の周期性評価手段による前記第2のピッチ周期候補各々についての周期性の評価結果とに基づいて前記ピッチ周期の検出値を決定してなる請求項1又は2のいずれかに記載の音声信号処理装置。 - 前記第2のピッチ周期候補設定手段が,前記第2のピッチ周期候補各々の時間間隔を前記入力音声信号のサンプリング周期と一致させてなる請求項4に記載の音声信号処理装置。
- 入力音声信号からそのピッチ周期を検出し,該ピッチ周期に基づいて前記入力音声信号の時間軸の圧縮及び/又は伸張を行う処理をコンピュータに実行させるための音声信号処理プログラムであって,
前記入力音声信号のサンプリング周期の2倍以上の時間間隔で設定された複数の第1のピッチ周期候補各々についての前記入力音声信号の周期性を評価する第1の周期性評価処理と,
前記第1の周期性評価処理の評価結果に基づいて前記入力音声信号における前記ピッチ周期の検出値を決定するピッチ周期決定処理と,
をコンピュータに実行させるための音声信号処理プログラム。 - 入力音声信号からそのピッチ周期を検出し,該ピッチ周期に基づいて前記入力音声信号の時間軸の圧縮及び/又は伸張を行う音声信号処理方法であって,
前記入力音声信号のサンプリング周期の2倍以上の時間間隔で設定された複数の第1のピッチ周期候補各々についての前記入力音声信号の周期性を評価する第1の周期性評価工程と,
前記第1の周期性評価工程の評価結果に基づいて前記入力音声信号における前記ピッチ周期の検出値を決定するピッチ周期決定工程と,
を有してなることを特徴とする音声信号処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005032821A JP2006220806A (ja) | 2005-02-09 | 2005-02-09 | 音声信号処理装置,音声信号処理プログラム,音声信号処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005032821A JP2006220806A (ja) | 2005-02-09 | 2005-02-09 | 音声信号処理装置,音声信号処理プログラム,音声信号処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006220806A true JP2006220806A (ja) | 2006-08-24 |
Family
ID=36983189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005032821A Pending JP2006220806A (ja) | 2005-02-09 | 2005-02-09 | 音声信号処理装置,音声信号処理プログラム,音声信号処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006220806A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008046160A (ja) * | 2006-08-10 | 2008-02-28 | Casio Comput Co Ltd | 音声伸張装置、音声縮小装置、音声伸張方法、音声縮小方法、及び、プログラム |
WO2008151579A1 (fr) * | 2007-06-14 | 2008-12-18 | Huawei Technologies Co., Ltd. | Procédé, dispositif et système permettant d'obtenir le masquage du paquet de perte |
US8280737B2 (en) | 2007-09-06 | 2012-10-02 | Fujitsu Limited | Sound signal generating method, sound signal generating device, and recording medium |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62203199A (ja) * | 1986-03-03 | 1987-09-07 | 富士通株式会社 | ピツチ周期抽出方式 |
JPH03123113A (ja) * | 1989-10-05 | 1991-05-24 | Fujitsu Ltd | ピッチ周期探索方式 |
JPH0677834A (ja) * | 1992-08-25 | 1994-03-18 | Sharp Corp | ピッチ検出装置 |
JPH06282296A (ja) * | 1993-01-07 | 1994-10-07 | Mitsubishi Electric Corp | ピッチ抽出装置 |
JPH07271393A (ja) * | 1994-03-28 | 1995-10-20 | Sony Corp | オーディオピッチ抽出装置及びオーディオ処理装置 |
JP2004317533A (ja) * | 2003-04-10 | 2004-11-11 | Kobe Steel Ltd | 音声信号処理装置及びその方法 |
-
2005
- 2005-02-09 JP JP2005032821A patent/JP2006220806A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62203199A (ja) * | 1986-03-03 | 1987-09-07 | 富士通株式会社 | ピツチ周期抽出方式 |
JPH03123113A (ja) * | 1989-10-05 | 1991-05-24 | Fujitsu Ltd | ピッチ周期探索方式 |
JPH0677834A (ja) * | 1992-08-25 | 1994-03-18 | Sharp Corp | ピッチ検出装置 |
JPH06282296A (ja) * | 1993-01-07 | 1994-10-07 | Mitsubishi Electric Corp | ピッチ抽出装置 |
JPH07271393A (ja) * | 1994-03-28 | 1995-10-20 | Sony Corp | オーディオピッチ抽出装置及びオーディオ処理装置 |
JP2004317533A (ja) * | 2003-04-10 | 2004-11-11 | Kobe Steel Ltd | 音声信号処理装置及びその方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008046160A (ja) * | 2006-08-10 | 2008-02-28 | Casio Comput Co Ltd | 音声伸張装置、音声縮小装置、音声伸張方法、音声縮小方法、及び、プログラム |
WO2008151579A1 (fr) * | 2007-06-14 | 2008-12-18 | Huawei Technologies Co., Ltd. | Procédé, dispositif et système permettant d'obtenir le masquage du paquet de perte |
US8600738B2 (en) | 2007-06-14 | 2013-12-03 | Huawei Technologies Co., Ltd. | Method, system, and device for performing packet loss concealment by superposing data |
US8280737B2 (en) | 2007-09-06 | 2012-10-02 | Fujitsu Limited | Sound signal generating method, sound signal generating device, and recording medium |
JP5141688B2 (ja) * | 2007-09-06 | 2013-02-13 | 富士通株式会社 | 音信号生成方法、音信号生成装置及びコンピュータプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2253749C (en) | Method and device for instantly changing the speed of speech | |
EP2492911B1 (en) | Audio encoding apparatus, decoding apparatus, method, circuit and program | |
JP2005535915A (ja) | 可変長さ合成と相関度計算減縮技法を利用したオーディオ信号の時間スケール修正方法 | |
US8296143B2 (en) | Audio signal processing apparatus, audio signal processing method, and program for having the method executed by computer | |
JP4550652B2 (ja) | 音響信号処理装置、音響信号処理プログラム及び音響信号処理方法 | |
JP3465628B2 (ja) | オーディオ信号の時間軸圧伸方法及び装置 | |
US8635077B2 (en) | Apparatus and method for expanding/compressing audio signal | |
KR100327969B1 (ko) | 음성재생속도변환장치및음성재생속도변환방법 | |
JP2006220806A (ja) | 音声信号処理装置,音声信号処理プログラム,音声信号処理方法 | |
JP4581190B2 (ja) | 音楽信号の時間軸圧伸方法及び装置 | |
JP5011803B2 (ja) | オーディオ信号伸張圧縮装置及びプログラム | |
JP2001255876A (ja) | 時間軸方向における楽音波形信号の伸縮方法 | |
JP4364544B2 (ja) | 音声信号処理装置及びその方法 | |
JP3162945B2 (ja) | ビデオテープレコーダ | |
US20070269056A1 (en) | Method and Apparatus for Audio Signal Expansion and Compression | |
JP3559485B2 (ja) | 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体 | |
JP2007094004A (ja) | 音声信号の時間軸圧伸方法および音声信号の時間軸圧伸装置 | |
JP2002287758A (ja) | 波形編集方法および波形編集装置 | |
JP2008139573A (ja) | 声質変換方法、声質変換プログラム、声質変換装置 | |
JP4471780B2 (ja) | 音声信号処理装置及びその方法 | |
JP2004317533A (ja) | 音声信号処理装置及びその方法 | |
JP6424462B2 (ja) | オーディオ信号の時間軸圧縮伸張方法および装置並びにプログラム | |
JP2008209447A (ja) | 時間軸圧伸方法、時間軸圧伸装置、プログラムおよび基本周期特定方法 | |
JP2000276169A (ja) | 波形データ編集方法、波形データ編集装置および記録媒体 | |
JP2000305581A (ja) | 音声信号のピッチ周期抽出方法、及び音声信号のピッチ周期抽出装置、音声信号の時間軸圧縮装置、音声信号の時間軸伸長装置、音声信号の時間軸圧縮伸長装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070928 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100406 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100803 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101221 |