JP4928366B2

JP4928366B2 - ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体

Info

Publication number: JP4928366B2
Application number: JP2007166882A
Authority: JP
Inventors: 仲大室; 茂明佐々木; 祐介日和▲崎▼; 岳至森; 章俊片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-06-25
Filing date: 2007-06-25
Publication date: 2012-05-09
Anticipated expiration: 2027-06-25
Also published as: JP2009003387A

Description

この発明は、ディジタル化された音声信号、音楽などの楽音信号を含む音響信号、その他周期的な成分を含む信号を分析してピッチを探索するピッチ探索装置、そのピッチ探索装置を用いたパケット消失補償装置、それらの方法、プログラム及びその記録媒体に関する。

インターネットをはじめとするパケット通信網を用いて音声を送受信する利用が増えている。ＩＰ電話もその一例である。図７に、パケット通信網５を用いた音声通信システム７を例示する。音声通信システム７は、音声を符号化及びパケット化して送信するパケット送信部４、例えばインターネット等のパケット通信網５、音声パケットを復号化して音声を出力するパケット受信部６を備える。

送信側のパケット送信部４は、入力音声をフレームと呼ばれる一定時間長の区間ごとに区切り、フレーム化された音声信号を音声符号化の手法を用いて音声符号に変換して、音声パケットとしてパケット通信網５に送信する。フレーム長としては、一般に５ｍｓ〜２０ｍｓが用いられる。

受信側のパケット受信部６は、受信した音声パケットを、送信側の音声符号化手法に対応する復号手法を用いてフレーム化された音声信号に変換して、その音声を出力する。

パケット通信網５を利用した音声通信で問題となるのは、パケット通信網５を含む経路上でパケットが失われることや、制限時間内にパケットが届かなかったためにパケットが破棄されることによって起こる、パケットロスである。

パケットロスが発生した場合には、受信側のパケット受信部６でパケットロスコンシールメント（パケット消失補償）と呼ばれる手法を使って、再生音の劣化を抑える処理を行うことが一般的である。パケットロスコンシールメントの代表的な方法として、ITU-T G.711 Appendix Iに記載された方法が知られている（例えば、非特許文献１参照。）。

図８に、ITU-T G.711 Appendix Iで利用されているパケットロスコンシールメントの手法を組み込んだパケット受信部６の機能構成を例示する。

受信した音声パケットは、受信バッファ６１に蓄えられる。受信バッファ６１は、ゆらぎ吸収バッファとも呼ばれる。

音声復号部６２は、受信バッファ６１から１フレーム分の音声符号をフレーム番号順に取り出す。このとき、取り出そうとしたフレームの音声符号が正しく受信されており受信バッファ６１内に格納されている場合は、取り出した音声符号を復号化して音声信号に変換して、スイッチ６４に送る。取り出そうとしたフレームの音声符号がパケットロスによって受信バッファ６１に格納されていない場合には、パケットロス検出部６３によってそのフレームはパケットロスであると判断される。

パケットロス検出部６３は、パケットロスでない場合はスイッチをＡ側にセットするようにスイッチ６４を制御する。これにより、音声復号部６２で復号された音声信号がそのまま出力音声としてパケット受信部６から出力される。一方、パケットロスである場合にはスイッチをＢ側にセットするようにスイッチ６４を制御する。これにより、パケットロスである場合には、後述するパケットロスコンシールメント部６５から出力される信号が、スイッチ６４を通って、パケット受信部６から出力される。

パケットロスコンシールメント部６５には、１フレーム前までの出力音声信号が入力される。入力された予め定められた過去一定時間（フレーム数）の出力音声信号が出力音声バッファ６６に蓄えられる。
出力音声バッファ６６に蓄積された音声信号は、ピッチ探索部６７に送られる。
ピッチ探索部６７は、後述する方法によりピッチを計算して、音響波形補完処理部６８に送る。
音響波形補完処理部６８は、出力音声バッファ６６に蓄えられた直前フレームの再生音声から、ピッチ長の波形又は予め規則によって決められたピッチ長に対応する長さの波形（以下、ピッチ長の波形）を切り出し、切り出したピッチ長の波形をピッチ長の間隔で並べることによって、ロスしたフレーム部分の音声信号を生成する。

図９に、従来のピッチ探索部６７におけるピッチ探索方法を示す。ここでは、一例として、フレーム長が１０ｍｓであるとする。

ロスフレームの直前フレームを基準区間とする。この基準区間を、予め定められた探索範囲で順次ずらした区間のそれぞれについて、そのずらした区間の信号と、基準区間の信号との相関値を順次計算する。相関値を最大にする区間を決定して、その区間を相関最大区間とする。そして、相関最大区間と基準区間とのサンプル位置の差からピッチを求める。
ITU-T G.711 Appendix I、［online］、［平成１９年６月８日検索］、インターネット＜http://www.itu.int/rec/T-REC-G.711-199909-I!AppI/en＞

従来のピッチ探索方法では、パケットロスが発生したフレームの直前フレームが常にピッチ探索をするための基準区間として利用されていた。
しかし、音声信号の時系列には比較的定常とみなせる部分と、非定常に変動している部分がある。パケットロスが発生したフレームの直前フレームが、たまたま非定常的に変動している部分であったり、たまたま背景雑音と重なったりした場合に、予め定めた探索範囲で、サンプル位置をずらしながら基準区間との相関値を順次計算しても、十分に高い相関値を得ることができないことがあった。ここでいう十分に高い相関値とは、全く同じ形の波形がピッチ長周期で繰り返している場合の相関値を１と定義すると、少なくとも０．６以上、好ましくは０．８以上であることをいう。

従来のピッチ探索方法では、相関値が最大となることをピッチを推定するための尺度としていることから、たまたま相関値が低くなってしまうことは、ピッチの推定を誤る原因となるという問題があった。

本発明は、ピッチを正確に推定するための技術を提供することを目的とする。また、そのピッチ推定技術を用いてパケットロスコンシールメント（パケット消失補償）による音質を上げることを目的とする。

この発明の一態様によるピッチ探索装置によれば、音響信号に同じ時間長の２つ以上の候補区間が割り当てられており、各候補区間ごとに、その各候補区間の音響信号のパワー、その各候補区間の音響信号のピーク値の絶対値、又は、その各候補区間の音響信号の絶対値の和をその各候補区間の候補区間比較尺度として計算する候補区間比較尺度計算手段と、計算された各候補区間ごとの候補区間比較尺度について、ピッチを探索しようとする部分から遠い候補区間の候補区間比較尺度ほど小さな重みを付ける加重手段と、重みを付けられた候補区間比較尺度が最大である候補区間を選択して、その候補区間を基準区間とする決定手段と、決定された基準区間に基づいて、音響信号のピッチを計算するピッチ計算手段と、を備える。
また、この発明の一態様によるパケット補償装置によれば、計算された音響信号のピッチの長さの音響信号をパケットが消失したフレームの直前のフレームから切り出して、そのパケットが消失したフレームの部分に繰り返し並べる。

基準区間の候補を複数設けて、その中から定常的な１つの区間を選択して基準区間とし、この基準区間に基づきピッチを計算することにより、ピッチの推定精度を上げることができる。また、この精度の高い推定ピッチを用いることにより、パケットロスコンシールメント（パケット消失補償）による音質を上げることができる。

［第一実施形態］
図１〜５を参照して、本発明の第一実施形態によるピッチ探索装置１００について説明をする。図１は、ピッチ探索装置１００の機能構成を例示する図である。図１に例示するように、ピッチ探索装置１００は、候補区間ごとの候補区間比較尺度を計算する候補区間比較尺度計算部１、複数の候補区間の中から１つの基準区間を決定する基準区間決定部２、基準区間に基づいてピッチを計算するピッチ計算部３を備える。

図２は候補区間比較尺度計算部１の機能構成を例示する図である。図２に例示するように、候補区間比較尺度計算部１は、音声信号をサブフレームに分割する分割部１０と、サブフレームごとにサブフレーム比較尺度を計算するサブフレーム比較尺度計算部１１と、各サブフレーム比較尺度から各候補区間ごとに候補区間比較尺度を計算する結合部１２と備える。

図３は基準区間決定部２の機能構成を例示する図である。図３に例示するように、基準区間決定部２は、各候補区間から最も適切な基準区間を選択・決定する決定部２２を備える。

図４はピッチ計算部３の機能構成を例示する図である。図４に例示するように、ピッチ計算部３は、基準区間の信号と、基準区間を所定の探索範囲でずらした区間の信号との相関値を順次計算する相関値計算部３１と、相関値を最大にする相関最大区間を選択する相関最大区間決定部３２と、相関最大区間と基準区間とのサンプル差を計算する差計算部３３とを備える。

図５は、サブフレーム分割、基準区間の決定方法及び本発明によるピッチの計算方法の説明を補助する図である。図６は、ピッチ探索装置１００の処理の流れを例示するフローチャート図である。

入力される信号は周期的な性質を有する任意の信号でよいが、ここでは、音声信号が入力される場合を例に挙げて説明をする。すなわち、音声信号のピッチを探索する場合を例に挙げて説明をする。

＜ステップＳ１＞
候補区間比較尺度計算部１（図１）は、入力された音声信号に２つ以上の候補区間を割り当てて、割り当てた各候補区間の音声信号から、各候補区間ごとに候補区間比較尺度を計算して、基準区間決定部２に送る（ステップＳ１）。ここで、候補区間とは、基準区間の候補である区間のことである。ステップＳ１は、例えば次のステップＳ１１〜Ｓ１３から構成される。また、候補区間比較尺度は、音声信号がどの程度定常的であるかを表す指標である。

≪ステップＳ１１≫
入力された音声信号は、候補区間比較尺度計算部１の分割部１０（図２）に送られる。分割部１０は、音声信号を複数のサブフレームに分割する（ステップＳ１１）。分割された各サブフレームの音声信号は、サブフレーム比較尺度計算部１１に送られる。

各候補区間は、これらの分割したサブフレームから構成されることになる。具体的には、各候補区間は、１つのサブフレーム又は時間的に連続した複数のサブフレームから構成されることになる。

例えば、背景技術の欄で説明したパケットロスコンシールメントのピッチ探索部６７として、本発明が用いられる場合には、ロスフレームの直前フレームを含む、ロスフレームよりも前の少なくとも１つのフレームについてサブフレームに分割する。

ここでは一例として、フレーム長が１０ｍｓであり、１つのフレームを２つのサブフレームに分割する場合を例に挙げて説明をする。図５に例示するように、音声信号を分割して生じたサブフレームを、ロスフレームに近い順に、言い換えると、ピッチを探索しようとする部分に近い順に、Ｘ１，Ｘ２，Ｘ３，…とする。また、候補区間は、候補区間Ａと候補区間Ｂの２つであり、候補区間ＡはサブフレームＸ１，Ｘ２から構成され、候補区間ＢはサブフレームＸ２，Ｘ３から構成されるとする。

≪ステップＳ１２≫
サブフレーム比較尺度計算部１１は、各サブフレームごとにサブフレーム比較尺度を計算して、結合部１２に送る（ステップＳ１２）。サブフレームの数が３つである場合には、サブフレーム比較尺度計算部１１は、サブフレームＸ１，Ｘ２，Ｘ３のサブフレーム比較尺度Ｐ１，Ｐ２，Ｐ３をそれぞれ計算して、結合部１２に送る。

ここで、サブフレーム比較尺度は、音声信号がどの程度定常的であるかを表す指標である。例えば、サブフレーム比較尺度として、各サブフレーム内の信号のパワーや、各サブフレーム内での信号のピーク値の絶対値や、各サブフレーム内の信号の絶対値の和を用いることができる。

定常区間は、一般に各サブフレーム内の信号のパワーや、各サブフレーム内での信号のピーク値の絶対値や、各サブフレーム内の信号の絶対値の和が大きく、逆に非定常区間はそれらの値が小さい。このため、これらの比較尺度を用いることにより、より少ない演算量で適した基準区間の選択を行うことができる。なお、実装上の演算量は、パワー＜絶対値の和＜ピーク値の絶対値、である。

なお、サブフレーム比較尺度として、サブフレーム比較尺度の値が小さければ小さいほど定常的であることを表す指標を用いてもよい。例えば、パワーの逆数や、ピーク値の絶対値の逆数、信号の絶対値の和の逆数をサブフレーム比較尺度として用いてもよい。

≪ステップＳ１３≫
結合部１２は、各候補区間を構成する各サブフレームのサブフレーム比較尺度を用いて、各候補区間の候補区間比較尺度を計算して、基準区間決定部２（図１、図３）に出力する（ステップＳ１３）。例えば、各候補区間を構成する各サブフレームのサブフレーム比較尺度を加算することにより、各候補区間の候補区間比較尺度を計算する。音声信号がどの程度定常的であるかを表す指標であるサブフレーム比較尺度から計算されるため、候補区間比較尺度も、音声信号がどの程度定常的であるかを表す指標となる。

例えば、候補区間Ａは、サブフレームＸ１とサブフレームＸ２から構成されるため、サブフレームＸ１のサブフレーム比較尺度Ｐ１とサブフレームＸ２のサブフレーム比較尺度Ｐ２とを加算することにより、候補区間Ａの候補区間比較尺度（Ｐ１＋Ｐ２）を求める。同様に、候補区間Ｂは、サブフレームＸ２とサブフレームＸ３から構成されるため、サブフレームＸ２のサブフレーム比較尺度Ｐ２とサブフレームＸ３のサブフレーム比較尺度Ｐ３とを加算することにより、候補区間Ｂの候補区間比較尺度（Ｐ２＋Ｐ３）を求める。

候補区間が１つのサブフレームから構成される場合には、結合部１２は、そのサブフレームのサブフレーム比較尺度を、その候補区間の候補区間比較尺度とする。この場合、結合部１２は、サブフレーム比較尺度の加算等を行わない。

なお、単調増加関数ｆに、各候補区間を構成する各サブフレームのサブフレーム比較尺度を入力することにより、各候補区間の候補区間比較尺度を計算してもよい。単調増加関数ｆとは例えば、上記した入力値を加算する関数ｆ（Ｐ_１，Ｐ_２，…）＝ΣＰ_ｉの他、入力値を乗算するｆ（Ｐ_１，Ｐ_２，…）＝Ｐ_１×Ｐ_２×…である。その他任意の単調増加関数を用いることができる。

＜ステップＳ２＞
基準区間決定部２（図１、図３）は、各候補区間の候補区間比較尺度を比較することにより、各候補区間の中から定常的な１つの候補区間を決定して、その候補区間を基準区間とする（ステップＳ２）。決定された基準区間に関する情報（基準区間情報）は、ピッチ計算部３（図１、図４）に出力される。

例えば、最も候補区間比較尺度が大きい候補区間を基準区間とする。例えば、候補区間Ａの候補区間比較尺度（Ｐ１＋Ｐ２）と候補区間比較尺度（Ｐ２＋Ｐ３）を比較して、候補区間比較尺度が大きい方の候補区間を選択して、基準区間とする。

なお、サブフレーム比較尺度として、サブフレーム比較尺度の値が小さければ小さいほど定常的であることを表す指標を用いた場合には、最も候補区間比較尺度が小さい候補区間を基準区間とする。

＜ステップＳ３＞
ピッチ計算部３（図１、図４）は、基準区間決定部２が決定した基準区間に基づいて、入力音声信号のピッチを計算して出力する。ステップ３は、下記のステップＳ３１〜Ｓ３３から構成される。

≪ステップＳ３１≫
まず、ピッチ計算部３の相関値計算部３１（図４）は、予め定められた探索範囲で、決定された基準区間を順次ずらした区間のそれぞれについて、そのずらした区間の信号と、上記決定された基準区間の信号との相関値を順次計算する（ステップＳ３１）。計算された計算値は相関最大区間決定部３２に送られる。探索範囲とは、基準区間に対するずれｊの範囲のことである。

例えば、候補区間Ｂが基準区間として選択された場合には、図５に例示する候補区間Ｂに対する予め定められた探索範囲Ｒ_Ｂで順次ずらした区間の信号と、基準区間の信号との相関値を順次計算する。なお、図５で例示した探索範囲Ｒ_Ｂは、基準区間である候補区間Ｒ_Ｂの最後のサンプル位置、図５においては候補区間Ｒ_Ｂの右端のサンプル位置を探索範囲Ｒ_Ｂのずれの範囲だけずらすことにより表したものである。

ここで、基準区間をずらすとは、基準区間自体をずらすことではなく、基準区間と同じ大きさの区間を基準区間の位置からずらすことを意味する。

この例において、候補区間Ａが基準区間として選択された場合の処理は、図９を用いて背景技術で説明した処理と同様となる。

相関値の一例として相関値Ｃ_ｊの計算方法について述べる。音声信号のｎ番目のサンプル、言い換えると第ｎサンプル時刻における音声信号のサンプル値をｘ（ｎ）とし、基準区間の最初のサンプル（開始点）をＮ_１、最後のサンプル（終了点）をＮ_２とし、選択された探索範囲ｊをＪ_１≦ｊ≦Ｊ_２とすると、相関値Ｃ_ｊは以下の式により計算することができる。

相関値Ｃ_ｊに代えて下式によって定まる相関値Ｃ^１ _ｊ，Ｃ^２ _ｊ，Ｃ^３ _ｊをそれぞれ用いてもよい。

≪ステップＳ３２≫
相関最大区間決定部３２は、相関値を最大にする区間を決定して、その区間を相関最大区間とする。相関最大区間についての情報（相関最大区間情報）は、差計算部３３に送られる（ステップＳ３２）。

図５の例では、相関値を最大にする区間として相関最大区間Ｓ_Ｂが選択され、この相関最大区間Ｓ_Ｂについての情報が差計算部３３に送られる。

≪ステップＳ３３≫
差計算部３３は、相関最大区間と、基準区間とのサンプル位置の差を計算してピッチ長を求める。このピッチ長をピッチとして出力する（ステップＳ３３）。相関最大区間Ｓ_Ｂは相関最大区間情報からを特定され、基準区間は基準区間情報によって特定される。

なお、変換部３３１が、計算されたピッチ長の逆数を取ることにより、波長ではなく周波数でピッチを表現したものを計算して、これをピッチとして出力してもよい。

このように、基準区間の候補を複数設けて、より定常的な区間を基準区間とする。この基準区間に基づきピッチを計算することにより、ピッチの推定精度を上げることができる。

パケットロスコンシールメントでは、出力音声バッファに蓄えられた直前のフレームの再生音声から、推定されたピッチ長の波形を切り出し、ロスしたフレームにピッチ長の間隔で並べることによって音声信号を生成するため、一般にはできるかぎりロスフレームに近い部分を基準区間としてピッチ探索をする方が、ロス区間における音声品質をよくすることができる。

しかし、パケットロスが発生したフレームの直前フレームの位置が、たまたま非定常に変動している部分であったり、たまたま背景雑音と重なったり、推定されるべき本来のピッチ長が基準区間よりも長い場合には、ピッチの推定誤りが発生して再生音声の品質が劣化する場合がある。

このため、本発明によるピッチ探索装置、方法等をパケットロスコンシールメントとして用いる場合、基準区間の候補を複数設けて、より定常的な区間を基準区間として、この基準区間に基づきピッチを計算することにより、ピッチの推定誤りを少なくして、再生音声の品質を上げることができる。

［第二実施形態］
なお、図３に破線で示すように、加重計算部２１を基準区間決定部２に設けてもよい。本発明の第二実施形態によるピッチ探索装置は、加重計算部２１を備えている点で、第一実施形態によるピッチ探索装置と異なる。他の機能構成・処理については、第一実施形態によるピッチ探索装置１００と同様である。

加重計算部２１は、各候補区間ごとの候補区間比較尺度について、ピッチを探索しようとする部分から遠い候補区間の候補区間比較尺度ほど小さな重みを与えて、決定部２２に送る。この場合、決定部２２は、重み付けされた候補区間比較尺度を最大にする候補区間を選択して、その候補区間を基準区間とする。

同一の候補比較尺度であれば、ピッチを求めたい部分に近い方がピッチを求めたい部分に波形やピッチが類似している可能性が高い。ピッチを探索しようとする部分から遠い候補区間の候補区間比較尺度ほど小さな重みを与えることにより、ピッチを求めたい部分に近い区間をより優先的に基準区間として選択することができる。そして、ピッチを求めたい部分のピッチにより正確なピッチ探索を行うことができる。また、本発明によるピッチ探索装置、方法等をパケットロスコンシールメントに用いる場合には、より類似した波形を用いることができ、音声品質を良くすることができる。

例えば、加重計算部２１は、ｇ（ｘ）＝αｘ，０＜α≦１として、ピッチを探索しようとする部分から遠い候補区間である候補区間Ｂの候補区間比較尺度Ｐ２＋Ｐ３を関数ｇに入力したｇ（Ｐ２＋Ｐ３）＝α（Ｐ２＋Ｐ３）を計算する。すなわち、Ｐ２＋Ｐ３をα倍したものを決定部２２に送る。加重計算部２１は、ピッチを探索しようとする部分から近い候補区間である候補区間Ａの候補区間比較尺度Ｐ１＋Ｐ２については、重みを与える演算を行わない。この場合、α＝０．７〜０．９程度とするとよい。

また、例えば、ｇ’（ｘ）＝βｘ，１≦βとして、ピッチを探索しようとする部分から近い候補区間である候補区間Ａの候補区間比較尺度Ｐ１＋Ｐ２を関数ｇ’に入力したｇ’（Ｐ１＋Ｐ２）＝β（Ｐ１＋Ｐ２）を計算する。すなわち、Ｐ１＋Ｐ２をβ倍したものを決定部２２に送る。加重計算部２１は、ピッチを探索しようとする部分から遠い候補区間である候補区間Ｂの候補区間比較尺度Ｐ２＋Ｐ３については、重みを与える演算を行わない。この場合、β＝１．１〜１．５程度とするとよい。このように、ピッチを探索しようとする部分から近い候補区間の候補区間比較尺度に大きな重みをつけることにより、ピッチを探索しようとする部分から遠い候補区間の候補区間比較尺度ほど小さな重みを与えてもよい。

上述のｇ（ｘ）＝αｘ，０＜α≦１、及び、ｇ’（ｘ）＝βｘ，１≦βを用いた重み付けは、重み付けの一例である。その他、任意の重み付けの手法を用いることができる。重みの付け方は、実装するハードウェアの性能等を考慮して適宜定める。

なお、重みが小さ過ぎると基準区間の選択誤りの可能性、すなわち、ピッチ抽出やパケットロスコンシールメントに適さない、非定常な区間や背景雑音が重畳した区間を基準区間として選択してしまう可能性が増大する。重みに下限を設定することにより、この問題を回避することができる。逆に、重みが大き過ぎると、定常な区間であるもののピッチを求めたい部分とは類似度の低い区間を基準区間として選択してしまう可能性が増加する。重みに上限を設定することにより、この問題を回避することができる。この観点から、上記では０．７≦α≦０．９，１．１≦β≦１．５とした。しかし、重みの上限と下限は、これらの数値に限られない。すなわち、重みの上限と下限は、要求される精度やハードウェアの性能等の諸事情を考慮して適宜定める。

候補区間が３つ以上ある場合の重み付けの例について説明する。候補区間を、ピッチを求めたい部分から近い順に候補区間Ａ１，Ａ２，…とし、それらの候補区間比較尺度をＰ１，Ｐ２，…とする。この場合、０＜α≦１として、α^ｉ−１・Ｐｉ（ｉ＝１，２，…）を計算することにより、各候補区間Ａｉの重み付き候補区間尺度を求める。

なお、図３において破線で示す加重計算部２１に代えて、決定部２２に一点鎖線で示す加重計算部２２１を設けてもよい。決定部２２は、例えばバブルソート等のソートアルゴリズムによって、候補区間比較尺度を最大にする候補区間を求める。ソートアルゴリズムにおいては、複数の候補区間比較尺度の中の２つの候補区間比較尺度を比較する処理を繰り返すことによって最終的に候補区間比較尺度を最大にする候補区間を求める。決定部２２がこの２つの候補区間比較尺度を比較する処理を行う際に、加重計算部２２１がピッチを求めようとする部分から遠い候補区間の候補区間比較尺度に小さな重みをつける。重みの付け方の方法は、例えば、上述のｇ（ｘ）＝αｘ，０＜α≦１、及び、ｇ’（ｘ）＝βｘ，１≦βを用いた重み付け方法と同様である。そして、決定部２２は、これらの重み付けされた候補区間比較尺度を比較して並び替える処理を繰り返すことにより、最終的に候補区間比較尺度を最大にする候補区間を求めてもよい。

［変形例等］
なお、上記実施形態では、音声信号をサブフレームに分割して、サブフレームごとのサブフレーム比較尺度から各候補区間の候補区間比較尺度を求めたが、このサブフレーム分割は必ずしも必要ではない。すなわち、ピッチ探索装置１００は、サブフレームの分割を行わずに、複数の異なる候補区間を音声信号に直接割り当てて、それらの割り当てた候補区間から、パワー、ピーク値の絶対値等である候補区間比較尺度を直接計算してもよい。

なお、各候補区間に重複しているサブフレーム（以下、重複サブフレームとする。）がある場合には、各候補区間を構成する各サブフレームからその重複サブフレームを除いたサブフレームのサブフレーム比較尺度を用いて、各候補区間の候補区間比較尺度を計算してもよい。各候補区間に共通した重複サブフレームについては計算しないことにより計算量を削減することができる。

この場合には、サブフレーム比較尺度計算部１１は、各候補区間を構成する各サブフレームからその重複サブフレームを除いたサブフレームのサブフレーム比較尺度を計算して、結合部１２に送る。結合部１２は、上記と同様にして各候補区間を構成する各サブフレームからその重複サブフレームを除いたサブフレームのサブフレーム比較尺度を用いて、各候補区間の候補区間尺度を計算する。

例えば、候補区間Ａと候補区間Ｂは、サブフレームＸ２の部分で重複している。このため、重複サブフレームはＸ２となる。サブフレーム比較尺度計算部１１は、候補区間Ａを構成するサブフレームＸ１，Ｘ２から重複サブフレームＸ２を除いたＸ１と、候補区間Ｂを構成するサブフレームＸ２，Ｘ３から重複サブフレームＸ２を除いたＸ３とについてのサブフレーム比較尺度Ｐ１，Ｐ３を計算して、結合部１２に出力する。この例では、各候補区間を構成するサブフレームから重複サブフレームを除いたサブフレームの数がそれぞれ１つである。このため、結合部１２は、Ｘ１のサブフレーム比較尺度Ｐ１を候補区間Ａの候補区間比較尺度とし、Ｘ３のサブフレーム比較尺度Ｐ３を候補区間Ｂの候補区間比較尺度とする。Ｐ１＋Ｐ２とＰ２＋Ｐ３の比較結果は、Ｐ１とＰ３のみを計算した結果と同じである。このため、Ｐ２については計算をしないことにより計算量を削減することができる。

本発明によるピッチ探索装置、方法等をパケット消失補償装置に用いるためには、図８に示したパケットロスコンシールメント部６５のピッチ探索部６７の代わりに、図１に例示したピッチ探索装置１００を用いればよい。この場合、ピッチ探索部６７の代わりにピッチ探索装置１００を用いたパケットロスコンシールメント部６５が、パケット消失補償装置となる。ピッチ探索装置１００には出力音声バッファ６６から読み込んだ音声信号が入力され、ピッチ探索装置１００が計算したピッチは音響波形補完処理部６８に出力される。ピッチ探索部６７の代わりにピッチ探索装置１００を用いた場合の、パケットロスコンシールメント部６５（パケット消失補償装置）及びパケット受信部６の機能構成・処理は、背景技術及び図１に記載したものと同様であるため説明を省略する。

上記実施形態の説明では、音声信号のピッチを探索する場合を例に挙げて説明をしたが、本発明によるピッチ探索装置、方法、プログラム及びその記録媒体は、周期的な成分を含む任意の信号に適用することができる。すなわち、音声信号、楽音信号等を含む音響信号を本発明に適用してもよい。

上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ
−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

本発明の一実施形態であるピッチ探索装置１００の機能構成を例示する図。候補区間比較尺度計算部１の機能構成を例示する図。基準区間決定部２の機能構成を例示する図。ピッチ計算部３の機能構成を例示する図。サブフレーム分割、基準区間の決定方法及び本発明によるピッチの計算方法の説明を補助する図。ピッチ探索装置１００の処理の流れを例示するフローチャート図。音声通信システム７の機能構成を例示する図。パケット受信部６の機能構成を例示する図。背景技術によるピッチの計算方法の説明を補助する図。

符号の説明

１候補区間比較尺度計算部
２基準区間決定部
３ピッチ計算部
４パケット送信部
５パケット通信網
６パケット受信部
７音声通信システム
１０分割部
１１サブフレーム比較尺度計算部
１２結合部
２１加重計算部
２２決定部
３１相関値計算部
３２相関最大区間決定部
３３差計算部
６１受信バッファ
６２音声復号部
６３パケットロス検出部
６４スイッチ
６５パケットロスコンシールメント部
６６出力音声バッファ
６７ピッチ探索部
６８音響波形補完処理部
１００ピッチ探索装置
２２１加重計算部
３３１変換部

Claims

音響信号に同じ時間長の２つ以上の候補区間が割り当てられており、
各候補区間ごとに、その各候補区間の音響信号のパワー、その各候補区間の音響信号のピーク値の絶対値、又は、その各候補区間の音響信号の絶対値の和をその各候補区間の候補区間比較尺度として計算する候補区間比較尺度計算手段と、
上記計算された各候補区間ごとの候補区間比較尺度について、ピッチを探索しようとする部分から遠い候補区間の候補区間比較尺度ほど小さな重みを付ける加重手段と、
上記重みを付けられた候補区間比較尺度が最大である候補区間を選択して、その候補区間を基準区間とする決定手段と、
上記決定された基準区間に基づいて、上記音響信号のピッチを計算するピッチ計算手段と、
を備えるピッチ探索装置。
請求項１に記載のピッチ探索装置において、
上記各候補区間は時間的に連続した同じ数のサブフレームで構成されており、
上記候補区間比較尺度計算手段は、
各サブフレームごとに、その各サブフレームの音響信号のパワー、その各サブフレームの音響信号のピーク値の絶対値、又は、その各サブフレームの音響信号の絶対値の和をサブフレーム比較尺度として計算するサブフレーム比較尺度計算手段と、
各候補区間ごとに、その各候補区間を構成するサブフレームのサブフレーム比較尺度の和を計算して、その各候補区間の候補区間比較尺度とする結合手段と、
で構成されることを特徴とするピッチ探索装置。
請求項２に記載のピッチ探索装置において、
上記結合手段は、全候補区間に同じ時間区間が含まれる場合には、各候補区間を構成するサブフレームから上記同じ時間区間のサブフレームを除いたサブフレームのサブフレーム比較尺度の和を計算して、その各候補区間の候補区間比較尺度とする、
ものであることを特徴とするピッチ探索装置。
請求項１から３の何れかに記載のピッチ探索装置において、
上記ピッチ計算手段は、
上記決定手段により決定された基準区間の音響信号の最初のサンプル番号をＮ _１、最後のサンプル番号をＮ _２とし、上記音響信号の第ｎサンプル時刻におけるサンプル値をｘ（ｎ）としたとき、上記基準区間の上記音響信号系列｛ｘ（Ｎ _１），・・・，ｘ（Ｎ _２）｝と、上記基準区間とｊサンプルずれた区間の上記音響信号系列｛ｘ（Ｎ _１ −ｊ），・・・，ｘ（Ｎ _２ −ｊ）｝と、の相互相関値をＪ _１１ ≦ｊ≦Ｊ _１２の各ｊについて計算する相関値計算手段と、
上記計算された上記相互相関値のうちの最大値を与えるｊをピッチの長さとし、上記ピッチの長さをピッチとするサンプル差計算手段と、
を含む、
ことを特徴とするピッチ探索装置。
音響信号に同じ時間長の２つ以上の候補区間が割り当てられており、
候補区間比較尺度計算手段が、各候補区間ごとに、その各候補区間の音響信号のパワー、その各候補区間の音響信号のピーク値の絶対値、又は、その各候補区間の音響信号の絶対値の和をその各候補区間の候補区間比較尺度として計算する候補区間比較尺度計算ステップ、
加重手段が、上記計算された各候補区間ごとの候補区間比較尺度について、ピッチを探索しようとする部分から遠い候補区間の候補区間比較尺度ほど小さな重みを付ける加重ステップと、
決定手段が、上記重みを付けられた候補区間比較尺度が最大である候補区間を選択して、その候補区間を基準区間とする決定ステップと、
ピッチ計算手段が、上記決定された基準区間に基づいて、上記音響信号のピッチを計算するピッチ計算ステップと、
を有するピッチ探索方法。
請求項５に記載のピッチ探索方法において、
上記各候補区間は時間的に連続した同じ数のサブフレームで構成されており、
上記候補区間比較尺度計算ステップは、
サブフレーム比較尺度計算手段が、各サブフレームごとに、その各サブフレームの音響信号のパワー、その各サブフレームの音響信号のピーク値の絶対値、又は、その各サブフレームの音響信号の絶対値の和をサブフレーム比較尺度として計算するサブフレーム比較尺度計算ステップと、
結合手段が、各候補区間ごとに、その各候補区間を構成するサブフレームのサブフレーム比較尺度の和を計算して、その各候補区間の候補区間比較尺度とする結合ステップと、
で構成されることを特徴とするピッチ探索方法。
請求項１から４の何れかに記載のピッチ探索装置の各手段としてコンピュータを機能させるためのピッチ探索プログラム。
請求項７に記載のピッチ探索プログラムを記録したコンピュータ読み取り可能な記録媒体。
請求項１から４の何れかに記載のピッチ探索装置を備え、
さらに、上記計算されたピッチの長さの音響信号をパケットが消失したフレームの直前のフレームから切り出して、そのパケットが消失したフレームの部分に繰り返し並べる音響波形補完処理手段を備える、
ことを特徴とするパケット消失補償装置。
請求項５又は６に記載のピッチ探索方法の各ステップを有し、
さらに、音響波形補完処理手段が、上記計算されたピッチの長さの音響信号をパケットが消失したフレームの直前のフレームから切り出して、そのパケットが消失したフレームの部分に繰り返し並べる音響波形補完処理ステップを有する、
ことを特徴とするパケット消失補償方法。
請求項９に記載のパケット消失補償装置の各手段としてコンピュータを機能させるためのパケット消失補償プログラム。
請求項１１に記載のパケット消失補償プログラムを記録したコンピュータ読み取り可能な記録媒体。