JP2013537324A

JP2013537324A - ピッチラグを推定すること

Info

Publication number: JP2013537324A
Application number: JP2013529209A
Authority: JP
Inventors: クリシュナン、ベンカテシュ; ビレッテ、ステファン・ピエール
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2010-09-16
Filing date: 2011-09-09
Publication date: 2013-09-30
Anticipated expiration: 2031-09-09
Also published as: CN103109321B; US20120072209A1; CN103109321A; WO2012036989A1; US9082416B2; JP5792311B2; EP2617029A1; EP2617029B1

Abstract

ピッチラグを推定するための電子デバイスについて説明する。本電子デバイスは、プロセッサと、プロセッサと電子通信するメモリに記憶された実行可能である命令とを含む。本電子デバイスは、現在フレームを取得する。本電子デバイスはまた、現在フレームに基づいて残差信号を取得する。本電子デバイスは、さらに、残差信号に基づいてピークロケーションのセットを決定する。さらに、本電子デバイスは、ピークロケーションのセットに基づいてピッチラグ候補のセットを取得する。本電子デバイスはまた、ピッチラグ候補のセットに基づいてピッチラグを推定する。

Description

関連出願
本出願は、「ESTIMATING A PITCH LAG」と題する２０１０年９月１６日に出願された米国仮特許出願第６１／３８３，６９２号に関し、その優先権を主張する。

本開示は、一般に信号処理に関する。より詳細には、本開示は、ピッチラグを推定することに関する。

最近の数十年で、電子デバイスの使用は一般的になった。特に、電子技術の進歩は、ますます複雑で有用になる電子デバイスのコストを低減した。コスト低減および消費者需要は、電子デバイスの使用を激増させ、現代社会において電子デバイスを事実上ユビキタスなものとした。電子デバイスの使用が拡大するにつれて、電子デバイスの新しい改善された特徴に対する需要も拡大した。より詳細には、より高速に、より効率的に、またはより高品質で機能を実行する電子デバイスが頻繁に求められる。

いくつかの電子デバイス（たとえば、セルラーフォン、スマートフォン、コンピュータなど）は音声信号を使用する。これらの電子デバイスは、記憶または送信のために音声信号を符号化し得る。たとえば、セルラーフォンは、マイクロフォンを使用してユーザのボイスまたは音声をキャプチャする。たとえば、セルラーフォンは、マイクロフォンを使用して音響信号を電子信号に変換する。この電子信号は、次いで、別のデバイス（たとえば、セルラーフォン、スマートフォン、コンピュータなど）への送信のために、または記憶のためにフォーマットされ得る。

圧縮されていない音声信号を送信することまたは送ることは、たとえば、帯域幅および／または記憶リソースに関してコストがかかり得る。音声信号をより効率的に（たとえば、より少ないデータを使用して）表現することを試みるいくつかの方式が存在する。しかしながら、これらの方式は音声信号のいくつかの部分をうまく表現せず、その結果、性能が劣化することがある。上記の説明から理解されるように、音声信号コーディングを改善するシステムおよび方法が有益であり得る。

ピッチラグを推定するための電子デバイスが開示される。本電子デバイスは、プロセッサと、プロセッサと電子通信するメモリに記憶された命令とを含む。本電子デバイスは、現在フレームを取得する。本電子デバイスはまた、現在フレームに基づいて残差信号を取得する。本電子デバイスは、さらに、残差信号に基づいてピークロケーションのセットを決定する。本電子デバイスは、さらに、ピークロケーションのセットに基づいてピッチラグ候補のセットを取得する。本電子デバイスはまた、ピッチラグ候補のセットに基づいてピッチラグを推定する。残差信号を取得することは、さらに、量子化線形予測係数のセットに基づき得る。ピッチラグ候補のセットを取得することは、順序付けされたピークロケーションのセットを生じるようにピークロケーションのセットを昇順に配列することと、順序付けされたピークロケーションのセット中の連続するピークロケーションペア間の距離を計算することとを含み得る。

ピークロケーションのセットを決定することは、残差信号およびウィンドウ信号のサンプルの絶対値に基づいて包絡線信号を計算することを含み得る。ピークロケーションのセットを決定することはまた、包絡線信号と包絡線信号の時間シフトバージョンとの間の差に基づいて第１の勾配信号を計算することを含み得る。ピークロケーションのセットを決定することは、さらに、第１の勾配信号と第１の勾配信号の時間シフトバージョンとの間の差に基づいて第２の勾配信号を計算することを含み得る。ピークロケーションのセットを決定することは、さらに、第２の勾配信号値が第１のしきい値を下回る第１のロケーションインデックスのセットを選択することを含み得る。ピークロケーションのセットを決定することはまた、包絡線値が包絡線中の最大値に対する第２のしきい値を下回るロケーションインデックスをなくすことによって、第１のロケーションインデックスのセットから第２のロケーションインデックスのセットを決定することを含み得る。ピークロケーションのセットを決定することはまた、近隣のロケーションインデックスに対する差分しきい値を満たさないロケーションインデックスをなくすことによって、第２のロケーションインデックスのセットから第３のロケーションインデックスのセットを決定することを含み得る。

本電子デバイスはまた、線形予測係数のセットを取得するために、現在フレームと現在フレームより前の信号とを使用して線形予測分析を実行し得る。本電子デバイスはまた、線形予測係数のセットに基づいて量子化線形予測係数のセットを決定し得る。ピッチラグは、反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいて推定され得る。

本電子デバイスはまた、ピッチラグ候補のセットに対応する信頼性尺度のセットを計算し得る。ピッチラグ候補のセットに対応する信頼性尺度のセットを計算することは、信号包絡線と、順序付けされたピークロケーションのセット中の連続するピークロケーションペアとに基づき得る。順序付けされたピークロケーションのセット中のピークロケーションの各ペアについて、信頼性尺度のセットを計算することは、ピークロケーションのペア中の第１のピークロケーションの周りの範囲に基づいて第１の信号バッファを選択することと、ピークロケーションのペア中の第２のピークロケーションの周りの範囲に基づいて第２の信号バッファを選択することとを含み得る。順序付けされたピークロケーションのセット中のピークロケーションの各ペアについて、信頼性尺度のセットを計算することは、第１の信号バッファと第２の信号バッファとの間の正規化相互相関を計算することと、信頼性尺度のセットに正規化相互相関を追加することとを含み得る。

本電子デバイスはまた、ピッチラグ候補のセットに、現在フレームの残差信号に基づいて計算された第１の近似ピッチラグ値を追加し、信頼性尺度のセットに、第１の近似ピッチラグ値に対応する第１のピッチ利得を追加し得る。現在フレームの残差信号に基づいて自己相関値を推定することと、ある範囲のロケーション内の自己相関値の最大値を求めて探索することとを行うことによって、第１の近似ピッチラグ値が推定され得、第１のピッチ利得が推定され得る。第１の近似ピッチラグ値を、最大値が生じるロケーションとして設定することと、第１のピッチ利得値を、第１の近似ピッチラグ値における正規化自己相関として設定することとを行うことによって、第１の近似ピッチラグ値がさらに推定され得、第１のピッチ利得が同じく推定され得る。

本電子デバイスはまた、ピッチラグ候補のセットに、前フレームの残差信号に基づいて計算された第２の近似ピッチラグ値を追加し得、信頼性尺度のセットに、第２の近似ピッチラグ値に対応する第２のピッチ利得を追加し得る。本電子デバイスはまた、ピッチラグを送信し得る。本電子デバイスはワイヤレス通信デバイスであり得る。

前フレームの残差信号に基づいて自己相関値を推定することと、ある範囲のロケーション内の自己相関値の最大値を求めて探索することとを行うことによって、第２の近似ピッチラグ値が推定され得、第２のピッチ利得が推定され得る。第２の近似ピッチラグ値を、最大値が生じるロケーションとして設定することと、ピッチ利得値を、第２の近似ピッチラグ値における正規化自己相関として設定することとを行うことによって、第２の近似ピッチラグ値がさらに推定され得、第２のピッチ利得がさらに推定され得る。

反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいてピッチラグを推定することは、ピッチラグ候補のセットと信頼性尺度のセットとを使用して加重平均を計算することと、ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定することとを含み得る。反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいてピッチラグを推定することは、さらに、ピッチラグ候補のセットから、加重平均から最も遠いピッチラグ候補を削除することと、信頼性尺度のセットから、加重平均から最も遠いピッチラグ候補に対応する信頼性尺度を削除することとを含み得る。反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいてピッチラグを推定することは、さらに、ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定することと、ピッチラグ候補の残りの数が指定された数に等しい場合、１つまたは複数の残りのピッチラグ候補に基づいてピッチラグを決定することとを含み得る。本電子デバイスはまた、ピッチラグ候補の残りの数が指定された数に等しくない場合に反復し得る。

加重平均を計算することは、式

に従って達成され得る。Ｍ_wは加重平均であり得、Ｌはピッチラグ候補の数であり得、｛ｄ_i｝はピッチラグ候補のセットであり得、｛ｃ_i｝は信頼性尺度のセットであり得る。

ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定することは、すべてのｉについて｜Ｍ_w−ｄ_k｜＞｜Ｍ_w−ｄ_i｜となるような｛ｄ_k｝を見つけることによって達成され、ｉ≠ｋであり得、ｄ_kは加重平均から最も遠いピッチラグ候補であり得、Ｍ_wは加重平均であり得、｛ｄ_i｝はピッチラグ候補のセットであり得、ｉはインデックス番号であり得る。

ピッチラグを推定するための別の電子デバイスも開示される。本電子デバイスは、プロセッサと、プロセッサと電子通信するメモリに記憶された命令とを含む。本電子デバイスは、音声信号を取得する。本電子デバイスはまた、音声信号に基づいてピッチラグ候補のセットを取得する。本電子デバイスは、さらに、ピッチラグ候補のセットに対応する信頼性尺度のセットを決定する。本電子デバイスは、さらに、反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいてピッチラグを推定する。

反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいてピッチラグを推定することは、ピッチラグ候補のセットと信頼性尺度のセットとを使用して加重平均を計算することと、ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定することとを含み得る。反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいてピッチラグを推定することは、さらに、ピッチラグ候補のセットから、加重平均から最も遠いピッチラグ候補を削除することと、信頼性尺度のセットから、加重平均から最も遠いピッチラグ候補に対応する信頼性尺度を削除することとを含み得る。反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいてピッチラグを推定することは、さらに、ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定することと、ピッチラグ候補の残りの数が指定された数に等しい場合、１つまたは複数の残りのピッチラグ候補に基づいてピッチラグを決定することとを含み得る。

電子デバイス上でピッチラグを推定するための方法も開示される。本方法は、現在フレームを取得することを含む。本方法はまた、現在フレームに基づいて残差信号を取得することを含む。本方法は、さらに、残差信号に基づいてピークロケーションのセットを決定することを含む。本方法は、さらに、ピークロケーションのセットに基づいてピッチラグ候補のセットを取得することを含む。本方法はまた、ピッチラグ候補のセットに基づいてピッチラグを推定することを含む。

電子デバイス上でピッチラグを推定するための別の方法も開示される。本方法は、音声信号を取得することを含む。本方法はまた、音声信号に基づいてピッチラグ候補のセットを取得することを含む。本方法は、さらに、ピッチラグ候補のセットに対応する信頼性尺度のセットを決定することを含む。本方法は、さらに、反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいてピッチラグを推定することを含む。

ピッチラグを推定するためのコンピュータプログラム製品も開示される。本コンピュータプログラム製品は、命令をもつ非一時的有形コンピュータ可読媒体を含む。本命令は、電子デバイスに、現在フレームを取得させるためのコードを含む。本命令はまた、電子デバイスに、現在フレームに基づいて残差信号を取得させるためのコードを含む。本命令は、さらに、電子デバイスに、残差信号に基づいてピークロケーションのセットを決定させるためのコードを含む。本命令は、さらに、電子デバイスに、ピークロケーションのセットに基づいてピッチラグ候補のセットを取得させるためのコードを含む。本命令はまた、電子デバイスに、ピッチラグ候補のセットに基づいてピッチラグを推定させるためのコードを含む。

ピッチラグを推定するための別のコンピュータプログラム製品も開示される。本コンピュータプログラム製品は、命令をもつ非一時的有形コンピュータ可読媒体を含む。本命令は、電子デバイスに、音声信号を取得させるためのコードを含む。本命令はまた、電子デバイスに、音声信号に基づいてピッチラグ候補のセットを取得させるためのコードを含む。本命令は、さらに、電子デバイスに、ピッチラグ候補のセットに対応する信頼性尺度のセットを決定させるためのコードを含む。本命令は、さらに、電子デバイスに、反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいてピッチラグを推定させるためのコードを含む。

ピッチラグを推定するための装置も開示される。本装置は、現在フレームを取得するための手段を含む。本装置はまた、現在フレームに基づいて残差信号を取得するための手段を含む。本装置は、さらに、残差信号に基づいてピークロケーションのセットを決定するための手段を含む。本装置は、さらに、ピークロケーションのセットに基づいてピッチラグ候補のセットを取得するための手段を含む。本装置はまた、ピッチラグ候補のセットに基づいてピッチラグを推定するための手段を含む。

ピッチラグを推定するための別の装置も開示される。本装置は、音声信号を取得するための手段を含む。本装置はまた、音声信号に基づいてピッチラグ候補のセットを取得するための手段を含む。本装置は、さらに、ピッチラグ候補のセットに対応する信頼性尺度のセットを決定するための手段を含む。本装置は、さらに、反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいてピッチラグを推定するための手段を含む。

ピッチラグを推定するためのシステムおよび方法が実装され得る電子デバイスの一構成を示すブロック図。ピッチラグを推定するための方法の一構成を示す流れ図。残差信号からのピークの一例を示す図。ピッチラグを推定するための方法の別の構成を示す流れ図。ピッチラグを推定するための方法のより具体的な構成を示す流れ図。反復的プルーニングアルゴリズムを使用してピッチラグを推定するための方法の一構成を示す流れ図。ピッチラグを推定するためのシステムおよび方法が実装され得るエンコーダの一構成を示すブロック図。デコーダの一構成を示すブロック図。音声信号を復号するための方法の一構成を示す流れ図。ピッチラグを推定するためのシステムおよび方法が実装され得る電子デバイスの一例を示すブロック図。音声信号を復号するためのシステムおよび方法が実装され得る電子デバイスの一例を示すブロック図。ピッチ同期利得スケーリングおよびＬＰＣ合成ブロック／モジュールの一構成を示すブロック図。電子デバイスにおいて利用され得る様々な構成要素を示す図。ワイヤレス通信デバイス内に含まれ得るいくつかの構成要素を示す図。

本明細書で開示するシステムおよび方法は、電子デバイスなどの様々なデバイスに適用され得る。電子デバイスの例には、ボイスレコーダ、ビデオカメラ、オーディオプレーヤ（たとえば、ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ−１（ＭＰＥＧ−１）またはＭＰＥＧ−２ＡｕｄｉｏＬａｙｅｒ３（ＭＰ３）プレーヤ）、ビデオプレーヤ、オーディオレコーダ、デスクトップコンピュータ／ラップトップコンピュータ、携帯情報端末（ＰＤＡ）、ゲームシステムなどがある。電子デバイスの一種は、別のデバイスと通信し得る通信デバイスである。通信デバイスの例には、電話、ラップトップコンピュータ、デスクトップコンピュータ、セルラーフォン、スマートフォン、ワイヤレスまたはワイヤードモデム、電子リーダー、タブレットデバイス、ゲームシステム、セルラー電話基地局またはノード、アクセスポイント、ワイヤレスゲートウェイおよびワイヤレスルータがある。

通信デバイスは、国際電気通信連合（ＩＴＵ）規格および／または米国電気電子技術者協会（ＩＥＥＥ）規格（たとえば、８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎおよび／または８０２．１１ａｃなどのワイヤレスフィデリティーまたは「Ｗｉ−Ｆｉ」規格）など、いくつかの業界規格に従って動作し得る。通信デバイスが準拠し得る標準の他の例には、ＩＥＥＥ８０２．１６（たとえば、ＷｏｒｌｄｗｉｄｅＩｎｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒＭｉｃｒｏｗａｖｅＡｃｃｅｓｓまたは「ＷｉＭＡＸ」）、ＴｈｉｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ（３ＧＰＰ）、３ＧＰＰＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ（ＬＴＥ）、ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ（ＧＳＭ）（登録商標）などがある（通信デバイスは、たとえば、ユーザ機器（ＵＥ）、ノードＢ、発展型ノードＢ（ｅＮＢ）、モバイルデバイス、移動局、加入者局、遠隔局、アクセス端末、モバイル端末、端末、端末ユーザ端末、加入者ユニットなどと呼ばれることがある）。本明細書で開示するシステムおよび方法のいくつかは１つまたは複数の標準に関して説明され得るが、これは、それらのシステムおよび方法が多くのシステムおよび／または標準に適用可能であり得るので、本開示の範囲を限定すべきではない。

いくつかの通信デバイスは、ワイヤレス通信し得、および／またはワイヤード接続もしくはリンクを使用して通信し得ることに留意されたい。たとえば、いくつかの通信デバイスは、イーサネット（登録商標）プロトコルを使用して他のデバイスと通信し得る。本明細書で開示するシステムおよび方法は、ワイヤレス通信し、および／またはワイヤード接続もしくはリンクを使用して通信する通信デバイスに適用され得る。一構成では、本明細書で開示するシステムおよび方法は、衛星を使用して別のデバイスと通信する通信デバイスに適用され得る。

本明細書で開示するシステムおよび方法は、以下のように説明する通信システムの一例に適用され得る。この例では、本明細書で開示するシステムおよび方法は、ジオモバイル衛星エアインターフェース（ＧＭＳＡ：geo-mobile satellite air interface）衛星通信のための低ビットレート（たとえば、２キロビット毎秒（Ｋｂｐｓ））音声符号化を行い得る。より詳細には、本明細書で開示するシステムおよび方法は、統合された衛星およびモバイル通信ネットワークにおいて使用され得る。そのようなネットワークは、シームレスで、透過的で、相互運用可能で、ユビキタスなワイヤレスカバレージを提供し得る。衛星ベースのサービスは、地上カバレージが利用不可能である遠隔ロケーションにおける通信のために使用され得る。たとえば、そのようなサービスは、人工もしくは自然災害、ブロードキャストおよび／またはフリート管理およびアセット追跡に有用であり得る。Ｌおよび／またはＳバンド（ワイヤレス）スペクトルが使用され得る。

一構成では、順方向リンクは、オーバージエア衛星リンクのための基礎技術として１ｘＥｖｏｌｕｔｉｏｎＤａｔａＯｐｔｉｍｉｚｅｄ（ＥＶ−ＤＯ）ＲｅｖＡエアインターフェースを使用し得る。逆方向リンクは周波数分割多重（ＦＤＭ）を使用し得る。たとえば、逆方向リンクスペクトルの１．２５メガヘルツ（ＭＨｚ）ブロックは１９２個の狭帯域周波数チャネルに分割され、各々は６．４キロヘルツ（ｋＨｚ）の帯域幅をもち得る。逆方向リンクデータレートは制限され得る。これは、低ビットレート符号化の必要性を提示し得る。場合によっては、たとえば、１つのチャネルが２．４Ｋｂｐｓしかサポートできないことがある。ただし、より良いチャネル状態では、２つのＦＤＭチャネルが利用可能になり、場合によっては４．８Ｋｂｐｓ送信を提供し得る。

逆方向リンク上では、たとえば、低ビットレート音声エンコーダが使用され得る。これにより、逆方向リンク上でシングルＦＤＭチャネル割当てのためのアクティブ音声のために２Ｋｂｐｓの固定レートが可能になり得る。一構成では、逆方向リンクは、基本チャネル符号化のために１／４畳み込みコーダを使用する。

いくつかの構成では、本明細書で開示するシステムおよび方法は、他の符号化モードへの追加として使用され得る。たとえば、本明細書で開示するシステムおよび方法は、プロトタイプピッチ周期波形補間（ＰＰＰＷＩ：prototype pitch-period waveform interpolation）を使用した１／４レート有声コーディングへの追加または代替として使用され得る。ＰＰＰＷＩでは、実際の波形の代わりに使用され得る補間波形を生成するためにプロトタイプ波形が使用されて、再構成された信号が、低減された数のサンプルによって生成されることが可能になり得る。ＰＰＰＷＩは、たとえば、フルレートまたは１／４レートにおいて利用可能であり得、および／または時間同期出力を生成し得る。さらに、ＰＰＰＷＩでは周波数領域において量子化が実行され得る。有声符号化モードでは、（たとえば、ＦＱＱ（有効ハーフレート）の代わりに）ＱＱＱが使用され得る。ＱＱＱは、４０ビット毎フレームで１／４レートプロトタイプピッチ周期波形補間（ＱＰＰＰ−ＷＩ：quarter-rate prototype pitch period waveform interpolation）を使用して３つの連続する有声フレームを符号化するコーディングパターンである（事実上２キロビット毎秒（ｋｂｐｓ））。ＦＱＱは、３つの連続する有声フレームが、それぞれフルレートプロトタイプピッチ周期（ＰＰＰ）、１／４レートプロトタイプピッチ周期（ＱＰＰＰ）およびＱＰＰＰを使用して符号化されるコーディングパターンである。これは４ｋｂｐｓの平均レートを達成し得る。後者は、２ｋｂｐｓボコーダにおいて使用され得ない。１／４レートプロトタイプピッチ周期（ＱＰＰＰ）は、周波数領域におけるプロトタイプ表現の振幅のデルタ符号化なしに、１３ビット線スペクトル周波数（ＬＳＦ：line spectral frequency）量子化を用いて、修正された様式で使用され得ることに留意されたい。一構成では、ＱＰＰＰは、ＬＳＦのための１３ビットと、プロトタイプ波形振幅のための１２ビットと、プロトタイプ波形電力のための６ビットと、ピッチラグのための７ビットと、モードのための２ビットとを使用し、合計４０ビットになり得る。

特に、本明細書で開示するシステムおよび方法は、（ＱＰＰＰのために必要なシードを与え得る）過渡符号化モードのために使用され得る。（たとえば、２Ｋｂｐｓボコーダにおける）この過渡符号化モードは、アップ過渡と、ダウン過渡と、有声過渡とをコーディングするための統合モデルを使用し得る。本明細書で開示するシステムおよび方法は、過渡符号化モードに特に適用され得るが、過渡符号化モードは、これらのシステムおよび方法が適用され得る唯一のコンテキストでない。それらは、追加または代替として、他の符号化モードに適用され得る。

本明細書で開示するシステムおよび方法は、ピッチ推定を実行することについて説明する。いくつかの構成では、ピッチラグを推定することは、線形予測コーディング（ＬＰＣ：Linear Predictive Coding）残差中にインターピーク距離を含む候補ピッチ値を反復的にプルーニングすることによって部分的に達成され得る。超低ビットレートボコーダにおいて良好なコード化音声品質を生成するために正確なピッチ推定が必要とされ得る。いくつかの従来のピッチ推定アルゴリズムは、信号の長期統計値を使用して音声信号のフレームおよび／または対応するＬＰＣ残差からピッチを推定する。そのような推定値は、非定常フレームおよび過渡フレームについてしばしば信頼できない。言い換えれば、これは、非定常過渡音声フレームについて正確な推定値を与えないことがある。

明細書で開示するシステムおよび方法は、いくつかの候補の中から理想的な（たとえば、利用可能な最良の）ピッチ値を選択するために、音声フレーム中で短時間（たとえば、局所的）特性を使用することによって、および／または反復アルゴリズムを使用することによってより確実にピッチを推定し得る。これは、低ビットレートボコーダにおける音声品質を改善し、それにより、たとえば、記録または送信される音声品質を改善し得る。より詳細には、本明細書で開示するシステムおよび方法は、従来の技法よりも正確なピッチ推定値を提供し、したがって、ボコーダにおける低ビットレート符号化モードの音声品質が改善される推定アルゴリズムが使用され得る。

次に、図を参照しながら様々な構成について説明する。同様の参照番号は機能的に同様の要素を示し得る。本明細書で概して説明し、図に示すシステムおよび方法は、多種多様な異なる構成で構成および設計され得る。したがって、図に表されるいくつかの構成についての以下のより詳細な説明は、請求する範囲を限定するものではなく、システムおよび方法を代表するものにすぎない。

図１は、ピッチラグを推定するためのシステムおよび方法が実装され得る電子デバイス１０２の一構成を示すブロック図である。追加または代替として、音声信号を復号するためのシステムおよび方法は電子デバイス１０２中に実装され得る。電子デバイスＡ１０２はエンコーダ１０４を含み得る。エンコーダ１０４の一例は線形予測コーディング（ＬＰＣ）エンコーダである。エンコーダ１０４は、電子デバイスＡ１０２によって音声信号１０６を符号化するために使用され得る。たとえば、エンコーダ１０４は、音声信号を合成するために使用され得るパラメータのセットを推定または生成することによって音声信号１０６を「圧縮された」フォーマットに符号化する。一構成では、そのようなパラメータは、音声信号１０６を合成するために使用され得るピッチ（たとえば、周波数）、振幅およびホルマント（たとえば、共振）の推定値を表し得る。エンコーダ１０４は、本明細書で開示するシステムおよび方法に従ってピッチラグを推定するピッチ推定ブロック／モジュール１２６を含み得る。本明細書で使用する「ブロック／モジュール」という用語は、特定の要素がハードウェア、ソフトウェアまたは両方の組合せにおいて実装され得ることを示すために使用され得る。ピッチ推定ブロック／モジュール１２６が様々な方法で実装され得ることに留意されたい。たとえば、ピッチ推定ブロック／モジュール１２６は、ピーク探索ブロック／モジュール１２８、信頼性測定ブロック／モジュール１３４および／またはピッチラグ決定ブロック／モジュール１３８を備え得る。他の構成では、ピッチ推定ブロック／モジュール１２６内に含まれているものとして示されるブロック／モジュールのうちの１つまたは複数は、省略される、および／または他のブロック／モジュールと置き換えられ得る。追加または代替として、ピッチ推定ブロック／モジュール１２６は、線形予測コーディング（ＬＰＣ）分析ブロック／モジュール１２２など、他のブロック／モジュールを含むものとして定義され得る。

電子デバイスＡ１０２は音声信号１０６を取得し得る。一構成では、電子デバイスＡ１０２は、マイクロフォンを使用して音響信号をキャプチャおよび／またはサンプリングすることによって音声信号１０６を取得する。別の構成では、電子デバイスＡ１０２は、別のデバイス（たとえば、Ｂｌｕｅｔｏｏｔｈ（登録商標）ヘッドセット、ユニバーサルシリアルバス（ＵＳＢ）ドライブ、セキュアデジタル（ＳＤ）カード、ネットワークインターフェース、ワイヤレスマイクロフォンなど）から音声信号１０６を受信する。音声信号１０６はフレーミングブロック／モジュール１０８に与えられ得る。

電子デバイスＡ１０２は、フレーミングブロック／モジュール１０８を使用して音声信号１０６を１つまたは複数のフレーム１１０にセグメント化し得る。たとえば、フレーム１１０は、特定の数の音声信号１０６サンプルを含み、および／または音声信号１０６のある時間量（たとえば、１０〜２０ミリ秒）を含み得る。音声信号１０６がフレーム１１０にセグメント化されるとき、フレーム１１０は、それらが含んでいる信号に従って分類され得る。たとえば、フレーム１１０は、有声フレーム、無声フレーム、無音フレームまたは過渡フレームであり得る。本明細書で開示するシステムおよび方法は、フレーム１１０（たとえば、過渡フレーム、有声フレームなど）中のピッチラグを推定するために使用され得る。

過渡フレームは、たとえば、ある音声クラスと別の音声クラスとの間の境界上に位置し得る。たとえば、音声信号１０６は、無声音（たとえば、ｆ、ｓ、ｓｈ、ｔｈなど）から有声音（たとえば、ａ、ｅ、ｉ、ｏ、ｕなど）に遷移し得る。いくつかの過渡タイプは、（たとえば、音声信号１０６の無声部分から有声部分に遷移するときの）アップ過渡、破裂音、有声過渡（たとえば、線形予測コーディング（ＬＰＣ）変更およびピッチラグ変動）、ならびに（たとえば、単語の末尾など、音声信号１０６の有声部分から無声または無音部分に遷移するときの）ダウン過渡を含む。２つの音声クラスの中間のフレーム１１０は過渡フレームであり得る。従来の手法は、過渡フレームにおいて正確なピッチラグ推定値を与えないことがあるので、本明細書で開示するシステムおよび方法は過渡フレームに有利に適用され得る。ただし、本明細書で開示するシステムおよび方法は、他の種類のフレームに適用され得ることに留意されたい。

エンコーダ１０４は、フレーム１１０に対して線形予測分析（たとえば、ＬＰＣ分析）を実行するための線形予測コーディング（ＬＰＣ）分析ブロック／モジュール１２２を使用し得る。ＬＰＣ分析ブロック／モジュール１２２は、追加または代替として、他のフレーム１１０からの（たとえば、前のフレーム１１０からの）１つまたは複数のサンプルを使用し得ることに留意されたい。ＬＰＣ分析ブロック／モジュール１２２は１つまたは複数のＬＰＣ係数１２０を生成し得る。ＬＰＣ係数１２０は量子化ブロック／モジュール１１８に与えられ得、量子化ブロック／モジュール１１８は１つまたは複数の量子化ＬＰＣ係数１１６を生成し得る。量子化ＬＰＣ係数１１６と、１つまたは複数のフレーム１１０からの１つまたは複数のサンプルとは、残差信号１１４を決定するために使用され得る、残差決定ブロック／モジュール１１２に与えられ得る。たとえば、残差信号１１４は、ホルマントまたはホルマントの効果を音声信号１０６から削除した、音声信号１０６のフレーム１１０を含み得る。残差信号１１４はピッチ推定ブロック／モジュール１２６に与えられ得る。

エンコーダ１０４は、ピッチ推定ブロック／モジュール１２６を含み得る。図１に示す例では、ピッチ推定ブロック／モジュール１２６は、ピーク探索ブロック／モジュール１２８と、信頼性測定ブロック／モジュール１３４と、ピッチラグ決定ブロック／モジュール１３８とを含む。ただし、ピーク探索ブロック／モジュール１２８および／または信頼性測定ブロック／モジュール１３４は、随意であり得、１つまたは複数のピッチ（たとえば、ピッチラグ）候補１３２および／または信頼性測定値１３６を決定する１つまたは複数の他のブロック／モジュールと置き換えられ得る。図１に示すように、ピッチラグ決定ブロック／モジュール１３８は、反復的プルーニングアルゴリズム１４０を利用し得る。ただし、反復的プルーニングアルゴリズム１４０は、随意であり得、本明細書で開示するシステムおよび方法のいくつかの構成では省略され得る。言い換えれば、ピッチラグ決定ブロック／モジュール１３８は、いくつかの構成では反復的プルーニングアルゴリズム１４０を使用せずにピッチラグを決定し得、たとえば、ピッチラグ１４２を決定するための平滑化または平均化アルゴリズムなど、何らかの他の手法またはアルゴリズムを使用し得る。

ピーク探索ブロック／モジュール１２８は残差信号１１４中のピークを探索し得る。言い換えれば、エンコーダ１０４は、残差信号１１４中のピーク（たとえば、高いエネルギーの領域）を探索し得る。これらのピークは識別されて、ピークのリストまたはセットが取得され得る。ピークのリストまたはセット中のピークロケーションは、たとえば、サンプル数および／または時間に関して指定され得る。ピークのリストまたはセットを取得することに関するさらなる詳細を以下に与える。

ピーク探索ブロック／モジュール１２８は、候補決定ブロック／モジュール１３０を含み得る。候補決定ブロック／モジュール１３０は、１つまたは複数の候補ピッチラグ１３２を決定するために、ピークのセットを使用し得る。「ピッチラグ」は、フレーム１１０中の２つの連続するピッチスパイク間の「距離」であり得る。ピッチラグは、たとえば、サンプル数および／または時間量において指定され得る。一構成では、ピーク探索ブロック／モジュール１２８は、ピッチラグ候補１３２を決定するために、ピーク間の距離を決定し得る。ほとんど一定のボイスまたは音声信号では、ピッチラグはほぼ一定のままであり得る。

ピッチラグを推定するための一部の従来の方法は自己相関を使用する。それらの手法では、ＬＰＣ残差は、相関を行うために、それ自体に対してスライドされる。それらの手法では、最大自己相関値を有する相関またはピッチラグのどちらかがフレームのピッチであると決定され得る。それらの手法は、音声フレームがほとんど一定であるときに機能し得る。しかしながら、過渡フレーム中でなど、ピッチ構造があまり一定でないことがある他のフレームがある。音声フレームが一定であるときでも、従来の手法は、システム中の雑音のためにあまり正確なピッチ推定値を提供しないことがある。雑音は、残差がどのくらい「ピーキー」であるかを低減し得る。たとえば、そのような場合、従来の手法は、あまり正確でないピッチ推定値を決定することになる。

ピーク探索ブロック／モジュール１２８は、相関手法を使用してピッチラグ候補１３２のセットを取得し得る。たとえば、候補ピッチラグ１３２のセットは、候補決定ブロック／モジュール１３０によって最初に決定され得る。次いで、候補ピッチラグのセットに対応する信頼性尺度１３６のセットは、候補ピッチラグ１３２のセットに基づいて信頼性測定ブロック／モジュール１３４によって決定され得る。より詳細には、ピッチラグ候補１３２の各々について、第１のセットは、ピッチラグ候補１３２のセットであり得、第２のセットは、信頼性尺度１３６のセットであり得る。したがって、たとえば、第１の信頼性尺度または値は、第１のピッチラグ候補などに対応し得る。したがって、ピッチラグ候補１３２のセットと信頼性尺度１３６のセットとが「構築される」か、または決定され得る。信頼性尺度１３６のセットは、推定ピッチラグ１４２の精度を改善するために使用され得る。一構成では、信頼性尺度１３６のセットは相関のセットであり得、各値は、（基本的には）ピッチラグ候補に対応するピッチラグにおける相関であり得る。言い換えれば、各特定のピッチラグについての相関係数は、ピッチラグ候補１３２の距離の各々についての信頼性尺度を構成し得る。

ピッチラグ候補１３２のセットおよび／または信頼性尺度１３６のセットは、ピッチラグ決定ブロック／モジュール１３８に与えられ得る。ピッチラグ決定ブロック／モジュール１３８は、１つまたは複数のピッチラグ候補１３２に基づいてピッチラグ１４２を決定し得る。いくつかの構成では、ピッチラグ決定ブロック／モジュール１３８は、（１つまたは複数のピッチラグ候補１３２に加えて）１つまたは複数の信頼性尺度１３６に基づいてピッチラグ１４２を決定し得る。たとえば、ピッチラグ決定ブロック／モジュールは、ピッチラグ値のうちの１つを選択するために反復的プルーニングアルゴリズム１４０を使用し得る。反復的プルーニングアルゴリズム１４０に関するさらなる詳細を以下に与える。選択されたピッチラグ１４２値は、「真の」ピッチラグの推定値であり得る。

他の構成では、ピッチラグ決定ブロック／モジュール１３８は、ピッチラグ１４２を決定するために何らかの他の手法を使用し得る。たとえば、ピッチラグ決定ブロック／モジュール１３８は、反復的プルーニングアルゴリズム１４０の代わりに、あるいはそれに加えて平均化または平滑化アルゴリズムを使用し得る。

ピッチラグ決定ブロック／モジュール１３８によって決定されたピッチラグ１４２は、励起合成ブロック／モジュール１４８とスケールファクタ決定ブロック／モジュール１５２とに与えられ得る。励起合成ブロック／モジュール１４８は、ピッチラグ１４２とプロトタイプ波形生成ブロック／モジュール１４４によって与えられた波形１４６とに基づいて励起１５０を生成するか、または合成し得る。一構成では、プロトタイプ波形生成ブロック／モジュール１４４は、ピッチラグ１４２に基づいて波形１４６を生成し得る。励起１５０、ピッチラグ１４２および／または量子化ＬＰＣ係数１１６は、スケールファクタ決定ブロック／モジュール１５２に与えられ得、スケールファクタ決定ブロック／モジュール１５２は、励起１５０、ピッチラグ１４２および／または量子化ＬＰＣ係数１１６に基づいて利得１５４のセットを生成し得る。利得１５４のセットは利得量子化ブロック／モジュール１５６に与えられ得、利得量子化ブロック／モジュール１５６は、利得１５４のセットを量子化して量子化利得１５８のセットを生成する。

ピッチラグ１４２、量子化ＬＰＣ係数１１６および／または量子化利得１５８は、符号化音声信号と呼ばれることがある。符号化音声信号は、合成音声信号を生成するために復号され得る。ピッチラグ１４２、量子化ＬＰＣ係数１１６および／または量子化利得１５８（たとえば、符号化音声信号）は、別のデバイスに送信されるか、記憶されるか、および／または復号され得る。

一構成では、電子デバイスＡ１０２は送信（ＴＸ）および／または受信（ＲＸ）ブロック／モジュール１６０を含み得る。ピッチラグ１４２、量子化ＬＰＣ係数１１６および／または量子化利得１５８は、ＴＸ／ＲＸブロック／モジュール１６０に与えられ得る。ＴＸ／ＲＸブロック／モジュール１６０は、ピッチラグ１４２、量子化ＬＰＣ係数１１６および／または量子化利得１５８を送信に適したフォーマットにフォーマットし得る。たとえば、ＴＸ／ＲＸブロック／モジュール１６０は、ピッチラグ１４２、量子化ＬＰＣ係数１１６および／または量子化利得１５８を１つまたは複数のメッセージ１６６として符号化、変調、スケーリング（たとえば、増幅）および／または場合によってはフォーマットし得る。ＴＸ／ＲＸブロック／モジュール１６０は、１つまたは複数のメッセージ１６６を、電子デバイスＢ１６８など、別のデバイスに送信し得る。１つまたは複数のメッセージ１６６は、ワイヤレスおよび／またはワイヤード接続またはリンクを使用して送信され得る。いくつかの構成では、１つまたは複数のメッセージ１６６は、衛星、基地局、ルータ、スイッチおよび／または他のデバイスもしくは媒体によって電子デバイスＢ１６８に中継され得る。

電子デバイスＢ１６８は、ＴＸ／ＲＸブロック／モジュール１７０を使用して、電子デバイスＡ１０２によって送信された１つまたは複数のメッセージ１６６を受信し得る。ＴＸ／ＲＸブロック／モジュール１７０は、１つまたは複数の受信メッセージ１６６を復号し、復調し、および／または他の方法でデフォーマットして符号化音声信号１７２を生成し得る。符号化音声信号１７２は、たとえば、ピッチラグ、量子化ＬＰＣ係数および／または量子化利得を備え得る。符号化音声信号１７２は、デコーダ１７４（たとえば、ＬＰＣデコーダ）に与えられ得、デコーダ１７４は、合成音声信号１７６を生成するために符号化音声信号１７２を復号（たとえば、合成）し得る。合成音声信号１７６は、トランスデューサ（たとえば、スピーカー）を使用して音響信号（たとえば、出力）に変換され得る。電子デバイスＢ１６８は、本明細書で開示するシステムおよび方法を使用するために必要ではないが、本明細書で開示するシステムおよび方法が使用され得る１つの可能な構成の一部として図示されていることに留意されたい。

別の構成では、ピッチラグ１４２、量子化ＬＰＣ係数１１６および／または量子化利得１５８（たとえば、符号化音声信号）は、（電子デバイスＡ１０２上の）デコーダ１６２に与えられ得る。デコーダ１６２は、ピッチラグ１４２、量子化ＬＰＣ係数１１６および／または量子化利得１５８を使用して、合成音声信号１６４を生成し得る。合成音声信号１６４は、たとえば、スピーカーを使用して出力され得る。たとえば、電子デバイスＡ１０２は、音声信号１０６を符号化し、それをメモリに記憶するデジタルボイスレコーダであり得、音声信号１０６は、次いで、合成音声信号１６４を生成するために復号され得る。合成音声信号１６４は、トランスデューサ（たとえば、スピーカー）を使用して音響信号（たとえば、出力）に変換され得る。デコーダ１６２は、本明細書で開示するシステムおよび方法に従ってピッチラグを推定するために必要ではないが、本明細書で開示するシステムおよび方法が使用され得る１つの可能な構成の一部として図示されていることに留意されたい。電子デバイスＡ１０２上のデコーダ１６２と、電子デバイスＢ１６８上のデコーダ１７４とは同様の機能を実行し得る。

図２は、ピッチラグを推定するための方法２００の一構成を示す流れ図である。たとえば、電子デバイス１０２は、音声信号１０６のフレーム１１０中のピッチラグを推定するために、図２に示す方法２００を実行し得る。電子デバイス１０２は、２０２において現在フレーム１１０を取得する。一構成では、電子デバイス１０２は、２０２において、マイクロフォンを使用して音響音声信号をキャプチャすることによって、電子音声信号１０６を取得する。追加または代替として、電子デバイス１０２は、別のデバイスから音声信号１０６を受信し得る。電子デバイス１０２は、次いで、音声信号１０６を１つまたは複数のフレーム１１０にセグメント化し得る。たとえば、フレーム１１０は、１０〜２０ミリ秒の長さを有するいくつかのサンプルを含み得る。

電子デバイス１０２は、２０４において、線形予測（たとえば、ＬＰＣ）係数１２０のセットを取得するために、現在フレーム１１０と、現在フレーム１１０より前の信号とを使用して線形予測分析を実行する。たとえば、電子デバイス１０２は、ルックアヘッドバッファと、現在の音声フレーム１１０より前の音声信号１０６の少なくとも１つのサンプルを含んでいるバッファとを使用して、ＬＰＣ係数１２０を取得し得る。

電子デバイス１０２は、２０６において、ＬＰＣ係数１２０のセットに基づいて量子化線形予測（たとえば、ＬＰＣ）係数１１６のセットを決定する。たとえば、電子デバイス１０２は、２０６において量子化ＬＰＣ係数１１６のセットを決定するために、ＬＰＣ係数１２０のセットを量子化する。

電子デバイス１０２は、２０８において、現在フレーム１１０と量子化ＬＰＣ係数１１６とに基づいて残差信号１１４を取得する。たとえば、電子デバイス１０２は、フレーム１１０からＬＰＣ係数１１６（たとえば、ホルマント）の効果を削除して、２０８において残差信号１１４を取得する。

電子デバイス１０２は、２１０において残差信号１１４に基づいてピークロケーションのセットを決定する。たとえば、電子デバイスは、ＬＰＣ残差信号１１４を探索して、ピークロケーションのセットを決定し得る。ピークロケーションは、たとえば、時間および／またはサンプル数に関して記述され得る。

一構成では、電子デバイス１０２は、２１０において、以下のようにピークロケーションのセットを決定する。電子デバイス１０２は、（ＬＰＣ）残差信号１１４と所定のウィンドウ信号とのサンプルの絶対値に基づいて包絡線信号を計算し得る。電子デバイス１０２は、次いで、包絡線信号と包絡線信号の時間シフトバージョンとの間の差に基づいて第１の勾配信号を計算し得る。電子デバイス１０２は、第１の勾配信号と第１の勾配信号の時間シフトバージョンとの間の差に基づいて第２の勾配信号を計算し得る。電子デバイス１０２は、次いで、第２の勾配信号値が所定の負しきい値を下回る第１のロケーションインデックスのセットを選択し得る。電子デバイス１０２はまた、包絡線値が包絡線中の最大値に対する所定のしきい値を下回るロケーションインデックスをなくすことによって、第１のロケーションインデックスのセットから第２のロケーションインデックスのセットを決定し得る。さらに、電子デバイス１０２は、近隣のロケーションインデックスに対する所定の差分しきい値でないロケーションインデックスをなくすことによって、第２のロケーションインデックスのセットから第３のロケーションインデックスのセットを決定し得る。ロケーションインデックス（たとえば、第１、第２および／または第３のセット）は、ピークの決定されたセットのロケーションに対応し得る。

電子デバイス１０２は、２１２において、ピークロケーションのセットに基づいてピッチラグ候補１３２のセットを取得する。たとえば、電子デバイス１０２は、順序付けされたピークロケーションのセットを生じるようにピークロケーションのセットを昇順に配列し得る。電子デバイス１０２は、次いで、順序付けされたピークロケーションのセット中の連続するピークロケーションペア間の距離を計算し得る。連続するピークロケーションペア間の距離は、ピッチラグ候補１３２のセットであり得る。

いくつかの構成では、電子デバイス１０２は、ピッチラグ候補１３２のセットに、現在フレームの（ＬＰＣ）残差信号１１４に基づいて計算された第１の近似ピッチラグ値を追加し得る。一例では、電子デバイス１０２は、以下のように第１の近似ピッチラグ値を計算または推定し得る。電子デバイス１０２は、現在フレーム１１０の（ＬＰＣ）残差信号１１４に基づいて自己相関値を推定し得る。電子デバイス１０２は、所定の範囲のロケーション内の自己相関値の最大値を求めて探索し得る。電子デバイス１０２はまた、第１の近似ピッチラグ値を、最大値が生じるロケーションとして設定または決定し得る。この第１の近似ピッチラグ値は、ピッチラグ候補１３２のセットに追加され得る。第１の近似ピッチラグ値は、ピッチ推定の典型的な自己相関技法によって決定されたピッチラグ値であり得る。１つの例示的な推定技法は、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, 70, and 73 for Wideband Spread Spectrum Digital Systems」と題する３ＧＰＰ２文書Ｃ．Ｓ００１４Ｄのセクション４．６．３に見つけることができる。

いくつかの構成では、電子デバイス１０２は、さらに、ピッチラグ候補１３２のセットに、前フレームの（ＬＰＣ）残差信号１１４に基づいて計算された第２の近似ピッチラグ値を追加し得る。一例では、電子デバイス１０２は、以下のように第２の近似ピッチラグ値を計算または推定し得る。電子デバイス１０２は、前フレーム１１０の（ＬＰＣ）残差信号１１４に基づいて自己相関値を推定し得る。電子デバイス１０２は、所定の範囲のロケーション内の自己相関値の最大値を求めて探索し得る。電子デバイス１０２はまた、第２の近似ピッチラグ値を、最大値が生じるロケーションとして設定または決定し得る。電子デバイス１０２は、ピッチラグ候補１３２のセットに、この第２の近似ピッチラグ値を追加し得る。第２の近似ピッチラグ値は、前フレームからのピッチラグ値であり得る。

電子デバイス１０２は、２１４において、ピッチラグ候補１３２のセットに基づいてピッチラグ１４２を推定する。一構成では、電子デバイス１０２は、２１４において、平滑化または平均化アルゴリズムを使用して、ピッチラグ１４２を推定する。たとえば、ピッチラグ決定ブロック／モジュール１３８は、ピッチラグ候補１３２のすべての平均を計算して、推定ピッチラグ１４２を生成し得る。別の構成では、電子デバイス１０２は、２１４において、反復的プルーニングアルゴリズム１４０を使用して、ピッチラグ１４２を推定する。反復的プルーニングアルゴリズム１４０に関するさらなる詳細を以下に与える。

推定ピッチラグ１４２は、合成励起１５０および／または利得係数１５４を生成するために使用され得る。追加または代替として、推定ピッチラグ１４２は、デコーダ１６２、１７４に記憶、送信および／または与えられ得る。たとえば、デコーダ１６２、１７４は、推定ピッチラグ１４２を使用して、合成音声信号１６４、１７６を生成し得る。

図３は、残差信号１１４からのピーク３７８の一例を示す図である。上記で説明したように、電子デバイス１０２は、残差信号１１４を使用して、ピークロケーション３７８のセットを決定し得、そこから（インターピーク）距離３８０（たとえば、ピッチラグ候補１３２）のセットが決定され得る。たとえば、電子デバイス１０２は、２１０において、図２に関して上記で説明したように、ピークロケーション３７８ａ〜ｄのセットを決定する。電子デバイス１０２はまた、インターピーク距離３８０ａ〜ｃ（たとえば、ピッチラグ候補１３２）のセットを決定し得る。（たとえば、連続するピーク３７８間の）インターピーク距離３８０ａ〜ｃが、たとえば、時間単位またはサンプル数で指定され得ることに留意されたい。一構成では、電子デバイス１０２は、図２に関して上記で説明したように、２１２においてピッチラグ候補１３２（たとえば、インターピーク距離３８０ａ〜ｃ）のセットを取得する。インターピーク距離３８０ａ〜ｃまたはピッチラグ候補１３２のセットは、ピッチラグを推定するために使用され得る。図３では、軸のセット上にインターピーク距離３８０ａ〜ｃのセットが示されており、水平軸は、ミリ秒単位の時間で示され、垂直軸は、波形の振幅（たとえば、信号振幅）をプロットしている。たとえば、図示された信号振幅は、電圧、電流または圧力変動であり得る。

図４は、ピッチラグを推定するための方法４００の別の構成を示す流れ図である。電子デバイス１０２は、４０２において音声信号１０６を取得する。たとえば、電子デバイス１０２は、別のデバイスから音声信号１０６を受信する、および／またはマイクロフォンを使用して音声信号１０６をキャプチャし得る。

電子デバイス１０２は、４０４において、音声信号に基づいてピッチラグ候補のセットを取得する。たとえば、電子デバイス１０２は、４０４において、当技術分野で知られている任意の方法に従ってピッチラグ候補のセットを取得する。代替的に、電子デバイス１０２は、４０４において、図２に関して上記で説明したように、本明細書で開示するシステムおよび方法に従ってピッチラグ候補１３２のセットを取得する。

電子デバイス１０２は、４０６において、ピッチラグ候補１３２のセットに対応する信頼性尺度１３６のセットを決定する。一例では、信頼性尺度１３６のセットは、相関のセットであり得る。たとえば、電子デバイス１０２は、信号包絡線と、順序付けされたピークロケーションのセット中の連続するピークロケーションペアとに基づいて、ピッチラグ候補１３２のセットに対応する相関のセットを計算し得る。一構成では、電子デバイス１０２は、以下のように相関のセットを計算し得る。順序付けされたピークロケーションのセット中のピークロケーションの各ペアについて、電子デバイス１０２は、ピークロケーションのペア中の第１のピークロケーションの周りの所定の範囲に基づいて第１の信号バッファを選択し得る。電子デバイス１０２はまた、ピークロケーションのペア中の第２のピークロケーションの周りの所定の範囲に基づいて第２の信号バッファを選択し得る。次いで、電子デバイス１０２は、第１の信号バッファと第２の信号バッファとの間の正規化相互相関を計算し得る。この正規化相互相関は、信頼性尺度１３６または相関のセットに追加され得る。順序付けされたピークロケーションのセット中のピークロケーションの各ペアについて、このプロシージャが続き得る。

いくつかの構成では、電子デバイス１０２は、ピッチラグ候補１３２のセットに、現在フレーム１１０の（ＬＰＣ）残差信号１１４に基づいて計算された第１の近似ピッチラグ値を追加し得る。電子デバイス１０２はまた、信頼性尺度１３６または相関のセットに、第１の近似ピッチラグ値に対応する第１のピッチ利得を追加し得る。

一例では、電子デバイス１０２は、以下のように第１の近似ピッチラグ値と対応する第１のピッチ利得値とを計算または推定し得る。電子デバイス１０２は、現在フレーム１１０の（ＬＰＣ）残差信号１１４に基づいて自己相関値を推定し得る。電子デバイス１０２は、所定の範囲のロケーション内の自己相関値の最大値を求めて探索し得る。電子デバイス１０２はまた、第１の近似ピッチラグ値を、最大値が生じるロケーションとして設定または決定し、および／あるいは第１のピッチ利得値を、ピッチラグにおける正規化自己相関として設定または決定し得る。

電子デバイス１０２は、ピッチラグ候補１３２のセットに、前フレーム１１０の（ＬＰＣ）残差信号１１４に基づいて計算された第２の近似ピッチラグ値を追加し得る。電子デバイス１０２は、さらに、信頼性尺度１３６または相関のセットに、第２の近似ピッチラグ値に対応する第２のピッチ利得を追加し得る。

一構成では、電子デバイス１０２は、以下のように第２の近似ピッチラグ値と対応する第２のピッチ利得値とを計算または推定し得る。電子デバイス１０２は、前フレーム１１０の（ＬＰＣ）残差信号１１４に基づいて自己相関値を推定し得る。電子デバイス１０２は、所定の範囲のロケーション内の自己相関値の最大値を求めて探索し得る。電子デバイス１０２はまた、第２の近似ピッチラグ値を、最大値が生じるロケーションとして設定または決定し、および／あるいは第２のピッチ利得値を、ピッチラグにおける正規化自己相関として設定または決定し得る。

電子デバイス１０２は、４０８において、反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度１３６のセットとに基づいてピッチラグを推定する。反復的プルーニングアルゴリズムの一例では、電子デバイス１０２は、ピッチラグ候補１３２のセットと信頼性尺度１３６のセットとに基づいて加重平均を計算し得る。電子デバイス１０２は、ピッチラグ候補１３２のセットの中で、加重平均から最も遠いピッチラグ候補を決定し得る。電子デバイス１０２は、次いで、ピッチラグ候補１３２のセットから、加重平均から最も遠いピッチラグ候補を削除し得る。削除されたピッチラグ候補に対応する信頼性尺度は、信頼性尺度１３６のセットから削除され得る。このプロシージャは、残っているピッチラグ候補１３２の数が指定された数まで低減されるまで繰り返され得る。ピッチラグ１４２は、次いで、１つまたは複数の残りのピッチラグ候補１３２に基づいて決定され得る。たとえば、ただ１つしか残っていない場合、残っている最後のピッチラグ候補がピッチラグとして決定され得る。２つ以上のピッチラグ候補が残っている場合、電子デバイス１０２は、たとえば、ピッチラグ１４２を残りの候補の平均として決定し得る。

図５は、ピッチラグを推定するための方法５００のより具体的な構成を示す流れ図である。電子デバイス１０２は、５０２において現在フレーム１１０を取得する。一構成では、電子デバイス１０２は、５０２において、マイクロフォンを使用して音響音声信号をキャプチャすることによって、電子音声信号１０６を取得する。追加または代替として、電子デバイス１０２は、別のデバイスから音声信号１０６を受信し得る。電子デバイス１０２は、次いで、音声信号１０６を１つまたは複数のフレーム１１０にセグメント化し得る。

電子デバイス１０２は、５０４において、線形予測（たとえば、ＬＰＣ）係数１２０のセットを取得するために、現在フレーム１１０と、現在フレーム１１０より前の信号とを使用して線形予測分析を実行する。たとえば、電子デバイス１０２は、ルックアヘッドバッファと、現在の音声フレーム１１０より前の音声信号１０６の少なくとも１つのサンプルを含んでいるバッファとを使用して、ＬＰＣ係数１２０を取得し得る。

電子デバイス１０２は、５０６において、量ＬＰＣ係数１２０のセットに基づいて量子化ＬＰＣ係数１１６のセットを決定する。たとえば、電子デバイス１０２は、５０６において、量子化ＬＰＣ係数１１６のセットを決定するために、ＬＰＣ係数１２０のセットを量子化する。

電子デバイス１０２は、５０８において、現在フレーム１１０と量子化ＬＰＣ係数１１６とに基づいて残差信号１１４を取得する。たとえば、電子デバイス１０２は、５０８において、フレーム１１０からＬＰＣ係数１１６（たとえば、ホルマント）の効果を削除して、残差信号１１４を取得する。

電子デバイス１０２は、５１０において、残差信号１１４に基づいてピークロケーションのセットを決定する。たとえば、電子デバイスは、ＬＰＣ残差信号１１４を探索して、ピークロケーションのセットを決定し得る。ピークロケーションは、たとえば、時間および／またはサンプル数に関して記述され得る。

一構成では、電子デバイス１０２は、５１０において、以下のようにピークロケーションのセットを決定する。電子デバイス１０２は、（ＬＰＣ）残差信号１１４と所定のウィンドウ信号とのサンプルの絶対値に基づいて包絡線信号を計算し得る。電子デバイス１０２は、次いで、包絡線信号と包絡線信号の時間シフトバージョンとの間の差に基づいて第１の勾配信号を計算し得る。電子デバイス１０２は、第１の勾配信号と第１の勾配信号の時間シフトバージョンとの間の差に基づいて第２の勾配信号を計算し得る。電子デバイス１０２は、次いで、第２の勾配信号値が所定の負しきい値を下回る第１のロケーションインデックスのセットを選択し得る。電子デバイス１０２はまた、包絡線値が包絡線中の最大値に対する所定のしきい値を下回るロケーションインデックスをなくすことによって、第１のロケーションインデックスのセットから第２のロケーションインデックスのセットを決定し得る。さらに、電子デバイス１０２は、近隣のロケーションインデックスに対する所定の差分しきい値でないロケーションインデックスをなくすことによって、第２のロケーションインデックスのセットから第３のロケーションインデックスのセットを決定し得る。ロケーションインデックス（たとえば、第１、第２および／または第３のセット）は、ピークの決定されたセットのロケーションに対応し得る。

電子デバイス１０２は、５１２において、ピークロケーションのセットに基づいてピッチラグ候補１３２のセットを取得する。たとえば、電子デバイス１０２は、順序付けされたピークロケーションのセットを生じるようにピークロケーションのセットを昇順に配列し得る。電子デバイス１０２は、次いで、順序付けされたピークロケーションのセット中の連続するピークロケーションペア間の距離を計算し得る。連続するピークロケーションペア間の距離は、ピッチラグ候補１３２のセットであり得る。

電子デバイス１０２は、５１４において、ピッチラグ候補１３２のセットに対応する信頼性尺度１３６のセットを決定する。一例では、信頼性尺度１３６のセットは、相関のセットであり得る。たとえば、電子デバイス１０２は、信号包絡線と、順序付けされたピークロケーションのセット中の連続するピークロケーションペアとに基づいて、ピッチラグ候補１３２のセットに対応する相関のセットを計算し得る。一構成では、電子デバイス１０２は、以下のように相関のセットを計算し得る。順序付けされたピークロケーションのセット中のピークロケーションの各ペアについて、電子デバイス１０２は、ピークロケーションのペア中の第１のピークロケーションの周りの所定の範囲に基づいて第１の信号バッファを選択し得る。電子デバイス１０２はまた、ピークロケーションのペア中の第２のピークロケーションの周りの所定の範囲に基づいて第２の信号バッファを選択し得る。次いで、電子デバイス１０２は、第１の信号バッファと第２の信号バッファとの間の正規化相互相関を計算し得る。この正規化相互相関は、信頼性尺度１３６または相関のセットに追加され得る。順序付けされたピークロケーションのセット中のピークロケーションの各ペアについて、このプロシージャが続き得る。

電子デバイス１０２は、５１６において、ピッチラグ候補１３２のセットに、現在フレーム１１０の（ＬＰＣ）残差信号１１４に基づいて計算された第１の近似ピッチラグ値を追加する。電子デバイス１０２はまた、５１８において、信頼性尺度１３６または相関のセットに、第１の近似ピッチラグ値に対応する第１のピッチ利得を追加する。

電子デバイス１０２は、５２０において、ピッチラグ候補１３２のセットに、前フレーム１１０の（ＬＰＣ）残差信号１１４に基づいて計算された第２の近似ピッチラグ値を追加する。電子デバイス１０２は、さらに、５２２において、信頼性尺度１３６または相関のセットに、第２の近似ピッチラグ値に対応する第２のピッチ利得を追加する。

一構成では、電子デバイス１０２は、以下のように第２の近似ピッチラグ値と対応する第２のピッチ利得値とを計算または推定し得る。電子デバイス１０２は、前フレーム１１０の（ＬＰＣ）残差信号１１４に基づいて自己相関値を推定し得る。電子デバイス１０２は、所定の範囲のロケーション内の自己相関値の最大値を求めて探索し得る。所定の範囲のロケーションは、たとえば、２０〜１４０であり得、これは、８キロヘルツ（ｋＨｚ）のサンプリングレートにおいて人間の音声に対するピッチラグの典型的な範囲である。電子デバイス１０２はまた、第２の近似ピッチラグ値を、最大値が生じるロケーションとして設定または決定し、および／あるいは第２のピッチ利得値を、ピッチラグにおける正規化自己相関として設定または決定し得る。

電子デバイス１０２は、５２４において、反復的プルーニングアルゴリズム１４０を使用してピッチラグ候補１３２のセットと信頼性尺度１３６のセットとに基づいてピッチラグを推定する。反復的プルーニングアルゴリズム１４０の一例では、電子デバイス１０２は、ピッチラグ候補１３２のセットと信頼性尺度１３６のセットとに基づいて加重平均を計算し得る。電子デバイス１０２は、ピッチラグ候補１３２のセットの中で、加重平均から最も遠いピッチラグ候補を決定し得る。電子デバイス１０２は、次いで、ピッチラグ候補１３２のセットから、加重平均から最も遠いピッチラグ候補を削除し得る。削除されたピッチラグ候補に対応する信頼性尺度は、信頼性尺度１３６のセットから削除され得る。このプロシージャは、残っているピッチラグ候補１３２の数が指定された数まで低減されるまで繰り返され得る。ピッチラグ１４２は、次いで、１つまたは複数の残りのピッチラグ候補１３２に基づいて決定され得る。たとえば、ただ１つしか残っていない場合、残っている最後のピッチラグ候補がピッチラグとして決定され得る。２つ以上のピッチラグ候補が残っている場合、電子デバイス１０２は、たとえば、ピッチラグ１４２を残りの候補の平均として決定し得る。

図５に示す方法５００を使用することは、特に、過渡フレーム、および従来のピッチラグ推定値があまり正確でないことがある他の種類のフレームにとって有益であり得る。ただし、図５に示す方法５００は、他のクラスまたは種類のフレーム（たとえば、模範的なボイスまたは音声フレーム）に適用され得る。いくつかの構成では、図５に示す方法５００は、いくつかの種類のフレーム（たとえば、過渡および／または多雑音フレームなど）に選択的に適用され得る。

図６は、反復的プルーニングアルゴリズム１４０を使用してピッチラグを推定するための方法６００の一構成を示す流れ図である。一構成では、プルーニングアルゴリズム１４０は、以下のように指定され得る。プルーニングアルゴリズム１４０は、ピッチラグ候補１３２のセット（｛ｄ_i｝として示される）と信頼性尺度（たとえば、相関）１３６のセット（｛ｃ_i｝として示される）とを使用し得る。ｉ＝１，．．．，Ｌであり、Ｌは、ピッチラグ候補の数であり、Ｌ＞Ｎである。Ｎは、プルーニング後に残されるべきピッチラグ候補の所望の数を表し得る指定された数である。一構成では、Ｎ＝１である。

電子デバイス１０２は、６０２において、ピッチラグ候補１３２のセット｛ｄ_i｝と信頼性尺度（たとえば、相関）１３６のセット｛ｃ_i｝とに基づいて、加重平均（Ｍ_wとして示される）を計算する。これは、式（１）に示すように、Ｌ個の候補について行われ得る。

電子デバイス１０２は、６０４において、ピッチラグ候補１３２のセットの中で、加重平均から最も遠いピッチラグ候補（ｄ_kとして示される）を決定する。たとえば、電子デバイス１０２は、ｄ_kについての平均からの距離が他のピッチラグ候補のすべてについての平均からの距離よりも長くなるようなｄ_kを見つけ得る。このプロシージャの一例を式（２）に示す。

電子デバイス１０２は、ピッチラグ候補１３２のセット｛ｄ_i｝から、加重平均から最も遠いピッチラグ候補ｄ_kを削除する６０６（たとえば、プルーニングする）。電子デバイスは、６０８において、信頼性尺度（たとえば、相関）１３６のセット｛ｃ_i｝から、加重平均から最も遠いピッチラグ候補に対応する信頼性尺度（たとえば、相関）ｃ_kを削除する。残りのピッチラグ候補の数（たとえば、値Ｌ）は、（たとえば、ピッチラグ候補がそれのセット１３２から削除される６０６とき、および／または信頼性尺度がそれのセット１３６から削除されるとき）１だけ低減され得る。たとえば、Ｌ＝Ｌ−１となる。

電子デバイス１０２は、６１０において、残りのピッチラグ候補の数（たとえば、Ｌ）が指定された数（たとえば、Ｎ）に等しいかどうかを判定する。たとえば、電子デバイス１０２は、指定された数に等しい、１つまたは複数のピッチラグ候補が残っている（たとえば、Ｌ＝Ｎ＝１）かどうかを判定し得る。指定された数よりも多くピッチラグ候補が残っていた場合、電子デバイス１０２は、加重平均から最も遠い候補を発見し、削除するために、加重平均を計算する６０２ことに戻る。言い換えれば、方法６００中の最初の４つのステップ６０２、６０４、６０６、６０８は、残りのピッチラグ候補の数が指定された数まで低減されるまで反復または繰り返され得る。

残りの候補の数（たとえば、Ｌ）が指定された数（たとえば、Ｎ）に等しい場合、電子デバイス１０２は、６１２において、（ピッチラグ候補１３２のセット中の）１つまたは複数の残りのピッチラグ候補に基づいてピッチラグを決定する。指定された数（たとえば、Ｎ）が１であった場合、６１２において、たとえば、最後に残ったピッチラグ候補をピッチラグ１４２として決定する。別の例では、指定された数（たとえば、Ｎ）が１よりも大きい場合、電子デバイス１０２は、ピッチラグ１４２を、残りのピッチラグ候補の平均（たとえば、セット｛ｄ_i｝中のＮ個の残りのピッチラグ候補の平均）として決定６１２する。

図７は、ピッチラグを推定するためのシステムおよび方法が実装され得るエンコーダ７０４の一構成を示すブロック図である。エンコーダ７０４の一例は線形予測コーディング（ＬＰＣ）エンコーダである。エンコーダ７０４は、電子デバイスによって音声信号７０６を符号化するために使用され得る。たとえば、エンコーダ７０４は、パラメータのセットを推定または生成することによって音声信号７０６を「圧縮された」フォーマットに符号化する。一構成では、そのようなパラメータは、ピッチラグ７４２（推定値）、１つまたは複数の量子化利得７５８および／または量子化ＬＰＣ係数７１６を含み得る。これらのパラメータは、音声信号７０６を合成するために使用され得る。

エンコーダ７０４は、本明細書で開示するシステムおよび方法に従ってピッチラグを推定するために使用され得る１つまたは複数のブロック／モジュールを含み得る。一構成では、これらのブロック／モジュールは、ピッチ推定ブロック／モジュール７２６と呼ばれることがある。ピッチ推定ブロック／モジュール７２６が様々な方法で実装され得ることに留意されたい。たとえば、ピッチ推定ブロック／モジュール７２６は、ピーク探索ブロック／モジュール７２８、信頼性測定ブロック／モジュール７３４および／またはピッチラグ決定ブロック／モジュール７３８を備え得る。他の構成では、ピッチ推定ブロック／モジュール７２６は、これらのブロック／モジュール７２８、７３４、７３８のうちの１つまたは複数を省略するか、またはそれら７２８、７３４、７３８のうちの１つまたは複数を他のブロック／モジュールと置き換え得る。追加または代替として、ピッチ推定ブロック／モジュール７２６は、線形予測コーディング（ＬＰＣ）分析ブロック／モジュール７２２など、他のブロック／モジュールを含むものとして定義され得る。

図７に示す例では、エンコーダ７０４は、ピーク探索ブロック／モジュール７２８と、信頼性測定ブロック／モジュール７３４と、ピッチラグ決定ブロック／モジュール７３８とを含む。ただし、ピーク探索ブロック／モジュール７２８および／または信頼性測定ブロック／モジュール７３４は、随意であり得、１つまたは複数のピッチ（たとえば、ピッチラグ）候補７３２および／または信頼性測定値７３６を決定する１つまたは複数の他のブロック／モジュールと置き換えられ得る。

図７に示すように、ピッチラグ決定ブロック／モジュール７３８は、反復的プルーニングアルゴリズム７４０を使用し得る。ただし、反復的プルーニングアルゴリズム７４０は、随意であり得、本明細書で開示するシステムおよび方法のいくつかの構成では省略され得る。言い換えれば、ピッチラグ決定ブロック／モジュール７３８は、いくつかの構成では反復的プルーニングアルゴリズム７４０を使用せずにピッチラグを決定し得、たとえば、ピッチラグ７４２を決定するための平滑化または平均化アルゴリズムなど、何らかの他の手法またはアルゴリズムを使用し得る。

音声信号７０６は、（たとえば、電子デバイスによって）取得され得る。音声信号７０６はフレーミングブロック／モジュール７０８に与えられ得る。フレーミングブロック／モジュール７０８は、音声信号７０６を１つまたは複数のフレーム７１０にセグメント化し得る。たとえば、フレーム７１０は、特定の数の音声信号７０６サンプルを含み、および／または音声信号７０６のある時間量（たとえば、１０〜２０ミリ秒）を含み得る。音声信号７０６がフレーム７１０にセグメント化されるとき、フレーム７１０は、それらが含んでいる信号に従って分類され得る。たとえば、フレーム７１０は、有声フレーム、無声フレーム、無音フレームまたは過渡フレームであり得る。本明細書で開示するシステムおよび方法は、フレーム７１０（たとえば、過渡フレーム、有声フレームなど）中のピッチラグを推定するために使用され得る。

過渡フレームは、たとえば、ある音声クラスと別の音声クラスとの間の境界上に位置し得る。たとえば、音声信号７０６は、無声音（たとえば、ｆ、ｓ、ｓｈ、ｔｈなど）から有声音（たとえば、ａ、ｅ、ｉ、ｏ、ｕなど）に遷移し得る。いくつかの過渡タイプは、（たとえば、音声信号７０６の無声部分から有声部分に遷移するときの）アップ過渡、破裂音、有声過渡（たとえば、線形予測コーディング（ＬＰＣ）変更およびピッチラグ変動）、ならびに（たとえば、単語の末尾など、音声信号７０６の有声部分から無声または無音部分に遷移するときの）ダウン過渡を含む。２つの音声クラスの中間のフレーム７１０は過渡フレームであり得る。従来の手法は、過渡フレームにおいて正確なピッチラグ推定値を与えないことがあるので、本明細書で開示するシステムおよび方法は過渡フレームに有利に適用され得る。ただし、本明細書で開示するシステムおよび方法は、他の種類のフレームに適用され得ることに留意されたい。

エンコーダ７０４は、フレーム７１０に対して線形予測分析（たとえば、ＬＰＣ分析）を実行するための線形予測コーディング（ＬＰＣ）分析ブロック／モジュール７２２を使用し得る。ＬＰＣ分析ブロック／モジュール７２２は、追加または代替として、他のフレーム７１０からの（たとえば、前フレーム７１０からの）信号（たとえば、１つまたは複数のサンプル）を使用し得ることに留意されたい。ＬＰＣ分析ブロック／モジュール７２２は１つまたは複数のＬＰＣ係数７２０を生成し得る。ＬＰＣ係数７２０は、量子化ブロック／モジュール７１８および／またはＬＰＣ合成ブロック／モジュール７９８に与えられ得る。

量子化ブロック／モジュール７１８は１つまたは複数の量子化ＬＰＣ係数７１６を生成し得る。量子化ＬＰＣ係数７１６は、スケールファクタ決定ブロック／モジュール７５２に与えられ得、および／またはエンコーダ７０４から出力され得る。量子化ＬＰＣ係数７１６と、１つまたは複数のフレーム７１０からの１つまたは複数のサンプルとは、残差信号７１４を決定するために使用され得る、残差決定ブロック／モジュール７１２に与えられ得る。たとえば、残差信号７１４は、（残差決定ブロック／モジュール７１２によって）音声信号７０６から除去されたホルマントまたはホルマントの影響（たとえば、量子化係数係数７１６）を有していた音声信号７０６のフレーム７１０を含み得る。残差信号７１４は正規化ブロック／モジュール７９４に与えられ得る。

正規化ブロック／モジュール７９４は残差信号７１４を正規化し、その結果、修正（たとえば、正規化）残差信号７９６が生じ得る。正規化の一例は、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, 70, and 73 for Wideband Spread Spectrum Digital Systems」と題する３ＧＰＰ２文書Ｃ．Ｓ００１４Ｄのセクション４．１１．６に詳細に記載されている。基本的に、正規化は、現在フレーム中のピッチパルスを動き回って、ピッチパルスを、スムーズに展開するピッチ輪郭と揃え得る。修正残差信号７９６は、ピーク探索ブロック／モジュール７２８および／またはＬＰＣ合成ブロック／モジュール７９８に与えられ得る。ＬＰＣ合成ブロック／モジュール７９８は修正音声信号７０１を生成（たとえば、合成）し得、修正音声信号７０１はスケールファクタ決定ブロック／モジュール７５２に与えられ得る。

ピーク探索ブロック／モジュール７２８は修正残差信号７９６中のピークを探索し得る。言い換えれば、エンコーダ７０４は、修正残差信号７９６中のピーク（たとえば、高いエネルギーの領域）を探索し得る。これらのピークは識別されて、ピークロケーション７０７のセットが取得され得る。ピークロケーション７０７のセット中のピークロケーションは、たとえば、サンプル数および／または時間に関して指定され得る。いくつかの構成では、ピーク探索ブロック／モジュールは、スケールファクタ決定ブロック／モジュール７５２および／またはピークマッピングブロック／モジュール７０３などの１つまたは複数のブロック／モジュールにピークロケーション７０７のセットを与え得る。ピークロケーション７０７のセットは、たとえば、修正残差信号７９６中の「実際の」ピークのロケーションを表し得る。

ピーク探索ブロック／モジュール７２８は、候補決定ブロック／モジュール７３０を含み得る。候補決定ブロック／モジュール７３０は、１つまたは複数の候補ピッチラグ７３２を決定するために、ピークのセットを使用し得る。「ピッチラグ」は、フレーム７１０中の２つの連続するピッチスパイク間の「距離」であり得る。ピッチラグは、たとえば、サンプル数および／または時間量において指定され得る。一構成では、ピーク探索ブロック／モジュール７２８は、ピッチラグ候補７３２を決定するために、ピーク間の距離を決定し得る。これは、（たとえば、時間的におよび／またはサンプル数的に）２つのピークロケーションの差の差を取ることによって行われ得る。

ピーク探索ブロック／モジュール７２８は、相関手法を使用してピッチラグ候補７３２のセットを取得し得る。たとえば、候補ピッチラグ７３２のセットは、候補決定ブロック／モジュール７３０によって最初に決定され得る。次いで、候補ピッチラグのセットに対応する信頼性尺度７３６のセットは、ピッチラグ候補７３２のセットに基づいて信頼性測定ブロック／モジュール７３４によって決定され得る。より詳細には、ピッチラグ候補７３２の各々について、第１のセットは、ピッチラグ候補７３２のセットであり得、第２のセットは、信頼性尺度７３６のセットであり得る。したがって、たとえば、第１の信頼性尺度または値は、第１のピッチラグ候補などに対応し得る。したがって、ピッチラグ候補７３２のセットと信頼性尺度７３６のセットとが「構築される」か、または決定され得る。信頼性尺度７３６のセットは、推定ピッチラグ７４２の精度を改善するために使用され得る。一構成では、信頼性尺度７３６のセットは相関のセットであり得、各値は、（基本的には）ピッチラグ候補に対応するピッチラグにおける相関であり得る。言い換えれば、各特定のピッチラグについての相関係数は、ピッチラグ候補７３２の距離の各々についての信頼性尺度を構成し得る。

いくつかの構成では、ピーク探索ブロック／モジュール７２８は、ピッチラグ候補７３２のセットに、現在フレーム７１０の修正残差信号７９６に基づいて計算された第１の近似ピッチラグ値を追加し得る。信頼性測定ブロック／モジュール７３４はまた、信頼性尺度７３６または相関のセットに、第１の近似ピッチラグ値に対応する第１のピッチ利得を追加し得る。

一例では、ピーク探索ブロック／モジュール７２８は、以下のように第１の近似ピッチラグ値を計算または推定し得る。自己相関値は、現在フレーム７１０の修正残差信号７９６に基づいて推定され得る。ピーク探索ブロック／モジュール７２８は、所定の範囲のロケーション内の自己相関値の最大値を求めて探索し得る。ピーク探索ブロック／モジュール７２８はまた、第１の近似ピッチラグ値を、最大値が生じるロケーションとして設定または決定し得る。第１の近似ラグは、自己相関関数における最大値に基づき得る。第１の近似ピッチラグ値は、ピッチラグ候補としてピッチラグ候補７３２のセットに追加され得、および／またはピークロケーションとしてピークロケーション７０７のセットに追加され得る。信頼性測定ブロック／モジュール７３４は、第１のピッチ利得値（たとえば、信頼性尺度）を、ピッチラグにおける正規化自己相関として設定または決定し得る。これは、ピーク探索ブロック／モジュール７２８によって与えられる第１の近似ピッチラグ値に基づいて行われ得る。第１のピッチ利得値（たとえば、信頼性尺度）は、信頼性尺度７３６のセットに追加され得る。

いくつかの構成では、ピーク探索ブロック／モジュール７２８は、ピッチラグ候補７３２のセットに、前フレーム７１０の修正残差信号７９６に基づいて計算された第２の近似ピッチラグ値を追加し得る。信頼性測定ブロック／モジュール７３４は、さらに、信頼性尺度７３６または相関のセットに、第２の近似ピッチラグ値に対応する第２のピッチ利得を追加し得る。

一例では、ピーク探索ブロック／モジュール７２８は、以下のように第２の近似ピッチラグ値を計算または推定し得る。自己相関値は、前フレーム７１０の修正残差信号７９６に基づいて推定され得る。ピーク探索ブロック／モジュール７２８は、所定の範囲のロケーション内の自己相関値の最大値を求めて探索し得る。ピーク探索ブロック／モジュール７２８はまた、第２の近似ピッチラグ値を、最大値が生じるロケーションとして設定または決定し得る。第２の近似ピッチラグ値は、前フレームからのピッチラグ値であり得る。第２の近似ピッチラグ値は、ピッチラグ候補としてピッチラグ候補７３２のセットに追加され得、および／またはピークロケーションとしてピークロケーション７０７のセットに追加され得る。信頼性測定ブロック／モジュール７３４は、第２のピッチ利得値（たとえば、信頼性尺度）を、ピッチラグにおける正規化自己相関として設定または決定し得る。これは、ピーク探索ブロック／モジュール７２８によって与えられる第２の近似ピッチラグ値に基づいて行われ得る。第２のピッチ利得値（たとえば、信頼性尺度）は、信頼性尺度７３６のセットに追加され得る。

ピッチラグ候補７３２のセットおよび／または信頼性尺度７３６のセットは、ピッチラグ決定ブロック／モジュール７３８に与えられ得る。ピッチラグ決定ブロック／モジュール７３８は、１つまたは複数のピッチラグ候補７３２に基づいてピッチラグ７４２を決定し得る。いくつかの構成では、ピッチラグ決定ブロック／モジュール７３８は、（１つまたは複数のピッチラグ候補７３２に加えて）１つまたは複数の信頼性尺度７３６に基づいてピッチラグ７４２を決定し得る。たとえば、ピッチラグ決定ブロック／モジュール７３８は、ピッチラグ値のうちの１つを選択するために反復的プルーニングアルゴリズム７４０を使用し得る。反復的プルーニングアルゴリズム７４０に関するさらなる詳細を上記で与えた。選択されたピッチラグ７４２値は、「真の」ピッチラグの推定値であり得る。

他の構成では、ピッチラグ決定ブロック／モジュール７３８は、ピッチラグ７４２を決定するために何らかの他の手法を使用し得る。たとえば、ピッチラグ決定ブロック／モジュール７３８は、反復的プルーニングアルゴリズム７４０の代わりに、あるいはそれに加えて平均化または平滑化アルゴリズムを使用し得る。

ピッチラグ決定ブロック／モジュール７３８によって決定されたピッチラグ７４２は、励起合成ブロック／モジュール７４８とスケールファクタ決定ブロック／モジュール７５２とに与えられ得る。前フレーム７１０からの修正残差信号７９６は、励起合成ブロック／モジュール７４８に与えられ得る。追加または代替として、波形７４６は、プロトタイプ波形生成ブロック／モジュール７４４によって励起合成ブロック／モジュール７４８に与えられ得る。一構成では、プロトタイプ波形生成ブロック／モジュール７４４は、ピッチラグ７４２に基づいて波形７４６を生成し得る。励起合成ブロック／モジュール７４８は、ピッチラグ７４２、（前フレームの）修正残差７９６および／または波形７４６に基づいて励起７５０を生成または合成し得る。合成励起７５０は、合成励起中のピークのロケーションを含み得る。

一構成では、プロトタイプ波形生成ブロック／モジュール７４４および／または励起合成ブロック／モジュール７４８は、式（３）〜式（５）に従って動作し得る。たとえば、プロトタイプ波形生成ブロック／モジュール７４４は、長さがＰ_L（たとえば、ピッチラグ７４２の長さ）の１つまたは複数のプロトタイプ波形７４６を生成し得る。

式（３）において、ｍａｇは大きさ係数であり、Ｐ_Lはピッチ（たとえば、ピッチラグ推定値７４２）であり、

であり、

であり、ｉはインデックスまたはサンプル番号である。

式（４）において、ｐｈｉは、位相係数である。大きさ係数と位相係数とは、プロトタイプ波形７４６を生成するために設定され得る。

式（５）において、ω（ｋ）はプロトタイプ波形（たとえば、プロトタイプ波形７４６）であり、ａ（ｊ）＝ｍａｇ［ｊ］×ｃｏｓ（ｐｈｉ［ｊ］）であり、ｂ（ｊ）＝ｍａｇ［ｊ］×ｓｉｎ（ｐｈｉ［ｊ］）であり、ｋはセグメント番号である。

合成励起（たとえば、合成励起ピークロケーション）７５０は、ピークマッピングブロック／モジュール７０３に、および／またはスケールファクタ決定ブロック／モジュール７５２に与えられ得る。ピークマッピングブロック／モジュール７０３は、ピークロケーション７０７のセット（修正残差信号７９６からの「真の」ピークのロケーションのセットであり得る）と、合成励起７５０（たとえば、合成励起７５０中のピークのロケーション）とを使用して、マッピング７０５を生成し得る。マッピング７０５はスケールファクタ決定ブロック／モジュール７５２に与えられ得る。

マッピング７０５、ピッチラグ７４２、量子化ＬＰＣ係数７１６および／または修正音声信号７０１は、スケールファクタ決定ブロック／モジュール７５２に与えられ得る。スケールファクタ決定ブロック／モジュール７５２は、マッピング７０５、ピッチラグ７４２、量子化ＬＰＣ係数７１６および／または修正音声信号７０１に基づいて利得７５４のセットを生成し得る。利得７５４のセットは利得量子化ブロック／モジュール７５６に与えられ得、利得量子化ブロック／モジュール７５６は、利得７５４のセットを量子化して量子化利得７５８のセットを生成する。

ピッチラグ７４２、量子化ＬＰＣ係数７１６および／または量子化利得７５８は、エンコーダ７０４から出力され得る。合成音声信号を復号するおよび／または生成するために、これらのいくつかの情報７４２、７１６、７５８のうちの１つまたは複数が使用され得る。たとえば、電子デバイスは、音声信号を復号または合成するために、情報７４２、７１６、７５８の一部または全部を送信、記憶、および／または使用し得る。たとえば、情報７４２、７１６、７５８は、送信機に与えられ得、その送信機において、情報７４２、７１６、７５８は、別のデバイスに送信するためにフォーマット（たとえば、符号化、変調など）され得る。別の例では、情報７４２、７１６、７５８は、後で取り出すおよび／または復号するために記憶され得る。情報７４２、７１６、７５８の一部または全部に基づく合成音声信号は、（エンコーダ７０４と同じデバイス上の、および／または異なるデバイス上の）スピーカーを使用して出力され得る。

一構成では、ピッチラグ７４２、量子化ＬＰＣ係数７１６および／または量子化利得７５８のうちの１つまたは複数は、別のデバイスに送信するためにフォーマット（たとえば、符号化）され得る。たとえば、情報７４２、７１６、７５８の一部または全部は、いくつかのビットを使用して対応するパラメータに符号化され得る。「符号化モードインジケータ」は、使用され得る他の符号化モードを示し得る随意のパラメータであり得、他の符号化モードについては、以下の図１０および図１１に関してより詳細に説明する。

図８は、デコーダ８０９の一構成を示すブロック図である。デコーダ８０９は、励起合成ブロック／モジュール８１７および／またはピッチ同期利得スケーリングおよびＬＰＣ合成ブロック／モジュール８２３を含み得る。一構成では、デコーダ８０９は、エンコーダ７０４と同じ電子デバイス上に位置し得る。別の構成では、デコーダ８０９は、エンコーダ７０４が位置する電子デバイスとは異なる電子デバイス上に位置し得る。

デコーダ８０９は、合成音声信号８２７を生成するために使用され得る１つまたは複数のパラメータを取得または受信し得る。たとえば、デコーダ８０９は、１つまたは複数の利得８２１、前フレーム残差信号８１３、ピッチラグ８１５および／または１つまたは複数のＬＰＣ係数８２５を取得し得る。

前フレーム残差８１３は、励起合成ブロック／モジュール８１７に与えられ得る。前フレーム残差８１３は、前に復号されたフレームから導出され得る。ピッチラグ８１５は、同じく、励起合成ブロック／モジュール８１７に与えられ得る。励起合成ブロック／モジュール８１７は励起８１９を合成し得る。たとえば、励起合成ブロック／モジュール８１７は、前フレーム残差８１３および／またはピッチラグ８１５に基づいて過渡励起８１９を合成し得る。

合成励起８１９、１つまたは複数の（量子化）利得８２１および／あるいは１つまたは複数のＬＰＣ係数８２５は、ピッチ同期利得スケーリングおよびＬＰＣ合成ブロック／モジュール８２３に与えられ得る。ピッチ同期利得スケーリングおよびＬＰＣ合成ブロック／モジュール８２３は、合成励起８１９、１つまたは複数の（量子化）利得８２１および／または１つまたは複数のＬＰＣ係数８２５に基づいて合成音声信号８２７を生成し得る。合成音声信号８２７は、デコーダ８０９から出力され得る。たとえば、合成音声信号８２７は、メモリに記憶されるか、またはスピーカーを使用して出力され得る（たとえば、音響信号に変換され得る）。

図９は、音声信号を復号するための方法９００の一構成を示す流れ図である。電子デバイスは、９０２において、１つまたは複数のパラメータを取得する。たとえば、電子デバイスは、メモリから１つまたは複数のパラメータを取り出し得、および／あるいは別のデバイスから１つまたは複数のパラメータを受信し得る。たとえば、電子デバイスは、ピッチラグパラメータ、（１つまたは複数の利得を表す）利得パラメータ、および／または（ＬＰＣ係数８２５を表す）ＬＰＣパラメータを受信し得る。追加または代替として、電子デバイスは、９０２において、前フレーム残差信号８１３を取得する。

電子デバイスは、９０４において、ピッチラグパラメータに基づいてピッチラグ８１５を決定する。たとえば、ピッチラグパラメータは７ビットを用いて表され得る。電子デバイスは、９０４において、これらのビットを使用して、励起８１９を合成するために使用され得るピッチラグ８１５を決定する。電子デバイスは、９０６において、励起信号８１９を合成する。電子デバイスは、９０８において、１つまたは複数の利得８２１（たとえば、スケーリングファクタ）に基づいて励振信号８１９をスケーリングして、スケーリングされた励振信号を生成する。たとえば、電子デバイスは、１つまたは複数の利得８２１に基づいて励振信号８１９を増幅および／または減衰させ得る。

電子デバイスは、９１０において、ＬＰＣパラメータに基づいて１つまたは複数のＬＰＣ係数８２５を決定する。たとえば、ＬＰＣパラメータは、１８ビットを用いてＬＰＣ係数（たとえば、線スペクトル周波数（ＬＳＦ）、線スペクトル対（ＬＳＰ：line spectral pair））を表し得る。電子デバイスは、９１０において、１８ビットに基づいて、たとえば、１８ビットを復号することによってＬＰＣ係数８２５を決定する。電子デバイスは、９１２において、スケーリングされた励振信号８１９とＬＰＣ係数８２５とに基づいて合成音声信号８２７を生成する。

図１０は、ピッチラグを推定するためのシステムおよび方法が実装され得る電子デバイス１００２の一例を示すブロック図である。この例では、電子デバイス１００２は、前処理および雑音抑圧ブロック／モジュール１０３１、モデルパラメータ推定ブロック／モジュール１０３５、レート決定ブロック／モジュール１０３３、第１のスイッチングブロック／モジュール１０３７、無音エンコーダ１０３９、雑音励起線形予測（ＮＥＬＰ：noise excited（またはexcitation）linear predictive（またはprediction））エンコーダ１０４１、過渡エンコーダ１０４３、１／４レートプロトタイプピッチ周期（ＱＰＰＰ）エンコーダ１０４５、第２のスイッチングブロック／モジュール１０４７およびパケットフォーマッティングブロック／モジュール１０４９を含む。

前処理および雑音抑圧ブロック／モジュール１０３１は、音声信号１００６を取得または受信し得る。一構成では、前処理および雑音抑圧ブロック／モジュール１０３１は、音声信号１００６中の雑音を抑圧する、および／またはフィルタリングなど、音声信号１００６上で他の処理を実行し得る。得られた出力信号は、モデルパラメータ推定ブロック／モジュール１０３５に与えられる。

モデルパラメータ推定ブロック／モジュール１０３５は、線形予測分析を通してＬＰＣ係数を推定し、第１の近似ピッチラグを推定し、第１の近似ピッチラグにおける自己相関を推定し得る。レート決定ブロック／モジュール１０３３は、音声信号１００６を符号化するためのコーディングレートを決定し得る。コーディングレートは、（符号化された）音声信号１００６を復号する際に使用するためのデコーダに与えられ得る。

電子デバイス１００２は、音声信号１００６を符号化するためにどのエンコーダを使用すべきかを決定し得る。時々、音声信号１００６は、実際の音声を常に含んでいるとは限らないが、たとえば、無音および／または雑音を含み得ることに留意されたい。一構成では、電子デバイス１００２は、モデルパラメータ推定１０３５に基づいてどのエンコーダを使用すべきかを決定し得る。たとえば、電子デバイス１００２が、音声信号１００６中に無音を検出した場合、電子デバイス１００２は、第１のスイッチングブロック／モジュール１０３７を使用して、無音エンコーダ１０３９を通して（無音）音声信号をチャネリングし得る。第１のスイッチングブロック／モジュール１０３７は、モデルパラメータ推定１０３５に基づいて、ＮＥＬＰエンコーダ１０４１、過渡エンコーダ１０４３またはＱＰＰＰエンコーダ１０４５によって符号化するための音声信号１００６を切り替えるために同様に使用され得る。

無音エンコーダ１０３９は、無音を符号化するか、またはそれを１つまたは複数の情報を用いて表し得る。たとえば、無音エンコーダ１０３９は、音声信号１００６中の無音の長さを表すパラメータを生成し得る。

「雑音励起線形予測」（ＮＥＬＰ）エンコーダ１０４１は、無声音声として分類されたフレームをコーディングするために使用され得る。ＮＥＬＰコーディングは信号再生の点で効果的に動作し、音声信号１００６は、ほとんどまたはまったくピッチ構造を有しない。より詳細には、ＮＥＬＰは、無声音声または背景雑音など、性質が雑音様である音声を符号化するために使用され得る。ＮＥＬＰは、無声音声をモデル化するために、フィルタ処理された擬似ランダム雑音信号を使用する。そのような音声セグメントの雑音様の特質は、デコーダにおいてランダム信号を生成し、それらに適切な利得を適用することによって再構成され得る。ＮＥＬＰは、コード化音声のために単純なモデルを使用し、それにより、より低いビットレートを達成し得る。

過渡エンコーダ１０４３は、本明細書で開示するシステムおよび方法に従って音声信号１００６中の過渡フレームを符号化するために使用され得る。たとえば、上記で図１および図７に関して説明したエンコーダ１０４、７０４は、過渡エンコーダ１０４３として使用され得る。したがって、たとえば、過渡フレームが検出されたとき、電子デバイス１００２は、過渡エンコーダ１０４３を使用して音声信号１００６を符号化し得る。

１／４レートプロトタイプピッチ周期（ＱＰＰＰ）エンコーダ１０４５は、有声音声として分類されたフレームをコーディングするために使用され得る。有声音声は、ＱＰＰＰエンコーダ１０４５によって利用される緩やかに時間変動する周期成分を含んでいる。ＱＰＰＰエンコーダ１０４５は、各フレーム内のピッチ周期のサブセットをコーディングする。音声信号１００６の残りの周期は、これらのプロトタイプ周期間を補間することによって再構成される。有声音声の周期性を利用することによって、ＱＰＰＰエンコーダ１０４５は、知覚的に正確な形で音声信号１００６を再生することが可能である。

ＱＰＰＰエンコーダ１０４５は、本質的に周期的なものである音声データを符号化するために使用され得るプロトタイプピッチ周期波形補間（ＰＰＰＷＩ：Prototype Pitch Period Waveform Interpolation）を使用し得る。そのような音声は、「プロトタイプ」ピッチ周期（ＰＰＰ）と同様のものである様々なピッチ周期によって特徴づけられる。このＰＰＰは、ＱＰＰＰエンコーダ１０４５が符号化するために使用するボイス情報であり得る。デコーダは、このＰＰＰを使用して、音声セグメント中の他のピッチ周期を再構成することができる。

第２のスイッチングブロック／モジュール１０４７は、現在使用されているエンコーダ１０３９、１０４１、１０４３、１０４５からパケットフォーマッティングブロック／モジュール１０４９に（符号化された）音声信号をチャネリングするために使用され得る。パケットフォーマッティングブロック／モジュール１０４９は、（たとえば、送信するために）（符号化された）音声信号１００６を１つまたは複数のパケットにフォーマットし得る。たとえば、パケットフォーマッティングブロック／モジュール１０４９は、過渡フレームのためのパケットをフォーマットし得る。一構成では、パケットフォーマッティングブロック／モジュール１０４９によって生成された１つまたは複数のパケットは、別のデバイスに送信され得る。

図１１は、音声信号を復号するためのシステムおよび方法が実装され得る電子デバイス１１００の一例を示すブロック図である。この例では、電子デバイス１１００は、フレーム／ビット誤り検出器１１５１と、逆パケット化（de-packetization）ブロック／モジュール１１５３と、第１のスイッチングブロック／モジュール１１５５と、無音デコーダ１１５７と、雑音励起線形予測（ＮＥＬＰ）デコーダ１１５９と、過渡デコーダ１１６１と、１／４レートプロトタイプピッチ周期（ＱＰＰＰ）デコーダ１１６３と、第２のスイッチングブロック／モジュール１１６５と、ポストフィルタ１１６７とを含む。

電子デバイス１１００はパケット１１７１を受信し得る。パケット１１７１は、フレーム／ビット誤り検出器１１５１と逆パケット化ブロック／モジュール１１５３とに与えられ得る。逆パケット化ブロック／モジュール１１５３は、パケット１１７１からの情報を「アンパック」し得る。たとえば、パケット１１７１は、ペイロードデータに加えて、ヘッダ情報、誤り訂正情報、ルーティング情報および／または他の情報を含み得る。逆パケット化ブロック／モジュール１１５３は、パケット１１７１からペイロードデータを抽出し得る。ペイロードデータは、第１のスイッチングブロック／モジュール１１５５に与えられ得る。

フレーム／ビット誤り検出器１１５１は、パケット１１７１の一部または全部が間違って受信されたかどうかを検出し得る。たとえば、フレーム／ビット誤差検出器１１５１は、（パケット１１７１とともに送られる）誤差検出符号を使用して、パケット１１７１のいずれかが間違って受信されたかどうかを判定し得る。いくつかの構成では、電子デバイス１１００は、フレーム／ビット誤り検出器１１５１出力によって示され得る、パケット１１７１の一部または全部が間違って受信されたかどうかに基づいて、第１のスイッチングブロック／モジュール１１５５および／または第２のスイッチングブロック／モジュール１１６５を制御し得る。

追加または代替として、パケット１１７１は、ペイロードデータを復号するためにどのタイプのデコーダを使用すべきかを示す情報を含み得る。たとえば、符号化電子デバイス１００２は、符号化モードを示す２ビットを送り得る。（復号）電子デバイス１１００は、この指示を、第１のスイッチングブロック／モジュール１１５５と第２のスイッチングブロック／モジュール１１６５とを制御するために使用し得る。

したがって、電子デバイス１１００は、パケット１１７１からペイロードデータを復号するために、無音デコーダ１１５７、ＮＥＬＰデコーダ１１５９、過渡デコーダ１１６１またはＱＰＰＰデコーダ１１６３を使用し得る。復号データは、次いで、第２のスイッチングブロック／モジュール１１６５に与えら得、第２のスイッチングブロック／モジュール１１６５は、復号データをポストフィルタ１１６７にルーティングし得る。ポストフィルタ１１６７は、復号データに対していくつかのフィルタリングを実行し、合成音声信号１１６９を出力し得る。

一例では、パケット１１７１は、ペイロードデータを符号化するために無音エンコーダ１０３９が使用されたことを（符号化モードインジケータを用いて）示し得る。電子デバイス１１００は、ペイロードデータを無音デコーダ１１５７にルーティングするように第１のスイッチングブロック／モジュール１１５５を制御し得る。復号（無音）ペイロードデータは、次いで、第２のスイッチングブロック／モジュール１１６５に与えられ得、第２のスイッチングブロック／モジュール１１６５は、復号ペイロードデータをポストフィルタ１１６７にルーティングし得る。別の例では、ＮＥＬＰデコーダ１１５９は、ＮＥＬＰエンコーダ１０４１によって符号化された音声信号（たとえば、無声音声信号）を復号するために使用され得る。

さらに別の例では、パケット１１７１は、ペイロードデータが過渡エンコーダ１０４３を使用して（たとえば、符号化モードインジケータを使用して）符号化されたことを示し得る。したがって、電子デバイス１１００は、第１のスイッチングブロック／モジュール１１５５を使用してペイロードデータを過渡デコーダ１１６１にルーティングし得る。過渡デコーダ１１６１は、上記で説明したようにペイロードデータを復号し得る。別の例では、ＱＰＰＰデコーダ１１６３は、ＱＰＰＰエンコーダ１０４５によって符号化された音声信号（たとえば、有声音声信号）を復号するために使用され得る。

復号データは、第２のスイッチングブロック／モジュール１１６５に与えられ得、第２のスイッチングブロック／モジュール１１６５は、それをポストフィルタ１１６７にルーティングし得る。ポストフィルタ１１６７は、信号に対していくつかのフィルタリングを実行し得、その信号は合成音声信号１１６９として出力され得る。合成音声信号１１６９は、次いで、記憶、（たとえば、スピーカーを使用して）出力、および／または別のデバイス（たとえば、Ｂｌｕｅｔｏｏｔｈヘッドセット）に送信され得る。

図１２は、ピッチ同期利得スケーリングおよびＬＰＣ合成ブロック／モジュール１２２３の一構成を示すブロック図である。図１２に示すピッチ同期利得スケーリングおよびＬＰＣ合成ブロック／モジュール１２２３は、図８に示すピッチ同期利得スケーリングおよびＬＰＣ合成ブロック／モジュール８２３の一例であり得る。図１２に示したように、ピッチ同期利得スケーリングおよびＬＰＣ合成ブロック／モジュール１２２３は、１つまたは複数のＬＰＣ合成ブロック／モジュール１２７７ａ〜ｃ、１つまたは複数のスケールファクタ決定ブロック／モジュール１２７９ａ〜ｂおよび／あるいは１つまたは複数の乗算器１２８１ａ〜ｂを含み得る。

ＬＰＣ合成ブロック／モジュールＡ１２７７ａは、（たとえば、単一のピッチサイクルのための）スケーリングされてない励起１２１９を取得または受信し得る。最初に、ＬＰＣ合成ブロック／モジュールＡ１２７７ａはまた、ゼロメモリ１２７５を使用し得る。ＬＰＣ合成ブロック／モジュールＡ１２７７ａの出力は、スケールファクタ決定ブロック／モジュールＡ１２７９ａに与えられ得る。スケールファクタ決定ブロック／モジュールＡ１２７９ａは、ＬＰＣ合成Ａ１２７７ａからの出力とターゲットピッチサイクルエネルギー入力１２８３とを使用して第１のスケーリングファクタを生成し得、第１のスケーリングファクタは、第１の乗算器１２８１ａに与えられ得る。乗算器１２８１ａは、スケーリングされてない励振信号１２１９に第１のスケーリングファクタを乗算する。（スケーリングされた）励振信号または第１の乗算器１２８１ａ出力は、ＬＰＣ合成ブロック／モジュールＢ１２７７ｂと第２の乗算器１２８１ｂとに与えられる。

ＬＰＣ合成ブロック／モジュールＢ１２７７ｂは、第１の乗算器１２８１ａ出力ならびに（前の演算からの）メモリ入力１２８５を使用して、合成出力を生成し、その合成出力は、スケールファクタ決定ブロック／モジュールＢ１２７９ｂに与えられる。たとえば、メモリ入力１２８５は、前のフレームの最後にメモリから来ることがある。スケールファクタ決定ブロック／モジュールＢ１２７９ｂは、第２のスケーリングファクタを生成するためにターゲットピッチサイクルエネルギー入力１２８３に加えてＬＰＣ合成ブロック／モジュールＢ１２７７ｂ出力を使用し、第２のスケーリングファクタは、第２の乗算器１２８１ｂに与えられる。第２の乗算器１２８１ｂは、第１の乗算器１２８１ａ出力（たとえば、スケーリングされた励振信号）に第２のスケーリングファクタを乗算する。得られた積（たとえば、２回目にスケーリングされた励振信号）は、ＬＰＣ合成ブロック／モジュールＣ１２７７ｃに与えられる。ＬＰＣ合成ブロック／モジュールＣ１２７７ｃは、メモリ入力１２８５に加えて第２の乗算器１２８１ｂ出力を使用して、さらなる演算のために合成音声信号１２２７とメモリ１２８７とを生成する。

図１３に、電子デバイス１３０２において利用され得る様々な構成要素を示す。図示の構成要素は、同じ物理的構造内か、あるいは別個のハウジングまたは構造中に位置し得る。前に説明した電子デバイス１０２、１６８、１００２、１１００は、電子デバイス１３０２と同様に構成され得る。電子デバイス１３０２はプロセッサ１３９５を含む。プロセッサ１３９５は、汎用シングルまたはマルチチップマイクロプロセッサ（たとえば、ＡＲＭ）、特殊目的マイクロプロセッサ（たとえば、デジタル信号プロセッサ（ＤＳＰ））、マイクロコントローラ、プログラマブルゲートアレイなどであり得る。プロセッサ１３９５は中央処理ユニット（ＣＰＵ）と呼ばれることがある。図１３の電子デバイス１３０２中に単一のプロセッサ１３９５のみを示しているが、代替構成では、プロセッサ（たとえば、ＡＲＭとＤＳＰ）の組合せが使用され得る。

電子デバイス１３０２はまた、プロセッサ１３９５と電子通信するメモリ１３８９を含む。すなわち、プロセッサ１３９５は、メモリ１３８９から情報を読み取るか、またはメモリ１３８９に情報を書き込むことができる。メモリ１３８９は、電子情報を記憶することが可能な任意の電子構成要素であり得る。メモリ１３８９は、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、磁気ディスクストレージ媒体、光記憶媒体、ＲＡＭ中のフラッシュメモリデバイス、プロセッサとともに含まれるオンボードメモリ、プログラマブル読取り専用メモリ（ＰＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ）、電気的消去可能ＰＲＯＭ（ＥＥＰＲＯＭ）、レジスタなど、およびそれらの組合せであり得る。

データ１３９３ａおよび命令１３９１ａは、メモリ１３８９に記憶され得る。命令１３９１ａは、１つまたは複数のプログラム、ルーチン、サブルーチン、関数、プロシージャなどを含み得る。命令１３９１ａは、単一のコンピュータ可読ステートメントまたは多くのコンピュータ可読ステートメントを含み得る。命令１３９１ａは、上記で説明した方法２００、４００、５００、６００、９００を実装するために、プロセッサ１３９５によって実行可能であり得る。命令１３９１ａを実行することは、メモリ１３８９に記憶されたデータ１３９３ａの使用を含み得る。図１３に、プロセッサ１３９５にロードされている（命令１３９１ａおよびデータ１３９３ａから来ることがある）いくつかの命令１３９１ｂおよびデータ１３９３ｂを示す。

電子デバイス１３０２はまた、他の電子デバイスと通信するための１つまたは複数の通信インターフェース１３９９を含み得る。通信インターフェース１３９９は、ワイヤード通信技術、ワイヤレス通信技術、またはその両方に基づき得る。様々なタイプの通信インターフェース１３９９の例には、シリアルポート、パラレルポート、ユニバーサルシリアルバス（ＵＳＢ）、イーサネット（登録商標）アダプター、ＩＥＥＥ１３９４バスインターフェース、小型コンピュータシステムインターフェース（ＳＣＳＩ）バスインターフェース、赤外線（ＩＲ）通信ポート、Ｂｌｕｅｔｏｏｔｈワイヤレス通信アダプターなどがある。

電子デバイス１３０２はまた、１つまたは複数の入力デバイス１３０１と１つまたは複数の出力デバイス１３０３とを含み得る。様々な種類の入力デバイス１３０１の例には、キーボード、マウス、マイクロフォン、遠隔制御デバイス、ボタン、ジョイスティック、トラックボール、タッチパッド、ライトペンなどがある。たとえば、電子デバイス１３０２は、音響信号をキャプチャするための１つまたは複数のマイクロフォン１３３３を含み得る。一構成では、マイクロフォン１３３３は、音響信号（たとえば、ボイス、音声）を電気または電子信号に変換するトランスデューサであり得る。様々な種類の出力デバイス１３０３の例には、スピーカー、プリンタなどがある。たとえば、電子デバイス１３０２は、１つまたは複数のスピーカー１３３５を含み得る。一構成では、スピーカー１３３５は、電気または電子信号を音響信号に変換するトランスデューサであり得る。一般に電子デバイス１３０２中に含まれ得る１つの特定のタイプの出力デバイスはディスプレイデバイス１３０５であり得る。本明細書で開示する構成とともに使用されるディスプレイデバイス１３０５は、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）、ガスプラズマ、エレクトロルミネセンスなど、任意の好適な画像投影技術を利用し得る。ディスプレイコントローラ１３０７はまた、メモリ１３８９に記憶されたデータをディスプレイデバイス１３０５上に示されるテキスト、グラフィック、および／または動画（適宜）に変換するために設けられ得る。

電子デバイス１３０２の様々な構成要素は、電力バス、制御信号バス、ステータス信号バス、データバスなどを含み得る１つまたは複数のバスによって互いに結合され得る。簡単のために、図１３では様々なバスはバスシステム１３９７として示してある。図１３が電子デバイス１３０２の１つの可能な構成を示しているにすぎないことに留意されたい。様々な他のアーキテクチャおよび構成要素が利用され得る。

図１４に、ワイヤレス通信デバイス１４０９内に含まれ得るいくつかの構成要素を示す。上記で説明した電子デバイス１０２、１６８、１００２、１１００は、図１４に示すワイヤレス通信デバイス１４０９と同様に構成され得る。

ワイヤレス通信デバイス１４０９はプロセッサ１４２７を含む。プロセッサ１４２７は、汎用シングルまたはマルチチップマイクロプロセッサ（たとえば、ＡＲＭ）、特殊目的マイクロプロセッサ（たとえば、デジタル信号プロセッサ（ＤＳＰ））、マイクロコントローラ、プログラマブルゲートアレイなどであり得る。プロセッサ１４２７は中央処理ユニット（ＣＰＵ）と呼ばれることがある。図１４のワイヤレス通信デバイス１４０９中に単一のプロセッサ１４２７のみを示しているが、代替構成では、プロセッサ（たとえば、ＡＲＭとＤＳＰ）の組合せが使用され得る。

ワイヤレス通信デバイス１４０９はまた、プロセッサ１４２７と電子通信するメモリ１４１１を含む（すなわち、プロセッサ１４２７は、メモリ１４１１から情報を読み取り、および／またはメモリ１４１１に情報を書き込むことができる）。メモリ１４１１は、電子情報を記憶することが可能な任意の電子構成要素であり得る。メモリ１４１１は、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、磁気ディスクストレージ媒体、光記憶媒体、ＲＡＭ中のフラッシュメモリデバイス、プロセッサとともに含まれるオンボードメモリ、プログラマブル読取り専用メモリ（ＰＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ）、電気的消去可能ＰＲＯＭ（ＥＥＰＲＯＭ）、レジスタなど、およびそれらの組合せであり得る。

データ１４１３および命令１４１５は、メモリ１４１１に記憶され得る。命令１４１５は、１つまたは複数のプログラム、ルーチン、サブルーチン、関数、プロシージャ、コードなどを含み得る。命令１４１５は、単一のコンピュータ可読ステートメントまたは多くのコンピュータ可読ステートメントを含み得る。命令１４１５は、上記で説明した方法２００、４００、５００、６００、９００を実装するために、プロセッサ１４２７によって実行可能であり得る。命令１４１５を実行することは、メモリ１４１１に記憶されたデータ１４１３の使用を含み得る。図１４に、プロセッサ１４２７にロードされている（命令１４１５およびデータ１４１３から来ることがある）いくつかの命令１４１５ａおよびデータ１４１３ａを示す。

ワイヤレス通信デバイス１４０９はまた、ワイヤレス通信デバイス１４０９と遠隔ロケーション（たとえば、別の電子デバイス、通信デバイスなど）との間の信号の送信および受信を可能にするために、送信機１４２３と受信機１４２５とを含み得る。送信機１４２３と受信機１４２５とはトランシーバ１４２１と総称され得る。アンテナ１４１９はトランシーバ１４２１に電気的に結合され得る。ワイヤレス通信デバイス１４０９はまた、複数の送信機、複数の受信機、複数のトランシーバ、および／または複数のアンテナを含み得る（図示せず）。

いくつかの構成では、ワイヤレス通信デバイス１４０９は、音響信号をキャプチャするための１つまたは複数のマイクロフォン１４２９を含み得る。一構成では、マイクロフォン１４２９は、音響信号（たとえば、ボイス、音声）を電気または電子信号に変換するトランスデューサであり得る。追加または代替として、ワイヤレス通信デバイス１４０９は１つまたは複数のスピーカー１４３１を含み得る。一構成では、スピーカー１４３１は、電気または電子信号を音響信号に変換するトランスデューサであり得る。

ワイヤレス通信デバイス１４０９の様々な構成要素は、パワーバス、制御信号バス、ステータス信号バス、データバスなどを含み得る１つまたは複数のバスによって互いに結合され得る。簡単のために、図１４では様々なバスはバスシステム１４１７として示してある。

上記の説明では、様々な用語とともに参照番号を時々使用した。用語が参照番号とともに使用されている場合、これは、１つまたは複数の図に示された特定の要素を指すものとされ得る。用語が参照番号なしに使用されている場合、これは、概して特定の図に限定されない用語を指すものとされ得る。

「決定」という用語は、多種多様なアクションを包含し、したがって、「決定」は、計算、算出、処理、導出、調査、探索（たとえば、テーブル、データベースまたは別のデータ構造での探索）、確認などを含むことができる。また、「決定」は、受信（たとえば、情報を受信すること）、アクセス（たとえば、メモリ中のデータにアクセスすること）などを含むことができる。また、「決定」は、解決、選択、選出、確立などを含むことができる。

「に基づいて」という句は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という句は、「のみに基づいて」と「に少なくとも基づいて」の両方を表す。

本明細書で説明した機能は、１つまたは複数の命令としてプロセッサ可読媒体またはコンピュータ可読媒体上に記憶され得る。「コンピュータ可読媒体」という用語は、コンピュータまたはプロセッサによってアクセスされ得る任意の利用可能な媒体を指す。限定ではなく、例として、そのような媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、ＣＤ−ＲＯＭまたは他の光ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは命令またはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る、任意の他の媒体を備え得る。本明細書で使用するディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザディスク（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）およびブルーレイ（登録商標）ディスク（disc）を含み、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）は、データをレーザで光学的に再生する。コンピュータ可読媒体は有形で非一時的であり得ることに留意されたい。「コンピュータプログラム製品」という用語は、コンピューティングデバイスまたはプロセッサによって実行、処理または計算され得るコードまたは命令（たとえば、「プログラム」）と組み合わせたコンピューティングデバイスまたはプロセッサを指す。本明細書で使用する「コード」という用語は、コンピューティングデバイスまたはプロセッサによって実行可能であるソフトウェア、命令、コードまたはデータを指すことがある。

ソフトウェアまたは命令はまた、送信媒体を介して送信され得る。たとえば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、送信媒体の定義に含まれる。

本明細書で開示する方法は、説明した方法を達成するための１つまたは複数のステップまたはアクションを備える。本方法のステップおよび／または動作は、特許請求の範囲の範囲から逸脱することなく互いに交換され得る。言い換えれば、本明細書で説明する方法の適切な動作のためにステップまたはアクションの特定の順序が必要とされない限り、特定のステップおよび／またはアクションの順序および／または使用は、特許請求の範囲の範囲を逸脱することなく修正され得る。

特許請求の範囲は、上記に示した正確な構成および構成要素に限定されないことを理解されたい。特許請求の範囲から逸脱することなく、本明細書で説明したシステム、方法、および装置の構成、動作および詳細において、様々な改変、変更および変形が行われ得る。

Claims

プロセッサと、
前記プロセッサと電子通信するメモリと、
前記メモリに記憶された命令と
を備える、ピッチラグを推定するための電子デバイスであって、前記命令が、
現在フレームを取得することと、
前記現在フレームに基づいて残差信号を取得することと、
前記残差信号に基づいてピークロケーションのセットを決定することと、
前記ピークロケーションのセットに基づいてピッチラグ候補のセットを取得することと、
前記ピッチラグ候補のセットに基づいてピッチラグを推定することと
を行うことが実行可能である、電子デバイス。
ピークロケーションのセットを決定することは、
前記残差信号およびウィンドウ信号のサンプルの絶対値に基づいて包絡線信号を計算することと、
前記包絡線信号と前記包絡線信号の時間シフトバージョンとの間の差に基づいて第１の勾配信号を計算することと、
前記第１の勾配信号と前記第１の勾配信号の時間シフトバージョンとの間の差に基づいて第２の勾配信号を計算することと、
第２の勾配信号値が第１のしきい値を下回る第１のロケーションインデックスのセットを選択することと、
包絡線値が包絡線中の最大値に対する第２のしきい値を下回るロケーションインデックスをなくすことによって、前記第１のロケーションインデックスのセットから第２のロケーションインデックスのセットを決定することと、
近隣のロケーションインデックスに対する差分しきい値を満たさないロケーションインデックスをなくすことによって、前記第２のロケーションインデックスのセットから第３のロケーションインデックスのセットを決定することと
を備える、請求項１に記載の電子デバイス。
前記ピッチラグ候補のセットを取得することが、
順序付けされたピークロケーションのセットを生じるように前記ピークロケーションのセットを昇順に配列することと、
前記順序付けされたピークロケーションのセット中の連続するピークロケーションペア間の距離を計算することと
を備える、請求項１に記載の電子デバイス。
前記命令が、
線形予測係数のセットを取得するために、前記現在フレームと前記現在フレームより前の信号とを使用して線形予測分析を実行することと、
前記線形予測係数のセットに基づいて量子化線形予測係数のセットを決定することと
を行うことがさらに実行可能である、請求項１に記載の電子デバイス。
前記残差信号を取得することが、前記量子化線形予測係数のセットにさらに基づく、請求項４に記載の電子デバイス。
前記命令が、前記ピッチラグ候補のセットに対応する信頼性尺度のセットを計算することがさらに実行可能である、請求項１に記載の電子デバイス。
前記ピッチラグ候補のセットに対応する前記信頼性尺度のセットを計算することが、信号包絡線と、前記順序付けされたピークロケーションのセット中の連続するピークロケーションペアとに基づく、請求項６に記載の電子デバイス。
前記順序付けされたピークロケーションのセット中のピークロケーションの各ペアについて、前記信頼性尺度のセットを計算することが、
ピークロケーションのペア中の第１のピークロケーションの周りの範囲に基づいて第１の信号バッファを選択することと、
前記ピークロケーションのペア中の第２のピークロケーションの周りの範囲に基づいて第２の信号バッファを選択することと、
前記第１の信号バッファと前記第２の信号バッファとの間の正規化相互相関を計算することと、
前記信頼性尺度のセットに前記正規化相互相関を追加することと
を備える、請求項７に記載の電子デバイス。
前記ピッチラグが、反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて推定される、請求項６に記載の電子デバイス。
前記命令が、
前記ピッチラグ候補のセットに、前記現在フレームの残差信号に基づいて計算された第１の近似ピッチラグ値を追加することと、
前記信頼性尺度のセットに、前記第１の近似ピッチラグ値に対応する第１のピッチ利得を追加することと
を行うことがさらに実行可能である、請求項６に記載の電子デバイス。
前記現在フレームの残差信号に基づいて自己相関値を推定することと、
ある範囲のロケーション内の前記自己相関値の最大値を求めて探索することと、
前記第１の近似ピッチラグ値を、前記最大値が生じるロケーションとして設定することと、
前記第１のピッチ利得値を、前記第１の近似ピッチラグ値における正規化自己相関として設定することと
を行うことによって、前記第１の近似ピッチラグ値が推定され、前記第１のピッチ利得が推定される、請求項１０に記載の電子デバイス。
前記命令が、
前記ピッチラグ候補のセットに、前フレームの残差信号に基づいて計算された第２の近似ピッチラグ値を追加することと、
前記信頼性尺度のセットに、前記第２の近似ピッチラグ値に対応する第２のピッチ利得を追加することと
を行うことがさらに実行可能である、請求項１０に記載の電子デバイス。
前記前フレームの残差信号に基づいて自己相関値を推定することと、
ある範囲のロケーション内の前記自己相関値の最大値を求めて探索することと、
前記第２の近似ピッチラグ値を、前記最大値が生じるロケーションとして設定することと、
前記ピッチ利得値を、前記第２の近似ピッチラグ値における正規化自己相関として設定することと
を行うことによって、前記第２の近似ピッチラグ値が推定され、前記第２のピッチ利得が推定される、請求項１２に記載の電子デバイス。
反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定することが、
前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して加重平均を計算することと、
前記ピッチラグ候補のセットの中で、前記加重平均から最も遠いピッチラグ候補を決定することと、
前記ピッチラグ候補のセットから、前記加重平均から最も遠い前記ピッチラグ候補を削除することと、
前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除することと、
ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定することと、
前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、１つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定することと
を備える、請求項９に記載の電子デバイス。
前記命令は、前記ピッチラグ候補の残りの数が前記指定された数に等しくない場合に反復することがさらに実行可能である、請求項１４に記載の電子デバイス。
前記加重平均を計算することが、式

に従って達成され、Ｍ_wが前記加重平均であり、Ｌがピッチラグ候補の数であり、｛ｄ_i｝が前記ピッチラグ候補のセットであり、｛ｃ_i｝が前記信頼性尺度のセットである、請求項１４に記載の電子デバイス。
前記ピッチラグ候補のセットの中で、前記加重平均から最も遠いピッチラグ候補を決定することが、すべてのｉについて｜Ｍ_w−ｄ_k｜＞｜Ｍ_w−ｄ_i｜となるようなｄ_kを見つけることによって達成され、ｉ≠ｋであり、ｄ_kが前記加重平均から最も遠い前記ピッチラグ候補であり、Ｍ_wが前記加重平均であり、｛ｄ_i｝が前記ピッチラグ候補のセットであり、ｉがインデックス番号である、請求項１４に記載の電子デバイス。
前記命令が、前記ピッチラグを送信することがさらに実行可能である、請求項１に記載の電子デバイス。
前記電子デバイスがワイヤレス通信デバイスである、請求項１に記載の電子デバイス。
プロセッサと、
前記プロセッサと電子通信するメモリと、
前記メモリに記憶された命令と
を備える、ピッチラグを推定するための電子デバイスであって、前記命令が、
音声信号を取得することと、
前記音声信号に基づいてピッチラグ候補のセットを取得することと、
前記ピッチラグ候補のセットに対応する信頼性尺度のセットを決定することと、
反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいてピッチラグを推定することと
を行うことが実行可能である、電子デバイス。
反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定することが、
前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して加重平均を計算することと、
前記ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定することと、
前記ピッチラグ候補のセットから、前記加重平均から最も遠いピッチラグ候補を削除することと、
前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除することと、
ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定することと、
前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、１つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定することと
を備える、請求項２０に記載の電子デバイス。
電子デバイス上でピッチラグを推定するための方法であって、
現在フレームを取得することと、
前記現在フレームに基づいて残差信号を取得することと、
前記残差信号に基づいてピークロケーションのセットを決定することと、
前記ピークロケーションのセットに基づいてピッチラグ候補のセットを取得することと、
前記ピッチラグ候補のセットに基づいてピッチラグを推定することと
を備える、方法。
ピークロケーションのセットを決定することは、
前記残差信号およびウィンドウ信号のサンプルの絶対値に基づいて包絡線信号を計算することと、
前記包絡線信号と前記包絡線信号の時間シフトバージョンとの間の差に基づいて第１の勾配信号を計算することと、
前記第１の勾配信号と前記第１の勾配信号の時間シフトバージョンとの間の差に基づいて第２の勾配信号を計算することと、
第２の勾配信号値が第１のしきい値を下回る第１のロケーションインデックスのセットを選択することと、
包絡線値が包絡線中の最大値に対する第２のしきい値を下回るロケーションインデックスをなくすことによって、前記第１のロケーションインデックスのセットから第２のロケーションインデックスのセットを決定することと、
近隣のロケーションインデックスに対する差分しきい値を満たさないロケーションインデックスをなくすことによって、前記第２のロケーションインデックスのセットから第３のロケーションインデックスのセットを決定することと
を備える、請求項２２に記載の方法。
前記ピッチラグ候補のセットを取得することが、
順序付けされたピークロケーションのセットを生じるように前記ピークロケーションのセットを昇順に配列することと、
前記順序付けされたピークロケーションのセット中の連続するピークロケーションペア間の距離を計算することと
を備える、請求項２２に記載の方法。
線形予測係数のセットを取得するために、前記現在フレームと前記現在フレームより前の信号とを使用して線形予測分析を実行することと、
前記線形予測係数のセットに基づいて量子化線形予測係数のセットを決定することと
をさらに備える、請求項２２に記載の方法。
前記残差信号を取得することが、前記量子化線形予測係数のセットにさらに基づく、請求項２５に記載の方法。
前記ピッチラグ候補のセットに対応する信頼性尺度のセットを計算することをさらに備える、請求項２２に記載の方法。
前記ピッチラグ候補のセットに対応する前記信頼性尺度のセットを計算することが、信号包絡線と、前記順序付けされたピークロケーションのセット中の連続するピークロケーションペアとに基づく、請求項２７に記載の方法。
前記順序付けされたピークロケーションのセット中のピークロケーションの各ペアについて、前記信頼性尺度のセットを計算することが、
ピークロケーションのペア中の第１のピークロケーションの周りの範囲に基づいて第１の信号バッファを選択することと、
前記ピークロケーションのペア中の第２のピークロケーションの周りの範囲に基づいて第２の信号バッファを選択することと、
前記第１の信号バッファと前記第２の信号バッファとの間の正規化相互相関を計算することと、
前記信頼性尺度のセットに前記正規化相互相関を追加することと
を備える、請求項２８に記載の方法。
前記ピッチラグが、反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて推定される、請求項２７に記載の方法。
前記ピッチラグ候補のセットに、前記現在フレームの残差信号に基づいて計算された第１の近似ピッチラグ値を追加することと、
前記信頼性尺度のセットに、前記第１の近似ピッチラグ値に対応する第１のピッチ利得を追加することと
をさらに備える、請求項２７に記載の方法。
前記現在フレームの残差信号に基づいて自己相関値を推定することと、
ある範囲のロケーション内の前記自己相関値の最大値を求めて探索することと、
前記第１の近似ピッチラグ値を、前記最大値が生じるロケーションとして設定することと、
前記第１のピッチ利得値を、前記第１の近似ピッチラグ値における正規化自己相関として設定することと
を行うことによって、前記第１の近似ピッチラグ値が推定され、前記第１のピッチ利得が推定される、請求項３１に記載の方法。
前記ピッチラグ候補のセットに、前フレームの残差信号に基づいて計算された第２の近似ピッチラグ値を追加することと、
前記信頼性尺度のセットに、前記第２の近似ピッチラグ値に対応する第２のピッチ利得を追加することと
をさらに備える、請求項３１に記載の方法。
前記前フレームの残差信号に基づいて自己相関値を推定することと、
ある範囲のロケーション内の前記自己相関値の最大値を求めて探索することと、
前記第２の近似ピッチラグ値を、前記最大値が生じるロケーションとして設定することと、
前記ピッチ利得値を、前記第２の近似ピッチラグ値における正規化自己相関として設定することと
を行うことによって、前記第２の近似ピッチラグ値が推定され、前記第２のピッチ利得が推定される、請求項３３に記載の方法。
反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定することが、
前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して加重平均を計算することと、
前記ピッチラグ候補のセットの中で、前記加重平均から最も遠いピッチラグ候補を決定することと、
前記ピッチラグ候補のセットから、前記加重平均から最も遠い前記ピッチラグ候補を削除することと、
前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除することと、
ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定することと、
前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、１つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定することと
を備える、請求項３０に記載の方法。
前記ピッチラグ候補の残りの数が前記指定された数に等しくない場合に反復することをさらに備える、請求項３５に記載の方法。
前記加重平均を計算することが、式

に従って達成され、Ｍ_wは前記加重平均であり、Ｌはピッチラグ候補の数であり、｛ｄ_i｝は前記ピッチラグ候補のセットであり、｛ｃ_i｝は前記信頼性尺度のセットである、請求項３５に記載の方法。
前記ピッチラグ候補のセットの中で、前記加重平均から最も遠いピッチラグ候補を決定することが、すべてのｉについて｜Ｍ_w−ｄ_k｜＞｜Ｍ_w−ｄ_i｜となるようなｄ_kを見つけることによって達成され、ｉ≠ｋであり、ｄ_kは前記加重平均から最も遠い前記ピッチラグ候補であり、Ｍ_wは前記加重平均であり、｛ｄ_i｝は前記ピッチラグ候補のセットであり、ｉはインデックス番号である、請求項３５に記載の方法。
前記ピッチラグを送信することをさらに備える、請求項２２に記載の方法。
前記電子デバイスがワイヤレス通信デバイスである、請求項２２に記載の方法。
電子デバイス上でピッチラグを推定するための方法であって、
音声信号を取得することと、
前記音声信号に基づいてピッチラグ候補のセットを取得することと、
前記ピッチラグ候補のセットに対応する信頼性尺度のセットを決定することと、
反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいてピッチラグを推定することと
を備える、方法。
反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定することが、
前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して加重平均を計算することと、
前記ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定することと、
前記ピッチラグ候補のセットから、前記加重平均から最も遠いピッチラグ候補を削除することと、
前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除することと、
ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定することと、
前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、１つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定することと
を備える、請求項４１に記載の方法。
命令をその上に有する非一時的有形コンピュータ可読媒体を備える、ピッチラグを推定するためのコンピュータプログラム製品であって、前記命令が、
電子デバイスに、現在フレームを取得させるためのコードと、
前記電子デバイスに、前記現在フレームに基づいて残差信号を取得させるためのコードと、
前記電子デバイスに、前記残差信号に基づいてピークロケーションのセットを決定させるためのコードと、
前記電子デバイスに、前記ピークロケーションのセットに基づいてピッチラグ候補のセットを取得させるためのコードと、
前記電子デバイスに、前記ピッチラグ候補のセットに基づいてピッチラグを推定させるためのコードと
を備える、コンピュータプログラム製品。
前記電子デバイスに、ピークロケーションのセットを決定させるためのコードは、
前記電子デバイスに、前記残差信号およびウィンドウ信号のサンプルの絶対値に基づいて包絡線信号を計算させるためのコードと、
前記電子デバイスに、前記包絡線信号と前記包絡線信号の時間シフトバージョンとの間の差に基づいて第１の勾配信号を計算させるためのコードと、
前記電子デバイスに、前記第１の勾配信号と前記第１の勾配信号の時間シフトバージョンとの間の差に基づいて第２の勾配信号を計算させるためのコードと、
前記電子デバイスに、第２の勾配信号値が第１のしきい値を下回る第１のロケーションインデックスのセットを選択させるためのコードと、
前記電子デバイスに、包絡線値が包絡線中の最大値に対する第２のしきい値を下回るロケーションインデックスをなくすことによって、前記第１のロケーションインデックスのセットから第２のロケーションインデックスのセットを決定させるためのコードと、
前記電子デバイスに、近隣のロケーションインデックスに対する差分しきい値を満たさないロケーションインデックスをなくすことによって、前記第２のロケーションインデックスのセットから第３のロケーションインデックスのセットを決定させるためのコードと
を備える、請求項４３に記載のコンピュータプログラム製品。
命令をその上に有する非一時的有形コンピュータ可読媒体を備える、ピッチラグを推定するためのコンピュータプログラム製品であって、前記命令が、
電子デバイスに、音声信号を取得させるためのコードと、
前記電子デバイスに、前記音声信号に基づいてピッチラグ候補のセットを取得させるためのコードと、
前記電子デバイスに、前記ピッチラグ候補のセットに対応する信頼性尺度のセットを決定させるためのコードと、
前記電子デバイスに、反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいてピッチラグを推定させるためのコードと
を備える、コンピュータプログラム製品。
前記電子デバイスに、反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定させるためのコードが、
前記電子デバイスに、前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して加重平均を計算させるためのコードと、
前記電子デバイスに、前記ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定させるためのコードと、
前記電子デバイスに、前記ピッチラグ候補のセットから、前記加重平均から最も遠いピッチラグ候補を削除させるためのコードと、
前記電子デバイスに、前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除させるためのコードと、
前記電子デバイスに、ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定させるためのコードと、
前記電子デバイスに、前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、１つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定させるためのコードと
を備える、請求項４５に記載のコンピュータプログラム製品。
現在フレームを取得するための手段と、
前記現在フレームに基づいて残差信号を取得するための手段と、
前記残差信号に基づいてピークロケーションのセットを決定するための手段と、
前記ピークロケーションのセットに基づいてピッチラグ候補のセットを取得するための手段と、
前記ピッチラグ候補のセットに基づいてピッチラグを推定するための手段と
を備える、ピッチラグを推定するための装置。
前記ピークロケーションのセットを決定するための手段は、
前記残差信号およびウィンドウ信号のサンプルの絶対値に基づいて包絡線信号を計算するための手段と、
前記包絡線信号と前記包絡線信号の時間シフトバージョンとの間の差に基づいて第１の勾配信号を計算するための手段と、
前記第１の勾配信号と前記第１の勾配信号の時間シフトバージョンとの間の差に基づいて第２の勾配信号を計算するための手段と、
第２の勾配信号値が第１のしきい値を下回る第１のロケーションインデックスのセットを選択するための手段と、
包絡線値が包絡線中の最大値に対する第２のしきい値を下回るロケーションインデックスをなくすことによって、前記第１のロケーションインデックスのセットから第２のロケーションインデックスのセットを決定するための手段と、
近隣のロケーションインデックスに対する差分しきい値を満たさないロケーションインデックスをなくすことによって、前記第２のロケーションインデックスのセットから第３のロケーションインデックスのセットを決定するための手段と
を備える、請求項４７に記載の装置。
音声信号を取得するための手段と、
前記音声信号に基づいてピッチラグ候補のセットを取得するための手段と、
前記ピッチラグ候補のセットに対応する信頼性尺度のセットを決定するための手段と、
反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいてピッチラグを推定するための手段と
を備える、ピッチラグを推定するための装置。
反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定するための手段は、
前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して加重平均を計算するための手段と、
前記ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定するための手段と、
前記ピッチラグ候補のセットから、前記加重平均から最も遠いピッチラグ候補を削除するための手段と、
前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除するための手段と、
ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定するための手段と、
前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、１つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定するための手段と
を備える、請求項４９に記載の装置。