JP2013537324A - ピッチラグを推定すること - Google Patents

ピッチラグを推定すること Download PDF

Info

Publication number
JP2013537324A
JP2013537324A JP2013529209A JP2013529209A JP2013537324A JP 2013537324 A JP2013537324 A JP 2013537324A JP 2013529209 A JP2013529209 A JP 2013529209A JP 2013529209 A JP2013529209 A JP 2013529209A JP 2013537324 A JP2013537324 A JP 2013537324A
Authority
JP
Japan
Prior art keywords
pitch lag
electronic device
candidates
pitch
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013529209A
Other languages
English (en)
Other versions
JP5792311B2 (ja
Inventor
クリシュナン、ベンカテシュ
ビレッテ、ステファン・ピエール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2013537324A publication Critical patent/JP2013537324A/ja
Application granted granted Critical
Publication of JP5792311B2 publication Critical patent/JP5792311B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/097Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephone Function (AREA)

Abstract

ピッチラグを推定するための電子デバイスについて説明する。本電子デバイスは、プロセッサと、プロセッサと電子通信するメモリに記憶された実行可能である命令とを含む。本電子デバイスは、現在フレームを取得する。本電子デバイスはまた、現在フレームに基づいて残差信号を取得する。本電子デバイスは、さらに、残差信号に基づいてピークロケーションのセットを決定する。さらに、本電子デバイスは、ピークロケーションのセットに基づいてピッチラグ候補のセットを取得する。本電子デバイスはまた、ピッチラグ候補のセットに基づいてピッチラグを推定する。

Description

関連出願
本出願は、「ESTIMATING A PITCH LAG」と題する2010年9月16日に出願された米国仮特許出願第61/383,692号に関し、その優先権を主張する。
本開示は、一般に信号処理に関する。より詳細には、本開示は、ピッチラグを推定することに関する。
最近の数十年で、電子デバイスの使用は一般的になった。特に、電子技術の進歩は、ますます複雑で有用になる電子デバイスのコストを低減した。コスト低減および消費者需要は、電子デバイスの使用を激増させ、現代社会において電子デバイスを事実上ユビキタスなものとした。電子デバイスの使用が拡大するにつれて、電子デバイスの新しい改善された特徴に対する需要も拡大した。より詳細には、より高速に、より効率的に、またはより高品質で機能を実行する電子デバイスが頻繁に求められる。
いくつかの電子デバイス(たとえば、セルラーフォン、スマートフォン、コンピュータなど)は音声信号を使用する。これらの電子デバイスは、記憶または送信のために音声信号を符号化し得る。たとえば、セルラーフォンは、マイクロフォンを使用してユーザのボイスまたは音声をキャプチャする。たとえば、セルラーフォンは、マイクロフォンを使用して音響信号を電子信号に変換する。この電子信号は、次いで、別のデバイス(たとえば、セルラーフォン、スマートフォン、コンピュータなど)への送信のために、または記憶のためにフォーマットされ得る。
圧縮されていない音声信号を送信することまたは送ることは、たとえば、帯域幅および/または記憶リソースに関してコストがかかり得る。音声信号をより効率的に(たとえば、より少ないデータを使用して)表現することを試みるいくつかの方式が存在する。しかしながら、これらの方式は音声信号のいくつかの部分をうまく表現せず、その結果、性能が劣化することがある。上記の説明から理解されるように、音声信号コーディングを改善するシステムおよび方法が有益であり得る。
ピッチラグを推定するための電子デバイスが開示される。本電子デバイスは、プロセッサと、プロセッサと電子通信するメモリに記憶された命令とを含む。本電子デバイスは、現在フレームを取得する。本電子デバイスはまた、現在フレームに基づいて残差信号を取得する。本電子デバイスは、さらに、残差信号に基づいてピークロケーションのセットを決定する。本電子デバイスは、さらに、ピークロケーションのセットに基づいてピッチラグ候補のセットを取得する。本電子デバイスはまた、ピッチラグ候補のセットに基づいてピッチラグを推定する。残差信号を取得することは、さらに、量子化線形予測係数のセットに基づき得る。ピッチラグ候補のセットを取得することは、順序付けされたピークロケーションのセットを生じるようにピークロケーションのセットを昇順に配列することと、順序付けされたピークロケーションのセット中の連続するピークロケーションペア間の距離を計算することとを含み得る。
ピークロケーションのセットを決定することは、残差信号およびウィンドウ信号のサンプルの絶対値に基づいて包絡線信号を計算することを含み得る。ピークロケーションのセットを決定することはまた、包絡線信号と包絡線信号の時間シフトバージョンとの間の差に基づいて第1の勾配信号を計算することを含み得る。ピークロケーションのセットを決定することは、さらに、第1の勾配信号と第1の勾配信号の時間シフトバージョンとの間の差に基づいて第2の勾配信号を計算することを含み得る。ピークロケーションのセットを決定することは、さらに、第2の勾配信号値が第1のしきい値を下回る第1のロケーションインデックスのセットを選択することを含み得る。ピークロケーションのセットを決定することはまた、包絡線値が包絡線中の最大値に対する第2のしきい値を下回るロケーションインデックスをなくすことによって、第1のロケーションインデックスのセットから第2のロケーションインデックスのセットを決定することを含み得る。ピークロケーションのセットを決定することはまた、近隣のロケーションインデックスに対する差分しきい値を満たさないロケーションインデックスをなくすことによって、第2のロケーションインデックスのセットから第3のロケーションインデックスのセットを決定することを含み得る。
本電子デバイスはまた、線形予測係数のセットを取得するために、現在フレームと現在フレームより前の信号とを使用して線形予測分析を実行し得る。本電子デバイスはまた、線形予測係数のセットに基づいて量子化線形予測係数のセットを決定し得る。ピッチラグは、反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいて推定され得る。
本電子デバイスはまた、ピッチラグ候補のセットに対応する信頼性尺度のセットを計算し得る。ピッチラグ候補のセットに対応する信頼性尺度のセットを計算することは、信号包絡線と、順序付けされたピークロケーションのセット中の連続するピークロケーションペアとに基づき得る。順序付けされたピークロケーションのセット中のピークロケーションの各ペアについて、信頼性尺度のセットを計算することは、ピークロケーションのペア中の第1のピークロケーションの周りの範囲に基づいて第1の信号バッファを選択することと、ピークロケーションのペア中の第2のピークロケーションの周りの範囲に基づいて第2の信号バッファを選択することとを含み得る。順序付けされたピークロケーションのセット中のピークロケーションの各ペアについて、信頼性尺度のセットを計算することは、第1の信号バッファと第2の信号バッファとの間の正規化相互相関を計算することと、信頼性尺度のセットに正規化相互相関を追加することとを含み得る。
本電子デバイスはまた、ピッチラグ候補のセットに、現在フレームの残差信号に基づいて計算された第1の近似ピッチラグ値を追加し、信頼性尺度のセットに、第1の近似ピッチラグ値に対応する第1のピッチ利得を追加し得る。現在フレームの残差信号に基づいて自己相関値を推定することと、ある範囲のロケーション内の自己相関値の最大値を求めて探索することとを行うことによって、第1の近似ピッチラグ値が推定され得、第1のピッチ利得が推定され得る。第1の近似ピッチラグ値を、最大値が生じるロケーションとして設定することと、第1のピッチ利得値を、第1の近似ピッチラグ値における正規化自己相関として設定することとを行うことによって、第1の近似ピッチラグ値がさらに推定され得、第1のピッチ利得が同じく推定され得る。
本電子デバイスはまた、ピッチラグ候補のセットに、前フレームの残差信号に基づいて計算された第2の近似ピッチラグ値を追加し得、信頼性尺度のセットに、第2の近似ピッチラグ値に対応する第2のピッチ利得を追加し得る。本電子デバイスはまた、ピッチラグを送信し得る。本電子デバイスはワイヤレス通信デバイスであり得る。
前フレームの残差信号に基づいて自己相関値を推定することと、ある範囲のロケーション内の自己相関値の最大値を求めて探索することとを行うことによって、第2の近似ピッチラグ値が推定され得、第2のピッチ利得が推定され得る。第2の近似ピッチラグ値を、最大値が生じるロケーションとして設定することと、ピッチ利得値を、第2の近似ピッチラグ値における正規化自己相関として設定することとを行うことによって、第2の近似ピッチラグ値がさらに推定され得、第2のピッチ利得がさらに推定され得る。
反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいてピッチラグを推定することは、ピッチラグ候補のセットと信頼性尺度のセットとを使用して加重平均を計算することと、ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定することとを含み得る。反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいてピッチラグを推定することは、さらに、ピッチラグ候補のセットから、加重平均から最も遠いピッチラグ候補を削除することと、信頼性尺度のセットから、加重平均から最も遠いピッチラグ候補に対応する信頼性尺度を削除することとを含み得る。反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいてピッチラグを推定することは、さらに、ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定することと、ピッチラグ候補の残りの数が指定された数に等しい場合、1つまたは複数の残りのピッチラグ候補に基づいてピッチラグを決定することとを含み得る。本電子デバイスはまた、ピッチラグ候補の残りの数が指定された数に等しくない場合に反復し得る。
加重平均を計算することは、式
Figure 2013537324
に従って達成され得る。Mwは加重平均であり得、Lはピッチラグ候補の数であり得、{di}はピッチラグ候補のセットであり得、{ci}は信頼性尺度のセットであり得る。
ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定することは、すべてのiについて|Mw−dk|>|Mw−di|となるような{dk}を見つけることによって達成され、i≠kであり得、dkは加重平均から最も遠いピッチラグ候補であり得、Mwは加重平均であり得、{di}はピッチラグ候補のセットであり得、iはインデックス番号であり得る。
ピッチラグを推定するための別の電子デバイスも開示される。本電子デバイスは、プロセッサと、プロセッサと電子通信するメモリに記憶された命令とを含む。本電子デバイスは、音声信号を取得する。本電子デバイスはまた、音声信号に基づいてピッチラグ候補のセットを取得する。本電子デバイスは、さらに、ピッチラグ候補のセットに対応する信頼性尺度のセットを決定する。本電子デバイスは、さらに、反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいてピッチラグを推定する。
反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいてピッチラグを推定することは、ピッチラグ候補のセットと信頼性尺度のセットとを使用して加重平均を計算することと、ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定することとを含み得る。反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいてピッチラグを推定することは、さらに、ピッチラグ候補のセットから、加重平均から最も遠いピッチラグ候補を削除することと、信頼性尺度のセットから、加重平均から最も遠いピッチラグ候補に対応する信頼性尺度を削除することとを含み得る。反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいてピッチラグを推定することは、さらに、ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定することと、ピッチラグ候補の残りの数が指定された数に等しい場合、1つまたは複数の残りのピッチラグ候補に基づいてピッチラグを決定することとを含み得る。
電子デバイス上でピッチラグを推定するための方法も開示される。本方法は、現在フレームを取得することを含む。本方法はまた、現在フレームに基づいて残差信号を取得することを含む。本方法は、さらに、残差信号に基づいてピークロケーションのセットを決定することを含む。本方法は、さらに、ピークロケーションのセットに基づいてピッチラグ候補のセットを取得することを含む。本方法はまた、ピッチラグ候補のセットに基づいてピッチラグを推定することを含む。
電子デバイス上でピッチラグを推定するための別の方法も開示される。本方法は、音声信号を取得することを含む。本方法はまた、音声信号に基づいてピッチラグ候補のセットを取得することを含む。本方法は、さらに、ピッチラグ候補のセットに対応する信頼性尺度のセットを決定することを含む。本方法は、さらに、反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいてピッチラグを推定することを含む。
ピッチラグを推定するためのコンピュータプログラム製品も開示される。本コンピュータプログラム製品は、命令をもつ非一時的有形コンピュータ可読媒体を含む。本命令は、電子デバイスに、現在フレームを取得させるためのコードを含む。本命令はまた、電子デバイスに、現在フレームに基づいて残差信号を取得させるためのコードを含む。本命令は、さらに、電子デバイスに、残差信号に基づいてピークロケーションのセットを決定させるためのコードを含む。本命令は、さらに、電子デバイスに、ピークロケーションのセットに基づいてピッチラグ候補のセットを取得させるためのコードを含む。本命令はまた、電子デバイスに、ピッチラグ候補のセットに基づいてピッチラグを推定させるためのコードを含む。
ピッチラグを推定するための別のコンピュータプログラム製品も開示される。本コンピュータプログラム製品は、命令をもつ非一時的有形コンピュータ可読媒体を含む。本命令は、電子デバイスに、音声信号を取得させるためのコードを含む。本命令はまた、電子デバイスに、音声信号に基づいてピッチラグ候補のセットを取得させるためのコードを含む。本命令は、さらに、電子デバイスに、ピッチラグ候補のセットに対応する信頼性尺度のセットを決定させるためのコードを含む。本命令は、さらに、電子デバイスに、反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいてピッチラグを推定させるためのコードを含む。
ピッチラグを推定するための装置も開示される。本装置は、現在フレームを取得するための手段を含む。本装置はまた、現在フレームに基づいて残差信号を取得するための手段を含む。本装置は、さらに、残差信号に基づいてピークロケーションのセットを決定するための手段を含む。本装置は、さらに、ピークロケーションのセットに基づいてピッチラグ候補のセットを取得するための手段を含む。本装置はまた、ピッチラグ候補のセットに基づいてピッチラグを推定するための手段を含む。
ピッチラグを推定するための別の装置も開示される。本装置は、音声信号を取得するための手段を含む。本装置はまた、音声信号に基づいてピッチラグ候補のセットを取得するための手段を含む。本装置は、さらに、ピッチラグ候補のセットに対応する信頼性尺度のセットを決定するための手段を含む。本装置は、さらに、反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度のセットとに基づいてピッチラグを推定するための手段を含む。
ピッチラグを推定するためのシステムおよび方法が実装され得る電子デバイスの一構成を示すブロック図。 ピッチラグを推定するための方法の一構成を示す流れ図。 残差信号からのピークの一例を示す図。 ピッチラグを推定するための方法の別の構成を示す流れ図。 ピッチラグを推定するための方法のより具体的な構成を示す流れ図。 反復的プルーニングアルゴリズムを使用してピッチラグを推定するための方法の一構成を示す流れ図。 ピッチラグを推定するためのシステムおよび方法が実装され得るエンコーダの一構成を示すブロック図。 デコーダの一構成を示すブロック図。 音声信号を復号するための方法の一構成を示す流れ図。 ピッチラグを推定するためのシステムおよび方法が実装され得る電子デバイスの一例を示すブロック図。 音声信号を復号するためのシステムおよび方法が実装され得る電子デバイスの一例を示すブロック図。 ピッチ同期利得スケーリングおよびLPC合成ブロック/モジュールの一構成を示すブロック図。 電子デバイスにおいて利用され得る様々な構成要素を示す図。 ワイヤレス通信デバイス内に含まれ得るいくつかの構成要素を示す図。
本明細書で開示するシステムおよび方法は、電子デバイスなどの様々なデバイスに適用され得る。電子デバイスの例には、ボイスレコーダ、ビデオカメラ、オーディオプレーヤ(たとえば、Moving Picture Experts Group−1(MPEG−1)またはMPEG−2 Audio Layer 3(MP3)プレーヤ)、ビデオプレーヤ、オーディオレコーダ、デスクトップコンピュータ/ラップトップコンピュータ、携帯情報端末(PDA)、ゲームシステムなどがある。電子デバイスの一種は、別のデバイスと通信し得る通信デバイスである。通信デバイスの例には、電話、ラップトップコンピュータ、デスクトップコンピュータ、セルラーフォン、スマートフォン、ワイヤレスまたはワイヤードモデム、電子リーダー、タブレットデバイス、ゲームシステム、セルラー電話基地局またはノード、アクセスポイント、ワイヤレスゲートウェイおよびワイヤレスルータがある。
通信デバイスは、国際電気通信連合(ITU)規格および/または米国電気電子技術者協会(IEEE)規格(たとえば、802.11a、802.11b、802.11g、802.11nおよび/または802.11acなどのワイヤレスフィデリティーまたは「Wi−Fi」規格)など、いくつかの業界規格に従って動作し得る。通信デバイスが準拠し得る標準の他の例には、IEEE802.16(たとえば、Worldwide Interoperability for Microwave Accessまたは「WiMAX」)、Third Generation Partnership Project(3GPP)、3GPP Long Term Evolution(LTE)、Global System for Mobile Telecommunications(GSM)(登録商標)などがある(通信デバイスは、たとえば、ユーザ機器(UE)、ノードB、発展型ノードB(eNB)、モバイルデバイス、移動局、加入者局、遠隔局、アクセス端末、モバイル端末、端末、端末ユーザ端末、加入者ユニットなどと呼ばれることがある)。本明細書で開示するシステムおよび方法のいくつかは1つまたは複数の標準に関して説明され得るが、これは、それらのシステムおよび方法が多くのシステムおよび/または標準に適用可能であり得るので、本開示の範囲を限定すべきではない。
いくつかの通信デバイスは、ワイヤレス通信し得、および/またはワイヤード接続もしくはリンクを使用して通信し得ることに留意されたい。たとえば、いくつかの通信デバイスは、イーサネット(登録商標)プロトコルを使用して他のデバイスと通信し得る。本明細書で開示するシステムおよび方法は、ワイヤレス通信し、および/またはワイヤード接続もしくはリンクを使用して通信する通信デバイスに適用され得る。一構成では、本明細書で開示するシステムおよび方法は、衛星を使用して別のデバイスと通信する通信デバイスに適用され得る。
本明細書で開示するシステムおよび方法は、以下のように説明する通信システムの一例に適用され得る。この例では、本明細書で開示するシステムおよび方法は、ジオモバイル衛星エアインターフェース(GMSA:geo-mobile satellite air interface)衛星通信のための低ビットレート(たとえば、2キロビット毎秒(Kbps))音声符号化を行い得る。より詳細には、本明細書で開示するシステムおよび方法は、統合された衛星およびモバイル通信ネットワークにおいて使用され得る。そのようなネットワークは、シームレスで、透過的で、相互運用可能で、ユビキタスなワイヤレスカバレージを提供し得る。衛星ベースのサービスは、地上カバレージが利用不可能である遠隔ロケーションにおける通信のために使用され得る。たとえば、そのようなサービスは、人工もしくは自然災害、ブロードキャストおよび/またはフリート管理およびアセット追跡に有用であり得る。Lおよび/またはSバンド(ワイヤレス)スペクトルが使用され得る。
一構成では、順方向リンクは、オーバージエア衛星リンクのための基礎技術として1x Evolution Data Optimized (EV−DO) Rev Aエアインターフェースを使用し得る。逆方向リンクは周波数分割多重(FDM)を使用し得る。たとえば、逆方向リンクスペクトルの1.25メガヘルツ(MHz)ブロックは192個の狭帯域周波数チャネルに分割され、各々は6.4キロヘルツ(kHz)の帯域幅をもち得る。逆方向リンクデータレートは制限され得る。これは、低ビットレート符号化の必要性を提示し得る。場合によっては、たとえば、1つのチャネルが2.4Kbpsしかサポートできないことがある。ただし、より良いチャネル状態では、2つのFDMチャネルが利用可能になり、場合によっては4.8Kbps送信を提供し得る。
逆方向リンク上では、たとえば、低ビットレート音声エンコーダが使用され得る。これにより、逆方向リンク上でシングルFDMチャネル割当てのためのアクティブ音声のために2Kbpsの固定レートが可能になり得る。一構成では、逆方向リンクは、基本チャネル符号化のために1/4畳み込みコーダを使用する。
いくつかの構成では、本明細書で開示するシステムおよび方法は、他の符号化モードへの追加として使用され得る。たとえば、本明細書で開示するシステムおよび方法は、プロトタイプピッチ周期波形補間(PPPWI:prototype pitch-period waveform interpolation)を使用した1/4レート有声コーディングへの追加または代替として使用され得る。PPPWIでは、実際の波形の代わりに使用され得る補間波形を生成するためにプロトタイプ波形が使用されて、再構成された信号が、低減された数のサンプルによって生成されることが可能になり得る。PPPWIは、たとえば、フルレートまたは1/4レートにおいて利用可能であり得、および/または時間同期出力を生成し得る。さらに、PPPWIでは周波数領域において量子化が実行され得る。有声符号化モードでは、(たとえば、FQQ(有効ハーフレート)の代わりに)QQQが使用され得る。QQQは、40ビット毎フレームで1/4レートプロトタイプピッチ周期波形補間(QPPP−WI:quarter-rate prototype pitch period waveform interpolation)を使用して3つの連続する有声フレームを符号化するコーディングパターンである(事実上2キロビット毎秒(kbps))。FQQは、3つの連続する有声フレームが、それぞれフルレートプロトタイプピッチ周期(PPP)、1/4レートプロトタイプピッチ周期(QPPP)およびQPPPを使用して符号化されるコーディングパターンである。これは4kbpsの平均レートを達成し得る。後者は、2kbpsボコーダにおいて使用され得ない。1/4レートプロトタイプピッチ周期(QPPP)は、周波数領域におけるプロトタイプ表現の振幅のデルタ符号化なしに、13ビット線スペクトル周波数(LSF:line spectral frequency)量子化を用いて、修正された様式で使用され得ることに留意されたい。一構成では、QPPPは、LSFのための13ビットと、プロトタイプ波形振幅のための12ビットと、プロトタイプ波形電力のための6ビットと、ピッチラグのための7ビットと、モードのための2ビットとを使用し、合計40ビットになり得る。
特に、本明細書で開示するシステムおよび方法は、(QPPPのために必要なシードを与え得る)過渡符号化モードのために使用され得る。(たとえば、2Kbpsボコーダにおける)この過渡符号化モードは、アップ過渡と、ダウン過渡と、有声過渡とをコーディングするための統合モデルを使用し得る。本明細書で開示するシステムおよび方法は、過渡符号化モードに特に適用され得るが、過渡符号化モードは、これらのシステムおよび方法が適用され得る唯一のコンテキストでない。それらは、追加または代替として、他の符号化モードに適用され得る。
本明細書で開示するシステムおよび方法は、ピッチ推定を実行することについて説明する。いくつかの構成では、ピッチラグを推定することは、線形予測コーディング(LPC:Linear Predictive Coding)残差中にインターピーク距離を含む候補ピッチ値を反復的にプルーニングすることによって部分的に達成され得る。超低ビットレートボコーダにおいて良好なコード化音声品質を生成するために正確なピッチ推定が必要とされ得る。いくつかの従来のピッチ推定アルゴリズムは、信号の長期統計値を使用して音声信号のフレームおよび/または対応するLPC残差からピッチを推定する。そのような推定値は、非定常フレームおよび過渡フレームについてしばしば信頼できない。言い換えれば、これは、非定常過渡音声フレームについて正確な推定値を与えないことがある。
明細書で開示するシステムおよび方法は、いくつかの候補の中から理想的な(たとえば、利用可能な最良の)ピッチ値を選択するために、音声フレーム中で短時間(たとえば、局所的)特性を使用することによって、および/または反復アルゴリズムを使用することによってより確実にピッチを推定し得る。これは、低ビットレートボコーダにおける音声品質を改善し、それにより、たとえば、記録または送信される音声品質を改善し得る。より詳細には、本明細書で開示するシステムおよび方法は、従来の技法よりも正確なピッチ推定値を提供し、したがって、ボコーダにおける低ビットレート符号化モードの音声品質が改善される推定アルゴリズムが使用され得る。
次に、図を参照しながら様々な構成について説明する。同様の参照番号は機能的に同様の要素を示し得る。本明細書で概して説明し、図に示すシステムおよび方法は、多種多様な異なる構成で構成および設計され得る。したがって、図に表されるいくつかの構成についての以下のより詳細な説明は、請求する範囲を限定するものではなく、システムおよび方法を代表するものにすぎない。
図1は、ピッチラグを推定するためのシステムおよび方法が実装され得る電子デバイス102の一構成を示すブロック図である。追加または代替として、音声信号を復号するためのシステムおよび方法は電子デバイス102中に実装され得る。電子デバイスA102はエンコーダ104を含み得る。エンコーダ104の一例は線形予測コーディング(LPC)エンコーダである。エンコーダ104は、電子デバイスA102によって音声信号106を符号化するために使用され得る。たとえば、エンコーダ104は、音声信号を合成するために使用され得るパラメータのセットを推定または生成することによって音声信号106を「圧縮された」フォーマットに符号化する。一構成では、そのようなパラメータは、音声信号106を合成するために使用され得るピッチ(たとえば、周波数)、振幅およびホルマント(たとえば、共振)の推定値を表し得る。エンコーダ104は、本明細書で開示するシステムおよび方法に従ってピッチラグを推定するピッチ推定ブロック/モジュール126を含み得る。本明細書で使用する「ブロック/モジュール」という用語は、特定の要素がハードウェア、ソフトウェアまたは両方の組合せにおいて実装され得ることを示すために使用され得る。ピッチ推定ブロック/モジュール126が様々な方法で実装され得ることに留意されたい。たとえば、ピッチ推定ブロック/モジュール126は、ピーク探索ブロック/モジュール128、信頼性測定ブロック/モジュール134および/またはピッチラグ決定ブロック/モジュール138を備え得る。他の構成では、ピッチ推定ブロック/モジュール126内に含まれているものとして示されるブロック/モジュールのうちの1つまたは複数は、省略される、および/または他のブロック/モジュールと置き換えられ得る。追加または代替として、ピッチ推定ブロック/モジュール126は、線形予測コーディング(LPC)分析ブロック/モジュール122など、他のブロック/モジュールを含むものとして定義され得る。
電子デバイスA102は音声信号106を取得し得る。一構成では、電子デバイスA102は、マイクロフォンを使用して音響信号をキャプチャおよび/またはサンプリングすることによって音声信号106を取得する。別の構成では、電子デバイスA102は、別のデバイス(たとえば、Bluetooth(登録商標)ヘッドセット、ユニバーサルシリアルバス(USB)ドライブ、セキュアデジタル(SD)カード、ネットワークインターフェース、ワイヤレスマイクロフォンなど)から音声信号106を受信する。音声信号106はフレーミングブロック/モジュール108に与えられ得る。
電子デバイスA102は、フレーミングブロック/モジュール108を使用して音声信号106を1つまたは複数のフレーム110にセグメント化し得る。たとえば、フレーム110は、特定の数の音声信号106サンプルを含み、および/または音声信号106のある時間量(たとえば、10〜20ミリ秒)を含み得る。音声信号106がフレーム110にセグメント化されるとき、フレーム110は、それらが含んでいる信号に従って分類され得る。たとえば、フレーム110は、有声フレーム、無声フレーム、無音フレームまたは過渡フレームであり得る。本明細書で開示するシステムおよび方法は、フレーム110(たとえば、過渡フレーム、有声フレームなど)中のピッチラグを推定するために使用され得る。
過渡フレームは、たとえば、ある音声クラスと別の音声クラスとの間の境界上に位置し得る。たとえば、音声信号106は、無声音(たとえば、f、s、sh、thなど)から有声音(たとえば、a、e、i、o、uなど)に遷移し得る。いくつかの過渡タイプは、(たとえば、音声信号106の無声部分から有声部分に遷移するときの)アップ過渡、破裂音、有声過渡(たとえば、線形予測コーディング(LPC)変更およびピッチラグ変動)、ならびに(たとえば、単語の末尾など、音声信号106の有声部分から無声または無音部分に遷移するときの)ダウン過渡を含む。2つの音声クラスの中間のフレーム110は過渡フレームであり得る。従来の手法は、過渡フレームにおいて正確なピッチラグ推定値を与えないことがあるので、本明細書で開示するシステムおよび方法は過渡フレームに有利に適用され得る。ただし、本明細書で開示するシステムおよび方法は、他の種類のフレームに適用され得ることに留意されたい。
エンコーダ104は、フレーム110に対して線形予測分析(たとえば、LPC分析)を実行するための線形予測コーディング(LPC)分析ブロック/モジュール122を使用し得る。LPC分析ブロック/モジュール122は、追加または代替として、他のフレーム110からの(たとえば、前のフレーム110からの)1つまたは複数のサンプルを使用し得ることに留意されたい。LPC分析ブロック/モジュール122は1つまたは複数のLPC係数120を生成し得る。LPC係数120は量子化ブロック/モジュール118に与えられ得、量子化ブロック/モジュール118は1つまたは複数の量子化LPC係数116を生成し得る。量子化LPC係数116と、1つまたは複数のフレーム110からの1つまたは複数のサンプルとは、残差信号114を決定するために使用され得る、残差決定ブロック/モジュール112に与えられ得る。たとえば、残差信号114は、ホルマントまたはホルマントの効果を音声信号106から削除した、音声信号106のフレーム110を含み得る。残差信号114はピッチ推定ブロック/モジュール126に与えられ得る。
エンコーダ104は、ピッチ推定ブロック/モジュール126を含み得る。図1に示す例では、ピッチ推定ブロック/モジュール126は、ピーク探索ブロック/モジュール128と、信頼性測定ブロック/モジュール134と、ピッチラグ決定ブロック/モジュール138とを含む。ただし、ピーク探索ブロック/モジュール128および/または信頼性測定ブロック/モジュール134は、随意であり得、1つまたは複数のピッチ(たとえば、ピッチラグ)候補132および/または信頼性測定値136を決定する1つまたは複数の他のブロック/モジュールと置き換えられ得る。図1に示すように、ピッチラグ決定ブロック/モジュール138は、反復的プルーニングアルゴリズム140を利用し得る。ただし、反復的プルーニングアルゴリズム140は、随意であり得、本明細書で開示するシステムおよび方法のいくつかの構成では省略され得る。言い換えれば、ピッチラグ決定ブロック/モジュール138は、いくつかの構成では反復的プルーニングアルゴリズム140を使用せずにピッチラグを決定し得、たとえば、ピッチラグ142を決定するための平滑化または平均化アルゴリズムなど、何らかの他の手法またはアルゴリズムを使用し得る。
ピーク探索ブロック/モジュール128は残差信号114中のピークを探索し得る。言い換えれば、エンコーダ104は、残差信号114中のピーク(たとえば、高いエネルギーの領域)を探索し得る。これらのピークは識別されて、ピークのリストまたはセットが取得され得る。ピークのリストまたはセット中のピークロケーションは、たとえば、サンプル数および/または時間に関して指定され得る。ピークのリストまたはセットを取得することに関するさらなる詳細を以下に与える。
ピーク探索ブロック/モジュール128は、候補決定ブロック/モジュール130を含み得る。候補決定ブロック/モジュール130は、1つまたは複数の候補ピッチラグ132を決定するために、ピークのセットを使用し得る。「ピッチラグ」は、フレーム110中の2つの連続するピッチスパイク間の「距離」であり得る。ピッチラグは、たとえば、サンプル数および/または時間量において指定され得る。一構成では、ピーク探索ブロック/モジュール128は、ピッチラグ候補132を決定するために、ピーク間の距離を決定し得る。ほとんど一定のボイスまたは音声信号では、ピッチラグはほぼ一定のままであり得る。
ピッチラグを推定するための一部の従来の方法は自己相関を使用する。それらの手法では、LPC残差は、相関を行うために、それ自体に対してスライドされる。それらの手法では、最大自己相関値を有する相関またはピッチラグのどちらかがフレームのピッチであると決定され得る。それらの手法は、音声フレームがほとんど一定であるときに機能し得る。しかしながら、過渡フレーム中でなど、ピッチ構造があまり一定でないことがある他のフレームがある。音声フレームが一定であるときでも、従来の手法は、システム中の雑音のためにあまり正確なピッチ推定値を提供しないことがある。雑音は、残差がどのくらい「ピーキー」であるかを低減し得る。たとえば、そのような場合、従来の手法は、あまり正確でないピッチ推定値を決定することになる。
ピーク探索ブロック/モジュール128は、相関手法を使用してピッチラグ候補132のセットを取得し得る。たとえば、候補ピッチラグ132のセットは、候補決定ブロック/モジュール130によって最初に決定され得る。次いで、候補ピッチラグのセットに対応する信頼性尺度136のセットは、候補ピッチラグ132のセットに基づいて信頼性測定ブロック/モジュール134によって決定され得る。より詳細には、ピッチラグ候補132の各々について、第1のセットは、ピッチラグ候補132のセットであり得、第2のセットは、信頼性尺度136のセットであり得る。したがって、たとえば、第1の信頼性尺度または値は、第1のピッチラグ候補などに対応し得る。したがって、ピッチラグ候補132のセットと信頼性尺度136のセットとが「構築される」か、または決定され得る。信頼性尺度136のセットは、推定ピッチラグ142の精度を改善するために使用され得る。一構成では、信頼性尺度136のセットは相関のセットであり得、各値は、(基本的には)ピッチラグ候補に対応するピッチラグにおける相関であり得る。言い換えれば、各特定のピッチラグについての相関係数は、ピッチラグ候補132の距離の各々についての信頼性尺度を構成し得る。
ピッチラグ候補132のセットおよび/または信頼性尺度136のセットは、ピッチラグ決定ブロック/モジュール138に与えられ得る。ピッチラグ決定ブロック/モジュール138は、1つまたは複数のピッチラグ候補132に基づいてピッチラグ142を決定し得る。いくつかの構成では、ピッチラグ決定ブロック/モジュール138は、(1つまたは複数のピッチラグ候補132に加えて)1つまたは複数の信頼性尺度136に基づいてピッチラグ142を決定し得る。たとえば、ピッチラグ決定ブロック/モジュールは、ピッチラグ値のうちの1つを選択するために反復的プルーニングアルゴリズム140を使用し得る。反復的プルーニングアルゴリズム140に関するさらなる詳細を以下に与える。選択されたピッチラグ142値は、「真の」ピッチラグの推定値であり得る。
他の構成では、ピッチラグ決定ブロック/モジュール138は、ピッチラグ142を決定するために何らかの他の手法を使用し得る。たとえば、ピッチラグ決定ブロック/モジュール138は、反復的プルーニングアルゴリズム140の代わりに、あるいはそれに加えて平均化または平滑化アルゴリズムを使用し得る。
ピッチラグ決定ブロック/モジュール138によって決定されたピッチラグ142は、励起合成ブロック/モジュール148とスケールファクタ決定ブロック/モジュール152とに与えられ得る。励起合成ブロック/モジュール148は、ピッチラグ142とプロトタイプ波形生成ブロック/モジュール144によって与えられた波形146とに基づいて励起150を生成するか、または合成し得る。一構成では、プロトタイプ波形生成ブロック/モジュール144は、ピッチラグ142に基づいて波形146を生成し得る。励起150、ピッチラグ142および/または量子化LPC係数116は、スケールファクタ決定ブロック/モジュール152に与えられ得、スケールファクタ決定ブロック/モジュール152は、励起150、ピッチラグ142および/または量子化LPC係数116に基づいて利得154のセットを生成し得る。利得154のセットは利得量子化ブロック/モジュール156に与えられ得、利得量子化ブロック/モジュール156は、利得154のセットを量子化して量子化利得158のセットを生成する。
ピッチラグ142、量子化LPC係数116および/または量子化利得158は、符号化音声信号と呼ばれることがある。符号化音声信号は、合成音声信号を生成するために復号され得る。ピッチラグ142、量子化LPC係数116および/または量子化利得158(たとえば、符号化音声信号)は、別のデバイスに送信されるか、記憶されるか、および/または復号され得る。
一構成では、電子デバイスA102は送信(TX)および/または受信(RX)ブロック/モジュール160を含み得る。ピッチラグ142、量子化LPC係数116および/または量子化利得158は、TX/RXブロック/モジュール160に与えられ得る。TX/RXブロック/モジュール160は、ピッチラグ142、量子化LPC係数116および/または量子化利得158を送信に適したフォーマットにフォーマットし得る。たとえば、TX/RXブロック/モジュール160は、ピッチラグ142、量子化LPC係数116および/または量子化利得158を1つまたは複数のメッセージ166として符号化、変調、スケーリング(たとえば、増幅)および/または場合によってはフォーマットし得る。TX/RXブロック/モジュール160は、1つまたは複数のメッセージ166を、電子デバイスB168など、別のデバイスに送信し得る。1つまたは複数のメッセージ166は、ワイヤレスおよび/またはワイヤード接続またはリンクを使用して送信され得る。いくつかの構成では、1つまたは複数のメッセージ166は、衛星、基地局、ルータ、スイッチおよび/または他のデバイスもしくは媒体によって電子デバイスB168に中継され得る。
電子デバイスB168は、TX/RXブロック/モジュール170を使用して、電子デバイスA102によって送信された1つまたは複数のメッセージ166を受信し得る。TX/RXブロック/モジュール170は、1つまたは複数の受信メッセージ166を復号し、復調し、および/または他の方法でデフォーマットして符号化音声信号172を生成し得る。符号化音声信号172は、たとえば、ピッチラグ、量子化LPC係数および/または量子化利得を備え得る。符号化音声信号172は、デコーダ174(たとえば、LPCデコーダ)に与えられ得、デコーダ174は、合成音声信号176を生成するために符号化音声信号172を復号(たとえば、合成)し得る。合成音声信号176は、トランスデューサ(たとえば、スピーカー)を使用して音響信号(たとえば、出力)に変換され得る。電子デバイスB168は、本明細書で開示するシステムおよび方法を使用するために必要ではないが、本明細書で開示するシステムおよび方法が使用され得る1つの可能な構成の一部として図示されていることに留意されたい。
別の構成では、ピッチラグ142、量子化LPC係数116および/または量子化利得158(たとえば、符号化音声信号)は、(電子デバイスA102上の)デコーダ162に与えられ得る。デコーダ162は、ピッチラグ142、量子化LPC係数116および/または量子化利得158を使用して、合成音声信号164を生成し得る。合成音声信号164は、たとえば、スピーカーを使用して出力され得る。たとえば、電子デバイスA102は、音声信号106を符号化し、それをメモリに記憶するデジタルボイスレコーダであり得、音声信号106は、次いで、合成音声信号164を生成するために復号され得る。合成音声信号164は、トランスデューサ(たとえば、スピーカー)を使用して音響信号(たとえば、出力)に変換され得る。デコーダ162は、本明細書で開示するシステムおよび方法に従ってピッチラグを推定するために必要ではないが、本明細書で開示するシステムおよび方法が使用され得る1つの可能な構成の一部として図示されていることに留意されたい。電子デバイスA102上のデコーダ162と、電子デバイスB168上のデコーダ174とは同様の機能を実行し得る。
図2は、ピッチラグを推定するための方法200の一構成を示す流れ図である。たとえば、電子デバイス102は、音声信号106のフレーム110中のピッチラグを推定するために、図2に示す方法200を実行し得る。電子デバイス102は、202において現在フレーム110を取得する。一構成では、電子デバイス102は、202において、マイクロフォンを使用して音響音声信号をキャプチャすることによって、電子音声信号106を取得する。追加または代替として、電子デバイス102は、別のデバイスから音声信号106を受信し得る。電子デバイス102は、次いで、音声信号106を1つまたは複数のフレーム110にセグメント化し得る。たとえば、フレーム110は、10〜20ミリ秒の長さを有するいくつかのサンプルを含み得る。
電子デバイス102は、204において、線形予測(たとえば、LPC)係数120のセットを取得するために、現在フレーム110と、現在フレーム110より前の信号とを使用して線形予測分析を実行する。たとえば、電子デバイス102は、ルックアヘッドバッファと、現在の音声フレーム110より前の音声信号106の少なくとも1つのサンプルを含んでいるバッファとを使用して、LPC係数120を取得し得る。
電子デバイス102は、206において、LPC係数120のセットに基づいて量子化線形予測(たとえば、LPC)係数116のセットを決定する。たとえば、電子デバイス102は、206において量子化LPC係数116のセットを決定するために、LPC係数120のセットを量子化する。
電子デバイス102は、208において、現在フレーム110と量子化LPC係数116とに基づいて残差信号114を取得する。たとえば、電子デバイス102は、フレーム110からLPC係数116(たとえば、ホルマント)の効果を削除して、208において残差信号114を取得する。
電子デバイス102は、210において残差信号114に基づいてピークロケーションのセットを決定する。たとえば、電子デバイスは、LPC残差信号114を探索して、ピークロケーションのセットを決定し得る。ピークロケーションは、たとえば、時間および/またはサンプル数に関して記述され得る。
一構成では、電子デバイス102は、210において、以下のようにピークロケーションのセットを決定する。電子デバイス102は、(LPC)残差信号114と所定のウィンドウ信号とのサンプルの絶対値に基づいて包絡線信号を計算し得る。電子デバイス102は、次いで、包絡線信号と包絡線信号の時間シフトバージョンとの間の差に基づいて第1の勾配信号を計算し得る。電子デバイス102は、第1の勾配信号と第1の勾配信号の時間シフトバージョンとの間の差に基づいて第2の勾配信号を計算し得る。電子デバイス102は、次いで、第2の勾配信号値が所定の負しきい値を下回る第1のロケーションインデックスのセットを選択し得る。電子デバイス102はまた、包絡線値が包絡線中の最大値に対する所定のしきい値を下回るロケーションインデックスをなくすことによって、第1のロケーションインデックスのセットから第2のロケーションインデックスのセットを決定し得る。さらに、電子デバイス102は、近隣のロケーションインデックスに対する所定の差分しきい値でないロケーションインデックスをなくすことによって、第2のロケーションインデックスのセットから第3のロケーションインデックスのセットを決定し得る。ロケーションインデックス(たとえば、第1、第2および/または第3のセット)は、ピークの決定されたセットのロケーションに対応し得る。
電子デバイス102は、212において、ピークロケーションのセットに基づいてピッチラグ候補132のセットを取得する。たとえば、電子デバイス102は、順序付けされたピークロケーションのセットを生じるようにピークロケーションのセットを昇順に配列し得る。電子デバイス102は、次いで、順序付けされたピークロケーションのセット中の連続するピークロケーションペア間の距離を計算し得る。連続するピークロケーションペア間の距離は、ピッチラグ候補132のセットであり得る。
いくつかの構成では、電子デバイス102は、ピッチラグ候補132のセットに、現在フレームの(LPC)残差信号114に基づいて計算された第1の近似ピッチラグ値を追加し得る。一例では、電子デバイス102は、以下のように第1の近似ピッチラグ値を計算または推定し得る。電子デバイス102は、現在フレーム110の(LPC)残差信号114に基づいて自己相関値を推定し得る。電子デバイス102は、所定の範囲のロケーション内の自己相関値の最大値を求めて探索し得る。電子デバイス102はまた、第1の近似ピッチラグ値を、最大値が生じるロケーションとして設定または決定し得る。この第1の近似ピッチラグ値は、ピッチラグ候補132のセットに追加され得る。第1の近似ピッチラグ値は、ピッチ推定の典型的な自己相関技法によって決定されたピッチラグ値であり得る。1つの例示的な推定技法は、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, 70, and 73 for Wideband Spread Spectrum Digital Systems」と題する3GPP2文書C.S0014Dのセクション4.6.3に見つけることができる。
いくつかの構成では、電子デバイス102は、さらに、ピッチラグ候補132のセットに、前フレームの(LPC)残差信号114に基づいて計算された第2の近似ピッチラグ値を追加し得る。一例では、電子デバイス102は、以下のように第2の近似ピッチラグ値を計算または推定し得る。電子デバイス102は、前フレーム110の(LPC)残差信号114に基づいて自己相関値を推定し得る。電子デバイス102は、所定の範囲のロケーション内の自己相関値の最大値を求めて探索し得る。電子デバイス102はまた、第2の近似ピッチラグ値を、最大値が生じるロケーションとして設定または決定し得る。電子デバイス102は、ピッチラグ候補132のセットに、この第2の近似ピッチラグ値を追加し得る。第2の近似ピッチラグ値は、前フレームからのピッチラグ値であり得る。
電子デバイス102は、214において、ピッチラグ候補132のセットに基づいてピッチラグ142を推定する。一構成では、電子デバイス102は、214において、平滑化または平均化アルゴリズムを使用して、ピッチラグ142を推定する。たとえば、ピッチラグ決定ブロック/モジュール138は、ピッチラグ候補132のすべての平均を計算して、推定ピッチラグ142を生成し得る。別の構成では、電子デバイス102は、214において、反復的プルーニングアルゴリズム140を使用して、ピッチラグ142を推定する。反復的プルーニングアルゴリズム140に関するさらなる詳細を以下に与える。
推定ピッチラグ142は、合成励起150および/または利得係数154を生成するために使用され得る。追加または代替として、推定ピッチラグ142は、デコーダ162、174に記憶、送信および/または与えられ得る。たとえば、デコーダ162、174は、推定ピッチラグ142を使用して、合成音声信号164、176を生成し得る。
図3は、残差信号114からのピーク378の一例を示す図である。上記で説明したように、電子デバイス102は、残差信号114を使用して、ピークロケーション378のセットを決定し得、そこから(インターピーク)距離380(たとえば、ピッチラグ候補132)のセットが決定され得る。たとえば、電子デバイス102は、210において、図2に関して上記で説明したように、ピークロケーション378a〜dのセットを決定する。電子デバイス102はまた、インターピーク距離380a〜c(たとえば、ピッチラグ候補132)のセットを決定し得る。(たとえば、連続するピーク378間の)インターピーク距離380a〜cが、たとえば、時間単位またはサンプル数で指定され得ることに留意されたい。一構成では、電子デバイス102は、図2に関して上記で説明したように、212においてピッチラグ候補132(たとえば、インターピーク距離380a〜c)のセットを取得する。インターピーク距離380a〜cまたはピッチラグ候補132のセットは、ピッチラグを推定するために使用され得る。図3では、軸のセット上にインターピーク距離380a〜cのセットが示されており、水平軸は、ミリ秒単位の時間で示され、垂直軸は、波形の振幅(たとえば、信号振幅)をプロットしている。たとえば、図示された信号振幅は、電圧、電流または圧力変動であり得る。
図4は、ピッチラグを推定するための方法400の別の構成を示す流れ図である。電子デバイス102は、402において音声信号106を取得する。たとえば、電子デバイス102は、別のデバイスから音声信号106を受信する、および/またはマイクロフォンを使用して音声信号106をキャプチャし得る。
電子デバイス102は、404において、音声信号に基づいてピッチラグ候補のセットを取得する。たとえば、電子デバイス102は、404において、当技術分野で知られている任意の方法に従ってピッチラグ候補のセットを取得する。代替的に、電子デバイス102は、404において、図2に関して上記で説明したように、本明細書で開示するシステムおよび方法に従ってピッチラグ候補132のセットを取得する。
電子デバイス102は、406において、ピッチラグ候補132のセットに対応する信頼性尺度136のセットを決定する。一例では、信頼性尺度136のセットは、相関のセットであり得る。たとえば、電子デバイス102は、信号包絡線と、順序付けされたピークロケーションのセット中の連続するピークロケーションペアとに基づいて、ピッチラグ候補132のセットに対応する相関のセットを計算し得る。一構成では、電子デバイス102は、以下のように相関のセットを計算し得る。順序付けされたピークロケーションのセット中のピークロケーションの各ペアについて、電子デバイス102は、ピークロケーションのペア中の第1のピークロケーションの周りの所定の範囲に基づいて第1の信号バッファを選択し得る。電子デバイス102はまた、ピークロケーションのペア中の第2のピークロケーションの周りの所定の範囲に基づいて第2の信号バッファを選択し得る。次いで、電子デバイス102は、第1の信号バッファと第2の信号バッファとの間の正規化相互相関を計算し得る。この正規化相互相関は、信頼性尺度136または相関のセットに追加され得る。順序付けされたピークロケーションのセット中のピークロケーションの各ペアについて、このプロシージャが続き得る。
いくつかの構成では、電子デバイス102は、ピッチラグ候補132のセットに、現在フレーム110の(LPC)残差信号114に基づいて計算された第1の近似ピッチラグ値を追加し得る。電子デバイス102はまた、信頼性尺度136または相関のセットに、第1の近似ピッチラグ値に対応する第1のピッチ利得を追加し得る。
一例では、電子デバイス102は、以下のように第1の近似ピッチラグ値と対応する第1のピッチ利得値とを計算または推定し得る。電子デバイス102は、現在フレーム110の(LPC)残差信号114に基づいて自己相関値を推定し得る。電子デバイス102は、所定の範囲のロケーション内の自己相関値の最大値を求めて探索し得る。電子デバイス102はまた、第1の近似ピッチラグ値を、最大値が生じるロケーションとして設定または決定し、および/あるいは第1のピッチ利得値を、ピッチラグにおける正規化自己相関として設定または決定し得る。
電子デバイス102は、ピッチラグ候補132のセットに、前フレーム110の(LPC)残差信号114に基づいて計算された第2の近似ピッチラグ値を追加し得る。電子デバイス102は、さらに、信頼性尺度136または相関のセットに、第2の近似ピッチラグ値に対応する第2のピッチ利得を追加し得る。
一構成では、電子デバイス102は、以下のように第2の近似ピッチラグ値と対応する第2のピッチ利得値とを計算または推定し得る。電子デバイス102は、前フレーム110の(LPC)残差信号114に基づいて自己相関値を推定し得る。電子デバイス102は、所定の範囲のロケーション内の自己相関値の最大値を求めて探索し得る。電子デバイス102はまた、第2の近似ピッチラグ値を、最大値が生じるロケーションとして設定または決定し、および/あるいは第2のピッチ利得値を、ピッチラグにおける正規化自己相関として設定または決定し得る。
電子デバイス102は、408において、反復的プルーニングアルゴリズムを使用してピッチラグ候補のセットと信頼性尺度136のセットとに基づいてピッチラグを推定する。反復的プルーニングアルゴリズムの一例では、電子デバイス102は、ピッチラグ候補132のセットと信頼性尺度136のセットとに基づいて加重平均を計算し得る。電子デバイス102は、ピッチラグ候補132のセットの中で、加重平均から最も遠いピッチラグ候補を決定し得る。電子デバイス102は、次いで、ピッチラグ候補132のセットから、加重平均から最も遠いピッチラグ候補を削除し得る。削除されたピッチラグ候補に対応する信頼性尺度は、信頼性尺度136のセットから削除され得る。このプロシージャは、残っているピッチラグ候補132の数が指定された数まで低減されるまで繰り返され得る。ピッチラグ142は、次いで、1つまたは複数の残りのピッチラグ候補132に基づいて決定され得る。たとえば、ただ1つしか残っていない場合、残っている最後のピッチラグ候補がピッチラグとして決定され得る。2つ以上のピッチラグ候補が残っている場合、電子デバイス102は、たとえば、ピッチラグ142を残りの候補の平均として決定し得る。
図5は、ピッチラグを推定するための方法500のより具体的な構成を示す流れ図である。電子デバイス102は、502において現在フレーム110を取得する。一構成では、電子デバイス102は、502において、マイクロフォンを使用して音響音声信号をキャプチャすることによって、電子音声信号106を取得する。追加または代替として、電子デバイス102は、別のデバイスから音声信号106を受信し得る。電子デバイス102は、次いで、音声信号106を1つまたは複数のフレーム110にセグメント化し得る。
電子デバイス102は、504において、線形予測(たとえば、LPC)係数120のセットを取得するために、現在フレーム110と、現在フレーム110より前の信号とを使用して線形予測分析を実行する。たとえば、電子デバイス102は、ルックアヘッドバッファと、現在の音声フレーム110より前の音声信号106の少なくとも1つのサンプルを含んでいるバッファとを使用して、LPC係数120を取得し得る。
電子デバイス102は、506において、量LPC係数120のセットに基づいて量子化LPC係数116のセットを決定する。たとえば、電子デバイス102は、506において、量子化LPC係数116のセットを決定するために、LPC係数120のセットを量子化する。
電子デバイス102は、508において、現在フレーム110と量子化LPC係数116とに基づいて残差信号114を取得する。たとえば、電子デバイス102は、508において、フレーム110からLPC係数116(たとえば、ホルマント)の効果を削除して、残差信号114を取得する。
電子デバイス102は、510において、残差信号114に基づいてピークロケーションのセットを決定する。たとえば、電子デバイスは、LPC残差信号114を探索して、ピークロケーションのセットを決定し得る。ピークロケーションは、たとえば、時間および/またはサンプル数に関して記述され得る。
一構成では、電子デバイス102は、510において、以下のようにピークロケーションのセットを決定する。電子デバイス102は、(LPC)残差信号114と所定のウィンドウ信号とのサンプルの絶対値に基づいて包絡線信号を計算し得る。電子デバイス102は、次いで、包絡線信号と包絡線信号の時間シフトバージョンとの間の差に基づいて第1の勾配信号を計算し得る。電子デバイス102は、第1の勾配信号と第1の勾配信号の時間シフトバージョンとの間の差に基づいて第2の勾配信号を計算し得る。電子デバイス102は、次いで、第2の勾配信号値が所定の負しきい値を下回る第1のロケーションインデックスのセットを選択し得る。電子デバイス102はまた、包絡線値が包絡線中の最大値に対する所定のしきい値を下回るロケーションインデックスをなくすことによって、第1のロケーションインデックスのセットから第2のロケーションインデックスのセットを決定し得る。さらに、電子デバイス102は、近隣のロケーションインデックスに対する所定の差分しきい値でないロケーションインデックスをなくすことによって、第2のロケーションインデックスのセットから第3のロケーションインデックスのセットを決定し得る。ロケーションインデックス(たとえば、第1、第2および/または第3のセット)は、ピークの決定されたセットのロケーションに対応し得る。
電子デバイス102は、512において、ピークロケーションのセットに基づいてピッチラグ候補132のセットを取得する。たとえば、電子デバイス102は、順序付けされたピークロケーションのセットを生じるようにピークロケーションのセットを昇順に配列し得る。電子デバイス102は、次いで、順序付けされたピークロケーションのセット中の連続するピークロケーションペア間の距離を計算し得る。連続するピークロケーションペア間の距離は、ピッチラグ候補132のセットであり得る。
電子デバイス102は、514において、ピッチラグ候補132のセットに対応する信頼性尺度136のセットを決定する。一例では、信頼性尺度136のセットは、相関のセットであり得る。たとえば、電子デバイス102は、信号包絡線と、順序付けされたピークロケーションのセット中の連続するピークロケーションペアとに基づいて、ピッチラグ候補132のセットに対応する相関のセットを計算し得る。一構成では、電子デバイス102は、以下のように相関のセットを計算し得る。順序付けされたピークロケーションのセット中のピークロケーションの各ペアについて、電子デバイス102は、ピークロケーションのペア中の第1のピークロケーションの周りの所定の範囲に基づいて第1の信号バッファを選択し得る。電子デバイス102はまた、ピークロケーションのペア中の第2のピークロケーションの周りの所定の範囲に基づいて第2の信号バッファを選択し得る。次いで、電子デバイス102は、第1の信号バッファと第2の信号バッファとの間の正規化相互相関を計算し得る。この正規化相互相関は、信頼性尺度136または相関のセットに追加され得る。順序付けされたピークロケーションのセット中のピークロケーションの各ペアについて、このプロシージャが続き得る。
電子デバイス102は、516において、ピッチラグ候補132のセットに、現在フレーム110の(LPC)残差信号114に基づいて計算された第1の近似ピッチラグ値を追加する。電子デバイス102はまた、518において、信頼性尺度136または相関のセットに、第1の近似ピッチラグ値に対応する第1のピッチ利得を追加する。
一例では、電子デバイス102は、以下のように第1の近似ピッチラグ値と対応する第1のピッチ利得値とを計算または推定し得る。電子デバイス102は、現在フレーム110の(LPC)残差信号114に基づいて自己相関値を推定し得る。電子デバイス102は、所定の範囲のロケーション内の自己相関値の最大値を求めて探索し得る。電子デバイス102はまた、第1の近似ピッチラグ値を、最大値が生じるロケーションとして設定または決定し、および/あるいは第1のピッチ利得値を、ピッチラグにおける正規化自己相関として設定または決定し得る。
電子デバイス102は、520において、ピッチラグ候補132のセットに、前フレーム110の(LPC)残差信号114に基づいて計算された第2の近似ピッチラグ値を追加する。電子デバイス102は、さらに、522において、信頼性尺度136または相関のセットに、第2の近似ピッチラグ値に対応する第2のピッチ利得を追加する。
一構成では、電子デバイス102は、以下のように第2の近似ピッチラグ値と対応する第2のピッチ利得値とを計算または推定し得る。電子デバイス102は、前フレーム110の(LPC)残差信号114に基づいて自己相関値を推定し得る。電子デバイス102は、所定の範囲のロケーション内の自己相関値の最大値を求めて探索し得る。所定の範囲のロケーションは、たとえば、20〜140であり得、これは、8キロヘルツ(kHz)のサンプリングレートにおいて人間の音声に対するピッチラグの典型的な範囲である。電子デバイス102はまた、第2の近似ピッチラグ値を、最大値が生じるロケーションとして設定または決定し、および/あるいは第2のピッチ利得値を、ピッチラグにおける正規化自己相関として設定または決定し得る。
電子デバイス102は、524において、反復的プルーニングアルゴリズム140を使用してピッチラグ候補132のセットと信頼性尺度136のセットとに基づいてピッチラグを推定する。反復的プルーニングアルゴリズム140の一例では、電子デバイス102は、ピッチラグ候補132のセットと信頼性尺度136のセットとに基づいて加重平均を計算し得る。電子デバイス102は、ピッチラグ候補132のセットの中で、加重平均から最も遠いピッチラグ候補を決定し得る。電子デバイス102は、次いで、ピッチラグ候補132のセットから、加重平均から最も遠いピッチラグ候補を削除し得る。削除されたピッチラグ候補に対応する信頼性尺度は、信頼性尺度136のセットから削除され得る。このプロシージャは、残っているピッチラグ候補132の数が指定された数まで低減されるまで繰り返され得る。ピッチラグ142は、次いで、1つまたは複数の残りのピッチラグ候補132に基づいて決定され得る。たとえば、ただ1つしか残っていない場合、残っている最後のピッチラグ候補がピッチラグとして決定され得る。2つ以上のピッチラグ候補が残っている場合、電子デバイス102は、たとえば、ピッチラグ142を残りの候補の平均として決定し得る。
図5に示す方法500を使用することは、特に、過渡フレーム、および従来のピッチラグ推定値があまり正確でないことがある他の種類のフレームにとって有益であり得る。ただし、図5に示す方法500は、他のクラスまたは種類のフレーム(たとえば、模範的なボイスまたは音声フレーム)に適用され得る。いくつかの構成では、図5に示す方法500は、いくつかの種類のフレーム(たとえば、過渡および/または多雑音フレームなど)に選択的に適用され得る。
図6は、反復的プルーニングアルゴリズム140を使用してピッチラグを推定するための方法600の一構成を示す流れ図である。一構成では、プルーニングアルゴリズム140は、以下のように指定され得る。プルーニングアルゴリズム140は、ピッチラグ候補132のセット({di}として示される)と信頼性尺度(たとえば、相関)136のセット({ci}として示される)とを使用し得る。i=1,...,Lであり、Lは、ピッチラグ候補の数であり、L>Nである。Nは、プルーニング後に残されるべきピッチラグ候補の所望の数を表し得る指定された数である。一構成では、N=1である。
電子デバイス102は、602において、ピッチラグ候補132のセット{di}と信頼性尺度(たとえば、相関)136のセット{ci}とに基づいて、加重平均(Mwとして示される)を計算する。これは、式(1)に示すように、L個の候補について行われ得る。
Figure 2013537324
電子デバイス102は、604において、ピッチラグ候補132のセットの中で、加重平均から最も遠いピッチラグ候補(dkとして示される)を決定する。たとえば、電子デバイス102は、dkについての平均からの距離が他のピッチラグ候補のすべてについての平均からの距離よりも長くなるようなdkを見つけ得る。このプロシージャの一例を式(2)に示す。
Figure 2013537324
電子デバイス102は、ピッチラグ候補132のセット{di}から、加重平均から最も遠いピッチラグ候補dkを削除する606(たとえば、プルーニングする)。電子デバイスは、608において、信頼性尺度(たとえば、相関)136のセット{ci}から、加重平均から最も遠いピッチラグ候補に対応する信頼性尺度(たとえば、相関)ckを削除する。残りのピッチラグ候補の数(たとえば、値L)は、(たとえば、ピッチラグ候補がそれのセット132から削除される606とき、および/または信頼性尺度がそれのセット136から削除されるとき)1だけ低減され得る。たとえば、L=L−1となる。
電子デバイス102は、610において、残りのピッチラグ候補の数(たとえば、L)が指定された数(たとえば、N)に等しいかどうかを判定する。たとえば、電子デバイス102は、指定された数に等しい、1つまたは複数のピッチラグ候補が残っている(たとえば、L=N=1)かどうかを判定し得る。指定された数よりも多くピッチラグ候補が残っていた場合、電子デバイス102は、加重平均から最も遠い候補を発見し、削除するために、加重平均を計算する602ことに戻る。言い換えれば、方法600中の最初の4つのステップ602、604、606、608は、残りのピッチラグ候補の数が指定された数まで低減されるまで反復または繰り返され得る。
残りの候補の数(たとえば、L)が指定された数(たとえば、N)に等しい場合、電子デバイス102は、612において、(ピッチラグ候補132のセット中の)1つまたは複数の残りのピッチラグ候補に基づいてピッチラグを決定する。指定された数(たとえば、N)が1であった場合、612において、たとえば、最後に残ったピッチラグ候補をピッチラグ142として決定する。別の例では、指定された数(たとえば、N)が1よりも大きい場合、電子デバイス102は、ピッチラグ142を、残りのピッチラグ候補の平均(たとえば、セット{di}中のN個の残りのピッチラグ候補の平均)として決定612する。
図7は、ピッチラグを推定するためのシステムおよび方法が実装され得るエンコーダ704の一構成を示すブロック図である。エンコーダ704の一例は線形予測コーディング(LPC)エンコーダである。エンコーダ704は、電子デバイスによって音声信号706を符号化するために使用され得る。たとえば、エンコーダ704は、パラメータのセットを推定または生成することによって音声信号706を「圧縮された」フォーマットに符号化する。一構成では、そのようなパラメータは、ピッチラグ742(推定値)、1つまたは複数の量子化利得758および/または量子化LPC係数716を含み得る。これらのパラメータは、音声信号706を合成するために使用され得る。
エンコーダ704は、本明細書で開示するシステムおよび方法に従ってピッチラグを推定するために使用され得る1つまたは複数のブロック/モジュールを含み得る。一構成では、これらのブロック/モジュールは、ピッチ推定ブロック/モジュール726と呼ばれることがある。ピッチ推定ブロック/モジュール726が様々な方法で実装され得ることに留意されたい。たとえば、ピッチ推定ブロック/モジュール726は、ピーク探索ブロック/モジュール728、信頼性測定ブロック/モジュール734および/またはピッチラグ決定ブロック/モジュール738を備え得る。他の構成では、ピッチ推定ブロック/モジュール726は、これらのブロック/モジュール728、734、738のうちの1つまたは複数を省略するか、またはそれら728、734、738のうちの1つまたは複数を他のブロック/モジュールと置き換え得る。追加または代替として、ピッチ推定ブロック/モジュール726は、線形予測コーディング(LPC)分析ブロック/モジュール722など、他のブロック/モジュールを含むものとして定義され得る。
図7に示す例では、エンコーダ704は、ピーク探索ブロック/モジュール728と、信頼性測定ブロック/モジュール734と、ピッチラグ決定ブロック/モジュール738とを含む。ただし、ピーク探索ブロック/モジュール728および/または信頼性測定ブロック/モジュール734は、随意であり得、1つまたは複数のピッチ(たとえば、ピッチラグ)候補732および/または信頼性測定値736を決定する1つまたは複数の他のブロック/モジュールと置き換えられ得る。
図7に示すように、ピッチラグ決定ブロック/モジュール738は、反復的プルーニングアルゴリズム740を使用し得る。ただし、反復的プルーニングアルゴリズム740は、随意であり得、本明細書で開示するシステムおよび方法のいくつかの構成では省略され得る。言い換えれば、ピッチラグ決定ブロック/モジュール738は、いくつかの構成では反復的プルーニングアルゴリズム740を使用せずにピッチラグを決定し得、たとえば、ピッチラグ742を決定するための平滑化または平均化アルゴリズムなど、何らかの他の手法またはアルゴリズムを使用し得る。
音声信号706は、(たとえば、電子デバイスによって)取得され得る。音声信号706はフレーミングブロック/モジュール708に与えられ得る。フレーミングブロック/モジュール708は、音声信号706を1つまたは複数のフレーム710にセグメント化し得る。たとえば、フレーム710は、特定の数の音声信号706サンプルを含み、および/または音声信号706のある時間量(たとえば、10〜20ミリ秒)を含み得る。音声信号706がフレーム710にセグメント化されるとき、フレーム710は、それらが含んでいる信号に従って分類され得る。たとえば、フレーム710は、有声フレーム、無声フレーム、無音フレームまたは過渡フレームであり得る。本明細書で開示するシステムおよび方法は、フレーム710(たとえば、過渡フレーム、有声フレームなど)中のピッチラグを推定するために使用され得る。
過渡フレームは、たとえば、ある音声クラスと別の音声クラスとの間の境界上に位置し得る。たとえば、音声信号706は、無声音(たとえば、f、s、sh、thなど)から有声音(たとえば、a、e、i、o、uなど)に遷移し得る。いくつかの過渡タイプは、(たとえば、音声信号706の無声部分から有声部分に遷移するときの)アップ過渡、破裂音、有声過渡(たとえば、線形予測コーディング(LPC)変更およびピッチラグ変動)、ならびに(たとえば、単語の末尾など、音声信号706の有声部分から無声または無音部分に遷移するときの)ダウン過渡を含む。2つの音声クラスの中間のフレーム710は過渡フレームであり得る。従来の手法は、過渡フレームにおいて正確なピッチラグ推定値を与えないことがあるので、本明細書で開示するシステムおよび方法は過渡フレームに有利に適用され得る。ただし、本明細書で開示するシステムおよび方法は、他の種類のフレームに適用され得ることに留意されたい。
エンコーダ704は、フレーム710に対して線形予測分析(たとえば、LPC分析)を実行するための線形予測コーディング(LPC)分析ブロック/モジュール722を使用し得る。LPC分析ブロック/モジュール722は、追加または代替として、他のフレーム710からの(たとえば、前フレーム710からの)信号(たとえば、1つまたは複数のサンプル)を使用し得ることに留意されたい。LPC分析ブロック/モジュール722は1つまたは複数のLPC係数720を生成し得る。LPC係数720は、量子化ブロック/モジュール718および/またはLPC合成ブロック/モジュール798に与えられ得る。
量子化ブロック/モジュール718は1つまたは複数の量子化LPC係数716を生成し得る。量子化LPC係数716は、スケールファクタ決定ブロック/モジュール752に与えられ得、および/またはエンコーダ704から出力され得る。量子化LPC係数716と、1つまたは複数のフレーム710からの1つまたは複数のサンプルとは、残差信号714を決定するために使用され得る、残差決定ブロック/モジュール712に与えられ得る。たとえば、残差信号714は、(残差決定ブロック/モジュール712によって)音声信号706から除去されたホルマントまたはホルマントの影響(たとえば、量子化係数係数716)を有していた音声信号706のフレーム710を含み得る。残差信号714は正規化ブロック/モジュール794に与えられ得る。
正規化ブロック/モジュール794は残差信号714を正規化し、その結果、修正(たとえば、正規化)残差信号796が生じ得る。正規化の一例は、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, 70, and 73 for Wideband Spread Spectrum Digital Systems」と題する3GPP2文書C.S0014Dのセクション4.11.6に詳細に記載されている。基本的に、正規化は、現在フレーム中のピッチパルスを動き回って、ピッチパルスを、スムーズに展開するピッチ輪郭と揃え得る。修正残差信号796は、ピーク探索ブロック/モジュール728および/またはLPC合成ブロック/モジュール798に与えられ得る。LPC合成ブロック/モジュール798は修正音声信号701を生成(たとえば、合成)し得、修正音声信号701はスケールファクタ決定ブロック/モジュール752に与えられ得る。
ピーク探索ブロック/モジュール728は修正残差信号796中のピークを探索し得る。言い換えれば、エンコーダ704は、修正残差信号796中のピーク(たとえば、高いエネルギーの領域)を探索し得る。これらのピークは識別されて、ピークロケーション707のセットが取得され得る。ピークロケーション707のセット中のピークロケーションは、たとえば、サンプル数および/または時間に関して指定され得る。いくつかの構成では、ピーク探索ブロック/モジュールは、スケールファクタ決定ブロック/モジュール752および/またはピークマッピングブロック/モジュール703などの1つまたは複数のブロック/モジュールにピークロケーション707のセットを与え得る。ピークロケーション707のセットは、たとえば、修正残差信号796中の「実際の」ピークのロケーションを表し得る。
ピーク探索ブロック/モジュール728は、候補決定ブロック/モジュール730を含み得る。候補決定ブロック/モジュール730は、1つまたは複数の候補ピッチラグ732を決定するために、ピークのセットを使用し得る。「ピッチラグ」は、フレーム710中の2つの連続するピッチスパイク間の「距離」であり得る。ピッチラグは、たとえば、サンプル数および/または時間量において指定され得る。一構成では、ピーク探索ブロック/モジュール728は、ピッチラグ候補732を決定するために、ピーク間の距離を決定し得る。これは、(たとえば、時間的におよび/またはサンプル数的に)2つのピークロケーションの差の差を取ることによって行われ得る。
ピッチラグを推定するための一部の従来の方法は自己相関を使用する。それらの手法では、LPC残差は、相関を行うために、それ自体に対してスライドされる。それらの手法では、最大自己相関値を有する相関またはピッチラグのどちらかがフレームのピッチであると決定され得る。それらの手法は、音声フレームがほとんど一定であるときに機能し得る。しかしながら、過渡フレーム中でなど、ピッチ構造があまり一定でないことがある他のフレームがある。音声フレームが一定であるときでも、従来の手法は、システム中の雑音のためにあまり正確なピッチ推定値を提供しないことがある。雑音は、残差がどのくらい「ピーキー」であるかを低減し得る。たとえば、そのような場合、従来の手法は、あまり正確でないピッチ推定値を決定することになる。
ピーク探索ブロック/モジュール728は、相関手法を使用してピッチラグ候補732のセットを取得し得る。たとえば、候補ピッチラグ732のセットは、候補決定ブロック/モジュール730によって最初に決定され得る。次いで、候補ピッチラグのセットに対応する信頼性尺度736のセットは、ピッチラグ候補732のセットに基づいて信頼性測定ブロック/モジュール734によって決定され得る。より詳細には、ピッチラグ候補732の各々について、第1のセットは、ピッチラグ候補732のセットであり得、第2のセットは、信頼性尺度736のセットであり得る。したがって、たとえば、第1の信頼性尺度または値は、第1のピッチラグ候補などに対応し得る。したがって、ピッチラグ候補732のセットと信頼性尺度736のセットとが「構築される」か、または決定され得る。信頼性尺度736のセットは、推定ピッチラグ742の精度を改善するために使用され得る。一構成では、信頼性尺度736のセットは相関のセットであり得、各値は、(基本的には)ピッチラグ候補に対応するピッチラグにおける相関であり得る。言い換えれば、各特定のピッチラグについての相関係数は、ピッチラグ候補732の距離の各々についての信頼性尺度を構成し得る。
いくつかの構成では、ピーク探索ブロック/モジュール728は、ピッチラグ候補732のセットに、現在フレーム710の修正残差信号796に基づいて計算された第1の近似ピッチラグ値を追加し得る。信頼性測定ブロック/モジュール734はまた、信頼性尺度736または相関のセットに、第1の近似ピッチラグ値に対応する第1のピッチ利得を追加し得る。
一例では、ピーク探索ブロック/モジュール728は、以下のように第1の近似ピッチラグ値を計算または推定し得る。自己相関値は、現在フレーム710の修正残差信号796に基づいて推定され得る。ピーク探索ブロック/モジュール728は、所定の範囲のロケーション内の自己相関値の最大値を求めて探索し得る。ピーク探索ブロック/モジュール728はまた、第1の近似ピッチラグ値を、最大値が生じるロケーションとして設定または決定し得る。第1の近似ラグは、自己相関関数における最大値に基づき得る。第1の近似ピッチラグ値は、ピッチラグ候補としてピッチラグ候補732のセットに追加され得、および/またはピークロケーションとしてピークロケーション707のセットに追加され得る。信頼性測定ブロック/モジュール734は、第1のピッチ利得値(たとえば、信頼性尺度)を、ピッチラグにおける正規化自己相関として設定または決定し得る。これは、ピーク探索ブロック/モジュール728によって与えられる第1の近似ピッチラグ値に基づいて行われ得る。第1のピッチ利得値(たとえば、信頼性尺度)は、信頼性尺度736のセットに追加され得る。
いくつかの構成では、ピーク探索ブロック/モジュール728は、ピッチラグ候補732のセットに、前フレーム710の修正残差信号796に基づいて計算された第2の近似ピッチラグ値を追加し得る。信頼性測定ブロック/モジュール734は、さらに、信頼性尺度736または相関のセットに、第2の近似ピッチラグ値に対応する第2のピッチ利得を追加し得る。
一例では、ピーク探索ブロック/モジュール728は、以下のように第2の近似ピッチラグ値を計算または推定し得る。自己相関値は、前フレーム710の修正残差信号796に基づいて推定され得る。ピーク探索ブロック/モジュール728は、所定の範囲のロケーション内の自己相関値の最大値を求めて探索し得る。ピーク探索ブロック/モジュール728はまた、第2の近似ピッチラグ値を、最大値が生じるロケーションとして設定または決定し得る。第2の近似ピッチラグ値は、前フレームからのピッチラグ値であり得る。第2の近似ピッチラグ値は、ピッチラグ候補としてピッチラグ候補732のセットに追加され得、および/またはピークロケーションとしてピークロケーション707のセットに追加され得る。信頼性測定ブロック/モジュール734は、第2のピッチ利得値(たとえば、信頼性尺度)を、ピッチラグにおける正規化自己相関として設定または決定し得る。これは、ピーク探索ブロック/モジュール728によって与えられる第2の近似ピッチラグ値に基づいて行われ得る。第2のピッチ利得値(たとえば、信頼性尺度)は、信頼性尺度736のセットに追加され得る。
ピッチラグ候補732のセットおよび/または信頼性尺度736のセットは、ピッチラグ決定ブロック/モジュール738に与えられ得る。ピッチラグ決定ブロック/モジュール738は、1つまたは複数のピッチラグ候補732に基づいてピッチラグ742を決定し得る。いくつかの構成では、ピッチラグ決定ブロック/モジュール738は、(1つまたは複数のピッチラグ候補732に加えて)1つまたは複数の信頼性尺度736に基づいてピッチラグ742を決定し得る。たとえば、ピッチラグ決定ブロック/モジュール738は、ピッチラグ値のうちの1つを選択するために反復的プルーニングアルゴリズム740を使用し得る。反復的プルーニングアルゴリズム740に関するさらなる詳細を上記で与えた。選択されたピッチラグ742値は、「真の」ピッチラグの推定値であり得る。
他の構成では、ピッチラグ決定ブロック/モジュール738は、ピッチラグ742を決定するために何らかの他の手法を使用し得る。たとえば、ピッチラグ決定ブロック/モジュール738は、反復的プルーニングアルゴリズム740の代わりに、あるいはそれに加えて平均化または平滑化アルゴリズムを使用し得る。
ピッチラグ決定ブロック/モジュール738によって決定されたピッチラグ742は、励起合成ブロック/モジュール748とスケールファクタ決定ブロック/モジュール752とに与えられ得る。前フレーム710からの修正残差信号796は、励起合成ブロック/モジュール748に与えられ得る。追加または代替として、波形746は、プロトタイプ波形生成ブロック/モジュール744によって励起合成ブロック/モジュール748に与えられ得る。一構成では、プロトタイプ波形生成ブロック/モジュール744は、ピッチラグ742に基づいて波形746を生成し得る。励起合成ブロック/モジュール748は、ピッチラグ742、(前フレームの)修正残差796および/または波形746に基づいて励起750を生成または合成し得る。合成励起750は、合成励起中のピークのロケーションを含み得る。
一構成では、プロトタイプ波形生成ブロック/モジュール744および/または励起合成ブロック/モジュール748は、式(3)〜式(5)に従って動作し得る。たとえば、プロトタイプ波形生成ブロック/モジュール744は、長さがPL(たとえば、ピッチラグ742の長さ)の1つまたは複数のプロトタイプ波形746を生成し得る。
Figure 2013537324
式(3)において、magは大きさ係数であり、PLはピッチ(たとえば、ピッチラグ推定値742)であり、
Figure 2013537324
であり、
Figure 2013537324
であり、iはインデックスまたはサンプル番号である。
Figure 2013537324
式(4)において、phiは、位相係数である。大きさ係数と位相係数とは、プロトタイプ波形746を生成するために設定され得る。
Figure 2013537324
式(5)において、ω(k)はプロトタイプ波形(たとえば、プロトタイプ波形746)であり、a(j)=mag[j]×cos(phi[j])であり、b(j)=mag[j]×sin(phi[j])であり、kはセグメント番号である。
合成励起(たとえば、合成励起ピークロケーション)750は、ピークマッピングブロック/モジュール703に、および/またはスケールファクタ決定ブロック/モジュール752に与えられ得る。ピークマッピングブロック/モジュール703は、ピークロケーション707のセット(修正残差信号796からの「真の」ピークのロケーションのセットであり得る)と、合成励起750(たとえば、合成励起750中のピークのロケーション)とを使用して、マッピング705を生成し得る。マッピング705はスケールファクタ決定ブロック/モジュール752に与えられ得る。
マッピング705、ピッチラグ742、量子化LPC係数716および/または修正音声信号701は、スケールファクタ決定ブロック/モジュール752に与えられ得る。スケールファクタ決定ブロック/モジュール752は、マッピング705、ピッチラグ742、量子化LPC係数716および/または修正音声信号701に基づいて利得754のセットを生成し得る。利得754のセットは利得量子化ブロック/モジュール756に与えられ得、利得量子化ブロック/モジュール756は、利得754のセットを量子化して量子化利得758のセットを生成する。
ピッチラグ742、量子化LPC係数716および/または量子化利得758は、エンコーダ704から出力され得る。合成音声信号を復号するおよび/または生成するために、これらのいくつかの情報742、716、758のうちの1つまたは複数が使用され得る。たとえば、電子デバイスは、音声信号を復号または合成するために、情報742、716、758の一部または全部を送信、記憶、および/または使用し得る。たとえば、情報742、716、758は、送信機に与えられ得、その送信機において、情報742、716、758は、別のデバイスに送信するためにフォーマット(たとえば、符号化、変調など)され得る。別の例では、情報742、716、758は、後で取り出すおよび/または復号するために記憶され得る。情報742、716、758の一部または全部に基づく合成音声信号は、(エンコーダ704と同じデバイス上の、および/または異なるデバイス上の)スピーカーを使用して出力され得る。
一構成では、ピッチラグ742、量子化LPC係数716および/または量子化利得758のうちの1つまたは複数は、別のデバイスに送信するためにフォーマット(たとえば、符号化)され得る。たとえば、情報742、716、758の一部または全部は、いくつかのビットを使用して対応するパラメータに符号化され得る。「符号化モードインジケータ」は、使用され得る他の符号化モードを示し得る随意のパラメータであり得、他の符号化モードについては、以下の図10および図11に関してより詳細に説明する。
図8は、デコーダ809の一構成を示すブロック図である。デコーダ809は、励起合成ブロック/モジュール817および/またはピッチ同期利得スケーリングおよびLPC合成ブロック/モジュール823を含み得る。一構成では、デコーダ809は、エンコーダ704と同じ電子デバイス上に位置し得る。別の構成では、デコーダ809は、エンコーダ704が位置する電子デバイスとは異なる電子デバイス上に位置し得る。
デコーダ809は、合成音声信号827を生成するために使用され得る1つまたは複数のパラメータを取得または受信し得る。たとえば、デコーダ809は、1つまたは複数の利得821、前フレーム残差信号813、ピッチラグ815および/または1つまたは複数のLPC係数825を取得し得る。
前フレーム残差813は、励起合成ブロック/モジュール817に与えられ得る。前フレーム残差813は、前に復号されたフレームから導出され得る。ピッチラグ815は、同じく、励起合成ブロック/モジュール817に与えられ得る。励起合成ブロック/モジュール817は励起819を合成し得る。たとえば、励起合成ブロック/モジュール817は、前フレーム残差813および/またはピッチラグ815に基づいて過渡励起819を合成し得る。
合成励起819、1つまたは複数の(量子化)利得821および/あるいは1つまたは複数のLPC係数825は、ピッチ同期利得スケーリングおよびLPC合成ブロック/モジュール823に与えられ得る。ピッチ同期利得スケーリングおよびLPC合成ブロック/モジュール823は、合成励起819、1つまたは複数の(量子化)利得821および/または1つまたは複数のLPC係数825に基づいて合成音声信号827を生成し得る。合成音声信号827は、デコーダ809から出力され得る。たとえば、合成音声信号827は、メモリに記憶されるか、またはスピーカーを使用して出力され得る(たとえば、音響信号に変換され得る)。
図9は、音声信号を復号するための方法900の一構成を示す流れ図である。電子デバイスは、902において、1つまたは複数のパラメータを取得する。たとえば、電子デバイスは、メモリから1つまたは複数のパラメータを取り出し得、および/あるいは別のデバイスから1つまたは複数のパラメータを受信し得る。たとえば、電子デバイスは、ピッチラグパラメータ、(1つまたは複数の利得を表す)利得パラメータ、および/または(LPC係数825を表す)LPCパラメータを受信し得る。追加または代替として、電子デバイスは、902において、前フレーム残差信号813を取得する。
電子デバイスは、904において、ピッチラグパラメータに基づいてピッチラグ815を決定する。たとえば、ピッチラグパラメータは7ビットを用いて表され得る。電子デバイスは、904において、これらのビットを使用して、励起819を合成するために使用され得るピッチラグ815を決定する。電子デバイスは、906において、励起信号819を合成する。電子デバイスは、908において、1つまたは複数の利得821(たとえば、スケーリングファクタ)に基づいて励振信号819をスケーリングして、スケーリングされた励振信号を生成する。たとえば、電子デバイスは、1つまたは複数の利得821に基づいて励振信号819を増幅および/または減衰させ得る。
電子デバイスは、910において、LPCパラメータに基づいて1つまたは複数のLPC係数825を決定する。たとえば、LPCパラメータは、18ビットを用いてLPC係数(たとえば、線スペクトル周波数(LSF)、線スペクトル対(LSP:line spectral pair))を表し得る。電子デバイスは、910において、18ビットに基づいて、たとえば、18ビットを復号することによってLPC係数825を決定する。電子デバイスは、912において、スケーリングされた励振信号819とLPC係数825とに基づいて合成音声信号827を生成する。
図10は、ピッチラグを推定するためのシステムおよび方法が実装され得る電子デバイス1002の一例を示すブロック図である。この例では、電子デバイス1002は、前処理および雑音抑圧ブロック/モジュール1031、モデルパラメータ推定ブロック/モジュール1035、レート決定ブロック/モジュール1033、第1のスイッチングブロック/モジュール1037、無音エンコーダ1039、雑音励起線形予測(NELP:noise excited(またはexcitation)linear predictive(またはprediction))エンコーダ1041、過渡エンコーダ1043、1/4レートプロトタイプピッチ周期(QPPP)エンコーダ1045、第2のスイッチングブロック/モジュール1047およびパケットフォーマッティングブロック/モジュール1049を含む。
前処理および雑音抑圧ブロック/モジュール1031は、音声信号1006を取得または受信し得る。一構成では、前処理および雑音抑圧ブロック/モジュール1031は、音声信号1006中の雑音を抑圧する、および/またはフィルタリングなど、音声信号1006上で他の処理を実行し得る。得られた出力信号は、モデルパラメータ推定ブロック/モジュール1035に与えられる。
モデルパラメータ推定ブロック/モジュール1035は、線形予測分析を通してLPC係数を推定し、第1の近似ピッチラグを推定し、第1の近似ピッチラグにおける自己相関を推定し得る。レート決定ブロック/モジュール1033は、音声信号1006を符号化するためのコーディングレートを決定し得る。コーディングレートは、(符号化された)音声信号1006を復号する際に使用するためのデコーダに与えられ得る。
電子デバイス1002は、音声信号1006を符号化するためにどのエンコーダを使用すべきかを決定し得る。時々、音声信号1006は、実際の音声を常に含んでいるとは限らないが、たとえば、無音および/または雑音を含み得ることに留意されたい。一構成では、電子デバイス1002は、モデルパラメータ推定1035に基づいてどのエンコーダを使用すべきかを決定し得る。たとえば、電子デバイス1002が、音声信号1006中に無音を検出した場合、電子デバイス1002は、第1のスイッチングブロック/モジュール1037を使用して、無音エンコーダ1039を通して(無音)音声信号をチャネリングし得る。第1のスイッチングブロック/モジュール1037は、モデルパラメータ推定1035に基づいて、NELPエンコーダ1041、過渡エンコーダ1043またはQPPPエンコーダ1045によって符号化するための音声信号1006を切り替えるために同様に使用され得る。
無音エンコーダ1039は、無音を符号化するか、またはそれを1つまたは複数の情報を用いて表し得る。たとえば、無音エンコーダ1039は、音声信号1006中の無音の長さを表すパラメータを生成し得る。
「雑音励起線形予測」(NELP)エンコーダ1041は、無声音声として分類されたフレームをコーディングするために使用され得る。NELPコーディングは信号再生の点で効果的に動作し、音声信号1006は、ほとんどまたはまったくピッチ構造を有しない。より詳細には、NELPは、無声音声または背景雑音など、性質が雑音様である音声を符号化するために使用され得る。NELPは、無声音声をモデル化するために、フィルタ処理された擬似ランダム雑音信号を使用する。そのような音声セグメントの雑音様の特質は、デコーダにおいてランダム信号を生成し、それらに適切な利得を適用することによって再構成され得る。NELPは、コード化音声のために単純なモデルを使用し、それにより、より低いビットレートを達成し得る。
過渡エンコーダ1043は、本明細書で開示するシステムおよび方法に従って音声信号1006中の過渡フレームを符号化するために使用され得る。たとえば、上記で図1および図7に関して説明したエンコーダ104、704は、過渡エンコーダ1043として使用され得る。したがって、たとえば、過渡フレームが検出されたとき、電子デバイス1002は、過渡エンコーダ1043を使用して音声信号1006を符号化し得る。
1/4レートプロトタイプピッチ周期(QPPP)エンコーダ1045は、有声音声として分類されたフレームをコーディングするために使用され得る。有声音声は、QPPPエンコーダ1045によって利用される緩やかに時間変動する周期成分を含んでいる。QPPPエンコーダ1045は、各フレーム内のピッチ周期のサブセットをコーディングする。音声信号1006の残りの周期は、これらのプロトタイプ周期間を補間することによって再構成される。有声音声の周期性を利用することによって、QPPPエンコーダ1045は、知覚的に正確な形で音声信号1006を再生することが可能である。
QPPPエンコーダ1045は、本質的に周期的なものである音声データを符号化するために使用され得るプロトタイプピッチ周期波形補間(PPPWI:Prototype Pitch Period Waveform Interpolation)を使用し得る。そのような音声は、「プロトタイプ」ピッチ周期(PPP)と同様のものである様々なピッチ周期によって特徴づけられる。このPPPは、QPPPエンコーダ1045が符号化するために使用するボイス情報であり得る。デコーダは、このPPPを使用して、音声セグメント中の他のピッチ周期を再構成することができる。
第2のスイッチングブロック/モジュール1047は、現在使用されているエンコーダ1039、1041、1043、1045からパケットフォーマッティングブロック/モジュール1049に(符号化された)音声信号をチャネリングするために使用され得る。パケットフォーマッティングブロック/モジュール1049は、(たとえば、送信するために)(符号化された)音声信号1006を1つまたは複数のパケットにフォーマットし得る。たとえば、パケットフォーマッティングブロック/モジュール1049は、過渡フレームのためのパケットをフォーマットし得る。一構成では、パケットフォーマッティングブロック/モジュール1049によって生成された1つまたは複数のパケットは、別のデバイスに送信され得る。
図11は、音声信号を復号するためのシステムおよび方法が実装され得る電子デバイス1100の一例を示すブロック図である。この例では、電子デバイス1100は、フレーム/ビット誤り検出器1151と、逆パケット化(de-packetization)ブロック/モジュール1153と、第1のスイッチングブロック/モジュール1155と、無音デコーダ1157と、雑音励起線形予測(NELP)デコーダ1159と、過渡デコーダ1161と、1/4レートプロトタイプピッチ周期(QPPP)デコーダ1163と、第2のスイッチングブロック/モジュール1165と、ポストフィルタ1167とを含む。
電子デバイス1100はパケット1171を受信し得る。パケット1171は、フレーム/ビット誤り検出器1151と逆パケット化ブロック/モジュール1153とに与えられ得る。逆パケット化ブロック/モジュール1153は、パケット1171からの情報を「アンパック」し得る。たとえば、パケット1171は、ペイロードデータに加えて、ヘッダ情報、誤り訂正情報、ルーティング情報および/または他の情報を含み得る。逆パケット化ブロック/モジュール1153は、パケット1171からペイロードデータを抽出し得る。ペイロードデータは、第1のスイッチングブロック/モジュール1155に与えられ得る。
フレーム/ビット誤り検出器1151は、パケット1171の一部または全部が間違って受信されたかどうかを検出し得る。たとえば、フレーム/ビット誤差検出器1151は、(パケット1171とともに送られる)誤差検出符号を使用して、パケット1171のいずれかが間違って受信されたかどうかを判定し得る。いくつかの構成では、電子デバイス1100は、フレーム/ビット誤り検出器1151出力によって示され得る、パケット1171の一部または全部が間違って受信されたかどうかに基づいて、第1のスイッチングブロック/モジュール1155および/または第2のスイッチングブロック/モジュール1165を制御し得る。
追加または代替として、パケット1171は、ペイロードデータを復号するためにどのタイプのデコーダを使用すべきかを示す情報を含み得る。たとえば、符号化電子デバイス1002は、符号化モードを示す2ビットを送り得る。(復号)電子デバイス1100は、この指示を、第1のスイッチングブロック/モジュール1155と第2のスイッチングブロック/モジュール1165とを制御するために使用し得る。
したがって、電子デバイス1100は、パケット1171からペイロードデータを復号するために、無音デコーダ1157、NELPデコーダ1159、過渡デコーダ1161またはQPPPデコーダ1163を使用し得る。復号データは、次いで、第2のスイッチングブロック/モジュール1165に与えら得、第2のスイッチングブロック/モジュール1165は、復号データをポストフィルタ1167にルーティングし得る。ポストフィルタ1167は、復号データに対していくつかのフィルタリングを実行し、合成音声信号1169を出力し得る。
一例では、パケット1171は、ペイロードデータを符号化するために無音エンコーダ1039が使用されたことを(符号化モードインジケータを用いて)示し得る。電子デバイス1100は、ペイロードデータを無音デコーダ1157にルーティングするように第1のスイッチングブロック/モジュール1155を制御し得る。復号(無音)ペイロードデータは、次いで、第2のスイッチングブロック/モジュール1165に与えられ得、第2のスイッチングブロック/モジュール1165は、復号ペイロードデータをポストフィルタ1167にルーティングし得る。別の例では、NELPデコーダ1159は、NELPエンコーダ1041によって符号化された音声信号(たとえば、無声音声信号)を復号するために使用され得る。
さらに別の例では、パケット1171は、ペイロードデータが過渡エンコーダ1043を使用して(たとえば、符号化モードインジケータを使用して)符号化されたことを示し得る。したがって、電子デバイス1100は、第1のスイッチングブロック/モジュール1155を使用してペイロードデータを過渡デコーダ1161にルーティングし得る。過渡デコーダ1161は、上記で説明したようにペイロードデータを復号し得る。別の例では、QPPPデコーダ1163は、QPPPエンコーダ1045によって符号化された音声信号(たとえば、有声音声信号)を復号するために使用され得る。
復号データは、第2のスイッチングブロック/モジュール1165に与えられ得、第2のスイッチングブロック/モジュール1165は、それをポストフィルタ1167にルーティングし得る。ポストフィルタ1167は、信号に対していくつかのフィルタリングを実行し得、その信号は合成音声信号1169として出力され得る。合成音声信号1169は、次いで、記憶、(たとえば、スピーカーを使用して)出力、および/または別のデバイス(たとえば、Bluetoothヘッドセット)に送信され得る。
図12は、ピッチ同期利得スケーリングおよびLPC合成ブロック/モジュール1223の一構成を示すブロック図である。図12に示すピッチ同期利得スケーリングおよびLPC合成ブロック/モジュール1223は、図8に示すピッチ同期利得スケーリングおよびLPC合成ブロック/モジュール823の一例であり得る。図12に示したように、ピッチ同期利得スケーリングおよびLPC合成ブロック/モジュール1223は、1つまたは複数のLPC合成ブロック/モジュール1277a〜c、1つまたは複数のスケールファクタ決定ブロック/モジュール1279a〜bおよび/あるいは1つまたは複数の乗算器1281a〜bを含み得る。
LPC合成ブロック/モジュールA1277aは、(たとえば、単一のピッチサイクルのための)スケーリングされてない励起1219を取得または受信し得る。最初に、LPC合成ブロック/モジュールA1277aはまた、ゼロメモリ1275を使用し得る。LPC合成ブロック/モジュールA1277aの出力は、スケールファクタ決定ブロック/モジュールA1279aに与えられ得る。スケールファクタ決定ブロック/モジュールA1279aは、LPC合成A1277aからの出力とターゲットピッチサイクルエネルギー入力1283とを使用して第1のスケーリングファクタを生成し得、第1のスケーリングファクタは、第1の乗算器1281aに与えられ得る。乗算器1281aは、スケーリングされてない励振信号1219に第1のスケーリングファクタを乗算する。(スケーリングされた)励振信号または第1の乗算器1281a出力は、LPC合成ブロック/モジュールB1277bと第2の乗算器1281bとに与えられる。
LPC合成ブロック/モジュールB1277bは、第1の乗算器1281a出力ならびに(前の演算からの)メモリ入力1285を使用して、合成出力を生成し、その合成出力は、スケールファクタ決定ブロック/モジュールB1279bに与えられる。たとえば、メモリ入力1285は、前のフレームの最後にメモリから来ることがある。スケールファクタ決定ブロック/モジュールB1279bは、第2のスケーリングファクタを生成するためにターゲットピッチサイクルエネルギー入力1283に加えてLPC合成ブロック/モジュールB1277b出力を使用し、第2のスケーリングファクタは、第2の乗算器1281bに与えられる。第2の乗算器1281bは、第1の乗算器1281a出力(たとえば、スケーリングされた励振信号)に第2のスケーリングファクタを乗算する。得られた積(たとえば、2回目にスケーリングされた励振信号)は、LPC合成ブロック/モジュールC1277cに与えられる。LPC合成ブロック/モジュールC1277cは、メモリ入力1285に加えて第2の乗算器1281b出力を使用して、さらなる演算のために合成音声信号1227とメモリ1287とを生成する。
図13に、電子デバイス1302において利用され得る様々な構成要素を示す。図示の構成要素は、同じ物理的構造内か、あるいは別個のハウジングまたは構造中に位置し得る。前に説明した電子デバイス102、168、1002、1100は、電子デバイス1302と同様に構成され得る。電子デバイス1302はプロセッサ1395を含む。プロセッサ1395は、汎用シングルまたはマルチチップマイクロプロセッサ(たとえば、ARM)、特殊目的マイクロプロセッサ(たとえば、デジタル信号プロセッサ(DSP))、マイクロコントローラ、プログラマブルゲートアレイなどであり得る。プロセッサ1395は中央処理ユニット(CPU)と呼ばれることがある。図13の電子デバイス1302中に単一のプロセッサ1395のみを示しているが、代替構成では、プロセッサ(たとえば、ARMとDSP)の組合せが使用され得る。
電子デバイス1302はまた、プロセッサ1395と電子通信するメモリ1389を含む。すなわち、プロセッサ1395は、メモリ1389から情報を読み取るか、またはメモリ1389に情報を書き込むことができる。メモリ1389は、電子情報を記憶することが可能な任意の電子構成要素であり得る。メモリ1389は、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、磁気ディスクストレージ媒体、光記憶媒体、RAM中のフラッシュメモリデバイス、プロセッサとともに含まれるオンボードメモリ、プログラマブル読取り専用メモリ(PROM)、消去可能プログラマブル読取り専用メモリ(EPROM)、電気的消去可能PROM(EEPROM)、レジスタなど、およびそれらの組合せであり得る。
データ1393aおよび命令1391aは、メモリ1389に記憶され得る。命令1391aは、1つまたは複数のプログラム、ルーチン、サブルーチン、関数、プロシージャなどを含み得る。命令1391aは、単一のコンピュータ可読ステートメントまたは多くのコンピュータ可読ステートメントを含み得る。命令1391aは、上記で説明した方法200、400、500、600、900を実装するために、プロセッサ1395によって実行可能であり得る。命令1391aを実行することは、メモリ1389に記憶されたデータ1393aの使用を含み得る。図13に、プロセッサ1395にロードされている(命令1391aおよびデータ1393aから来ることがある)いくつかの命令1391bおよびデータ1393bを示す。
電子デバイス1302はまた、他の電子デバイスと通信するための1つまたは複数の通信インターフェース1399を含み得る。通信インターフェース1399は、ワイヤード通信技術、ワイヤレス通信技術、またはその両方に基づき得る。様々なタイプの通信インターフェース1399の例には、シリアルポート、パラレルポート、ユニバーサルシリアルバス(USB)、イーサネット(登録商標)アダプター、IEEE1394バスインターフェース、小型コンピュータシステムインターフェース(SCSI)バスインターフェース、赤外線(IR)通信ポート、Bluetoothワイヤレス通信アダプターなどがある。
電子デバイス1302はまた、1つまたは複数の入力デバイス1301と1つまたは複数の出力デバイス1303とを含み得る。様々な種類の入力デバイス1301の例には、キーボード、マウス、マイクロフォン、遠隔制御デバイス、ボタン、ジョイスティック、トラックボール、タッチパッド、ライトペンなどがある。たとえば、電子デバイス1302は、音響信号をキャプチャするための1つまたは複数のマイクロフォン1333を含み得る。一構成では、マイクロフォン1333は、音響信号(たとえば、ボイス、音声)を電気または電子信号に変換するトランスデューサであり得る。様々な種類の出力デバイス1303の例には、スピーカー、プリンタなどがある。たとえば、電子デバイス1302は、1つまたは複数のスピーカー1335を含み得る。一構成では、スピーカー1335は、電気または電子信号を音響信号に変換するトランスデューサであり得る。一般に電子デバイス1302中に含まれ得る1つの特定のタイプの出力デバイスはディスプレイデバイス1305であり得る。本明細書で開示する構成とともに使用されるディスプレイデバイス1305は、陰極線管(CRT)、液晶ディスプレイ(LCD)、発光ダイオード(LED)、ガスプラズマ、エレクトロルミネセンスなど、任意の好適な画像投影技術を利用し得る。ディスプレイコントローラ1307はまた、メモリ1389に記憶されたデータをディスプレイデバイス1305上に示されるテキスト、グラフィック、および/または動画(適宜)に変換するために設けられ得る。
電子デバイス1302の様々な構成要素は、電力バス、制御信号バス、ステータス信号バス、データバスなどを含み得る1つまたは複数のバスによって互いに結合され得る。簡単のために、図13では様々なバスはバスシステム1397として示してある。図13が電子デバイス1302の1つの可能な構成を示しているにすぎないことに留意されたい。様々な他のアーキテクチャおよび構成要素が利用され得る。
図14に、ワイヤレス通信デバイス1409内に含まれ得るいくつかの構成要素を示す。上記で説明した電子デバイス102、168、1002、1100は、図14に示すワイヤレス通信デバイス1409と同様に構成され得る。
ワイヤレス通信デバイス1409はプロセッサ1427を含む。プロセッサ1427は、汎用シングルまたはマルチチップマイクロプロセッサ(たとえば、ARM)、特殊目的マイクロプロセッサ(たとえば、デジタル信号プロセッサ(DSP))、マイクロコントローラ、プログラマブルゲートアレイなどであり得る。プロセッサ1427は中央処理ユニット(CPU)と呼ばれることがある。図14のワイヤレス通信デバイス1409中に単一のプロセッサ1427のみを示しているが、代替構成では、プロセッサ(たとえば、ARMとDSP)の組合せが使用され得る。
ワイヤレス通信デバイス1409はまた、プロセッサ1427と電子通信するメモリ1411を含む(すなわち、プロセッサ1427は、メモリ1411から情報を読み取り、および/またはメモリ1411に情報を書き込むことができる)。メモリ1411は、電子情報を記憶することが可能な任意の電子構成要素であり得る。メモリ1411は、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、磁気ディスクストレージ媒体、光記憶媒体、RAM中のフラッシュメモリデバイス、プロセッサとともに含まれるオンボードメモリ、プログラマブル読取り専用メモリ(PROM)、消去可能プログラマブル読取り専用メモリ(EPROM)、電気的消去可能PROM(EEPROM)、レジスタなど、およびそれらの組合せであり得る。
データ1413および命令1415は、メモリ1411に記憶され得る。命令1415は、1つまたは複数のプログラム、ルーチン、サブルーチン、関数、プロシージャ、コードなどを含み得る。命令1415は、単一のコンピュータ可読ステートメントまたは多くのコンピュータ可読ステートメントを含み得る。命令1415は、上記で説明した方法200、400、500、600、900を実装するために、プロセッサ1427によって実行可能であり得る。命令1415を実行することは、メモリ1411に記憶されたデータ1413の使用を含み得る。図14に、プロセッサ1427にロードされている(命令1415およびデータ1413から来ることがある)いくつかの命令1415aおよびデータ1413aを示す。
ワイヤレス通信デバイス1409はまた、ワイヤレス通信デバイス1409と遠隔ロケーション(たとえば、別の電子デバイス、通信デバイスなど)との間の信号の送信および受信を可能にするために、送信機1423と受信機1425とを含み得る。送信機1423と受信機1425とはトランシーバ1421と総称され得る。アンテナ1419はトランシーバ1421に電気的に結合され得る。ワイヤレス通信デバイス1409はまた、複数の送信機、複数の受信機、複数のトランシーバ、および/または複数のアンテナを含み得る(図示せず)。
いくつかの構成では、ワイヤレス通信デバイス1409は、音響信号をキャプチャするための1つまたは複数のマイクロフォン1429を含み得る。一構成では、マイクロフォン1429は、音響信号(たとえば、ボイス、音声)を電気または電子信号に変換するトランスデューサであり得る。追加または代替として、ワイヤレス通信デバイス1409は1つまたは複数のスピーカー1431を含み得る。一構成では、スピーカー1431は、電気または電子信号を音響信号に変換するトランスデューサであり得る。
ワイヤレス通信デバイス1409の様々な構成要素は、パワーバス、制御信号バス、ステータス信号バス、データバスなどを含み得る1つまたは複数のバスによって互いに結合され得る。簡単のために、図14では様々なバスはバスシステム1417として示してある。
上記の説明では、様々な用語とともに参照番号を時々使用した。用語が参照番号とともに使用されている場合、これは、1つまたは複数の図に示された特定の要素を指すものとされ得る。用語が参照番号なしに使用されている場合、これは、概して特定の図に限定されない用語を指すものとされ得る。
「決定」という用語は、多種多様なアクションを包含し、したがって、「決定」は、計算、算出、処理、導出、調査、探索(たとえば、テーブル、データベースまたは別のデータ構造での探索)、確認などを含むことができる。また、「決定」は、受信(たとえば、情報を受信すること)、アクセス(たとえば、メモリ中のデータにアクセスすること)などを含むことができる。また、「決定」は、解決、選択、選出、確立などを含むことができる。
「に基づいて」という句は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という句は、「のみに基づいて」と「に少なくとも基づいて」の両方を表す。
本明細書で説明した機能は、1つまたは複数の命令としてプロセッサ可読媒体またはコンピュータ可読媒体上に記憶され得る。「コンピュータ可読媒体」という用語は、コンピュータまたはプロセッサによってアクセスされ得る任意の利用可能な媒体を指す。限定ではなく、例として、そのような媒体は、RAM、ROM、EEPROM、フラッシュメモリ、CD−ROMまたは他の光ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは命令またはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る、任意の他の媒体を備え得る。本明細書で使用するディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザディスク(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)およびブルーレイ(登録商標)ディスク(disc)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)は、データをレーザで光学的に再生する。コンピュータ可読媒体は有形で非一時的であり得ることに留意されたい。「コンピュータプログラム製品」という用語は、コンピューティングデバイスまたはプロセッサによって実行、処理または計算され得るコードまたは命令(たとえば、「プログラム」)と組み合わせたコンピューティングデバイスまたはプロセッサを指す。本明細書で使用する「コード」という用語は、コンピューティングデバイスまたはプロセッサによって実行可能であるソフトウェア、命令、コードまたはデータを指すことがある。
ソフトウェアまたは命令はまた、送信媒体を介して送信され得る。たとえば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、送信媒体の定義に含まれる。
本明細書で開示する方法は、説明した方法を達成するための1つまたは複数のステップまたはアクションを備える。本方法のステップおよび/または動作は、特許請求の範囲の範囲から逸脱することなく互いに交換され得る。言い換えれば、本明細書で説明する方法の適切な動作のためにステップまたはアクションの特定の順序が必要とされない限り、特定のステップおよび/またはアクションの順序および/または使用は、特許請求の範囲の範囲を逸脱することなく修正され得る。
特許請求の範囲は、上記に示した正確な構成および構成要素に限定されないことを理解されたい。特許請求の範囲から逸脱することなく、本明細書で説明したシステム、方法、および装置の構成、動作および詳細において、様々な改変、変更および変形が行われ得る。

Claims (50)

  1. プロセッサと、
    前記プロセッサと電子通信するメモリと、
    前記メモリに記憶された命令と
    を備える、ピッチラグを推定するための電子デバイスであって、前記命令が、
    現在フレームを取得することと、
    前記現在フレームに基づいて残差信号を取得することと、
    前記残差信号に基づいてピークロケーションのセットを決定することと、
    前記ピークロケーションのセットに基づいてピッチラグ候補のセットを取得することと、
    前記ピッチラグ候補のセットに基づいてピッチラグを推定することと
    を行うことが実行可能である、電子デバイス。
  2. ピークロケーションのセットを決定することは、
    前記残差信号およびウィンドウ信号のサンプルの絶対値に基づいて包絡線信号を計算することと、
    前記包絡線信号と前記包絡線信号の時間シフトバージョンとの間の差に基づいて第1の勾配信号を計算することと、
    前記第1の勾配信号と前記第1の勾配信号の時間シフトバージョンとの間の差に基づいて第2の勾配信号を計算することと、
    第2の勾配信号値が第1のしきい値を下回る第1のロケーションインデックスのセットを選択することと、
    包絡線値が包絡線中の最大値に対する第2のしきい値を下回るロケーションインデックスをなくすことによって、前記第1のロケーションインデックスのセットから第2のロケーションインデックスのセットを決定することと、
    近隣のロケーションインデックスに対する差分しきい値を満たさないロケーションインデックスをなくすことによって、前記第2のロケーションインデックスのセットから第3のロケーションインデックスのセットを決定することと
    を備える、請求項1に記載の電子デバイス。
  3. 前記ピッチラグ候補のセットを取得することが、
    順序付けされたピークロケーションのセットを生じるように前記ピークロケーションのセットを昇順に配列することと、
    前記順序付けされたピークロケーションのセット中の連続するピークロケーションペア間の距離を計算することと
    を備える、請求項1に記載の電子デバイス。
  4. 前記命令が、
    線形予測係数のセットを取得するために、前記現在フレームと前記現在フレームより前の信号とを使用して線形予測分析を実行することと、
    前記線形予測係数のセットに基づいて量子化線形予測係数のセットを決定することと
    を行うことがさらに実行可能である、請求項1に記載の電子デバイス。
  5. 前記残差信号を取得することが、前記量子化線形予測係数のセットにさらに基づく、請求項4に記載の電子デバイス。
  6. 前記命令が、前記ピッチラグ候補のセットに対応する信頼性尺度のセットを計算することがさらに実行可能である、請求項1に記載の電子デバイス。
  7. 前記ピッチラグ候補のセットに対応する前記信頼性尺度のセットを計算することが、信号包絡線と、前記順序付けされたピークロケーションのセット中の連続するピークロケーションペアとに基づく、請求項6に記載の電子デバイス。
  8. 前記順序付けされたピークロケーションのセット中のピークロケーションの各ペアについて、前記信頼性尺度のセットを計算することが、
    ピークロケーションのペア中の第1のピークロケーションの周りの範囲に基づいて第1の信号バッファを選択することと、
    前記ピークロケーションのペア中の第2のピークロケーションの周りの範囲に基づいて第2の信号バッファを選択することと、
    前記第1の信号バッファと前記第2の信号バッファとの間の正規化相互相関を計算することと、
    前記信頼性尺度のセットに前記正規化相互相関を追加することと
    を備える、請求項7に記載の電子デバイス。
  9. 前記ピッチラグが、反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて推定される、請求項6に記載の電子デバイス。
  10. 前記命令が、
    前記ピッチラグ候補のセットに、前記現在フレームの残差信号に基づいて計算された第1の近似ピッチラグ値を追加することと、
    前記信頼性尺度のセットに、前記第1の近似ピッチラグ値に対応する第1のピッチ利得を追加することと
    を行うことがさらに実行可能である、請求項6に記載の電子デバイス。
  11. 前記現在フレームの残差信号に基づいて自己相関値を推定することと、
    ある範囲のロケーション内の前記自己相関値の最大値を求めて探索することと、
    前記第1の近似ピッチラグ値を、前記最大値が生じるロケーションとして設定することと、
    前記第1のピッチ利得値を、前記第1の近似ピッチラグ値における正規化自己相関として設定することと
    を行うことによって、前記第1の近似ピッチラグ値が推定され、前記第1のピッチ利得が推定される、請求項10に記載の電子デバイス。
  12. 前記命令が、
    前記ピッチラグ候補のセットに、前フレームの残差信号に基づいて計算された第2の近似ピッチラグ値を追加することと、
    前記信頼性尺度のセットに、前記第2の近似ピッチラグ値に対応する第2のピッチ利得を追加することと
    を行うことがさらに実行可能である、請求項10に記載の電子デバイス。
  13. 前記前フレームの残差信号に基づいて自己相関値を推定することと、
    ある範囲のロケーション内の前記自己相関値の最大値を求めて探索することと、
    前記第2の近似ピッチラグ値を、前記最大値が生じるロケーションとして設定することと、
    前記ピッチ利得値を、前記第2の近似ピッチラグ値における正規化自己相関として設定することと
    を行うことによって、前記第2の近似ピッチラグ値が推定され、前記第2のピッチ利得が推定される、請求項12に記載の電子デバイス。
  14. 反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定することが、
    前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して加重平均を計算することと、
    前記ピッチラグ候補のセットの中で、前記加重平均から最も遠いピッチラグ候補を決定することと、
    前記ピッチラグ候補のセットから、前記加重平均から最も遠い前記ピッチラグ候補を削除することと、
    前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除することと、
    ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定することと、
    前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、1つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定することと
    を備える、請求項9に記載の電子デバイス。
  15. 前記命令は、前記ピッチラグ候補の残りの数が前記指定された数に等しくない場合に反復することがさらに実行可能である、請求項14に記載の電子デバイス。
  16. 前記加重平均を計算することが、式
    Figure 2013537324
    に従って達成され、Mwが前記加重平均であり、Lがピッチラグ候補の数であり、{di}が前記ピッチラグ候補のセットであり、{ci}が前記信頼性尺度のセットである、請求項14に記載の電子デバイス。
  17. 前記ピッチラグ候補のセットの中で、前記加重平均から最も遠いピッチラグ候補を決定することが、すべてのiについて|Mw−dk|>|Mw−di|となるようなdkを見つけることによって達成され、i≠kであり、dkが前記加重平均から最も遠い前記ピッチラグ候補であり、Mwが前記加重平均であり、{di}が前記ピッチラグ候補のセットであり、iがインデックス番号である、請求項14に記載の電子デバイス。
  18. 前記命令が、前記ピッチラグを送信することがさらに実行可能である、請求項1に記載の電子デバイス。
  19. 前記電子デバイスがワイヤレス通信デバイスである、請求項1に記載の電子デバイス。
  20. プロセッサと、
    前記プロセッサと電子通信するメモリと、
    前記メモリに記憶された命令と
    を備える、ピッチラグを推定するための電子デバイスであって、前記命令が、
    音声信号を取得することと、
    前記音声信号に基づいてピッチラグ候補のセットを取得することと、
    前記ピッチラグ候補のセットに対応する信頼性尺度のセットを決定することと、
    反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいてピッチラグを推定することと
    を行うことが実行可能である、電子デバイス。
  21. 反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定することが、
    前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して加重平均を計算することと、
    前記ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定することと、
    前記ピッチラグ候補のセットから、前記加重平均から最も遠いピッチラグ候補を削除することと、
    前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除することと、
    ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定することと、
    前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、1つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定することと
    を備える、請求項20に記載の電子デバイス。
  22. 電子デバイス上でピッチラグを推定するための方法であって、
    現在フレームを取得することと、
    前記現在フレームに基づいて残差信号を取得することと、
    前記残差信号に基づいてピークロケーションのセットを決定することと、
    前記ピークロケーションのセットに基づいてピッチラグ候補のセットを取得することと、
    前記ピッチラグ候補のセットに基づいてピッチラグを推定することと
    を備える、方法。
  23. ピークロケーションのセットを決定することは、
    前記残差信号およびウィンドウ信号のサンプルの絶対値に基づいて包絡線信号を計算することと、
    前記包絡線信号と前記包絡線信号の時間シフトバージョンとの間の差に基づいて第1の勾配信号を計算することと、
    前記第1の勾配信号と前記第1の勾配信号の時間シフトバージョンとの間の差に基づいて第2の勾配信号を計算することと、
    第2の勾配信号値が第1のしきい値を下回る第1のロケーションインデックスのセットを選択することと、
    包絡線値が包絡線中の最大値に対する第2のしきい値を下回るロケーションインデックスをなくすことによって、前記第1のロケーションインデックスのセットから第2のロケーションインデックスのセットを決定することと、
    近隣のロケーションインデックスに対する差分しきい値を満たさないロケーションインデックスをなくすことによって、前記第2のロケーションインデックスのセットから第3のロケーションインデックスのセットを決定することと
    を備える、請求項22に記載の方法。
  24. 前記ピッチラグ候補のセットを取得することが、
    順序付けされたピークロケーションのセットを生じるように前記ピークロケーションのセットを昇順に配列することと、
    前記順序付けされたピークロケーションのセット中の連続するピークロケーションペア間の距離を計算することと
    を備える、請求項22に記載の方法。
  25. 線形予測係数のセットを取得するために、前記現在フレームと前記現在フレームより前の信号とを使用して線形予測分析を実行することと、
    前記線形予測係数のセットに基づいて量子化線形予測係数のセットを決定することと
    をさらに備える、請求項22に記載の方法。
  26. 前記残差信号を取得することが、前記量子化線形予測係数のセットにさらに基づく、請求項25に記載の方法。
  27. 前記ピッチラグ候補のセットに対応する信頼性尺度のセットを計算することをさらに備える、請求項22に記載の方法。
  28. 前記ピッチラグ候補のセットに対応する前記信頼性尺度のセットを計算することが、信号包絡線と、前記順序付けされたピークロケーションのセット中の連続するピークロケーションペアとに基づく、請求項27に記載の方法。
  29. 前記順序付けされたピークロケーションのセット中のピークロケーションの各ペアについて、前記信頼性尺度のセットを計算することが、
    ピークロケーションのペア中の第1のピークロケーションの周りの範囲に基づいて第1の信号バッファを選択することと、
    前記ピークロケーションのペア中の第2のピークロケーションの周りの範囲に基づいて第2の信号バッファを選択することと、
    前記第1の信号バッファと前記第2の信号バッファとの間の正規化相互相関を計算することと、
    前記信頼性尺度のセットに前記正規化相互相関を追加することと
    を備える、請求項28に記載の方法。
  30. 前記ピッチラグが、反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて推定される、請求項27に記載の方法。
  31. 前記ピッチラグ候補のセットに、前記現在フレームの残差信号に基づいて計算された第1の近似ピッチラグ値を追加することと、
    前記信頼性尺度のセットに、前記第1の近似ピッチラグ値に対応する第1のピッチ利得を追加することと
    をさらに備える、請求項27に記載の方法。
  32. 前記現在フレームの残差信号に基づいて自己相関値を推定することと、
    ある範囲のロケーション内の前記自己相関値の最大値を求めて探索することと、
    前記第1の近似ピッチラグ値を、前記最大値が生じるロケーションとして設定することと、
    前記第1のピッチ利得値を、前記第1の近似ピッチラグ値における正規化自己相関として設定することと
    を行うことによって、前記第1の近似ピッチラグ値が推定され、前記第1のピッチ利得が推定される、請求項31に記載の方法。
  33. 前記ピッチラグ候補のセットに、前フレームの残差信号に基づいて計算された第2の近似ピッチラグ値を追加することと、
    前記信頼性尺度のセットに、前記第2の近似ピッチラグ値に対応する第2のピッチ利得を追加することと
    をさらに備える、請求項31に記載の方法。
  34. 前記前フレームの残差信号に基づいて自己相関値を推定することと、
    ある範囲のロケーション内の前記自己相関値の最大値を求めて探索することと、
    前記第2の近似ピッチラグ値を、前記最大値が生じるロケーションとして設定することと、
    前記ピッチ利得値を、前記第2の近似ピッチラグ値における正規化自己相関として設定することと
    を行うことによって、前記第2の近似ピッチラグ値が推定され、前記第2のピッチ利得が推定される、請求項33に記載の方法。
  35. 反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定することが、
    前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して加重平均を計算することと、
    前記ピッチラグ候補のセットの中で、前記加重平均から最も遠いピッチラグ候補を決定することと、
    前記ピッチラグ候補のセットから、前記加重平均から最も遠い前記ピッチラグ候補を削除することと、
    前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除することと、
    ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定することと、
    前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、1つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定することと
    を備える、請求項30に記載の方法。
  36. 前記ピッチラグ候補の残りの数が前記指定された数に等しくない場合に反復することをさらに備える、請求項35に記載の方法。
  37. 前記加重平均を計算することが、式
    Figure 2013537324
    に従って達成され、Mwは前記加重平均であり、Lはピッチラグ候補の数であり、{di}は前記ピッチラグ候補のセットであり、{ci}は前記信頼性尺度のセットである、請求項35に記載の方法。
  38. 前記ピッチラグ候補のセットの中で、前記加重平均から最も遠いピッチラグ候補を決定することが、すべてのiについて|Mw−dk|>|Mw−di|となるようなdkを見つけることによって達成され、i≠kであり、dkは前記加重平均から最も遠い前記ピッチラグ候補であり、Mwは前記加重平均であり、{di}は前記ピッチラグ候補のセットであり、iはインデックス番号である、請求項35に記載の方法。
  39. 前記ピッチラグを送信することをさらに備える、請求項22に記載の方法。
  40. 前記電子デバイスがワイヤレス通信デバイスである、請求項22に記載の方法。
  41. 電子デバイス上でピッチラグを推定するための方法であって、
    音声信号を取得することと、
    前記音声信号に基づいてピッチラグ候補のセットを取得することと、
    前記ピッチラグ候補のセットに対応する信頼性尺度のセットを決定することと、
    反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいてピッチラグを推定することと
    を備える、方法。
  42. 反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定することが、
    前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して加重平均を計算することと、
    前記ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定することと、
    前記ピッチラグ候補のセットから、前記加重平均から最も遠いピッチラグ候補を削除することと、
    前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除することと、
    ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定することと、
    前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、1つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定することと
    を備える、請求項41に記載の方法。
  43. 命令をその上に有する非一時的有形コンピュータ可読媒体を備える、ピッチラグを推定するためのコンピュータプログラム製品であって、前記命令が、
    電子デバイスに、現在フレームを取得させるためのコードと、
    前記電子デバイスに、前記現在フレームに基づいて残差信号を取得させるためのコードと、
    前記電子デバイスに、前記残差信号に基づいてピークロケーションのセットを決定させるためのコードと、
    前記電子デバイスに、前記ピークロケーションのセットに基づいてピッチラグ候補のセットを取得させるためのコードと、
    前記電子デバイスに、前記ピッチラグ候補のセットに基づいてピッチラグを推定させるためのコードと
    を備える、コンピュータプログラム製品。
  44. 前記電子デバイスに、ピークロケーションのセットを決定させるためのコードは、
    前記電子デバイスに、前記残差信号およびウィンドウ信号のサンプルの絶対値に基づいて包絡線信号を計算させるためのコードと、
    前記電子デバイスに、前記包絡線信号と前記包絡線信号の時間シフトバージョンとの間の差に基づいて第1の勾配信号を計算させるためのコードと、
    前記電子デバイスに、前記第1の勾配信号と前記第1の勾配信号の時間シフトバージョンとの間の差に基づいて第2の勾配信号を計算させるためのコードと、
    前記電子デバイスに、第2の勾配信号値が第1のしきい値を下回る第1のロケーションインデックスのセットを選択させるためのコードと、
    前記電子デバイスに、包絡線値が包絡線中の最大値に対する第2のしきい値を下回るロケーションインデックスをなくすことによって、前記第1のロケーションインデックスのセットから第2のロケーションインデックスのセットを決定させるためのコードと、
    前記電子デバイスに、近隣のロケーションインデックスに対する差分しきい値を満たさないロケーションインデックスをなくすことによって、前記第2のロケーションインデックスのセットから第3のロケーションインデックスのセットを決定させるためのコードと
    を備える、請求項43に記載のコンピュータプログラム製品。
  45. 命令をその上に有する非一時的有形コンピュータ可読媒体を備える、ピッチラグを推定するためのコンピュータプログラム製品であって、前記命令が、
    電子デバイスに、音声信号を取得させるためのコードと、
    前記電子デバイスに、前記音声信号に基づいてピッチラグ候補のセットを取得させるためのコードと、
    前記電子デバイスに、前記ピッチラグ候補のセットに対応する信頼性尺度のセットを決定させるためのコードと、
    前記電子デバイスに、反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいてピッチラグを推定させるためのコードと
    を備える、コンピュータプログラム製品。
  46. 前記電子デバイスに、反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定させるためのコードが、
    前記電子デバイスに、前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して加重平均を計算させるためのコードと、
    前記電子デバイスに、前記ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定させるためのコードと、
    前記電子デバイスに、前記ピッチラグ候補のセットから、前記加重平均から最も遠いピッチラグ候補を削除させるためのコードと、
    前記電子デバイスに、前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除させるためのコードと、
    前記電子デバイスに、ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定させるためのコードと、
    前記電子デバイスに、前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、1つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定させるためのコードと
    を備える、請求項45に記載のコンピュータプログラム製品。
  47. 現在フレームを取得するための手段と、
    前記現在フレームに基づいて残差信号を取得するための手段と、
    前記残差信号に基づいてピークロケーションのセットを決定するための手段と、
    前記ピークロケーションのセットに基づいてピッチラグ候補のセットを取得するための手段と、
    前記ピッチラグ候補のセットに基づいてピッチラグを推定するための手段と
    を備える、ピッチラグを推定するための装置。
  48. 前記ピークロケーションのセットを決定するための手段は、
    前記残差信号およびウィンドウ信号のサンプルの絶対値に基づいて包絡線信号を計算するための手段と、
    前記包絡線信号と前記包絡線信号の時間シフトバージョンとの間の差に基づいて第1の勾配信号を計算するための手段と、
    前記第1の勾配信号と前記第1の勾配信号の時間シフトバージョンとの間の差に基づいて第2の勾配信号を計算するための手段と、
    第2の勾配信号値が第1のしきい値を下回る第1のロケーションインデックスのセットを選択するための手段と、
    包絡線値が包絡線中の最大値に対する第2のしきい値を下回るロケーションインデックスをなくすことによって、前記第1のロケーションインデックスのセットから第2のロケーションインデックスのセットを決定するための手段と、
    近隣のロケーションインデックスに対する差分しきい値を満たさないロケーションインデックスをなくすことによって、前記第2のロケーションインデックスのセットから第3のロケーションインデックスのセットを決定するための手段と
    を備える、請求項47に記載の装置。
  49. 音声信号を取得するための手段と、
    前記音声信号に基づいてピッチラグ候補のセットを取得するための手段と、
    前記ピッチラグ候補のセットに対応する信頼性尺度のセットを決定するための手段と、
    反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいてピッチラグを推定するための手段と
    を備える、ピッチラグを推定するための装置。
  50. 反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定するための手段は、
    前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して加重平均を計算するための手段と、
    前記ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定するための手段と、
    前記ピッチラグ候補のセットから、前記加重平均から最も遠いピッチラグ候補を削除するための手段と、
    前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除するための手段と、
    ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定するための手段と、
    前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、1つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定するための手段と
    を備える、請求項49に記載の装置。
JP2013529209A 2010-09-16 2011-09-09 ピッチラグを推定すること Active JP5792311B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US38369210P 2010-09-16 2010-09-16
US61/383,692 2010-09-16
US13/228,136 2011-09-08
US13/228,136 US9082416B2 (en) 2010-09-16 2011-09-08 Estimating a pitch lag
PCT/US2011/051046 WO2012036989A1 (en) 2010-09-16 2011-09-09 Estimating a pitch lag

Publications (2)

Publication Number Publication Date
JP2013537324A true JP2013537324A (ja) 2013-09-30
JP5792311B2 JP5792311B2 (ja) 2015-10-07

Family

ID=44736041

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013529209A Active JP5792311B2 (ja) 2010-09-16 2011-09-09 ピッチラグを推定すること

Country Status (5)

Country Link
US (1) US9082416B2 (ja)
EP (1) EP2617029B1 (ja)
JP (1) JP5792311B2 (ja)
CN (1) CN103109321B (ja)
WO (1) WO2012036989A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022517234A (ja) * 2019-01-13 2022-03-07 華為技術有限公司 ハイレゾリューションオーディオ符号化

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX352092B (es) * 2013-06-21 2017-11-08 Fraunhofer Ges Forschung Aparato y método para mejorar el ocultamiento del libro de códigos adaptativo en la ocultación similar a acelp empleando una resincronización de pulsos mejorada.
PT3011554T (pt) * 2013-06-21 2019-10-24 Fraunhofer Ges Forschung Estimação de atraso de tom.
US9484044B1 (en) 2013-07-17 2016-11-01 Knuedge Incorporated Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
US9530434B1 (en) * 2013-07-18 2016-12-27 Knuedge Incorporated Reducing octave errors during pitch determination for noisy audio signals
KR101541606B1 (ko) * 2013-11-21 2015-08-04 연세대학교 산학협력단 초음파 신호의 포락선 검출 방법 및 그 장치
EP3098812B1 (en) * 2014-01-24 2018-10-10 Nippon Telegraph and Telephone Corporation Linear predictive analysis apparatus, method, program and recording medium
FR3017441B1 (fr) 2014-02-12 2016-07-29 Air Liquide Reservoir composite et son procede de fabrication
EP2980799A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a harmonic post-filter
US9640157B1 (en) * 2015-12-28 2017-05-02 Berggram Development Oy Latency enhanced note recognition method
US9711121B1 (en) * 2015-12-28 2017-07-18 Berggram Development Oy Latency enhanced note recognition method in gaming
CN106997767A (zh) * 2017-03-24 2017-08-01 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
US10650837B2 (en) 2017-08-29 2020-05-12 Microsoft Technology Licensing, Llc Early transmission in packetized speech
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483886A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
WO2020146868A1 (en) * 2019-01-13 2020-07-16 Huawei Technologies Co., Ltd. High resolution audio coding
CN114556473A (zh) * 2019-10-19 2022-05-27 谷歌有限责任公司 自监督音高估计

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097294A (ja) * 1996-02-21 1998-04-14 Matsushita Electric Ind Co Ltd 音声符号化装置
JP2004109803A (ja) * 2002-09-20 2004-04-08 Hitachi Kokusai Electric Inc 音声符号化装置及び方法
WO2008007699A1 (en) * 2006-07-12 2008-01-17 Panasonic Corporation Audio decoding device and audio encoding device
WO2009155569A1 (en) * 2008-06-20 2009-12-23 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications

Family Cites Families (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4074069A (en) * 1975-06-18 1978-02-14 Nippon Telegraph & Telephone Public Corporation Method and apparatus for judging voiced and unvoiced conditions of speech signal
JPS5648688A (en) * 1979-09-28 1981-05-01 Hitachi Ltd Sound analyser
US4561102A (en) * 1982-09-20 1985-12-24 At&T Bell Laboratories Pitch detector for speech analysis
US5105464A (en) * 1989-05-18 1992-04-14 General Electric Company Means for improving the speech quality in multi-pulse excited linear predictive coding
ATE477571T1 (de) * 1991-06-11 2010-08-15 Qualcomm Inc Vocoder mit veränderlicher bitrate
DE69203186T2 (de) * 1991-09-20 1996-02-01 Philips Electronics Nv Verarbeitungsgerät für die menschliche Sprache zum Detektieren des Schliessens der Stimmritze.
US5353372A (en) * 1992-01-27 1994-10-04 The Board Of Trustees Of The Leland Stanford Junior University Accurate pitch measurement and tracking system and method
US5781880A (en) 1994-11-21 1998-07-14 Rockwell International Corporation Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5774836A (en) * 1996-04-01 1998-06-30 Advanced Micro Devices, Inc. System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator
AU3708597A (en) 1996-08-02 1998-02-25 Matsushita Electric Industrial Co., Ltd. Voice encoder, voice decoder, recording medium on which program for realizing voice encoding/decoding is recorded and mobile communication apparatus
US6014622A (en) 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
JPH10105195A (ja) * 1996-09-27 1998-04-24 Sony Corp ピッチ検出方法、音声信号符号化方法および装置
US5812967A (en) * 1996-09-30 1998-09-22 Apple Computer, Inc. Recursive pitch predictor employing an adaptively determined search window
US5946649A (en) * 1997-04-16 1999-08-31 Technology Research Association Of Medical Welfare Apparatus Esophageal speech injection noise detection and rejection
US5946650A (en) * 1997-06-19 1999-08-31 Tritech Microelectronics, Ltd. Efficient pitch estimation method
US6073092A (en) * 1997-06-26 2000-06-06 Telogy Networks, Inc. Method for speech coding based on a code excited linear prediction (CELP) model
WO1999010719A1 (en) 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
WO1999050828A1 (en) * 1998-03-30 1999-10-07 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US6226606B1 (en) * 1998-11-24 2001-05-01 Microsoft Corporation Method and apparatus for pitch tracking
US6151571A (en) 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6636829B1 (en) 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US7016850B1 (en) * 2000-01-26 2006-03-21 At&T Corp. Method and apparatus for reducing access delay in discontinuous transmission packet telephony systems
AU2001258298A1 (en) * 2000-04-06 2001-10-23 Telefonaktiebolaget Lm Ericsson (Publ) Pitch estimation in speech signal
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
US6763339B2 (en) * 2000-06-26 2004-07-13 The Regents Of The University Of California Biologically-based signal processing system applied to noise removal for signal extraction
US7133823B2 (en) * 2000-09-15 2006-11-07 Mindspeed Technologies, Inc. System for an adaptive excitation pattern for speech coding
US6917912B2 (en) * 2001-04-24 2005-07-12 Microsoft Corporation Method and apparatus for tracking pitch in audio analysis
AU2001270365A1 (en) * 2001-06-11 2002-12-23 Ivl Technologies Ltd. Pitch candidate selection method for multi-channel pitch detectors
US6879955B2 (en) * 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
CA2365203A1 (en) * 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
GB2400003B (en) 2003-03-22 2005-03-09 Motorola Inc Pitch estimation within a speech signal
US7596488B2 (en) * 2003-09-15 2009-09-29 Microsoft Corporation System and method for real-time jitter control and packet-loss concealment in an audio signal
SG120121A1 (en) * 2003-09-26 2006-03-28 St Microelectronics Asia Pitch detection of speech signals
KR100552693B1 (ko) * 2003-10-25 2006-02-20 삼성전자주식회사 피치검출방법 및 장치
EP1605437B1 (en) * 2004-06-04 2007-08-29 Honda Research Institute Europe GmbH Determination of the common origin of two harmonic components
JP4654621B2 (ja) * 2004-06-30 2011-03-23 ヤマハ株式会社 音声処理装置およびプログラム
US7933767B2 (en) * 2004-12-27 2011-04-26 Nokia Corporation Systems and methods for determining pitch lag for a current frame of information
EP2228789B1 (en) * 2006-03-20 2012-07-25 Mindspeed Technologies, Inc. Open-loop pitch track smoothing
KR100735343B1 (ko) * 2006-04-11 2007-07-04 삼성전자주식회사 음성신호의 피치 정보 추출장치 및 방법
JPWO2008072701A1 (ja) * 2006-12-13 2010-04-02 パナソニック株式会社 ポストフィルタおよびフィルタリング方法
CN101226744B (zh) * 2007-01-19 2011-04-13 华为技术有限公司 语音解码器中实现语音解码的方法及装置
WO2008108083A1 (ja) * 2007-03-02 2008-09-12 Panasonic Corporation 音声符号化装置および音声符号化方法
EP1973101B1 (en) * 2007-03-23 2010-02-24 Honda Research Institute Europe GmbH Pitch extraction with inhibition of harmonics and sub-harmonics of the fundamental frequency
WO2008139270A1 (en) * 2007-05-14 2008-11-20 Freescale Semiconductor, Inc. Generating a frame of audio data
WO2008155919A1 (ja) * 2007-06-21 2008-12-24 Panasonic Corporation 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法
ES2533358T3 (es) * 2007-06-22 2015-04-09 Voiceage Corporation Procedimiento y dispositivo para estimar la tonalidad de una señal de sonido
CN100550712C (zh) * 2007-11-05 2009-10-14 华为技术有限公司 一种信号处理方法和处理装置
US8990081B2 (en) * 2008-09-19 2015-03-24 Newsouth Innovations Pty Limited Method of analysing an audio signal
US8214201B2 (en) 2008-11-19 2012-07-03 Cambridge Silicon Radio Limited Pitch range refinement
GB2466673B (en) * 2009-01-06 2012-11-07 Skype Quantization
GB2466669B (en) * 2009-01-06 2013-03-06 Skype Speech coding
US8185384B2 (en) * 2009-04-21 2012-05-22 Cambridge Silicon Radio Limited Signal pitch period estimation
US8620672B2 (en) * 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
US8452606B2 (en) * 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
GB2546687B (en) * 2010-04-12 2018-03-07 Smule Inc Continuous score-coded pitch correction and harmony generation techniques for geographically distributed glee club
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
US8645128B1 (en) * 2012-10-02 2014-02-04 Google Inc. Determining pitch dynamics of an audio signal

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097294A (ja) * 1996-02-21 1998-04-14 Matsushita Electric Ind Co Ltd 音声符号化装置
JP2004109803A (ja) * 2002-09-20 2004-04-08 Hitachi Kokusai Electric Inc 音声符号化装置及び方法
WO2008007699A1 (en) * 2006-07-12 2008-01-17 Panasonic Corporation Audio decoding device and audio encoding device
WO2009155569A1 (en) * 2008-06-20 2009-12-23 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
JP2011525256A (ja) * 2008-06-20 2011-09-15 クゥアルコム・インコーポレイテッド 低ビットレート適用のための遷移音声フレームの符号化

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022517234A (ja) * 2019-01-13 2022-03-07 華為技術有限公司 ハイレゾリューションオーディオ符号化
JP7266689B2 (ja) 2019-01-13 2023-04-28 華為技術有限公司 ハイレゾリューションオーディオ符号化
US11749290B2 (en) 2019-01-13 2023-09-05 Huawei Technologies Co., Ltd. High resolution audio coding for improving package loss concealment

Also Published As

Publication number Publication date
US20120072209A1 (en) 2012-03-22
WO2012036989A1 (en) 2012-03-22
CN103109321B (zh) 2015-06-03
EP2617029A1 (en) 2013-07-24
EP2617029B1 (en) 2014-10-15
US9082416B2 (en) 2015-07-14
CN103109321A (zh) 2013-05-15
JP5792311B2 (ja) 2015-10-07

Similar Documents

Publication Publication Date Title
JP5792311B2 (ja) ピッチラグを推定すること
JP5727018B2 (ja) 過渡フレームの符号化及び復号化
US9047863B2 (en) Systems, methods, apparatus, and computer-readable media for criticality threshold control
RU2418323C2 (ru) Системы и способы для изменения окна с кадром, ассоциированным с аудио сигналом
JP6373873B2 (ja) 線形予測コーディングにおける適応型フォルマントシャープニングのためのシステム、方法、装置、及びコンピュータによって読み取り可能な媒体
JP2007534020A (ja) 信号符号化
KR101548846B1 (ko) 워터마킹된 신호의 적응적 인코딩 및 디코딩을 위한 디바이스
KR101590239B1 (ko) 워터마킹된 신호를 인코딩 및 디코딩하는 디바이스들
JP5639273B2 (ja) ピッチサイクルエネルギーを判断し、励起信号をスケーリングすること
TW201434033A (zh) 用於判定音調脈衝週期信號界限之系統及方法
UA114233C2 (uk) Системи та способи для визначення набору коефіцієнтів інтерполяції
US20150100318A1 (en) Systems and methods for mitigating speech signal quality degradation
WO2018073486A1 (en) Low-delay audio coding

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150603

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150805

R150 Certificate of patent or registration of utility model

Ref document number: 5792311

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250