JP5792311B2 - ピッチラグを推定すること - Google Patents
ピッチラグを推定すること Download PDFInfo
- Publication number
- JP5792311B2 JP5792311B2 JP2013529209A JP2013529209A JP5792311B2 JP 5792311 B2 JP5792311 B2 JP 5792311B2 JP 2013529209 A JP2013529209 A JP 2013529209A JP 2013529209 A JP2013529209 A JP 2013529209A JP 5792311 B2 JP5792311 B2 JP 5792311B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch lag
- candidates
- signal
- pitch
- electronic device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 142
- 230000005236 sound signal Effects 0.000 claims description 110
- 238000004422 calculation algorithm Methods 0.000 claims description 67
- 238000013138 pruning Methods 0.000 claims description 59
- 238000004891 communication Methods 0.000 claims description 45
- 238000004458 analytical method Methods 0.000 claims description 20
- 230000001174 ascending effect Effects 0.000 claims description 7
- 230000005284 excitation Effects 0.000 description 40
- 230000001052 transient effect Effects 0.000 description 39
- 230000015572 biosynthetic process Effects 0.000 description 33
- 238000003786 synthesis reaction Methods 0.000 description 33
- 238000013139 quantization Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 18
- 238000005259 measurement Methods 0.000 description 14
- 238000013459 approach Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 7
- 230000001413 cellular effect Effects 0.000 description 6
- 230000002441 reversible effect Effects 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000009499 grossing Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000009432 framing Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 244000141353 Prunus domestica Species 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/097—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
本出願は、「ESTIMATING A PITCH LAG」と題する2010年9月16日に出願された米国仮特許出願第61/383,692号に関し、その優先権を主張する。
以下に、出願当初の明細書に記載の発明を列挙する。
[1]
プロセッサと、
前記プロセッサと電子通信するメモリと、
前記メモリに記憶された命令と
を備える、ピッチラグを推定するための電子デバイスであって、前記命令が、
現在フレームを取得することと、
前記現在フレームに基づいて残差信号を取得することと、
前記残差信号に基づいてピークロケーションのセットを決定することと、
前記ピークロケーションのセットに基づいてピッチラグ候補のセットを取得することと、
前記ピッチラグ候補のセットに基づいてピッチラグを推定することと
を行うことが実行可能である、電子デバイス。
[2]
ピークロケーションのセットを決定することは、
前記残差信号およびウィンドウ信号のサンプルの絶対値に基づいて包絡線信号を計算することと、
前記包絡線信号と前記包絡線信号の時間シフトバージョンとの間の差に基づいて第1の勾配信号を計算することと、
前記第1の勾配信号と前記第1の勾配信号の時間シフトバージョンとの間の差に基づいて第2の勾配信号を計算することと、
第2の勾配信号値が第1のしきい値を下回る第1のロケーションインデックスのセットを選択することと、
包絡線値が包絡線中の最大値に対する第2のしきい値を下回るロケーションインデックスをなくすことによって、前記第1のロケーションインデックスのセットから第2のロケーションインデックスのセットを決定することと、
近隣のロケーションインデックスに対する差分しきい値を満たさないロケーションインデックスをなくすことによって、前記第2のロケーションインデックスのセットから第3のロケーションインデックスのセットを決定することと
を備える、[1]に記載の電子デバイス。
[3]
前記ピッチラグ候補のセットを取得することが、
順序付けされたピークロケーションのセットを生じるように前記ピークロケーションのセットを昇順に配列することと、
前記順序付けされたピークロケーションのセット中の連続するピークロケーションペア間の距離を計算することと
を備える、[1]に記載の電子デバイス。
[4]
前記命令が、
線形予測係数のセットを取得するために、前記現在フレームと前記現在フレームより前の信号とを使用して線形予測分析を実行することと、
前記線形予測係数のセットに基づいて量子化線形予測係数のセットを決定することと
を行うことがさらに実行可能である、[1]に記載の電子デバイス。
[5]
前記残差信号を取得することが、前記量子化線形予測係数のセットにさらに基づく、[4]に記載の電子デバイス。
[6]
前記命令が、前記ピッチラグ候補のセットに対応する信頼性尺度のセットを計算することがさらに実行可能である、[1]に記載の電子デバイス。
[7]
前記ピッチラグ候補のセットに対応する前記信頼性尺度のセットを計算することが、信号包絡線と、前記順序付けされたピークロケーションのセット中の連続するピークロケーションペアとに基づく、[6]に記載の電子デバイス。
[8]
前記順序付けされたピークロケーションのセット中のピークロケーションの各ペアについて、前記信頼性尺度のセットを計算することが、
ピークロケーションのペア中の第1のピークロケーションの周りの範囲に基づいて第1の信号バッファを選択することと、
前記ピークロケーションのペア中の第2のピークロケーションの周りの範囲に基づいて第2の信号バッファを選択することと、
前記第1の信号バッファと前記第2の信号バッファとの間の正規化相互相関を計算することと、
前記信頼性尺度のセットに前記正規化相互相関を追加することと
を備える、[7]に記載の電子デバイス。
[9]
前記ピッチラグが、反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて推定される、[6]に記載の電子デバイス。
[10]
前記命令が、
前記ピッチラグ候補のセットに、前記現在フレームの残差信号に基づいて計算された第1の近似ピッチラグ値を追加することと、
前記信頼性尺度のセットに、前記第1の近似ピッチラグ値に対応する第1のピッチ利得を追加することと
を行うことがさらに実行可能である、[6]に記載の電子デバイス。
[11]
前記現在フレームの残差信号に基づいて自己相関値を推定することと、
ある範囲のロケーション内の前記自己相関値の最大値を求めて探索することと、
前記第1の近似ピッチラグ値を、前記最大値が生じるロケーションとして設定することと、
前記第1のピッチ利得値を、前記第1の近似ピッチラグ値における正規化自己相関として設定することと
を行うことによって、前記第1の近似ピッチラグ値が推定され、前記第1のピッチ利得が推定される、[10]に記載の電子デバイス。
[12]
前記命令が、
前記ピッチラグ候補のセットに、前フレームの残差信号に基づいて計算された第2の近似ピッチラグ値を追加することと、
前記信頼性尺度のセットに、前記第2の近似ピッチラグ値に対応する第2のピッチ利得を追加することと
を行うことがさらに実行可能である、[10]に記載の電子デバイス。
[13]
前記前フレームの残差信号に基づいて自己相関値を推定することと、
ある範囲のロケーション内の前記自己相関値の最大値を求めて探索することと、
前記第2の近似ピッチラグ値を、前記最大値が生じるロケーションとして設定することと、
前記ピッチ利得値を、前記第2の近似ピッチラグ値における正規化自己相関として設定することと
を行うことによって、前記第2の近似ピッチラグ値が推定され、前記第2のピッチ利得が推定される、[12]に記載の電子デバイス。
[14]
反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定することが、
前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して加重平均を計算することと、
前記ピッチラグ候補のセットの中で、前記加重平均から最も遠いピッチラグ候補を決定することと、
前記ピッチラグ候補のセットから、前記加重平均から最も遠い前記ピッチラグ候補を削除することと、
前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除することと、
ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定することと、
前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、1つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定することと
を備える、[9]に記載の電子デバイス。
[15]
前記命令は、前記ピッチラグ候補の残りの数が前記指定された数に等しくない場合に反復することがさらに実行可能である、[14]に記載の電子デバイス。
[16]
前記加重平均を計算することが、式
[17]
前記ピッチラグ候補のセットの中で、前記加重平均から最も遠いピッチラグ候補を決定することが、すべてのiについて|M w −d k |>|M w −d i |となるようなd k を見つけることによって達成され、i≠kであり、d k が前記加重平均から最も遠い前記ピッチラグ候補であり、M w が前記加重平均であり、{d i }が前記ピッチラグ候補のセットであり、iがインデックス番号である、[14]に記載の電子デバイス。
[18]
前記命令が、前記ピッチラグを送信することがさらに実行可能である、[1]に記載の電子デバイス。
[19]
前記電子デバイスがワイヤレス通信デバイスである、[1]に記載の電子デバイス。
[20]
プロセッサと、
前記プロセッサと電子通信するメモリと、
前記メモリに記憶された命令と
を備える、ピッチラグを推定するための電子デバイスであって、前記命令が、
音声信号を取得することと、
前記音声信号に基づいてピッチラグ候補のセットを取得することと、
前記ピッチラグ候補のセットに対応する信頼性尺度のセットを決定することと、
反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいてピッチラグを推定することと
を行うことが実行可能である、電子デバイス。
[21]
反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定することが、
前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して加重平均を計算することと、
前記ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定することと、
前記ピッチラグ候補のセットから、前記加重平均から最も遠いピッチラグ候補を削除することと、
前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除することと、
ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定することと、
前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、1つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定することと
を備える、[20]に記載の電子デバイス。
[22]
電子デバイス上でピッチラグを推定するための方法であって、
現在フレームを取得することと、
前記現在フレームに基づいて残差信号を取得することと、
前記残差信号に基づいてピークロケーションのセットを決定することと、
前記ピークロケーションのセットに基づいてピッチラグ候補のセットを取得することと、
前記ピッチラグ候補のセットに基づいてピッチラグを推定することと
を備える、方法。
[23]
ピークロケーションのセットを決定することは、
前記残差信号およびウィンドウ信号のサンプルの絶対値に基づいて包絡線信号を計算することと、
前記包絡線信号と前記包絡線信号の時間シフトバージョンとの間の差に基づいて第1の勾配信号を計算することと、
前記第1の勾配信号と前記第1の勾配信号の時間シフトバージョンとの間の差に基づいて第2の勾配信号を計算することと、
第2の勾配信号値が第1のしきい値を下回る第1のロケーションインデックスのセットを選択することと、
包絡線値が包絡線中の最大値に対する第2のしきい値を下回るロケーションインデックスをなくすことによって、前記第1のロケーションインデックスのセットから第2のロケーションインデックスのセットを決定することと、
近隣のロケーションインデックスに対する差分しきい値を満たさないロケーションインデックスをなくすことによって、前記第2のロケーションインデックスのセットから第3のロケーションインデックスのセットを決定することと
を備える、[22]に記載の方法。
[24]
前記ピッチラグ候補のセットを取得することが、
順序付けされたピークロケーションのセットを生じるように前記ピークロケーションのセットを昇順に配列することと、
前記順序付けされたピークロケーションのセット中の連続するピークロケーションペア間の距離を計算することと
を備える、[22]に記載の方法。
[25]
線形予測係数のセットを取得するために、前記現在フレームと前記現在フレームより前の信号とを使用して線形予測分析を実行することと、
前記線形予測係数のセットに基づいて量子化線形予測係数のセットを決定することと
をさらに備える、[22]に記載の方法。
[26]
前記残差信号を取得することが、前記量子化線形予測係数のセットにさらに基づく、[25]に記載の方法。
[27]
前記ピッチラグ候補のセットに対応する信頼性尺度のセットを計算することをさらに備える、[22]に記載の方法。
[28]
前記ピッチラグ候補のセットに対応する前記信頼性尺度のセットを計算することが、信号包絡線と、前記順序付けされたピークロケーションのセット中の連続するピークロケーションペアとに基づく、[27]に記載の方法。
[29]
前記順序付けされたピークロケーションのセット中のピークロケーションの各ペアについて、前記信頼性尺度のセットを計算することが、
ピークロケーションのペア中の第1のピークロケーションの周りの範囲に基づいて第1の信号バッファを選択することと、
前記ピークロケーションのペア中の第2のピークロケーションの周りの範囲に基づいて第2の信号バッファを選択することと、
前記第1の信号バッファと前記第2の信号バッファとの間の正規化相互相関を計算することと、
前記信頼性尺度のセットに前記正規化相互相関を追加することと
を備える、[28]に記載の方法。
[30]
前記ピッチラグが、反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて推定される、[27]に記載の方法。
[31]
前記ピッチラグ候補のセットに、前記現在フレームの残差信号に基づいて計算された第1の近似ピッチラグ値を追加することと、
前記信頼性尺度のセットに、前記第1の近似ピッチラグ値に対応する第1のピッチ利得を追加することと
をさらに備える、[27]に記載の方法。
[32]
前記現在フレームの残差信号に基づいて自己相関値を推定することと、
ある範囲のロケーション内の前記自己相関値の最大値を求めて探索することと、
前記第1の近似ピッチラグ値を、前記最大値が生じるロケーションとして設定することと、
前記第1のピッチ利得値を、前記第1の近似ピッチラグ値における正規化自己相関として設定することと
を行うことによって、前記第1の近似ピッチラグ値が推定され、前記第1のピッチ利得が推定される、[31]に記載の方法。
[33]
前記ピッチラグ候補のセットに、前フレームの残差信号に基づいて計算された第2の近似ピッチラグ値を追加することと、
前記信頼性尺度のセットに、前記第2の近似ピッチラグ値に対応する第2のピッチ利得を追加することと
をさらに備える、[31]に記載の方法。
[34]
前記前フレームの残差信号に基づいて自己相関値を推定することと、
ある範囲のロケーション内の前記自己相関値の最大値を求めて探索することと、
前記第2の近似ピッチラグ値を、前記最大値が生じるロケーションとして設定することと、
前記ピッチ利得値を、前記第2の近似ピッチラグ値における正規化自己相関として設定することと
を行うことによって、前記第2の近似ピッチラグ値が推定され、前記第2のピッチ利得が推定される、[33]に記載の方法。
[35]
反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定することが、
前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して加重平均を計算することと、
前記ピッチラグ候補のセットの中で、前記加重平均から最も遠いピッチラグ候補を決定することと、
前記ピッチラグ候補のセットから、前記加重平均から最も遠い前記ピッチラグ候補を削除することと、
前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除することと、
ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定することと、
前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、1つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定することと
を備える、[30]に記載の方法。
[36]
前記ピッチラグ候補の残りの数が前記指定された数に等しくない場合に反復することをさらに備える、[35]に記載の方法。
[37]
前記加重平均を計算することが、式
[38]
前記ピッチラグ候補のセットの中で、前記加重平均から最も遠いピッチラグ候補を決定することが、すべてのiについて|M w −d k |>|M w −d i |となるようなd k を見つけることによって達成され、i≠kであり、d k は前記加重平均から最も遠い前記ピッチラグ候補であり、M w は前記加重平均であり、{d i }は前記ピッチラグ候補のセットであり、iはインデックス番号である、[35]に記載の方法。
[39]
前記ピッチラグを送信することをさらに備える、[22]に記載の方法。
[40]
前記電子デバイスがワイヤレス通信デバイスである、[22]に記載の方法。
[41]
電子デバイス上でピッチラグを推定するための方法であって、
音声信号を取得することと、
前記音声信号に基づいてピッチラグ候補のセットを取得することと、
前記ピッチラグ候補のセットに対応する信頼性尺度のセットを決定することと、
反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいてピッチラグを推定することと
を備える、方法。
[42]
反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定することが、
前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して加重平均を計算することと、
前記ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定することと、
前記ピッチラグ候補のセットから、前記加重平均から最も遠いピッチラグ候補を削除することと、
前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除することと、
ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定することと、
前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、1つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定することと
を備える、[41]に記載の方法。
[43]
命令をその上に有する非一時的有形コンピュータ可読媒体を備える、ピッチラグを推定するためのコンピュータプログラム製品であって、前記命令が、
電子デバイスに、現在フレームを取得させるためのコードと、
前記電子デバイスに、前記現在フレームに基づいて残差信号を取得させるためのコードと、
前記電子デバイスに、前記残差信号に基づいてピークロケーションのセットを決定させるためのコードと、
前記電子デバイスに、前記ピークロケーションのセットに基づいてピッチラグ候補のセットを取得させるためのコードと、
前記電子デバイスに、前記ピッチラグ候補のセットに基づいてピッチラグを推定させるためのコードと
を備える、コンピュータプログラム製品。
[44]
前記電子デバイスに、ピークロケーションのセットを決定させるためのコードは、
前記電子デバイスに、前記残差信号およびウィンドウ信号のサンプルの絶対値に基づいて包絡線信号を計算させるためのコードと、
前記電子デバイスに、前記包絡線信号と前記包絡線信号の時間シフトバージョンとの間の差に基づいて第1の勾配信号を計算させるためのコードと、
前記電子デバイスに、前記第1の勾配信号と前記第1の勾配信号の時間シフトバージョンとの間の差に基づいて第2の勾配信号を計算させるためのコードと、
前記電子デバイスに、第2の勾配信号値が第1のしきい値を下回る第1のロケーションインデックスのセットを選択させるためのコードと、
前記電子デバイスに、包絡線値が包絡線中の最大値に対する第2のしきい値を下回るロケーションインデックスをなくすことによって、前記第1のロケーションインデックスのセットから第2のロケーションインデックスのセットを決定させるためのコードと、
前記電子デバイスに、近隣のロケーションインデックスに対する差分しきい値を満たさないロケーションインデックスをなくすことによって、前記第2のロケーションインデックスのセットから第3のロケーションインデックスのセットを決定させるためのコードと
を備える、[43]に記載のコンピュータプログラム製品。
[45]
命令をその上に有する非一時的有形コンピュータ可読媒体を備える、ピッチラグを推定するためのコンピュータプログラム製品であって、前記命令が、
電子デバイスに、音声信号を取得させるためのコードと、
前記電子デバイスに、前記音声信号に基づいてピッチラグ候補のセットを取得させるためのコードと、
前記電子デバイスに、前記ピッチラグ候補のセットに対応する信頼性尺度のセットを決定させるためのコードと、
前記電子デバイスに、反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいてピッチラグを推定させるためのコードと
を備える、コンピュータプログラム製品。
[46]
前記電子デバイスに、反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定させるためのコードが、
前記電子デバイスに、前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して加重平均を計算させるためのコードと、
前記電子デバイスに、前記ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定させるためのコードと、
前記電子デバイスに、前記ピッチラグ候補のセットから、前記加重平均から最も遠いピッチラグ候補を削除させるためのコードと、
前記電子デバイスに、前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除させるためのコードと、
前記電子デバイスに、ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定させるためのコードと、
前記電子デバイスに、前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、1つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定させるためのコードと
を備える、[45]に記載のコンピュータプログラム製品。
[47]
現在フレームを取得するための手段と、
前記現在フレームに基づいて残差信号を取得するための手段と、
前記残差信号に基づいてピークロケーションのセットを決定するための手段と、
前記ピークロケーションのセットに基づいてピッチラグ候補のセットを取得するための手段と、
前記ピッチラグ候補のセットに基づいてピッチラグを推定するための手段と
を備える、ピッチラグを推定するための装置。
[48]
前記ピークロケーションのセットを決定するための手段は、
前記残差信号およびウィンドウ信号のサンプルの絶対値に基づいて包絡線信号を計算するための手段と、
前記包絡線信号と前記包絡線信号の時間シフトバージョンとの間の差に基づいて第1の勾配信号を計算するための手段と、
前記第1の勾配信号と前記第1の勾配信号の時間シフトバージョンとの間の差に基づいて第2の勾配信号を計算するための手段と、
第2の勾配信号値が第1のしきい値を下回る第1のロケーションインデックスのセットを選択するための手段と、
包絡線値が包絡線中の最大値に対する第2のしきい値を下回るロケーションインデックスをなくすことによって、前記第1のロケーションインデックスのセットから第2のロケーションインデックスのセットを決定するための手段と、
近隣のロケーションインデックスに対する差分しきい値を満たさないロケーションインデックスをなくすことによって、前記第2のロケーションインデックスのセットから第3のロケーションインデックスのセットを決定するための手段と
を備える、[47]に記載の装置。
[49]
音声信号を取得するための手段と、
前記音声信号に基づいてピッチラグ候補のセットを取得するための手段と、
前記ピッチラグ候補のセットに対応する信頼性尺度のセットを決定するための手段と、
反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいてピッチラグを推定するための手段と
を備える、ピッチラグを推定するための装置。
[50]
反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定するための手段は、
前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して加重平均を計算するための手段と、
前記ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定するための手段と、
前記ピッチラグ候補のセットから、前記加重平均から最も遠いピッチラグ候補を削除するための手段と、
前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除するための手段と、
ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定するための手段と、
前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、1つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定するための手段と
を備える、[49]に記載の装置。
Claims (48)
- プロセッサと、
前記プロセッサと電子通信するメモリと、
前記メモリに記憶された命令と
を備える、ピッチラグを推定するための電子デバイスであって、前記命令が、
デジタル音声信号の現在フレームを取得することと、
前記現在フレームに基づいて残差信号を取得することと、
前記残差信号に基づいてピークロケーションのセットを決定することと、
ここで、前記ピークロケーションのセットを決定することは、
前記残差信号およびウィンドウ信号のサンプルから包絡線信号を計算することと、線信号と前記包絡線信号の時間シフトバージョンとの間の差に基づいて第1の勾配信号を計算することと、前記第1の勾配信号と前記第1の勾配信号の時間シフトバージョンとの間の差に基づいて第2の勾配信号を計算することと、第2の勾配信号値が第1のしきい値を下回る第1のロケーションインデックスのセットを選択することと、を備え、
前記ピークロケーションのセットに基づいて前記現在フレームの中のピークロケーション間の距離を決定することによって、ピッチラグ候補のセットを取得することと、
前記ピッチラグ候補のセットに基づいてピッチラグを推定することとを行うことが実行可能である、電子デバイス。 - ピークロケーションのセットを決定することは、さらに、
包絡線値が包絡線中の最大値に対する第2のしきい値を下回るロケーションインデックスをなくすことによって、前記第1のロケーションインデックスのセットから第2のロケーションインデックスのセットを決定することと、
近隣のロケーションインデックスに対する差分しきい値を満たさないロケーションインデックスをなくすことによって、前記第2のロケーションインデックスのセットから第3のロケーションインデックスのセットを決定することとを備える、請求項1に記載の電子デバイス。 - 前記ピッチラグ候補のセットを取得することが、
順序付けされたピークロケーションのセットを生じるように前記ピークロケーションのセットを昇順に配列することと、
前記順序付けされたピークロケーションのセット中の連続するピークロケーションペア間の距離を計算することとを備える、請求項1に記載の電子デバイス。 - 前記命令が、
線形予測係数のセットを取得するために、前記現在フレームと前記現在フレームより前の信号とを使用して線形予測分析を実行することと、
前記線形予測係数のセットに基づいて量子化線形予測係数のセットを決定することとを行うことがさらに実行可能である、請求項1に記載の電子デバイス。 - 前記残差信号を取得することが、前記量子化線形予測係数のセットにさらに基づく、請求項4に記載の電子デバイス。
- 前記命令が、前記ピッチラグ候補のセットに対応する信頼性尺度のセットを計算することがさらに実行可能である、請求項1に記載の電子デバイス。
- 前記ピッチラグ候補のセットに対応する前記信頼性尺度のセットを計算することが、信号包絡線と、順序付けされたピークロケーションのセット中の連続するピークロケーションペアとに基づく、請求項6に記載の電子デバイス。
- 前記順序付けされたピークロケーションのセット中のピークロケーションの各ペアについて、前記信頼性尺度のセットを計算することが、
ピークロケーションのペア中の第1のピークロケーションの周りの範囲に基づいて第1の信号バッファを選択することと、
前記ピークロケーションのペア中の第2のピークロケーションの周りの範囲に基づいて第2の信号バッファを選択することと、
前記第1の信号バッファと前記第2の信号バッファとの間の正規化相互相関を計算することと、
前記信頼性尺度のセットに前記正規化相互相関を追加することとを備える、請求項7に記載の電子デバイス。 - 前記ピッチラグが、反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて推定される、請求項6に記載の電子デバイス。
- 前記命令が、
前記ピッチラグ候補のセットに、前記現在フレームの残差信号に基づいて計算された第1の近似ピッチラグ値を追加することと、
前記信頼性尺度のセットに、前記第1の近似ピッチラグ値に対応する第1のピッチ利得を追加することとを行うことがさらに実行可能である、請求項6に記載の電子デバイス。 - 前記現在フレームの残差信号に基づいて自己相関値を推定することと、
ある範囲のロケーション内の前記自己相関値の最大値を求めて探索することと、
前記第1の近似ピッチラグ値を、前記最大値が生じるロケーションとして設定することと、
前記第1のピッチ利得を、前記第1の近似ピッチラグ値における正規化自己相関として設定することとを行うことによって、前記第1の近似ピッチラグ値が推定され、前記第1のピッチ利得が推定される、請求項10に記載の電子デバイス。 - 前記命令が、
前記ピッチラグ候補のセットに、前フレームの残差信号に基づいて計算された第2の近似ピッチラグ値を追加することと、
前記信頼性尺度のセットに、前記第2の近似ピッチラグ値に対応する第2のピッチ利得を追加することとを行うことがさらに実行可能である、請求項10に記載の電子デバイス。 - 前記前フレームの残差信号に基づいて自己相関値を推定することと、
ある範囲のロケーション内の前記自己相関値の最大値を求めて探索することと、
前記第2の近似ピッチラグ値を、前記最大値が生じるロケーションとして設定することと、
前記第2のピッチ利得を、前記第2の近似ピッチラグ値における正規化自己相関として設定することとを行うことによって、前記第2の近似ピッチラグ値が推定され、前記第2のピッチ利得が推定される、請求項12に記載の電子デバイス。 - 反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定することが、
前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して加重平均を計算することと、
前記ピッチラグ候補のセットの中で、前記加重平均から最も遠いピッチラグ候補を決定することと、
前記ピッチラグ候補のセットから、前記加重平均から最も遠い前記ピッチラグ候補を削除することと、
前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除することと、
ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定することと、
前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、1つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定することとを備え、
前記加重平均を計算することが、式
- 前記命令は、前記ピッチラグ候補の残りの数が前記指定された数に等しくない場合に反復することがさらに実行可能である、請求項14に記載の電子デバイス。
- 前記ピッチラグ候補のセットの中で、前記加重平均から最も遠いピッチラグ候補を決定することが、すべてのiについて|Mw−dk|>|Mw−di|となるようなdkを見つけることによって達成され、i≠kであり、dkが前記加重平均から最も遠い前記ピッチラグ候補であり、Mwが前記加重平均であり、{di}が前記ピッチラグ候補のセットであり、iがインデックス番号である、請求項14に記載の電子デバイス。
- 前記命令が、前記ピッチラグを送信することがさらに実行可能である、請求項1に記載の電子デバイス。
- 前記電子デバイスがワイヤレス通信デバイスである、請求項1に記載の電子デバイス。
- プロセッサと、
前記プロセッサと電子通信するメモリと、
前記メモリに記憶された命令とを備える、ピッチラグを推定するための電子デバイスであって、前記命令が、
音声信号を取得することと、
前記音声信号に基づいてピッチラグ候補のセットを取得することと、
前記ピッチラグ候補のセットに対応する信頼性尺度のセットを決定することと、
加重平均に基づいてピッチラグ候補を削除するとともに当該加重平均の再計算を行う反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいてピッチラグを推定することとを行うことが実行可能であり、
前記加重平均が、前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して計算される、電子デバイス。 - 反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定することが、
前記ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定することと、
前記ピッチラグ候補のセットから、前記加重平均から最も遠いピッチラグ候補を削除することと、
前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除することと、
ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定することと、
前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、1つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定することとを備える、請求項19に記載の電子デバイス。 - 電子デバイス上でピッチラグを推定するための方法であって、
デジタル音声信号の現在フレームを取得することと、
前記現在フレームに基づいて残差信号を取得することと、
前記残差信号に基づいてピークロケーションのセットを決定することと、
ここで、前記ピークロケーションのセットを決定することは、
前記残差信号およびウィンドウ信号のサンプルから包絡線信号を計算することと、線信号と前記包絡線信号の時間シフトバージョンとの間の差に基づいて第1の勾配信号を計算することと、前記第1の勾配信号と前記第1の勾配信号の時間シフトバージョンとの間の差に基づいて第2の勾配信号を計算することと、第2の勾配信号値が第1のしきい値を下回る第1のロケーションインデックスのセットを選択することと、を備え、
前記ピークロケーションのセットに基づいて前記現在フレームの中のピークロケーション間の距離を決定することによって、ピッチラグ候補のセットを取得することと、
前記ピッチラグ候補のセットに基づいてピッチラグを推定することとを備える、方法。 - ピークロケーションのセットを決定することは、さらに、
包絡線値が包絡線中の最大値に対する第2のしきい値を下回るロケーションインデックスをなくすことによって、前記第1のロケーションインデックスのセットから第2のロケーションインデックスのセットを決定することと、
近隣のロケーションインデックスに対する差分しきい値を満たさないロケーションインデックスをなくすことによって、前記第2のロケーションインデックスのセットから第3のロケーションインデックスのセットを決定することとを備える、請求項21に記載の方法。 - 前記ピッチラグ候補のセットを取得することが、
順序付けされたピークロケーションのセットを生じるように前記ピークロケーションのセットを昇順に配列することと、
前記順序付けされたピークロケーションのセット中の連続するピークロケーションペア間の距離を計算することとを備える、請求項21に記載の方法。 - 線形予測係数のセットを取得するために、前記現在フレームと前記現在フレームより前の信号とを使用して線形予測分析を実行することと、
前記線形予測係数のセットに基づいて量子化線形予測係数のセットを決定することとをさらに備える、請求項21に記載の方法。 - 前記残差信号を取得することが、前記量子化線形予測係数のセットにさらに基づく、請求項24に記載の方法。
- 前記ピッチラグ候補のセットに対応する信頼性尺度のセットを計算することをさらに備える、請求項21に記載の方法。
- 前記ピッチラグ候補のセットに対応する前記信頼性尺度のセットを計算することが、信号包絡線と、順序付けされたピークロケーションのセット中の連続するピークロケーションペアとに基づく、請求項26に記載の方法。
- 前記順序付けされたピークロケーションのセット中のピークロケーションの各ペアについて、前記信頼性尺度のセットを計算することが、
ピークロケーションのペア中の第1のピークロケーションの周りの範囲に基づいて第1の信号バッファを選択することと、
前記ピークロケーションのペア中の第2のピークロケーションの周りの範囲に基づいて第2の信号バッファを選択することと、
前記第1の信号バッファと前記第2の信号バッファとの間の正規化相互相関を計算することと、
前記信頼性尺度のセットに前記正規化相互相関を追加することとを備える、請求項27に記載の方法。 - 前記ピッチラグが、反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて推定される、請求項26に記載の方法。
- 前記ピッチラグ候補のセットに、前記現在フレームの残差信号に基づいて計算された第1の近似ピッチラグ値を追加することと、
前記信頼性尺度のセットに、前記第1の近似ピッチラグ値に対応する第1のピッチ利得を追加することとをさらに備える、請求項26に記載の方法。 - 前記現在フレームの残差信号に基づいて自己相関値を推定することと、
ある範囲のロケーション内の前記自己相関値の最大値を求めて探索することと、
前記第1の近似ピッチラグ値を、前記最大値が生じるロケーションとして設定することと、
前記第1のピッチ利得を、前記第1の近似ピッチラグ値における正規化自己相関として設定することとを行うことによって、前記第1の近似ピッチラグ値が推定され、前記第1のピッチ利得が推定される、請求項30に記載の方法。 - 前記ピッチラグ候補のセットに、前フレームの残差信号に基づいて計算された第2の近似ピッチラグ値を追加することと、
前記信頼性尺度のセットに、前記第2の近似ピッチラグ値に対応する第2のピッチ利得を追加することとをさらに備える、請求項30に記載の方法。 - 前記前フレームの残差信号に基づいて自己相関値を推定することと、
ある範囲のロケーション内の前記自己相関値の最大値を求めて探索することと、
前記第2の近似ピッチラグ値を、前記最大値が生じるロケーションとして設定することと、
前記第2のピッチ利得を、前記第2の近似ピッチラグ値における正規化自己相関として設定することとを行うことによって、前記第2の近似ピッチラグ値が推定され、前記第2のピッチ利得が推定される、請求項32に記載の方法。 - 反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定することが、
前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して加重平均を計算することと、
前記ピッチラグ候補のセットの中で、前記加重平均から最も遠いピッチラグ候補を決定することと、
前記ピッチラグ候補のセットから、前記加重平均から最も遠い前記ピッチラグ候補を削除することと、
前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除することと、
ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定することと、
前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、1つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定することとを備え、
前記加重平均を計算することが、式
- 前記ピッチラグ候補の残りの数が前記指定された数に等しくない場合に反復することをさらに備える、請求項34に記載の方法。
- 前記ピッチラグ候補のセットの中で、前記加重平均から最も遠いピッチラグ候補を決定することが、すべてのiについて|Mw−dk|>|Mw−di|となるようなdkを見つけることによって達成され、i≠kであり、dkは前記加重平均から最も遠い前記ピッチラグ候補であり、Mwは前記加重平均であり、{di}は前記ピッチラグ候補のセットであり、iはインデックス番号である、請求項34に記載の方法。
- 前記ピッチラグを送信することをさらに備える、請求項21に記載の方法。
- 前記電子デバイスがワイヤレス通信デバイスである、請求項21に記載の方法。
- 電子デバイス上でピッチラグを推定するための方法であって、
音声信号を取得することと、
前記音声信号に基づいてピッチラグ候補のセットを取得することと、
前記ピッチラグ候補のセットに対応する信頼性尺度のセットを決定することと、
加重平均に基づいてピッチラグ候補を削除するとともに当該加重平均の再計算を行う反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいてピッチラグを推定することとを備え、
前記加重平均が、前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して計算される、方法。 - 反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定することが、
前記ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定することと、
前記ピッチラグ候補のセットから、前記加重平均から最も遠いピッチラグ候補を削除することと、
前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除することと、
ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定することと、
前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、1つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定することとを備える、請求項39に記載の方法。 - ピッチラグを推定するために、
デジタル音声信号の現在フレームを取得する手順と、
前記現在フレームに基づいて残差信号を取得する手順と、
前記残差信号に基づいてピークロケーションのセットを決定する手順と、
ここで、前記ピークロケーションのセットを決定する手順は、
前記残差信号およびウィンドウ信号のサンプルから包絡線信号を計算する手順と、線信号と前記包絡線信号の時間シフトバージョンとの間の差に基づいて第1の勾配信号を計算する手順と、前記第1の勾配信号と前記第1の勾配信号の時間シフトバージョンとの間の差に基づいて第2の勾配信号を計算する手順と、第2の勾配信号値が第1のしきい値を下回る第1のロケーションインデックスのセットを選択する手順と、を備え、
前記ピークロケーションのセットに基づいて前記現在フレームの中のピークロケーション間の距離を決定することによって、ピッチラグ候補のセットを取得する手順と、
前記ピッチラグ候補のセットに基づいてピッチラグを推定する手順と
をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。 - ピークロケーションのセットを決定させる手順は、さらに、
包絡線値が包絡線中の最大値に対する第2のしきい値を下回るロケーションインデックスをなくすことによって、前記第1のロケーションインデックスのセットから第2のロケーションインデックスのセットを決定する手順と、
近隣のロケーションインデックスに対する差分しきい値を満たさないロケーションインデックスをなくすことによって、前記第2のロケーションインデックスのセットから第3のロケーションインデックスのセットを決定する手順とを含む、請求項41に記載のコンピュータ読み取り可能な記録媒体。 - ピッチラグを推定するために、
音声信号を取得する手順と、
前記音声信号に基づいてピッチラグ候補のセットを取得する手順と、
前記ピッチラグ候補のセットに対応する信頼性尺度のセットを決定する手順と、
加重平均に基づいてピッチラグ候補を削除するとともに当該加重平均の再計算を行う反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいてピッチラグを推定する手順と
をコンピュータに実行させるためのプログラムであって、
前記加重平均が、前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して計算される、プログラムを記録したコンピュータ読み取り可能な記録媒体。 - 反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定する手順が、
前記ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定する手順と、
前記ピッチラグ候補のセットから、前記加重平均から最も遠いピッチラグ候補を削除する手順と、
前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除する手順と、
ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定する手順と、
前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、1つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定する手順とを含む、請求項43に記載のコンピュータ読み取り可能な記録媒体。 - デジタル音声信号の現在フレームを取得するための手段と、
前記現在フレームに基づいて残差信号を取得するための手段と、
前記残差信号に基づいてピークロケーションのセットを決定するための手段と、
ここで、前記ピークロケーションのセットを決定するための手段は、
前記残差信号およびウィンドウ信号のサンプルから包絡線信号を計算するための手段と、線信号と前記包絡線信号の時間シフトバージョンとの間の差に基づいて第1の勾配信号を計算するための手段と、前記第1の勾配信号と前記第1の勾配信号の時間シフトバージョンとの間の差に基づいて第2の勾配信号を計算するための手段と、第2の勾配信号値が第1のしきい値を下回る第1のロケーションインデックスのセットを選択する手段と、を備え、
前記ピークロケーションのセットに基づいて前記現在フレームの中のピークロケーション間の距離を決定することによって、ピッチラグ候補のセットを取得するための手段と、
前記ピッチラグ候補のセットに基づいてピッチラグを推定するための手段とを備える、ピッチラグを推定するための装置。 - 前記ピークロケーションのセットを決定するための手段は、さらに、
包絡線値が包絡線中の最大値に対する第2のしきい値を下回るロケーションインデックスをなくすことによって、前記第1のロケーションインデックスのセットから第2のロケーションインデックスのセットを決定するための手段と、
近隣のロケーションインデックスに対する差分しきい値を満たさないロケーションインデックスをなくすことによって、前記第2のロケーションインデックスのセットから第3のロケーションインデックスのセットを決定するための手段とを備える、請求項45に記載の装置。 - 音声信号を取得するための手段と、
前記音声信号に基づいてピッチラグ候補のセットを取得するための手段と、
前記ピッチラグ候補のセットに対応する信頼性尺度のセットを決定するための手段と、
加重平均に基づいてピッチラグ候補を削除するとともに当該加重平均の再計算を行う反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいてピッチラグを推定するための手段とを備え、
前記加重平均が、前記ピッチラグ候補のセットと前記信頼性尺度のセットとを使用して計算される、ピッチラグを推定するための装置。 - 反復的プルーニングアルゴリズムを使用して前記ピッチラグ候補のセットと前記信頼性尺度のセットとに基づいて前記ピッチラグを推定するための手段は、
前記ピッチラグ候補のセットの中で、加重平均から最も遠いピッチラグ候補を決定するための手段と、
前記ピッチラグ候補のセットから、前記加重平均から最も遠いピッチラグ候補を削除するための手段と、
前記信頼性尺度のセットから、前記加重平均から最も遠い前記ピッチラグ候補に対応する信頼性尺度を削除するための手段と、
ピッチラグ候補の残りの数が指定された数に等しいかどうかを判定するための手段と、前記ピッチラグ候補の残りの数が前記指定された数に等しい場合、1つまたは複数の残りのピッチラグ候補に基づいて前記ピッチラグを決定するための手段とを備える、請求項47に記載の装置。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US38369210P | 2010-09-16 | 2010-09-16 | |
US61/383,692 | 2010-09-16 | ||
US13/228,136 US9082416B2 (en) | 2010-09-16 | 2011-09-08 | Estimating a pitch lag |
US13/228,136 | 2011-09-08 | ||
PCT/US2011/051046 WO2012036989A1 (en) | 2010-09-16 | 2011-09-09 | Estimating a pitch lag |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013537324A JP2013537324A (ja) | 2013-09-30 |
JP5792311B2 true JP5792311B2 (ja) | 2015-10-07 |
Family
ID=44736041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013529209A Active JP5792311B2 (ja) | 2010-09-16 | 2011-09-09 | ピッチラグを推定すること |
Country Status (5)
Country | Link |
---|---|
US (1) | US9082416B2 (ja) |
EP (1) | EP2617029B1 (ja) |
JP (1) | JP5792311B2 (ja) |
CN (1) | CN103109321B (ja) |
WO (1) | WO2012036989A1 (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6153661B2 (ja) * | 2013-06-21 | 2017-06-28 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | 改善されたパルス再同期化を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法 |
BR112015031181A2 (pt) * | 2013-06-21 | 2017-07-25 | Fraunhofer Ges Forschung | aparelho e método que realizam conceitos aperfeiçoados para tcx ltp |
US9484044B1 (en) | 2013-07-17 | 2016-11-01 | Knuedge Incorporated | Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms |
US9530434B1 (en) * | 2013-07-18 | 2016-12-27 | Knuedge Incorporated | Reducing octave errors during pitch determination for noisy audio signals |
KR101541606B1 (ko) * | 2013-11-21 | 2015-08-04 | 연세대학교 산학협력단 | 초음파 신호의 포락선 검출 방법 및 그 장치 |
EP3098812B1 (en) * | 2014-01-24 | 2018-10-10 | Nippon Telegraph and Telephone Corporation | Linear predictive analysis apparatus, method, program and recording medium |
FR3017441B1 (fr) | 2014-02-12 | 2016-07-29 | Air Liquide | Reservoir composite et son procede de fabrication |
EP2980799A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing an audio signal using a harmonic post-filter |
US9711121B1 (en) * | 2015-12-28 | 2017-07-18 | Berggram Development Oy | Latency enhanced note recognition method in gaming |
US9640157B1 (en) * | 2015-12-28 | 2017-05-02 | Berggram Development Oy | Latency enhanced note recognition method |
CN106997767A (zh) * | 2017-03-24 | 2017-08-01 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
US10650837B2 (en) | 2017-08-29 | 2020-05-12 | Microsoft Technology Licensing, Llc | Early transmission in packetized speech |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483886A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
JP7266689B2 (ja) * | 2019-01-13 | 2023-04-28 | 華為技術有限公司 | ハイレゾリューションオーディオ符号化 |
JP7262593B2 (ja) * | 2019-01-13 | 2023-04-21 | 華為技術有限公司 | ハイレゾリューションオーディオ符号化 |
WO2021076297A1 (en) * | 2019-10-19 | 2021-04-22 | Google Llc | Self-supervised pitch estimation |
Family Cites Families (64)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4074069A (en) * | 1975-06-18 | 1978-02-14 | Nippon Telegraph & Telephone Public Corporation | Method and apparatus for judging voiced and unvoiced conditions of speech signal |
JPS5648688A (en) * | 1979-09-28 | 1981-05-01 | Hitachi Ltd | Sound analyser |
US4561102A (en) * | 1982-09-20 | 1985-12-24 | At&T Bell Laboratories | Pitch detector for speech analysis |
US5105464A (en) * | 1989-05-18 | 1992-04-14 | General Electric Company | Means for improving the speech quality in multi-pulse excited linear predictive coding |
DE69232202T2 (de) * | 1991-06-11 | 2002-07-25 | Qualcomm, Inc. | Vocoder mit veraendlicher bitrate |
DE69203186T2 (de) * | 1991-09-20 | 1996-02-01 | Philips Electronics Nv | Verarbeitungsgerät für die menschliche Sprache zum Detektieren des Schliessens der Stimmritze. |
US5353372A (en) * | 1992-01-27 | 1994-10-04 | The Board Of Trustees Of The Leland Stanford Junior University | Accurate pitch measurement and tracking system and method |
US5781880A (en) | 1994-11-21 | 1998-07-14 | Rockwell International Corporation | Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
JP4063911B2 (ja) | 1996-02-21 | 2008-03-19 | 松下電器産業株式会社 | 音声符号化装置 |
US5774836A (en) * | 1996-04-01 | 1998-06-30 | Advanced Micro Devices, Inc. | System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator |
AU3708597A (en) | 1996-08-02 | 1998-02-25 | Matsushita Electric Industrial Co., Ltd. | Voice encoder, voice decoder, recording medium on which program for realizing voice encoding/decoding is recorded and mobile communication apparatus |
US6014622A (en) | 1996-09-26 | 2000-01-11 | Rockwell Semiconductor Systems, Inc. | Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization |
JPH10105195A (ja) * | 1996-09-27 | 1998-04-24 | Sony Corp | ピッチ検出方法、音声信号符号化方法および装置 |
US5812967A (en) * | 1996-09-30 | 1998-09-22 | Apple Computer, Inc. | Recursive pitch predictor employing an adaptively determined search window |
US5946649A (en) * | 1997-04-16 | 1999-08-31 | Technology Research Association Of Medical Welfare Apparatus | Esophageal speech injection noise detection and rejection |
US5946650A (en) * | 1997-06-19 | 1999-08-31 | Tritech Microelectronics, Ltd. | Efficient pitch estimation method |
US6073092A (en) * | 1997-06-26 | 2000-06-06 | Telogy Networks, Inc. | Method for speech coding based on a code excited linear prediction (CELP) model |
WO1999010719A1 (en) | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
US6351730B2 (en) * | 1998-03-30 | 2002-02-26 | Lucent Technologies Inc. | Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment |
US6226606B1 (en) * | 1998-11-24 | 2001-05-01 | Microsoft Corporation | Method and apparatus for pitch tracking |
US6151571A (en) | 1999-08-31 | 2000-11-21 | Andersen Consulting | System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters |
US6782360B1 (en) * | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
US6636829B1 (en) | 1999-09-22 | 2003-10-21 | Mindspeed Technologies, Inc. | Speech communication system and method for handling lost frames |
US6959274B1 (en) * | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
US7016850B1 (en) * | 2000-01-26 | 2006-03-21 | At&T Corp. | Method and apparatus for reducing access delay in discontinuous transmission packet telephony systems |
AU2001258298A1 (en) * | 2000-04-06 | 2001-10-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Pitch estimation in speech signal |
US6757654B1 (en) * | 2000-05-11 | 2004-06-29 | Telefonaktiebolaget Lm Ericsson | Forward error correction in speech coding |
US6763339B2 (en) * | 2000-06-26 | 2004-07-13 | The Regents Of The University Of California | Biologically-based signal processing system applied to noise removal for signal extraction |
US7133823B2 (en) * | 2000-09-15 | 2006-11-07 | Mindspeed Technologies, Inc. | System for an adaptive excitation pattern for speech coding |
US6917912B2 (en) * | 2001-04-24 | 2005-07-12 | Microsoft Corporation | Method and apparatus for tracking pitch in audio analysis |
WO2002101717A2 (en) * | 2001-06-11 | 2002-12-19 | Ivl Technologies Ltd. | Pitch candidate selection method for multi-channel pitch detectors |
US6879955B2 (en) * | 2001-06-29 | 2005-04-12 | Microsoft Corporation | Signal modification based on continuous time warping for low bit rate CELP coding |
CA2365203A1 (en) * | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
JP2004109803A (ja) | 2002-09-20 | 2004-04-08 | Hitachi Kokusai Electric Inc | 音声符号化装置及び方法 |
GB2400003B (en) | 2003-03-22 | 2005-03-09 | Motorola Inc | Pitch estimation within a speech signal |
US7596488B2 (en) * | 2003-09-15 | 2009-09-29 | Microsoft Corporation | System and method for real-time jitter control and packet-loss concealment in an audio signal |
SG120121A1 (en) * | 2003-09-26 | 2006-03-28 | St Microelectronics Asia | Pitch detection of speech signals |
KR100552693B1 (ko) * | 2003-10-25 | 2006-02-20 | 삼성전자주식회사 | 피치검출방법 및 장치 |
EP1605437B1 (en) * | 2004-06-04 | 2007-08-29 | Honda Research Institute Europe GmbH | Determination of the common origin of two harmonic components |
JP4654621B2 (ja) * | 2004-06-30 | 2011-03-23 | ヤマハ株式会社 | 音声処理装置およびプログラム |
US7933767B2 (en) * | 2004-12-27 | 2011-04-26 | Nokia Corporation | Systems and methods for determining pitch lag for a current frame of information |
ATE475170T1 (de) * | 2006-03-20 | 2010-08-15 | Mindspeed Tech Inc | Tonhöhen-track-glättung in offener schleife |
KR100735343B1 (ko) * | 2006-04-11 | 2007-07-04 | 삼성전자주식회사 | 음성신호의 피치 정보 추출장치 및 방법 |
EP2040251B1 (en) | 2006-07-12 | 2019-10-09 | III Holdings 12, LLC | Audio decoding device and audio encoding device |
WO2008072701A1 (ja) * | 2006-12-13 | 2008-06-19 | Panasonic Corporation | ポストフィルタおよびフィルタリング方法 |
CN101226744B (zh) * | 2007-01-19 | 2011-04-13 | 华为技术有限公司 | 语音解码器中实现语音解码的方法及装置 |
US8364472B2 (en) * | 2007-03-02 | 2013-01-29 | Panasonic Corporation | Voice encoding device and voice encoding method |
DE602007004943D1 (de) * | 2007-03-23 | 2010-04-08 | Honda Res Inst Europe Gmbh | Tonhöhenextraktion mit Hemmung der Harmonischen und Subharmonischen der Grundfrequenz |
EP2153436B1 (en) * | 2007-05-14 | 2014-07-09 | Freescale Semiconductor, Inc. | Generating a frame of audio data |
WO2008155919A1 (ja) * | 2007-06-21 | 2008-12-24 | Panasonic Corporation | 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法 |
US8990073B2 (en) * | 2007-06-22 | 2015-03-24 | Voiceage Corporation | Method and device for sound activity detection and sound signal classification |
CN100550712C (zh) * | 2007-11-05 | 2009-10-14 | 华为技术有限公司 | 一种信号处理方法和处理装置 |
US20090319261A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
EP2329399A4 (en) * | 2008-09-19 | 2011-12-21 | Newsouth Innovations Pty Ltd | METHOD FOR ANALYZING A TONE SIGNAL |
US8214201B2 (en) | 2008-11-19 | 2012-07-03 | Cambridge Silicon Radio Limited | Pitch range refinement |
GB2466669B (en) * | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
GB2466673B (en) * | 2009-01-06 | 2012-11-07 | Skype | Quantization |
US8185384B2 (en) * | 2009-04-21 | 2012-05-22 | Cambridge Silicon Radio Limited | Signal pitch period estimation |
US8620672B2 (en) * | 2009-06-09 | 2013-12-31 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal |
US8452606B2 (en) * | 2009-09-29 | 2013-05-28 | Skype | Speech encoding using multiple bit rates |
US8983829B2 (en) * | 2010-04-12 | 2015-03-17 | Smule, Inc. | Coordinating and mixing vocals captured from geographically distributed performers |
KR101826331B1 (ko) * | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
US8645128B1 (en) * | 2012-10-02 | 2014-02-04 | Google Inc. | Determining pitch dynamics of an audio signal |
-
2011
- 2011-09-08 US US13/228,136 patent/US9082416B2/en active Active
- 2011-09-09 CN CN201180044585.1A patent/CN103109321B/zh active Active
- 2011-09-09 WO PCT/US2011/051046 patent/WO2012036989A1/en active Application Filing
- 2011-09-09 EP EP11764380.9A patent/EP2617029B1/en active Active
- 2011-09-09 JP JP2013529209A patent/JP5792311B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
EP2617029B1 (en) | 2014-10-15 |
CN103109321B (zh) | 2015-06-03 |
CN103109321A (zh) | 2013-05-15 |
EP2617029A1 (en) | 2013-07-24 |
WO2012036989A1 (en) | 2012-03-22 |
JP2013537324A (ja) | 2013-09-30 |
US20120072209A1 (en) | 2012-03-22 |
US9082416B2 (en) | 2015-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5792311B2 (ja) | ピッチラグを推定すること | |
JP5727018B2 (ja) | 過渡フレームの符号化及び復号化 | |
US9047863B2 (en) | Systems, methods, apparatus, and computer-readable media for criticality threshold control | |
US8924222B2 (en) | Systems, methods, apparatus, and computer-readable media for coding of harmonic signals | |
JP6373873B2 (ja) | 線形予測コーディングにおける適応型フォルマントシャープニングのためのシステム、方法、装置、及びコンピュータによって読み取り可能な媒体 | |
JP2007534020A (ja) | 信号符号化 | |
KR101548846B1 (ko) | 워터마킹된 신호의 적응적 인코딩 및 디코딩을 위한 디바이스 | |
KR101590239B1 (ko) | 워터마킹된 신호를 인코딩 및 디코딩하는 디바이스들 | |
JP5639273B2 (ja) | ピッチサイクルエネルギーを判断し、励起信号をスケーリングすること | |
TW201434033A (zh) | 用於判定音調脈衝週期信號界限之系統及方法 | |
US20150100318A1 (en) | Systems and methods for mitigating speech signal quality degradation | |
WO2018073486A1 (en) | Low-delay audio coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130520 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140603 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140901 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150303 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150603 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150707 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150805 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5792311 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |