JP7079325B2 - ピッチラグの選択 - Google Patents

ピッチラグの選択 Download PDF

Info

Publication number
JP7079325B2
JP7079325B2 JP2020524874A JP2020524874A JP7079325B2 JP 7079325 B2 JP7079325 B2 JP 7079325B2 JP 2020524874 A JP2020524874 A JP 2020524874A JP 2020524874 A JP2020524874 A JP 2020524874A JP 7079325 B2 JP7079325 B2 JP 7079325B2
Authority
JP
Japan
Prior art keywords
estimate
lag
pitch lag
value
ltpf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020524874A
Other languages
English (en)
Other versions
JP2021502596A (ja
Inventor
ラヴェッリ・エマニュエル
ディーツ・マーティン
シュナベル・ミヒャエル
トリサート・アーサー
チェカリンスキー・アレクサンダー
Original Assignee
フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2021502596A publication Critical patent/JP2021502596A/ja
Application granted granted Critical
Publication of JP7079325B2 publication Critical patent/JP7079325B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3059Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression
    • H03M7/3064Segmenting
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6005Decoder aspects
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6011Encoder aspects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

たとえば、長期ポストフィルタリングLTPF、エンコードなど、低複雑度ピッチ検出手順を実行することが可能な方法および装置の例が、ここに提供される。
たとえば、例は、たとえばLTPFを実行するための、たとえばオーディオ信号などの情報信号のピッチラグを選択することができる。
1.1.背景
変換ベースのオーディオコーデックは一般に、高調波オーディオ信号を、特に低遅延および低ビットレートで処理するときに、高調波間ノイズを発生させる。この高調波間ノイズは一般に、非常に迷惑なアーチファクトとして知覚され、トーンの高いオーディオ素材で主観的に評価された時の変換ベースのオーディオコーデックの性能を著しく低下させる。
長期ポストフィルタリング(LTPF)は、この高調波間ノイズを低減するのに役立つ変換ベースのオーディオコーディング用のツールである。これは、変換デコードの後に時間領域信号に適用されるポストフィルタに依存する。このポストフィルタは本質的に、ピッチラグおよび利得の2つのパラメータによって制御される櫛形周波数応答を有する無限インパルス応答(IIR)フィルタである。
さらなる堅牢性のため、ポストフィルタパラメータ(ピッチラグおよび/またはフレームあたりの利得)がエンコーダ側で推定され、利得が非ゼロのときにビットストリーム内でエンコードされる。ゼロ利得の場合は1ビットで通知され、信号が高調波部分を含まないときに使用される非アクティブなポストフィルタに対応する。
LTPFは、最初に3GPP EVS規格[1]に導入され、後にMPEG-H 3Dオーディオ規格[2]に統合された。対応する特許は[3]および[4]である。
ピッチ検出アルゴリズムは、フレームごとに1つのピッチラグを推定する。複雑度を低減するために、これは通常、低サンプリングレート(たとえば、6.4kHz)で実行される。理想的には、これは正確で安定した連続的な推定を提供すべきである。
LTPFエンコードに使用されるときには、連続的なピッチ輪郭を有することが最も重要であり、そうでなければLTPFフィルタリングされた出力信号において、いくつかの不安定なアーチファクトが聞こえる可能性がある。真の基本周波数F0を持たないこと(たとえばその倍数を持つことによる)は、重大なアーチファクトではなく、LTPF性能のわずかな劣化をもたらすので、あまり重要ではない。
ピッチ検出アルゴリズムの別の重要な特性は、計算上の複雑度である。低電力デバイスまたは超低電力デバイスさえ対象とするオーディオコーデックに実装されるとき、その計算上の複雑度は可能な限り低くなければならない。
1.2.従来技術
公共領域で見られるLTPFエンコーダの一例がある。これは3GPP EVS規格[1]に記載されている。この実装は、標準仕様のセクション5.1.10に記載されているピッチ検出アルゴリズムを使用している。このピッチ検出アルゴリズムは、非常に安定した連続的なピッチ輪郭を与えるので、優れた性能を有し、LTPFとうまく連携する。しかしながら、その主な欠点は、その比較的高い複雑度である。
これらはLTPFエンコードには決して使用されなかったものの、理論的には他の既存のピッチ検出アルゴリズムがLTPFに使用され得る。一例は、多くの場合最も正確なものの1つとして認識されるピッチ検出アルゴリズムである、YIN[6]である。しかしながら、YINは非常に複雑であり、[1]のものよりも遙かに複雑でさえある。
言及する価値のあるもう1つの例は、3GPP AMR-WB規格[7]で使用されるピッチ検出アルゴリズムであり、これは[1]のものよりも複雑度がはるかに低いが性能もまた悪く、特にあまり安定せず連続しないピッチ輪郭を与える。
従来技術は、以下の開示を備える。
[1]3GPP TS 26.445;Enhanced Voice Services(EVS)用のコーデック;詳細なアルゴリズム記
[2]ISO/IEC23008-3:2015;情報技術――異機種環境における高効率コーディングおよびメディア配信――パート3:3Dオーディ
[3]Ravelliら「高調波ポストフィルタを使用してオーディオ信号を処理するための装置および方法(Apparatus and method for processing an audio signal using a harmonic post-filter)」。米国特許出願第2017/0140769 A1号明細書、2017年5月18日。
[4]Markovicら「高調波フィルタツールの調和性依存制御(Harmonicity-dependent controlling of a harmonic filter tool)」。米国特許出願第2017/0133029 A1号明細書、2017年5月11日。
[5]ITU-T G.718:8-32kbit/sからのスピーチとオーディオの、フレームエラーに強い狭帯域および広帯域埋め込み可変ビットレートコーディング。
[6]De Cheveigne、Alain、およびHideki Kawahara。「YIN、スピーチおよび音楽用の基本周波数推定器(YIN,a fundamental frequency estimator for speech and music)」。The Journal of the Acoustical Society of America 111.4(2002):1917-1930
[7]3GPP TS 26.190;音声コーデック音声処理機能;適応型マルチレート-広帯域(AMR-WB)音声コーデック;トランスコード機能。
しかしながら、ピッチラグ推定を改善しなければならない場合がある。
現在の低複雑度ピッチ検出アルゴリズム([7]のものなど)は、LTPFにとって、特にポリフォニー音楽のような複雑な信号にとって、不十分な性能を有する。ピッチ輪郭は、静止トーンの間であっても非常に不安定になる可能性がある。これは、重み付けされた自己相関関数の極大値間のジャンプによるものである。
米国特許出願第2017/0140769 A1号明細書 米国特許出願第2017/0133029 A1号明細書
De Cheveigne、Alain、およびHideki Kawahara。「YIN、スピーチおよび音楽用の基本周波数推定器(YIN,a fundamental frequency estimator for speech and music)」。The Journal of the Acoustical Society of America 111.4(2002):1917-1930.
したがって、従来技術と同じかまたはより低い複雑度で、複雑な信号によりよく適応するピッチラグ推定を取得する必要性がある。
例によれば、複数のフレームを含む情報信号をエンコードするための装置が提供され、装置は、
第1推定値を取得するように構成された第1推定器であって、第1推定値は現在のフレームのピッチラグの推定値である、第1推定器と、
第2推定値を取得するように構成された第2推定器であって、第2推定値は現在のフレームのピッチラグの別の推定値である、第2推定器と、
第1および第2相関測定値に基づいて第1推定値と第2推定値との間の選択を実行することによって選択値を選ぶように構成されたセレクタと、
を備え、
第2推定器は、現在のフレームの第2推定値を取得するように、前のフレームで選択されたピッチラグによって条件付けられ、
セレクタは、
第2相関測定値が第1相関測定値のダウンスケールバージョンよりも小さいときに第1推定値を選択するように、および/または
第2相関測定値が第1相関測定値のダウンスケールバージョンよりも大きいときに第2推定値を選択するように、
現在のフレームに関連付けられ、第1推定値に対応するラグで取得された第1相関測定値のダウンスケールバージョンと、
現在のフレームに関連付けられ、第2推定値に対応するラグで取得された第2相関測定値と
の間で比較を実行するように構成されており、
第1および第2相関測定値のうちの少なくとも1つは、自己相関測定値および/または正規化自己相関測定値である、
ことを特徴とする。
例によれば、情報信号を、複数のフレームを含むビットストリーム(63)にエンコードするための装置が提供され、装置(60a)は、
第1推定値を取得するように構成された第1推定器であって、第1推定値は現在のフレームのピッチラグの推定値である、第1推定器と、
第2推定値を取得するように構成された第2推定器であって、第2推定値は現在のフレームのピッチラグの別の推定値であり、第2推定器は、現在のフレームの第2推定値を取得するように、前のフレームで選択されたピッチラグによって条件付けられる、第2推定器と、
少なくとも1つの相関測定値に基づいて第1推定値と第2推定値との間の選択を実行することによって選択値を選ぶように構成されたセレクタであって、セレクタは、
第2相関測定値がピッチラグ選択閾値よりも大きいときに第2推定値を選択するように、および/または
第2相関測定値がピッチラグ選択閾値よりも小さいときに第1推定値を選択するように、
現在のフレームに関連付けられ、第2推定値に対応するラグで取得された第2相関測定値と、
ピッチラグ選択閾値と
の間で比較を実行するように構成されている、セレクタと、
デコーダでLTPFを実行するのに有用なデータをエンコードするように構成された長期ポストフィルタリングLTPFツールであって、LTPFを実行するのに有用なデータは選択値を含む、長期ポストフィルタリングLTPFツールと、
を備える検出ユニットを備える。
例によれば、複数のフレームを含む情報信号をエンコードするための装置が提供され、装置は、
第1推定値を取得するように構成された第1推定器であって、第1推定値は現在のフレームのピッチラグの推定値である、第1推定器と、
第2推定値を取得するように構成された第2推定器であって、第2推定値は現在のフレームのピッチラグの別の推定値である、第2推定器と、
少なくとも1つの相関測定値に基づいて第1推定値と第2推定値との間の選択を実行することによって選択値を選ぶように構成されたセレクタと、
を備え、
第2推定器は、現在のフレームの第2推定値を取得するように、前のフレームで選択されたピッチラグによって条件付けられる。
例によれば、セレクタは、
第2相関測定値がピッチラグ選択閾値よりも大きいときに第2推定値を選択するように、および/または
第2相関測定値がピッチラグ選択閾値よりも小さいときに第1推定値を選択するように、
現在のフレームに関連付けられ、第2推定値に対応するラグで取得された第2相関測定値と、
ピッチラグ選択閾値と
の間で比較を実行するように構成されている。
例によれば、セレクタは、
第1相関測定値が少なくとも第2相関測定値よりも大きいときに第1推定値を選択するように、および/または
第1相関測定値が少なくとも第2相関測定値よりも小さいときに第2推定値を選択するように、
現在のフレームに関連付けられ、第1推定値に対応するラグで取得された第1相関測定値と、
現在のフレームに関連付けられ、第2推定値に対応するラグで取得された第2相関測定値と
の間の選択を実行するように構成されている。
例によれば、セレクタは、
第2相関測定値が第1相関測定値のダウンスケールバージョンよりも小さいときに第1推定値を選択するように、および/または
第2相関測定値が第1相関測定値のダウンスケールバージョンよりも大きいときに第2推定値を選択するように、
現在のフレームに関連付けられ、第1推定値に対応するラグで取得された第1相関測定値のダウンスケールバージョンと、
現在のフレームに関連付けられ、第2推定値に対応するラグで取得された第2相関測定値と
の間の選択を実行するように構成されている。
例によれば、第1および第2相関測定値のうちの少なくとも1つは、自己相関測定値および/または正規化自己相関測定値である。
情報信号の表現またはその処理済みバージョンを生成するための変換コーダが実装されてもよい。
例によれば、第2推定器は、
前のフレームのために選択されたピッチラグを含む第2サブインターバル内の第2相関関数を最大化させるラグを検索することによって、第2推定値を取得するように構成されている。
例によれば、第2サブインターバルは、前のフレームのために選択されたピッチラグから所定のラグ数閾値よりも短い距離内のラグを含む。
例によれば、第2推定器は、
第2相関関数値の中の最大値に関連付けられたラグに第2推定値を関連付けるために、第2相関関数値の中の最大値を検索するように構成されている。
例によれば、第1推定器は、
現在のフレームに関連付けられた第1相関関数を最大化させるラグとして第1推定値を取得するように構成されている。
例によれば、第1相関関数は、第1サブインターバル内のラグに制限されている。
例によれば、第1サブインターバルは、第2サブインターバルよりも大きいいくつかのラグを含み、および/または第2サブインターバル内のラグのうちの少なくともいくつかは、第1サブインターバルに含まれる。
例によれば、第1推定器)は、
第1相関関数を最大化させるラグを検索する前に単調に減少する重み関数を使用して第1相関関数の相関測定値を重み付けするように構成されている。
例によれば、第2および第1相関関数のうちの少なくとも1つは、自己相関関数および/または正規化自己相関関数である。
例によれば、第1推定器は、以下の演算のうちの少なくともいくつかを実行することによって第1推定値
Figure 0007079325000001
を取得するように構成されており、
Figure 0007079325000002
Figure 0007079325000003
Figure 0007079325000004
Figure 0007079325000005
Figure 0007079325000006
は重み関数であり、
Figure 0007079325000007
および
Figure 0007079325000008
は最小ラグおよび最大ラグに関連付けられており、
Figure 0007079325000009
は情報信号またはその処理済みバージョンに基づいて推定された自己相関測定値であり、Nはフレーム長である。
例によれば、第2推定器は、
Figure 0007079325000010
を実行することによって第2推定値
Figure 0007079325000011
を取得するように構成されており、
Figure 0007079325000012

Figure 0007079325000013

Figure 0007079325000014
は前のフレームで選択された推定値であり、
Figure 0007079325000015

Figure 0007079325000016
からの距離であり、
Figure 0007079325000017
および
Figure 0007079325000018
は最小ラグおよび最大ラグに関連付けられている。
例によれば、セレクタは、以下の点に関してピッチラグ推定値
Figure 0007079325000019
の選択を実行するように構成されており、
Figure 0007079325000020
ここで
Figure 0007079325000021
は第1推定値、
Figure 0007079325000022
は第2推定値、
Figure 0007079325000023
は情報信号またはその処理済みバージョンの値、
Figure 0007079325000024
はラグ
Figure 0007079325000025
での長さ
Figure 0007079325000026
の信号
Figure 0007079325000027
の正規化相関測定値、
Figure 0007079325000028
はダウンスケーリング係数である。
例によれば、セレクタの下流に、デコーダ装置における長期ポストフィルタを制御するための長期ポストフィルタリングLTPFツールが提供される。
例によれば、情報信号はオーディオ信号である。
例によれば、装置は、現在のフレームの高調波の測定値として第1相関測定値を、および前のフレームに対して定義されたサブインターバルに制限された現在のフレームの高調波の測定値として第2相関測定値を取得するように構成されている。
例によれば、装置は、重み関数まで同じ相関関数を使用して第1および第2相関測定値を取得するように構成されている。
例によれば、装置は、重み関数までの第1推定値の正規化バージョンとして第1相関測定値を取得するように構成されている。
例によれば、装置は、第2推定値の正規化バージョンとして第2相関測定値を取得するように構成されている。
例によれば、エンコーダ側およびデコーダ側を備えるシステムが提供され、エンコーダ側は上記の通りであり、デコーダ側は、セレクタによって選択されたピッチラグ推定値に基づいて制御される長期ポストフィルタリングツールを備える。
例によれば、フレームに分割された信号のピッチラグを決定する方法であって、
現在のフレームの第1推定を実行するステップと、
現在のフレームの第2推定を実行するステップと、
少なくとも1つの相関測定値に基づいて、第1推定で取得された第1推定値と第2推定で取得された第2推定値との間で選択するステップと
を備え、
第2推定を実行するステップは、前のフレームで実行された選択ステップの結果に基づいて取得される、方法が提供される。
例によれば、方法は、長期ポストフィルタリングLTPFのために選択されたラグを使用するステップを備えてもよい。
例によれば、方法は、パケット損失隠蔽PLCのために選択されたラグを使用するステップを備えてもよい。
例によれば、フレームに分割された信号のピッチラグを決定する方法であって、
現在のフレームの第1推定を実行するステップと、
現在のフレームの第2推定を実行するステップと、
相関測定値に基づいて、第1推定で取得された第1推定値と第2推定で取得された第2推定値との間で選択するステップと、
を備え、
第2推定を実行するステップは、前のフレームで実行された選択ステップの結果に基づいて取得され、
選択ステップは、
現在のフレームに関連付けられ、第1推定値に対応するラグで取得された第1相関測定値のダウンスケールバージョンと、
現在のフレームに関連付けられ、第2推定値に対応するラグで取得された第2相関測定値と
の間で比較を実行するステップと、
第2相関測定値が第1相関測定値のダウンスケールバージョンよりも小さいときに第1推定値を選択し、および/または第2相関測定値が第1相関測定値のダウンスケールバージョンよりも大きいときに第2推定値を選択するステップと、を備え、
第1および第2相関測定値のうちの少なくとも1つは自己相関測定値および/または正規化自己相関測定値であることを特徴とする、方法が提供される。
例によれば、フレームに分割された信号のためにビットストリームをエンコードする方法であって、
現在のフレームの第1推定を実行するステップと、
現在のフレームの第2推定を実行するステップと、
少なくとも1つの相関測定値に基づいて、第1推定で取得された第1推定値と第2推定で取得された第2推定値との間で選択するステップと
を備え、
第2推定を実行するステップは、前のフレームで実行された選択ステップの結果に基づいて取得され、
選択ステップは、
現在のフレームに関連付けられ、第2推定値に対応するラグで取得された第2相関測定値と、
ピッチラグ選択閾値と
の間で比較を実行するステップと、
第2相関測定値がピッチラグ選択閾値よりも大きいときに第2推定値を選択し、および/または第2相関測定値がピッチラグ選択式位置よりも小さいときに第1推定値を選択するステップと、を備え、
方法は、選択値を用いてデコーダでLTPFを実行するのに有用なデータをエンコードするステップをさらに備える、方法が提供される。
例によれば、プロセッサによって実行されると、上記または下記の方法のいずれかをプロセッサに実行させる命令を備えるプログラムが提供される。
例による装置を示す図である。 例による方法を示す図である。 例による装置を示す図である。 例による方法を示す図である。 例による方法を示す図である。 相関関数の図である。 相関関数の図である。 相関関数の図である。 相関関数の図である。 相関関数の図である。 本発明によるシステムを示す図である。 本発明による装置を示す図である。 本発明による装置を示す図である。 デコーダでの動作の例を示す図である。
5.選択および推定の例
たとえばLTPFエンコードおよび/またはデコードのための、低複雑度ピッチ検出手順、システム、および装置の例が開示される。
情報信号は、異なる離散時刻(n)で獲得された連続するサンプル(たとえば、x(n))として、時間領域TDに記述され得る。TD表現は、各々が複数のサンプルに関連付けられた、複数のフレームを備えてもよい。フレームは、現在のフレームが後続のフレームよりも時間的に前であって前のフレームよりも時間的に後になるように、連続して次々に見られることがある。前のフレームに対して実行された動作が現在のフレームに繰り返されるように、反復的に動作することが可能である。
現在のフレームに関連付けられた反復の間、前のフレームに関連付けられた前の反復で実行された選択によって条件付けられた、少なくともいくつかの動作(たとえば、第2推定値)を実行することが可能である。したがって、たとえば長期ポストフィルタリング(LTPF)を実行するためにデコーダによって使用されるピッチラグを選択するために、前のフレームでの信号の履歴が考慮される。
5.1 例による一般的な構造および関数
図1aは、情報信号をエンコードするための装置10の一部を示す。装置10は、現在のフレーム13の第1推定値14(T)を取得するための第1推定プロセスを実行するように構成された第1推定器11を備え得る。装置10は、現在のフレーム13)の第2推定値16(T)を取得するための第2推定プロセスを実行するように構成された第2推定器12を備え得る。装置10は、少なくとも1つの相関測定値に基づいて第1推定値14と第2推定値16との間の選択18を実行するように構成されたセレクタ17を備え得る(スイッチ17aによって表される要素は、要素17によって制御される)。出力(最終)推定値19(Tbest)は、第1推定値14と第2推定値16との間で選ばれ、たとえばLTPFを実行するために、たとえばデコーダに提供され得る。出力(最終)推定値19は、LTPFのピッチラグとして使用される。
最終推定値(選択値)19はまた、レジスタ19’に入力されて、後続のフレームに対して反復を実行するときに、先に行われた選択に関する第2推定器12への入力19’’(Tprev)として使用されてもよい。各フレーム13について、第2推定器12は、前のフレームの前の最終推定値19’’に基づいて第2推定値16を取得する。
図1bは、フレームに分割された信号の(たとえば、LPTFに使用される最終ピッチラグを決定する)方法100を示す。方法は、ステップS101において、現在のフレームの第1推定(ピッチラグ推定)を実行するステップを備える。方法は、ステップS102において、現在のフレームの第2推定を実行するステップを備え、第2推定は、前のフレームで行われた選択に基づく(たとえば、前のフレームでLTPFのために選ばれた最終ピッチラグ)。方法は、ステップS103において、少なくとも1つの相関測定値に基づいて第1推定値14と第2推定値16との間で選択するステップを備える。
続いて、ステップS104において、フレームが更新され、「現在のフレーム」であったフレームは「前のフレーム」になり、新しい(後続の)フレームが新しい「現在のフレーム」になる。更新の後、方法は反復されてもよい。
図2は、情報信号をエンコードするための(図1aと同じであってもよい)装置10の一部を示す。セレクタ17において、第1測定器21は、現在のフレーム13(たとえば、第1推定値Tの正規化自己相関)に関連付けられた第1相関(たとえば、正規化相関)23を測定し得る。第2測定器22は、現在のフレーム13(たとえば、第2推定値Tの正規化自己相関)に関連付けられた第2相関(たとえば、正規化相関)25を測定し得る。第1の正規化相関23は、スケーラ26において、たとえば0.8から0.9の間、より具体的には0.84から0.86の間の値であってもよく、0.85であってもよい所定値αだけ、ダウンスケールされ得る。現在のフレーム13に関連付けられた第2相関(たとえば、正規化相関)25は、たとえば、スケーリングされた第1相関24と比較され得る(例では、スケーラ26はオプションであり、第1相関はスケーリングされない)。第1推定値14(T)と第2推定値16(T)との間の選択18は、比較器27で実行された比較に基づく。第2相関25がスケーリングされた第1相関24よりも大きいとき、第2推定値16は、デコーダに提供される(たとえば、LTPFのピッチラグとして使用される)選択された出力推定値19(Tbest=T)としてのピッチラグ情報として選ばれる。第2相関25がスケーリングされた第1相関24よりも小さいとき、第1推定値14(T)は、デコーダに提供されるピッチラグ情報19(Tbest=T)として選ばれる。
5.2 第1推定
例において、現在のフレーム13に基づいて第1推定値14を提供するために使用され得る第1推定器11の動作が、ここで論じられる。方法30が、図3に示されている。
ステップ1.第1段の再サンプリング(ステップS31)
サンプリングレート
Figure 0007079325000029
での入力信号
Figure 0007079325000030
は、より低いサンプリングレート
Figure 0007079325000031
(たとえば、
Figure 0007079325000032
)に再サンプリングされる。再サンプリングは、たとえば、古典的なアップサンプリング+ローパス+ダウンサンプリングアプローチを使用して実施され得る。本ステップは、いくつかの例ではオプションである。
ステップ2.ハイパスフィルタリング(ステップS21)
次に、再サンプリングされた信号は、たとえば50Hzで3dBカットオフの2次IIRフィルタを使用して、ハイパスフィルタリングされる。得られた信号は、
Figure 0007079325000033
で示される。本ステップは、いくつかの例ではオプションである。
ステップ3.第2段の再サンプリング(ステップS33)
信号
Figure 0007079325000034
は、たとえば4次FIRローパスフィルタとこれに続くデシメータを使用して、2の倍数でさらにダウンサンプリングされる。サンプリングレート
Figure 0007079325000035
(たとえば
Figure 0007079325000036
)で得られた信号は、
Figure 0007079325000037
で示される。本ステップは、いくつかの例ではオプションである。
ステップ4.自己相関計算(ステップS34)
自己相関プロセスが実行され得る。たとえば、自己相関は
Figure 0007079325000038
に対して、
Figure 0007079325000039
によって処理でき、
Figure 0007079325000040
はフレームサイズである。
Figure 0007079325000041
および
Figure 0007079325000042
は、ピッチラグを引き出すための最小値および最大値である(たとえば
Figure 0007079325000043
および
Figure 0007079325000044
)。したがって、
Figure 0007079325000045
および
Figure 0007079325000046
は、第1推定値(現在のフレームのピッチラグ)が見つかる最初のインターバルの極値を構成し得る。
ステップ5.自己相関重み付け(ステップS35)
より低いピッチラグを強調するために自己相関が重み付けされてもよい。
Figure 0007079325000047
ここで
Figure 0007079325000048
は、たとえば
Figure 0007079325000049
で与えられる減少関数(たとえば、単調減少関数)である。
ステップ6.第1推定(ステップS36)
第1推定値
Figure 0007079325000050
は、重み付けされた自己相関を最大化させる値である。
Figure 0007079325000051
第1推定値
Figure 0007079325000052
は、第1推定器11の出力14として提供され得る。これは、本フレームのピッチラグの推定値であり得る。
Figure 0007079325000053
(またはその重み付けバージョン
Figure 0007079325000054
)は、その最大値が第1のピッチラグ推定値14(T)に関連付けられた第1相関関数の一例である。
5.3 第2推定
例において、現在のフレーム13および前に選択(出力)された推定値19’’(前のフレームのために取得されたピッチラグ)に基づいて第2推定値16を提供するために使用され得る第2推定器12の動作(および/またはステップS102)が、ここで論じられる。方法40が、図4に示されている。第2推定値16は、第1推定値14とは異なってもよい。さらに、推定ピッチラグは、いくつかの例では、前に推定されたピッチラグとは異なる場合がある。
図5を参照すると、例によれば、ステップS41において、検索は、特定の第2サブインターバル52内にある、制限されたラグのグループに制限される。検索は、(前の)選択値19’’に対応するラグ51に基づく。検索は、第2サブインターバル52において、値δ内のラグに制限される(たとえば、2、3、4、5、6、7、8、9、10または他の正の自然数から選ばれてもよく、いくつかの例では、δは、フレームがN個のサンプルを有する場合にδがNの1%から30%、特に15%から25%の間のパーセンテージとなるような、フレームの長さのパーセンテージであってもよい)。δは、所定のラグ数閾値、または所定のパーセンテージであり得る。
例によれば、ステップS42において、サブインターバル52内の自己相関値が、たとえば第2測定器22によって計算される。
例によれば、ステップS42において、自己相関の結果の中の最大値が引き出される。第2推定値
Figure 0007079325000055
は、前の選択値19’’を中心とする第2サブインターバル内のラグの中の現在のフレームのピッチラグの近傍の自己相関を最大化させる値であり、たとえば、
Figure 0007079325000056
ここで
Figure 0007079325000057
は(セレクタ17によって)前に選択された最終ピッチラグ51(19’’)であり、
Figure 0007079325000058
はサブインターバル52を定義する定数(たとえば、
Figure 0007079325000059
)である。値
Figure 0007079325000060
は、第2推定器12の出力16として提供され得る。
とりわけ、第1推定値14および第2推定値16は、互いに大きく異なり得る。
Figure 0007079325000061
(ここでその領域はTprev-δとTprev+δとの間に制限される)は、その最大値が第2のピッチラグ推定値16(T)に関連付けられた第2相関関数の例である。
5.4 第1および第2相関測定値
第1測定器21および/または第2測定器22は、相関測定を実行し得る。第1測定器21および/または第2測定器22は、自己相関測定を実行し得る。相関および/または自己相関測定値は正規化され得る。ここで一例が示される。
Figure 0007079325000062
は、ピッチラグ
Figure 0007079325000063
での信号
Figure 0007079325000064
の正規化相関であってもよい。
Figure 0007079325000065
したがって、第1相関測定値23はnormcorr(T)であってもよく、ここでTは第1推定値14であり、第2相関測定値25はnormcorr(T)であってもよく、ここでTは第2推定値16である。
とりわけ、第1相関測定値23はR(T)(またはR(T))の正規化された値であり、第2相関測定値25はR(T)の正規化された値である。
5.5 閾値との比較
これで、選択を実行するために相関を比較する方法の例を示すことができる。例として、以下の式によって提供される。
Figure 0007079325000066
Figure 0007079325000067
は、ピッチラグ選択閾値24として見られる。
Figure 0007079325000068
の場合、セレクタは
Figure 0007079325000069
を選び、そうでなければセレクタは
Figure 0007079325000070
を選ぶ。したがって、値
Figure 0007079325000071
(またはこれに関連付けられた情報)は、選択された出力値19(TまたはTのいずれかとして)であり、(たとえば、LTPFのために)デコーダに提供されてもよく、これは、第2推定値16を取得するために第2推定器12によって、19’’として使用される。
5.6 方法40
方法30に関連付けられた方法40は、方法30のみに基づく手法に対して性能を向上させる。
複雑度がわずかに加わるが、ピッチ輪郭をより安定的および連続的にすることで、性能を著しく向上させることができる。
方法40は、自己相関関数の第2の最大値を見つける。これは方法30のような全域的最大値ではなく、前のフレームのピッチラグの近傍の局所的最大値である。この第2のピッチラグは、選択された場合、平滑で連続的なピッチ輪郭を生成する。しかしながら、すべての場合にこの第2のピッチラグを選択するわけではない。たとえば、基本周波数に予想される変化がある場合は、全域的最大値を維持する方がよい。
最後の選択は、方法30で見つかる第1のピッチラグ
Figure 0007079325000072
(14)を選択するか方法40で見つかる第2のピッチラグ
Figure 0007079325000073
(16)を選択するかである。この判断は、周期性の尺度に基づいている。周期性の尺度として、正規化相関を選ぶ。信号が完全に周期的な場合は1、非周期的な場合は0である。次に、その対応する正規化相関が、パラメータ
Figure 0007079325000074
によってスケーリングされた第1のピッチラグ
Figure 0007079325000075
よりも高い場合に、第2のピッチラグ
Figure 0007079325000076
が選ばれる。このパラメータ
Figure 0007079325000077
は、その正規化相関が第1のピッチラグ
Figure 0007079325000078
(14)の正規化相関よりもわずかに低いときでも
Figure 0007079325000079
を選択すること(16)によって、判断をさらに円滑にする。
5.7 手法の検討
図5(1)~図5(4)を参照する。
第1推定の例が、図5(1)に示されている。自己相関関数の最大値に対応するピッチラグが選択されている。
これは、(何らかの所与のピッチを有する)高調波信号の自己相関がピッチラグおよびこのピッチラグのすべての倍数の位置にピークを含むという事実に基づいている。
ピッチラグの倍数に対応するピークを選択するのを回避するために、図5(2)のように自己相関関数が重み付けされ、より高いピッチラグを強調しないようにする。これはたとえば[7]で使用される。
その後、重み付けされた自己相関の全域的最大値は、信号のピッチラグに対応すると見なされる。
一般に、単独で行われた第1推定は問題なく機能する。これにより、ほとんどのフレームに正確なピッチを与える。
第1推定は、自己相関関数(第1サブインターバル)のラグの数が比較的少ない場合に複雑度が比較的低いという利点も有する。
図5(1)は、入力信号の(非重み付け)自己相関を示す。
5つのピークがあり、最初のピーク53はピッチラグに対応し、他のものはこのピッチラグの倍数53’に対応する。
(非重み付け)自己相関の全域的最大値を取ることで、この場合は誤ったピッチラグを与えることになる。その倍数、この場合は正しいピッチラグの4倍を選ぶ。
しかしながら、重み付けされた自己相関の全域的最大値(図5(2))は正しいピッチラグである。
第1推定は、機能する場合もある。しかしながら、不安定な推定値を生成する場合もある。
このようなケースの1つは、ピッチの異なるいくつかのトーンの混合を含むポリフォニー音楽信号である。この場合、マルチピッチ信号から単一のピッチを抽出することは困難である。その場合、第1推定器11は、1つのフレームにおいてトーンのうちの1つのピッチ(またはおそらくその倍数)を推定し、次のフレームではおそらく別のトーンのピッチ(またはその倍数)を推定することができるだろう。したがって、信号が安定していたとしても(異なるトーンのピッチがフレーム間で変化しなくても)、第1推定によって検出されたピッチは不安定になり得る(ピッチはフレーム間で著しく変化する)。
この不安定な挙動は、LTPFの主要な問題である。LTPFにピッチが使用されるときには、連続的なピッチ輪郭を有することが最も重要であり、そうでなければLTPFフィルタリングされた出力信号において、いくつかのアーチファクトが聞こえる可能性がある。
図5(3)および図5(4)は、この問題を示している。
図5(3)は、安定したマルチピッチ信号のフレームにおける重み付けされた自己相関およびその最大値を示している。ピッチラグ19’’は、ピーク54に対応して“20”において正しく引き出される。
図5(4)は、後続のフレームの同じものを示している。
この場合、最初の3つのピーク54’、54’’、および54’’’は、非常に近い振幅を有する。したがって、2つの連続するフレーム間の非常にわずかな変化でも、全域的最大値および推定ピッチラグを著しく変化させる可能性がある。
本発明で採用された解決策は、これらの不安定性の問題を解決する。
本解決策は、フレーム内のピークに関連付けられたピッチラグの他に、前のフレームのピッチラグに近いピッチラグを選択する。
たとえば、図5(3)は前のフレームに対応し、図5(4)は現在のフレームに対応する。我々は、現在のフレーム内で、20前後のピッチラグ(すなわち、前のフレームのピッチラグ19’’またはTprev)を選択し、第1推定器11によって与えられた40のピッチラグは選択しないことが望ましいかどうかを検証しようとしている。
そうするために、前のフレームのピッチラグである、サブインターバル52の周りで自己相関関数を最大化させる第2のピッチラグTを推定することにより(Tprev-δ、Tprev+δ)、(たとえば、第2推定器12によって)第2推定が実行される。図5(4)の場合、この第2のピッチラグTは20である(第1のピッチラグは40である)。(この場合にT=Tprevであっても、これは生成規則ではない。一般に、Tprev-δ≦T≦Tprev+δである)。とりわけ、例では、Tを推定するために、自己相関は重み付けされない。
しかしながら、すべてのケースでこの第2のピッチラグTを選択したくはない。いくつかの基準に基づいて、第1のピッチラグTまたは第2のピッチラグTのいずれかを選択したい。この基準は、たとえばセレクタ17によって測定された、正規化相関(NC)に基づいており、これは一般に、何らかの特定のピッチラグでの信号がどのくらい周期的かの優れた尺度と見なされる(0のNCは全く周期的でないことを意味し、1のNCは完全に周期的であることを意味する)。
次に、いくつかのケースがある。
第2推定値TのNCが第1推定値TのNCよりも高い場合:第2推定値Tの方が優れたNCを有し(前のフレームのピッチと現在のフレームのピッチは非常に近い)、安定した判断を行うので、第1推定値Tよりも第2推定値Tの方が優れていると確信することができ、したがって安全にこれを選択することができる。
第2推定値TのNCが第1推定値のNCよりもはるかに低い場合:これは、前のフレームのピッチ19’’が現在のフレームのいずれの周期性にも対応せず、信号は不安定であり、ピッチは変化していることを示しており、したがって、前のフレームのピッチ19’’を維持することも安定した判断を行おうとすることも、意味をなさない。その場合、第2推定値Tは無視され、第1推定値Tが選択される。
第2推定値TのNCが第1推定値TのNCよりもわずかに低い場合:両方の推定値TおよびTのNCは近く、その場合、NCがわずかに劣っていても、安定した判断を生み出す推定値(すなわち、第2推定値T)を選びたい。これにより、NCがわずかに劣っていても第2推定値Tを選択できるようにする。その場合、パラメータα(α<1)が使用される。このパラメータαの調整によって、第1推定値Tまたは第2推定値Tに向けて選択を偏らせることができるようになる。値が低いほど、第2推定値がより頻繁に選択される(=判断がより安定する)ことを意味する。0.85(または0.8から0.9の間の値)は、適切なトレードオフである。これにより、判断がLTPFにとって十分に安定するように、十分な頻度で第2推定値Tを選択する。
第1推定(第2推定および選択)に加えて提供される追加のステップは、複雑度が非常に低い。したがって、提案される発明の複雑度は低い。
6.エンコード/デコードシステムの例
図6は、エンコード/デコードの動作に関するブロックスキームを示す。スキームは、(装置10を備え得る)エンコーダ60aおよびデコーダ60bを備えるシステム60を示す。エンコーダ60aは、(オーディオ信号であってもよい、および/または現在のフレーム13と前のフレームなどのフレーム間で分割され得る)入力情報信号61を取得し、ビットストリーム63を準備する。デコーダ60bは、出力信号68(たとえば、オーディオ信号)を生成するために(たとえばBluetoothを使用するなど、たとえば無線で)ビットストリーム63を取得する。
エンコーダ60aは、変換コーダ62を使用して、情報信号61の周波数領域表現63a(またはその処理済みバージョン)を生成し、これをビットストリーム63でデコーダ60bに提供し得る。デコーダ60bは、出力信号64aを取得するための変換デコーダを備え得る。
エンコーダ60aは、検出ユニット65を使用して、デコーダ60bでLTPFを実行するのに有用なデータを生成し得る。これらのデータは、ピッチラグ推定値(たとえば、19)および/または利得情報を備えてもよい。これらのデータは、制御フィールド内のデータ63bとして、ビットストリーム63にエンコードされ得る。(ピッチラグの最終推定値19を備え得る)データ63bは、(いくつかの例ではデータ63bをエンコードするか否かを判断し得る)LTPFコーダ66によって準備され得る。これらのデータは、出力信号68を取得するために変換デコーダ64からの出力信号64aにこれらを適用し得るLTPFデコーダ67によって使用されてもよい。
7.たとえばLTPFの例
7.1 エンコーダでのパラメータ(たとえば、LTPFパラメータ)
LTPFパラメータ(または別のタイプのパラメータ)の計算の例が、ここに提供される。
LTPFの情報を準備する例が、次のサブセクションに提供される。
7.2.1.再サンプリン
(オプションの)再サンプリング手法の例が、ここで論じられる(他の手法が使用されてもよい)。
サンプリングレート
Figure 0007079325000080
の入力信号は、12.8kHzの固定サンプリングレートに再サンプリングされ得る。再サンプリングは、以下のように定式化され得るアップサンプリング+ローパスフィルタリング+ダウンサンプリングアプローチを使用して実行される。

Figure 0007079325000081
ここで、
Figure 0007079325000082
は(整数に切り捨てられた)トラック値を示し、
Figure 0007079325000083
は入力信号であり、
Figure 0007079325000084
は12.8kHzで再サンプリングされた信号であり、
Figure 0007079325000085
はアップサンプリング係数であり、
Figure 0007079325000086
は以下によって与えられるFIRローパスフィルタのインパルス応答である。
Figure 0007079325000087
tab_resamp_filterの例が、以下の表に示される。
double tab_resamp_filter[239] = {
-2.043055832879108e-05, -4.463458936757081e-05, -7.163663994481459e-05,
-1.001011132655914e-04, -1.283728480660395e-04, -1.545438297704662e-04,
-1.765445671257668e-04, -1.922569599584802e-04, -1.996438192500382e-04,
-1.968886856400547e-04, -1.825383318834690e-04, -1.556394266046803e-04,
-1.158603651792638e-04, -6.358930335348977e-05, +2.810064795067786e-19,
+7.292180213001337e-05, +1.523970757644272e-04, +2.349207769898906e-04,
+3.163786496265269e-04, +3.922117380894736e-04, +4.576238491064392e-04,
+5.078242936704864e-04, +5.382955231045915e-04, +5.450729176175875e-04,
+5.250221548270982e-04, +4.760984242947349e-04, +3.975713799264791e-04,
+2.902002172907180e-04, +1.563446669975615e-04, -5.818801416923580e-19,
-1.732527127898052e-04, -3.563859653300760e-04, -5.411552308801147e-04,
-7.184140229675020e-04, -8.785052315963854e-04, -1.011714513697282e-03,
-1.108767055632304e-03, -1.161345220483996e-03, -1.162601694464620e-03,
-1.107640974148221e-03, -9.939415631563015e-04, -8.216921898513225e-04,
-5.940177657925908e-04, -3.170746535382728e-04, +9.746950818779534e-19,
+3.452937604228947e-04, +7.044808705458705e-04, +1.061334465662964e-03,
+1.398374734488549e-03, +1.697630799350524e-03, +1.941486748731660e-03,
+2.113575906669355e-03, +2.199682452179964e-03, +2.188606246517629e-03,
+2.072945458973295e-03, +1.849752491313908e-03, +1.521021876908738e-03,
+1.093974255016849e-03, +5.811080624426164e-04, -1.422482656398999e-18,
-6.271537303228204e-04, -1.274251404913447e-03, -1.912238389850182e-03,
-2.510269249380764e-03, -3.037038298629825e-03, -3.462226871101535e-03,
-3.758006719596473e-03, -3.900532466948409e-03, -3.871352309895838e-03,
-3.658665583679722e-03, -3.258358512646846e-03, -2.674755551508349e-03,
-1.921033054368456e-03, -1.019254326838640e-03, +1.869623690895593e-18,
+1.098415446732263e-03, +2.231131973532823e-03, +3.348309272768835e-03,
+4.397022774386510e-03, +5.323426722644900e-03, +6.075105310368700e-03,
+6.603520247552113e-03, +6.866453987193027e-03, +6.830342695906946e-03,
+6.472392343549424e-03, +5.782375213956374e-03, +4.764012726389739e-03,
+3.435863514113467e-03, +1.831652835406657e-03, -2.251898372838663e-18,
-1.996476188279370e-03, -4.082668858919100e-03, -6.173080374929424e-03,
-8.174448945974208e-03, -9.988823864332691e-03, -1.151698705819990e-02,
-1.266210056063963e-02, -1.333344579518481e-02, -1.345011199343934e-02,
-1.294448809639154e-02, -1.176541543002924e-02, -9.880867320401294e-03,
-7.280036402392082e-03, -3.974730209151807e-03, +2.509617777250391e-18,
+4.586044219717467e-03, +9.703248998383679e-03, +1.525124770818010e-02,
+2.111205854013017e-02, +2.715337236094137e-02, +3.323242450843114e-02,
+3.920032029020130e-02, +4.490666443426786e-02, +5.020433088017846e-02,
+5.495420172681558e-02, +5.902970324375908e-02, +6.232097270672976e-02,
+6.473850225260731e-02, +6.621612450840858e-02, +6.671322871619612e-02,
+6.621612450840858e-02, +6.473850225260731e-02, +6.232097270672976e-02,
+5.902970324375908e-02, +5.495420172681558e-02, +5.020433088017846e-02,
+4.490666443426786e-02, +3.920032029020130e-02, +3.323242450843114e-02,
+2.715337236094137e-02, +2.111205854013017e-02, +1.525124770818010e-02,
+9.703248998383679e-03, +4.586044219717467e-03, +2.509617777250391e-18,
-3.974730209151807e-03, -7.280036402392082e-03, -9.880867320401294e-03,
-1.176541543002924e-02, -1.294448809639154e-02, -1.345011199343934e-02,
-1.333344579518481e-02, -1.266210056063963e-02, -1.151698705819990e-02,
-9.988823864332691e-03, -8.174448945974208e-03, -6.173080374929424e-03,
-4.082668858919100e-03, -1.996476188279370e-03, -2.251898372838663e-18,
+1.831652835406657e-03, +3.435863514113467e-03, +4.764012726389739e-03,
+5.782375213956374e-03, +6.472392343549424e-03, +6.830342695906946e-03,
+6.866453987193027e-03, +6.603520247552113e-03, +6.075105310368700e-03,
+5.323426722644900e-03, +4.397022774386510e-03, +3.348309272768835e-03,
+2.231131973532823e-03, +1.098415446732263e-03, +1.869623690895593e-18,
-1.019254326838640e-03, -1.921033054368456e-03, -2.674755551508349e-03,
-3.258358512646846e-03, -3.658665583679722e-03, -3.871352309895838e-03,
-3.900532466948409e-03, -3.758006719596473e-03, -3.462226871101535e-03,
-3.037038298629825e-03, -2.510269249380764e-03, -1.912238389850182e-03,
-1.274251404913447e-03, -6.271537303228204e-04, -1.422482656398999e-18,
+5.811080624426164e-04, +1.093974255016849e-03, +1.521021876908738e-03,
+1.849752491313908e-03, +2.072945458973295e-03, +2.188606246517629e-03,
+2.199682452179964e-03, +2.113575906669355e-03, +1.941486748731660e-03,
+1.697630799350524e-03, +1.398374734488549e-03, +1.061334465662964e-03,
+7.044808705458705e-04, +3.452937604228947e-04, +9.746950818779534e-19,
-3.170746535382728e-04, -5.940177657925908e-04, -8.216921898513225e-04,
-9.939415631563015e-04, -1.107640974148221e-03, -1.162601694464620e-03,
-1.161345220483996e-03, -1.108767055632304e-03, -1.011714513697282e-03,
-8.785052315963854e-04, -7.184140229675020e-04, -5.411552308801147e-04,
-3.563859653300760e-04, -1.732527127898052e-04, -5.818801416923580e-19,
+1.563446669975615e-04, +2.902002172907180e-04, +3.975713799264791e-04,
+4.760984242947349e-04, +5.250221548270982e-04, +5.450729176175875e-04,
+5.382955231045915e-04, +5.078242936704864e-04, +4.576238491064392e-04,
+3.922117380894736e-04, +3.163786496265269e-04, +2.349207769898906e-04,
+1.523970757644272e-04, +7.292180213001337e-05, +2.810064795067786e-19,
-6.358930335348977e-05, -1.158603651792638e-04, -1.556394266046803e-04,
-1.825383318834690e-04, -1.968886856400547e-04, -1.996438192500382e-04,
-1.922569599584802e-04, -1.765445671257668e-04, -1.545438297704662e-04,
-1.283728480660395e-04, -1.001011132655914e-04, -7.163663994481459e-05,
-4.463458936757081e-05, -2.043055832879108e-05};
7.2.2.ハイパスフィルタリン
(オプションの)ハイパスフィルタ手法の例が、ここで論じられる(他の手法が使用されてもよい)。
再サンプリングされた信号は、伝達関数が以下のようになる2次IIRフィルタを使用して、ハイパスフィルタリングされ得る。
Figure 0007079325000088
7.2.3.ピッチ検出
ピッチ検出手法の例が、ここで論じられる(他の手法が使用されてもよい)。
信号
Figure 0007079325000089
は、以下を用いて2の倍数によって(オプションで)ダウンサンプリングされ得る。
Figure 0007079325000090
ここで、
Figure 0007079325000091
={0.1236796411180537、0.2353512128364889、0.2819382920909148、0.2353512128364889、0.1236796411180537}。
Figure 0007079325000092
の自己相関は、
Figure 0007079325000093
によって計算でき、ここで
Figure 0007079325000094
および
Figure 0007079325000095
は、第1サブインターバルを定義する最小ラグおよび最大ラグである(
Figure 0007079325000096
および
Figure 0007079325000097
には他の値が提供されてもよい)。
自己相関は、
Figure 0007079325000098
を使用して重み付けされてもよく、ここで
Figure 0007079325000099
は以下のように定義される。
Figure 0007079325000100
ピッチラグ
Figure 0007079325000101
の第1推定値14は、以下のように重み付けされた自己相関を最大化させるラグであり得る。
Figure 0007079325000102
ピッチラグ
Figure 0007079325000103
の第2推定値16は、以下のように前のフレームで推定されたピッチラグ(19’’)の近傍の重み付けされていない自己相関を最大化させるラグであり得る。
Figure 0007079325000104
ここで
Figure 0007079325000105

Figure 0007079325000106
、および
Figure 0007079325000107
は前のフレームで推定された最終ピッチラグ(したがって前に選択されたピッチラグによって条件付けられたその選択)である。
次に、現在のフレーム13のピッチラグの最終推定値19は
Figure 0007079325000108
によって与えられ、ここで
Figure 0007079325000109
は、ラグ
Figure 0007079325000110
Figure 0007079325000111
での長さ
Figure 0007079325000112
の信号
Figure 0007079325000113
の正規化相関である。
各正規化相関23または25は、信号第1または第2測定器21または22によって得られた測定値のうちの少なくとも1つであり得る。
7.2.4.LTPFビットストリーム
いくつかの例では、LTPFビットストリームの最初のビットは、ビットストリーム内のピッチラグパラメータの存在を通知する。これは以下によって得られる。
(0.6の代わりに、たとえば0.4から0.8、0.5から0.7、または0.55から0.65の間など、異なる閾値が使用され得る。)
pitch_presentが0の場合、これ以上のビットはエンコードされず、1ビットのみのLTPFビットストリームになる。
pitch_presentが1の場合、もう2つのパラメータがエンコードされ、1つのピッチラグパラメータは9ビットでエンコードされ、1ビットはLTPFのアクティブ化を通知する。その場合、LTPFビットストリームは11ビットで構成される。
Figure 0007079325000114
7.2.5.LTPFピッチラグパラメータ
LTPFピッチラグパラメータを取得する例が、ここで論じられる(他の手法が使用されてもよい)。
LTPFピッチラグパラメータの整数部分は
Figure 0007079325000115
によって与えられ、ここで
Figure 0007079325000116
および
Figure 0007079325000117

Figure 0007079325000118
である。
次に、LTPFピッチラグの小数部分は
Figure 0007079325000119
によって与えられ、ここで
Figure 0007079325000120
であり、
Figure 0007079325000121

Figure 0007079325000122
で与えられるFIRローパスフィルタのインパルス応答であり、
Figure 0007079325000123
はたとえば、
double tab_ltpf_interp_R[31] = {
-2.874561161519444e-03, -3.001251025861499e-03, +2.745471654059321e-03
+1.535727698935322e-02, +2.868234046665657e-02, +2.950385026557377e-02
+4.598334491135473e-03, -4.729632459043440e-02, -1.058359163062837e-01
-1.303050213607112e-01, -7.544046357555201e-02, +8.357885725250529e-02
+3.301825710764459e-01, +6.032970076366158e-01, +8.174886856243178e-01
+8.986382851273982e-01, +8.174886856243178e-01, +6.032970076366158e-01
+3.301825710764459e-01, +8.357885725250529e-02, -7.544046357555201e-02
-1.303050213607112e-01, -1.058359163062837e-01, -4.729632459043440e-02
+4.598334491135473e-03, +2.950385026557377e-02, +2.868234046665657e-02
+1.535727698935322e-02, +2.745471654059321e-03, -3.001251025861499e-03
-2.874561161519444e-03};
Figure 0007079325000124
の場合には、
Figure 0007079325000125
および
Figure 0007079325000126
の両方とも
Figure 0007079325000127
にしたがって修正される。
最後に、ピッチラグパラメータインデックスは、
Figure 0007079325000128
によって与えられる。
7.2.6.LTPFアクティブ化ビット
正規化相関は、最初に以下のように計算される。
Figure 0007079325000129
ここで
Figure 0007079325000130
そして
Figure 0007079325000131

Figure 0007079325000132
で与えられるFIRローパスフィルタのインパルス応答であり、ここで
Figure 0007079325000133
は以下によって与えられる。
double tab_ltpf_interp_x12k8[15] = {
+6.698858366939680e-03, +3.967114782344967e-02, +1.069991860896389e-01
+2.098804630681809e-01, +3.356906254147840e-01, +4.592209296082350e-01
+5.500750019177116e-01, +5.835275754221211e-01, +5.500750019177116e-01
+4.592209296082350e-01, +3.356906254147840e-01, +2.098804630681809e-01
+1.069991860896389e-01, +3.967114782344967e-02, +6.698858366939680e-03};
次に、LTPFアクティブ化ビットが以下のように設定される。
if
(mem_ltpf_active==0&&mem_nc>0.94&&nc>0.94)|
(mem_ltpf_active==1&&nc>0.9)|
(mem_ltpf_active==1&&abs(pitch-mem_pitch)<2&&(nc-mem_nc)>-0.1&&nc>0.84)


ltpf_active=1;

else

ltpf_active=0;
ここで、mem_ltpf_activeは前のフレームのltpf_activeの値(前のフレームでpitch_present=0の場合は0)、mem_ncは前のフレームのncの値(前のフレームでpitch_present=0の場合は0)、pitch=pitch_int+pitch_fr/4およびmem_pitchは前のフレームのピッチの値(前のフレームでpitch_present=0の場合は0)である。
7.3 デコーダでのLTPF
たとえば、MDCT(変形離散コサイン変換)合成、MDST(変形離散サイン変換)合成、または別の変換に基づく合成の後の、周波数領域(FD)内のデコード済み信号は、そのパラメータがLTPFビットストリームデータ「pitch_index」および「ltpf_active」に依存し得るIIRフィルタを使用して、時間領域内でポストフィルタリングされ得る。パラメータがフレーム間で変化するときの不連続性を回避するために、現在のフレームの最初の4分の1に対して遷移メカニズムが適用され得る。
例では、
Figure 0007079325000134
を使用してLTPF IIRフィルタが実装されてもよく、ここで
Figure 0007079325000135
はフィルタ入力信号(すなわち、MDCT合成後のデコード済み信号)であり、
Figure 0007079325000136
はフィルタ出力信号である。
LTPFピッチラグの整数部分
Figure 0007079325000137
および小数部分
Figure 0007079325000138
は、以下のように計算され得る。まず、12.8kHzでのピッチラグが、

Figure 0007079325000139

Figure 0007079325000140

Figure 0007079325000141
を使用して引き出される。
次に、ピッチラグは出力サンプリングレート
Figure 0007079325000142
に合わせてスケーリングされ、
Figure 0007079325000143
Figure 0007079325000144
Figure 0007079325000145
Figure 0007079325000146
を使用して整数部分および小数部分に変換されてもよく、ここで
Figure 0007079325000147
はサンプリングレートである。
フィルタ係数
Figure 0007079325000148
および
Figure 0007079325000149
は、以下のように計算され得る。
Figure 0007079325000150
Figure 0007079325000151
ここで
Figure 0007079325000152
Figure 0007079325000153
そして
Figure 0007079325000154
および
Figure 0007079325000155
は以下にしたがって取得され得る。
fs_idx = min(4,(
Figure 0007079325000156
/8000-1));
if (nbits < 320 + fs_idx*80)
{
gain_ltpf = 0.4;
gain_ind = 0;
}
else if (nbits < 400 + fs_idx*80)
{
gain_ltpf = 0.35;
gain_ind = 1;
}
else if (nbits < 480 + fs_idx*80)
{
gain_ltpf = 0.3;
gain_ind = 2;
}
else if (nbits < 560 + fs_idx*80)
{
gain_ltpf = 0.25;
gain_ind = 3;
}
else
{
gain_ltpf = 0;
}
そして表「
Figure 0007079325000157
」および「
Figure 0007079325000158
」はあらかじめ決定されている。

Figure 0007079325000159
」の例がここに提供される(「fs」の代わりに、サンプリングレートが示されている)。
double tab_ltpf_num_8000[4][3] = {
{6.023618207009578e-01,4.197609261363617e-01,-1.883424527883687e-02},
{5.994768582584314e-01,4.197609261363620e-01,-1.594928283631041e-02},
{5.967764663733787e-01,4.197609261363617e-01,-1.324889095125780e-02},
{5.942410120098895e-01,4.197609261363618e-01,-1.071343658776831e-02}};

double tab_ltpf_num_16000[4][3] = {
{6.023618207009578e-01,4.197609261363617e-01,-1.883424527883687e-02},
{5.994768582584314e-01,4.197609261363620e-01,-1.594928283631041e-02},
{5.967764663733787e-01,4.197609261363617e-01,-1.324889095125780e-02},
{5.942410120098895e-01,4.197609261363618e-01,-1.071343658776831e-02}};

double tab_ltpf_num_24000[4][5] = {
{3.989695588963494e-01,5.142508607708275e-01,1.004382966157454e-01,-1.278893956818042e-02,-1.572280075461383e-03},
{3.948634911286333e-01,5.123819208048688e-01,1.043194926386267e-01,-1.091999960222166e-02,-1.347408330627317e-03},
{3.909844475885914e-01,5.106053522688359e-01,1.079832524685944e-01,-9.143431066188848e-03,-1.132124620551895e-03},
{3.873093888199928e-01,5.089122083363975e-01,1.114517380217371e-01,-7.450287133750717e-03,-9.255514050963111e-04}};

double tab_ltpf_num_32000[4][7] = {
{2.982379446702096e-01,4.652809203721290e-01,2.105997428614279e-01,3.766780380806063e-02,-1.015696155796564e-02,-2.535880996101096e-03,-3.182946168719958e-04},
{2.943834154510240e-01,4.619294002718798e-01,2.129465770091844e-01,4.066175002688857e-02,-8.693272297010050e-03,-2.178307114679820e-03,-2.742888063983188e-04},
{2.907439213122688e-01,4.587461910960279e-01,2.151456974108970e-01,4.350104772529774e-02,-7.295495347716925e-03,-1.834395637237086e-03,-2.316920186482416e-04},
{2.872975852589158e-01,4.557148886861379e-01,2.172126950911401e-01,4.620088878229615e-02,-5.957463802125952e-03,-1.502934284345198e-03,-1.903851911308866e-04}};

double tab_ltpf_num_48000[4][11] = {
{1.981363739883217e-01,3.524494903964904e-01,2.513695269649414e-01,1.424146237314458e-01,5.704731023952599e-02,9.293366241586384e-03,-7.226025368953745e-03,-3.172679890356356e-03,-1.121835963567014e-03,-2.902957238400140e-04,-4.270815593769240e-05},
{1.950709426598375e-01,3.484660408341632e-01,2.509988459466574e-01,1.441167412482088e-01,5.928947317677285e-02,1.108923827452231e-02,-6.192908108653504e-03,-2.726705509251737e-03,-9.667125826217151e-04,-2.508100923165204e-04,-3.699938766131869e-05},
{1.921810055196015e-01,3.446945561091513e-01,2.506220094626024e-01,1.457102447664837e-01,6.141132133664525e-02,1.279941396562798e-02,-5.203721087886321e-03,-2.297324511109085e-03,-8.165608133217555e-04,-2.123855748277408e-04,-3.141271330981649e-05},
{1.894485314175868e-01,3.411139251108252e-01,2.502406876894361e-01,1.472065631098081e-01,6.342477229539051e-02,1.443203434150312e-02,-4.254449144657098e-03,-1.883081472613493e-03,-6.709619060722140e-04,-1.749363341966872e-04,-2.593864735284285e-05}};
Figure 0007079325000160
の例がここに提供される(「fs」の代わりに、サンプリングレートが示されている)。
double_tab_ltpf_den_8000[4][5] = {
{0.000000000000000e+00, 2.098804630681809e-01, 5.835275754221211e-01, 2.098804630681809e-01, 0.000000000000000e+00},
{0.000000000000000e+00, 1.069991860896389e-01, 5.500750019177116e-01, 3.356906254147840e-01, 6.698858366939680e-03},
{0.000000000000000e+00, 3.967114782344967e-02, 4.592209296082350e-01, 4.592209296082350e-01, 3.967114782344967e-02},
{0.000000000000000e+00, 6.698858366939680e-03, 3.356906254147840e-01, 5.500750019177116e-01, 1.069991860896389e-01}};

double_tab_ltpf_den_16000[4][5] = {
{0.000000000000000e+00, 2.098804630681809e-01, 5.835275754221211e-01, 2.098804630681809e-01, 0.000000000000000e+00},
{0.000000000000000e+00, 1.069991860896389e-01, 5.500750019177116e-01, 3.356906254147840e-01, 6.698858366939680e-03},
{0.000000000000000e+00, 3.967114782344967e-02, 4.592209296082350e-01, 4.592209296082350e-01, 3.967114782344967e-02},
{0.000000000000000e+00, 6.698858366939680e-03, 3.356906254147840e-01, 5.500750019177116e-01, 1.069991860896389e-01}};

double_tab_ltpf_den_24000[4][7] = {
{0.000000000000000e+00, 6.322231627323796e-02, 2.507309606013235e-01, 3.713909428901578e-01, 2.507309606013235e-01, 6.322231627323796e-02, 0.000000000000000e+00},
{0.000000000000000e+00, 3.459272174099855e-02, 1.986515602645028e-01, 3.626411726581452e-01, 2.986750548992179e-01, 1.013092873505928e-01, 4.263543712369752e-03},
{0.000000000000000e+00, 1.535746784963907e-02, 1.474344878058222e-01, 3.374259553990717e-01, 3.374259553990717e-01, 1.474344878058222e-01, 1.535746784963907e-02},
{0.000000000000000e+00, 4.263543712369752e-03, 1.013092873505928e-01, 2.986750548992179e-01, 3.626411726581452e-01, 1.986515602645028e-01, 3.459272174099855e-02}};

double_tab_ltpf_den_32000[4][9] = {
{0.000000000000000e+00, 2.900401878228730e-02, 1.129857420560927e-01, 2.212024028097570e-01, 2.723909472446145e-01, 2.212024028097570e-01, 1.129857420560927e-01, 2.900401878228730e-02, 0.000000000000000e+00},
{0.000000000000000e+00, 1.703153418385261e-02, 8.722503785537784e-02, 1.961407762232199e-01, 2.689237982237257e-01, 2.424999102756389e-01, 1.405773364650031e-01, 4.474877169485788e-02, 3.127030243100724e-03},
{0.000000000000000e+00, 8.563673748488349e-03, 6.426222944493845e-02, 1.687676705918012e-01, 2.587445937795505e-01, 2.587445937795505e-01, 1.687676705918012e-01, 6.426222944493845e-02, 8.563673748488349e-03},
{0.000000000000000e+00, 3.127030243100724e-03, 4.474877169485788e-02, 1.405773364650031e-01, 2.424999102756389e-01, 2.689237982237257e-01, 1.961407762232199e-01, 8.722503785537784e-02, 1.703153418385261e-02}};

double_tab_ltpf_den_48000[4][13] = {
{0.000000000000000e+00, 1.082359386659387e-02, 3.608969221303979e-02, 7.676401468099964e-02, 1.241530577501703e-01, 1.627596438300696e-01, 1.776771417779109e-01, 1.627596438300696e-01, 1.241530577501703e-01, 7.676401468099964e-02, 3.608969221303979e-02, 1.082359386659387e-02, 0.000000000000000e+00},
{0.000000000000000e+00, 7.041404930459358e-03, 2.819702319820420e-02, 6.547044935127551e-02, 1.124647986743299e-01, 1.548418956489015e-01, 1.767122381341857e-01, 1.691507213057663e-01, 1.352901577989766e-01, 8.851425011427483e-02, 4.499353848562444e-02, 1.557613714732002e-02, 2.039721956502016e-03},
{0.000000000000000e+00, 4.146998467444788e-03, 2.135757310741917e-02, 5.482735584552816e-02, 1.004971444643720e-01, 1.456060342830002e-01, 1.738439838565869e-01, 1.738439838565869e-01, 1.456060342830002e-01, 1.004971444643720e-01, 5.482735584552816e-02, 2.135757310741917e-02, 4.146998467444788e-03},
{0.000000000000000e+00, 2.039721956502016e-03, 1.557613714732002e-02, 4.499353848562444e-02, 8.851425011427483e-02, 1.352901577989766e-01, 1.691507213057663e-01, 1.767122381341857e-01, 1.548418956489015e-01, 1.124647986743299e-01, 6.547044935127551e-02, 2.819702319820420e-02, 7.041404930459358e-03}}
遷移処理を参照して、5つの異なるケースが検討される。
第1のケース:ltpf_active=0およびmem_ltpf_active=0
Figure 0007079325000161
第2のケース:ltpf_active=1およびmem_ ltpf_active=0
Figure 0007079325000162
第3のケース:ltpf_active=0およびmem_ ltpf_active=1
Figure 0007079325000163
ここで、
Figure 0007079325000164

Figure 0007079325000165

Figure 0007079325000166
、および
Figure 0007079325000167
は、前のフレームで計算されたフィルタパラメータである。
第4のケース:ltpf_active=1およびmem_ltpf_active=1および
Figure 0007079325000168
および
Figure 0007079325000169
Figure 0007079325000170
Figure 0007079325000171
第5のケース:ltpf_active=1およびmem_ltpf_active=1および(
Figure 0007079325000172
または
Figure 0007079325000173

Figure 0007079325000174
Figure 0007079325000175
ここで、Nは1つのフレーム内のサンプル数である。
7.4 さらなる利点
理解され得るように、上記の例による解決策は、デコーダに対して透過的である。たとえば、第1推定値または第2推定値が選択されたことをデコーダに通知する必要はない。
したがって、ビットストリーム63においてペイロードは増加しない。
さらに、エンコーダで実行される新しいプロセスに適応するようにデコーダを修正する必要がない。デコーダは、本発明が実施されたことを知る必要がない。したがって、本発明は、レガシーシステムとの互換性を向上できるようにする。
8.パケット損失隠蔽
上記の装置10、60a、または110によって取得されたピッチラグTbest(19)は、デコーダ(たとえば、60b)において、パケット損失隠蔽(PLC)(エラー隠蔽としても知られる)を実施するために使用され得る。PLCは、エンコーダからデコーダへの送信中に消失または破損パケットを隠蔽するためにオーディオコーデックで使用される。従来技術では、PLCは、デコーダ側で実行され、変換領域または時間領域のいずれかでデコード済み信号を外挿し得る。
ピッチラグは、ピッチベースのPLCで使用される主要なパラメータであり得る。このパラメータは、エンコーダ側で推定されてビットストリームにエンコードされることが可能である。この場合、現在の消失フレームを隠蔽するために、最後の良好なフレームのピッチラグが使用される。
破損フレームは、正しい可聴出力を提供せず、破棄される。
デコーダにおける各デコード済みフレームについて、その有効性が検証され得る。たとえば、各フレームは、所定のアルゴリズムによって提供された所定の演算を実行することによって検証される巡回冗長コード(CRC)を搬送するフィールドを有してもよい。この手順は、計算結果がCRCフィールド上の値に対応するか否かを検証するために繰り返されてもよい。フレームが(たとえば送信における干渉の観点から)適切にデコードされていない場合、いくつかのエラーがフレームに影響を及ぼしたと想定される。したがって、検証によって不正なデコードの結果が提供された場合、フレームは不適切にデコードされた状態で保持される(無効、破壊)。
フレームが不適切にデコードされたと確認されると、可聴出力を提供するために隠蔽戦略が使用され得る。そうでなければ、迷惑な可聴穴のようなものが聞こえる可能性がある。したがって、不適切にデコードされたフレームによって開かれたままの「ギャップを満たす」何らかの形態のフレームを見つける必要がある。フレーム損失隠蔽手順の目的は、デコードのために利用不可または破損したいずれのフレームの影響も隠蔽することである。
8.1 隠蔽のための戦略
フレーム損失隠蔽手順は、様々な信号タイプのための隠蔽方法を備え得る。フレーム損失を有するエラーが発生しやすい状況での最良の可能なコーデック性能は、最も適切な方法を選択することで得られる。パケット損失隠蔽方法の1つは、たとえば、TCX時間領域隠蔽であろう。
8.2 TCX時間領域隠蔽
TCX時間領域隠蔽方法は、時間領域で動作するピッチベースのPLC手法である。これは、支配的な調波構造を有する信号に最も適している。手順の例は、以下の通りである。セクション8.2.2.で説明された周期信号を取得するために、セクション8.2.1で説明されたLPフィルタを用いて最後にデコードされたフレームの合成信号が逆フィルタリングされる。ランダム信号は、セクション8.2.3.でほぼ均一な分布でランダムジェネレータによって生成される。セクション8.2.4.で説明されたように全励起信号を形成するために2つの励起信号が加算され、これはセクション8.2.6.で説明された減衰率で適応的にフェードアウトし、最終的に、合成および隠蔽された時間信号を取得するためにLPフィルタでフィルタリングされる。LTPFが最後の良好なフレームで使用された場合、LTPFは、セクション8.3で説明されたように、合成および隠蔽された時間信号にも適用され得る。消失フレームの後の最初の良好なフレームとの適切な重複を得るために、セクション8.2.5.で時間領域エイリアスキャンセル信号が生成される。
8.2.1 LPCパラメータ計算
TCX時間領域隠蔽方法は、励起領域で動作している。自己相関関数は、80の等距離周波数領域帯域で計算され得る。エネルギーは、固定プリエンファシス係数
Figure 0007079325000176
でプリエンファシスされる
Figure 0007079325000177
自己相関関数は、逆に均等にスタックされたDFTを使用して時間領域に変換される前に、以下のウィンドウを使用してラグウィンドウ化される。
Figure 0007079325000178
最後に、隠蔽されたフレームのLPフィルタ
Figure 0007079325000179
を取得するために、レビンソン・ダービン演算が使用される。以下に例を示す。
Figure 0007079325000180
Figure 0007079325000181
Figure 0007079325000182
Figure 0007079325000183
Figure 0007079325000184
Figure 0007079325000185
Figure 0007079325000186
Figure 0007079325000187
Figure 0007079325000188
LPフィルタは、良好なフレームの後の最初の消失フレーム内でのみ計算され、
その後消失したフレーム内に残る。
8.2.2 励起の周期的部分の構造
最後の
Figure 0007079325000189
個のデコードされた時間サンプルは、信号
Figure 0007079325000190
を取得するために、フィルタ
Figure 0007079325000191
を使用してセクション8.2.1からプリエンファシス係数で最初にプリエンファシスされ、ここで
Figure 0007079325000192
はピッチラグ値
Figure 0007079325000193
、または
Figure 0007079325000194
の場合
Figure 0007079325000195
である。値
Figure 0007079325000196
および
Figure 0007079325000197
は、ビットストリームで送信されたピッチラグ値である。
プリエンファシスされた信号
Figure 0007079325000198
は、前の励起信号
Figure 0007079325000199
を取得するために、計算された逆LPフィルタでさらにフィルタリングされる。現在の消失フレームの励起信号
Figure 0007079325000200
を構成するために、
Figure 0007079325000201
は以下のように
Figure 0007079325000202
を用いて繰り返し複製され、
Figure 0007079325000203
ここで
Figure 0007079325000204

Figure 0007079325000205
における最後のサンプルに対応する。安定係数
Figure 0007079325000206
が1未満の場合、
Figure 0007079325000207
の最初のピッチサイクルは、以下の表に記載されている11タップ線形位相FIR(有限インパルス応答)フィルタを用いて最初にローパスフィルタリングされる
Figure 0007079325000208
ピッチの利得
Figure 0007079325000209
は、以下のように計算され得る。
Figure 0007079325000210
Figure 0007079325000211
の場合、
Figure 0007079325000212
である。そうでなければ、ピッチの第2利得
Figure 0007079325000213
は、以下のように計算され得る。
Figure 0007079325000214
および
Figure 0007079325000215

Figure 0007079325000216
の場合には、
Figure 0007079325000217
はさらなる処理のために1だけ減少する。
最後に、
Figure 0007079325000218

Figure 0007079325000219
によって制限される。
形成された周期的励起
Figure 0007079325000220
は、
Figure 0007079325000221
を取得するために、1から始まって減衰率
Figure 0007079325000222
で終わるフレーム全体を通じてサンプルごとに減衰する。ピッチの利得は、良好なフレームの後の最初の消失フレームでのみ計算され、さらに連続するフレーム損失については
Figure 0007079325000223
に設定される。
8.2.3 励起のランダム部分の構造
励起のランダム部分は、以下のようにほぼ均一な分布でランダムジェネレータを用いて生成され得る。
Figure 0007079325000224
ここで、
Figure 0007079325000225
はこの方法で隠蔽された全く最初のフレームについて24607で初期化され、
Figure 0007079325000226
は値の16LSBを抽出する。さらなるフレームでは、
Figure 0007079325000227
が記憶され、次の
Figure 0007079325000228
として使用される。
ノイズをより高い周波数にさらにシフトするために、励起信号は、
Figure 0007079325000229
を取得するために以下の表に記載される11タップ線形位相FIRフィルタでハイパスフィルタリングされる
Figure 0007079325000230
ノイズが減衰率
Figure 0007079325000231
に依存するフェージング速度で全帯域ノイズにフェードアウトし得ることを保証するために、
Figure 0007079325000232
は全帯域
Figure 0007079325000233
とハイパスフィルタリングされたバージョン
Figure 0007079325000234
との間の線形補間を介して以下のように構成される。
Figure 0007079325000235
ここで、
Figure 0007079325000236
は良好なフレームの後の最初の消失フレームのものであり、
Figure 0007079325000237
は2番目およびさらに連続するフレーム損失のものであり、ここで
Figure 0007079325000238
は前の隠蔽されたフレームの
Figure 0007079325000239
である。
ノイズレベルを調整するために、ノイズの利得
Figure 0007079325000240
は以下のように計算される。
Figure 0007079325000241
セクション8.2.2の後に
Figure 0007079325000242
の場合には、
Figure 0007079325000243
である。そうでなければ、ノイズの第2の利得
Figure 0007079325000244
は、上記の式のように計算されるが、
Figure 0007079325000245

Figure 0007079325000246
である。以下、
Figure 0007079325000247
である。
さらなる処理では、
Figure 0007079325000248
を取得するために、
Figure 0007079325000249
は最初に正規化され、次に
Figure 0007079325000250
で乗算される。
形成されたランダム励起
Figure 0007079325000251
は、
Figure 0007079325000252
を取得するために、最初のサンプルからサンプル5まで、続いてサンプルごとに、
Figure 0007079325000253
から始まって
Figure 0007079325000254
で終わるまでフレーム全体にわたって、
Figure 0007079325000255
で均一に減衰する。ノイズの利得
Figure 0007079325000256
は、良好なフレームの後の最初の消失フレームでのみ計算され、さらに連続するフレーム損失については
Figure 0007079325000257
に設定される。
8.2.4 全励起、合成、および後処理の構造
ランダム励起
Figure 0007079325000258
は、全励起信号
Figure 0007079325000259
を形成するために周期的励起
Figure 0007079325000260
に追加される。隠蔽されたフレームの最終的な合成信号は、セクション8.2.1からのLPフィルタで全励起をフィルタリングすることによって取得され、ディエンファシスフィルタで後処理される。
8.2.5 時間領域エイリアスキャンセル
次のフレームが良好なフレームである場合に適切な重畳加算を得るために、時間領域エイリアスキャンセル部分
Figure 0007079325000261
が生成され得る。そのために、信号
Figure 0007079325000262
を取得するため、上記と同じように
Figure 0007079325000263
の追加サンプルが作成される。その上で、以下のステップによって時間領域エイリアスキャンセル部分が作成される。
合成された時間領域バッファ
Figure 0007079325000264
をゼロで埋める
Figure 0007079325000265
Figure 0007079325000266
をMDCTウィンドウ
Figure 0007079325000267
でウィンドウ化
Figure 0007079325000268
2NからNに再成形
Figure 0007079325000269
Nから2Nに再成形
Figure 0007079325000270
反転したMDCT(変形離散コサイン変換)(または別の例ではMDST、変形離散サイン変換)ウィンドウ
Figure 0007079325000271

Figure 0007079325000272
をウィンドウ化
Figure 0007079325000273
8.2.6 複数のフレーム損失の処理
構成された信号は、ゼロにフェードアウトする。フェードアウト速度は、前の減衰率
Figure 0007079325000274
に依存する減衰率
Figure 0007079325000275
、最後に正しく受信したフレームで計算されたピッチの利得
Figure 0007079325000276
、連続して削除されたフレームの数
Figure 0007079325000277
、および安定性
Figure 0007079325000278
によって制御される。減衰率
Figure 0007079325000279
を計算するために、以下の手順が使用され得る。
if (
Figure 0007079325000280
== 1)
Figure 0007079325000281
=
Figure 0007079325000282
if (
Figure 0007079325000283
> 0.98)
Figure 0007079325000284
= 0.98
else if (
Figure 0007079325000285
< 0.925)
Figure 0007079325000286
= 0.925
else if (
Figure 0007079325000287
== 2)
Figure 0007079325000288
= (0.63 + 0.35
Figure 0007079325000289
)
Figure 0007079325000290
if
Figure 0007079325000291
< 0.919
Figure 0007079325000292
= 0.919;
else if (
Figure 0007079325000293
== 3)
Figure 0007079325000294
= (0.652 + 0.328
Figure 0007079325000295
)
Figure 0007079325000296
else if (
Figure 0007079325000297
== 4)
Figure 0007079325000298
= (0.674 + 0.3
Figure 0007079325000299
)
Figure 0007079325000300
else if (
Figure 0007079325000301
== 5) {
Figure 0007079325000302
= (0.696 + 0.266
Figure 0007079325000303
)
Figure 0007079325000304
else
Figure 0007079325000305
= (0.725 + 0.225
Figure 0007079325000306
)
Figure 0007079325000307
Figure 0007079325000308
=
Figure 0007079325000309
係数
Figure 0007079325000310
(最後の2つの隣接するスケール係数ベクトル
Figure 0007079325000311
および
Figure 0007079325000312
の安定性)は、たとえば以下のように取得され得る。
Figure 0007079325000313
ここで、
Figure 0007079325000314
および
Figure 0007079325000315
は最後の2つの隣接するフレームのスケール係数ベクトルである。係数
Figure 0007079325000316

Figure 0007079325000317
によって制限され、
Figure 0007079325000318
の値が大きいほど、より安定した信号に対応する。これにより、エネルギーおよびスペクトルエンベロープの変動を制限する。2つの隣接するスケール係数ベクトルが存在しない場合、係数
Figure 0007079325000319
は0.8に設定される。
急激な高エネルギーの増加を防ぐために、スペクトルは
Figure 0007079325000320
および
Figure 0007079325000321
でローパスフィルタリングされる。
9.同じピッチラグ情報を用いるLTPFおよびPLC
図9は、デコーダ60bを動作させるために使用され得る方法100’の一般的な例を示す。ステップS101’で、信号のエンコードされたバージョンがデコードされ得る。例では、記憶ユニットからフレームが(たとえば、Bluetooth接続を介して)受信および/または取得され得る。(上記で論じられたTとTとの間で選択された)ピッチラグTbestは、PLCおよびLTPFの両方に使用され得る。
ステップS102’で、フレームの有効性がチェックされる(たとえば、CRC、パリティなどで)。フレームの無効性が確認された場合、隠蔽が実行される(下記参照)。
そうではなく、フレームが有効のまま維持されている場合、ステップS103’で、ピッチ情報がフレーム内でエンコードされているか否かがチェックされる。いくつかの例では、ピッチ情報は、高調波が特定の閾値を超えていると確認された場合にのみエンコードされる(これはたとえば、LTPFおよび/またはPLCを実行するのに十分に高い高調波を示すことができる)。
S103’でピッチ情報が実際にエンコードされていると確認された場合には、ステップS104’でピッチ情報はデコードおよび記憶される。そうでなければ、サイクルは終了し、新しいフレームがS101’でデコードされ得る。
続いて、ステップS105’で、LTPFがイネーブルされているか否かがチェックされる。LTPFがイネーブルされていることが検証された場合には、ステップS106でLTPFが実行される。そうでなければ、LTPFはスキップされ、サイクルは終了し、新しいフレームがS101’でデコードされ得る。
隠蔽を参照すると、後者はいくつかのステップに細分化され得る。ステップS107’で、前のフレームのピッチ情報(または前のフレームのうちの1つのピッチ情報)がメモリ内に記憶されている(すなわち、自由にできる)か否かが検証される。
検索したピッチ情報が記憶されていると検証された場合には、ステップS108でエラー隠蔽が実行され得る。信号スクランブリングを伴うMDCT(またはMDST)フレーム解像度反復、および/またはTCX時間領域隠蔽、および/またはフェーズECUが実行され得る。
そうではなく、(たとえば、デコーダがピッチラグを送信しなかった結果として)新しいピッチ情報が記憶されていないことがS107’で検証された場合、ステップS109’で、それ自体既知であって、エンコーダによって提供されたピッチ情報の使用を暗示していない、異なる隠蔽手法が使用され得る。これらの手法のいくつかは、デコーダでのピッチ情報および/またはその他の高調波情報の推定に基づいてもよい。いくつかの例では、この場合、隠蔽手法は実行されなくてもよい。
隠蔽を実行した後、サイクルは終了し、新しいフレームがS101’でデコードされ得る。
なお、PLCによって使用されたピッチラグは、上記で論じられたように、推定値TとTとの間の選択に基づいて、装置10および/または60bによって準備された値19(tbest)であることに留意すべきである。
10.その他の例
図7は、上記方法の少なくともいくつかのステップを実行する装置10および/または60aを実装し得る装置110を示す。装置110は、プロセッサ111と、プロセッサ111によって実行されると、第1推定112a(たとえば、第1推定器11を実装するためなど)、第2推定112b(たとえば、第2推定器12を実装するためなど)、および/または選択112c(たとえば、セレクタ18を実装するためなど)をプロセッサ111に実行させる命令(たとえば、プログラム)を記憶している非一時的メモリユニット112とを備え得る。装置110は、入力ユニット116を備えてもよく、これは入力情報信号(たとえば、オーディオ信号)を取得し得る。装置は、たとえば記憶空間128に、ビットストリームを記憶し得る。
図8は、たとえば、デコーダ60bを実装し、および/またはLTPFフィルタリングを実行し得る、装置120を示す。装置120は、プロセッサ121と、プロセッサ121によって実行されると、たとえばエンコーダから取得したパラメータに基づいて、特にLTPFフィルタリング動作をプロセッサ121に実行させる命令122a(たとえば、プログラム)を記憶している非一時的メモリユニット122とを備え得る。装置120は、入力ユニット126を備えてもよく、これは情報信号(たとえば、オーディオ信号)のデコードされた表現を取得し得る。したがって、プロセッサ121は、情報信号のデコードされた表現を取得するためのプロセスを実行し得る。このデコードされた表現は、出力ユニット127を使用して外部ユニットに提供され得る。出力ユニット127は、たとえば、(たとえばBluetoothなどの無線通信を使用して)外部デバイスおよび/または外部記憶空間と通信するための通信ユニットを備え得る。プロセッサ121は、オーディオ信号のデコードされた表現をローカル記憶空間128に保存し得る。
例では、システム110および120は同じデバイスであってもよい。
特定の実装要件に応じて、例はハードウェアに実装されてもよい。実装は、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働できる)電子的に読み取り可能な制御信号が記憶されたデジタル記憶媒体、たとえばフロッピーディスク、デジタル多用途ディスク(DVD)、Blu-Rayディスク、コンパクトディスク(CD)、読み取り専用メモリ(ROM)、プログラム可能な読み取り専用メモリ(PROM)、消去可能でプログラム可能な読み取り専用メモリ(EPROM)、電気的消去可能でプログラム可能な読み取り専用メモリ(EEPROM)、またはフラッシュメモリを使用して実行され得る。したがって、デジタル記憶媒体はコンピュータ読み取り可能であり得る。
一般に、例は、プログラム命令を有するコンピュータプログラム製品として実装されてもよく、プログラム命令は、コンピュータプログラム製品がコンピュータ上で実行されたときに方法の1つを実行するように動作する。プログラム命令は、たとえば機械可読媒体上に記憶され得る。
別の例は、機械可読キャリアに記憶された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを備える。言い換えると、方法の例は、コンピュータプログラム製品がコンピュータ上で実行されたときに本明細書に記載の方法の1つを実行するためのプログラム命令を有するコンピュータプログラムである。
したがって、方法のさらなる例は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを備え、該コンピュータプログラムを記録したデータキャリア媒体(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア媒体、デジタル記憶媒体、または記録媒体は、無形で一時的な信号ではなく、有形および/または非一時的なものである。
さらなる例は、本明細書に記載の方法の1つを実行する処理ユニット、たとえばコンピュータ、またはプログラマブル論理デバイスを備える。
さらなる例は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを備える。
さらなる例は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを受信機に(たとえば、電子的または光学的に)転送する、装置またはシステムを備える。受信機は、たとえば、コンピュータ、モバイル機器、メモリデバイスなどであり得る。装置またはシステムは、たとえば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えてもよい。
いくつかの例では、本明細書に記載の方法の機能のうちの一部または全部を実行するために、プログラマブル論理デバイス(たとえば、フィールドプログラマブルゲートアレイ)が使用され得る。いくつかの例では、本明細書に記載の方法の1つを実行するために、フィールドプログラマブルゲートアレイがマイクロプロセッサと協働し得る。一般に、方法は、いずれの適切なハードウェア装置によって実行されてもよい。
上記の例は、上記で論じられた原理を例示するものである。本明細書に記載された配置および詳細の修正および変形が明らかであることは、理解される。したがって、本明細書の例の記載および説明によって表される特定の詳細によってではなく、差し迫った特許請求の範囲によって限定されることが意図される。

Claims (23)

  1. 複数のフレームを含む情報信号をエンコードするための装置(10、60a、110)であって、前記装置は、
    第1推定値(14、T)を取得するように構成された第1推定器(11)であって、前記第1推定値は現在のフレーム(13)のピッチラグの推定値であり、前記第1推定値(14)は前記現在のフレーム(13)に関連付けられた第1相関関数を最大化させる前記ピッチラグ(T)として取得される、前記第1推定器と、
    第2推定値(16、T)を取得するように構成された第2推定器(12)であって、前記第2推定値は前記現在のフレーム(13)のピッチラグの別の推定値であり、前記第2推定器(12)は、前記現在のフレーム(13)の前記第2推定値(16、T)を取得するように、のフレームで選択された前記ピッチラグ(51、19”)によって条件付けられ、前記第2推定器(12)は、前記前のフレームのために選択された前記ピッチラグ(51、19”)を含む第2サブインターバル(52)内で第2相関関数を最大化させる前記ピッチラグを検索することによって前記第2推定値(16、T)を取得するように構成されている、前記第2推定器(12)と、
    第1および第2相関測定値(23、25)に基づいて前記第1推定値(14、T)と前記第2推定値(16、T)との間の選択を実行することによって選択値(19、Tbest)を選ぶ(S103)ように構成されたセレクタ(17)であって、前記セレクタ(17)は、
    第2正規化自己相関測定値(25)が第1正規化自己相関測定値(23)のダウンスケールバージョン(24)よりも小さいときに前記第1推定値(14、T)を選択するように、および
    前記第2正規化自己相関測定値(25)が前記第1正規化自己相関測定値(23)のダウンスケールバージョン(24)よりも大きいときに前記第2推定値(16、T)を選択するように、
    前記現在のフレーム(13)に関連付けられ、前記第1推定値(14、T)に対応するピッチラグで取得された前記第1正規化自己相関測定値(23)の前記ダウンスケールバージョン(24)と、
    前記現在のフレーム(13)に関連付けられ、前記第2推定値(16、T)に対応するピッチラグで取得された前記第2正規化自己相関測定値(25)と
    の間で比較を実行するように構成されている、前記セレクタ(17)と、
    を備える装置(10、60a、110)。
  2. 前記第1推定器、前記第2推定器、および前記セレクタ(17)を備える検出ユニット(10、65)と、
    デコーダ(60b)でLTPFを実行するのに有用なデータをエンコードするように構成された長期ポストフィルタリングLTPFツール(66)であって、前記LTPFを実行するのに有用なデータは前記選択値(19、Tbest)を含む、前記長期ポストフィルタリングLTPFツール(66)と、
    をさらに備える、請求項1に記載の装置(60a)。
  3. 前記セレクタ(17)の下流に、デコーダ装置(60b)における長期ポストフィルタ(67)を制御するための長期ポストフィルタリングLTPFツール(66)をさらに供える、請求項1に記載の装置。
  4. 前記選択値(19、Tbest)の調波が所定のLTPF閾値未満である場合に前記選択値(19、Tbest)をエンコードするのを回避するように、前記選択値(19、Tbest)の前記高調波を前記所定のLTPF閾値と比較するように構成されている、請求項1から3のいずれか一項に記載の装置。
  5. 前記第2サブインターバル(52)は、前記前のフレームのために選択された前記ピッチラグ(51、19”)から所定のラグ数閾値より短い距離内のラグ(T)を含む、
    請求項1から4のいずれか一項に記載の装置。
  6. 前記第2推定器(12)は、
    前記第2相関関数の第2相関関数値の中の最大値に関連付けられた前記ピッチラグ(T)に前記第2推定値(16)を関連付けるために、前記第2相関関数値の中の前記最大値を検索する
    ように構成されている、請求項1から5のいずれか一項に記載の装置。
  7. 前記第1相関関数は、第1サブインターバル内のラグに制限されている、請求項1から6のいずれか一項に記載の装置。
  8. 前記第1サブインターバルは、前記第2サブインターバル(52)よりも大きいいくつかのラグを含み、および/または前記第2サブインターバル(52)内の前記ピッチラグのうちの少なくともいくつかは、前記第1サブインターバルに含まれる、請求項7に記載の装置。
  9. 前記第1推定器(11)は、
    前記第1相関関数を最大化させる前記ピッチラグ(T)を検索する前に単調に減少する重み関数を使用して前記第1相関関数の前記相関測定値を重み付けする
    ように構成されている、請求項1から8のいずれか一項に記載の装置。
  10. 前記第1推定器(11)は、以下の演算のうちの少なくともいくつかを実行することによって前記第1推定値
    Figure 0007079325000322
    を取得するように構成されており、
    Figure 0007079325000323
    Figure 0007079325000324
    Figure 0007079325000325
    Figure 0007079325000326
    Figure 0007079325000327
    は重み関数であり、
    Figure 0007079325000328
    および
    Figure 0007079325000329
    は最小ラグおよび最大ラグに関連付けられており、
    Figure 0007079325000330
    は前記情報信号またはその処理済みバージョンに基づいて推定された自己相関測定値であり、Nはフレーム長であり、xは前記情報信号である、請求項1からのいずれか一項に記載の装置。
  11. 前記第2推定器(12)は、
    Figure 0007079325000331
    を実行することによって前記第2推定値
    Figure 0007079325000332
    を取得するように構成されており、
    Figure 0007079325000333

    Figure 0007079325000334

    Figure 0007079325000335
    は前記前のフレームで選択された前記推定値であり、
    Figure 0007079325000336

    Figure 0007079325000337
    からの距離であり、
    Figure 0007079325000338
    および
    Figure 0007079325000339
    は最小ラグおよび最大ラグに関連付けられており、Rは前記情報信号またはその処理済みバージョンに基づいて推定された自己相関測定値である、
    請求項1から10のいずれか一項に記載の装置。
  12. 前記セレクタ(17)は、以下の点に関してッチラグ推定値
    Figure 0007079325000340
    の選択を実行するように構成されており、
    Figure 0007079325000341
    ここで
    Figure 0007079325000342
    は前記第1推定値、
    Figure 0007079325000343
    は前記第2推定値、
    Figure 0007079325000344
    は前記情報信号またはその処理済みバージョンの値、
    Figure 0007079325000345
    はラグ
    Figure 0007079325000346
    での長さ
    Figure 0007079325000347
    の前記信号
    Figure 0007079325000348
    正規化相関測定値、
    Figure 0007079325000349
    はダウンスケーリング係数である、
    請求項1から11のいずれか一項に記載の装置。
  13. 前記情報信号はオーディオ信号である、請求項1から12のいずれか一項に記載の装置。
  14. じ相関関数を使用して前記第1および第2正規化自己相関測定値を取得するように構成されておりただし前記第1および第2正規化自己相関測定値は重み関数の対象になる、請求項1から13のいずれか一項に記載の装置。
  15. 重み関数を適用した前記第1推定値の規化バージョンとして前記第1正規化自己相関測定値を取得するように構成されている、請求項1から14のいずれか一項に記載の装置。
  16. 前記第2推定値の規化バージョンとして前記第2正規化自己相関測定値を取得するように構成されている、請求項1から15のいずれか一項に記載の装置。
  17. 前記情報信号(61)またはその処理済みバージョンの表現(63a)を生成するように構成された変換コーダ(62)をさらに備える、請求項1から16のいずれか一項に記載の装置。
  18. エンコーダ側(10、60a)およびデコーダ側(60b)を備えるシステム(60)であって、前記エンコーダ側は、請求項1から17のいずれか一項に記載の装置を備え、前記デコーダ側は、前記セレクタ(17)によって選択された前記ピッチラグ推定値に基づいて制御される長期ポストフィルタリングツール(67)を備えるシステム(60)。
  19. フレームに分割された信号のピッチラグを決定する方法(100)であって、
    現在のフレーム(13)に関連付けられた第1相関関数を最大化させる前記ピッチラグ(T)として第1推定値(14)を取得するために、前記現在のフレームの第1推定を実行するステップ(S101)と、
    のフレームのために選択された前記ピッチラグ(51、19”)を含む第2サブインターバル(52)内の第2相関関数を最大化させる前記ピッチラグ(T)を検索することによって取得された前記現在のフレームの第2推定を実行するステップ(S102)であって、前記第2推定を実行するステップは、前記前のフレームで実行された選択ステップの結果に基づいて取得される、ステップと、
    第1および第2正規化自己相関測定値に基づいて、前記第1推定で取得された前記第1推定値(14、T)と前記第2推定で取得された2推定値(16、T)との間で選択するステップ(S103)と
    を備え、
    選択ステップは、
    前記現在のフレーム(13)に関連付けられ、前記第1推定値(14、T)に対応するピッチラグで取得された前記第1正規化自己相関測定値(23)のダウンスケールバージョン(24)と、
    前記現在のフレーム(13)に関連付けられ、前記第2推定値(16、T)に対応するピッチラグで取得された前記第2正規化自己相関測定値(25)と
    の間で比較を実行するステップと、
    前記第2正規化自己相関測定値(25)が前記第1正規化自己相関測定値(23)の前記ダウンスケールバージョンよりも小さいときに前記第1推定値(14、T)を選択し、および/または前記第2正規化自己相関測定値(25)が前記第1正規化自己相関測定値(23)の前記ダウンスケールバージョンよりも大きいときに前記第2推定値(16、T)を選択するステップと、を備える方法(100)。
  20. 長期ポストフィルタリングLTPFのために選択された前記ラグを使用するステップをさらに備える、請求項19に記載の方法。
  21. フレームに分割された信号のためにビットストリームをエンコードする方法(100)であって、
    請求項19または20に記載の方法を実行するステップと、
    コーダ(60b)でLTPFを実行するのに有用なデータをエンコードするステップであって、前記LTPFを実行するのに有用なデータは、前記第1推定値(14、T )から前記第2推定値(16、T )の間で選択することによって得られる選択値(19、Tbest)を含む、ステップと
    を備える方法(100)。
  22. パケット損失隠蔽PLCのために選択された前記ラグを使用するステップをさらに備える、請求項19から21のいずれか一項に記載の方法。
  23. プロセッサ(111)によって実行されると、請求項19から22のいずれか一項に記載の方法を前記プロセッサに実行させる命令を備えるプログラム。
JP2020524874A 2017-11-10 2018-11-05 ピッチラグの選択 Active JP7079325B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17201091.0 2017-11-10
EP17201091.0A EP3483886A1 (en) 2017-11-10 2017-11-10 Selecting pitch lag
PCT/EP2018/080195 WO2019091922A1 (en) 2017-11-10 2018-11-05 Selecting pitch lag

Publications (2)

Publication Number Publication Date
JP2021502596A JP2021502596A (ja) 2021-01-28
JP7079325B2 true JP7079325B2 (ja) 2022-06-01

Family

ID=60301906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020524874A Active JP7079325B2 (ja) 2017-11-10 2018-11-05 ピッチラグの選択

Country Status (18)

Country Link
US (1) US11380341B2 (ja)
EP (2) EP3483886A1 (ja)
JP (1) JP7079325B2 (ja)
KR (1) KR102426050B1 (ja)
CN (1) CN111566733B (ja)
AR (1) AR114388A1 (ja)
AU (1) AU2018363670B2 (ja)
BR (1) BR112020009114A2 (ja)
CA (1) CA3082175C (ja)
ES (1) ES2900058T3 (ja)
MX (1) MX2020004786A (ja)
PL (1) PL3707718T3 (ja)
PT (1) PT3707718T (ja)
RU (1) RU2742739C1 (ja)
SG (1) SG11202004203WA (ja)
TW (1) TWI728277B (ja)
WO (1) WO2019091922A1 (ja)
ZA (1) ZA202002521B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11756530B2 (en) * 2019-10-19 2023-09-12 Google Llc Self-supervised pitch estimation
US11699209B2 (en) * 2020-10-22 2023-07-11 Huawei Cloud Computing Technologies Co., Ltd. Method and apparatus for embedding and extracting digital watermarking for numerical data

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003387A (ja) 2007-06-25 2009-01-08 Nippon Telegr & Teleph Corp <Ntt> ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体
JP2017522604A (ja) 2014-07-28 2017-08-10 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 高調波ポストフィルタを使用してオーディオ信号を処理するための装置および方法

Family Cites Families (182)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3639753A1 (de) 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
US5012517A (en) 1989-04-18 1991-04-30 Pacific Communication Science, Inc. Adaptive transform coder having long term predictor
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
JPH05281996A (ja) * 1992-03-31 1993-10-29 Sony Corp ピッチ抽出装置
IT1270438B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce
US5581653A (en) 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
JP3402748B2 (ja) * 1994-05-23 2003-05-06 三洋電機株式会社 音声信号のピッチ周期抽出装置
JPH0811644A (ja) 1994-06-27 1996-01-16 Nissan Motor Co Ltd ルーフモール取付構造
US6167093A (en) 1994-08-16 2000-12-26 Sony Corporation Method and apparatus for encoding the information, method and apparatus for decoding the information and method for information transmission
DE69619284T3 (de) 1995-03-13 2006-04-27 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur Erweiterung der Sprachbandbreite
US5781888A (en) 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
WO1997027578A1 (en) * 1996-01-26 1997-07-31 Motorola Inc. Very low bit rate time domain speech analyzer for voice messaging
US5812971A (en) 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
JPH1091194A (ja) 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
KR100261253B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
GB2326572A (en) 1997-06-19 1998-12-23 Softsound Limited Low bit rate audio coder and decoder
WO1999016050A1 (en) 1997-09-23 1999-04-01 Voxware, Inc. Scalable and embedded codec for speech and audio signals
JP3344962B2 (ja) 1998-03-11 2002-11-18 松下電器産業株式会社 オーディオ信号符号化装置、及びオーディオ信号復号化装置
US6507814B1 (en) * 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
US6735561B1 (en) 2000-03-29 2004-05-11 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
EP1139665A1 (en) 2000-03-29 2001-10-04 Deutsche Thomson-Brandt Gmbh Method and apparatus for changing the output delay of audio or video data encoding
US7099830B1 (en) 2000-03-29 2006-08-29 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
US6665638B1 (en) * 2000-04-17 2003-12-16 At&T Corp. Adaptive short-term post-filters for speech coders
US7395209B1 (en) 2000-05-12 2008-07-01 Cirrus Logic, Inc. Fixed point audio decoding system and method
WO2002101717A2 (en) * 2001-06-11 2002-12-19 Ivl Technologies Ltd. Pitch candidate selection method for multi-channel pitch detectors
US7512535B2 (en) 2001-10-03 2009-03-31 Broadcom Corporation Adaptive postfiltering methods and systems for decoding speech
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7433824B2 (en) 2002-09-04 2008-10-07 Microsoft Corporation Entropy coding by adapting coding between level and run-length/level modes
JP4287637B2 (ja) 2002-10-17 2009-07-01 パナソニック株式会社 音声符号化装置、音声符号化方法及びプログラム
JP4431568B2 (ja) * 2003-02-11 2010-03-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声符号化
KR20030031936A (ko) * 2003-02-13 2003-04-23 배명진 피치변경법을 이용한 단일 음성 다중 목소리 합성기
US20040162866A1 (en) 2003-02-19 2004-08-19 Malvar Henrique S. System and method for producing fast modulated complex lapped transforms
ATE503246T1 (de) 2003-06-17 2011-04-15 Panasonic Corp Empfangsvorrichtung, sendevorrichtung und übertragungssystem
US7548852B2 (en) 2003-06-30 2009-06-16 Koninklijke Philips Electronics N.V. Quality of decoded audio by adding noise
US7620545B2 (en) 2003-07-08 2009-11-17 Industrial Technology Research Institute Scale factor based bit shifting in fine granularity scalability audio coding
KR100550003B1 (ko) * 2003-07-11 2006-02-08 학교법인연세대학교 상호부호화기에서 개회로 피치 추정 방법 및 그 장치
ATE425533T1 (de) * 2003-07-18 2009-03-15 Koninkl Philips Electronics Nv Audiocodierung mit niedriger bitrate
US7983909B2 (en) 2003-09-15 2011-07-19 Intel Corporation Method and apparatus for encoding audio data
US7009533B1 (en) 2004-02-13 2006-03-07 Samplify Systems Llc Adaptive compression and decompression of bandlimited signals
KR20050087956A (ko) 2004-02-27 2005-09-01 삼성전자주식회사 무손실 오디오 부호화/복호화 방법 및 장치
DE102004009954B4 (de) 2004-03-01 2005-12-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals
EP1914722B1 (en) 2004-03-01 2009-04-29 Dolby Laboratories Licensing Corporation Multichannel audio decoding
DE102004009949B4 (de) 2004-03-01 2006-03-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes
JP4744438B2 (ja) 2004-03-05 2011-08-10 パナソニック株式会社 エラー隠蔽装置およびエラー隠蔽方法
US7392195B2 (en) 2004-03-25 2008-06-24 Dts, Inc. Lossless multi-channel audio codec
US7933767B2 (en) * 2004-12-27 2011-04-26 Nokia Corporation Systems and methods for determining pitch lag for a current frame of information
EP1864281A1 (en) 2005-04-01 2007-12-12 QUALCOMM Incorporated Systems, methods, and apparatus for highband burst suppression
US7539612B2 (en) 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
US7546240B2 (en) 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
KR20070037945A (ko) 2005-10-04 2007-04-09 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
US20070118361A1 (en) 2005-10-07 2007-05-24 Deepen Sinha Window apparatus and method
KR100888474B1 (ko) 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
US7805297B2 (en) 2005-11-23 2010-09-28 Broadcom Corporation Classification-based frame loss concealment for audio signals
US9123350B2 (en) 2005-12-14 2015-09-01 Panasonic Intellectual Property Management Co., Ltd. Method and system for extracting audio features from an encoded bitstream for audio classification
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
WO2007102782A2 (en) 2006-03-07 2007-09-13 Telefonaktiebolaget Lm Ericsson (Publ) Methods and arrangements for audio coding and decoding
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
EP2030199B1 (en) 2006-05-30 2009-10-28 Koninklijke Philips Electronics N.V. Linear predictive coding of an audio signal
CN1983909B (zh) * 2006-06-08 2010-07-28 华为技术有限公司 一种丢帧隐藏装置和方法
US8015000B2 (en) 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
ATE496365T1 (de) 2006-08-15 2011-02-15 Dolby Lab Licensing Corp Arbiträre formung einer temporären rauschhüllkurve ohne nebeninformation
FR2905510B1 (fr) 2006-09-01 2009-04-10 Voxler Soc Par Actions Simplif Procede d'analyse en temps reel de la voix pour le controle en temps reel d'un organe numerique et dispositif associe
CN101140759B (zh) 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
US7752038B2 (en) 2006-10-13 2010-07-06 Nokia Corporation Pitch lag estimation
DE102006049154B4 (de) 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
KR101292771B1 (ko) 2006-11-24 2013-08-16 삼성전자주식회사 오디오 신호의 오류은폐방법 및 장치
EP2099026A4 (en) 2006-12-13 2011-02-23 Panasonic Corp POST-FILTER AND FILTERING METHOD
FR2912249A1 (fr) 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
EP2015293A1 (en) 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
JP5618826B2 (ja) * 2007-06-14 2014-11-05 ヴォイスエイジ・コーポレーション Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
JP4572218B2 (ja) 2007-06-27 2010-11-04 日本電信電話株式会社 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
US10795949B2 (en) 2007-07-26 2020-10-06 Hamid Hatami-Hanza Methods and systems for investigation of compositions of ontological subjects and intelligent systems therefrom
WO2009027606A1 (fr) 2007-08-24 2009-03-05 France Telecom Codage/decodage par plans de symboles, avec calcul dynamique de tables de probabilites
WO2009029035A1 (en) 2007-08-27 2009-03-05 Telefonaktiebolaget Lm Ericsson (Publ) Improved transform coding of speech and audio signals
CN100524462C (zh) 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
KR101290622B1 (ko) 2007-11-02 2013-07-29 후아웨이 테크놀러지 컴퍼니 리미티드 오디오 복호화 방법 및 장치
WO2009066869A1 (en) 2007-11-21 2009-05-28 Electronics And Telecommunications Research Institute Frequency band determining method for quantization noise shaping and transient noise shaping method using the same
WO2009084918A1 (en) 2007-12-31 2009-07-09 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US8386271B2 (en) 2008-03-25 2013-02-26 Microsoft Corporation Lossless and near lossless scalable audio codec
AU2009256551B2 (en) 2008-06-13 2015-08-13 Nokia Technologies Oy Method and apparatus for error concealment of encoded audio data
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
PL2346030T3 (pl) 2008-07-11 2015-03-31 Fraunhofer Ges Forschung Koder audio, sposób kodowania sygnału audio oraz program komputerowy
WO2010003663A1 (en) 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding frames of sampled audio signals
US8577673B2 (en) * 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
EP2345030A2 (en) 2008-10-08 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-resolution switched audio encoding/decoding scheme
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
ES2567129T3 (es) 2009-01-28 2016-04-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio, decodificador de audio, información de audio codificada, métodos para la codificación y decodificación de una señal de audio y programa de ordenador
JP4945586B2 (ja) 2009-02-02 2012-06-06 株式会社東芝 信号帯域拡張装置
US20100223061A1 (en) 2009-02-27 2010-09-02 Nokia Corporation Method and Apparatus for Audio Coding
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
FR2944664A1 (fr) * 2009-04-21 2010-10-22 Thomson Licensing Dispositif et procede de traitement d'images
US8428938B2 (en) 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
US8352252B2 (en) 2009-06-04 2013-01-08 Qualcomm Incorporated Systems and methods for preventing the loss of information within a speech frame
KR20100136890A (ko) 2009-06-19 2010-12-29 삼성전자주식회사 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법
CN101958119B (zh) 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
CA2777073C (en) 2009-10-08 2015-11-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping
EP3693963B1 (en) 2009-10-15 2021-07-21 VoiceAge Corporation Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
PL2473995T3 (pl) 2009-10-20 2015-06-30 Fraunhofer Ges Forschung Koder sygnału audio, dekoder sygnału audio, sposób dostarczania zakodowanej reprezentacji treści audio, sposób dostarczania dekodowanej reprezentacji treści audio oraz program komputerowy do wykorzystania w zastosowaniach z małym opóźnieniem
CN102667923B (zh) 2009-10-20 2014-11-05 弗兰霍菲尔运输应用研究公司 音频编码器、音频解码器、用于将音频信息编码的方法、用于将音频信息解码的方法
US8207875B2 (en) 2009-10-28 2012-06-26 Motorola Mobility, Inc. Encoder that optimizes bit allocation for information sub-parts
US7978101B2 (en) 2009-10-28 2011-07-12 Motorola Mobility, Inc. Encoder and decoder using arithmetic stage to compress code space that is not fully utilized
KR101761629B1 (ko) 2009-11-24 2017-07-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
CA2786944C (en) 2010-01-12 2016-03-15 Fraunhofer Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding and audio information, method for decoding an audio information and computer program using a hash table describing both significant state values and interval boundaries
US20110196673A1 (en) 2010-02-11 2011-08-11 Qualcomm Incorporated Concealing lost packets in a sub-band coding decoder
EP2375409A1 (en) 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
FR2961980A1 (fr) 2010-06-24 2011-12-30 France Telecom Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique
IL295473B2 (en) 2010-07-02 2023-10-01 Dolby Int Ab After–selective bass filter
JP5600805B2 (ja) 2010-07-20 2014-10-01 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 最適化されたハッシュテーブルを用いるオーディオエンコーダ、オーディオデコーダ、オーディオ情報を符号化するための方法、オーディオ情報を復号化するための方法およびコンピュータプログラム
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
US8738385B2 (en) 2010-10-20 2014-05-27 Broadcom Corporation Pitch-based pre-filtering and post-filtering for compression of audio signals
MY165853A (en) 2011-02-14 2018-05-18 Fraunhofer Ges Forschung Linear prediction based coding scheme using spectral domain noise shaping
US9270807B2 (en) * 2011-02-23 2016-02-23 Digimarc Corporation Audio localization using audio signal encoding and recognition
AR085445A1 (es) 2011-03-18 2013-10-02 Fraunhofer Ges Forschung Codificador y decodificador que tiene funcionalidad de configuracion flexible
US8977543B2 (en) 2011-04-21 2015-03-10 Samsung Electronics Co., Ltd. Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore
US8891775B2 (en) 2011-05-09 2014-11-18 Dolby International Ab Method and encoder for processing a digital stereo audio signal
FR2977439A1 (fr) 2011-06-28 2013-01-04 France Telecom Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard.
FR2977969A1 (fr) 2011-07-12 2013-01-18 France Telecom Adaptation de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee
US9363339B2 (en) 2011-07-12 2016-06-07 Hughes Network Systems, Llc Staged data compression, including block level long range compression, for data streams in a communications system
CN103493130B (zh) 2012-01-20 2016-05-18 弗劳恩霍夫应用研究促进协会 用以利用正弦代换进行音频编码及译码的装置和方法
CN103460283B (zh) * 2012-04-05 2015-04-29 华为技术有限公司 确定多信道音频信号的编码参数的方法及多信道音频编码器
US20130282373A1 (en) 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US9026451B1 (en) 2012-05-09 2015-05-05 Google Inc. Pitch post-filter
JP6088644B2 (ja) 2012-06-08 2017-03-01 サムスン エレクトロニクス カンパニー リミテッド フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置
GB201210373D0 (en) 2012-06-12 2012-07-25 Meridian Audio Ltd Doubly compatible lossless audio sandwidth extension
FR2992766A1 (fr) 2012-06-29 2014-01-03 France Telecom Attenuation efficace de pre-echos dans un signal audionumerique
CN102779526B (zh) * 2012-08-07 2014-04-16 无锡成电科大科技发展有限公司 语音信号中基音提取及修正方法
US9406307B2 (en) 2012-08-19 2016-08-02 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US9293146B2 (en) 2012-09-04 2016-03-22 Apple Inc. Intensity stereo coding in advanced audio coding
TWI553628B (zh) 2012-09-24 2016-10-11 三星電子股份有限公司 訊框錯誤隱藏方法
CN103714821A (zh) 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
US9401153B2 (en) * 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
ITBO20120619A1 (it) 2012-11-09 2014-05-10 Tissue Machinery Co Spa Apparato e metodo di confezionamento di pannolini o altri oggetti sanitari morbidi piatti ripiegati.
US9318116B2 (en) 2012-12-14 2016-04-19 Disney Enterprises, Inc. Acoustic data transmission based on groups of audio receivers
EP2757558A1 (en) 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
FR3001593A1 (fr) 2013-01-31 2014-08-01 France Telecom Correction perfectionnee de perte de trame au decodage d'un signal.
JP6069526B2 (ja) 2013-02-05 2017-02-01 テレフオンアクチーボラゲット エルエム エリクソン(パブル) オーディオフレーム損失のコンシールメントを制御する方法及び装置
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
MY181026A (en) * 2013-06-21 2020-12-16 Fraunhofer Ges Forschung Apparatus and method realizing improved concepts for tcx ltp
TR201808890T4 (tr) 2013-06-21 2018-07-23 Fraunhofer Ges Forschung Bir konuşma çerçevesinin yeniden yapılandırılması.
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
RU2638734C2 (ru) 2013-10-18 2017-12-15 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодирование спектральных коэффициентов спектра аудиосигнала
US9906858B2 (en) 2013-10-22 2018-02-27 Bongiovi Acoustics Llc System and method for digital signal processing
PL3336840T3 (pl) 2013-10-31 2020-04-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder audio i sposób dostarczania zdekodowanej informacji audio z wykorzystaniem maskowania błędów modyfikującego sygnał pobudzenia w dziedzinie czasu
JP6396459B2 (ja) 2013-10-31 2018-09-26 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 周波数領域における時間的予備整形雑音の挿入によるオーディオ帯域幅拡張
ES2716652T3 (es) 2013-11-13 2019-06-13 Fraunhofer Ges Forschung Codificador para la codificación de una señal de audio, sistema de transmisión de audio y procedimiento para la determinación de valores de corrección
GB2524333A (en) 2014-03-21 2015-09-23 Nokia Technologies Oy Audio signal payload
BR122020015614B1 (pt) 2014-04-17 2022-06-07 Voiceage Evs Llc Método e dispositivo para interpolar parâmetros de filtro de predição linear em um quadro de processamento de sinal sonoro atual seguindo um quadro de processamento de sinal sonoro anterior
US9396733B2 (en) 2014-05-06 2016-07-19 University Of Macau Reversible audio data hiding
NO2780522T3 (ja) 2014-05-15 2018-06-09
EP2963649A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using horizontal phase correction
US9685166B2 (en) * 2014-07-26 2017-06-20 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding
EP2980798A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
CN107112022B (zh) 2014-07-28 2020-11-10 三星电子株式会社 用于时域数据包丢失隐藏的方法
AU2015258241B2 (en) * 2014-07-28 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
EP2980796A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
EP2988300A1 (en) 2014-08-18 2016-02-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Switching of sampling rates at audio processing devices
EP3067887A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
US10296959B1 (en) 2015-03-30 2019-05-21 Audible, Inc. Automated recommendations of audio narrations
US9886963B2 (en) 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
US10049684B2 (en) 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
JP6422813B2 (ja) 2015-04-13 2018-11-14 日本電信電話株式会社 符号化装置、復号装置、これらの方法及びプログラム
US9978400B2 (en) 2015-06-11 2018-05-22 Zte Corporation Method and apparatus for frame loss concealment in transform domain
US9837089B2 (en) 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
KR20170000933A (ko) * 2015-06-25 2017-01-04 한국전기연구원 시간 지연 추정을 이용한 풍력 터빈의 피치 제어 시스템
US9830921B2 (en) 2015-08-17 2017-11-28 Qualcomm Incorporated High-band target signal control
KR20180040716A (ko) 2015-09-04 2018-04-20 삼성전자주식회사 음질 향상을 위한 신호 처리방법 및 장치
US9978381B2 (en) * 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals
US10219147B2 (en) 2016-04-07 2019-02-26 Mediatek Inc. Enhanced codec control
US10283143B2 (en) 2016-04-08 2019-05-07 Friday Harbor Llc Estimating pitch of harmonic signals
CN107103908B (zh) * 2017-05-02 2019-12-24 大连民族大学 复调音乐多音高估计方法及伪双谱在多音高估计中的应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003387A (ja) 2007-06-25 2009-01-08 Nippon Telegr & Teleph Corp <Ntt> ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体
JP2017522604A (ja) 2014-07-28 2017-08-10 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 高調波ポストフィルタを使用してオーディオ信号を処理するための装置および方法

Also Published As

Publication number Publication date
CA3082175C (en) 2022-11-01
AU2018363670A1 (en) 2020-05-21
MX2020004786A (es) 2020-08-13
KR102426050B1 (ko) 2022-07-28
CN111566733A (zh) 2020-08-21
RU2742739C1 (ru) 2021-02-10
EP3483886A1 (en) 2019-05-15
AU2018363670B2 (en) 2021-02-18
BR112020009114A2 (pt) 2020-10-13
SG11202004203WA (en) 2020-06-29
US20200273475A1 (en) 2020-08-27
PL3707718T3 (pl) 2022-02-21
CN111566733B (zh) 2023-08-01
WO2019091922A1 (en) 2019-05-16
ZA202002521B (en) 2021-10-27
CA3082175A1 (en) 2019-05-16
TW201923755A (zh) 2019-06-16
EP3707718B1 (en) 2021-10-13
AR114388A1 (es) 2020-09-02
JP2021502596A (ja) 2021-01-28
TWI728277B (zh) 2021-05-21
PT3707718T (pt) 2021-12-27
US11380341B2 (en) 2022-07-05
ES2900058T3 (es) 2022-03-15
KR20200083565A (ko) 2020-07-08
EP3707718A1 (en) 2020-09-16

Similar Documents

Publication Publication Date Title
KR101940740B1 (ko) 시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
KR101981548B1 (ko) 시간 도메인 여기 신호를 기초로 하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
JP6271531B2 (ja) デジタル音声信号における効果的なプレエコー減衰
JP2017526950A (ja) 低遅延符号化/復号のための補間による音声信号のリサンプリング
JP7004474B2 (ja) オーディオ信号の符号化および復号
WO2014040763A1 (en) Generation of comfort noise
JP7079325B2 (ja) ピッチラグの選択
JP2021502609A (ja) 信号フィルタリング

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20200623

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200623

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210602

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210826

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211028

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220520

R150 Certificate of patent or registration of utility model

Ref document number: 7079325

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150