JP2021502596A - ピッチラグの選択 - Google Patents

ピッチラグの選択 Download PDF

Info

Publication number
JP2021502596A
JP2021502596A JP2020524874A JP2020524874A JP2021502596A JP 2021502596 A JP2021502596 A JP 2021502596A JP 2020524874 A JP2020524874 A JP 2020524874A JP 2020524874 A JP2020524874 A JP 2020524874A JP 2021502596 A JP2021502596 A JP 2021502596A
Authority
JP
Japan
Prior art keywords
estimate
correlation
lag
value
estimator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020524874A
Other languages
English (en)
Other versions
JP7079325B2 (ja
Inventor
ラヴェッリ・エマニュエル
ディーツ・マーティン
シュナベル・ミヒャエル
トリサート・アーサー
チェカリンスキー・アレクサンダー
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2021502596A publication Critical patent/JP2021502596A/ja
Application granted granted Critical
Publication of JP7079325B2 publication Critical patent/JP7079325B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3059Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression
    • H03M7/3064Segmenting
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6005Decoder aspects
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6011Encoder aspects

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

ピッチラグを選択するための(たとえば、装置、方法、プログラムにおける)手法が提案されている。複数のフレームを含む情報信号をエンコードするための装置(10、60a、110)。装置は、第1推定値(14、T1)を取得するように構成された第1推定器(11)であって、第1推定値は現在のフレーム(13)のピッチラグの推定値である、第1推定器(11)を備え得る。装置は、第2推定値(16、T2)を取得するように構成された第2推定器(12)であって、第2推定値は現在のフレーム(13)のピッチラグの別の推定値である、第2推定器(12)を備え得る。セレクタ(17)は、第1および第2相関測定値(23、25)に基づいて第1推定値(14、T1)と第2推定値(16、T2)との間で選択を実行することによって、選択値(19、Tbest)を選ぶ(S103)ように構成されている。第2推定器(12)は、現在のフレーム(13)の第2推定値(16、T2)を取得するように前のフレームで選択されたピッチラグ(51、19’’)によって条件付けられてもよい。セレクタ(17)は、現在のフレーム(13)に関連付けられ、第1推定値(14、T1)に対応するラグで取得された第1相関測定値(23)のダウンスケールバージョン(24)と、現在のフレーム(13)に関連付けられ、第2推定値(16、T2)に対応するラグで取得された第2相関測定値(25)との間で比較を実行するように構成され得る。したがって、第2相関測定値(25)が第1相関測定値(23)のダウンスケールバージョン(24)よりも小さいときに第1推定値(14、T1)を選択すること、および/または第2相関測定値(25)が第1相関測定値(23)のダウンスケールバージョン(24)よりも大きいときに第2推定値(16、T2)を選択することが、可能である。第1および第2相関測定値(23、25)のうちの少なくとも1つは、自己相関測定値および/または正規化自己相関測定値であり得る。

Description

たとえば、長期ポストフィルタリングLTPF、エンコードなど、低複雑度ピッチ検出手順を実行することが可能な方法および装置の例が、ここに提供される。
たとえば、例は、たとえばLTPFを実行するための、たとえばオーディオ信号などの情報信号のピッチラグを選択することができる。
1.1.背景
変換ベースのオーディオコーデックは一般に、高調波オーディオ信号を、特に低遅延および低ビットレートで処理するときに、高調波間ノイズを発生させる。この高調波間ノイズは一般に、非常に迷惑なアーチファクトとして知覚され、トーンの高いオーディオ素材で主観的に評価された時の変換ベースのオーディオコーデックの性能を著しく低下させる。
長期ポストフィルタリング(LTPF)は、この高調波間ノイズを低減するのに役立つ変換ベースのオーディオコーディング用のツールである。これは、変換デコードの後に時間領域信号に適用されるポストフィルタに依存する。このポストフィルタは本質的に、ピッチラグおよび利得の2つのパラメータによって制御される櫛形周波数応答を有する無限インパルス応答(IIR)フィルタである。
さらなる堅牢性のため、ポストフィルタパラメータ(ピッチラグおよび/またはフレームあたりの利得)がエンコーダ側で推定され、利得が非ゼロのときにビットストリーム内でエンコードされる。ゼロ利得の場合は1ビットで通知され、信号が高調波部分を含まないときに使用される非アクティブなポストフィルタに対応する。
LTPFは、最初に3GPP EVS規格[1]に導入され、後にMPEG−H 3Dオーディオ規格[2]に統合された。対応する特許は[3]および[4]である。
ピッチ検出アルゴリズムは、フレームごとに1つのピッチラグを推定する。複雑度を低減するために、これは通常、低サンプリングレート(たとえば、6.4kHz)で実行される。理想的には、これは正確で安定した連続的な推定を提供すべきである。
LTPFエンコードに使用されるときには、連続的なピッチ輪郭を有することが最も重要であり、そうでなければLTPFフィルタリングされた出力信号において、いくつかの不安定なアーチファクトが聞こえる可能性がある。真の基本周波数F0を持たないこと(たとえばその倍数を持つことによる)は、重大なアーチファクトではなく、LTPF性能のわずかな劣化をもたらすので、あまり重要ではない。
ピッチ検出アルゴリズムの別の重要な特性は、計算上の複雑度である。低電力デバイスまたは超低電力デバイスさえ対象とするオーディオコーデックに実装されるとき、その計算上の複雑度は可能な限り低くなければならない。
1.2.従来技術
公共領域で見られるLTPFエンコーダの一例がある。これは3GPP EVS規格[1]に記載されている。この実装は、標準仕様のセクション5.1.10に記載されているピッチ検出アルゴリズムを使用している。このピッチ検出アルゴリズムは、非常に安定した連続的なピッチ輪郭を与えるので、優れた性能を有し、LTPFとうまく連携する。しかしながら、その主な欠点は、その比較的高い複雑度である。
これらはLTPFエンコードには決して使用されなかったものの、理論的には他の既存のピッチ検出アルゴリズムがLTPFに使用され得る。一例は、多くの場合最も正確なものの1つとして認識されるピッチ検出アルゴリズムである、YIN[6]である。しかしながら、YINは非常に複雑であり、[1]のものよりも遙かに複雑でさえある。
言及する価値のあるもう1つの例は、3GPP AMR−WB規格[7]で使用されるピッチ検出アルゴリズムであり、これは[1]のものよりも複雑度がはるかに低いが性能もまた悪く、特にあまり安定せず連続しないピッチ輪郭を与える。
従来技術は、以下の開示を備える。
[1]3GPP TS 26.445;Enhanced Voice Services(EVS)用のコーデック;詳細なアルゴリズム記
[2]ISO/IEC23008−3:2015;情報技術――異機種環境における高効率コーディングおよびメディア配信――パート3:3Dオーディ
[3]Ravelliら「高調波ポストフィルタを使用してオーディオ信号を処理するための装置および方法(Apparatus and method for processing an audio signal using a harmonic post−filter)」。米国特許出願第2017/0140769 A1号明細書、2017年5月18日。
[4]Markovicら「高調波フィルタツールの調和性依存制御(Harmonicity−dependent controlling of a harmonic filter tool)」。米国特許出願第2017/0133029 A1号明細書、2017年5月11日。
[5]ITU−T G.718:8−32kbit/sからのスピーチとオーディオの、フレームエラーに強い狭帯域および広帯域埋め込み可変ビットレートコーディング。
[6]De Cheveigne、Alain、およびHideki Kawahara。「YIN、スピーチおよび音楽用の基本周波数推定器(YIN,a fundamental frequency estimator for speech and music)」。The Journal of the Acoustical Society of America 111.4(2002):1917−1930
[7]3GPP TS 26.190;音声コーデック音声処理機能;適応型マルチレート−広帯域(AMR−WB)音声コーデック;トランスコード機能。
しかしながら、ピッチラグ推定を改善しなければならない場合がある。
現在の低複雑度ピッチ検出アルゴリズム([7]のものなど)は、LTPFにとって、特にポリフォニー音楽のような複雑な信号にとって、不十分な性能を有する。ピッチ輪郭は、静止トーンの間であっても非常に不安定になる可能性がある。これは、重み付けされた自己相関関数の極大値間のジャンプによるものである。
米国特許出願第2017/0140769 A1号明細書 米国特許出願第2017/0133029 A1号明細書
De Cheveigne、Alain、およびHideki Kawahara。「YIN、スピーチおよび音楽用の基本周波数推定器(YIN,a fundamental frequency estimator for speech and music)」。The Journal of the Acoustical Society of America 111.4(2002):1917−1930.
したがって、従来技術と同じかまたはより低い複雑度で、複雑な信号によりよく適応するピッチラグ推定を取得する必要性がある。
例によれば、複数のフレームを含む情報信号をエンコードするための装置が提供され、装置は、
第1推定値を取得するように構成された第1推定器であって、第1推定値は現在のフレームのピッチラグの推定値である、第1推定器と、
第2推定値を取得するように構成された第2推定器であって、第2推定値は現在のフレームのピッチラグの別の推定値である、第2推定器と、
第1および第2相関測定値に基づいて第1推定値と第2推定値との間の選択を実行することによって選択値を選ぶように構成されたセレクタと、
を備え、
第2推定器は、現在のフレームの第2推定値を取得するように、前のフレームで選択されたピッチラグによって条件付けられ、
セレクタは、
第2相関測定値が第1相関測定値のダウンスケールバージョンよりも小さいときに第1推定値を選択するように、および/または
第2相関測定値が第1相関測定値のダウンスケールバージョンよりも大きいときに第2推定値を選択するように、
現在のフレームに関連付けられ、第1推定値に対応するラグで取得された第1相関測定値のダウンスケールバージョンと、
現在のフレームに関連付けられ、第2推定値に対応するラグで取得された第2相関測定値と
の間で比較を実行するように構成されており、
第1および第2相関測定値のうちの少なくとも1つは、自己相関測定値および/または正規化自己相関測定値である、
ことを特徴とする。
例によれば、情報信号を、複数のフレームを含むビットストリーム(63)にエンコードするための装置が提供され、装置(60a)は、
第1推定値を取得するように構成された第1推定器であって、第1推定値は現在のフレームのピッチラグの推定値である、第1推定器と、
第2推定値を取得するように構成された第2推定器であって、第2推定値は現在のフレームのピッチラグの別の推定値であり、第2推定器は、現在のフレームの第2推定値を取得するように、前のフレームで選択されたピッチラグによって条件付けられる、第2推定器と、
少なくとも1つの相関測定値に基づいて第1推定値と第2推定値との間の選択を実行することによって選択値を選ぶように構成されたセレクタであって、セレクタは、
第2相関測定値がピッチラグ選択閾値よりも大きいときに第2推定値を選択するように、および/または
第2相関測定値がピッチラグ選択閾値よりも小さいときに第1推定値を選択するように、
現在のフレームに関連付けられ、第2推定値に対応するラグで取得された第2相関測定値と、
ピッチラグ選択閾値と
の間で比較を実行するように構成されている、セレクタと、
デコーダでLTPFを実行するのに有用なデータをエンコードするように構成された長期ポストフィルタリングLTPFツールであって、LTPFを実行するのに有用なデータは選択値を含む、長期ポストフィルタリングLTPFツールと、
を備える検出ユニットを備える。
例によれば、複数のフレームを含む情報信号をエンコードするための装置が提供され、装置は、
第1推定値を取得するように構成された第1推定器であって、第1推定値は現在のフレームのピッチラグの推定値である、第1推定器と、
第2推定値を取得するように構成された第2推定器であって、第2推定値は現在のフレームのピッチラグの別の推定値である、第2推定器と、
少なくとも1つの相関測定値に基づいて第1推定値と第2推定値との間の選択を実行することによって選択値を選ぶように構成されたセレクタと、
を備え、
第2推定器は、現在のフレームの第2推定値を取得するように、前のフレームで選択されたピッチラグによって条件付けられる。
例によれば、セレクタは、
第2相関測定値がピッチラグ選択閾値よりも大きいときに第2推定値を選択するように、および/または
第2相関測定値がピッチラグ選択閾値よりも小さいときに第1推定値を選択するように、
現在のフレームに関連付けられ、第2推定値に対応するラグで取得された第2相関測定値と、
ピッチラグ選択閾値と
の間で比較を実行するように構成されている。
例によれば、セレクタは、
第1相関測定値が少なくとも第2相関測定値よりも大きいときに第1推定値を選択するように、および/または
第1相関測定値が少なくとも第2相関測定値よりも小さいときに第2推定値を選択するように、
現在のフレームに関連付けられ、第1推定値に対応するラグで取得された第1相関測定値と、
現在のフレームに関連付けられ、第2推定値に対応するラグで取得された第2相関測定値と
の間の選択を実行するように構成されている。
例によれば、セレクタは、
第2相関測定値が第1相関測定値のダウンスケールバージョンよりも小さいときに第1推定値を選択するように、および/または
第2相関測定値が第1相関測定値のダウンスケールバージョンよりも大きいときに第2推定値を選択するように、
現在のフレームに関連付けられ、第1推定値に対応するラグで取得された第1相関測定値のダウンスケールバージョンと、
現在のフレームに関連付けられ、第2推定値に対応するラグで取得された第2相関測定値と
の間の選択を実行するように構成されている。
例によれば、第1および第2相関測定値のうちの少なくとも1つは、自己相関測定値および/または正規化自己相関測定値である。
情報信号の表現またはその処理済みバージョンを生成するための変換コーダが実装されてもよい。
例によれば、第2推定器は、
前のフレームのために選択されたピッチラグを含む第2サブインターバル内の第2相関関数を最大化させるラグを検索することによって、第2推定値を取得するように構成されている。
例によれば、第2サブインターバルは、前のフレームのために選択されたピッチラグから所定のラグ数閾値よりも短い距離内のラグを含む。
例によれば、第2推定器は、
第2相関関数値の中の最大値に関連付けられたラグに第2推定値を関連付けるために、第2相関関数値の中の最大値を検索するように構成されている。
例によれば、第1推定器は、
現在のフレームに関連付けられた第1相関関数を最大化させるラグとして第1推定値を取得するように構成されている。
例によれば、第1相関関数は、第1サブインターバル内のラグに制限されている。
例によれば、第1サブインターバルは、第2サブインターバルよりも大きいいくつかのラグを含み、および/または第2サブインターバル内のラグのうちの少なくともいくつかは、第1サブインターバルに含まれる。
例によれば、第1推定器)は、
第1相関関数を最大化させるラグを検索する前に単調に減少する重み関数を使用して第1相関関数の相関測定値を重み付けするように構成されている。
例によれば、第2および第1相関関数のうちの少なくとも1つは、自己相関関数および/または正規化自己相関関数である。
例によれば、第1推定器は、以下の演算のうちの少なくともいくつかを実行することによって第1推定値
を取得するように構成されており、
は重み関数であり、
および
は最小ラグおよび最大ラグに関連付けられており、
は情報信号またはその処理済みバージョンに基づいて推定された自己相関測定値であり、Nはフレーム長である。
例によれば、第2推定器は、
を実行することによって第2推定値
を取得するように構成されており、


は前のフレームで選択された推定値であり、

からの距離であり、
および
は最小ラグおよび最大ラグに関連付けられている。
例によれば、セレクタは、以下の点に関してピッチラグ推定値
の選択を実行するように構成されており、
ここで
は第1推定値、
は第2推定値、
は情報信号またはその処理済みバージョンの値、
はラグ
での長さ
の信号
の正規化相関測定値、
はダウンスケーリング係数である。
例によれば、セレクタの下流に、デコーダ装置における長期ポストフィルタを制御するための長期ポストフィルタリングLTPFツールが提供される。
例によれば、情報信号はオーディオ信号である。
例によれば、装置は、現在のフレームの高調波の測定値として第1相関測定値を、および前のフレームに対して定義されたサブインターバルに制限された現在のフレームの高調波の測定値として第2相関測定値を取得するように構成されている。
例によれば、装置は、重み関数まで同じ相関関数を使用して第1および第2相関測定値を取得するように構成されている。
例によれば、装置は、重み関数までの第1推定値の正規化バージョンとして第1相関測定値を取得するように構成されている。
例によれば、装置は、第2推定値の正規化バージョンとして第2相関測定値を取得するように構成されている。
例によれば、エンコーダ側およびデコーダ側を備えるシステムが提供され、エンコーダ側は上記の通りであり、デコーダ側は、セレクタによって選択されたピッチラグ推定値に基づいて制御される長期ポストフィルタリングツールを備える。
例によれば、フレームに分割された信号のピッチラグを決定する方法であって、
現在のフレームの第1推定を実行するステップと、
現在のフレームの第2推定を実行するステップと、
少なくとも1つの相関測定値に基づいて、第1推定で取得された第1推定値と第2推定で取得された第2推定値との間で選択するステップと
を備え、
第2推定を実行するステップは、前のフレームで実行された選択ステップの結果に基づいて取得される、方法が提供される。
例によれば、方法は、長期ポストフィルタリングLTPFのために選択されたラグを使用するステップを備えてもよい。
例によれば、方法は、パケット損失隠蔽PLCのために選択されたラグを使用するステップを備えてもよい。
例によれば、フレームに分割された信号のピッチラグを決定する方法であって、
現在のフレームの第1推定を実行するステップと、
現在のフレームの第2推定を実行するステップと、
相関測定値に基づいて、第1推定で取得された第1推定値と第2推定で取得された第2推定値との間で選択するステップと、
を備え、
第2推定を実行するステップは、前のフレームで実行された選択ステップの結果に基づいて取得され、
選択ステップは、
現在のフレームに関連付けられ、第1推定値に対応するラグで取得された第1相関測定値のダウンスケールバージョンと、
現在のフレームに関連付けられ、第2推定値に対応するラグで取得された第2相関測定値と
の間で比較を実行するステップと、
第2相関測定値が第1相関測定値のダウンスケールバージョンよりも小さいときに第1推定値を選択し、および/または第2相関測定値が第1相関測定値のダウンスケールバージョンよりも大きいときに第2推定値を選択するステップと、を備え、
第1および第2相関測定値のうちの少なくとも1つは自己相関測定値および/または正規化自己相関測定値であることを特徴とする、方法が提供される。
例によれば、フレームに分割された信号のためにビットストリームをエンコードする方法であって、
現在のフレームの第1推定を実行するステップと、
現在のフレームの第2推定を実行するステップと、
少なくとも1つの相関測定値に基づいて、第1推定で取得された第1推定値と第2推定で取得された第2推定値との間で選択するステップと
を備え、
第2推定を実行するステップは、前のフレームで実行された選択ステップの結果に基づいて取得され、
選択ステップは、
現在のフレームに関連付けられ、第2推定値に対応するラグで取得された第2相関測定値と、
ピッチラグ選択閾値と
の間で比較を実行するステップと、
第2相関測定値がピッチラグ選択閾値よりも大きいときに第2推定値を選択し、および/または第2相関測定値がピッチラグ選択式位置よりも小さいときに第1推定値を選択するステップと、を備え、
方法は、選択値を用いてデコーダでLTPFを実行するのに有用なデータをエンコードするステップをさらに備える、方法が提供される。
例によれば、プロセッサによって実行されると、上記または下記の方法のいずれかをプロセッサに実行させる命令を備えるプログラムが提供される。
例による装置を示す図である。 例による方法を示す図である。 例による装置を示す図である。 例による方法を示す図である。 例による方法を示す図である。 相関関数の図である。 相関関数の図である。 相関関数の図である。 相関関数の図である。 相関関数の図である。 本発明によるシステムを示す図である。 本発明による装置を示す図である。 本発明による装置を示す図である。 デコーダでの動作の例を示す図である。
5.選択および推定の例
たとえばLTPFエンコードおよび/またはデコードのための、低複雑度ピッチ検出手順、システム、および装置の例が開示される。
情報信号は、異なる離散時刻(n)で獲得された連続するサンプル(たとえば、x(n))として、時間領域TDに記述され得る。TD表現は、各々が複数のサンプルに関連付けられた、複数のフレームを備えてもよい。フレームは、現在のフレームが後続のフレームよりも時間的に前であって前のフレームよりも時間的に後になるように、連続して次々に見られることがある。前のフレームに対して実行された動作が現在のフレームに繰り返されるように、反復的に動作することが可能である。
現在のフレームに関連付けられた反復の間、前のフレームに関連付けられた前の反復で実行された選択によって条件付けられた、少なくともいくつかの動作(たとえば、第2推定値)を実行することが可能である。したがって、たとえば長期ポストフィルタリング(LTPF)を実行するためにデコーダによって使用されるピッチラグを選択するために、前のフレームでの信号の履歴が考慮される。
5.1 例による一般的な構造および関数
図1aは、情報信号をエンコードするための装置10の一部を示す。装置10は、現在のフレーム13の第1推定値14(T)を取得するための第1推定プロセスを実行するように構成された第1推定器11を備え得る。装置10は、現在のフレーム13)の第2推定値16(T)を取得するための第2推定プロセスを実行するように構成された第2推定器12を備え得る。装置10は、少なくとも1つの相関測定値に基づいて第1推定値14と第2推定値16との間の選択18を実行するように構成されたセレクタ17を備え得る(スイッチ17aによって表される要素は、要素17によって制御される)。出力(最終)推定値19(Tbest)は、第1推定値14と第2推定値16との間で選ばれ、たとえばLTPFを実行するために、たとえばデコーダに提供され得る。出力(最終)推定値19は、LTPFのピッチラグとして使用される。
最終推定値(選択値)19はまた、レジスタ19’に入力されて、後続のフレームに対して反復を実行するときに、先に行われた選択に関する第2推定器12への入力19’’(Tprev)として使用されてもよい。各フレーム13について、第2推定器12は、前のフレームの前の最終推定値19’’に基づいて第2推定値16を取得する。
図1bは、フレームに分割された信号の(たとえば、LPTFに使用される最終ピッチラグを決定する)方法100を示す。方法は、ステップS101において、現在のフレームの第1推定(ピッチラグ推定)を実行するステップを備える。方法は、ステップS102において、現在のフレームの第2推定を実行するステップを備え、第2推定は、前のフレームで行われた選択に基づく(たとえば、前のフレームでLTPFのために選ばれた最終ピッチラグ)。方法は、ステップS103において、少なくとも1つの相関測定値に基づいて第1推定値14と第2推定値16との間で選択するステップを備える。
続いて、ステップS104において、フレームが更新され、「現在のフレーム」であったフレームは「前のフレーム」になり、新しい(後続の)フレームが新しい「現在のフレーム」になる。更新の後、方法は反復されてもよい。
図2は、情報信号をエンコードするための(図1aと同じであってもよい)装置10の一部を示す。セレクタ17において、第1測定器21は、現在のフレーム13(たとえば、第1推定値Tの正規化自己相関)に関連付けられた第1相関(たとえば、正規化相関)23を測定し得る。第2測定器22は、現在のフレーム13(たとえば、第2推定値Tの正規化自己相関)に関連付けられた第2相関(たとえば、正規化相関)25を測定し得る。第1の正規化相関23は、スケーラ26において、たとえば0.8から0.9の間、より具体的には0.84から0.86の間の値であってもよく、0.85であってもよい所定値αだけ、ダウンスケールされ得る。現在のフレーム13に関連付けられた第2相関(たとえば、正規化相関)25は、たとえば、スケーリングされた第1相関24と比較され得る(例では、スケーラ26はオプションであり、第1相関はスケーリングされない)。第1推定値14(T)と第2推定値16(T)との間の選択18は、比較器27で実行された比較に基づく。第2相関25がスケーリングされた第1相関24よりも大きいとき、第2推定値16は、デコーダに提供される(たとえば、LTPFのピッチラグとして使用される)選択された出力推定値19(Tbest=T)としてのピッチラグ情報として選ばれる。第2相関25がスケーリングされた第1相関24よりも小さいとき、第1推定値14(T)は、デコーダに提供されるピッチラグ情報19(Tbest=T)として選ばれる。
5.2 第1推定
例において、現在のフレーム13に基づいて第1推定値14を提供するために使用され得る第1推定器11の動作が、ここで論じられる。方法30が、図3に示されている。
ステップ1.第1段の再サンプリング(ステップS31)
サンプリングレート
での入力信号
は、より低いサンプリングレート
(たとえば、
)に再サンプリングされる。再サンプリングは、たとえば、古典的なアップサンプリング+ローパス+ダウンサンプリングアプローチを使用して実施され得る。本ステップは、いくつかの例ではオプションである。
ステップ2.ハイパスフィルタリング(ステップS21)
次に、再サンプリングされた信号は、たとえば50Hzで3dBカットオフの2次IIRフィルタを使用して、ハイパスフィルタリングされる。得られた信号は、
で示される。本ステップは、いくつかの例ではオプションである。
ステップ3.第2段の再サンプリング(ステップS33)
信号
は、たとえば4次FIRローパスフィルタとこれに続くデシメータを使用して、2の倍数でさらにダウンサンプリングされる。サンプリングレート
(たとえば
)で得られた信号は、
で示される。本ステップは、いくつかの例ではオプションである。
ステップ4.自己相関計算(ステップS34)
自己相関プロセスが実行され得る。たとえば、自己相関は
に対して、
によって処理でき、
はフレームサイズである。
および
は、ピッチラグを引き出すための最小値および最大値である(たとえば
および
)。したがって、
および
は、第1推定値(現在のフレームのピッチラグ)が見つかる最初のインターバルの極値を構成し得る。
ステップ5.自己相関重み付け(ステップS35)
より低いピッチラグを強調するために自己相関が重み付けされてもよい。
ここで
は、たとえば
で与えられる減少関数(たとえば、単調減少関数)である。
ステップ6.第1推定(ステップS36)
第1推定値
は、重み付けされた自己相関を最大化させる値である。
第1推定値
は、第1推定器11の出力14として提供され得る。これは、本フレームのピッチラグの推定値であり得る。
(またはその重み付けバージョン
)は、その最大値が第1のピッチラグ推定値14(T)に関連付けられた第1相関関数の一例である。
5.3 第2推定
例において、現在のフレーム13および前に選択(出力)された推定値19’’(前のフレームのために取得されたピッチラグ)に基づいて第2推定値16を提供するために使用され得る第2推定器12の動作(および/またはステップS102)が、ここで論じられる。方法40が、図4に示されている。第2推定値16は、第1推定値14とは異なってもよい。さらに、推定ピッチラグは、いくつかの例では、前に推定されたピッチラグとは異なる場合がある。
図5を参照すると、例によれば、ステップS41において、検索は、特定の第2サブインターバル52内にある、制限されたラグのグループに制限される。検索は、(前の)選択値19’’に対応するラグ51に基づく。検索は、第2サブインターバル52において、値δ内のラグに制限される(たとえば、2、3、4、5、6、7、8、9、10または他の正の自然数から選ばれてもよく、いくつかの例では、δは、フレームがN個のサンプルを有する場合にδがNの1%から30%、特に15%から25%の間のパーセンテージとなるような、フレームの長さのパーセンテージであってもよい)。δは、所定のラグ数閾値、または所定のパーセンテージであり得る。
例によれば、ステップS42において、サブインターバル52内の自己相関値が、たとえば第2測定器22によって計算される。
例によれば、ステップS42において、自己相関の結果の中の最大値が引き出される。第2推定値
は、前の選択値19’’を中心とする第2サブインターバル内のラグの中の現在のフレームのピッチラグの近傍の自己相関を最大化させる値であり、たとえば、
ここで
は(セレクタ17によって)前に選択された最終ピッチラグ51(19’’)であり、
はサブインターバル52を定義する定数(たとえば、
)である。値
は、第2推定器12の出力16として提供され得る。
とりわけ、第1推定値14および第2推定値16は、互いに大きく異なり得る。
(ここでその領域はTprev−δとTprev+δとの間に制限される)は、その最大値が第2のピッチラグ推定値16(T)に関連付けられた第2相関関数の例である。
5.4 第1および第2相関測定値
第1測定器21および/または第2測定器22は、相関測定を実行し得る。第1測定器21および/または第2測定器22は、自己相関測定を実行し得る。相関および/または自己相関測定値は正規化され得る。ここで一例が示される。
は、ピッチラグ
での信号
の正規化相関であってもよい。
したがって、第1相関測定値23はnormcorr(T)であってもよく、ここでTは第1推定値14であり、第2相関測定値25はnormcorr(T)であってもよく、ここでTは第2推定値16である。
とりわけ、第1相関測定値23はR(T)(またはR(T))の正規化された値であり、第2相関測定値25はR(T)の正規化された値である。
5.5 閾値との比較
これで、選択を実行するために相関を比較する方法の例を示すことができる。例として、以下の式によって提供される。
は、ピッチラグ選択閾値24として見られる。
の場合、セレクタは
を選び、そうでなければセレクタは
を選ぶ。したがって、値
(またはこれに関連付けられた情報)は、選択された出力値19(TまたはTのいずれかとして)であり、(たとえば、LTPFのために)デコーダに提供されてもよく、これは、第2推定値16を取得するために第2推定器12によって、19’’として使用される。
5.6 方法40
方法30に関連付けられた方法40は、方法30のみに基づく手法に対して性能を向上させる。
複雑度がわずかに加わるが、ピッチ輪郭をより安定的および連続的にすることで、性能を著しく向上させることができる。
方法40は、自己相関関数の第2の最大値を見つける。これは方法30のような全域的最大値ではなく、前のフレームのピッチラグの近傍の局所的最大値である。この第2のピッチラグは、選択された場合、平滑で連続的なピッチ輪郭を生成する。しかしながら、すべての場合にこの第2のピッチラグを選択するわけではない。たとえば、基本周波数に予想される変化がある場合は、全域的最大値を維持する方がよい。
最後の選択は、方法30で見つかる第1のピッチラグ
(14)を選択するか方法40で見つかる第2のピッチラグ
(16)を選択するかである。この判断は、周期性の尺度に基づいている。周期性の尺度として、正規化相関を選ぶ。信号が完全に周期的な場合は1、非周期的な場合は0である。次に、その対応する正規化相関が、パラメータ
によってスケーリングされた第1のピッチラグ
よりも高い場合に、第2のピッチラグ
が選ばれる。このパラメータ
は、その正規化相関が第1のピッチラグ
(14)の正規化相関よりもわずかに低いときでも
を選択すること(16)によって、判断をさらに円滑にする。
5.7 手法の検討
図5(1)〜図5(4)を参照する。
第1推定の例が、図5(1)に示されている。自己相関関数の最大値に対応するピッチラグが選択されている。
これは、(何らかの所与のピッチを有する)高調波信号の自己相関がピッチラグおよびこのピッチラグのすべての倍数の位置にピークを含むという事実に基づいている。
ピッチラグの倍数に対応するピークを選択するのを回避するために、図5(2)のように自己相関関数が重み付けされ、より高いピッチラグを強調しないようにする。これはたとえば[7]で使用される。
その後、重み付けされた自己相関の全域的最大値は、信号のピッチラグに対応すると見なされる。
一般に、単独で行われた第1推定は問題なく機能する。これにより、ほとんどのフレームに正確なピッチを与える。
第1推定は、自己相関関数(第1サブインターバル)のラグの数が比較的少ない場合に複雑度が比較的低いという利点も有する。
図5(1)は、入力信号の(非重み付け)自己相関を示す。
5つのピークがあり、最初のピーク53はピッチラグに対応し、他のものはこのピッチラグの倍数53’に対応する。
(非重み付け)自己相関の全域的最大値を取ることで、この場合は誤ったピッチラグを与えることになる。その倍数、この場合は正しいピッチラグの4倍を選ぶ。
しかしながら、重み付けされた自己相関の全域的最大値(図5(2))は正しいピッチラグである。
第1推定は、機能する場合もある。しかしながら、不安定な推定値を生成する場合もある。
このようなケースの1つは、ピッチの異なるいくつかのトーンの混合を含むポリフォニー音楽信号である。この場合、マルチピッチ信号から単一のピッチを抽出することは困難である。その場合、第1推定器11は、1つのフレームにおいてトーンのうちの1つのピッチ(またはおそらくその倍数)を推定し、次のフレームではおそらく別のトーンのピッチ(またはその倍数)を推定することができるだろう。したがって、信号が安定していたとしても(異なるトーンのピッチがフレーム間で変化しなくても)、第1推定によって検出されたピッチは不安定になり得る(ピッチはフレーム間で著しく変化する)。
この不安定な挙動は、LTPFの主要な問題である。LTPFにピッチが使用されるときには、連続的なピッチ輪郭を有することが最も重要であり、そうでなければLTPFフィルタリングされた出力信号において、いくつかのアーチファクトが聞こえる可能性がある。
図5(3)および図5(4)は、この問題を示している。
図5(3)は、安定したマルチピッチ信号のフレームにおける重み付けされた自己相関およびその最大値を示している。ピッチラグ19’’は、ピーク54に対応して“20”において正しく引き出される。
図5(4)は、後続のフレームの同じものを示している。
この場合、最初の3つのピーク54’、54’’、および54’’’は、非常に近い振幅を有する。したがって、2つの連続するフレーム間の非常にわずかな変化でも、全域的最大値および推定ピッチラグを著しく変化させる可能性がある。
本発明で採用された解決策は、これらの不安定性の問題を解決する。
本解決策は、フレーム内のピークに関連付けられたピッチラグの他に、前のフレームのピッチラグに近いピッチラグを選択する。
たとえば、図5(3)は前のフレームに対応し、図5(4)は現在のフレームに対応する。我々は、現在のフレーム内で、20前後のピッチラグ(すなわち、前のフレームのピッチラグ19’’またはTprev)を選択し、第1推定器11によって与えられた40のピッチラグは選択しないことが望ましいかどうかを検証しようとしている。
そうするために、前のフレームのピッチラグである、サブインターバル52の周りで自己相関関数を最大化させる第2のピッチラグTを推定することにより(Tprev−δ、Tprev+δ)、(たとえば、第2推定器12によって)第2推定が実行される。図5(4)の場合、この第2のピッチラグTは20である(第1のピッチラグは40である)。(この場合にT=Tprevであっても、これは生成規則ではない。一般に、Tprev−δ≦T≦Tprev+δである)。とりわけ、例では、Tを推定するために、自己相関は重み付けされない。
しかしながら、すべてのケースでこの第2のピッチラグTを選択したくはない。いくつかの基準に基づいて、第1のピッチラグTまたは第2のピッチラグTのいずれかを選択したい。この基準は、たとえばセレクタ17によって測定された、正規化相関(NC)に基づいており、これは一般に、何らかの特定のピッチラグでの信号がどのくらい周期的かの優れた尺度と見なされる(0のNCは全く周期的でないことを意味し、1のNCは完全に周期的であることを意味する)。
次に、いくつかのケースがある。
第2推定値TのNCが第1推定値TのNCよりも高い場合:第2推定値Tの方が優れたNCを有し(前のフレームのピッチと現在のフレームのピッチは非常に近い)、安定した判断を行うので、第1推定値Tよりも第2推定値Tの方が優れていると確信することができ、したがって安全にこれを選択することができる。
第2推定値TのNCが第1推定値のNCよりもはるかに低い場合:これは、前のフレームのピッチ19’’が現在のフレームのいずれの周期性にも対応せず、信号は不安定であり、ピッチは変化していることを示しており、したがって、前のフレームのピッチ19’’を維持することも安定した判断を行おうとすることも、意味をなさない。その場合、第2推定値Tは無視され、第1推定値Tが選択される。
第2推定値TのNCが第1推定値TのNCよりもわずかに低い場合:両方の推定値TおよびTのNCは近く、その場合、NCがわずかに劣っていても、安定した判断を生み出す推定値(すなわち、第2推定値T)を選びたい。これにより、NCがわずかに劣っていても第2推定値Tを選択できるようにする。その場合、パラメータα(α<1)が使用される。このパラメータαの調整によって、第1推定値Tまたは第2推定値Tに向けて選択を偏らせることができるようになる。値が低いほど、第2推定値がより頻繁に選択される(=判断がより安定する)ことを意味する。0.85(または0.8から0.9の間の値)は、適切なトレードオフである。これにより、判断がLTPFにとって十分に安定するように、十分な頻度で第2推定値Tを選択する。
第1推定(第2推定および選択)に加えて提供される追加のステップは、複雑度が非常に低い。したがって、提案される発明の複雑度は低い。
6.エンコード/デコードシステムの例
図6は、エンコード/デコードの動作に関するブロックスキームを示す。スキームは、(装置10を備え得る)エンコーダ60aおよびデコーダ60bを備えるシステム60を示す。エンコーダ60aは、(オーディオ信号であってもよい、および/または現在のフレーム13と前のフレームなどのフレーム間で分割され得る)入力情報信号61を取得し、ビットストリーム63を準備する。デコーダ60bは、出力信号68(たとえば、オーディオ信号)を生成するために(たとえばBluetoothを使用するなど、たとえば無線で)ビットストリーム63を取得する。
エンコーダ60aは、変換コーダ62を使用して、情報信号61の周波数領域表現63a(またはその処理済みバージョン)を生成し、これをビットストリーム63でデコーダ60bに提供し得る。デコーダ60bは、出力信号64aを取得するための変換デコーダを備え得る。
エンコーダ60aは、検出ユニット65を使用して、デコーダ60bでLTPFを実行するのに有用なデータを生成し得る。これらのデータは、ピッチラグ推定値(たとえば、19)および/または利得情報を備えてもよい。これらのデータは、制御フィールド内のデータ63bとして、ビットストリーム63にエンコードされ得る。(ピッチラグの最終推定値19を備え得る)データ63bは、(いくつかの例ではデータ63bをエンコードするか否かを判断し得る)LTPFコーダ66によって準備され得る。これらのデータは、出力信号68を取得するために変換デコーダ64からの出力信号64aにこれらを適用し得るLTPFデコーダ67によって使用されてもよい。
7.たとえばLTPFの例
7.1 エンコーダでのパラメータ(たとえば、LTPFパラメータ)
LTPFパラメータ(または別のタイプのパラメータ)の計算の例が、ここに提供される。
LTPFの情報を準備する例が、次のサブセクションに提供される。
7.2.1.再サンプリン
(オプションの)再サンプリング手法の例が、ここで論じられる(他の手法が使用されてもよい)。
サンプリングレート
の入力信号は、12.8kHzの固定サンプリングレートに再サンプリングされ得る。再サンプリングは、以下のように定式化され得るアップサンプリング+ローパスフィルタリング+ダウンサンプリングアプローチを使用して実行される。

ここで、
は(整数に切り捨てられた)トラック値を示し、
は入力信号であり、
は12.8kHzで再サンプリングされた信号であり、
はアップサンプリング係数であり、
は以下によって与えられるFIRローパスフィルタのインパルス応答である。
tab_resamp_filterの例が、以下の表に示される。
double tab_resamp_filter[239] = {
-2.043055832879108e-05, -4.463458936757081e-05, -7.163663994481459e-05,
-1.001011132655914e-04, -1.283728480660395e-04, -1.545438297704662e-04,
-1.765445671257668e-04, -1.922569599584802e-04, -1.996438192500382e-04,
-1.968886856400547e-04, -1.825383318834690e-04, -1.556394266046803e-04,
-1.158603651792638e-04, -6.358930335348977e-05, +2.810064795067786e-19,
+7.292180213001337e-05, +1.523970757644272e-04, +2.349207769898906e-04,
+3.163786496265269e-04, +3.922117380894736e-04, +4.576238491064392e-04,
+5.078242936704864e-04, +5.382955231045915e-04, +5.450729176175875e-04,
+5.250221548270982e-04, +4.760984242947349e-04, +3.975713799264791e-04,
+2.902002172907180e-04, +1.563446669975615e-04, -5.818801416923580e-19,
-1.732527127898052e-04, -3.563859653300760e-04, -5.411552308801147e-04,
-7.184140229675020e-04, -8.785052315963854e-04, -1.011714513697282e-03,
-1.108767055632304e-03, -1.161345220483996e-03, -1.162601694464620e-03,
-1.107640974148221e-03, -9.939415631563015e-04, -8.216921898513225e-04,
-5.940177657925908e-04, -3.170746535382728e-04, +9.746950818779534e-19,
+3.452937604228947e-04, +7.044808705458705e-04, +1.061334465662964e-03,
+1.398374734488549e-03, +1.697630799350524e-03, +1.941486748731660e-03,
+2.113575906669355e-03, +2.199682452179964e-03, +2.188606246517629e-03,
+2.072945458973295e-03, +1.849752491313908e-03, +1.521021876908738e-03,
+1.093974255016849e-03, +5.811080624426164e-04, -1.422482656398999e-18,
-6.271537303228204e-04, -1.274251404913447e-03, -1.912238389850182e-03,
-2.510269249380764e-03, -3.037038298629825e-03, -3.462226871101535e-03,
-3.758006719596473e-03, -3.900532466948409e-03, -3.871352309895838e-03,
-3.658665583679722e-03, -3.258358512646846e-03, -2.674755551508349e-03,
-1.921033054368456e-03, -1.019254326838640e-03, +1.869623690895593e-18,
+1.098415446732263e-03, +2.231131973532823e-03, +3.348309272768835e-03,
+4.397022774386510e-03, +5.323426722644900e-03, +6.075105310368700e-03,
+6.603520247552113e-03, +6.866453987193027e-03, +6.830342695906946e-03,
+6.472392343549424e-03, +5.782375213956374e-03, +4.764012726389739e-03,
+3.435863514113467e-03, +1.831652835406657e-03, -2.251898372838663e-18,
-1.996476188279370e-03, -4.082668858919100e-03, -6.173080374929424e-03,
-8.174448945974208e-03, -9.988823864332691e-03, -1.151698705819990e-02,
-1.266210056063963e-02, -1.333344579518481e-02, -1.345011199343934e-02,
-1.294448809639154e-02, -1.176541543002924e-02, -9.880867320401294e-03,
-7.280036402392082e-03, -3.974730209151807e-03, +2.509617777250391e-18,
+4.586044219717467e-03, +9.703248998383679e-03, +1.525124770818010e-02,
+2.111205854013017e-02, +2.715337236094137e-02, +3.323242450843114e-02,
+3.920032029020130e-02, +4.490666443426786e-02, +5.020433088017846e-02,
+5.495420172681558e-02, +5.902970324375908e-02, +6.232097270672976e-02,
+6.473850225260731e-02, +6.621612450840858e-02, +6.671322871619612e-02,
+6.621612450840858e-02, +6.473850225260731e-02, +6.232097270672976e-02,
+5.902970324375908e-02, +5.495420172681558e-02, +5.020433088017846e-02,
+4.490666443426786e-02, +3.920032029020130e-02, +3.323242450843114e-02,
+2.715337236094137e-02, +2.111205854013017e-02, +1.525124770818010e-02,
+9.703248998383679e-03, +4.586044219717467e-03, +2.509617777250391e-18,
-3.974730209151807e-03, -7.280036402392082e-03, -9.880867320401294e-03,
-1.176541543002924e-02, -1.294448809639154e-02, -1.345011199343934e-02,
-1.333344579518481e-02, -1.266210056063963e-02, -1.151698705819990e-02,
-9.988823864332691e-03, -8.174448945974208e-03, -6.173080374929424e-03,
-4.082668858919100e-03, -1.996476188279370e-03, -2.251898372838663e-18,
+1.831652835406657e-03, +3.435863514113467e-03, +4.764012726389739e-03,
+5.782375213956374e-03, +6.472392343549424e-03, +6.830342695906946e-03,
+6.866453987193027e-03, +6.603520247552113e-03, +6.075105310368700e-03,
+5.323426722644900e-03, +4.397022774386510e-03, +3.348309272768835e-03,
+2.231131973532823e-03, +1.098415446732263e-03, +1.869623690895593e-18,
-1.019254326838640e-03, -1.921033054368456e-03, -2.674755551508349e-03,
-3.258358512646846e-03, -3.658665583679722e-03, -3.871352309895838e-03,
-3.900532466948409e-03, -3.758006719596473e-03, -3.462226871101535e-03,
-3.037038298629825e-03, -2.510269249380764e-03, -1.912238389850182e-03,
-1.274251404913447e-03, -6.271537303228204e-04, -1.422482656398999e-18,
+5.811080624426164e-04, +1.093974255016849e-03, +1.521021876908738e-03,
+1.849752491313908e-03, +2.072945458973295e-03, +2.188606246517629e-03,
+2.199682452179964e-03, +2.113575906669355e-03, +1.941486748731660e-03,
+1.697630799350524e-03, +1.398374734488549e-03, +1.061334465662964e-03,
+7.044808705458705e-04, +3.452937604228947e-04, +9.746950818779534e-19,
-3.170746535382728e-04, -5.940177657925908e-04, -8.216921898513225e-04,
-9.939415631563015e-04, -1.107640974148221e-03, -1.162601694464620e-03,
-1.161345220483996e-03, -1.108767055632304e-03, -1.011714513697282e-03,
-8.785052315963854e-04, -7.184140229675020e-04, -5.411552308801147e-04,
-3.563859653300760e-04, -1.732527127898052e-04, -5.818801416923580e-19,
+1.563446669975615e-04, +2.902002172907180e-04, +3.975713799264791e-04,
+4.760984242947349e-04, +5.250221548270982e-04, +5.450729176175875e-04,
+5.382955231045915e-04, +5.078242936704864e-04, +4.576238491064392e-04,
+3.922117380894736e-04, +3.163786496265269e-04, +2.349207769898906e-04,
+1.523970757644272e-04, +7.292180213001337e-05, +2.810064795067786e-19,
-6.358930335348977e-05, -1.158603651792638e-04, -1.556394266046803e-04,
-1.825383318834690e-04, -1.968886856400547e-04, -1.996438192500382e-04,
-1.922569599584802e-04, -1.765445671257668e-04, -1.545438297704662e-04,
-1.283728480660395e-04, -1.001011132655914e-04, -7.163663994481459e-05,
-4.463458936757081e-05, -2.043055832879108e-05};
7.2.2.ハイパスフィルタリン
(オプションの)ハイパスフィルタ手法の例が、ここで論じられる(他の手法が使用されてもよい)。
再サンプリングされた信号は、伝達関数が以下のようになる2次IIRフィルタを使用して、ハイパスフィルタリングされ得る。
7.2.3.ピッチ検出
ピッチ検出手法の例が、ここで論じられる(他の手法が使用されてもよい)。
信号
は、以下を用いて2の倍数によって(オプションで)ダウンサンプリングされ得る。
ここで、
={0.1236796411180537、0.2353512128364889、0.2819382920909148、0.2353512128364889、0.1236796411180537}。
の自己相関は、
によって計算でき、ここで
および
は、第1サブインターバルを定義する最小ラグおよび最大ラグである(
および
には他の値が提供されてもよい)。
自己相関は、
を使用して重み付けされてもよく、ここで
は以下のように定義される。
ピッチラグ
の第1推定値14は、以下のように重み付けされた自己相関を最大化させるラグであり得る。
ピッチラグ
の第2推定値16は、以下のように前のフレームで推定されたピッチラグ(19’’)の近傍の重み付けされていない自己相関を最大化させるラグであり得る。
ここで

、および
は前のフレームで推定された最終ピッチラグ(したがって前に選択されたピッチラグによって条件付けられたその選択)である。
次に、現在のフレーム13のピッチラグの最終推定値19は
によって与えられ、ここで
は、ラグ
での長さ
の信号
の正規化相関である。
各正規化相関23または25は、信号第1または第2測定器21または22によって得られた測定値のうちの少なくとも1つであり得る。
7.2.4.LTPFビットストリーム
いくつかの例では、LTPFビットストリームの最初のビットは、ビットストリーム内のピッチラグパラメータの存在を通知する。これは以下によって得られる。
(0.6の代わりに、たとえば0.4から0.8、0.5から0.7、または0.55から0.65の間など、異なる閾値が使用され得る。)
pitch_presentが0の場合、これ以上のビットはエンコードされず、1ビットのみのLTPFビットストリームになる。
pitch_presentが1の場合、もう2つのパラメータがエンコードされ、1つのピッチラグパラメータは9ビットでエンコードされ、1ビットはLTPFのアクティブ化を通知する。その場合、LTPFビットストリームは11ビットで構成される。
7.2.5.LTPFピッチラグパラメータ
LTPFピッチラグパラメータを取得する例が、ここで論じられる(他の手法が使用されてもよい)。
LTPFピッチラグパラメータの整数部分は
によって与えられ、ここで
および

である。
次に、LTPFピッチラグの小数部分は
によって与えられ、ここで
であり、

で与えられるFIRローパスフィルタのインパルス応答であり、
はたとえば、
double tab_ltpf_interp_R[31] = {
-2.874561161519444e-03, -3.001251025861499e-03, +2.745471654059321e-03
+1.535727698935322e-02, +2.868234046665657e-02, +2.950385026557377e-02
+4.598334491135473e-03, -4.729632459043440e-02, -1.058359163062837e-01
-1.303050213607112e-01, -7.544046357555201e-02, +8.357885725250529e-02
+3.301825710764459e-01, +6.032970076366158e-01, +8.174886856243178e-01
+8.986382851273982e-01, +8.174886856243178e-01, +6.032970076366158e-01
+3.301825710764459e-01, +8.357885725250529e-02, -7.544046357555201e-02
-1.303050213607112e-01, -1.058359163062837e-01, -4.729632459043440e-02
+4.598334491135473e-03, +2.950385026557377e-02, +2.868234046665657e-02
+1.535727698935322e-02, +2.745471654059321e-03, -3.001251025861499e-03
-2.874561161519444e-03};
の場合には、
および
の両方とも
にしたがって修正される。
最後に、ピッチラグパラメータインデックスは、
によって与えられる。
7.2.6.LTPFアクティブ化ビット
正規化相関は、最初に以下のように計算される。
ここで
そして

で与えられるFIRローパスフィルタのインパルス応答であり、ここで
は以下によって与えられる。
double tab_ltpf_interp_x12k8[15] = {
+6.698858366939680e-03, +3.967114782344967e-02, +1.069991860896389e-01
+2.098804630681809e-01, +3.356906254147840e-01, +4.592209296082350e-01
+5.500750019177116e-01, +5.835275754221211e-01, +5.500750019177116e-01
+4.592209296082350e-01, +3.356906254147840e-01, +2.098804630681809e-01
+1.069991860896389e-01, +3.967114782344967e-02, +6.698858366939680e-03};
次に、LTPFアクティブ化ビットが以下のように設定される。
if
(mem_ltpf_active==0&&mem_nc>0.94&&nc>0.94)|
(mem_ltpf_active==1&&nc>0.9)|
(mem_ltpf_active==1&&abs(pitch−mem_pitch)<2&&(nc−mem_nc)>−0.1&&nc>0.84)


ltpf_active=1;

else

ltpf_active=0;
ここで、mem_ltpf_activeは前のフレームのltpf_activeの値(前のフレームでpitch_present=0の場合は0)、mem_ncは前のフレームのncの値(前のフレームでpitch_present=0の場合は0)、pitch=pitch_int+pitch_fr/4およびmem_pitchは前のフレームのピッチの値(前のフレームでpitch_present=0の場合は0)である。
7.3 デコーダでのLTPF
たとえば、MDCT(変形離散コサイン変換)合成、MDST(変形離散サイン変換)合成、または別の変換に基づく合成の後の、周波数領域(FD)内のデコード済み信号は、そのパラメータがLTPFビットストリームデータ「pitch_index」および「ltpf_active」に依存し得るIIRフィルタを使用して、時間領域内でポストフィルタリングされ得る。パラメータがフレーム間で変化するときの不連続性を回避するために、現在のフレームの最初の4分の1に対して遷移メカニズムが適用され得る。
例では、
を使用してLTPF IIRフィルタが実装されてもよく、ここで
はフィルタ入力信号(すなわち、MDCT合成後のデコード済み信号)であり、
はフィルタ出力信号である。
LTPFピッチラグの整数部分
および小数部分
は、以下のように計算され得る。まず、12.8kHzでのピッチラグが、



を使用して引き出される。
次に、ピッチラグは出力サンプリングレート
に合わせてスケーリングされ、
を使用して整数部分および小数部分に変換されてもよく、ここで
はサンプリングレートである。
フィルタ係数
および
は、以下のように計算され得る。
ここで
そして
および
は以下にしたがって取得され得る。
fs_idx = min(4,(
/8000-1));
if (nbits < 320 + fs_idx*80)
{
gain_ltpf = 0.4;
gain_ind = 0;
}
else if (nbits < 400 + fs_idx*80)
{
gain_ltpf = 0.35;
gain_ind = 1;
}
else if (nbits < 480 + fs_idx*80)
{
gain_ltpf = 0.3;
gain_ind = 2;
}
else if (nbits < 560 + fs_idx*80)
{
gain_ltpf = 0.25;
gain_ind = 3;
}
else
{
gain_ltpf = 0;
}
そして表「
」および「
」はあらかじめ決定されている。

」の例がここに提供される(「fs」の代わりに、サンプリングレートが示されている)。
double tab_ltpf_num_8000[4][3] = {
{6.023618207009578e-01,4.197609261363617e-01,-1.883424527883687e-02},
{5.994768582584314e-01,4.197609261363620e-01,-1.594928283631041e-02},
{5.967764663733787e-01,4.197609261363617e-01,-1.324889095125780e-02},
{5.942410120098895e-01,4.197609261363618e-01,-1.071343658776831e-02}};

double tab_ltpf_num_16000[4][3] = {
{6.023618207009578e-01,4.197609261363617e-01,-1.883424527883687e-02},
{5.994768582584314e-01,4.197609261363620e-01,-1.594928283631041e-02},
{5.967764663733787e-01,4.197609261363617e-01,-1.324889095125780e-02},
{5.942410120098895e-01,4.197609261363618e-01,-1.071343658776831e-02}};

double tab_ltpf_num_24000[4][5] = {
{3.989695588963494e-01,5.142508607708275e-01,1.004382966157454e-01,-1.278893956818042e-02,-1.572280075461383e-03},
{3.948634911286333e-01,5.123819208048688e-01,1.043194926386267e-01,-1.091999960222166e-02,-1.347408330627317e-03},
{3.909844475885914e-01,5.106053522688359e-01,1.079832524685944e-01,-9.143431066188848e-03,-1.132124620551895e-03},
{3.873093888199928e-01,5.089122083363975e-01,1.114517380217371e-01,-7.450287133750717e-03,-9.255514050963111e-04}};

double tab_ltpf_num_32000[4][7] = {
{2.982379446702096e-01,4.652809203721290e-01,2.105997428614279e-01,3.766780380806063e-02,-1.015696155796564e-02,-2.535880996101096e-03,-3.182946168719958e-04},
{2.943834154510240e-01,4.619294002718798e-01,2.129465770091844e-01,4.066175002688857e-02,-8.693272297010050e-03,-2.178307114679820e-03,-2.742888063983188e-04},
{2.907439213122688e-01,4.587461910960279e-01,2.151456974108970e-01,4.350104772529774e-02,-7.295495347716925e-03,-1.834395637237086e-03,-2.316920186482416e-04},
{2.872975852589158e-01,4.557148886861379e-01,2.172126950911401e-01,4.620088878229615e-02,-5.957463802125952e-03,-1.502934284345198e-03,-1.903851911308866e-04}};

double tab_ltpf_num_48000[4][11] = {
{1.981363739883217e-01,3.524494903964904e-01,2.513695269649414e-01,1.424146237314458e-01,5.704731023952599e-02,9.293366241586384e-03,-7.226025368953745e-03,-3.172679890356356e-03,-1.121835963567014e-03,-2.902957238400140e-04,-4.270815593769240e-05},
{1.950709426598375e-01,3.484660408341632e-01,2.509988459466574e-01,1.441167412482088e-01,5.928947317677285e-02,1.108923827452231e-02,-6.192908108653504e-03,-2.726705509251737e-03,-9.667125826217151e-04,-2.508100923165204e-04,-3.699938766131869e-05},
{1.921810055196015e-01,3.446945561091513e-01,2.506220094626024e-01,1.457102447664837e-01,6.141132133664525e-02,1.279941396562798e-02,-5.203721087886321e-03,-2.297324511109085e-03,-8.165608133217555e-04,-2.123855748277408e-04,-3.141271330981649e-05},
{1.894485314175868e-01,3.411139251108252e-01,2.502406876894361e-01,1.472065631098081e-01,6.342477229539051e-02,1.443203434150312e-02,-4.254449144657098e-03,-1.883081472613493e-03,-6.709619060722140e-04,-1.749363341966872e-04,-2.593864735284285e-05}};
の例がここに提供される(「fs」の代わりに、サンプリングレートが示されている)。
double_tab_ltpf_den_8000[4][5] = {
{0.000000000000000e+00, 2.098804630681809e-01, 5.835275754221211e-01, 2.098804630681809e-01, 0.000000000000000e+00},
{0.000000000000000e+00, 1.069991860896389e-01, 5.500750019177116e-01, 3.356906254147840e-01, 6.698858366939680e-03},
{0.000000000000000e+00, 3.967114782344967e-02, 4.592209296082350e-01, 4.592209296082350e-01, 3.967114782344967e-02},
{0.000000000000000e+00, 6.698858366939680e-03, 3.356906254147840e-01, 5.500750019177116e-01, 1.069991860896389e-01}};

double_tab_ltpf_den_16000[4][5] = {
{0.000000000000000e+00, 2.098804630681809e-01, 5.835275754221211e-01, 2.098804630681809e-01, 0.000000000000000e+00},
{0.000000000000000e+00, 1.069991860896389e-01, 5.500750019177116e-01, 3.356906254147840e-01, 6.698858366939680e-03},
{0.000000000000000e+00, 3.967114782344967e-02, 4.592209296082350e-01, 4.592209296082350e-01, 3.967114782344967e-02},
{0.000000000000000e+00, 6.698858366939680e-03, 3.356906254147840e-01, 5.500750019177116e-01, 1.069991860896389e-01}};

double_tab_ltpf_den_24000[4][7] = {
{0.000000000000000e+00, 6.322231627323796e-02, 2.507309606013235e-01, 3.713909428901578e-01, 2.507309606013235e-01, 6.322231627323796e-02, 0.000000000000000e+00},
{0.000000000000000e+00, 3.459272174099855e-02, 1.986515602645028e-01, 3.626411726581452e-01, 2.986750548992179e-01, 1.013092873505928e-01, 4.263543712369752e-03},
{0.000000000000000e+00, 1.535746784963907e-02, 1.474344878058222e-01, 3.374259553990717e-01, 3.374259553990717e-01, 1.474344878058222e-01, 1.535746784963907e-02},
{0.000000000000000e+00, 4.263543712369752e-03, 1.013092873505928e-01, 2.986750548992179e-01, 3.626411726581452e-01, 1.986515602645028e-01, 3.459272174099855e-02}};

double_tab_ltpf_den_32000[4][9] = {
{0.000000000000000e+00, 2.900401878228730e-02, 1.129857420560927e-01, 2.212024028097570e-01, 2.723909472446145e-01, 2.212024028097570e-01, 1.129857420560927e-01, 2.900401878228730e-02, 0.000000000000000e+00},
{0.000000000000000e+00, 1.703153418385261e-02, 8.722503785537784e-02, 1.961407762232199e-01, 2.689237982237257e-01, 2.424999102756389e-01, 1.405773364650031e-01, 4.474877169485788e-02, 3.127030243100724e-03},
{0.000000000000000e+00, 8.563673748488349e-03, 6.426222944493845e-02, 1.687676705918012e-01, 2.587445937795505e-01, 2.587445937795505e-01, 1.687676705918012e-01, 6.426222944493845e-02, 8.563673748488349e-03},
{0.000000000000000e+00, 3.127030243100724e-03, 4.474877169485788e-02, 1.405773364650031e-01, 2.424999102756389e-01, 2.689237982237257e-01, 1.961407762232199e-01, 8.722503785537784e-02, 1.703153418385261e-02}};

double_tab_ltpf_den_48000[4][13] = {
{0.000000000000000e+00, 1.082359386659387e-02, 3.608969221303979e-02, 7.676401468099964e-02, 1.241530577501703e-01, 1.627596438300696e-01, 1.776771417779109e-01, 1.627596438300696e-01, 1.241530577501703e-01, 7.676401468099964e-02, 3.608969221303979e-02, 1.082359386659387e-02, 0.000000000000000e+00},
{0.000000000000000e+00, 7.041404930459358e-03, 2.819702319820420e-02, 6.547044935127551e-02, 1.124647986743299e-01, 1.548418956489015e-01, 1.767122381341857e-01, 1.691507213057663e-01, 1.352901577989766e-01, 8.851425011427483e-02, 4.499353848562444e-02, 1.557613714732002e-02, 2.039721956502016e-03},
{0.000000000000000e+00, 4.146998467444788e-03, 2.135757310741917e-02, 5.482735584552816e-02, 1.004971444643720e-01, 1.456060342830002e-01, 1.738439838565869e-01, 1.738439838565869e-01, 1.456060342830002e-01, 1.004971444643720e-01, 5.482735584552816e-02, 2.135757310741917e-02, 4.146998467444788e-03},
{0.000000000000000e+00, 2.039721956502016e-03, 1.557613714732002e-02, 4.499353848562444e-02, 8.851425011427483e-02, 1.352901577989766e-01, 1.691507213057663e-01, 1.767122381341857e-01, 1.548418956489015e-01, 1.124647986743299e-01, 6.547044935127551e-02, 2.819702319820420e-02, 7.041404930459358e-03}}
遷移処理を参照して、5つの異なるケースが検討される。
第1のケース:ltpf_active=0およびmem_ltpf_active=0
第2のケース:ltpf_active=1およびmem_ ltpf_active=0
第3のケース:ltpf_active=0およびmem_ ltpf_active=1
ここで、


、および
は、前のフレームで計算されたフィルタパラメータである。
第4のケース:ltpf_active=1およびmem_ltpf_active=1および
および
第5のケース:ltpf_active=1およびmem_ltpf_active=1および(
または

ここで、Nは1つのフレーム内のサンプル数である。
7.4 さらなる利点
理解され得るように、上記の例による解決策は、デコーダに対して透過的である。たとえば、第1推定値または第2推定値が選択されたことをデコーダに通知する必要はない。
したがって、ビットストリーム63においてペイロードは増加しない。
さらに、エンコーダで実行される新しいプロセスに適応するようにデコーダを修正する必要がない。デコーダは、本発明が実施されたことを知る必要がない。したがって、本発明は、レガシーシステムとの互換性を向上できるようにする。
8.パケット損失隠蔽
上記の装置10、60a、または110によって取得されたピッチラグTbest(19)は、デコーダ(たとえば、60b)において、パケット損失隠蔽(PLC)(エラー隠蔽としても知られる)を実施するために使用され得る。PLCは、エンコーダからデコーダへの送信中に消失または破損パケットを隠蔽するためにオーディオコーデックで使用される。従来技術では、PLCは、デコーダ側で実行され、変換領域または時間領域のいずれかでデコード済み信号を外挿し得る。
ピッチラグは、ピッチベースのPLCで使用される主要なパラメータであり得る。このパラメータは、エンコーダ側で推定されてビットストリームにエンコードされることが可能である。この場合、現在の消失フレームを隠蔽するために、最後の良好なフレームのピッチラグが使用される。
破損フレームは、正しい可聴出力を提供せず、破棄される。
デコーダにおける各デコード済みフレームについて、その有効性が検証され得る。たとえば、各フレームは、所定のアルゴリズムによって提供された所定の演算を実行することによって検証される巡回冗長コード(CRC)を搬送するフィールドを有してもよい。この手順は、計算結果がCRCフィールド上の値に対応するか否かを検証するために繰り返されてもよい。フレームが(たとえば送信における干渉の観点から)適切にデコードされていない場合、いくつかのエラーがフレームに影響を及ぼしたと想定される。したがって、検証によって不正なデコードの結果が提供された場合、フレームは不適切にデコードされた状態で保持される(無効、破壊)。
フレームが不適切にデコードされたと確認されると、可聴出力を提供するために隠蔽戦略が使用され得る。そうでなければ、迷惑な可聴穴のようなものが聞こえる可能性がある。したがって、不適切にデコードされたフレームによって開かれたままの「ギャップを満たす」何らかの形態のフレームを見つける必要がある。フレーム損失隠蔽手順の目的は、デコードのために利用不可または破損したいずれのフレームの影響も隠蔽することである。
8.1 隠蔽のための戦略
フレーム損失隠蔽手順は、様々な信号タイプのための隠蔽方法を備え得る。フレーム損失を有するエラーが発生しやすい状況での最良の可能なコーデック性能は、最も適切な方法を選択することで得られる。パケット損失隠蔽方法の1つは、たとえば、TCX時間領域隠蔽であろう。
8.2 TCX時間領域隠蔽
TCX時間領域隠蔽方法は、時間領域で動作するピッチベースのPLC手法である。これは、支配的な調波構造を有する信号に最も適している。手順の例は、以下の通りである。セクション8.2.2.で説明された周期信号を取得するために、セクション8.2.1で説明されたLPフィルタを用いて最後にデコードされたフレームの合成信号が逆フィルタリングされる。ランダム信号は、セクション8.2.3.でほぼ均一な分布でランダムジェネレータによって生成される。セクション8.2.4.で説明されたように全励起信号を形成するために2つの励起信号が加算され、これはセクション8.2.6.で説明された減衰率で適応的にフェードアウトし、最終的に、合成および隠蔽された時間信号を取得するためにLPフィルタでフィルタリングされる。LTPFが最後の良好なフレームで使用された場合、LTPFは、セクション8.3で説明されたように、合成および隠蔽された時間信号にも適用され得る。消失フレームの後の最初の良好なフレームとの適切な重複を得るために、セクション8.2.5.で時間領域エイリアスキャンセル信号が生成される。
8.2.1 LPCパラメータ計算
TCX時間領域隠蔽方法は、励起領域で動作している。自己相関関数は、80の等距離周波数領域帯域で計算され得る。エネルギーは、固定プリエンファシス係数
でプリエンファシスされる
自己相関関数は、逆に均等にスタックされたDFTを使用して時間領域に変換される前に、以下のウィンドウを使用してラグウィンドウ化される。
最後に、隠蔽されたフレームのLPフィルタ
を取得するために、レビンソン・ダービン演算が使用される。以下に例を示す。
LPフィルタは、良好なフレームの後の最初の消失フレーム内でのみ計算され、
その後消失したフレーム内に残る。
8.2.2 励起の周期的部分の構造
最後の
個のデコードされた時間サンプルは、信号
を取得するために、フィルタ
を使用してセクション8.2.1からプリエンファシス係数で最初にプリエンファシスされ、ここで
はピッチラグ値
、または
の場合
である。値
および
は、ビットストリームで送信されたピッチラグ値である。
プリエンファシスされた信号
は、前の励起信号
を取得するために、計算された逆LPフィルタでさらにフィルタリングされる。現在の消失フレームの励起信号
を構成するために、
は以下のように
を用いて繰り返し複製され、
ここで

における最後のサンプルに対応する。安定係数
が1未満の場合、
の最初のピッチサイクルは、以下の表に記載されている11タップ線形位相FIR(有限インパルス応答)フィルタを用いて最初にローパスフィルタリングされる
ピッチの利得
は、以下のように計算され得る。
の場合、
である。そうでなければ、ピッチの第2利得
は、以下のように計算され得る。
および

の場合には、
はさらなる処理のために1だけ減少する。
最後に、

によって制限される。
形成された周期的励起
は、
を取得するために、1から始まって減衰率
で終わるフレーム全体を通じてサンプルごとに減衰する。ピッチの利得は、良好なフレームの後の最初の消失フレームでのみ計算され、さらに連続するフレーム損失については
に設定される。
8.2.3 励起のランダム部分の構造
励起のランダム部分は、以下のようにほぼ均一な分布でランダムジェネレータを用いて生成され得る。
ここで、
はこの方法で隠蔽された全く最初のフレームについて24607で初期化され、
は値の16LSBを抽出する。さらなるフレームでは、
が記憶され、次の
として使用される。
ノイズをより高い周波数にさらにシフトするために、励起信号は、
を取得するために以下の表に記載される11タップ線形位相FIRフィルタでハイパスフィルタリングされる
ノイズが減衰率
に依存するフェージング速度で全帯域ノイズにフェードアウトし得ることを保証するために、
は全帯域
とハイパスフィルタリングされたバージョン
との間の線形補間を介して以下のように構成される。
ここで、
は良好なフレームの後の最初の消失フレームのものであり、
は2番目およびさらに連続するフレーム損失のものであり、ここで
は前の隠蔽されたフレームの
である。
ノイズレベルを調整するために、ノイズの利得
は以下のように計算される。
セクション8.2.2の後に
の場合には、
である。そうでなければ、ノイズの第2の利得
は、上記の式のように計算されるが、

である。以下、
である。
さらなる処理では、
を取得するために、
は最初に正規化され、次に
で乗算される。
形成されたランダム励起
は、
を取得するために、最初のサンプルからサンプル5まで、続いてサンプルごとに、
から始まって
で終わるまでフレーム全体にわたって、
で均一に減衰する。ノイズの利得
は、良好なフレームの後の最初の消失フレームでのみ計算され、さらに連続するフレーム損失については
に設定される。
8.2.4 全励起、合成、および後処理の構造
ランダム励起
は、全励起信号
を形成するために周期的励起
に追加される。隠蔽されたフレームの最終的な合成信号は、セクション8.2.1からのLPフィルタで全励起をフィルタリングすることによって取得され、ディエンファシスフィルタで後処理される。
8.2.5 時間領域エイリアスキャンセル
次のフレームが良好なフレームである場合に適切な重畳加算を得るために、時間領域エイリアスキャンセル部分
が生成され得る。そのために、信号
を取得するため、上記と同じように
の追加サンプルが作成される。その上で、以下のステップによって時間領域エイリアスキャンセル部分が作成される。
合成された時間領域バッファ
をゼロで埋める
をMDCTウィンドウ
でウィンドウ化
2NからNに再成形
Nから2Nに再成形
反転したMDCT(変形離散コサイン変換)(または別の例ではMDST、変形離散サイン変換)ウィンドウ

をウィンドウ化
8.2.6 複数のフレーム損失の処理
構成された信号は、ゼロにフェードアウトする。フェードアウト速度は、前の減衰率
に依存する減衰率
、最後に正しく受信したフレームで計算されたピッチの利得
、連続して削除されたフレームの数
、および安定性
によって制御される。減衰率
を計算するために、以下の手順が使用され得る。
if (
== 1)
=
if (
> 0.98)
= 0.98
else if (
< 0.925)
= 0.925
else if (
== 2)
= (0.63 + 0.35
)
if
< 0.919
= 0.919;
else if (
== 3)
= (0.652 + 0.328
)
else if (
== 4)
= (0.674 + 0.3
)
else if (
== 5) {
= (0.696 + 0.266
)
else
= (0.725 + 0.225
)
=
係数
(最後の2つの隣接するスケール係数ベクトル
および
の安定性)は、たとえば以下のように取得され得る。
ここで、
および
は最後の2つの隣接するフレームのスケール係数ベクトルである。係数

によって制限され、
の値が大きいほど、より安定した信号に対応する。これにより、エネルギーおよびスペクトルエンベロープの変動を制限する。2つの隣接するスケール係数ベクトルが存在しない場合、係数
は0.8に設定される。
急激な高エネルギーの増加を防ぐために、スペクトルは
および
でローパスフィルタリングされる。
9.同じピッチラグ情報を用いるLTPFおよびPLC
図9は、デコーダ60bを動作させるために使用され得る方法100’の一般的な例を示す。ステップS101’で、信号のエンコードされたバージョンがデコードされ得る。例では、記憶ユニットからフレームが(たとえば、Bluetooth接続を介して)受信および/または取得され得る。(上記で論じられたTとTとの間で選択された)ピッチラグTbestは、PLCおよびLTPFの両方に使用され得る。
ステップS102’で、フレームの有効性がチェックされる(たとえば、CRC、パリティなどで)。フレームの無効性が確認された場合、隠蔽が実行される(下記参照)。
そうではなく、フレームが有効のまま維持されている場合、ステップS103’で、ピッチ情報がフレーム内でエンコードされているか否かがチェックされる。いくつかの例では、ピッチ情報は、高調波が特定の閾値を超えていると確認された場合にのみエンコードされる(これはたとえば、LTPFおよび/またはPLCを実行するのに十分に高い高調波を示すことができる)。
S103’でピッチ情報が実際にエンコードされていると確認された場合には、ステップS104’でピッチ情報はデコードおよび記憶される。そうでなければ、サイクルは終了し、新しいフレームがS101’でデコードされ得る。
続いて、ステップS105’で、LTPFがイネーブルされているか否かがチェックされる。LTPFがイネーブルされていることが検証された場合には、ステップS106でLTPFが実行される。そうでなければ、LTPFはスキップされ、サイクルは終了し、新しいフレームがS101’でデコードされ得る。
隠蔽を参照すると、後者はいくつかのステップに細分化され得る。ステップS107’で、前のフレームのピッチ情報(または前のフレームのうちの1つのピッチ情報)がメモリ内に記憶されている(すなわち、自由にできる)か否かが検証される。
検索したピッチ情報が記憶されていると検証された場合には、ステップS108でエラー隠蔽が実行され得る。信号スクランブリングを伴うMDCT(またはMDST)フレーム解像度反復、および/またはTCX時間領域隠蔽、および/またはフェーズECUが実行され得る。
そうではなく、(たとえば、デコーダがピッチラグを送信しなかった結果として)新しいピッチ情報が記憶されていないことがS107’で検証された場合、ステップS109’で、それ自体既知であって、エンコーダによって提供されたピッチ情報の使用を暗示していない、異なる隠蔽手法が使用され得る。これらの手法のいくつかは、デコーダでのピッチ情報および/またはその他の高調波情報の推定に基づいてもよい。いくつかの例では、この場合、隠蔽手法は実行されなくてもよい。
隠蔽を実行した後、サイクルは終了し、新しいフレームがS101’でデコードされ得る。
なお、PLCによって使用されたピッチラグは、上記で論じられたように、推定値TとTとの間の選択に基づいて、装置10および/または60bによって準備された値19(tbest)であることに留意すべきである。
10.その他の例
図7は、上記方法の少なくともいくつかのステップを実行する装置10および/または60aを実装し得る装置110を示す。装置110は、プロセッサ111と、プロセッサ111によって実行されると、第1推定112a(たとえば、第1推定器11を実装するためなど)、第2推定112b(たとえば、第2推定器12を実装するためなど)、および/または選択112c(たとえば、セレクタ18を実装するためなど)をプロセッサ111に実行させる命令(たとえば、プログラム)を記憶している非一時的メモリユニット112とを備え得る。装置110は、入力ユニット116を備えてもよく、これは入力情報信号(たとえば、オーディオ信号)を取得し得る。装置は、たとえば記憶空間128に、ビットストリームを記憶し得る。
図8は、たとえば、デコーダ60bを実装し、および/またはLTPFフィルタリングを実行し得る、装置120を示す。装置120は、プロセッサ121と、プロセッサ121によって実行されると、たとえばエンコーダから取得したパラメータに基づいて、特にLTPFフィルタリング動作をプロセッサ121に実行させる命令122a(たとえば、プログラム)を記憶している非一時的メモリユニット122とを備え得る。装置120は、入力ユニット126を備えてもよく、これは情報信号(たとえば、オーディオ信号)のデコードされた表現を取得し得る。したがって、プロセッサ121は、情報信号のデコードされた表現を取得するためのプロセスを実行し得る。このデコードされた表現は、出力ユニット127を使用して外部ユニットに提供され得る。出力ユニット127は、たとえば、(たとえばBluetoothなどの無線通信を使用して)外部デバイスおよび/または外部記憶空間と通信するための通信ユニットを備え得る。プロセッサ121は、オーディオ信号のデコードされた表現をローカル記憶空間128に保存し得る。
例では、システム110および120は同じデバイスであってもよい。
特定の実装要件に応じて、例はハードウェアに実装されてもよい。実装は、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働できる)電子的に読み取り可能な制御信号が記憶されたデジタル記憶媒体、たとえばフロッピーディスク、デジタル多用途ディスク(DVD)、Blu−Rayディスク、コンパクトディスク(CD)、読み取り専用メモリ(ROM)、プログラム可能な読み取り専用メモリ(PROM)、消去可能でプログラム可能な読み取り専用メモリ(EPROM)、電気的消去可能でプログラム可能な読み取り専用メモリ(EEPROM)、またはフラッシュメモリを使用して実行され得る。したがって、デジタル記憶媒体はコンピュータ読み取り可能であり得る。
一般に、例は、プログラム命令を有するコンピュータプログラム製品として実装されてもよく、プログラム命令は、コンピュータプログラム製品がコンピュータ上で実行されたときに方法の1つを実行するように動作する。プログラム命令は、たとえば機械可読媒体上に記憶され得る。
別の例は、機械可読キャリアに記憶された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを備える。言い換えると、方法の例は、コンピュータプログラム製品がコンピュータ上で実行されたときに本明細書に記載の方法の1つを実行するためのプログラム命令を有するコンピュータプログラムである。
したがって、方法のさらなる例は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを備え、該コンピュータプログラムを記録したデータキャリア媒体(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア媒体、デジタル記憶媒体、または記録媒体は、無形で一時的な信号ではなく、有形および/または非一時的なものである。
さらなる例は、本明細書に記載の方法の1つを実行する処理ユニット、たとえばコンピュータ、またはプログラマブル論理デバイスを備える。
さらなる例は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを備える。
さらなる例は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを受信機に(たとえば、電子的または光学的に)転送する、装置またはシステムを備える。受信機は、たとえば、コンピュータ、モバイル機器、メモリデバイスなどであり得る。装置またはシステムは、たとえば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えてもよい。
いくつかの例では、本明細書に記載の方法の機能のうちの一部または全部を実行するために、プログラマブル論理デバイス(たとえば、フィールドプログラマブルゲートアレイ)が使用され得る。いくつかの例では、本明細書に記載の方法の1つを実行するために、フィールドプログラマブルゲートアレイがマイクロプロセッサと協働し得る。一般に、方法は、いずれの適切なハードウェア装置によって実行されてもよい。
上記の例は、上記で論じられた原理を例示するものである。本明細書に記載された配置および詳細の修正および変形が明らかであることは、理解される。したがって、本明細書の例の記載および説明によって表される特定の詳細によってではなく、差し迫った特許請求の範囲によって限定されることが意図される。

Claims (29)

  1. 複数のフレームを含む情報信号をエンコードするための装置(10、60a、110)であって、前記装置は、
    第1推定値(14、T)を取得するように構成された第1推定器(11)であって、前記第1推定値は現在のフレーム(13)のピッチラグの推定値である、前記第1推定器と、
    第2推定値(16、T)を取得するように構成された第2推定器(12)であって、前記第2推定値は前記現在のフレーム(13)のピッチラグの別の推定値である、前記第2推定器(12)と、
    第1および第2相関測定値(23、25)に基づいて前記第1推定値(14、T)と前記第2推定値(16、T)との間の選択を実行することによって選択値(19、Tbest)を選ぶ(S103)ように構成されたセレクタ(17)と、
    を供え、
    前記第2推定器(12)は、前記現在のフレーム(13)の前記第2推定値(16、T)を取得するように、前記前のフレームで選択された前記ピッチラグ(51、19’’)によって条件付けられ、
    前記セレクタ(17)は、
    第2相関測定値(25)が第1相関測定値(23)のダウンスケールバージョン(24)よりも小さいときに前記第1推定値(14、T)を選択するように、および/または
    前記第2相関測定値(25)が前記第1相関測定値(23)の前記ダウンスケールバージョン(24)よりも大きいときに前記第2推定値(16、T)を選択するように、
    前記現在のフレーム(13)に関連付けられ、前記第1推定値(14、T)に対応するラグで取得された前記第1相関測定値(23)の前記ダウンスケールバージョン(24)と、
    前記現在のフレーム(13)に関連付けられ、前記第2推定値(16、T)に対応するラグで取得された前記第2相関測定値(25)と
    の間で比較を実行するように構成されており、
    前記第1および第2相関測定値(23、25)のうちの少なくとも1つは、自己相関測定値および/または正規化自己相関測定値である、
    ことを特徴とする装置(10、60a、110)。
  2. 情報信号を、複数のフレームを含むビットストリーム(63)にエンコードするための装置(60a)であって、前記装置(60a)は、
    第1推定値(14、T)を取得するように構成された第1推定器(11)であって、前記第1推定値は現在のフレーム(13)のピッチラグの推定値である、前記第1推定器と、
    第2推定値(16、T)を取得するように構成された第2推定器(12)であって、前記第2推定値は前記現在のフレーム(13)のピッチラグの別の推定値であり、前記第2推定器(12)は、前記現在のフレーム(13)の前記第2推定値(16、T)を取得するように、前記前のフレームで選択された前記ピッチラグ(51、19’’)によって条件付けられる、前記第2推定器(12)と、
    少なくとも1つの相関測定値(23、25)に基づいて前記第1推定値(14、T)と前記第2推定値(16、T)との間の選択を実行することによって選択値(19、Tbest)を選ぶ(S103)ように構成されたセレクタ(17)であって、前記セレクタは、
    第2相関測定値(25)がピッチラグ選択閾値(24)よりも大きいときに前記第2推定値(16、T2)を選択(S103)するように、および/または
    前記第2相関測定値(25)が前記ピッチラグ選択閾値(24)よりも小さいときに前記第1推定値(14、T1)を選択(S103)するように、
    前記現在のフレーム(13)に関連付けられ、前記第2推定値(16、T2)に対応するラグで取得された前記第2相関測定値(25)と、
    前記ピッチラグ選択閾値(24)と
    の間で比較(27)を実行するように構成されている、前記セレクタ(17)と、
    前記デコーダ(60b)でLTPFを実行するのに有用なデータをエンコードするように構成された長期ポストフィルタリングLTPFツール(66)であって、前記LTPFを実行するのに有用なデータは前記選択値(19、Tbest)を含む、前記長期ポストフィルタリングLTPFツール(66)と、
    を供える検出ユニット(10、65)を供える、装置(60a)。
  3. 前記現在のフレーム(13)に関連付けられ、前記ピッチラグ選択閾値(24)を表す前記第1推定値(14、T)に対応するラグで取得される第1相関測定値(23)と、
    前記第2相関測定値(25)と
    の間である、請求項2に記載の装置。
  4. 前記比較は、
    前記現在のフレーム(13)に関連付けられ、前記ピッチラグ選択閾値(24)を表す前記第1推定値(14、T)に対応するラグで取得される第1相関測定値(23)のダウンスケールバージョン(24)と、
    前記第2相関測定値(25)と
    の間である、請求項2または3に記載の装置。
  5. 前記第1および第2相関測定値(23、25)のうちの少なくとも1つは、自己相関測定値および/または正規化自己相関測定値である、
    請求項2から4のいずれか一項に記載の装置。
  6. 前記選択値(19、Tbest)が所定の閾値未満である場合に前記選択値(19、Tbest)をエンコードするのを回避するように、前記選択値(19、Tbest)を前記所定のLTPF閾値と比較するように構成されている、請求項2から5のいずれか一項に記載の装置。
  7. 前記第2推定器(12)は、
    前記前のフレームのために選択された前記ピッチラグ(51、19’’)を含む第2サブインターバル(52)内の第2相関関数を最大化させる前記ラグを検索することによって前記第2推定値(16)を取得する
    ように構成されている、請求項1から6のいずれか一項に記載の装置。
  8. 前記第2サブインターバル(52)は、前記前のフレームのために選択された前記ピッチラグ(51、19’’)から所定のラグ数閾値より短い距離内のラグ(T)を含む、
    請求項7に記載の装置。
  9. 前記第2推定器(12)は、
    前記第2相関関数値の中の最大値に関連付けられた前記ラグ(T)に前記第2推定値(16)を関連付けるために、前記第2相関関数値の中の前記最大値を検索する
    ように構成されている、請求項7または8に記載の装置。
  10. 前記第1推定器(12)は、
    前記現在のフレーム(13)に関連付けられた第1相関関数を最大化させる前記ラグ(T)として前記第1推定値(14)を取得する
    ように構成されている、請求項1から9のいずれか一項に記載の装置。
  11. 前記第1相関関数は、第1サブインターバル内のラグに制限されている、請求項10に記載の装置。
  12. 前記第1サブインターバルは、前記第2サブインターバル(52)よりも大きいいくつかのラグを含み、および/または前記第2サブインターバル(52)内の前記ラグのうちの少なくともいくつかは、前記第1サブインターバルに含まれる、請求項11に記載の装置。
  13. 前記第1推定器(11)は、
    前記第1相関関数を最大化させる前記ラグ(T)を検索する前に単調に減少する重み関数を使用して第1相関関数の前記相関測定値を重み付けする
    ように構成されている、請求項1から12のいずれか一項に記載の装置。
  14. 前記第2および第1相関関数のうちの少なくとも1つは、自己相関関数および/または正規化自己相関関数である、
    請求項7から13のいずれか一項に記載の装置。
  15. 前記第1推定器(11)は、以下の演算のうちの少なくともいくつかを実行することによって前記第1推定値
    を取得するように構成されており、
    は重み関数であり、
    および
    は最小ラグおよび最大ラグに関連付けられており、
    は前記情報信号またはその処理済みバージョンに基づいて推定された自己相関測定値であり、Nはフレーム長である、請求項1から14のいずれか一項に記載の装置。
  16. 前記第2推定器(12)は、
    を実行することによって前記第2推定値
    を取得するように構成されており、


    は前記前のフレームで選択された前記推定値であり、

    からの距離であり、
    および
    は最小ラグおよび最大ラグに関連付けられている、
    請求項1から15のいずれか一項に記載の装置。
  17. 前記セレクタ(17)は、以下の点に関して前記ピッチラグ推定値
    の選択を実行するように構成されており、
    ここで
    は前記第1推定値、
    は前記第2推定値、
    は前記情報信号またはその処理済みバージョンの値、
    はラグ
    での長さ
    の前記信号
    前記正規化相関測定値、
    はダウンスケーリング係数である、
    請求項1から16のいずれか一項に記載の装置。
  18. 前記セレクタ(17)の下流に、デコーダ装置(60b)における長期ポストフィルタ(67)を制御するための長期ポストフィルタリングLTPFツール(66)をさらに供える、請求項1から17のいずれか一項に記載の装置。
  19. 前記情報信号はオーディオ信号である、請求項1から18のいずれか一項に記載の装置。
  20. 重み関数まで同じ相関関数を使用して前記第1および第2相関測定値を取得するように構成されている、請求項1から19のいずれか一項に記載の装置。
  21. 重み関数までの前記第1推定値の前記正規化バージョンとして前記第1相関測定値を取得するように構成されている、請求項1から20のいずれか一項に記載の装置。
  22. 前記第2推定値の前記正規化バージョンとして前記第2相関測定値を取得するように構成されている、請求項1から21のいずれか一項に記載の装置。
  23. 前記情報信号(61)またはその処理済みバージョンの表現(63a)を生成するように構成された変換コーダ(62)をさらに備える、請求項1から22のいずれか一項に記載の装置。
  24. エンコーダ側(10、60a)およびデコーダ側(60b)を備えるシステム(60)であって、前記エンコーダ側は、請求項1から23のいずれか一項に記載の装置を備え、前記デコーダ側は、前記セレクタ(17)によって選択された前記ピッチラグ推定値に基づいて制御される長期ポストフィルタリングツール(67)を備えるシステム(60)。
  25. フレームに分割された信号のピッチラグを決定する方法(100)であって、
    現在のフレームの第1推定を実行するステップ(S101)と、
    前記現在のフレームの第2推定を実行するステップ(S102)と、
    相関測定値に基づいて、前記第1推定で取得された前記第1推定値(14、T)と前記第2推定で取得された前記第2推定値(16、T)との間で選択するステップ(S103)と
    を備え、
    前記第2推定を実行するステップは、前記前のフレームで実行された選択ステップの結果に基づいて取得され、
    選択ステップは、
    前記現在のフレーム(13)に関連付けられ、前記第1推定値(14、T)に対応するラグで取得された第1相関測定値(23)のダウンスケールバージョン(24)と、
    前記現在のフレーム(13)に関連付けられ、前記第2推定値(16、T)に対応するラグで取得された第2相関測定値(25)と
    の間で比較を実行するステップと、
    前記第2相関測定値(25)が前記第1相関測定値(23)の前記ダウンスケールバージョンよりも小さいときに前記第1推定値(14、T)を選択し、および/または前記第2相関測定値(25)が前記第1相関測定値(23)の前記ダウンスケールバージョンよりも大きいときに前記第2推定値(16、T)を選択するステップと、を備え、
    前記第1および第2相関測定値(23、25)のうちの少なくとも1つは、自己相関測定値および/または正規化自己相関測定値であることを特徴とする、方法(100)。
  26. 長期ポストフィルタリングLTPFのために選択された前記ラグを使用するステップをさらに備える、請求項25に記載の方法。
  27. フレームに分割された信号のためにビットストリームをエンコードする方法(100)であって、
    現在のフレームの第1推定を実行するステップ(S101)と、
    前記現在のフレームの第2推定を実行するステップ(S102)と、
    少なくとも1つの相関測定値に基づいて、前記第1推定で取得された前記第1推定値(14、T)と前記第2推定で取得された前記第2推定値(16、T)との間で選択するステップ(S103)と
    を備え、
    前記第2推定を実行するステップは、前記前のフレームで実行された選択ステップの結果に基づいて取得され、
    選択ステップは、
    前記現在のフレーム(13)に関連付けられ、前記第2推定値(16、T2)に対応するラグで取得された第2相関測定値(25)と、
    ピッチラグ選択閾値(24)と
    の間で比較(27)を実行するステップと、
    前記第2相関測定値(25)が前記ピッチラグ選択閾値(24)よりも大きいときに前記第2推定値(16、T2)を選択(S103)し、および/または前記第2相関測定値(25)が前記ピッチラグ選択閾値(24)よりも小さいときに前記第1推定値(14、T1)を選択するステップ(S103)と、を備え、
    前記方法は、前記選択値(19、Tbest)を用いて前記デコーダ(60b)でLTPFを実行するのに有用なデータをエンコードするステップをさらに備える、方法(100)。
  28. パケット損失隠蔽PLCのために選択された前記ラグを使用するステップをさらに備える、請求項25から27のいずれか一項に記載の方法。
  29. プロセッサ(111)によって実行されると、請求項25から28のいずれか一項に記載の方法を前記プロセッサに実行させる命令を備えるプログラム。
JP2020524874A 2017-11-10 2018-11-05 ピッチラグの選択 Active JP7079325B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17201091.0 2017-11-10
EP17201091.0A EP3483886A1 (en) 2017-11-10 2017-11-10 Selecting pitch lag
PCT/EP2018/080195 WO2019091922A1 (en) 2017-11-10 2018-11-05 Selecting pitch lag

Publications (2)

Publication Number Publication Date
JP2021502596A true JP2021502596A (ja) 2021-01-28
JP7079325B2 JP7079325B2 (ja) 2022-06-01

Family

ID=60301906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020524874A Active JP7079325B2 (ja) 2017-11-10 2018-11-05 ピッチラグの選択

Country Status (18)

Country Link
US (1) US11380341B2 (ja)
EP (2) EP3483886A1 (ja)
JP (1) JP7079325B2 (ja)
KR (1) KR102426050B1 (ja)
CN (1) CN111566733B (ja)
AR (1) AR114388A1 (ja)
AU (1) AU2018363670B2 (ja)
BR (1) BR112020009114A2 (ja)
CA (1) CA3082175C (ja)
ES (1) ES2900058T3 (ja)
MX (1) MX2020004786A (ja)
PL (1) PL3707718T3 (ja)
PT (1) PT3707718T (ja)
RU (1) RU2742739C1 (ja)
SG (1) SG11202004203WA (ja)
TW (1) TWI728277B (ja)
WO (1) WO2019091922A1 (ja)
ZA (1) ZA202002521B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114556473A (zh) * 2019-10-19 2022-05-27 谷歌有限责任公司 自监督音高估计
US11699209B2 (en) * 2020-10-22 2023-07-11 Huawei Cloud Computing Technologies Co., Ltd. Method and apparatus for embedding and extracting digital watermarking for numerical data

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05281996A (ja) * 1992-03-31 1993-10-29 Sony Corp ピッチ抽出装置
JPH0728499A (ja) * 1993-06-10 1995-01-31 Sip Soc It Per Esercizio Delle Telecommun Pa ディジタル音声コーダにおける音声信号ピッチ期間の推定および分類のための方法ならびに装置
JP2009003387A (ja) * 2007-06-25 2009-01-08 Nippon Telegr & Teleph Corp <Ntt> ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体
JP2017522604A (ja) * 2014-07-28 2017-08-10 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 高調波ポストフィルタを使用してオーディオ信号を処理するための装置および方法

Family Cites Families (180)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3639753A1 (de) 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
US5012517A (en) 1989-04-18 1991-04-30 Pacific Communication Science, Inc. Adaptive transform coder having long term predictor
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5581653A (en) 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
JP3402748B2 (ja) * 1994-05-23 2003-05-06 三洋電機株式会社 音声信号のピッチ周期抽出装置
JPH0811644A (ja) 1994-06-27 1996-01-16 Nissan Motor Co Ltd ルーフモール取付構造
US6167093A (en) 1994-08-16 2000-12-26 Sony Corporation Method and apparatus for encoding the information, method and apparatus for decoding the information and method for information transmission
EP0732687B2 (en) 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
US5781888A (en) 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
WO1997027578A1 (en) * 1996-01-26 1997-07-31 Motorola Inc. Very low bit rate time domain speech analyzer for voice messaging
US5812971A (en) 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
JPH1091194A (ja) 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
KR100261253B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
GB2326572A (en) 1997-06-19 1998-12-23 Softsound Limited Low bit rate audio coder and decoder
AU9404098A (en) 1997-09-23 1999-04-12 Voxware, Inc. Scalable and embedded codec for speech and audio signals
JP3344962B2 (ja) 1998-03-11 2002-11-18 松下電器産業株式会社 オーディオ信号符号化装置、及びオーディオ信号復号化装置
US6507814B1 (en) * 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
EP1139665A1 (en) 2000-03-29 2001-10-04 Deutsche Thomson-Brandt Gmbh Method and apparatus for changing the output delay of audio or video data encoding
US7099830B1 (en) 2000-03-29 2006-08-29 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
US6735561B1 (en) 2000-03-29 2004-05-11 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
US6665638B1 (en) * 2000-04-17 2003-12-16 At&T Corp. Adaptive short-term post-filters for speech coders
US7395209B1 (en) 2000-05-12 2008-07-01 Cirrus Logic, Inc. Fixed point audio decoding system and method
AU2001270365A1 (en) 2001-06-11 2002-12-23 Ivl Technologies Ltd. Pitch candidate selection method for multi-channel pitch detectors
US7353168B2 (en) 2001-10-03 2008-04-01 Broadcom Corporation Method and apparatus to eliminate discontinuities in adaptively filtered signals
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7433824B2 (en) 2002-09-04 2008-10-07 Microsoft Corporation Entropy coding by adapting coding between level and run-length/level modes
JP4287637B2 (ja) 2002-10-17 2009-07-01 パナソニック株式会社 音声符号化装置、音声符号化方法及びプログラム
EP1595247B1 (en) * 2003-02-11 2006-09-13 Koninklijke Philips Electronics N.V. Audio coding
KR20030031936A (ko) * 2003-02-13 2003-04-23 배명진 피치변경법을 이용한 단일 음성 다중 목소리 합성기
US20040162866A1 (en) 2003-02-19 2004-08-19 Malvar Henrique S. System and method for producing fast modulated complex lapped transforms
ATE503246T1 (de) 2003-06-17 2011-04-15 Panasonic Corp Empfangsvorrichtung, sendevorrichtung und übertragungssystem
WO2005001814A1 (en) 2003-06-30 2005-01-06 Koninklijke Philips Electronics N.V. Improving quality of decoded audio by adding noise
US7620545B2 (en) 2003-07-08 2009-11-17 Industrial Technology Research Institute Scale factor based bit shifting in fine granularity scalability audio coding
KR100550003B1 (ko) * 2003-07-11 2006-02-08 학교법인연세대학교 상호부호화기에서 개회로 피치 추정 방법 및 그 장치
CN1826634B (zh) * 2003-07-18 2010-12-01 皇家飞利浦电子股份有限公司 低比特率音频编码
WO2005027096A1 (en) 2003-09-15 2005-03-24 Zakrytoe Aktsionernoe Obschestvo Intel Method and apparatus for encoding audio
US7009533B1 (en) 2004-02-13 2006-03-07 Samplify Systems Llc Adaptive compression and decompression of bandlimited signals
KR20050087956A (ko) 2004-02-27 2005-09-01 삼성전자주식회사 무손실 오디오 부호화/복호화 방법 및 장치
DE102004009949B4 (de) 2004-03-01 2006-03-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes
DE102004009954B4 (de) 2004-03-01 2005-12-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals
CA2992097C (en) 2004-03-01 2018-09-11 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters
JP4744438B2 (ja) 2004-03-05 2011-08-10 パナソニック株式会社 エラー隠蔽装置およびエラー隠蔽方法
US7272567B2 (en) 2004-03-25 2007-09-18 Zoran Fejzo Scalable lossless audio codec and authoring tool
US7933767B2 (en) * 2004-12-27 2011-04-26 Nokia Corporation Systems and methods for determining pitch lag for a current frame of information
BRPI0607646B1 (pt) 2005-04-01 2021-05-25 Qualcomm Incorporated Método e equipamento para encodificação por divisão de banda de sinais de fala
US7546240B2 (en) 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
US7539612B2 (en) 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
KR20070037945A (ko) 2005-10-04 2007-04-09 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
US20070118361A1 (en) 2005-10-07 2007-05-24 Deepen Sinha Window apparatus and method
KR100888474B1 (ko) 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
US7805297B2 (en) 2005-11-23 2010-09-28 Broadcom Corporation Classification-based frame loss concealment for audio signals
WO2007070007A1 (en) 2005-12-14 2007-06-21 Matsushita Electric Industrial Co., Ltd. A method and system for extracting audio features from an encoded bitstream for audio classification
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
EP1991986B1 (en) 2006-03-07 2019-07-31 Telefonaktiebolaget LM Ericsson (publ) Methods and arrangements for audio coding
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
DE602007003023D1 (de) 2006-05-30 2009-12-10 Koninkl Philips Electronics Nv Linear-prädiktive codierung eines audiosignals
CN1983909B (zh) * 2006-06-08 2010-07-28 华为技术有限公司 一种丢帧隐藏装置和方法
US8015000B2 (en) 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
DE602007012116D1 (de) 2006-08-15 2011-03-03 Dolby Lab Licensing Corp Arbiträre formung einer temporären rauschhüllkurve ohne nebeninformation
FR2905510B1 (fr) 2006-09-01 2009-04-10 Voxler Soc Par Actions Simplif Procede d'analyse en temps reel de la voix pour le controle en temps reel d'un organe numerique et dispositif associe
CN101140759B (zh) 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
US7752038B2 (en) * 2006-10-13 2010-07-06 Nokia Corporation Pitch lag estimation
DE102006049154B4 (de) 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
KR101292771B1 (ko) 2006-11-24 2013-08-16 삼성전자주식회사 오디오 신호의 오류은폐방법 및 장치
CN101548319B (zh) 2006-12-13 2012-06-20 松下电器产业株式会社 后置滤波器以及滤波方法
FR2912249A1 (fr) 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
EP2015293A1 (en) 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
JP5618826B2 (ja) * 2007-06-14 2014-11-05 ヴォイスエイジ・コーポレーション Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
JP4572218B2 (ja) 2007-06-27 2010-11-04 日本電信電話株式会社 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
US10795949B2 (en) 2007-07-26 2020-10-06 Hamid Hatami-Hanza Methods and systems for investigation of compositions of ontological subjects and intelligent systems therefrom
JP4981174B2 (ja) 2007-08-24 2012-07-18 フランス・テレコム 確率テーブルの動的な計算によるシンボルプレーン符号化/復号化
ATE535904T1 (de) 2007-08-27 2011-12-15 Ericsson Telefon Ab L M Verbesserte transformationskodierung von sprach- und audiosignalen
CN100524462C (zh) 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
EP2207166B1 (en) 2007-11-02 2013-06-19 Huawei Technologies Co., Ltd. An audio decoding method and device
WO2009066869A1 (en) 2007-11-21 2009-05-28 Electronics And Telecommunications Research Institute Frequency band determining method for quantization noise shaping and transient noise shaping method using the same
WO2009084918A1 (en) 2007-12-31 2009-07-09 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US8386271B2 (en) 2008-03-25 2013-02-26 Microsoft Corporation Lossless and near lossless scalable audio codec
WO2009150290A1 (en) 2008-06-13 2009-12-17 Nokia Corporation Method and apparatus for error concealment of encoded audio data
PL2311034T3 (pl) 2008-07-11 2016-04-29 Fraunhofer Ges Forschung Koder i dekoder audio do kodowania ramek próbkowanego sygnału audio
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
CA2871252C (en) 2008-07-11 2015-11-03 Nikolaus Rettelbach Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
US8577673B2 (en) * 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
CN102177426B (zh) 2008-10-08 2014-11-05 弗兰霍菲尔运输应用研究公司 多分辨率切换音频编码/解码方案
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
KR101316979B1 (ko) 2009-01-28 2013-10-11 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 코딩
JP4945586B2 (ja) 2009-02-02 2012-06-06 株式会社東芝 信号帯域拡張装置
US20100223061A1 (en) 2009-02-27 2010-09-02 Nokia Corporation Method and Apparatus for Audio Coding
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
FR2944664A1 (fr) * 2009-04-21 2010-10-22 Thomson Licensing Dispositif et procede de traitement d'images
US8352252B2 (en) 2009-06-04 2013-01-08 Qualcomm Incorporated Systems and methods for preventing the loss of information within a speech frame
US8428938B2 (en) 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
KR20100136890A (ko) 2009-06-19 2010-12-29 삼성전자주식회사 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법
CN101958119B (zh) 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
WO2011042464A1 (en) 2009-10-08 2011-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping
PL2489041T3 (pl) 2009-10-15 2020-11-02 Voiceage Corporation Jednoczesne kształtowanie szumu w dziedzinie czasu i w dziedzinie częstotliwości dla przekształcenia tdac
WO2011048099A1 (en) 2009-10-20 2011-04-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using a region-dependent arithmetic coding mapping rule
TWI435317B (zh) 2009-10-20 2014-04-21 Fraunhofer Ges Forschung 音訊信號編碼器、音訊信號解碼器、用以提供音訊內容之編碼表示型態之方法、用以提供音訊內容之解碼表示型態之方法及使用於低延遲應用之電腦程式
US8207875B2 (en) 2009-10-28 2012-06-26 Motorola Mobility, Inc. Encoder that optimizes bit allocation for information sub-parts
US7978101B2 (en) 2009-10-28 2011-07-12 Motorola Mobility, Inc. Encoder and decoder using arithmetic stage to compress code space that is not fully utilized
WO2011065741A2 (ko) 2009-11-24 2011-06-03 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
BR122021008583B1 (pt) 2010-01-12 2022-03-22 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Codificador de áudio, decodificador de áudio, método de codificação e informação de áudio, e método de decodificação de uma informação de áudio que utiliza uma tabela hash que descreve tanto valores de estado significativos como limites de intervalo
US20110196673A1 (en) 2010-02-11 2011-08-11 Qualcomm Incorporated Concealing lost packets in a sub-band coding decoder
EP2375409A1 (en) 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
FR2961980A1 (fr) 2010-06-24 2011-12-30 France Telecom Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique
CA3160488C (en) 2010-07-02 2023-09-05 Dolby International Ab Audio decoding with selective post filtering
ES2828429T3 (es) 2010-07-20 2021-05-26 Fraunhofer Ges Forschung Decodificador de audio, procedimiento de decodificación de audio y programa informático
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
US8738385B2 (en) 2010-10-20 2014-05-27 Broadcom Corporation Pitch-based pre-filtering and post-filtering for compression of audio signals
ES2534972T3 (es) 2011-02-14 2015-04-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Predicción lineal basada en esquema de codificación utilizando conformación de ruido de dominio espectral
US9270807B2 (en) * 2011-02-23 2016-02-23 Digimarc Corporation Audio localization using audio signal encoding and recognition
MX2013010537A (es) 2011-03-18 2014-03-21 Koninkl Philips Nv Codificador y decodificador de audio con funcionalidad de configuracion.
CN103620675B (zh) 2011-04-21 2015-12-23 三星电子株式会社 对线性预测编码系数进行量化的设备、声音编码设备、对线性预测编码系数进行反量化的设备、声音解码设备及其电子装置
EP2707873B1 (en) 2011-05-09 2015-04-08 Dolby International AB Method and encoder for processing a digital stereo audio signal
FR2977439A1 (fr) 2011-06-28 2013-01-04 France Telecom Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard.
FR2977969A1 (fr) 2011-07-12 2013-01-18 France Telecom Adaptation de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee
US9363339B2 (en) 2011-07-12 2016-06-07 Hughes Network Systems, Llc Staged data compression, including block level long range compression, for data streams in a communications system
SG194706A1 (en) 2012-01-20 2013-12-30 Fraunhofer Ges Forschung Apparatus and method for audio encoding and decoding employing sinusoidalsubstitution
ES2571742T3 (es) * 2012-04-05 2016-05-26 Huawei Tech Co Ltd Método de determinación de un parámetro de codificación para una señal de audio multicanal y un codificador de audio multicanal
US20130282372A1 (en) 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US9026451B1 (en) 2012-05-09 2015-05-05 Google Inc. Pitch post-filter
JP6088644B2 (ja) 2012-06-08 2017-03-01 サムスン エレクトロニクス カンパニー リミテッド フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置
GB201210373D0 (en) 2012-06-12 2012-07-25 Meridian Audio Ltd Doubly compatible lossless audio sandwidth extension
FR2992766A1 (fr) 2012-06-29 2014-01-03 France Telecom Attenuation efficace de pre-echos dans un signal audionumerique
CN102779526B (zh) * 2012-08-07 2014-04-16 无锡成电科大科技发展有限公司 语音信号中基音提取及修正方法
US9406307B2 (en) 2012-08-19 2016-08-02 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US9293146B2 (en) 2012-09-04 2016-03-22 Apple Inc. Intensity stereo coding in advanced audio coding
EP2903004A4 (en) 2012-09-24 2016-11-16 Samsung Electronics Co Ltd METHOD AND APPARATUS FOR HAMPERING FRAME ERRORS, AND METHOD AND APPARATUS FOR DECODING AUDIO DATA
CN103714821A (zh) 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
US9401153B2 (en) * 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
ITBO20120619A1 (it) 2012-11-09 2014-05-10 Tissue Machinery Co Spa Apparato e metodo di confezionamento di pannolini o altri oggetti sanitari morbidi piatti ripiegati.
US9318116B2 (en) 2012-12-14 2016-04-19 Disney Enterprises, Inc. Acoustic data transmission based on groups of audio receivers
EP2757558A1 (en) 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
FR3001593A1 (fr) 2013-01-31 2014-08-01 France Telecom Correction perfectionnee de perte de trame au decodage d'un signal.
ES2881510T3 (es) 2013-02-05 2021-11-29 Ericsson Telefon Ab L M Método y aparato para controlar la ocultación de pérdida de trama de audio
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
PL3011555T3 (pl) 2013-06-21 2018-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja ramki sygnału mowy
PL3011557T3 (pl) * 2013-06-21 2017-10-31 Fraunhofer Ges Forschung Urządzenie i sposób do udoskonalonego stopniowego zmniejszania sygnału w przełączanych układach kodowania sygnału audio podczas ukrywania błędów
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
CA2925734C (en) 2013-10-18 2018-07-10 Guillaume Fuchs Coding of spectral coefficients of a spectrum of an audio signal
US9906858B2 (en) 2013-10-22 2018-02-27 Bongiovi Acoustics Llc System and method for digital signal processing
PL3355305T3 (pl) 2013-10-31 2020-04-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder audio i sposób dostarczania zdekodowanej informacji audio z wykorzystaniem maskowania błędów modyfikującego sygnał pobudzenia w dziedzinie czasu
CA2927990C (en) 2013-10-31 2018-08-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio bandwidth extension by insertion of temporal pre-shaped noise in frequency domain
AU2014350366B2 (en) 2013-11-13 2017-02-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoder for encoding an audio signal, audio transmission system and method for determining correction values
GB2524333A (en) 2014-03-21 2015-09-23 Nokia Technologies Oy Audio signal payload
MX362490B (es) 2014-04-17 2019-01-18 Voiceage Corp Metodos codificador y decodificador para la codificacion y decodificacion predictiva lineal de señales de sonido en la transicion entre cuadros teniendo diferentes tasas de muestreo.
US9396733B2 (en) 2014-05-06 2016-07-19 University Of Macau Reversible audio data hiding
NO2780522T3 (ja) 2014-05-15 2018-06-09
EP2963646A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and method for decoding an audio signal, encoder and method for encoding an audio signal
US9685166B2 (en) * 2014-07-26 2017-06-20 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding
EP3000110B1 (en) * 2014-07-28 2016-12-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selection of one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
EP2980796A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
EP2980798A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
CN107112022B (zh) 2014-07-28 2020-11-10 三星电子株式会社 用于时域数据包丢失隐藏的方法
EP2988300A1 (en) 2014-08-18 2016-02-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Switching of sampling rates at audio processing devices
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
EP3067887A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US10296959B1 (en) 2015-03-30 2019-05-21 Audible, Inc. Automated recommendations of audio narrations
US10049684B2 (en) 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
US9886963B2 (en) 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
JP6422813B2 (ja) 2015-04-13 2018-11-14 日本電信電話株式会社 符号化装置、復号装置、これらの方法及びプログラム
US9978400B2 (en) 2015-06-11 2018-05-22 Zte Corporation Method and apparatus for frame loss concealment in transform domain
US9837089B2 (en) 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
KR20170000933A (ko) * 2015-06-25 2017-01-04 한국전기연구원 시간 지연 추정을 이용한 풍력 터빈의 피치 제어 시스템
US9830921B2 (en) 2015-08-17 2017-11-28 Qualcomm Incorporated High-band target signal control
KR20180040716A (ko) 2015-09-04 2018-04-20 삼성전자주식회사 음질 향상을 위한 신호 처리방법 및 장치
US9978381B2 (en) * 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals
US10219147B2 (en) 2016-04-07 2019-02-26 Mediatek Inc. Enhanced codec control
US10283143B2 (en) 2016-04-08 2019-05-07 Friday Harbor Llc Estimating pitch of harmonic signals
CN107103908B (zh) * 2017-05-02 2019-12-24 大连民族大学 复调音乐多音高估计方法及伪双谱在多音高估计中的应用

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05281996A (ja) * 1992-03-31 1993-10-29 Sony Corp ピッチ抽出装置
JPH0728499A (ja) * 1993-06-10 1995-01-31 Sip Soc It Per Esercizio Delle Telecommun Pa ディジタル音声コーダにおける音声信号ピッチ期間の推定および分類のための方法ならびに装置
JP2009003387A (ja) * 2007-06-25 2009-01-08 Nippon Telegr & Teleph Corp <Ntt> ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体
JP2017522604A (ja) * 2014-07-28 2017-08-10 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 高調波ポストフィルタを使用してオーディオ信号を処理するための装置および方法

Also Published As

Publication number Publication date
RU2742739C1 (ru) 2021-02-10
KR20200083565A (ko) 2020-07-08
TW201923755A (zh) 2019-06-16
CA3082175A1 (en) 2019-05-16
AU2018363670B2 (en) 2021-02-18
PL3707718T3 (pl) 2022-02-21
AU2018363670A1 (en) 2020-05-21
SG11202004203WA (en) 2020-06-29
WO2019091922A1 (en) 2019-05-16
TWI728277B (zh) 2021-05-21
CN111566733B (zh) 2023-08-01
EP3707718A1 (en) 2020-09-16
CN111566733A (zh) 2020-08-21
CA3082175C (en) 2022-11-01
BR112020009114A2 (pt) 2020-10-13
ZA202002521B (en) 2021-10-27
EP3483886A1 (en) 2019-05-15
PT3707718T (pt) 2021-12-27
US11380341B2 (en) 2022-07-05
EP3707718B1 (en) 2021-10-13
ES2900058T3 (es) 2022-03-15
JP7079325B2 (ja) 2022-06-01
MX2020004786A (es) 2020-08-13
AR114388A1 (es) 2020-09-02
KR102426050B1 (ko) 2022-07-28
US20200273475A1 (en) 2020-08-27

Similar Documents

Publication Publication Date Title
JP7568695B2 (ja) ハーモニックフィルタツールのハーモニック依存制御
JP5547081B2 (ja) 音声復号化方法及び装置
KR101940740B1 (ko) 시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
KR101981548B1 (ko) 시간 도메인 여기 신호를 기초로 하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
TWI698859B (zh) 編碼及解碼音訊信號之技術
US11380341B2 (en) Selecting pitch lag
JP6626123B2 (ja) オーディオ信号を符号化するためのオーディオエンコーダー及び方法

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20200623

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200623

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210602

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210826

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211028

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220520

R150 Certificate of patent or registration of utility model

Ref document number: 7079325

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150