JP2021502605A - オーディオ信号の符号化および復号 - Google Patents

オーディオ信号の符号化および復号 Download PDF

Info

Publication number
JP2021502605A
JP2021502605A JP2020526084A JP2020526084A JP2021502605A JP 2021502605 A JP2021502605 A JP 2021502605A JP 2020526084 A JP2020526084 A JP 2020526084A JP 2020526084 A JP2020526084 A JP 2020526084A JP 2021502605 A JP2021502605 A JP 2021502605A
Authority
JP
Japan
Prior art keywords
frame
information
pitch
audio signal
control data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020526084A
Other languages
English (en)
Other versions
JP7004474B2 (ja
Inventor
ラヴェッリ・エマニュエル
トマシェク・アドリアン
ルツキー・マンフレッド
ベンドルフ・コンラッド
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2021502605A publication Critical patent/JP2021502605A/ja
Application granted granted Critical
Publication of JP7004474B2 publication Critical patent/JP7004474B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

オーディオ信号情報を符号化/復号するための方法および装置ならびに非一時的メモリユニットが提供される。エンコーダ側は、信号フレームが長期ポストフィルタリング(LTPF)および/またはパケット損失の一隠蔽法(PLC)に役立つかどうかを判定し、判定の結果に従って情報を符号化することができる。デコーダ側は、エンコーダから取得した情報に従って、LTPFおよび/またはPLCを適用できる。

Description

例は、オーディオ信号情報を符号化/復号するための方法および装置について言及する。
従来技術は、以下の開示を含む。
[1]3GPP TS 26.445;Codec for Enhanced Voice Services(EVS);Detailed algorithmic descriptio
[2]ISO/IEC 23008−3:2015;Information technology−−High efficiency coding and media delivery in heterogeneous environments −−Part 3:3D audi
[3]Ravelli et al.「Apparatus and method for processing an audio signal using a harmonic post−filter」米国特許出願公開第2017/0140769号明細書、2017年5月18
[4]Markovic et al.「Harmonicity−dependent controlling of a harmonic filter tool」米国特許出願公開第2017/0133029号明細書、2017年5月11
[5]ITU−T G.718:Frame error robust narrow−band and wideband embedded variable bit−rate coding of speech and audio from 8−32 kbit/
[6]ITU−T G.711 Appendix I:A high quality low−complexity algorithm for packet loss concealment with G.71
[7]3GPP TS 26.447; Codec for Enhanced Voice Services(EVS);Error concealment of lost packets
変換ベースのオーディオコーデックは、一般に、特に低遅延および低ビットレートで、ハーモニックオーディオ信号を処理するときに、インターハーモニックノイズを発生させる。このインターハーモニックノイズは一般に非常に迷惑なアーティファクトとして認識され、非常にトーンの高いオーディオマテリアルで主観的に評価すると、変換ベースのオーディオコーデックのパフォーマンスが大幅に低下する。
長期ポストフィルタリング(LTPF)は、このインターハーモニックノイズの低減に役立つ変換ベースのオーディオコーディング用のツールである。これは、変換復号後に時間領域信号に適用されるポストフィルタに依存している。このポストフィルタは本質的に無限インパルス応答(IIR)フィルタであり、ピッチ情報(ピッチラグなど)などのパラメータによって制御される櫛状の周波数応答を備えている。
良好なロバスト性のために、ポストフィルタパラメータ(ピッチラグ、およびいくつかの例では、フレームごとの利得)は、エンコーダ側で推定され、例えば利得がゼロでない場合にビットストリームで符号化される。例では、利得がゼロの場合は1ビットで通知され、信号にハーモニック部分が含まれていない場合に使用される非アクティブなポストフィルタに対応する。
LTPFは3GPP EVS標準[1]で最初に導入され、その後MPEG−H 3Dオーディオ標準[2]に統合された。対応する特許は[3]と[4]である。
従来技術では、デコーダにおける他の機能がピッチ情報を利用することができる。例は、パケット損失の一隠蔽法(PLC)または誤り隠蔽である。PLCは、オーディオコーデックで使用され、エンコーダからデコーダへの送信中に失われたパケットまたは破損したパケットを隠蔽する。従来技術では、PLCは、デコーダ側で実行され、変換領域または時間領域のいずれかで復号された信号を外挿することができる。理想的には、隠蔽される信号はアーティファクトがなく、欠落した信号と同じスペクトル特性を備えるべきある。この目標は、隠蔽される信号にハーモニック構造が含まれている場合は達成するのが特に困難である。
この場合、ピッチベースのPLC技術が許容できる結果を生み出す可能性がある。これらのアプローチは、信号が局所的に静止していると仮定し、外挿されたピッチ周期を使用して周期的な信号を合成することにより、失われた信号を回復する。これらの手法は、CELPベースの音声コーディングで使用できる(例えば、ITU−T G.718 [5]を参照)。また、それらはPCMコーディングでも使用できる(ITU−T G.711 [6])。さらに最近では、これらはMDCTベースのオーディオコーディングに適用され、3GPP EVS規格のTCX時間領域隠蔽(TCX TD−PLC)が最も良い例である[7]。
ピッチ情報(ピッチラグの場合もある)は、ピッチベースのPLCで使用される主なパラメータである。このパラメータは、エンコーダ側で推定し、ビットストリームに符号化できる。この場合、最後の良好なフレームのピッチラグを使用して、現在失われたフレームを隠蔽する([5]や[7]などのように)。ビットストリームにピッチラグがない場合は、復号された信号に対してピッチ検出アルゴリズムを実行することにより、デコーダ側で推定できる([6]などのように)。
3GPP EVS標準([1]および[7]を参照)では、LTPFとピッチベースのPLCの両方が同じMDCTベースのTCXオーディオコーデックで使用される。どちらのツールも同じピッチラグパラメータを共有する。LTPFエンコーダは、ピッチラグパラメータを推定して符号化する。このピッチラグは、利得がゼロ以外のときにビットストリームに存在する。デコーダ側では、デコーダはこの情報を使用して、復号された信号をフィルタリングする。パケット損失の場合、最後の良好なフレームのLTPF利得が特定の閾値を上回り、他の条件が満たされると、ピッチベースのPLCが使用される(詳細は[7]を参照)。その場合、ピッチラグはビットストリームに存在し、PLCモジュールで直接使用できる。
従来技術のビットストリームシンタックスは
しかし、いくつかの問題が発生する可能性がある。
ピッチラグパラメータは、すべてのフレームのビットストリームで符号化されはしない。フレームで利得がゼロの場合(LTPFが非アクティブ)、ピッチラグ情報はビットストリームに存在しない。これは、信号のハーモニックコンテンツが支配的でない、および/または十分に安定していない場合に発生する可能性がある。
したがって、ピッチラグの符号化を利得に基づいて区別することにより、他の機能(例えば、PLC)によってピッチラグが得られない場合がある。
例えば、信号がわずかにハーモニックであり、LTPFには不十分であるが、ピッチベースのPLCを使用するには十分であるフレームがある。その場合、ピッチラグパラメータはビットストリームには存在しないが、デコーダ側で必要になる。
1つの解決策は、デコーダ側に第2のピッチ検出器を追加することであるが、これはかなりの複雑さを追加する。これは、低電力デバイスを対象とするオーディオコーデックの問題である。
米国特許出願公開第2017/0140769号明細書 米国特許出願公開第2017/0133029号明細書
3GPP TS 26.445;Codec for Enhanced Voice Services(EVS);Detailed algorithmic description ISO/IEC 23008−3:2015;Information technology−−High efficiency coding and media delivery in heterogeneous environments−−Part 3:3D audio ITU−T G.718:Frame error robust narrow−band and wideband embedded variable bit−rate coding of speech and audio from 8−32 kbit/s ITU−T G.711 Appendix I:A high quality low−complexity algorithm for packet loss concealment with G.711 3GPP TS 26.447;Codec for Enhanced Voice Services(EVS);Error concealment of lost packets
例によれば、フレームのシーケンスに分割されたオーディオ信号に関連付けられたオーディオ信号情報を復号するための装置であって、
符号化されたオーディオ信号情報を読み取るように構成されたビットストリームリーダであって、
第1のフレームと第2のフレームのオーディオ信号の符号化された表現と、
第1のフレームの第1のピッチ情報、および第1の値を有する第1の制御データ項目と、
第2のフレームの第2のピッチ情報、および第1の値とは異なる第2の値を有する第2の制御データ項目と
を有するビットストリームリーダ、および
長期ポストフィルタLTPFを、
第2の制御データ項目が第2の値を有するとき、第2のピッチ情報を使用して第2のフレームのオーディオ信号の復号された表現をフィルタリングし、
第1の制御データ項目が第1の値を有するとき、第1のフレームのLTPFを非アクティブにする
ように制御すべく構成されたコントローラ
を備える装置が提供される。
したがって、装置は、LTPFが適切でなくても、誤り隠蔽に対してフレームを使用しながら、LTPFに適したフレームとLTPFに適していないフレームとを区別することが可能である。例えば、高次のハーモニック性の場合、装置はLTPFのピッチ情報(例えば、ピッチラグ)を利用することができる。低次のハーモニック性の場合、装置は、LTPFのためのピッチ情報の使用を回避し得るが、他の機能(例えば、隠蔽)のためのピッチ情報を利用し得る。
例によれば、ビットストリームリーダは、第3のフレームを読み取るように構成され、第3のフレームは、第1のピッチ情報および/または第2のピッチ情報の有無を示す制御データ項目を有する。
例によれば、第3のフレームは、第1のピッチ情報、第1の制御データ項目、第2のピッチ情報、および第2の制御データ項目を欠くフォーマットを有する。
例によれば、第3の制御データ項目は、第3のフレームを第1および第2のフレームと区別する値を有する1つの単一ビットで符号化される。
例によれば、符号化されたオーディオ信号情報では、第1のフレームについて、1つの単一ビットが第1の制御データ項目に予約され、固定のデータフィールドが第1のピッチ情報に予約される。
例によれば、符号化されたオーディオ信号情報において、第2のフレームについて、1つの単一ビットが第2の制御データ項目に予約され、固定のデータフィールドが第2のピッチ情報のために予約される。
例によれば、第1の制御データ項目および第2の制御データ項目は、符号化されたオーディオ信号情報の同じ部分またはデータフィールドに符号化される。
例によれば、符号化されたオーディオ信号情報は、第3の制御データ項目を符号化する1つの第1のシグナリングビットを含み、第1のピッチ情報(16b)および/または第2のピッチ情報(17b)が存在していることを示す第3の制御データ項目(18e)の値の場合、第2のシグナリングビットは第1の制御データ項目(16c)および第2の制御データ項目(17c)を符号化する。
例によれば、装置は、第1および/または第2のピッチ情報を使用して、後続の適切に復号されていないオーディオフレームを隠蔽するように構成された隠蔽ユニットをさらに備え得る。
例によれば、隠蔽ユニットは、無効なフレームの復号の判定の場合、以前に正しく復号されたフレームに関するピッチ情報が格納されているかどうかをチェックし、無効に復号されたフレームを、格納されたピッチ情報を使用して取得されたフレームで隠蔽するように構成され得る。
したがって、オーディオ信号がLTPFに準拠しているときだけでなく、オーディオ信号が隠蔽に準拠しているときはいつでも、良好な隠蔽を得ることが可能である。ピッチ情報が取得されると、ピッチラグを推定する必要がないため、複雑さが軽減される。
例によれば、オーディオ信号を符号化するための装置であって、
オーディオ信号のピッチに関連するピッチ情報を取得するように構成されたピッチ推定器、
オーディオ信号のハーモニック性に関連するハーモニック性情報を取得するように構成された信号分析器、および
符号化されたオーディオ信号情報符号化フレームを準備してビットストリームに、
第1のフレーム、第2のフレーム、および第3のフレームのオーディオ信号の符号化された表現、
第1のフレームの第1のピッチ情報、および第1の値を有する第1の制御データ項目、
第2のフレームの第2のピッチ情報、および第1の値とは異なる第2の値を有する第2の制御データ項目、および
第1のフレーム、第2のフレーム、第3のフレームの第3の制御データ項目
を含めるように構成されたビットストリーム形成器を備え、
それにおいて、第1の値および第2の値は、ハーモニック性情報に関連付けられた第2の基準に依存し、
第1の値は、第1のフレームのオーディオ信号のハーモニック性に関する第2の基準を満たしていないことを示し、
第2の値は、第2のフレームのオーディオ信号のハーモニック性に関する第2の基準を満たしていることを示し、
それにおいて、第2の基準は、少なくとも1つの第2のハーモニック性測定値が少なくとも1つの第2の閾値より大きいときに満たされる少なくとも条件を含み、
第3の制御データ項目は、第3のフレームを第1および第2のフレームと区別する値を持つ1つの単一ビットに符号化され、第3のフレームは第1の基準が満たされない場合、符号化され、第1の基準が満たされた場合に、第1および第2のフレームが符号化され、第1の基準は少なくとも1つの第1のハーモニック性測定値が少なくとも1つの第1閾値より大きいときに満たされる少なくとも1つの条件を含み、それにおいて、ビットストリームでは、第1のフレームの場合、1つの単一ビットが第1の制御データ項目に予約され、固定データフィールドが第1のピッチ情報に予約され、
ビットストリームでは、第2のフレームについて、1つの単一ビットが第2の制御データ項目に予約され、固定データフィールドが第2のピッチ情報に予約され、
それにおいて、ビットストリームでは、第3のフレームについて、固定データフィールドおよび/または第1および第2の制御項目のためにビットが予約されていない装置が提供される。
したがって、デコーダは、LTPFに有用なフレーム、PLCにのみ有用なフレーム、LTPFとPLCの両方に役に立たないフレームを区別することができる。
例によれば、第2の基準は、前のフレームの少なくとも1つのハーモニック性測定値が少なくとも1つの第2の閾値よりも大きいときに満たされる追加の条件を含む。
例によれば、信号分析器は、第2の基準の条件として、2つの連続するフレーム間で信号が安定しているかどうかを判定するように構成されている。
したがって、デコーダは、例えば、安定した信号と不安定な信号とを区別することが可能である。不安定な信号の場合、デコーダはLTPFのピッチ情報の使用を回避できるが、他の機能(例えば、隠蔽)のピッチ情報を使用できる。
例によれば、第1および第2のハーモニック性の測定値は、異なるサンプリングレートで取得される。
例によれば、ピッチ情報は、ピッチラグ情報またはその処理版を含む。
例によれば、ハーモニック性情報は、自己相関値および/または正規化された自己相関値および/またはそれらの処理版の少なくとも1つを含む。
例によれば、フレームのシーケンスに分割されたオーディオ信号に関連付けられたオーディオ信号情報を復号するための方法であって、
第1のフレームと第2のフレームのオーディオ信号の符号化された表現と、
第1のフレームの第1のピッチ情報、および第1の値を有する第1の制御データ項目(16c)と、
第2のフレームの第2のピッチ情報、および第1の値とは異なる第2の値を有する第2の制御データ項目と
を含む符号化されたオーディオ信号情報を読み取ること、
第1の制御データ項目が第1の値を持っているという判定において、長期ポストフィルタLTPFの第1のピッチ情報を使用すること、および
第2の制御データ項目(17c)の第2の値の判定において、LTPFを非アクティブにすること
を含む方法が提供される。
例によれば、この方法は、第1または第2の制御データ項目が第1または第2の値を有するという判定において、誤り隠蔽機能の第1または第2のピッチ情報を使用することをさらに含む。
例によれば、フレームに分割された信号に関連付けられたオーディオ信号情報を符号化する方法であって、
オーディオ信号から測定値を取得すること、
第2の基準を満たしていることを検証することであって、第2の基準は測定値に基づいており、少なくとも1つの第2のハーモニック性測定値が第2の閾値より大きいときに満たされる少なくとも1つの条件を含む、検証すること、および
第1のフレームおよび第2のフレームおよび第3のフレームのオーディオ信号の符号化された表現、
第1のフレームの第1のピッチ情報と、第1の値を有する第1の制御データ項目および第3の制御データ項目、
第2のフレームの第2のピッチ情報および第1の値とは異なる第2の値を有する第2の制御データ項目および第3の制御データ項目を含む、フレームを有する符号化されたオーディオ信号情報を形成することを含み、
それにおいて第1の値および第2の値は、第2の基準に依存し、第1の値は、第1のフレームのオーディオ信号のハーモニック性に基づいて第2の基準を満たしていないことを示し、第2の値は、第2のフレームのオーディオ信号のハーモニック性に基づいて第2の基準が満たされていることを示し、
第3の制御データ項目は、第1の基準を満たしていることに関連して、第3のフレームを第1および第2のフレームから区別する値を有する1つの単一ビットであり、第3の制御データ項目が第1の基準を満たしていないことを示すとき、少なくとも1つの第1のハーモニック性測定値が少なくとも1つの第1の閾値よりも高いときに満たされる少なくとも1つの条件に基づいて、第3のフレームを識別し、
それにおいて符号化されたオーディオ信号情報は、第1のフレームについて、1つの単一ビットが第1の制御データ項目および第1のピッチ情報の固定データフィールド用に予約されるように形成され、
それにおいて符号化されたオーディオ信号情報は、第2のフレームについて、1つの単一ビットが第2の制御データ項目および第2のピッチ情報の固定データフィールド用に予約されるように形成され、
それにおいて符号化されたオーディオ信号情報は、第3のフレームについて、固定データフィールド用にビットが予約されず、ビットが第1の制御データ項目と第2の制御データ項目用に予約されない、
を含むフレームを有する符号化されたオーディオ信号情報を形成する方法が提供される。
例によれば、
オーディオ信号の符号化/復号をするための方法であって、
エンコーダで、オーディオ信号を符号化し、ハーモニック性情報および/またはピッチ情報を導出すること、
エンコーダで、ハーモニック性情報および/またはピッチ情報が少なくともLTPFおよび/または誤り隠蔽機能に適しているかどうかを判定すること、
デコーダからエンコーダに送信し、および/またはオーディオ信号のデジタル表現と、ハーモニック性に関連する情報を含むビットストリームをメモリに格納し、ピッチ情報がLTPFおよび/または誤り隠蔽に適合しているかどうかをシグナリングすること、
デコーダで、オーディオ信号のデジタル表現を復号し、ピッチ情報を使用して、シグナリングによるLTPFおよび/または誤り隠蔽がエンコーダを形成すること
を含む方法が提供される。
例では、エンコーダは上記または下記の例のいずれかに従い、および/またはデコーダは上記または下記の例のいずれかに従い、および/または符号化は上記または下記の例に従い、および/または復号は上記または以下の例に従う。
例によれば、プロセッサによって実行されるとき、上記または下記の方法を実行する命令を格納する非一時的メモリユニットが提供される。
したがって、エンコーダは、信号フレームが長期ポストフィルタリング(LTPF)および/またはパケット損失の一隠蔽法(PLC)に役立つかどうかを判定し、判定の結果に従って情報を符号化することができる。デコーダは、エンコーダから取得した情報に従って、LTPFおよび/またはPLCを適用できる。
オーディオ信号情報を符号化するための装置を示す。 オーディオ信号情報を符号化するための装置を示す。 図1または2の装置によって符号化され得る符号化された信号情報のフォーマットを示す。 図1または2の装置によって符号化され得る符号化された信号情報のフォーマットを示す。 図1または2の装置によって符号化され得る符号化された信号情報のフォーマットを示す。 オーディオ信号情報を符号化するための方法を示す。 オーディオ信号情報を符号化するための方法を示す。 オーディオ信号情報を復号するための装置を示す。 符号化されたオーディオ信号情報のフォーマットを示す。 符号化されたオーディオ信号情報のフォーマットを示す。 オーディオ信号情報を復号するための装置を示す。 オーディオ信号情報を復号するための方法を示す。 オーディオ信号情報を符号化/復号するためのシステムを示す。 オーディオ信号情報を符号化/復号するためのシステムを示す。 符号化/復号の方法を示す。
5.エンコーダ側
図1は装置10を示す。装置10は、信号を符号化するためのもの(エンコーダ)であってもよい。例えば、装置10は、オーディオ信号11を符号化して、符号化されたオーディオ信号情報(例えば、以下で使用される用語で、情報12、12’、12”)を生成することができる。
装置10は、(例えば、元のオーディオ信号をサンプリングすることによって)オーディオ信号のデジタル表現を取得し、それをデジタル形式で処理する(示されていない)コンポーネントを含み得る。オーディオ信号は、フレーム(例えば、時間間隔のシーケンスに対応する)またはサブフレーム(フレームの副次的な分割であり得る)に分割され得る。例えば、各間隔は20ミリ秒の長さであり得る(サブフレームは10ミリ秒の長さであり得る)。各フレームは、時間領域(TD)において有限数のサンプル(例えば、20ミリ秒フレームに対して1024または2048サンプル)を含み得る。例では、フレームまたはそのコピーまたはその処理版は、(部分的または完全に)周波数領域(FD)の表現に変換され得る。符号化されたオーディオ信号情報は、例えば、符号励振線形予測(CELP)、または代数CELP(ACELP)タイプ、および/またはTCXタイプのものであり得る。例では、装置10は、フレームあたりのサンプル数を減らすために(図示されていない)ダウンサンプラを含み得る。例では、装置10は、リサンプラ(アップサンプラ、ローパスフィルタ、およびアップサンプラタイプであり得る)を含み得る。
例では、装置10は、符号化されたオーディオ信号情報を通信ユニットに提供することができる。通信ユニットは、他のデバイスと通信する(例えば、符号化されたオーディオ信号情報を他のデバイスに送信する)ハードウェア(例えば、少なくともアンテナを備える)を備えてもよい。通信ユニットは、特定のプロトコルに従って通信を実行することができる。通信は無線であってもよい。Bluetooth規格に準拠した送信が行われる場合がある。例では、装置10は、記憶装置を備える(またはそれに符号化されたオーディオ信号情報を格納する)ことができる。
装置10は、フレーム内の(例えば、時間間隔の間の)オーディオ信号11のピッチ情報13aを推定して提供することができる出力ピッチ推定器13を備えることができる。ピッチ情報13aは、ピッチラグまたはその処理版を含み得る。ピッチ情報13aは、例えば、オーディオ信号11の自己相関を計算することによって取得され得る。ピッチ情報13aは、バイナリデータフィールド(ここでは「ltpf_pitch_lag」で示される)で表すことができ、これは、例では、7から11(例えば、9ビット)の間に含まれるビット数で表すことができる。
装置10は、(例えば、時間間隔中に)フレームのオーディオ信号11を分析することができる信号分析器14を備えることができる。信号分析器14は、例えば、オーディオ信号11に関連するハーモニック性情報14aを取得することができる。ハーモニック性情報は、例えば、相関の情報(例えば、自己相関の情報)、利得の情報(例えば、ポストフィルタ利得の情報)、周期性の情報、予測可能性の情報などの少なくとも1つまたは組み合わせを含むか、またはそれらに基づくことができる。これらの値の少なくとも1つは、例えば、正規化または処理され得る。
例では、ハーモニック性情報14aは、1ビットで符号化され得る情報(ここでは「ltpf_active」で示される)を含み得る。ハーモニック性情報14aは、信号のハーモニック性の情報を含むことができる。ハーモニック性情報14aは、信号による基準(「第2の基準」)を満たすことに基づくことができる。ハーモニック性情報14aは、例えば、第2の基準を満たしていること(信号のより高い周期性および/またはより高い予測可能性および/または安定性に関連し得る)と、第2の基準を満たしていないこと(低次のハーモニック性および/または低次の予測可能性および/または信号の不安定性に関連している可能性がある)との間を区別できる。低次のハーモニック性は一般にノイズに関連している。ハーモニック性情報14aのデータの少なくとも1つは、第2の基準の検証および/または第2の基準によって確立された状態の少なくとも1つの検証に基づくことができる。例えば、第2の基準は、少なくとも1つのハーモニック性に関連する測定値(例えば、正規化および/または処理されてもよい自己相関、ハーモニック性、利得、予測可能性、周期性などの1つまたは組み合わせ)またはその処理版と、少なくとも1つの閾値との比較を含み得る。例えば、閾値は「第2の閾値」であり得る(2つ以上の閾値が可能である)。いくつかの例では、第2の基準は、前のフレーム(例えば、現在のフレームの直前のフレーム)の条件の検証を含む。いくつかの例では、ハーモニック性情報14aは、1ビットで符号化され得る。他のいくつかの例では、ビットのシーケンス(例えば、「ltpf_active」用の1ビットと、例えば、利得の情報または他のハーモニック性情報を符号化するための他の何らかのビット)である。
セレクタ26によって示されるように、出力されるハーモニック性情報21aは、ピッチ情報13aの実際の符号化を制御することができる。例えば、ハーモニック性が極端に低い場合、ピッチ情報13aがビットストリームに符号化されるのを防ぎ得る。
セレクタ25によって示されるように、出力ハーモニック性情報21aの値(「ltpf_pitch_lag_present」)は、ハーモニック性情報14aの実際の符号化を制御することができる。したがって、(例えば、第2の基準とは異なる基準に基づいて)極端に低次のハーモニック性を検出した場合、ハーモニック性情報14aがビットストリームに符号化されるのを防ぐことができる。
装置10は、ビットストリーム形成器15を含み得る。ビットストリーム形成器15は、(例えば、時間間隔において)オーディオ信号11の(12、12’、または12”で示される)符号化されたオーディオ信号情報を提供し得る。特に、ビットストリーム形成器15は、少なくともオーディオ信号11のデジタル版、ピッチ情報13a(例えば、「ltpf_pitch_lag」)、およびハーモニック性情報14a(例えば、「ltpf_active」)を含むビットストリームを形成することができる。符号化されたオーディオ信号情報は、デコーダに提供され得る。符号化されたオーディオ信号情報は、例えば格納および/または受信機に送信され得る(次に、装置10によって符号化されるオーディオ情報を復号し得る)ビットストリームであり得る。
符号化されたオーディオ信号情報のピッチ情報13aは、デコーダ側で、長期ポストフィルタ(LTPF)に使用されてもよい。LTPFはTDで動作し得る。例では、ハーモニック性情報14aがより高次のハーモニック性を示す場合、LTPFは、(例えば、ピッチ情報13aを使用して)デコーダ側でアクティブ化される。ハーモニック性情報14aが低次の(中間の)ハーモニック性(またはいずれにせよLTPFに適さないハーモニック性)を示す場合、LTPFはデコーダ側で非アクティブ化または減衰される(例えば、ピッチ情報が依然ビットストリームにて符号化されていても、ピッチ情報13aを使用せずに)。ハーモニック性情報14aがフィールド「ltpf_active」(1ビットで符号化され得る)を含む場合、ltpf_active=0は「デコーダでLTPFを使用しない」ことを意味し得るが、ltpf_active=1は「LTPFデコーダで使用する」ことを意味し得る。例えば、ltpf_active=0は、例えば、ハーモニック性測定値を第2の閾値と比較した後、ltpf_active=1に関連するハーモニック性よりも低次のハーモニック性に関連し得る。本文書の規則に従うと、ltpf_active=0はltpf_active=1に関連付けられたハーモニック性よりも低次のハーモニック性を指すが、(例えば、バイナリ値の異なる意味に基づく)異なる規則が規定される場合がある。ltpf_activeの値を判定するために、追加または代替の基準および/または条件を使用できる。例えば、ltpf_active=1と述べるために、(例えば、同様に前のフレームに関連するハーモニック性測定値をチェックすることにより)信号が安定しているかどうかもチェックされ得る。
LTPF機能に加えて、ピッチ情報13aは、例えば、デコーダでパケット損失の一隠蔽法(PLC)動作を実行するために使用されてもよい。例では、ハーモニック性情報14aに関係なく(例えば、ltpf_active=0の場合でも)、PLCは実行される。したがって、例では、ピッチ情報13aは常にデコーダのPLC機能によって使用されるが、同じピッチ情報13aは、ハーモニック性情報14aによって設定される条件のみで、デコーダのLTPF機能によって唯一使用される。
例えば、ハーモニック性情報13aの送信がデコーダにとって有用性が高い情報であるかどうかを判定するために、(第2の基準とは異なり得る)「第1の基準」を満たしているかいないかを検証することも可能である。
例において、信号分析器14が、ハーモニック性(例えば、ハーモニック性の特定の測定値)が第1の基準を満たしていない(例えばハーモニック性、特にハーモニック性の測定値が、特定の「第1の閾値」よりも高いという条件で第1の基準を満たす)とき、ピッチ情報13aを符号化しないという選択は、装置10によって行われ得る。その場合、例えば、デコーダは符号化されたフレームのデータをLTPF機能にもPLC機能にも使用しない(少なくとも、いくつかの例では、デコーダはピッチ情報に基づいていない隠蔽戦略を使用するが、デコーダベースの推定、FD隠蔽技法、または他の技法など、様々な隠蔽技法を使用する)。
上記の第1および第2の閾値は、いくつかの例では、次のように選択できる。
−第1の閾値および/または第1の基準は、PLCに適したオーディオ信号とPLCに適さないオーディオ信号を区別する、および
−第2の閾値および/または第2の基準は、LTPFに適したオーディオ信号とLTPFに適していないオーディオ信号を区別する。
例では、第1および第2の閾値は、第1および第2の閾値と比較されるハーモニック性測定値が0と1の間の値で(この場合0はハーモニック性信号ではないことを意味し、1は完全にハーモニック性信号であることを意味する)、次いで、第1の閾値の値が、第2の閾値の値よりも低い(例えば、第1の閾値に関連するハーモニック性は、第2の閾値に関連するハーモニック性よりも低い)と仮定して選択できる。
第2の基準に対して設定された条件の中で、オーディオ信号11の時間的進展がLTPFのための信号を使用することが可能であるかどうかをチェックすることも可能である。例えば、前のフレームについて、同様の(または同じ)閾値に達したかどうかをチェックすることが可能であり得る。例では、ハーモニック性測定値(またはその処理版)の組み合わせ(または重み付けされた組み合わせ)は、1つまたは複数の閾値と比較され得る。異なるハーモニック性測定値(例えば、異なるサンプリングレートで取得)を使用できる。
図5は、装置10によって準備され得る符号化されたオーディオ信号情報のフレーム12”(またはフレームの一部)の例を示す。フレーム12”は、第1のフレーム16”、第2のフレーム17”、および第3のフレーム18”の間で区別され得る。オーディオ信号11の時間的進展において、第1のフレーム16”は、例えば、特定の時間間隔のオーディオ信号の特徴(例えば、ハーモニック性)に従って(例えば、第1および/または第2の基準を満たす信号または満たさない信号、および/または第1の閾値および/または第2の閾値よりも大きいまたは小さいハーモニック性に基づく)、第2のフレーム17”および/または第3のフレームによって置き換えられてもよく、逆もまた同様である。
第1のフレーム16”は、PLCに適しているが必ずしもLTPFには適していない(第1の基準が満たされ、第2の基準が満たされていない)ハーモニック性に関連するフレームであり得る。例えば、ハーモニック性の測定値が第2の閾値よりも低いか、他の条件が満たされていない(例えば、信号が前のフレームと現在のフレームの間で安定していない)。第1のフレーム16”は、オーディオ信号11の符号化された表現16aを含み得る。第1のフレーム16”は、第1のピッチ情報16b(例えば、「ltpf_pitch_lag」)を含み得る。第1のピッチ情報16bは、例えば、ピッチ推定器13によって取得されたピッチ情報13aを符号化する、またはそれに基づくことができる。第1のフレーム16”は、第1の制御データ項目16c(例えば、本規則に従って「0」の値を有する「ltpf_active」)を含み得、これは、例えば、信号分析器14によって得られるハーモニック性情報14aを含み得るか、またはそれに基づき得る。この第1のフレーム16”は、(フィールド16aに)デコーダ側でオーディオ信号を復号し、さらに必要な場合にPLCにピッチ情報13a(16bで符号化された)を使用するのに十分な情報を含むことができる。例において、デコーダは、第2の基準(例えば、信号の低ハーモニック性測定値および/または2つの連続するフレーム間の非安定信号)を満たさないハーモニック性のために、LTPFのピッチ情報13aを使用しない。
第2のフレーム17”は、LTPFに十分に保たれるハーモニック性に関連付けられたフレームであり得(例えば、測定値によるハーモニック性などの第2の基準が第2の閾値より高く、および/または前のフレームがまた少なくとも特定の閾値よりも大きいことを満たす)。第2のフレーム17”は、オーディオ信号11の符号化された表現17aを含み得る。第2のフレーム17”は、第2のピッチ情報17b(例えば、「ltpf_pitch_lag」)を含み得る。第2のピッチ情報17bは、例えば、ピッチ推定器13によって得られたピッチ情報13aを符号化する、またはそれに基づくことができる。第2のフレーム17”は、第2の制御データ項目17c(例えば、本規則に従って「1」の値を有する「ltpf_active」)を含むことができ、これは、例えば、信号分析器14によって得られるハーモニック性情報14aを含み得る、またはそれに基づき得る。この第2のフレーム17”には、デコーダ側でオーディオ信号11が復号され、さらにピッチ情報17b(ピッチ推定器の出力13aから)が必要な場合にPLCに使用されるように、十分な情報が含まれて得る。さらに、デコーダは、特に信号のハーモニック性に基づいて(本規則に従ってltpf_active=1で示されるように)第2の基準を満たすため、LTPFのピッチ情報17b(13a)を使用する。
例では、第1のフレーム16”および第2のフレーム17”は、制御データ項目16cおよび17cの値によって(例えば、「ltpf_active」のバイナリ値によって)識別される。
例では、ビットストリームで符号化されるときに、第1および第2のフレームが存在しており、第1および第2のピッチ情報(16b、17b)と、第1および第2の制御データ項目(16c、17c)について、次のような形式になっている。
−1つの単一ビットが、第1および第2の制御データ項目16cおよび17cを符号化するように予約されている、また
−固定データフィールドが、第1および第2のピッチ情報16bおよび17bのそれぞれに予約されている。
したがって、単一の第1のデータ項目16cは、フレーム内の特定の(例えば、固定された)部分のビットの値によって、単一の第2のデータ項目17cと区別され得る。また、第1および第2のピッチ情報は、予約された位置(例えば、固定の位置)の1つの固定ビット数に挿入されてもよい。
例(例えば、図4および/または5に示される)では、ハーモニック性情報14aは、第2の基準を満たすことと満たしていないことをまったく区別していない、例えば、高次のハーモニック性とより低次のハーモニック性をまったく区別していない。いくつかの場合、ハーモニック性情報は、利得の情報(例えば、ポストフィルタ利得)、および/または相関の情報(自己相関、正規化相関)、および/またはそれらの処理版などの追加のハーモニック性情報を含むことができる。いくつかの場合、ここで言及がなされ、利得または他のハーモニック性情報が1〜4ビット(例えば、2ビット)で符号化される場合があり、また信号分析器14によって取得されたポストフィルタ利得を示す場合がある。
追加のハーモニック性情報が符号化される例では、デコーダは、ltpf_active=1を認識することで(例えば、第2のフレーム17’または17”)、第2のフレーム17’または17”の後続のフィールドが追加のハーモニック性情報17dを符号化することを理解できる。逆に、ltpf_active=0を識別することにより(例えば、第1のフレーム16’または16”)、デコーダは、フレーム17’または17”において追加のハーモニック性情報フィールド17dが符号化されないことを理解することができる。
例(例えば、図5)において、第3のフレーム18”は、ビットストリームにおいて符号化され得る。第3のフレーム18”は、ピッチ情報およびハーモニック性情報を欠くフォーマットを有するように定義され得る。そのデータ構造は、データ16b、16c、17b、17cを符号化するためのビットを提供しない。しかし、第3のフレーム18”は、オーディオ信号および/またはエンコーダに有用な他の制御データの符号化された表現18aを依然として含み得る。
例において、第3のフレーム18”は、第1および第2のフレーム16”および17“の値とは異なる第3のフレームの値を有し得る第3の制御データ18e「ltpf_pitch_lag_present」)によって、第1および第2のフレームから区別される。例えば、第3の制御データ項目18eは、第3のフレーム18”を識別することに関しては「0」であり得、第1および第2のフレーム16”および17”を識別することに関しては1であり得る。
例において、第3のフレーム18”は、情報の信号がLTPFおよびPLCにとって有用ではない場合に(例えば、非常に低次のハーモニック性のために、例えば、ノイズが優勢である場合に)符号化され得る。したがって、制御データ項目18e(「ltpf_pitch_lag_present」)は、ピッチラグに価値のある情報がなく、したがって、それを符号化することは意味をなさないことをデコーダに通知するために「0」であり得る。これは、第1の基準に基づく検証プロセスの結果であり得る。
本規則によれば、第3の制御データ項目18eが「0」である場合、ハーモニック性の測定値は、低次のハーモニック性に関連する第1の閾値よりも低くなり得る(これは、第1の基準を満たしていることを検証するための1つの技術であり得る)。
図3および図4は、第3の制御項目18eが提供されていない第1のフレーム16、16’および第2のフレーム17、17’の例を示している(第2のフレーム17’は、いくつかの例では任意選択であり得る追加のハーモニック性情報を符号化する)。一部の例では、これらのフレームは使用されない。ただし、特に、いくつかの例では、第3の制御項目18eがないことを除いて、フレーム16、16’、17、17’には、図5のフレーム16”と17”と同じフィールドがある。
図2は、装置10の特定の実装形態であり得る装置10’の例を示す。したがって、装置10の特性(信号の機能、コード、送信/記憶機能、Bluetoothの実装など)はここでは繰り返されない。装置10’は、オーディオ信号11の符号化されたオーディオ信号情報(例えば、フレーム12、12’、12”)を準備することができる。装置10’は、ピッチ推定器13、信号分析器14、およびビットストリーム形成器15を含み得、装置10のものと同じ(または非常に類似)であり得る。装置10’はまた、装置10と同様に、サンプリング、リサンプリング、およびフィルタリングのためのコンポーネントを含み得る。
ピッチ推定器13は、ピッチ情報13a(例えば、「ltpf_pitch_lag」などのピッチラグ)を出力することができる。
信号分析器14は、ハーモニック性情報24c(14a)を出力することができ、それは、いくつかの例では、複数の値(例えば、複数の値から構成されるベクトル)によって形成され得る。信号分析器14は、ハーモニック性測定値24aを出力することができるハーモニック性測定器24を含むことができる。ハーモニック性測定値24aは、正規化または非正規化相関/自己相関の情報、利得(例えば、ポストフィルタ利得)の情報、周期性の情報、予測可能性の情報、信号の安定性および/または進展に関する情報、それらの処理版などを含み得る。参照符号24aは、複数の値を指し得るが、それらの少なくとも一部(またはすべて)は、同じでも異なっていてもよく、および/または同じ値の処理版であってよく、および/または異なるサンプリングレートで得られてもよい。
例において、ハーモニック性測定値24aは、第1のハーモニック性測定値24a’(第1のサンプリングレート、例えば6.4KHzで測定され得る)および第2のハーモニック性測定値24a”(例えば、第2のサンプリングレート、例えば12.8KHzで測定され得る)を含み得る。他の例で、同じ測定値が使用されてもよい。
ブロック21では、ハーモニック性測定値24a(例えば、第1のハーモニック性測定値24a’)が第1の基準を満たすかどうか、例えば、それらが第1の閾値を超えているかどうかが検証され、それはメモリ要素23に格納され得る。
例えば、少なくとも1つのハーモニック性測定値24a(例えば、第1のハーモニック性測定値24a’)は、第1の閾値と比較されてもよい。第1の閾値は、例えば、メモリ要素23(例えば、非一時的なメモリ要素)に格納されてもよい。ブロック21(これは、第1のハーモニック性測定値24a’と第1の閾値との比較器として見ることができる)は、オーディオ信号11のハーモニック性が第1の閾値を超えるかどうか(特に、第1のハーモニック性測定値24a’が第1の閾値を超えているかどうか)を示唆するハーモニック性情報21aを出力することができる。
例では、ltpf_pitch_presentは、例えば、
式中、
はサンプリングレート6.4kHzのオーディオ信号、
は現在のフレームの長さ、
は現在のフレームのピッチ推定器によって取得されたピッチラグであり、
はラグ
の長さ
の信号
の正規化された相関である。
いくつかの例では、他のサンプリングレートまたは他の相関が使用され得る。例において、第1の閾値は、0.6であり得る。実際、0.6を超えるハーモニック性測定値では、PLCを確実に実行できる場合があることに留意されたい。ただし、0.6をわずかに超える値でも、LTPFが確実に実行できることが必ず保証されるわけではない。
したがって、ブロック21からの出力21aは、ハーモニック性が第1の閾値を超える場合(例えば、第1のハーモニック性測定値24a’が第1の閾値を超える場合)「1」であり得、ハーモニック性が第1の閾値を下回る場合は「0」になり得るバイナリ値(例えば、「ltpf_pitch_lag_present」)であり得る。ハーモニック性情報21a(例えば、「ltpf_pitch_lag_present」)は、出力13aの実際の符号化を制御できる。(例えば、上に示したような第1の測定値24a’について)ハーモニック性が第1の閾値を下回っている(ltpf_pitch_lag_present=0)場合、または第1の基準が満たされない場合、ピッチ情報13aは符号化されない。ハーモニック性が第1の閾値を超えている(ltpf_pitch_lag_present=1)場合、または第1の基準が満たされている場合、ピッチ情報は実際に符号化される。出力21a(「ltpf_pitch_lag_present」)は、符号化され得る。したがって、出力21aは、第3の制御項目18eとして符号化され得る(例えば、出力21aが「0」である場合、第3のフレーム18”を符号化し、出力21aが「1」である場合、第2または第3のフレームを符号化するため)。
ハーモニック性測定器24は、任意選択で、例えば、ビットストリーム形成器15によって符号化オーディオ信号情報12、12’、12”に符号化され得る利得の情報(例えば、「ltpf_gain」)であり得るハーモニック性測定値24bを出力し得る。他のパラメータが提供される場合がある。他のハーモニック性情報24bは、いくつかの例では、デコーダ側のLTPFに使用され得る。
ブロック22によって示されるように、第2の基準の充足の検証は、少なくとも1つのハーモニック性測定値24a(例えば、第2のハーモニック性測定値24a”)に基づいて実行されてもよい。
第2の基準が基づく1つの条件は、少なくとも1つのハーモニック性測定値24a(例えば、第2のハーモニック性測定値24a”)と第2の閾値との比較であってもよい。第2の閾値は、例えば、メモリ要素23に(例えば、第1の閾値を格納するのとは異なるメモリ位置に)格納されてもよい。
また、第2の基準は、他の条件(例えば、2つの異なる条件が同時に満たされること)に基づいていてもよい。1つの追加の条件は、例えば、前のフレームに基づくことである場合がある。例えば、少なくとも1つのハーモニック性測定値24a(例えば、第2のハーモニック性測定値24a”)を閾値と比較することが可能である。
したがって、ブロック22は、少なくとも1つの条件または複数の条件(例えば、現在のフレームに関する1つの条件および前のフレームに関する1つの条件)に基づいていてもよいハーモニック性情報22aを出力することができる。
ブロック22は、(例えば、第2の基準の検証プロセスの結果として)オーディオ信号11のハーモニック性(現在のフレームおよび/または前のフレームに対する)が第2の閾値を超えているかどうか(また、例えば、第2のハーモニック性測定値24a”が第2の閾値を超えているかどうか)を示すハーモニック性情報22aを出力し得る。ハーモニック性情報22aは、ハーモニック性が第2の閾値を超える場合(例えば、第2のハーモニック性測定値24a”が第2の閾値を超える場合)に「1」であり得、(現在のフレームおよび/または前のフレームの)ハーモニック性が第2の閾値を下回る場合(例えば、第2のハーモニック性測定値24a”が第2の閾値を下回る場合)、「0」であり得るバイナリ値(例えば、「ltpf_active」)であり得る。
ハーモニック性情報22a(例えば、「ltpf_active」)は、(値24bが実際に提供される例では)値24bの実際の符号化を制御する(提供されている場合に)ことができ、ハーモニック性(例えば、第2のハーモニック性測定値24a”)が第2の基準を満たさない場合(例えば、ハーモニック性が第2の閾値未満であり、ltpf_active=0である場合)、さらなるハーモニック性情報24b(例えば、追加のハーモニック性情報)は符号化されず、ハーモニック性(例えば、第2のハーモニック性測定値24a”)が第2の基準を満たす場合(例えば、第2の閾値を超え、ltpf_active=1)、追加のハーモニック性情報24bが実際に符号化される。
特に、第2の基準は、異なるおよび/または追加の条件に基づくことができる。例えば、信号が時間的に安定しているかどうかを検証することができる(例えば、正規化された相関が2つの連続するフレームで同様の動作をするものであるかどうか)。
第2の閾値は、第1の閾値に関連付けられたハーモニック性であるコンテンツを超えるハーモニック性のコンテンツに関連付けられるように定義されてもよい。例では、第1および第2の閾値は、第1および第2の閾値と比較されるハーモニック性測定値が0と1の間の値で(この場合0はハーモニック性信号ではないことを意味し、1は完全にハーモニック性信号であることを意味する)、次いで、第1の閾値の値が、第2の閾値の値よりも低い(例えば、第1の閾値に関連するハーモニック性は、第2の閾値に関連するハーモニック性よりも低い)と仮定して選択できる。
値22a(例えば、「ltpf_active」)は、例えば、第1または第2の制御データ項目16cまたは17c(図4)になるように符号化されてもよい。値22aの実際の符号化は、値21aによって(例えば、セレクタ25を使用して)制御できる。例えば、「ltpf_active」は、ltpf_pitch_lag_present=1の場合にのみ符号化できるが、ltpf_pitch_lag_present=0の場合(第3のフレーム18”を符号化するため)「ltpf_active」はビットストリーム形成器15に提供されない。その場合、デコーダにピッチ情報を提供する必要はない。ハーモニック性は非常に低いことがあり、デコーダはPLCにもLTPFにもピッチ情報を使用しない。また、「ltpf_active」などのハーモニック性情報はその場合役に立たない場合がある。ピッチ情報がデコーダに提供されないため、デコーダがLTPFを実行しようとする可能性はない。
ここでは、ltpf_active値(16c、17c、22a)を取得する例を示す。他の代替戦略が実行されてもよい。
正規化された相関は、最初に次のように計算され得る。
はピッチラグの整数部分、
はピッチラグの小数部分、および
は(例えば)12.8kHzでリサンプリングされた入力信号であり、

で得られるFIRローパスフィルタのインパルス応答であり、
は例えば、次の値から選択する。
double tab_ltpf_interp_x12k8[15] = {
+6.698858366939680e-03, +3.967114782344967e-02, +1.069991860896389e-01
+2.098804630681809e-01, +3.356906254147840e-01, +4.592209296082350e-01
+5.500750019177116e-01, +5.835275754221211e-01, +5.500750019177116e-01
+4.592209296082350e-01, +3.356906254147840e-01, +2.098804630681809e-01
+1.069991860896389e-01, +3.967114782344967e-02, +6.698858366939680e-03};
その後、LTPFアクティブ化ビット(「ltpf_active」)は、次の手順に従って取得できる。
if (
(mem_ltpf_active==0 && mem_nc>0.94 && nc>0.94) ||
(mem_ltpf_active==1 && nc>0.9) ||
(mem_ltpf_active==1 && abs(pit-mem_pit)<2 && (nc-mem_nc)>-0.1 && nc>0.84)
)
{
ltpf_active = 1;
}
else
{
ltpf_active = 0;
}
式中、mem_ltpf_activeは前のフレームのltpf_activeの値であり(前のフレームでltpf_pitch_present=0の場合は0)、mem_ncは前のフレームのncの値であり(前のフレームでltpf_pitch_present=0の場合は0)、pit=pitch_int+pitch_fr/4およびmem_pitは、前のフレームのピットの値である(前のフレームでltpf_pitch_present=0の場合は0である)。この手順は、例えば、図6bに示されている(以下も参照されたい)。
図2の図式化は純粋に指標であることに留意することが重要である。ブロック21、22およびセレクタの代わりに、異なるハードウェアおよび/またはソフトウェアユニットが使用されてもよい。例では、ブロック21、22、ピッチ推定器、信号分析器および/またはハーモニック性測定器および/またはビットストリーム形成器などのコンポーネントの少なくとも2つは、単一の要素として実装されてもよい。
実行された測定に基づいて、以下を区別することが可能である。
−第3のステータス
・第1の基準が満たされていない。
・ブロック21およびブロック22の出力21aおよび22aがともに「0」である。
・出力13a(「例えば、「ltpf_pitch_lag」)、24b(例えば、追加のハーモニック性情報、任意選択)、および22a(例えば、「ltpf_active」)は符号化されていない。
・出力21a(例えば、「ltpf_pitch_lag_present」)の値「0」のみが符号化される。
・第3のフレーム18”は、第3の制御項目「0」(例えば、「ltpf_pitch_lag_present」から)およびオーディオ信号の信号表現で符号化されるが、いずれのビット符号化ピッチ情報および/または第1および第2の制御項目もない。
・したがって、デコーダは、LTPFとPLCにピッチ情報とハーモニック性情報を使用できないことを理解する(例えば、極めて低次のハーモニック性のため)。
−第1のステータス
・第1の基準が満たされ、第2の基準が満たされていない。
・ブロック21の出力21aが「1」である(例えば、第1の基準を満たすことにより、例えば、第1の測定値24a’が第1の閾値よりも大きいため)一方、ブロック22の出力22aは「0」である(例えば、第2の基準を満たさないことにより、例えば現在または前のフレームについて、第2の測定値24a”が第2の閾値未満であるため)。
・出力21a(例えば、「ltpf_pitch_lag_present」)の値「1」は、18eで符号化される。
・出力13a(例えば、「ltpf_pitch_lag」)は16bで符号化されている。
・出力22a(例えば、「ltpf_active」)の値「0」は、16cで符号化される。
・任意選択の出力24b(例えば、追加のハーモニック性情報)は符号化されていない。
・第1のフレーム16は、「1」に等しい第3の制御データ項目(例えば、「ltpf_pitch_lag_present」18eから)で符号化され、1つの単一ビットは、「0」に等しい第1の制御データ項目を符号化し(例えば、「ltpf_active」16cから)、また固定の量のビット(例えば、固定の位置)は第1のピッチ情報16b(例えば、「ltpf_pitch_lag」から取得された)を符号化する。
・それに応じて、デコーダは、PLCに対してのみピッチ情報13a(例えば、16bで符号化されたピッチラグ)を使用するが、LTPFにはピッチ情報またはハーモニック性情報は使用しないことを理解する。
−第2のステータス
・第1および第2の基準が満たされている。
・ブロック21およびブロック22の出力21aおよび22aの両方が「1」である(例えば、第1の基準を満たし、例えば、第1の測定値24a’が第2の閾値よりも大きく、また第2の測定値24a”が第2の基準を満たす、例えば第2の測定値24a”が、現在のフレームまたは前のフレームにおいて第2の閾値よりも大きいことによる)。
・出力21a(例えば、「ltpf_pitch_lag_present」)の値「1」が符号化される。
・出力13a(例えば「ltpf_pitch_lag」)が符号化される。
・出力22a(例えば「ltpf_active」)の値「1」が符号化される。
・第2のフレーム17”は、1に等しい第3の制御データ項目(例えば、18eの「ltpf_pitch_lag_present」から)で符号化され、1つの単一ビットが「1」に等しい第2の制御データ項目を符号化し(例えば、17cの「ltpf_active」から)、固定の量のビット(例えば、固定の位置)は17bの第2のピッチ情報(例えば、「ltpf_pitch_lag」から取得された)を符号化し、任意選択で、17dでの追加情報(追加のハーモニック性情報など)を符号化する。
・それに応じて、デコーダは、PLCのピッチ情報13a(例えば、ピッチラグ)を利用し、LTPFのピッチ情報と(場合によっては)追加のハーモニック性情報も利用する(例えば、ハーモニック性はLTPFとPLCの両方に十分であると仮定する)。
したがって、図5を参照すると、例えば装置10’のビットストリーム形成器15によって提供され得るフレーム12”が示されている。特に、以下が符号化され得る。
−第3のステータスの場合、以下のフィールドの第3のフレーム18”:
・値「0」の第3の制御データ項目18e(例えば、21aから得られる「ltpf_pitch_lag_present」)、および
・オーディオ信号11の符号化された表現18a;
−第1のステータスの場合、以下のフィールドの第1のフレーム16”:
・値「1」の第3の制御データ項目18e(例えば、21aから得られる「ltpf_pitch_lag_present」);
・オーディオ信号11の符号化された表現16a;
・第1のフレーム16”の固定データフィールドにおける第1のピッチ情報16b(例えば、13aから得られる「ltpf_pitch_lag」)、および
・値「0」の第1の制御データ項目16c(例えば、22aから取得した「ltpf_active」)、および
−第2のステータスの場合、次のフィールドの第2のフレーム17”:
・値「1」の第3の制御データ項目18e(例えば、21aから得られる「ltpf_pitch_lag_present」);
・オーディオ信号11の符号化された表現17a;
・第2のフレーム17”の第2のピッチ情報17b(例えば、13aから得られる「ltpf_pitch_lag」);
・値「1」の第2の制御データ項目17c(例えば、22aから得られる「ltpf_active」)、および
・提供されている場合、(任意選択の)ハーモニック性情報17d(例えば、24bから取得)。
例では、第3のフレーム18”は、第1または第2のピッチ情報の固定データフィールドを提示せず、第1の制御データ項目と第2の制御データ項目を符号化するいずれのビットをも提示しない。
第3の制御データ項目18eならびに第1および第2の制御データ項目16cおよび17cから、デコーダは以下であるかどうかを理解する。
−第3のステータスの場合、デコーダはピッチ情報とハーモニック性情報でLTPFとPLCを実装しない。
−第1のステータスの場合、デコーダはLTPFを実装しないが、ピッチ情報のみでPLCを実装する。
−第2のステータスの場合、デコーダは、両者のピッチ情報を使用してLTPFを、またピッチ情報を使用してPLCを両方共実行する。
図5から分かるように、いくつかの例では:
・第3のフレーム18は、第1のピッチ情報16b、第1の制御データ項目16c、第2のピッチ情報17b、および第2の制御データ項目17cを欠くフォーマットを有することができる。
・第3の制御データ項目18eは、第3のフレーム18”を第1および第2のフレーム16”、17”から区別する値を有する1つの単一ビットで符号化されてもよい、および/または
−符号化されたオーディオ信号情報では、第1のフレーム16”について、1つの単一ビットが第1の制御データ項目16cに予約でき、固定データフィールド16bが第1のピッチ情報に予約され得る。および/または
−符号化されたオーディオ信号情報では、第2のフレーム17”について、1つの単一ビットが第2の制御データ項目17cに予約でき、固定データフィールド17bが第2のピッチ情報に予約され得る、および/または
−第1の制御データ項目16cおよび第2の制御データ項目17cは、符号化されたオーディオ信号情報の同じ部分またはデータフィールドに符号化され得る、および/または
−符号化されたオーディオ信号情報は、第3の制御データ項目18eを符号化する1つの第1のシグナリングビット、および/または第1のピッチ情報および/または第2のピッチ情報の存在を示す第3の制御データ項目の値の場合、第1の制御データ項目および第2の制御データ項目を符号化する第2のシグナリングビットを含み得る。
図6aは、例による方法60を示す。この方法は、例えば、装置10または10’を使用して操作することができる。この方法は、例えば、上で説明したように、フレーム16”、17”、18”を符号化することができる。
方法60は、(特定の時間間隔で)例えば信号分析器14、特にハーモニック性測定器24を使用して、オーディオ信号11からハーモニック性測定値(例えば24a)を取得するステップS60を含むことができる。ハーモニック性測定値(ハーモニック性情報)は、例えば、オーディオ信号11に(例えば、時間間隔に対して)適用される、相関の情報(例えば、自己相関の情報)、利得の情報(例えば、ポストフィルタ利得の情報)、周期性の情報、予測可能性の情報の少なくとも1つまたは組み合わせを含むか、またはそれらに基づくことができる。例では、第1のハーモニック性測定値24a’が(例えば、6.4KHzで)取得され得、第2のハーモニック性測定値24a”が(例えば、12.8KHzで)取得され得る。異なる例では、同じハーモニック性測定値を使用できる。
この方法は、例えばブロック21を使用して、第1の基準の充足の検証することを含むことができる。例えば、ハーモニック性測定値と第1の閾値との比較を実行することができる。S61で第1の基準が満たされない場合(例えば、第1の測定値24a’が第1の閾値を下回る場合など、ハーモニック性が第1の閾値を下回る場合)、S62で第3のフレーム18”が符号化され得、第3のフレーム18”は、第3の制御データ項目18e(例えば、「ltpf_pitch_lag_present」)の「0」値を示し、例えば、ピッチ情報および追加のハーモニック性情報などの値を符号化するためのいずれかのビットを予約しない。したがって、デコーダは、エンコーダから提供されたピッチ情報とハーモニック性情報に基づいて、LTPFもPLCも実行しない。
S61で、第1の基準が満たされている(例えば、そのハーモニック性が第1の閾値より大きく、したがって、より低次のレベルのハーモニック性ではない)と判定される場合、ステップS63およびS65で、第2の基準が満たされているかどうかがチェックされる。第2の基準は、例えば、現在のフレームのハーモニック性測定値と少なくとも1つの閾値との比較を含むことができる。
例えば、ステップS63において、ハーモニック性(例えば、第2のハーモニック性測定値24a”)は、第2の閾値と比較される(いくつかの例では、第2の閾値は、例えば、ハーモニック性の測定値が、完全に非ハーモニック性の信号に関連付けられた0の値と完全にハーモニック性の信号に関連付けられた1の値の間であるという仮定の下で、第1の閾値に関連するハーモニック性コンテンツよりも大きいハーモニック性コンテンツに関連するように設定される)。
S63で、ハーモニック性が第2の閾値(例えば、場合によっては中間レベルのハーモニック性に関連する場合がある)ほど大きくないと判定された場合、S64で、第1のフレーム16、16’、16”が符号化される。第1のフレーム(中間のハーモニック性を示す)は、「1」であり得る第3の制御データ項目18e(例えば、「ltpf_pitch_lag_present」)、「0」であり得る第1の制御データ項目16b(例えば、「ltpf_active」)、およびピッチラグ(「ltpf_pitch_lag」)などの第1のピッチ情報16bの値を含むように符号化され得る。したがって、第1のフレーム16、16’、16”の受信時に、デコーダはPLCの第1のピッチ情報16bを使用するが、LTPFの第1のピッチ情報16bを使用しない。
特に、S61およびS62で実行される比較は、例えば、異なるサンプリングレートで取得され得る、異なるハーモニック性測定値に基づき得る。
S63で、ハーモニック性が第2の閾値より大きい(例えば、第2のハーモニック性測定値が第2の閾値を超える)と判定された場合、ステップS65で、オーディオ信号が過渡信号である、例えばオーディオ信号11の一次的な構造が変化した(または前のフレームの別の条件が満たされた)かどうかをチェックできる。例えば、前のフレームも第2の閾値を超えるという条件を満たすかどうかをチェックすることが可能である。前のフレームの条件も保持する(過渡的でない)場合、信号は安定していると見なされ、ステップS66をトリガーすることが可能である。そうでない場合、方法はステップS64に続き、第1のフレーム16、16’、または16”(上記参照)を符号化する。
ステップS66では、第2のフレーム17、17’、17”を符号化することができる。第2のフレーム17”は、値「1」を有する第3の制御データ項目18e(例えば、「ltpf_pitch_lag_present」)および「1」であり得る第2の制御データ項目17c(例えば、「ltpf_active」)を含み得る。したがって、ピッチ情報17b(「pitch_lag」、および任意選択で、追加のハーモニック性情報17dなど)も符号化することができる。デコーダは、ピッチ情報を備えたPLCとピッチ情報を備えたLTPF(および任意選択でハーモニック性情報も)の両方を使用できることを理解する。
S67において、符号化されたフレームは、(例えば、Bluetooth接続を介して)デコーダに送信され、メモリに格納され、または別の方法で使用され得る。
ステップS63およびS64において、正規化された相関測定値nc(第2の測定値24a”)は、12.8KHzで得られた正規化された相関測定値ncであってもよい(上記および下記も参照)。ステップS61において、正規化された相関(第1の測定値24a’)は、6.4KHzでの正規化された相関であってもよい(上記および下記も参照)。
図6bは、同様に使用され得る方法60bを示す。図6bは、ltpf_activeの値を判定するために使用され得る第2の基準600の例を明示的に示す。
見て分かるように、ステップS60、S61、およびS62は方法60と同様であり、したがって繰り返されない。
ステップS610では、以下のことをチェックすることができる。
−前のフレームでは、ltpf_active=0(mem_ltpf_active=0で示される)が取得されていたこと、および
−前のフレームの場合、正規化された相関測定値nc(24a”)は、第3の閾値(例えば、0.94のような0.92と0.96の間の値)を上回っていたこと、および
−現在のフレームの場合、正規化された相関測定値nc(24a”)は第3の閾値(例えば、0.94のような0.92と0.96の間の値)より大きいこと。
結果が肯定の場合、S614でltpf_activeが1に設定され、ステップS66(第2のフレーム17、17’、17”を符号化)およびS67(符号化されたフレームを送信または保存)がトリガーされる。
ステップS610で設定された条件が検証されない場合、ステップS611でそれをチェックすることができる。
−前のフレームでは、ltpf_active=1(mem_ltpf_active=1で示される)が取得されていた。
−現在のフレームの場合、正規化された相関測定値nc(24a”)は、第4の閾値(例えば、0.85から0.95の間の値、例えば0.9)より大きい。
結果が肯定の場合、S614でltpf_activeが1に設定され、ステップS66(第2のフレーム17、17’、17”を符号化)およびS67(符号化されたフレームを送信または保存)がトリガーされる。
ステップS611で設定された条件が検証されない場合、ステップS612で、以下の場合であるかをチェックすることができる。
−前のフレームでは、ltpf_active=0(mem_ltpf_active=0で示される)が取得されていたか、
−現在のフレームの場合、現在のピッチと前のピッチの間の距離が第5の閾値(例えば、1.8と2.2の間の値、例えば2)未満であるか、および
−現在のフレームの正規化された相関測定値nc(24a”)と前のフレームの正規化された相関測定値mem_ncの間の差が第6の閾値(例えば、−0.1などの−0.15から−0.05の間の値)より大きいか、および
−現在のフレームの場合、正規化された相関測定値nc(24a”)は、第7の閾値(例えば、0.84のような0.82と0.86の間の値)より大きいか。
(ステップS610〜S612のいくつかの例では、上記の条件は、一部維持されながらもいくつか回避される場合がある。)
S612でのチェックの結果が肯定的である場合、S614でltpf_activeが1に設定され、ステップS66(第2のフレーム17、17’、17”を符号化する)およびS67(符号化されたフレームを送信または格納する)がトリガーされる。
それ以外の場合、S610からS612のいずれのチェックも検証されない場合、S613で現在のフレームのltpf_activeが0に設定され、第1のフレーム16、16’、16”を符号化するためにステップS64がトリガーされる。
ステップS610〜S612において、正規化された相関測定値nc(第2の測定値24a”)は、12.8KHz(上記参照)で得られた正規化された相関測定値であり得る。ステップS61において、正規化された相関(第1の測定値24a’)は、6.4KHzでの正規化された相関であってもよい(上記参照)。
見て分かるように、現在のフレームおよび/または前のフレームに関連するいくつかのメトリックが考慮され得る。したがって、第2の基準の充足は、いくつかの測定値(例えば、現在および/または以前のフレームに関連付けられている)がそれぞれいくつかの閾値(例えば、ステップS610〜S612の少なくとも第3から第7の閾値のいくつか)を超えているか下回っているどうかを確認することで検証できる。
エンコーダ側でLTPFのパラメータを取得する方法の例をいくつか示す。
ここでは、リサンプリング手法の例について説明する(他の手法を使用することもできる)。
サンプリングレートの入力信号
は、12.8kHzの固定サンプリングレートにリサンプリングされる。リサンプリングは、アップサンプリング+ローパスフィルタリング+ダウンサンプリングアプローチを使用して実行され、それは次のように定式化できる。
ただし、
は入力信号、
は12.8kHzでリサンプリングされた信号、
はアップサンプリング係数、
は、
で得られるFIRローパスフィルタのインパルス応答である。
は例えば、次の値から選択する。
double tab_resamp_filter[239] = {
-2.043055832879108e-05, -4.463458936757081e-05, -7.163663994481459e-05,
-1.001011132655914e-04, -1.283728480660395e-04, -1.545438297704662e-04,
-1.765445671257668e-04, -1.922569599584802e-04, -1.996438192500382e-04,
-1.968886856400547e-04, -1.825383318834690e-04, -1.556394266046803e-04,
-1.158603651792638e-04, -6.358930335348977e-05, +2.810064795067786e-19,
+7.292180213001337e-05, +1.523970757644272e-04, +2.349207769898906e-04,
+3.163786496265269e-04, +3.922117380894736e-04, +4.576238491064392e-04,
+5.078242936704864e-04, +5.382955231045915e-04, +5.450729176175875e-04,
+5.250221548270982e-04, +4.760984242947349e-04, +3.975713799264791e-04,
+2.902002172907180e-04, +1.563446669975615e-04, -5.818801416923580e-19,
-1.732527127898052e-04, -3.563859653300760e-04, -5.411552308801147e-04,
-7.184140229675020e-04, -8.785052315963854e-04, -1.011714513697282e-03,
-1.108767055632304e-03, -1.161345220483996e-03, -1.162601694464620e-03,
-1.107640974148221e-03, -9.939415631563015e-04, -8.216921898513225e-04,
-5.940177657925908e-04, -3.170746535382728e-04, +9.746950818779534e-19,
+3.452937604228947e-04, +7.044808705458705e-04, +1.061334465662964e-03,
+1.398374734488549e-03, +1.697630799350524e-03, +1.941486748731660e-03,
+2.113575906669355e-03, +2.199682452179964e-03, +2.188606246517629e-03,
+2.072945458973295e-03, +1.849752491313908e-03, +1.521021876908738e-03,
+1.093974255016849e-03, +5.811080624426164e-04, -1.422482656398999e-18,
-6.271537303228204e-04, -1.274251404913447e-03, -1.912238389850182e-03,
-2.510269249380764e-03, -3.037038298629825e-03, -3.462226871101535e-03,
-3.758006719596473e-03, -3.900532466948409e-03, -3.871352309895838e-03,
-3.658665583679722e-03, -3.258358512646846e-03, -2.674755551508349e-03,
-1.921033054368456e-03, -1.019254326838640e-03, +1.869623690895593e-18,
+1.098415446732263e-03, +2.231131973532823e-03, +3.348309272768835e-03,
+4.397022774386510e-03, +5.323426722644900e-03, +6.075105310368700e-03,
+6.603520247552113e-03, +6.866453987193027e-03, +6.830342695906946e-03,
+6.472392343549424e-03, +5.782375213956374e-03, +4.764012726389739e-03,
+3.435863514113467e-03, +1.831652835406657e-03, -2.251898372838663e-18,
-1.996476188279370e-03, -4.082668858919100e-03, -6.173080374929424e-03,
-8.174448945974208e-03, -9.988823864332691e-03, -1.151698705819990e-02,
-1.266210056063963e-02, -1.333344579518481e-02, -1.345011199343934e-02,
-1.294448809639154e-02, -1.176541543002924e-02, -9.880867320401294e-03,
-7.280036402392082e-03, -3.974730209151807e-03, +2.509617777250391e-18,
+4.586044219717467e-03, +9.703248998383679e-03, +1.525124770818010e-02,
+2.111205854013017e-02, +2.715337236094137e-02, +3.323242450843114e-02,
+3.920032029020130e-02, +4.490666443426786e-02, +5.020433088017846e-02,
+5.495420172681558e-02, +5.902970324375908e-02, +6.232097270672976e-02,
+6.473850225260731e-02, +6.621612450840858e-02, +6.671322871619612e-02,
+6.621612450840858e-02, +6.473850225260731e-02, +6.232097270672976e-02,
+5.902970324375908e-02, +5.495420172681558e-02, +5.020433088017846e-02,
+4.490666443426786e-02, +3.920032029020130e-02, +3.323242450843114e-02,
+2.715337236094137e-02, +2.111205854013017e-02, +1.525124770818010e-02,
+9.703248998383679e-03, +4.586044219717467e-03, +2.509617777250391e-18,
-3.974730209151807e-03, -7.280036402392082e-03, -9.880867320401294e-03,
-1.176541543002924e-02, -1.294448809639154e-02, -1.345011199343934e-02,
-1.333344579518481e-02, -1.266210056063963e-02, -1.151698705819990e-02,
-9.988823864332691e-03, -8.174448945974208e-03, -6.173080374929424e-03,
-4.082668858919100e-03, -1.996476188279370e-03, -2.251898372838663e-18,
+1.831652835406657e-03, +3.435863514113467e-03, +4.764012726389739e-03,
+5.782375213956374e-03, +6.472392343549424e-03, +6.830342695906946e-03,
+6.866453987193027e-03, +6.603520247552113e-03, +6.075105310368700e-03,
+5.323426722644900e-03, +4.397022774386510e-03, +3.348309272768835e-03,
+2.231131973532823e-03, +1.098415446732263e-03, +1.869623690895593e-18,
-1.019254326838640e-03, -1.921033054368456e-03, -2.674755551508349e-03,
-3.258358512646846e-03, -3.658665583679722e-03, -3.871352309895838e-03,
-3.900532466948409e-03, -3.758006719596473e-03, -3.462226871101535e-03,
-3.037038298629825e-03, -2.510269249380764e-03, -1.912238389850182e-03,
-1.274251404913447e-03, -6.271537303228204e-04, -1.422482656398999e-18,
+5.811080624426164e-04, +1.093974255016849e-03, +1.521021876908738e-03,
+1.849752491313908e-03, +2.072945458973295e-03, +2.188606246517629e-03,
+2.199682452179964e-03, +2.113575906669355e-03, +1.941486748731660e-03,
+1.697630799350524e-03, +1.398374734488549e-03, +1.061334465662964e-03,
+7.044808705458705e-04, +3.452937604228947e-04, +9.746950818779534e-19,
-3.170746535382728e-04, -5.940177657925908e-04, -8.216921898513225e-04,
-9.939415631563015e-04, -1.107640974148221e-03, -1.162601694464620e-03,
-1.161345220483996e-03, -1.108767055632304e-03, -1.011714513697282e-03,
-8.785052315963854e-04, -7.184140229675020e-04, -5.411552308801147e-04,
-3.563859653300760e-04, -1.732527127898052e-04, -5.818801416923580e-19,
+1.563446669975615e-04, +2.902002172907180e-04, +3.975713799264791e-04,
+4.760984242947349e-04, +5.250221548270982e-04, +5.450729176175875e-04,
+5.382955231045915e-04, +5.078242936704864e-04, +4.576238491064392e-04,
+3.922117380894736e-04, +3.163786496265269e-04, +2.349207769898906e-04,
+1.523970757644272e-04, +7.292180213001337e-05, +2.810064795067786e-19,
-6.358930335348977e-05, -1.158603651792638e-04, -1.556394266046803e-04,
-1.825383318834690e-04, -1.968886856400547e-04, -1.996438192500382e-04,
-1.922569599584802e-04, -1.765445671257668e-04, -1.545438297704662e-04,
-1.283728480660395e-04, -1.001011132655914e-04, -7.163663994481459e-05,
-4.463458936757081e-05, -2.043055832879108e-05};
ハイパスフィルタ技術の例をここで説明する(他の技術を使用することもできる)。
リサンプリングされた信号は、移行関数が
により得られる2次IIRフィルタを使用してハイパスフィルタ処理できる。
ピッチ検出技術の例をここで説明する(他の技術を使用することもできる)。
信号
は、
を使用して2倍にダウンサンプリングできる、ただし
={0.1236796411180537、0.2353512128364889、0.2819382920909148、0.2353512128364889、0.1236796411180537}である。
の自己相関は、
によって計算され得る、ただし

は最小と最大のラグである。
自己相関は、
を用いて重み付けされ得る、ただし
は次の
のように定義される。
ピッチラグの第1の推定値
は、重み付けされた自己相関を最大化するラグであり得る。
ピッチラグの第2の推定値
は、前のフレームで推定されたピッチラグの近傍で重み付けされていない自己相関を最大化するラグであり得る。
ただし、

、および
は、前のフレームで推定された最終ピッチラグである。
次いで、現在のフレームのピッチラグの最終的な推定値は、
で得られる、ただし
はラグ
での長さ
の信号
の正規化された相関である。
正規化された相関は、信号分析器14および/またはハーモニック性測定器24によって得られたハーモニック性測定値のうちの少なくとも1つであり得る。これは、例えば、第1の閾値との比較に使用できるハーモニック性測定値の1つである。
LTPFビットストリーム手法を取得する例をここで説明する(他の手法を使用することもできる)。
LTPFビットストリームの第1のビットは、ビットストリーム内のピッチラグパラメータの存在を示す。それは
によって得られる。
pitch_presentが0の場合、それ以上ビットは符号化されず、1ビットのみのLTPFビットストリームになる(第3のフレーム18”を参照されたい)。
pitch_presentが1の場合、さらに2つのパラメータが符号化される。1つはピッチラグパラメータ(9ビットで符号化されるなど)、もう1つはLTPFのアクティブ化を通知する1ビットである(フレーム16”と17”を参照されたい)。その場合、LTPFビットストリーム(フレーム)は11ビットで構成され得る。
ピッチラグパラメータとアクティブ化ビットは、次のセクションで説明するように取得される。
これらのデータは、上記のモダリティに従ってフレーム12、12’、12”に符号化される。
ここでは、LTPFピッチラグパラメータを取得する例について説明する(他の手法を使用できる)。
LTPFピッチラグパラメータの整数部分は、
により得られる、ただし
および

である。
次いで、LTPFピッチラグの小数部分は、
により得られる、ただし
および
は、
で得られるFIRローパスフィルタのインパルス応答である。
の値は、例えば次のようになり得る。
double
[31] = {
-2.874561161519444e-03, -3.001251025861499e-03, +2.745471654059321e-03
+1.535727698935322e-02, +2.868234046665657e-02, +2.950385026557377e-02
+4.598334491135473e-03, -4.729632459043440e-02, -1.058359163062837e-01
-1.303050213607112e-01, -7.544046357555201e-02, +8.357885725250529e-02
+3.301825710764459e-01, +6.032970076366158e-01, +8.174886856243178e-01
+8.986382851273982e-01, +8.174886856243178e-01, +6.032970076366158e-01
+3.301825710764459e-01, +8.357885725250529e-02, -7.544046357555201e-02
-1.303050213607112e-01, -1.058359163062837e-01, -4.729632459043440e-02
+4.598334491135473e-03, +2.950385026557377e-02, +2.868234046665657e-02
+1.535727698935322e-02, +2.745471654059321e-03, -3.001251025861499e-03
-2.874561161519444e-03};
の場合、

の両方が
に応じて変更される。
最後に、ピッチラグパラメータインデックスは
で得られる。
正規化された相関は、最初に次のように
で計算され得る、ただし

は、
で得られるFIRローパスフィルタのインパルス応答であり、例えば、次の値から
を選択する。
double tab_ltpf_interp_x12k8[15] = {
+6.698858366939680e-03, +3.967114782344967e-02, +1.069991860896389e-01
+2.098804630681809e-01, +3.356906254147840e-01, +4.592209296082350e-01
+5.500750019177116e-01, +5.835275754221211e-01, +5.500750019177116e-01
+4.592209296082350e-01, +3.356906254147840e-01, +2.098804630681809e-01
+1.069991860896389e-01, +3.967114782344967e-02, +6.698858366939680e-03};
その後、LTPFアクティブ化ビット(「ltpf_active」)は、
if (
(mem_ltpf_active==0 && mem_nc>0.94 && nc>0.94) ||
(mem_ltpf_active==1 && nc>0.9) ||
(mem_ltpf_active==1 && abs(pit-mem_pit)<2 && (nc-mem_nc)>-0.1 && nc>0.84)
)
{
ltpf_active = 1;
}
else
{
ltpf_active = 0;
}
に従って設定できる。
式中、mem_ltpf_activeは前のフレームのltpf_activeの値であり(前のフレームでpitch_present=0の場合は0)、mem_ncは前のフレームのncの値であり(前のフレームでpitch_present=0の場合は0)、pit=pitch_int+pitch_fr/4およびmem_pitは、前のフレームのピットの値である(前のフレームでpitch_present=0の場合は0である)。
6.デコーダ側
図7は、装置70を示す。装置70は、デコーダであり得る。装置70は、符号化されたオーディオ信号情報12、12’、12”などのデータを取得することができる。装置70は、上および/または下で説明される動作を実行することができる。符号化されたオーディオ信号情報12、12’、12”は、例えば、装置10または10’などのエンコーダによって、または方法60を実行することによって生成された可能性がある。例において、符号化されたオーディオ信号情報12、12’、12”は、例えば、装置10または10’とは異なる、または方法60を実行しないエンコーダによって生成された可能性がある。装置70は、フィルタリングされた復号されたオーディオ信号情報76を生成し得る。
装置70は、符号化されたオーディオ信号情報を取得するための(例えば、アンテナを使用する)通信ユニットを含み得る(からデータを受け取れる)。Bluetooth通信が行われ得る。装置70は、符号化されたオーディオ信号情報を取得するための(例えば、メモリを使用する)記憶ユニットを含み得る(からデータを受け取れる)。装置70は、TDおよび/またはFDで動作する機器を含み得る。
装置70は、符号化されたオーディオ信号情報12、12’、12”を復号することができるビットストリームリーダ71(または「ビットストリーム分析器」、または「ビットストリームデフォーマッタ」、または「ビットストリームパーサ」)を備えることができる。ビットストリームリーダ71は、例えば、ビットストリームの形で得られたデータを解釈するための状態機械を含み得る。ビットストリームリーダ71は、オーディオ信号11の復号された表現71aを出力することができる。
復号された表現71aは、ビットストリームリーダ(ここでは簡単にするために示されていない)の下流で1つまたは複数の処理技術を受けることができる。
装置70は、LTPF73を備えることができ、これは、次に、フィルタリングされた復号されたオーディオ信号情報73’を提供することができる。
装置70は、LTPF73を制御することができるフィルタコントローラ72を備えることができる。
特に、LTPF73は、ビットストリームリーダ71によって提供されるとき、追加のハーモニック性情報(例えば、利得の情報)によって制御され得る(特に、フィールド17dに存在するとき、「ltpf_gain」、フレーム17’または17”における)。
加えて、または代替として、LTPF73は、ピッチ情報(例えば、ピッチラグ)によって制御され得る。ピッチ情報は、フレーム16、16’、16”、17、17’、17”のフィールド16bまたは17bに存在する場合がある。しかし、セレクタ78によって示されるように、ピッチ情報は、LTPFを制御するために常に使用されるとは限らない。制御データ項目16c(「ltpf_active」)が「0」である場合、ピッチ情報は、LTPFのために使用されない(ハーモニック性がLTPFに対して低すぎるため)。
装置70は、オーディオ情報76を提供するためにPLC機能を実行するための隠蔽ユニット75を備えることができる。復号されたフレームに存在する場合、ピッチ情報はPLCに使用できる。
装置70におけるLTPFの例は、以下の節で説明される。
図8aおよび図8bは、使用され得るフレームのシンタックスの例を示す。様々なフィールドも示されている。
図8aに示すように、ビットストリームリーダ71は、(フレームが図5のフレーム16”、17”および18”の1つであるという仮説の下で)符号化されているフレームの特定の位置(フィールド)で第1の値を検索することができる。特定の位置は、例えば、フレーム18”(例えば、「ltpf_pitch_lag_present」)における第3の制御項目18eに関連付けられた位置として解釈され得る。
「ltpf_pitch_lag_present」18eの値が「0」である場合、ビットストリームリーダ71は、LTPFおよびPLCに関する他の情報がない(例えば、「ltpf_active」、「ltpf_pitch_lag」、「ltpf_gain」がない)ことを理解する。
「ltpf_pitch_lag_present」18eの値が「1」である場合、リーダ71は、ハーモニック性情報を示す制御データ16cまたは17c(例えば、「ltpf_active」)を含むフィールド(例えば、1ビットフィールド)を検索することができる(例えば14a、22a)。例えば、「ltpf_active」が「0」の場合、フレームは第1のフレーム16”であることが分かり、これは、LTPFには価値がないがPLCに使用できるハーモニック性を示す。「ltpf_active」が「1」の場合、フレームは第2のフレーム17であり、LTPFとPLCの両方に有益な情報を伝えることができると理解される。
リーダ71はまた、ピッチ情報16bまたは17b(例えば、「ltpf_pitch_lag」)を含むフィールド(例えば、9ビットフィールド)を検索する。このピッチ情報は、隠蔽ユニット75(PLC用)に提供されてもよい。このピッチ情報は、図7にセレクタ78によって示されるように、「ltpf_active」が「1」(例えば、より高次のハーモニック性)である場合にのみ、フィルタコントローラ72/LTPF73に提供され得る。
図8bの例でも同様の動作が実行され、さらに、利得17dが任意選択で符号化されてもよい。
7.デコーダ側のLTPFの例
MDCT(修正離散コサイン変換)の合成、MDST(修正離散コサイン変換)の合成、または別の変換に基づく合成後の復号された信号は、パラメータがLTPFビットストリームデータ「pitch_index」と「ltpf_active」に依存する可能性があるIIRフィルタを使用して、時間領域でポストフィルタ処理できる。パラメータが1つのフレームから次のフレームに変化するときに不連続性を回避するために、移行メカニズムが第1の現在のフレームの4分の1に適用され得る。
例では、LTPF IIRフィルタは以下を使用して実装できる。
はフィルタ入力信号(つまり、MDCT合成後の復号された信号)であり、
はフィルタ出力信号である。
LTPF・ピッチラグの整数部分
と小数部分
は次のように計算できる。まず、12.8kHzでのピッチラグは
を利用して回復する。
次にピッチラグを出力サンプリングレート
に換算し、
を使用して整数部分と小数部分に変換でき、
式中
はサンプリングレートである。
フィルタ係数

は次のように、すなわち
ただし
で計算でき、


fs_idx = min(4,(
/8000-1));
if (nbits < 320 + fs_idx*80)
{
gain_ltpf = 0.4;
gain_ind = 0;
}
else if (nbits < 400 + fs_idx*80)
{
gain_ltpf = 0.35;
gain_ind = 1;
}
else if (nbits < 480 + fs_idx*80)
{
gain_ltpf = 0.3;
gain_ind = 2;
}
else if (nbits < 560 + fs_idx*80)
{
gain_ltpf = 0.25;
gain_ind = 3;
}
else
{
gain_ltpf = 0;
}
に従って得ることができ、


は事前に決定されている。
の例をここに示す(「fs」の代わりに、サンプリングレートが示されている)。
double tab_ltpf_num_8000[4][3] = {
{6.023618207009578e-01,4.197609261363617e-01,-1.883424527883687e-02},
{5.994768582584314e-01,4.197609261363620e-01,-1.594928283631041e-02},
{5.967764663733787e-01,4.197609261363617e-01,-1.324889095125780e-02},
{5.942410120098895e-01,4.197609261363618e-01,-1.071343658776831e-02}};
double tab_ltpf_num_16000[4][3] = {
{6.023618207009578e-01,4.197609261363617e-01,-1.883424527883687e-02},
{5.994768582584314e-01,4.197609261363620e-01,-1.594928283631041e-02},
{5.967764663733787e-01,4.197609261363617e-01,-1.324889095125780e-02},
{5.942410120098895e-01,4.197609261363618e-01,-1.071343658776831e-02}};
double tab_ltpf_num_24000[4][5] = {
{3.989695588963494e-01,5.142508607708275e-01,1.004382966157454e-01,-1.278893956818042e-02,-1.572280075461383e-03},
{3.948634911286333e-01,5.123819208048688e-01,1.043194926386267e-01,-1.091999960222166e-02,-1.347408330627317e-03},
{3.909844475885914e-01,5.106053522688359e-01,1.079832524685944e-01,-9.143431066188848e-03,-1.132124620551895e-03},
{3.873093888199928e-01,5.089122083363975e-01,1.114517380217371e-01,-7.450287133750717e-03,-9.255514050963111e-04}};
double_tab_ltpf_num_32000[4][7] = {
{2.982379446702096e-01,4.652809203721290e-01,2.105997428614279e-01,3.766780380806063e-02,-1.015696155796564e-02,-2.535880996101096e-03,-3.182946168719958e-04},
{2.943834154510240e-01,4.619294002718798e-01,2.129465770091844e-01,4.066175002688857e-02,-8.693272297010050e-03,-2.178307114679820e-03,-2.742888063983188e-04},
{2.907439213122688e-01,4.587461910960279e-01,2.151456974108970e-01,4.350104772529774e-02,-7.295495347716925e-03,-1.834395637237086e-03,-2.316920186482416e-04},
{2.872975852589158e-01,4.557148886861379e-01,2.172126950911401e-01,4.620088878229615e-02,-5.957463802125952e-03,-1.502934284345198e-03,-1.903851911308866e-04}};
double tab_ltpf_num_48000[4][11] = {
{1.981363739883217e-01,3.524494903964904e-01,2.513695269649414e-01,1.424146237314458e-01,5.704731023952599e-02,9.293366241586384e-03,-7.226025368953745e-03,-3.172679890356356e-03,-1.121835963567014e-03,-2.902957238400140e-04,-4.270815593769240e-05},
{1.950709426598375e-01,3.484660408341632e-01,2.509988459466574e-01,1.441167412482088e-01,5.928947317677285e-02,1.108923827452231e-02,-6.192908108653504e-03,-2.726705509251737e-03,-9.667125826217151e-04,-2.508100923165204e-04,-3.699938766131869e-05},
{1.921810055196015e-01,3.446945561091513e-01,2.506220094626024e-01,1.457102447664837e-01,6.141132133664525e-02,1.279941396562798e-02,-5.203721087886321e-03,-2.297324511109085e-03,-8.165608133217555e-04,-2.123855748277408e-04,-3.141271330981649e-05},
{1.894485314175868e-01,3.411139251108252e-01,2.502406876894361e-01,1.472065631098081e-01,6.342477229539051e-02,1.443203434150312e-02,-4.254449144657098e-03,-1.883081472613493e-03,-6.709619060722140e-04,-1.749363341966872e-04,-2.593864735284285e-05}};
の例をここに示す(「fs」の代わりにサンプリングレートが示されている)。
double_tab_ltpf_den_8000[4][5] = {
{0.000000000000000e+00, 2.098804630681809e-01, 5.835275754221211e-01, 2.098804630681809e-01, 0.000000000000000e+00},
{0.000000000000000e+00, 1.069991860896389e-01, 5.500750019177116e-01, 3.356906254147840e-01, 6.698858366939680e-03},
{0.000000000000000e+00, 3.967114782344967e-02, 4.592209296082350e-01, 4.592209296082350e-01, 3.967114782344967e-02},
{0.000000000000000e+00, 6.698858366939680e-03, 3.356906254147840e-01, 5.500750019177116e-01, 1.069991860896389e-01}};
double_tab_ltpf_den_16000[4][5] = {
{0.000000000000000e+00, 2.098804630681809e-01, 5.835275754221211e-01, 2.098804630681809e-01, 0.000000000000000e+00},
{0.000000000000000e+00, 1.069991860896389e-01, 5.500750019177116e-01, 3.356906254147840e-01, 6.698858366939680e-03},
{0.000000000000000e+00, 3.967114782344967e-02, 4.592209296082350e-01, 4.592209296082350e-01, 3.967114782344967e-02},
{0.000000000000000e+00, 6.698858366939680e-03, 3.356906254147840e-01, 5.500750019177116e-01, 1.069991860896389e-01}};
double_tab_ltpf_den_24000[4][7] = {
{0.000000000000000e+00, 6.322231627323796e-02, 2.507309606013235e-01, 3.713909428901578e-01, 2.507309606013235e-01, 6.322231627323796e-02, 0.000000000000000e+00},
{0.000000000000000e+00, 3.459272174099855e-02, 1.986515602645028e-01, 3.626411726581452e-01, 2.986750548992179e-01, 1.013092873505928e-01, 4.263543712369752e-03},
{0.000000000000000e+00, 1.535746784963907e-02, 1.474344878058222e-01, 3.374259553990717e-01, 3.374259553990717e-01, 1.474344878058222e-01, 1.535746784963907e-02},
{0.000000000000000e+00, 4.263543712369752e-03, 1.013092873505928e-01, 2.986750548992179e-01, 3.626411726581452e-01, 1.986515602645028e-01, 3.459272174099855e-02}};
double_tab_ltpf_den_32000[4][9] = {
{0.000000000000000e+00, 2.900401878228730e-02, 1.129857420560927e-01, 2.212024028097570e-01, 2.723909472446145e-01, 2.212024028097570e-01, 1.129857420560927e-01, 2.900401878228730e-02, 0.000000000000000e+00},
{0.000000000000000e+00, 1.703153418385261e-02, 8.722503785537784e-02, 1.961407762232199e-01, 2.689237982237257e-01, 2.424999102756389e-01, 1.405773364650031e-01, 4.474877169485788e-02, 3.127030243100724e-03},
{0.000000000000000e+00, 8.563673748488349e-03, 6.426222944493845e-02, 1.687676705918012e-01, 2.587445937795505e-01, 2.587445937795505e-01, 1.687676705918012e-01, 6.426222944493845e-02, 8.563673748488349e-03},
{0.000000000000000e+00, 3.127030243100724e-03, 4.474877169485788e-02, 1.405773364650031e-01, 2.424999102756389e-01, 2.689237982237257e-01, 1.961407762232199e-01, 8.722503785537784e-02, 1.703153418385261e-02}};
double_tab_ltpf_den_48000[4][13] = {
{0.000000000000000e+00, 1.082359386659387e-02, 3.608969221303979e-02, 7.676401468099964e-02, 1.241530577501703e-01, 1.627596438300696e-01, 1.776771417779109e-01, 1.627596438300696e-01, 1.241530577501703e-01, 7.676401468099964e-02, 3.608969221303979e-02, 1.082359386659387e-02, 0.000000000000000e+00},
{0.000000000000000e+00, 7.041404930459358e-03, 2.819702319820420e-02, 6.547044935127551e-02, 1.124647986743299e-01, 1.548418956489015e-01, 1.767122381341857e-01, 1.691507213057663e-01, 1.352901577989766e-01, 8.851425011427483e-02, 4.499353848562444e-02, 1.557613714732002e-02, 2.039721956502016e-03},
{0.000000000000000e+00, 4.146998467444788e-03, 2.135757310741917e-02, 5.482735584552816e-02, 1.004971444643720e-01, 1.456060342830002e-01, 1.738439838565869e-01, 1.738439838565869e-01, 1.456060342830002e-01, 1.004971444643720e-01, 5.482735584552816e-02, 2.135757310741917e-02, 4.146998467444788e-03},
{0.000000000000000e+00, 2.039721956502016e-03, 1.557613714732002e-02, 4.499353848562444e-02, 8.851425011427483e-02, 1.352901577989766e-01, 1.691507213057663e-01, 1.767122381341857e-01, 1.548418956489015e-01, 1.124647986743299e-01, 6.547044935127551e-02, 2.819702319820420e-02, 7.041404930459358e-03}}
移行処理について言及しながら、5つの異なるケースを検討する。
第1のケース:ltpf_active=0およびmem_ltpf_active=0
第2のケース:ltpf_active=1およびmem_ltpf_active=0
第3のケース:ltpf_active=0およびmem_ltpf_active=1
ただし、


、および
は、前のフレームで計算されたフィルタパラメータである。
第4のケース:ltpf_active=1およびmem_ltpf_active=1
および
第5のケース:ltpf_active=1およびmem_ltpf_active=1および(
または

8.パケット損失の一隠蔽法
パケット損失の一隠蔽法(PLC)または誤り隠蔽の例をここに示す。
8.1一般的な情報
破損したフレームは正しい可聴出力を提供せず、破棄されるものである。
復号されたフレームごとに、その有効性を検証できる。例えば、各フレームは、所定のアルゴリズムによって提供される所定の動作を実行することによって検証される巡回冗長コード(CRC)を伝えるフィールドを有し得る。リーダ71(または隠蔽ユニット75などの別の論理コンポーネント)は、アルゴリズムを繰り返し、計算された結果がCRCフィールドの値に対応するかどうかを検証することができる。フレームが適切に復号されていない場合、いくつかの誤りがフレームに影響を与えたと考えられる。したがって、検証で不正確な復号の結果が提供された場合、フレームは正しく復号されない(無効、破損)まま保持される。
フレームが正しく復号されていないと判断された場合は、隠蔽戦略を使用して可聴出力を提供できる。そうしないと、不快な聞き取りの穴のような何かが聞こえる可能性がある。したがって、正しく復号されていないフレームによって開かれたままになっている「ギャップを埋める」何らかの形式のフレームを見つける必要がある。フレーム損失隠蔽手順の目的は、復号のためにいずれかの使用不可または破損したフレームの影響を隠蔽することである。
フレーム損失隠蔽手順は、様々な信号タイプの隠蔽方法を含むことができる。フレーム損失のある誤りが発生しやすい状況での最良の可能なコーデックパフォーマンスは、最も適切な方法を選択することで得られる。パケット損失の一隠蔽法の1つは、例えば、TCX時間領域隠蔽であり得る。
8.2 TCX時間領域隠蔽
TCX時間領域隠蔽法は、時間領域で動作するピッチベースのPLCテクニックである。支配的なハーモニック性構造を持つ信号に最適である。手順の例は次のとおりである。最後の復号されたフレームの合成信号は、セクション8.2.1で説明されているようにLPフィルタで逆フィルタ処理され、セクション8.2.2で説明されているように周期信号を取得する。ランダム信号は、セクション8.2.3においてほぼ均一に分布するランダムジェネレーターによって生成される。セクション8.2.4で説明されているように、2つの励起信号を合計して合計励起信号を形成する。これは、セクション8.2.6で説明されている減衰係数で適応的にフェードアウトされ、最終的にLPフィルタでフィルタ処理されて、合成された隠蔽された時間信号を取得する。最後の良好なフレームでLTPFがアクティブであった場合、セクション8.3で説明されているように、LTPFはまた合成された隠蔽された時間信号にも適用される。失われたフレームの後の第1の良好なフレームと適切に重畳するために、時間領域エイリアスキャンセル信号がセクション8.2.5で生成される。
8.2.1 LPCパラメータの計算
TCX時間領域隠蔽法は、励起領域で動作している。自己相関関数は、80の等距離周波数領域帯域で計算できる。エネルギーは固定されたプリエンファシス係数
でプリエンファシスされてい
自己相関関数は、次のウィンドウ
を使用して遅延ウィンドウ処理され、
逆に均等にスタックされたDFTを使用して時間領域に変換される。最後に、Levinson Durbin操作を使用して、隠蔽されたフレームのLPフィルタ
を取得できる。以下に例を示す。

LPフィルタは、正常なフレームの後の第1の失われたフレームでのみ計算され、その後失われたフレームに残る。
8.2.2励起の周期的部分の構築
最後に
復号された時間サンプルは、最初に、フィルタを使用してセクション8.2.1のプリエンファシス係数でプリエンファシスされ、
信号
を取得する、式中、
は、
であればピッチラグ値
または
である。値

は、ビットストリームで送信されるピッチラグ値である。
プリエンファシスされた信号
は、計算された逆LPフィルタでさらにフィルタ処理され、前の励起信号
を取得する。励起信号
を構成するために、現在の失われたフレームに対して、次のように
が繰り返し
でコピーされる
式中

の最後のサンプルに対応する。安定係数
が1未満の場合、第1のピッチサイクル
は、下の表に記載されている11タップの線形位相FIRフィルタで最初にローパスフィルタされる
ピッチの利得
は次のように計算される
であれば、
である。それ以外の場合、ピッチの第2の利得
は次の
および
のように計算される。
であれば、さらに処理するために
は1減らされる。
最後に、

によって制限される。
形成された周期的励起
は、1から開始してフレーム全体でサンプルごとに減衰され、減衰係数
で終了して
を取得する。ピッチの利得は、良好なフレームの後の第1の失われたフレームでのみ計算され、さらに連続するフレームの損失に対しては
が設定される。
8.2.3 励起のランダムな部分の構築
励起のランダムな部分は、次のようにほぼ均一な分布を持つランダムジェネレーターで生成できる
式中、
は、この方法で隠蔽されたまさに第1のフレームに対して24607で初期化され、
は値の16LSBを抽出する。以降のフレームでは、
が保存され、次の
として使用される。
ノイズをより高い周波数にシフトするために、励起信号は、以下の表に記載されている11タップの線形位相FIRフィルタでハイパスフィルタ処理され、
を得る
減衰係数
に依存したフェージング速度でノイズがフルバンドノイズにフェードできることを保証するために、励起
のランダムな部分は、フルバンド
と、ハイパスフィルタ版
との間の線形補間によって、
と構成される、式中
は良好なフレームの後の第1の失われたフレームに対し、
は第2のさらに続く連続するフレーム損失に対し、式中
は前の隠蔽されたフレームの
である。
ノイズレベルを調整するために、ノイズの利得

のように計算され、セクション8.2.2の後の
の場合、
である。それ以外の場合、ノイズの第2の利得
は、上の式のように計算されるが、

である。続いて、
である。
さらなる処理のために、
は最初に正規化され、次に
で乗算されて
を取得する。
形成されたランダムな励起
は、
で、第1のサンプルからサンプル5まで、続いてフレームごとに、
で始まり
で終わるまで、サンプルごとに均一に減衰し、
を得る。ノイズの利得
は、良好なフレームの後の第1の失われたフレームでのみ計算され、さらに連続するフレームの損失に対しては
が設定される。
8.2.4 励起、合成、後処理全体の構成
ランダム励起
は、周期的励起
に追加され、合計励起信号
を形成する。隠蔽されたフレームの最終的な合成信号は、セクション8.2.1のLPフィルタで全励起をフィルタリングすることにより取得され、ディエンファシスフィルタで後処理される。
8.2.5 時間領域エイリアスのキャンセル
次のフレームが良好なフレームである場合に適切な重畳加算を取得するために、時間領域エイリアスキャンセル部分
を生成することができる。そのために、上記と同じように
の追加のサンプルが作成され、
信号を取得する。その上で、タイム領域エイリアスのキャンセル部分は、次のステップで作成される。
合成された時間領域バッファーをゼロで埋める
MDCTウィンドウ
によるウィンドウ処理
2NからNへの形状変更
Nから2Nへの形状変更
反転したMDCTウィンドウ
によるウィンドウ処理
8.2.6 複数のフレーム損失の処理
構築された信号はゼロにフェードアウトする。フェードアウト速度は、前回の減衰係数
に依存する減衰係数
、最後に正しく受信されたフレームで計算されたピッチの利得
、連続して消去されたフレームの数
、および安定性
によって制御される。次の手順を使用して、減衰係数
を計算できる。
if (
== 1)
=
if (
> 0.98)
= 0.98
else if (
< 0.925)
= 0.925
else if (
== 2)
= (0.63 + 0.35
)
if
< 0.919
= 0.919;
else if (
== 3)
= (0.652 + 0.328
)
else if (
== 4)
= (0.674 + 0.3
)
else if (
== 5) {
= (0.696 + 0.266
)
else
= (0.725 + 0.225
)
=
係数
(最後の2つの隣接する換算係数ベクトル

の安定性)は、例えば、
式中、
および
は、最後の2つの隣接するフレームの換算係数ベクトルである。係数

によって制限され、
の値が大きいほど、より安定した信号に対応する。これにより、エネルギーとスペクトルエンベロープの変動が制限される。2つの隣接する換算係数ベクトルが存在しない場合、係数
は0.8に設定される。
急激な高エネルギーの増加を防ぐために、スペクトルは
および
でローパスフィルタリングされる。
8.3 LTPFに関連する隠蔽操作
隠蔽されたフレームでmem_ltpf_active=1の場合、隠蔽方法が符号スクランブルまたはTCX時間領域隠蔽を伴うMDCTフレームの繰り返しである場合、ltpf_activeは1に設定される。したがって、セクション5で説明されているように、合成後の時間領域信号に長期ポストフィルタが適用されるが、ただし
式中、
は前のフレームのLTPF利得であり、
は減衰係数である。LTPFに使用されるピッチ値

は、最後のフレームから再利用される。
9.図9のデコーダ
図9は、(例えば、装置70の実装であり得る)例による、オーディオデコーダ300の概略ブロック図を示す。
オーディオデコーダ300は、符号化されたオーディオ信号情報310(例えば、符号化されたオーディオ信号情報12、12’、12”であり得る)を受信し、それに基づいて、復号されたオーディオ情報312を提供するように構成され得る。
オーディオデコーダ300は、ビットストリームリーダ71に対応することができるビットストリーム分析器320(「ビットストリームデフォーマッタ」または「ビットストリームパーサ」と呼ばれることもある)を含むことができる。ビットストリーム分析器320は、符号化されたオーディオ信号情報310を受信し、それに基づいて、周波数領域表現322および制御情報324を提供することができる。
制御情報324は、ピッチ情報16b、17b(例えば、「ltpf_pitch_lag」)、および追加のハーモニック性情報または利得の情報(例えば、「ltpf_gain」)などの追加のハーモニック性情報、ならびに制御データ項目、例えばデコーダにおけるオーディオ信号11のハーモニック性に関連する16c、17c、18cを含むことができる。
制御情報324はまた、データ制御項目(例えば、16c、17c)を含み得る。セレクタ325(例えば、図7のセレクタ78に対応する)は、ピッチ情報が、制御項目の制御下でLTPFコンポーネント376に提供されることを示す(これは、次に、エンコーダで得られるハーモニック性情報によって制御される)。符号化されたオーディオ信号情報310のハーモニック性が低すぎる場合(例えば、上述の第2の閾値の下)、LTPFコンポーネント376はピッチ情報を受信しない。
周波数領域表現322は、例えば、符号化されたスペクトル値326、符号化された換算係数328、および任意選択で、例えば、ノイズフィリング、中間処理または後処理などの特定の処理ステップを制御し得る追加のサイド情報330を含み得る。オーディオデコーダ300はまた、符号化されたスペクトル値326を受信し、それに基づいて復号されたスペクトル値のセット342を提供するように構成され得るスペクトル値復号コンポーネント340を含み得る。オーディオデコーダ300はまた、符号化された換算係数328を受信し、それに基づいて復号された換算係数352のセットを提供するように構成され得る換算係数復号コンポーネント350を含み得る。
例えば、符号化されたオーディオ情報が換算係数情報ではなく符号化されたLPC情報を含む場合、換算係数復号の代わりに、LPCから換算係数への変換コンポーネント354が使用されてもよい。ただし、一部のコーディングモード(例えば、USACオーディオデコーダまたはEVSオーディオデコーダのTCX復号モード)では、LPC係数のセットを使用して、オーディオデコーダ側の換算係数のセットを導出できる。この機能は、LPCから換算係数への変換コンポーネント354によって到達され得る。
オーディオデコーダ300はまた、任意選択の信号処理(例えば、ノイズフィリング、および/または時間的ノイズシェーピング、TNSなど)を実行するための任意選択の処理ブロック366を含み得、これは、復号されたスペクトル値342に適用され得る。復号されたスペクトル値342の処理版366’は、処理ブロック366によって出力され得る。
オーディオデコーダ300はまた、換算された係数のセット352をスペクトル値のセット342(またはそれらの処理版366’)に適用し、それによって換算された値のセット362を取得するように構成され得るスケーラ360を含み得る。例えば、複数の復号されたスペクトル値342(またはそれらの処理版366’)を含む第1の周波数帯域は、第1の換算係数を使用して換算でき、複数の復号されたスペクトル値342を含む第2の周波数帯域は、第2の換算係数を使用して換算され得る。したがって、換算された値362のセットが得られる。
オーディオデコーダ300はまた、換算された値362を受け取り、換算された値のセット362に関連する時間領域表現372を提供するように構成され得る周波数領域から時間領域への変換370を含み得る。例えば、周波数領域から時間領域への変換370は、オーディオコンテンツのフレームまたはサブフレームに関連する時間領域表現372を提供することができる。例えば、周波数領域から時間領域への変換では、MDCT(またはMDST)係数のセット(換算された復号済みスペクトル値と見なすことができる)を受け取り、それに基づいて時間領域サンプルのブロックを提供でき、これは時間領域表現372を形成し得る。
オーディオデコーダ300はまた、フィルタコントローラ72およびLTPF73に対応し得るLTPFコンポーネント376を備える。LTPFコンポーネント376は、時間領域表現372を受け取り、時間領域表現372をいくらか修正して、それにより時間領域表現372の後処理版378を取得することができる。
オーディオデコーダ300は、例えば、(PLC機能を実行するための)隠蔽ユニット75に対応し得る誤り隠蔽コンポーネント380も含み得る。誤り隠蔽コンポーネント380は、例えば、周波数領域から時間領域への変換370から時間領域表現372を受信することができ、これは、例えば、1つ以上の失われたオーディオフレームに対して誤り隠蔽オーディオ情報382を提供することができる。言い換えれば、例えば、符号化スペクトル値326がオーディオフレーム(またはオーディオサブフレーム)に対して利用可能ではないように、オーディオフレームが失われた場合、誤り隠蔽コンポーネント380は、失われたオーディオフレームに先行する1つ以上のオーディオフレームに関連する時間領域表現372を基にして、誤り隠蔽オーディオ情報を提供することができる。誤り隠蔽オーディオ情報は、通常、オーディオコンテンツの時間領域表現であり得る。
誤り隠蔽に関しては、誤り隠蔽はフレームの復号と同時には起こらないことに留意されたい。例えば、フレームnが良好な場合は通常の復号を行い、最後に次のフレームを隠蔽する必要がある場合に役立つ変数を保存する。n+1が失われた場合は、変数を指定して前の良好なフレームに由来する隠蔽関数を呼び出す。また、いくつかの変数を更新して、次のフレームの損失または次の良好なフレームへの回復を支援する。
したがって、誤り隠蔽コンポーネント380は、将来の使用のために値16b、17b、17dがリアルタイムで格納される記憶コンポーネント327に接続され得る。それらは、後続のフレームが不完全に復号されていると認識される場合にのみ使用される。そうでなければ、記憶コンポーネント327に格納された値は、新しい値16b、17b、17dでリアルタイムで更新される。
例では、誤り隠蔽コンポーネント380は、信号スクランブル、および/またはTCX時間領域隠蔽、および/または位相ECUを用いて、MDCT(またはMDST)フレーム解像度反復を実行することができる。例では、その場で積極的に好ましい手法を認識して使用することが可能である。
オーディオデコーダ300は、フィルタリングされた(後処理された)時間領域表現378を受信するように構成され得る信号の結合コンポーネント390も含み得る。信号の結合390は、失われたオーディオフレームに対して提供された誤り隠蔽オーディオ信号の時間領域表現でもあり得る、誤り隠蔽オーディオ情報382を受信し得る。信号の結合390は、例えば、後続のオーディオフレームに関連する時間領域表現を組み合わせることができる。後続の適切に復号されたオーディオフレームがある場合、信号の結合390は、これらの後続の適切に復号されたオーディオフレームに関連付けられた時間領域表現(例えば、重畳加算)を結合できる。しかし、オーディオフレームが失われた場合、信号の結合390は、失われたオーディオフレームに先行する適切に復号されたオーディオフレームに関連する時間領域表現と、失われたオーディオフレームに関連する誤り隠蔽オーディオ情報とを結合(例えば、重畳加算)し、これにより、適切に受信されたオーディオフレームと失われたオーディオフレームの間のスムーズな移行が可能になる。同様に、信号の結合390は、失われたオーディオフレームに関連付けられた誤り隠蔽オーディオ情報と、失われたオーディオフレームに続く別の適切に復号されたオーディオフレームに関連付けられた時間領域表現(または、複数の連続したオーディオフレームが失われた場合に備えて、別の失われたオーディオフレームに関連付けられた別の誤り隠蔽オーディオ情報)とを組み合わせる(例えば、重畳加算する)ように構成され得る。
したがって、信号の結合390は、復号されたオーディオ情報312を提供することができ、時間領域表現372またはその後処理版378が、適切に復号されたオーディオフレームに提供され、誤り隠蔽オーディオ情報382が失われたオーディオフレームに提供されるようにし、この場合後続のオーディオフレームのオーディオ情報間で重畳加算操作が実行される可能性がある(周波数領域から時間領域への変換370によって提供されるか、誤り隠蔽コンポーネント380によって提供されるかに関係なく)。一部のコーデックには、キャンセルする必要がある重畳加算部分にいくらかエイリアスが設定されているため、任意選択で、重畳加算を実行するために作成したフレームの半分に幾分人工的なエイリアスを作成できる。
とりわけ、隠蔽コンポーネント380がLTPFコンポーネントに提供されていない場合でも、隠蔽コンポーネント380は入力でピッチ情報および/または利得の情報(16b、17b、17d)を受信する可能性がある。これは、隠蔽コンポーネント380が、LTPFコンポーネント370が動作するべきハーモニック性よりも低次のハーモニック性で動作する可能性があるためである。上記のように、ハーモニック性が第1の閾値を超えているが第2の閾値を下回っている場合、LTPF機能が非アクティブ化または削減されていても、隠蔽機能がアクティブになることがある。
とりわけ、他の実装が選択されてもよい。特に、コンポーネント340、350、354、360、および370とは異なるコンポーネントを使用することができる。
とりわけ、第3のフレーム18”が使用され得ることが条件とされる例(例えば、フィールド16b、17b、16c、17cなし)では、第3のフレーム18”が取得されるとき、第3のフレーム18からの情報は、LTPFコンポーネント376および誤り隠蔽コンポーネント380に使用される。
10.図10の方法
方法100が図10に示されている。ステップS101で、フレーム(12、12’、12”)は、リーダ(71、320)によって復号されてもよい。例において、フレームは、(例えば、Bluetooth接続を介して)受信され、および/または記憶ユニットから取得されてもよい。
ステップS102では、フレームの有効性がチェックされる(例えば、CRC、パリティなどで)。フレームの無効性が確認されると、隠蔽が実行される(以下を参照)。
そうではなく、フレームが有効に保持されている場合、ステップS103で、ピッチ情報がフレームに符号化されているかどうかがチェックされる。例えば、フレーム12”のフィールド18e(「ltpf_pitch_lag_present」)の値がチェックされる。例において、ピッチ情報は、ハーモニック性が第1の閾値を超えていると認められた場合(例えば、ブロック21によっておよび/またはステップS61において)にのみ符号化される。ただし、デコーダは比較を実行しない。
S103において、ピッチ情報が実際に符号化されている(例えば、現在の規則でltpf_pitch_lag_present=1)と認められた場合、ピッチ情報は(例えば、ピッチ情報16bまたは17bを符号化するフィールド「ltpf_pitch_lag」から)復号され、ステップS104で格納される。そうでない場合、サイクルが終了し、新しいフレームがS101で復号され得る。
次に、ステップS105で、LTPFが有効になっているかどうか、すなわちLTPFのピッチ情報を使用することが可能であるかどうかがチェックされる。この検証は、それぞれの制御項目(16c、17c、「ltpf_active」など)をチェックすることで実行できる。これは、ハーモニック性が第2の閾値を超えていること(例えば、ブロック22および/またはステップS63で認識されるように)および/または時間進展が極端に複雑ではないこと(信号は時間間隔で十分にフラットであること)を意味し得る。ただし、比較はデコーダによって実行されない。
LTPFがアクティブであることが確認された場合、ステップS106でLTPFが実行される。それ以外の場合、LTPFはスキップされる。サイクルは終了する。新しいフレームは、S101で復号されてもよい。
隠蔽を参照すると、後者はいくつかのステップに分割できる。ステップS107で、前のフレームのピッチ情報(または前のフレームの1つのピッチ情報)がメモリに格納されている(すなわち、それが自由に使える)かどうかが確認される。
検索されたピッチ情報が格納されていることが確認された場合、ステップS108で(例えば、コンポーネント75または380によって)誤り隠蔽を実行することができる。信号スクランブリングでのMDCT(またはMDST)フレーム解像度の反復、および/またはTCX時間領域隠蔽、および/またはフェーズECUを実行できる。
そうでなければ、S107で新しいピッチ情報が保存されていないことが確認された場合(その結果、前のフレームが信号の非常に低次のハーモニック性または非常に高い変動に関連付けられていたため)、異なる隠蔽技法はそれ自体既知であり、エンコーダによって提供されるピッチ情報の使用を示唆せずステップS109で使用されてもよい。これらの技法のいくつかは、デコーダでのピッチ情報および/または他のハーモニック性情報の推定に基づいている場合がある。いくつかの例では、この場合、隠蔽技法は実行されない場合がある。
隠蔽を実行した後、サイクルは終了し、新しいフレームがS101で復号され得る。
11.解決策についての議論
提案された解決策は、エンコーダ側に1つのピッチ検出器のみを保持し、LTPFまたはPLCがこの情報を必要とする場合は常にピッチラグパラメータを送信するものと見なすことができる。1ビットは、ピッチ情報がビットストリームに存在するかどうかを示すために使用される。LTPFがアクティブかどうかを通知するために、1つの追加ビットが使用される。
提案された解決策は、1つではなく2つのシグナリングビットを使用することにより、ピッチベースのPLCがアクティブでLTPFではない場合でも、いずれの追加の複雑さもなしに両方のモジュールにピッチラグ情報を直接提供できる。
したがって、LTPFとピッチベースのPLCとの複雑さの低い結合を得ることができる。
11.1 エンコーダ
a.フレームにつき1つのピッチラグは、ピッチ検出アルゴリズムを使用して推定される。これは、複雑さを低減して精度を向上させるために3つのステップで実行できる。第1のピッチラグは、低減されたサンプリングレートで「開ループピッチ分析」を使用して大まかに推定される(例えば、例の[1]または[5]を参照されたい)。次に、ピッチラグの整数部分は、より高いサンプリングレートで相関関数を最大化することによって調整される。第3のステップは、ピッチラグの小数部分を、例えば内挿された相関関数を最大化することにより推定するものである。
b.ビットストリームのピッチラグを符号化するかどうかを決定する。信号のハーモニック性の尺度は、例えば、正規化された相関などで使用され得る。次に、信号のハーモニック性が閾値を超える場合はビットltpf_pitch_lag_presentが1に設定され、それ以外の場合は0に設定される。ltpf_pitch_lag_presentが1の場合、ピッチラグltpf_pitch_lagはビットストリームで符号化される。
c.ltpf_pitch_lag_presentが1の場合、現在のフレームでLTPFツールをアクティブにするかどうかの第2の決定が行われる。この決定はまた、例えば、信号のハーモニック性、例えば正規化された相関関係に基づくこともできるが、より高い閾値で、さらには安定した決定を提供するためにヒステリシスメカニズムに基づき得る。この決定により、ビットltpf_activeが設定される。
d.(任意選択)ltpf_activeが1の場合、LTPF利得が推定され、ビットストリームに符号化される。LTPF利得は、相関ベースの関数を使用して推定し、均一量子化を使用して量子化できる。
11.2 ビットストリーム
例によると、ビットストリームシンタックスは図8aおよび図8bに示されている。
11.3 デコーダ
デコーダが破損していないフレームを正しく受信した場合:
a.LTPFデータはビットストリームから復号される
b.ltpf_pitch_lag_presentが0またはltpf_activeが0の場合、LTPFデコーダは、LTPF利得0で呼び出される(その場合、ピッチラグはない)。
c.ltpf_pitch_lag_presentが1で、ltpf_activeが1の場合、LTPFデコーダは、復号されたピッチラグと復号された利得で呼び出される。
デコーダが破損したフレームを受信した場合、またはフレームが失われた場合:
a.ピッチベースのPLCを使用して、失われた/破損したフレームを隠蔽するかどうかを決定する。この決定は、最後の良好なフレームのLTPFデータと、おそらく他の情報に基づいている。
b.最後の良好なフレームのltpf_pitch_lag_presentが0の場合、ピッチベースのPLCは使用されない。その場合、別のPLC方式が使用される。例えば、符号スクランブルを伴うフレーム反復がある([7]を参照)。
c.最後の良好なフレームのltpf_pitch_lag_presentが1であり、他の条件が満たされている可能性がある場合は、ピッチベースのPLCを使用して、失われた/破損したフレームを隠蔽する。PLCモジュールは、最後の良好なフレームのビットストリームから復号されたピッチラグltpf_pitch_lagを使用する。
12.その他の例
図11は、符号化装置10または10’を実装し、かつ/または方法60を実行することができるシステム110を示す。システム110は、プロセッサ111と、プロセッサ111によって実行されたときにプロセッサ111にピッチ推定113を実行させる(例えば、ピッチ推定器13を実装する)ことができる命令を格納する非一時的メモリユニット112、信号分析114(例えば、信号分析器14および/またはハーモニック性測定器24を実装するため)、およびビットストリーム形成115(例えば、ビットストリーム形成器15および/またはステップS62、S64、および/またはS66を実装するため)を備えることができる。システム110は、オーディオ信号(例えば、オーディオ信号11)を取得することができる入力ユニット116を含むことができる。したがって、プロセッサ111は、オーディオ信号の(例えば、フレーム12、12’、12”のフォーマットの)符号化された表現を取得するためのプロセスを実行することができる。この符号化された表現は、出力ユニット117を使用して外部ユニットに提供され得る。出力ユニット117は、例えば、(例えば、Bluetoothなどの無線通信を使用して)外部デバイスおよび/または外部記憶空間と通信するための通信ユニットを備えることができる。プロセッサ111は、オーディオ信号の符号化された表現をローカル記憶空間118に保存することができる。
図12は、復号装置70または300を実装し、かつ/または方法100を実行することができるシステム120を示す。システム120は、プロセッサ121と、プロセッサ121によって実行されるとき、プロセッサ121にビットストリーム読み取り123(例えば、ピッチリーダ71および/または320および/またはステップS101、ユニット75または380、および/またはステップS107〜S109を実装する)、フィルタ制御124(例えば、LTPF 73または376および/またはステップS106を実装する)、および隠蔽125(例えば実装する)を実行させ得る命令を格納する非一時的メモリユニット122とを備えることができる。システム120は、(例えば、フレーム12、12’、12”の形で)オーディオ信号の復号された表現を取得することができる入力ユニット126を備えることができる。したがって、プロセッサ121は、オーディオ信号の復号された表現を取得するためのプロセスを実行することができる。この復号された表現は、出力ユニット127を使用して外部ユニットに提供され得る。出力ユニット127は、例えば、(例えば、Bluetoothなどの無線通信を使用して)外部デバイスおよび/または外部記憶空間と通信するための通信ユニットを備えることができる。プロセッサ121は、オーディオ信号の復号された表現をローカル記憶空間128に保存することができる。
例において、システム110および120は、同じデバイスであり得る。
図13は、例による方法1300を示す。エンコーダ側では、ステップS130において、方法は、(例えば、上記の方法のいずれかに従って、または上記の少なくともいくつかのデバイスを使用して)オーディオ信号を符号化し、ハーモニック性情報および/またはピッチ情報を導出することを提供し得る。
エンコーダ側では、ステップS131で、この方法は、ピッチ情報が少なくともLTPFおよび/または誤り隠蔽機能がデコーダ側で動作するのに適しているかどうかを(例えば、ハーモニック性測定値などのハーモニック性情報に基づいて)判定することができる。
エンコーダ側では、ステップS132において、方法は、エンコーダから送信すること(例えば、Bluetoothを使用して、例えば無線で)、および/またはメモリに、オーディオ信号のデジタル表現およびハーモニック性に関連する情報を含むビットストリームを格納することを提供し得る。このステップはまた、ピッチ情報がLTPFおよび/または誤り隠蔽に適合しているかどうかをデコーダにシグナリングすることも提供できる。例えば、第3の制御項目18e(「ltpf_pitch_lag_present」)は、ピッチ情報(ビットストリームに符号化されている)が、第3の制御項目18eに符号化された値に従って少なくとも誤り隠蔽のために適合または非適合であることをシグナリングし得る。例えば、第1の制御項目16a(ltpf_active=0)は、ピッチ情報(「ltpf_pitch_lag」としてビットストリームに符号化される)が誤り隠蔽に適合されているが、(例えば、その中間ハーモニック性により)LTPFに適合されていないことをシグナリングし得る。例えば、第2の制御項目17a(ltpf_active=1)は、ピッチ情報(「ltpf_pitch_lag」としてビットストリームに符号化される)が、誤り隠蔽およびLTPF(例えば、そのより高いハーモニック性のため)の両方に適合されることをシグナリングし得る。
デコーダ側で、方法は、ステップS134で、オーディオ信号のデジタル表現を復号し、ピッチ情報を使用して、シグナリングによるピッチ情報LTPFおよび/または誤り隠蔽を使用することがエンコーダを形成することを提供することができる。
特定の実装要件に応じて、例はハードウェアで実装できる。実装は、デジタル記憶メディア、例えば、フロッピーディスク、デジタル多用途ディスク(DVD)、ブルーレイディスク、コンパクトディスク(CD)、読み取り専用メモリ(ROM)、プログラム可能な読み取り専用メモリ(PROM)、消去およびプログラム可能な読み取り専用メモリ(EPROM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、またはフラッシュメモリを使用して実行できる。これらは電子的に読み取り可能な制御信号を格納し、プログラム可能なコンピュータシステムと協働し(または協働でき)、それぞれの方法が実行されるようにする。したがって、デジタル記憶媒体は、コンピュータ可読であり得る。
一般に、例は、プログラム命令を含むコンピュータプログラム製品として実装されてもよく、プログラム命令は、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の1つを実行するように動作する。プログラム命令は、例えば、機械可読媒体に格納されてもよい。
他の例は、機械可読キャリアに格納された、本明細書に記載された方法の1つを実行するためのコンピュータプログラムを含む。換言すると、方法の例は、したがって、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載される方法の1つを実行するためのプログラム命令を有するコンピュータプログラムである。
したがって、方法のさらなる例は、本明細書に記載の方法のうちの1つを実行するための、記録されたコンピュータプログラムを含むデータキャリア媒体(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア媒体、デジタル記憶メディア、または記録されたメディアは、無形で一時的な信号ではなく、有形および/または非一時的なものである。
さらなる例は、本明細書に記載されている方法の1つを実行する処理ユニット、例えばコンピュータ、またはプログラム可能な論理デバイスを含む。
さらなる例は、本明細書に記載されている方法の1つを実行するためのコンピュータプログラムがインストールされているコンピュータを含む。
さらなる例は、本明細書で説明される方法の1つを実行するためのコンピュータプログラムを受信機に(例えば、電子的または光学的に)転送する装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含み得る。
いくつかの例では、プログラム可能な論理デバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書で説明されている方法の機能の一部またはすべてを実行することができる。いくつかの例では、フィールドプログラマブルゲートアレイは、本明細書で説明される方法の1つを実行するために、マイクロプロセッサと協働し得る。一般に、方法は、任意の適切なハードウェア装置によって実行され得る。
上記の例は、上で説明した原理を例示するものである。本明細書に記載された構成および詳細の修正および変形は明らかであることが理解される。したがって、直後の特許請求の範囲によって制限されることを意図しており、本明細書の例の記載および説明のために提示される特定の細部によって制限されることはない。

Claims (20)

  1. フレームのシーケンスに分割されたオーディオ信号に関連付けられたオーディオ信号情報(12、12’、12”)を復号するための装置(70、300)であって、
    符号化されたオーディオ信号情報(12、12’、12”、310)を読み取るように構成されたビットストリームリーダ(71、320)であって、前記符号化されたオーディオ信号情報は、
    第1のフレーム(16、16’、16”)と第2のフレーム(17、17’、17”)のオーディオ信号(11)の符号化された表現(16a、17a、18a、310)と、
    前記第1のフレーム(16、16’、16”)の第1のピッチ情報(16b)、および第1の値を有する第1の制御データ項目(16c)と、
    前記第2のフレーム(17、17’、17”)の第2のピッチ情報(17b)、および前記第1の値とは異なる第2の値を有する第2の制御データ項目(17c)と
    を有する、ビットストリームリーダ、および
    長期ポストフィルタLTPF(73、376)を、
    前記第2の制御データ項目(17c)が前記第2の値を有するとき、前記第2のピッチ情報(17b)を使用して前記第2のフレーム(17、17’、17”)の前記オーディオ信号の復号された表現(71a、372)をフィルタリングし、
    前記第1の制御データ項目(16c)が前記第1の値を有するとき、前記第1のフレーム(16、16’、16”)の前記LTPF(73、376)を非アクティブにする
    ように制御すべく構成されたコントローラ(72)
    を備える装置(70、300)。
  2. 前記ビットストリームリーダ(71、320)が、第3のフレーム(18”)を読み取るように構成され、前記第3のフレーム(18”)は、前記第1のピッチ情報(16b)および/または前記第2のピッチ情報(17b)の有無を示す制御データ項目(18e)を有する、請求項1に記載の装置。
  3. 前記第3のフレーム(18”)は、前記第1のピッチ情報(16b)、前記第1の制御データ項目(16c)、前記第2のピッチ情報(17b)、および前記第2の制御データ項目(17c)を欠くフォーマットを有する、
    請求項2に記載の装置。
  4. 前記第3の制御データ項目(18e)が、前記第3のフレーム(18”)を前記第1および第2のフレーム(16”、17”)と区別する値を有する1つの単一ビットに符号化される、
    請求項2または3に記載の装置。
  5. 前記符号化されたオーディオ信号情報では、前記第1のフレーム(16”)について、1つの単一ビットが前記第1の制御データ項目(16c)に予約され、固定のデータフィールド(16b)が前記第1のピッチ情報に予約される、請求項1〜4のいずれかに記載の装置。
  6. 前記符号化されたオーディオ信号情報では、前記第2のフレーム(17”)について、1つの単一ビットが前記第2の制御データ項目(17c)に予約され、固定のデータフィールド(17b)が前記第2のピッチ情報に予約される、請求項1〜5のいずれかに記載の装置。
  7. 前記第1の制御データ項目(16c)および前記第2の制御データ項目(17c)は、前記符号化されたオーディオ信号情報の同じ部分またはデータフィールドに符号化される、
    請求項1〜6のいずれかに記載の装置。
  8. 前記符号化されたオーディオ信号情報は、前記第3の制御データ項目(18e)を符号化する1つの第1のシグナリングビットを含み、
    前記第1のピッチ情報(16b)および/または前記第2のピッチ情報(17b)が存在していることを示す前記第3の制御データ項目(18e)の値の場合、第2のシグナリングビットは前記第1の制御データ項目(16c)および前記第2の制御データ項目(17c)を符号化する、
    請求項1〜7のいずれかに記載の装置。
  9. 前記第1および/または第2のピッチ情報(16b、17b)を使用して、後続の適切に復号されていないオーディオフレームを隠蔽するように構成された隠蔽ユニット(75、380)
    をさらに含む、請求項1〜8のいずれかに記載の装置。
  10. 前記隠蔽ユニット(75、380)は、
    無効なフレームの復号の判定(S102)の場合、以前に正しく復号されたフレームに関するピッチ情報が格納されているかどうかをチェックし(S107)、
    無効に復号されたフレームを、前記格納されたピッチ情報を使用して取得されたフレームで隠蔽する(S108)
    ように構成される、請求項9に記載の装置。
  11. オーディオ信号(11)を符号化するための装置(10、10’)であって、
    オーディオ信号(11)のピッチに関連するピッチ情報(13a)を取得するように構成されたピッチ推定器(13)、
    前記オーディオ信号(11)のハーモニック性に関連するハーモニック性情報(14a、24a、24c)を取得するように構成された信号分析器(14)、および
    符号化されたオーディオ信号情報(12”)符号化フレーム(16”、17”、18”)を準備して前記ビットストリームに、
    第1のフレーム(16”)、第2のフレーム(17”)、および第3のフレーム(18”)の前記オーディオ信号(11)の符号化された表現(16a、17a、18a)、
    第1のフレーム(16”)の第1のピッチ情報(16b)、および第1の値を有する第1の制御データ項目(16c)、
    第2のフレーム(17”)の第2のピッチ情報(17b)、および前記第1の値とは異なる第2の値を有する第2の制御データ項目(17c)、および
    前記第1のフレーム、第2のフレーム、第3のフレームの第3の制御データ項目(18e)
    を含めるように構成されたビットストリーム形成器(15)を備え、
    それにおいて、前記第1の値(16c)および前記第2の値(17c)は、前記ハーモニック性情報(14a、24a、24c)に関連付けられた第2の基準(600)に依存し、
    前記第1の値(16c)は、前記第1のフレーム(16”)の前記オーディオ信号(11)の前記ハーモニック性に関する前記第2の基準(600)を満たしていないことを示し、
    前記第2の値(17c)は、前記第2のフレーム(17”)の前記オーディオ信号(11)の前記ハーモニック性に関する前記第2の基準(600)を満たしていることを示し、
    それにおいて、前記第2の基準(600)は、少なくとも1つの第2のハーモニック性測定値(24a”)が少なくとも1つの第2の閾値より大きいときに満たされる少なくとも条件(S63)を含み、
    前記第3の制御データ項目(18e)は、前記第3のフレーム(18”)を前記第1および第2のフレーム(16”、17”)と区別する値を持つ1つの単一ビットに符号化され、前記第3のフレーム(18”)は第1の基準(S61)が満たされない場合、符号化され、前記第1の基準(S61)が満たされた場合に、前記第1および第2のフレーム(16”、17”)が符号化され、前記第1の基準(S61)は少なくとも1つの第1のハーモニック性測定値(24a’)が少なくとも1つの第1閾値より大きいときに満たされる少なくとも1つの条件を含み、それにおいて、前記ビットストリームでは、前記第1のフレーム(16”)の場合、1つの単一ビットが前記第1の制御データ項目(16c)に予約され、固定データフィールド(16b)が前記第1のピッチ情報に予約され、
    前記ビットストリームでは、前記第2のフレーム(17”)について、1つの単一ビットが前記第2の制御データ項目(17c)に予約され、固定データフィールド(17b)が前記第2のピッチ情報に予約され、
    それにおいて、前記ビットストリームでは、前記第3のフレーム(18”)について、前記固定データフィールドおよび/または前記第1および第2の制御項目のためにビットが予約されていない装置。
  12. 前記第2の基準(600)は、前記前のフレームの少なくとも1つのハーモニック性測定値が前記少なくとも1つの追加の閾値より大きいときに満たされる少なくとも追加の条件を含む、請求項11に記載の装置。
  13. 前記第1および第2のハーモニック性測定値が異なるサンプリングレートで得られる、請求項11または12のいずれかに記載の装置。
  14. 前記ピッチ情報(13a)は、ピッチラグ情報またはその処理版を含む、請求項11〜13のいずれかに記載の装置。
  15. 前記ハーモニック性情報(14a、24a、24a’、24a”、24c)は、自己相関値および/または正規化された自己相関値および/またはそれらの処理版の少なくとも1つを含む、請求項11〜14のいずれかに記載の装置。
  16. フレームのシーケンスに分割されたオーディオ信号に関連付けられたオーディオ信号情報を復号するための方法(100)であって、
    第1のフレーム(16”)と第2のフレーム(17”)の前記オーディオ信号(11)の符号化された表現(16a、17a)と、
    前記第1のフレーム(16”)の第1のピッチ情報(16b)、および第1の値を有する第1の制御データ項目(16c)と、
    前記第2のフレーム(17”)の第2のピッチ情報(17b)、および前記第1の値とは異なる第2の値を有する第2の制御データ項目(17c)と
    を含む符号化されたオーディオ信号情報(12”)を読み取ること(S101)、
    第1の制御データ項目(16c)が前記第1の値を持っているという判定において、長期ポストフィルタLTPFの前記第1のピッチ情報(16b)を使用すること、および
    第2の制御データ項目(17c)の前記第2の値の判定において、LTPFを非アクティブにすること
    を含む、方法。
  17. 前記第1または第2の制御データ項目(16c、17c)が第1または第2の値を有するという判定で、誤り隠蔽機能のための前記第1または第2のピッチ情報(16c、17b)を使用することをさらに含む、請求項16に記載の方法。
  18. フレームに分割された信号に関連付けられたオーディオ信号情報を符号化するための方法(60)であって、
    オーディオ信号から測定値(24a、24a’、24a”)を取得すること(S60)、
    第2の基準(600)を満たしていることを検証すること(S63、S610〜S612)であって、前記第2の基準(600)は前記測定値(24a、24a’、24a”)に基づいており、少なくとも1つの第2のハーモニック性測定値(24a’)が第2の閾値より大きいときに満たされる少なくとも1つの条件を含む、検証すること、および
    第1のフレーム(16”)および第2のフレーム(17”)および第3のフレーム(18”)の前記オーディオ信号(11)の符号化された表現(16a、17a)、
    前記第1のフレーム(16”)の第1のピッチ情報(16b)と、第1の値を有する第1の制御データ項目(16c)および第3の制御データ項目(18e)、
    前記第2のフレーム(17”)の第2のピッチ情報(17b)および前記第1の値とは異なる第2の値を有する第2の制御データ項目(17c)および第3の制御データ項目(18e)を含む、フレーム(16”、17”、18”)を有する符号化されたオーディオ信号情報(12、12’、12”)を形成すること(S64)を含み、
    それにおいて前記第1の値(16c)および第2の値(17c)は、前記第2の基準(600)に依存し、前記第1の値(16c)は、前記第1のフレーム(16”)の前記オーディオ信号(11)のハーモニック性に基づいて前記第2の基準(600)を満たしていないことを示し、前記第2の値(17c)は、前記第2のフレーム(17)の前記オーディオ信号(11)のハーモニック性に基づいて前記第2の基準(600)が満たされていることを示し、
    前記第3の制御データ項目(18e)は、第1の基準(S61)を満たしていることに関連して、前記第3のフレーム(18”)を前記第1および第2のフレーム(16”、17”)から区別する値を有する1つの単一ビットであり、前記第3の制御データ項目(18e)が前記第1の基準(S61)を満たしていないことを示すとき、少なくとも1つの第1のハーモニック性測定値(24a’)が少なくとも1つの第1の閾値よりも高いときに満たされる少なくとも1つの条件に基づいて、前記第3のフレーム(18”)を識別し、
    それにおいて前記符号化されたオーディオ信号情報は、前記第1のフレーム(16”)について、1つの単一ビットが前記第1の制御データ項目(16c)および前記第1のピッチ情報(16b)の固定データフィールド用に予約されるように形成され、
    それにおいて前記符号化されたオーディオ信号情報は、前記第2のフレーム(17”)について、1つの単一ビットが前記第2の制御データ項目(17c)および前記第2のピッチ情報(17b)の固定データフィールド用に予約されるように形成され、
    それにおいて前記符号化されたオーディオ信号情報は、前記第3のフレーム(18”)について、前記固定データフィールド用にビットが予約されず、ビットが前記第1の制御データ項目(16c)と前記第2の制御データ項目(17c)用に予約されない、方法。
  19. 請求項16または17に記載のオーディオ信号(11)を符号化すること、
    符号化されたオーディオ信号情報(12、12’、12”)をデコーダに送信するか、前記符号化されたオーディオ信号情報を格納すること、および
    請求項18に記載の前記オーディオ信号情報(12、12’、12”)を復号することを含む方法。
  20. プロセッサによって実行されるとき、請求項16〜19のいずれかに記載の方法を実行する命令を格納する非一時的メモリユニット。
JP2020526084A 2017-11-10 2018-11-06 オーディオ信号の符号化および復号 Active JP7004474B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17201099.3A EP3483883A1 (en) 2017-11-10 2017-11-10 Audio coding and decoding with selective postfiltering
EP17201099.3 2017-11-10
PCT/EP2018/080350 WO2019091980A1 (en) 2017-11-10 2018-11-06 Encoding and decoding audio signals

Publications (2)

Publication Number Publication Date
JP2021502605A true JP2021502605A (ja) 2021-01-28
JP7004474B2 JP7004474B2 (ja) 2022-01-21

Family

ID=60301910

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020526084A Active JP7004474B2 (ja) 2017-11-10 2018-11-06 オーディオ信号の符号化および復号

Country Status (17)

Country Link
US (1) US11217261B2 (ja)
EP (2) EP3483883A1 (ja)
JP (1) JP7004474B2 (ja)
KR (1) KR102460233B1 (ja)
CN (1) CN111566731B (ja)
AR (1) AR113481A1 (ja)
AU (1) AU2018363701B2 (ja)
BR (1) BR112020009184A2 (ja)
CA (1) CA3082274C (ja)
ES (1) ES2968821T3 (ja)
MX (1) MX2020004776A (ja)
PL (1) PL3707714T3 (ja)
RU (1) RU2741518C1 (ja)
SG (1) SG11202004228VA (ja)
TW (1) TWI698859B (ja)
WO (1) WO2019091980A1 (ja)
ZA (1) ZA202002524B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5981408B2 (ja) * 2013-10-29 2016-08-31 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム
EP2980798A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
KR102664768B1 (ko) 2019-01-13 2024-05-17 후아웨이 테크놀러지 컴퍼니 리미티드 고해상도 오디오 코딩
CN112289328B (zh) * 2020-10-28 2024-06-21 北京百瑞互联技术股份有限公司 一种确定音频编码码率的方法及系统
CN113096685B (zh) * 2021-04-02 2024-05-07 北京猿力未来科技有限公司 音频处理方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016523380A (ja) * 2013-06-21 2016-08-08 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 改善されたパルス再同期化を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
JP2017528752A (ja) * 2014-07-28 2017-09-28 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ハーモニックフィルタツールのハーモニック依存制御

Family Cites Families (156)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3639753A1 (de) 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
US5012517A (en) 1989-04-18 1991-04-30 Pacific Communication Science, Inc. Adaptive transform coder having long term predictor
US5233660A (en) 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
JPH05281996A (ja) 1992-03-31 1993-10-29 Sony Corp ピッチ抽出装置
IT1270438B (it) 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce
US5581653A (en) 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
JP3402748B2 (ja) 1994-05-23 2003-05-06 三洋電機株式会社 音声信号のピッチ周期抽出装置
JPH0811644A (ja) 1994-06-27 1996-01-16 Nissan Motor Co Ltd ルーフモール取付構造
US6167093A (en) 1994-08-16 2000-12-26 Sony Corporation Method and apparatus for encoding the information, method and apparatus for decoding the information and method for information transmission
EP0732687B2 (en) 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
US5781888A (en) 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
WO1997027578A1 (en) 1996-01-26 1997-07-31 Motorola Inc. Very low bit rate time domain speech analyzer for voice messaging
US5812971A (en) 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
JPH1091194A (ja) 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
KR100261253B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
GB2326572A (en) 1997-06-19 1998-12-23 Softsound Limited Low bit rate audio coder and decoder
US6507814B1 (en) 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6735561B1 (en) 2000-03-29 2004-05-11 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
US7099830B1 (en) 2000-03-29 2006-08-29 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
US6665638B1 (en) 2000-04-17 2003-12-16 At&T Corp. Adaptive short-term post-filters for speech coders
US7395209B1 (en) 2000-05-12 2008-07-01 Cirrus Logic, Inc. Fixed point audio decoding system and method
US7353168B2 (en) 2001-10-03 2008-04-01 Broadcom Corporation Method and apparatus to eliminate discontinuities in adaptively filtered signals
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7433824B2 (en) 2002-09-04 2008-10-07 Microsoft Corporation Entropy coding by adapting coding between level and run-length/level modes
JP4287637B2 (ja) 2002-10-17 2009-07-01 パナソニック株式会社 音声符号化装置、音声符号化方法及びプログラム
DE602004002390T2 (de) 2003-02-11 2007-09-06 Koninklijke Philips Electronics N.V. Audiocodierung
KR20030031936A (ko) 2003-02-13 2003-04-23 배명진 피치변경법을 이용한 단일 음성 다중 목소리 합성기
CN1809873B (zh) 2003-06-17 2010-05-12 松下电器产业株式会社 接收装置,发送装置及传输系统
US7983909B2 (en) 2003-09-15 2011-07-19 Intel Corporation Method and apparatus for encoding audio data
US7009533B1 (en) 2004-02-13 2006-03-07 Samplify Systems Llc Adaptive compression and decompression of bandlimited signals
DE102004009954B4 (de) 2004-03-01 2005-12-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals
US8983834B2 (en) 2004-03-01 2015-03-17 Dolby Laboratories Licensing Corporation Multichannel audio coding
DE102004009949B4 (de) 2004-03-01 2006-03-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes
WO2005086138A1 (ja) 2004-03-05 2005-09-15 Matsushita Electric Industrial Co., Ltd. エラー隠蔽装置およびエラー隠蔽方法
NZ562182A (en) 2005-04-01 2010-03-26 Qualcomm Inc Method and apparatus for anti-sparseness filtering of a bandwidth extended speech prediction excitation signal
US7546240B2 (en) * 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
US7539612B2 (en) 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
KR100888474B1 (ko) 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
US7805297B2 (en) 2005-11-23 2010-09-28 Broadcom Corporation Classification-based frame loss concealment for audio signals
US9123350B2 (en) 2005-12-14 2015-09-01 Panasonic Intellectual Property Management Co., Ltd. Method and system for extracting audio features from an encoded bitstream for audio classification
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US8781842B2 (en) 2006-03-07 2014-07-15 Telefonaktiebolaget Lm Ericsson (Publ) Scalable coding with non-casual predictive information in an enhancement layer
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US20090204397A1 (en) 2006-05-30 2009-08-13 Albertus Cornelis Den Drinker Linear predictive coding of an audio signal
CN1983909B (zh) 2006-06-08 2010-07-28 华为技术有限公司 一种丢帧隐藏装置和方法
US8015000B2 (en) 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
CN101501761B (zh) 2006-08-15 2012-02-08 杜比实验室特许公司 无需边信息对时域噪声包络的任意整形
FR2905510B1 (fr) 2006-09-01 2009-04-10 Voxler Soc Par Actions Simplif Procede d'analyse en temps reel de la voix pour le controle en temps reel d'un organe numerique et dispositif associe
CN101140759B (zh) 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
DE102006049154B4 (de) 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
KR101292771B1 (ko) 2006-11-24 2013-08-16 삼성전자주식회사 오디오 신호의 오류은폐방법 및 장치
EP2099026A4 (en) 2006-12-13 2011-02-23 Panasonic Corp POST-FILTER AND FILTERING METHOD
FR2912249A1 (fr) 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
US20110022924A1 (en) 2007-06-14 2011-01-27 Vladimir Malenovsky Device and Method for Frame Erasure Concealment in a PCM Codec Interoperable with the ITU-T Recommendation G. 711
CN101325537B (zh) * 2007-06-15 2012-04-04 华为技术有限公司 一种丢帧隐藏的方法和设备
JP4928366B2 (ja) 2007-06-25 2012-05-09 日本電信電話株式会社 ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体
JP4572218B2 (ja) 2007-06-27 2010-11-04 日本電信電話株式会社 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
US20110116542A1 (en) 2007-08-24 2011-05-19 France Telecom Symbol plane encoding/decoding with dynamic calculation of probability tables
ATE535904T1 (de) 2007-08-27 2011-12-15 Ericsson Telefon Ab L M Verbesserte transformationskodierung von sprach- und audiosignalen
CN100524462C (zh) 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
JP5547081B2 (ja) 2007-11-02 2014-07-09 華為技術有限公司 音声復号化方法及び装置
WO2009066869A1 (en) 2007-11-21 2009-05-28 Electronics And Telecommunications Research Institute Frequency band determining method for quantization noise shaping and transient noise shaping method using the same
WO2009084918A1 (en) 2007-12-31 2009-07-09 Lg Electronics Inc. A method and an apparatus for processing an audio signal
CN102057424B (zh) 2008-06-13 2015-06-17 诺基亚公司 用于经编码的音频数据的错误隐藏的方法和装置
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2346030B1 (en) 2008-07-11 2014-10-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, method for encoding an audio signal and computer program
ES2558229T3 (es) 2008-07-11 2016-02-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y decodificador de audio para codificar tramas de señales de audio muestreadas
US8577673B2 (en) 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
EP3640941A1 (en) 2008-10-08 2020-04-22 Fraunhofer Gesellschaft zur Förderung der Angewand Multi-resolution switched audio encoding/decoding scheme
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
AU2010209756B2 (en) 2009-01-28 2013-10-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio coding
JP4945586B2 (ja) 2009-02-02 2012-06-06 株式会社東芝 信号帯域拡張装置
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
FR2944664A1 (fr) 2009-04-21 2010-10-22 Thomson Licensing Dispositif et procede de traitement d'images
US8428938B2 (en) 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
US8352252B2 (en) 2009-06-04 2013-01-08 Qualcomm Incorporated Systems and methods for preventing the loss of information within a speech frame
KR20100136890A (ko) 2009-06-19 2010-12-29 삼성전자주식회사 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법
CN101958119B (zh) 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
EP3693964B1 (en) 2009-10-15 2021-07-28 VoiceAge Corporation Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
RU2605677C2 (ru) 2009-10-20 2016-12-27 Франхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Аудио кодер, аудио декодер, способ кодирования аудио информации, способ декодирования аудио информации и компьютерная программа, использующая итеративное уменьшение размера интервала
BR122020024243B1 (pt) 2009-10-20 2022-02-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Codificador de sinal de áudio, decodificador de sinal de áudio, método para prover uma representação codificada de um conteúdo de áudio e método para prover uma representação decodificada de um conteúdo de áudio.
US8207875B2 (en) 2009-10-28 2012-06-26 Motorola Mobility, Inc. Encoder that optimizes bit allocation for information sub-parts
US7978101B2 (en) 2009-10-28 2011-07-12 Motorola Mobility, Inc. Encoder and decoder using arithmetic stage to compress code space that is not fully utilized
KR101761629B1 (ko) 2009-11-24 2017-07-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
PL2524372T3 (pl) 2010-01-12 2015-08-31 Fraunhofer Ges Forschung Koder audio. dekoder audio, sposób kodowania i dekodowania informacji audio i program komputerowy uzyskujący wartość podobszaru kontekstu w oparciu o normę uprzednio zdekodowanych wartości widmowych
US20110196673A1 (en) 2010-02-11 2011-08-11 Qualcomm Incorporated Concealing lost packets in a sub-band coding decoder
EP2375409A1 (en) 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
FR2961980A1 (fr) 2010-06-24 2011-12-30 France Telecom Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique
CA3025108C (en) 2010-07-02 2020-10-27 Dolby International Ab Audio decoding with selective post filtering
EP4131258A1 (en) 2010-07-20 2023-02-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio decoding method, audio encoder, audio encoding method and computer program
US9082416B2 (en) 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
US8738385B2 (en) 2010-10-20 2014-05-27 Broadcom Corporation Pitch-based pre-filtering and post-filtering for compression of audio signals
MX2013009346A (es) 2011-02-14 2013-10-01 Fraunhofer Ges Forschung Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral.
US9270807B2 (en) 2011-02-23 2016-02-23 Digimarc Corporation Audio localization using audio signal encoding and recognition
CN103703511B (zh) * 2011-03-18 2017-08-22 弗劳恩霍夫应用研究促进协会 定位在表示音频内容的比特流的帧中的帧元素
MY166916A (en) 2011-04-21 2018-07-24 Samsung Electronics Co Ltd Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for dequantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore
US8891775B2 (en) 2011-05-09 2014-11-18 Dolby International Ab Method and encoder for processing a digital stereo audio signal
FR2977439A1 (fr) 2011-06-28 2013-01-04 France Telecom Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard.
FR2977969A1 (fr) 2011-07-12 2013-01-18 France Telecom Adaptation de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee
AU2012366843B2 (en) 2012-01-20 2015-08-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for audio encoding and decoding employing sinusoidal substitution
WO2013149672A1 (en) 2012-04-05 2013-10-10 Huawei Technologies Co., Ltd. Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder
US20130282373A1 (en) 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US9026451B1 (en) 2012-05-09 2015-05-05 Google Inc. Pitch post-filter
KR102102450B1 (ko) 2012-06-08 2020-04-20 삼성전자주식회사 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
GB201210373D0 (en) 2012-06-12 2012-07-25 Meridian Audio Ltd Doubly compatible lossless audio sandwidth extension
FR2992766A1 (fr) 2012-06-29 2014-01-03 France Telecom Attenuation efficace de pre-echos dans un signal audionumerique
CN102779526B (zh) 2012-08-07 2014-04-16 无锡成电科大科技发展有限公司 语音信号中基音提取及修正方法
US9406307B2 (en) 2012-08-19 2016-08-02 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US9293146B2 (en) 2012-09-04 2016-03-22 Apple Inc. Intensity stereo coding in advanced audio coding
TWI553628B (zh) 2012-09-24 2016-10-11 三星電子股份有限公司 訊框錯誤隱藏方法
US9401153B2 (en) 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
CN103886863A (zh) * 2012-12-20 2014-06-25 杜比实验室特许公司 音频处理设备及音频处理方法
FR3001593A1 (fr) 2013-01-31 2014-08-01 France Telecom Correction perfectionnee de perte de trame au decodage d'un signal.
PL3125239T3 (pl) 2013-02-05 2019-12-31 Telefonaktiebolaget Lm Ericsson (Publ) Sposób i urządzenie do kontrolowania ukrywania utraty ramek audio
TWI530941B (zh) * 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
CA2925734C (en) 2013-10-18 2018-07-10 Guillaume Fuchs Coding of spectral coefficients of a spectrum of an audio signal
US9906858B2 (en) 2013-10-22 2018-02-27 Bongiovi Acoustics Llc System and method for digital signal processing
MX355452B (es) 2013-10-31 2018-04-18 Fraunhofer Ges Forschung Extension de ancho de banda de audio mediante insercion de ruido pre-formado temporal en el dominio de frecuencia.
ES2739477T3 (es) * 2013-10-31 2020-01-31 Fraunhofer Ges Forschung Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo
EP3336841B1 (en) 2013-10-31 2019-12-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
KR101831088B1 (ko) 2013-11-13 2018-02-21 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호를 인코딩하기 위한 인코더, 오디오 전송 시스템 및 보정값들을 결정하기 위한 방법
GB2524333A (en) 2014-03-21 2015-09-23 Nokia Technologies Oy Audio signal payload
US9396733B2 (en) 2014-05-06 2016-07-19 University Of Macau Reversible audio data hiding
NO2780522T3 (ja) 2014-05-15 2018-06-09
EP2963646A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and method for decoding an audio signal, encoder and method for encoding an audio signal
US9685166B2 (en) 2014-07-26 2017-06-20 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding
EP2980796A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
EP2980799A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a harmonic post-filter
AU2015258241B2 (en) 2014-07-28 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
WO2016016724A2 (ko) 2014-07-28 2016-02-04 삼성전자 주식회사 패킷 손실 은닉방법 및 장치와 이를 적용한 복호화방법 및 장치
EP2988300A1 (en) 2014-08-18 2016-02-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Switching of sampling rates at audio processing devices
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
EP3067887A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US9886963B2 (en) 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
US10049684B2 (en) 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
JP6422813B2 (ja) 2015-04-13 2018-11-14 日本電信電話株式会社 符号化装置、復号装置、これらの方法及びプログラム
US9978400B2 (en) 2015-06-11 2018-05-22 Zte Corporation Method and apparatus for frame loss concealment in transform domain
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US9837089B2 (en) 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
KR20170000933A (ko) 2015-06-25 2017-01-04 한국전기연구원 시간 지연 추정을 이용한 풍력 터빈의 피치 제어 시스템
US9830921B2 (en) 2015-08-17 2017-11-28 Qualcomm Incorporated High-band target signal control
KR20180040716A (ko) 2015-09-04 2018-04-20 삼성전자주식회사 음질 향상을 위한 신호 처리방법 및 장치
US9978381B2 (en) 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals
US10219147B2 (en) 2016-04-07 2019-02-26 Mediatek Inc. Enhanced codec control
US10283143B2 (en) 2016-04-08 2019-05-07 Friday Harbor Llc Estimating pitch of harmonic signals
CN107103908B (zh) 2017-05-02 2019-12-24 大连民族大学 复调音乐多音高估计方法及伪双谱在多音高估计中的应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016523380A (ja) * 2013-06-21 2016-08-08 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 改善されたパルス再同期化を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
JP2017528752A (ja) * 2014-07-28 2017-09-28 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ハーモニックフィルタツールのハーモニック依存制御

Also Published As

Publication number Publication date
US20200265855A1 (en) 2020-08-20
ZA202002524B (en) 2021-08-25
KR102460233B1 (ko) 2022-10-28
EP3707714C0 (en) 2023-11-29
EP3707714A1 (en) 2020-09-16
CA3082274C (en) 2023-03-07
AR113481A1 (es) 2020-05-06
ES2968821T3 (es) 2024-05-14
KR20200081467A (ko) 2020-07-07
PL3707714T3 (pl) 2024-05-20
WO2019091980A1 (en) 2019-05-16
AU2018363701B2 (en) 2021-05-13
CN111566731A (zh) 2020-08-21
TWI698859B (zh) 2020-07-11
AU2018363701A1 (en) 2020-05-21
EP3707714B1 (en) 2023-11-29
BR112020009184A2 (pt) 2020-11-03
TW201923746A (zh) 2019-06-16
SG11202004228VA (en) 2020-06-29
EP3483883A1 (en) 2019-05-15
MX2020004776A (es) 2020-08-13
CA3082274A1 (en) 2019-05-16
US11217261B2 (en) 2022-01-04
JP7004474B2 (ja) 2022-01-21
RU2741518C1 (ru) 2021-01-26
CN111566731B (zh) 2023-04-04

Similar Documents

Publication Publication Date Title
JP7004474B2 (ja) オーディオ信号の符号化および復号
CN105765651B (zh) 使用错误隐藏提供经解码的音频信息的音频解码器及方法
EP3175455B1 (en) Harmonicity-dependent controlling of a harmonic filter tool
US11380341B2 (en) Selecting pitch lag
JP6728142B2 (ja) デジタルオーディオ信号におけるプレエコーを識別し、減衰させる方法及び装置
CN111292755B (zh) 突发帧错误处理
KR20170132854A (ko) 오디오 인코더 및 오디오 신호를 인코딩하는 방법
JP7073492B2 (ja) 異なる損失隠蔽ツールのセットをサポートするオーディオデコーダ

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200705

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200705

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211229

R150 Certificate of patent or registration of utility model

Ref document number: 7004474

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150