JP2021502608A - 異なる損失隠蔽ツールのセットをサポートするオーディオデコーダ - Google Patents

異なる損失隠蔽ツールのセットをサポートするオーディオデコーダ Download PDF

Info

Publication number
JP2021502608A
JP2021502608A JP2020526135A JP2020526135A JP2021502608A JP 2021502608 A JP2021502608 A JP 2021502608A JP 2020526135 A JP2020526135 A JP 2020526135A JP 2020526135 A JP2020526135 A JP 2020526135A JP 2021502608 A JP2021502608 A JP 2021502608A
Authority
JP
Japan
Prior art keywords
audio signal
loss concealment
audio
loss
plc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020526135A
Other languages
English (en)
Other versions
JP7073492B2 (ja
Inventor
トマシェク・アドリアン
ラヴェッリ・エマニュエル
シュネル・マーカス
チェカリンスキー・アレクサンダー
シュナベル・ミヒャエル
スペルシュナイダー・ラルフ
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2021502608A publication Critical patent/JP2021502608A/ja
Application granted granted Critical
Publication of JP7073492B2 publication Critical patent/JP7073492B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3059Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6005Decoder aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/756Media network packet handling adapting media to device capabilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

オーディオデコーダの様々な損失隠蔽ツールの位相セットの1つを、データストリームからデコードされるオーディオ信号の損失の影響を受ける部分に割り当てること、つまり異なる損失隠蔽ツールのセットからの選択は、割り当て/選択が次の2つの尺度に基づいて行われる場合には、損失をより快適に隠蔽する方法で行われてもよい。決定される第1の尺度は、オーディオ信号のスペクトルのスペクトル重心のスペクトル位置を示し、決定される第2の尺度は、オーディオ信号の時間的予測可能性を示す。次に、割り当てられた、または選択された損失隠蔽ツールを使用して、オーディオ信号の部分を復元することができる。

Description

本出願は、異なる損失隠蔽ツールのセットをサポートするオーディオデコーダに関する。
パケット損失隠蔽(PLC)は、エンコーダからデコーダへの送信中に失われたパケットまたは破損したパケットを隠蔽するために、オーディオコーデックで使用される。PLCはデコーダ側で実行され、変換領域または時間領域のいずれかでデコードされた信号を外挿することによって機能する。理想的には、隠蔽された信号はアーチファクトがなく、欠落した信号と同じスペクトル特性を有する必要がある。
[2]と[4]で説明されているように、エラーロバストオーディオコーデックは一般に、モノフォニック信号の例としてのスピーチ、ポリフォニック信号の例としての音楽またはノイズ信号など、様々な信号タイプに対して複数の隠蔽方法を備えている。選択は、ビットストリームから送信されデコードされるか、あるいはデコーダで推定される信号特徴のセットに基づいている。
ピッチベースのPLC技術は、一般にスピーチ信号とモノフォニック信号に良い結果をもたらす。これらの手法は、信号が局所的に定常的であると仮定し、外挿されたピッチ周期を使用して周期的な信号を合成することにより、失われた信号を回復する。これらの技術は、ITU−T G.718[2]などのCELPベースのスピーチコーディングで広く使用されている。これらは、ITU−T G.711[3]などのPCMコーディングにも使用することができ、最近では、DECTベースのオーディオコーディングに適用され、最も良い例は、3GPP EVS標準[4]のTCX時間領域隠蔽TCX TD−PLCである。
ピッチラグは、ピッチベースのPLCで使用される主要なパラメータである。このパラメータは、エンコーダ側で推定し、ビットストリームにエンコードすることができる。この場合、最後の良好なフレームのピッチラグを使用して、[2]および[4]のように現在の失われたフレームを隠蔽する。ビットストリームにピッチラグがない場合、[3]のようにデコードされた信号に対してピッチ検出アルゴリズムを実行することにより、デコーダ側でピッチラグを推定することができる。
非周期的、非調性、ノイズのような信号の場合、符号スクランブリングを使用したフレーム反復と呼ばれる複雑度の低い手法が効果的であることが分かっている。これは、最後のフレームを繰り返し、失われたフレームを隠蔽するためにランダムに生成された符号をスペクトル係数に乗算することに基づいている。符号スクランブリングを使用したMDCTフレーム反復の一例は、3GPP EVS標準[4]に見いだすことができる。
調性ポリフォニック信号または複雑な音楽信号の場合、検出された調性成分のスペクトル係数の位相を予測することに基づく方法が使用される。この方法は、定常的な調性信号の一貫した改善を示している。調性成分は、前に受信したフレームにも存在していたピークで構成される。調性成分に属するスペクトル係数の位相は、最後に受信したフレームのパワースペクトルから決定される。調性MDCT隠蔽の一例は、3GPP EVS標準[4]に見いだすことができる。
上記を要約すると、様々なPLC方法が知られているが、それらは特定の状況、つまり特定のオーディオ特性に固有である。すなわち、これらのPLC方法のいくつかをサポートするオーディオコーダには、フレームまたはパケットの損失が発生したときに最も適切なPLC方法を選択するメカニズムが必要である。最も適切なPLC方法は、失われた信号を最も目立たないように置き換えるものである。
本出願の目的は、異なる損失隠蔽ツールのセットを含むオーディオデコーダが改善された損失隠蔽を達成することを可能にするオーディオデコードのコンセプトを提供することである。
この目的は、本出願の独立請求項の主題によって達成される。
本発明のアイデアは、オーディオデコーダの異なる損失隠蔽ツールの位相セットの1つを、データストリームからデコードされる、損失の影響を受けるオーディオ信号の部分に割り当てるという発見に基づいている。すなわち、異なる損失隠蔽ツールのセットからの選択は、割り当て/選択が次の2つの尺度に基づいて行われる場合には、より快適な損失隠蔽につながる方法で行うことができる。決定される第1の尺度は、オーディオ信号のスペクトルのスペクトル重心のスペクトル位置を示し、決定される第2の尺度は、オーディオ信号の時間的予測可能性を示す。次に、割り当てられた、または選択された損失隠蔽ツールを使用して、オーディオ信号の部分を復元することができる。
例えば、前述の第1および第2の尺度に基づいて、第1および第2の損失隠蔽ツールのうちの一方は、損失部分に割り当てることができ、第1は、データストリームから導出されたピッチ値に依存する周期性の周期信号を使用するオーディオ信号合成によってオーディオ信号を回復するように構成され、第2の損失隠蔽ツールは、オーディオ信号の調性スペクトル成分を検出し、調性スペクトル成分での位相検出と、位相検出に応じて信号間の相互位相シフトを調整して調性スペクトル成分に依存する周期性の信号を組み合わせることによるオーディオ信号合成を実行することによってオーディオ信号を回復するように構成することができる。換言すれば、第1および第2の尺度に基づいて、調性周波数領域PLCツールおよび調性時間領域PLCツールの一方を損失部分に割り当てることができる。
一実施形態によれば、損失部分に対する割り当て/選択は、段階的に実行される。オーディオ信号のスペクトルの調性を示す第3の尺度が決定され、異なる損失隠蔽ツールのセットからの1つまたは複数の損失隠蔽ツールの第1および第2サブセットの1つが損失部分に割り当てられ、単に、1つまたは複数の損失隠蔽ツールの第1のサブセットが損失部分に割り当てられている場合には、損失部分に対する1つのPLCツールの割り当ては、この第1のサブセットからの第1および第2の尺度に基づいて実行される。それ以外の場合には、割り当て/選択は第2のサブセットから実行される。
本出願の有利な態様は、従属請求項の主題である。本出願の好ましい実施形態は、以下の図面に関して述べる。
本出願の一実施形態によるオーディオデコーダの概略的なブロック図である。 一実施形態による、図1のオーディオデコーダのアサイナ32の動作モードの流れ図である。 一実施形態による、図2のPLC割り当ての第1の尺度を決定するためのスペクトル重心検出を示す概略図である。 一実施形態による、図2のPLC割り当ての第2の尺度を決定するための時間的予測可能性検出を示す概略図である。 図2のPLC1の動作モードを例示するための概略図である。 一実施形態によるPLC2の動作モードを例示する概略図である。 一実施形態による、パケット損失隠蔽PLC1からPLC3のためのPLCツールのセットから割り当てを実行するように拡張された、図2の割り当て動作の変更されたバージョンの流れ図である。 図7の実施形態が対応する3つのPLCツールの間で決定するための決定木を示す図である。
図1は、本出願の一実施形態によるオーディオデコーダを示す。そこに示すように、オーディオデコーダ10は、データストリーム14からのオーディオ信号12をデコードするように構成される。オーディオ信号12は、時間領域ベースのオーディオコーデックまたは周波数領域オーディオコーデックなどの任意の適切なオーディオコーデックに従ってデータストリーム14にエンコードされてもよい。オーディオ信号12は、それぞれフレーム18の時間部分16の単位でデータストリーム14にコード化されてもよい。より正確には、オーディオ信号12は、時間的に重複または非重複の時間部分または間隔16に細分することができ、その各々は、データストリーム14が細分されるフレーム18の特定の1つに対応する。各フレーム18は、対応する時間部分16をエンコードする。例えば、部分18は、対応する部分16内のオーディオ信号のスペクトル包絡線を表す線形予測係数に関する情報を含むことができる。さらに、フレーム18は、そのフレームに含まれる線形予測係数に従って、例えばオーディオデコーダ10によって成形される部分16内のオーディオ信号12のスペクトルを表すスペクトル係数をその中にエンコードしていてもよい。データストリーム14からオーディオ信号12を再構成する際に、オーディオデコーダ10によってオーバーラップ加算プロセスが適用されることもある。当然のことながら、可能性はここに提示された例にも当てはまり、理解を容易にするために役立つだけである。
データストリーム14は、パケット化された形式で、すなわちパケットの単位で、オーディオデコーダ10によって受信され得る。データストリーム14のフレーム18自体への分割は、一種のパケット化を表す。つまり、フレーム18はパケットを表す。さらに、データストリーム14は、トランスポートストリームまたはメディアファイルフォーマットのパケットにパックされ得るが、この状況は、ここではさらに詳細には検査されない。むしろ、オーディオデコーダ10によるデータストリーム14の受信は、以下ではパケット損失と呼ばれるデータまたは信号の損失を起こしやすいことを述べておけば十分であろう。すなわち、データストリーム14の一部の連続部分20は、送信中に失われ、したがってオーディオデコーダ10によって受信されなかった可能性があり、その結果、対応する部分が欠落し、オーディオデコーダ10で利用することができない。結果として、オーディオデコーダ10は、データストリーム14内の情報を見落として、部分20に対応する部分22を再構成する。言い換えると、オーディオデコーダ10は、例えば、オーディオデコーダのオーディオデコードコア24では、データストリーム14の部分20が失われているときに、実装された通常のオーディオデコードプロセスに従って、データストリーム14から部分22を再構成することができない。むしろ、そのような欠落部分20に対処するために、オーディオデコーダ10は、部分22内のオーディオ信号12を代替信号30によって回復または合成するように、PLCツール28のセット26を含む。セット26に含まれるPLCツール28は、異なるオーディオ信号特性に対するそれらの適合性が異なる。すなわち、オーディオ信号12の特定の部分22内の信号代替物30の回復のために特定のPLCツールを使用するときの不快さの程度は、その部分22でのオーディオ信号特性に依存し、セット26内のPLCツール28は、オーディオ信号特性の特定のセットについて相互に異なる程度の不快さを示す。したがって、オーディオデコーダ10は、パケット損失隠蔽ツール28のセット26の1つを、データストリーム14の損失部分22などの、パケット損失によって影響を受けるオーディオ信号12の部分22に割り当てるアサイナ32を含む。アサイナ32は、最良のPLCツール28、すなわち、もたらす不快さが最低のものを部分22に割り当てようと試みる。
アサイナ32が特定のPLCツール28をオーディオ信号12の損失部分22に割り当てると、オーディオデコーダ10は、割り当てられたPLCツール28を使用してオーディオ信号のこの部分22を回復し、それにより、この部分22内のオーディオ信号12を置き換えるが、対応するデータストリーム部分22が失われていない場合は、アサイナ32によって部分22に割り当てられたPLCツール28を使用して取得された代替信号30によって、オーディオデータストリーム14から再構築されるからである。
すでに上で示したように、特定のPLCツール28の特定の損失部分22への割り当ては、損失隠蔽を可能な限り煩わしくしないために、信号に依存させる必要がある。しかしながら、信号依存性は、失われたデータストリーム部分20に先行するデータストリーム14の部分に制限され、ここに記載された実施形態によれば、アサイナ32は以下のように機能する。
これをより詳細に説明するために、図2を参照する。図2は、特定の欠落部分22に対する割り当てプロセス全体が、恐らくオーディオデコーダ10に存在する可能性のある損失検出器34によって引き起こされる可能性があることを示している。特に、符号38でチェックされるように、損失検出器34によって実行される損失検出36が、データストリーム14の一部20が欠落または損失していることを明らかにした場合には、以下の割り当てプロセスがトリガされる。決定40は、オーディオ信号のスペクトルのスペクトル重心のスペクトル位置を示す第1の尺度42を決定するために実行される。すなわち、アサイナ32は、オーディオ信号のスペクトルの質量中心のスペクトル位置を決定する(図3を参照)。オーディオデコーダは、オーディオ信号のスペクトル46を、データストリーム14の損失部分20に先行する部分44から、データストリーム順に先行して取り出す。図1に関して上述したように、データストリーム14は、いずれにせよ、スペクトル領域においてエンコードされたオーディオ信号12を有し、その結果、アサイナ32がスペクトル46を取得するためのスペクトル分解は必要ない。例えば、損失部分20の前の、データストリーム14の最新の受信されたフレーム18または2つ以上の最近の取り出されたフレーム18のスペクトル係数が、スペクトル46を得るために使用される。2つ以上のフレーム18が使用される場合には、アサイナ32によって使用されるスペクトル46が平均化によって得られる可能性がある。決定40を実行するために、このスペクトル46の質量中心、すなわち、スペクトル46のスペクトル位置48を示す尺度42が決定される。後ほど、特定の例を示す。
さらに、損失検出によってトリガされる割り当てプロセスは、この時間的予測可能性の尺度52を得るために、オーディオ信号の時間的予測可能性の決定50を含み、詳細については図4を参照されたい。そこに示されているように、一実施形態によれば、時間的予測可能性の検出50は、データストリーム14から、データストリーム14の部分20の損失により欠落している信号部分22まで、デコードされた信号またはオーディオ信号12に依存し得る。言い換えると、時間的予測可能性の検出50は、損失部分22の直前にある部分50内のオーディオ信号12に基づくことができ、その損失は隠蔽され、データストリーム14の部分44からデコードされる。時間的予測可能性の検出50は、尺度52が図4の54に示すように信号部分50の自己類似性または自己相関の尺度であるような方法で行われてもよい。信号50の自己相似性が尺度52によって示される相互シフトは、異なる方法でアサイナ32によって決定され得る。例えば、アサイナ32は、データストリーム14の損失部分20に先行する部分44内のフレーム18のうちの1つまたは複数で搬送される対応するピッチパラメータを検査することができる。すなわち、自己相似性が示され得る相互シフトは、ピッチがデータストリーム14内のパラメータ、すなわち部分44に基づいて決定されるピッチ周期に対応し得る。そのピッチ周期シフトにおける自己相似性または相関56は、第2の尺度52として使用されてもよい。
決定40および50をそれぞれ実行する順序が入れ替えられてもよいこと、または両方の検出が同時に実行されてもよいことは明らかである。尺度42と52に基づいて、割り当て60が実行される。この割り当て60は、部分22の損失を隠蔽するために2つのPLCツール28のうちの1つを選択する。このPLCツール、すなわち、割り当てられたもの62は、部分22の損失の隠蔽に使用される。
簡単な注記として、割り当て60による選択がその間に実行される、PLCツール28の数は、2よりも多くてもよいことに留意されたい。
しかしながら、以下にさらに概説される実施形態によれば、図2のPLCツールPLC1が1として記述されてもよく、それを用いて、代替信号30、すなわち、部分22内のオーディオ信号推定値が調性時間領域パケットの損失隠蔽を使用して取得または回復される。言い換えれば、PLC1は、モノフォニック部分のオーディオ信号回復専用のパケット損失隠蔽であり得る。PLC1は、データストリームから導出されたピッチパラメータまたはピッチ値に依存する周期性の周期信号を使用して、すなわち、データストリーム14の部分44から、つまり、データストリーム14の損失部分20に先行する部分44から、オーディオ信号12の欠落部分22内のオーディオ信号を回復することができる。
第2のPLCツールPLC2は、ポリフォニックタイプのオーディオ信号の回復のための専用であってもよい。この第2のPLCツールPLC2の隠蔽は、調性周波数領域のパケット損失隠蔽に基づくことができる。
図5および図6に関して、PLC1およびPLC2の可能な実施態様を簡単に説明する。
図5にPLC1を示す。データストリーム14の損失部分20に先行する部分44内のフレーム18で搬送されるピッチパラメータまたはピッチ値66を使用して、周期信号70の周期性または周期長68を設定し、次にそれを用いて代替物を形成するか、あるいはオーディオ信号12の部分22内の損失を隠蔽する。ピッチパラメータまたはピッチ値66は、例えば、高調波フィルタツールなどを制御するために、通常のオーディオデコード、すなわち信号損失がない場合にオーディオデコーダ10によって使用されるために、データストリーム14に存在してもよい。すなわち、パラメータ66はとにかくデータストリーム14に存在してもよい。そうでなければ、図5に従ってPLC1を実行するPLCツール28は、損失部分22の前のデコードされた信号50を解析すること、または図3に示すスペクトル46などのスペクトルの最新のアクセス可能なバージョンを解析すること、などの解析によって、ピッチ周期68を決定することができる。
図6は、一実施形態によるPLC2を示す。ここで、PLC2を実行することを担当するPLCツール28は、例えば、データストリーム14の部分44から得られた1つまたは2つ以上の最新の取得されたスペクトルを使用して、その中の調性スペクトル成分、すなわち、それぞれ特定の数の連続するスペクトルまたはフレーム18のスペクトルのその位置または十分に類似した位置で発生するスペクトル46のピーク72またはスペクトル46のピーク72を検出または決定する。十分に類似した位置は、スペクトル距離が特定のしきい値を下回っている位置であり得る。ピーク72のスペクトル位置は、調性スペクトル成分を表し、ここでは、これらのスペクトル位置で、位相検出は、例えば、オーディオ信号のパワースペクトルの使用により、または例えば、評価により実行される。次に、信号損失が隠蔽される時間部分22内で、周期性が調性スペクトル成分に依存する信号の組み合わせが形成されて、補足信号30を生成し、組み合わされた信号間の相互位相シフトが位相検出に応じて調整される。例えば、各調性成分72について位相が決定されるか、またはこれらの調性成分間の単に位相差が決定され、信号は、部分22内の代替物30として形成され、これは位相差または位相に従ってこれらの調性成分72によって合成される。組み合わせは、逆変換によって代替信号30を導出することによりスペクトル領域で、または例えば適切に相互にシフトされた信号を追加することによって時間領域で直接形成され、相互シフトは決定された相互位相シフトを反映する。
以下でより詳細に説明するように、割り当て60は、スペクトル位置48が低くなるほど、かつ時間的予測可能性が高くなるほど、PLC1が部分22に選択または割り当てられる可能性が大きくなり、その逆も同様であって、スペクトル位置48が高くなるほど、かつ時間的予測可能性が低くなるほど、PLC2が割り当てられるか選択される可能性が大きくなるように、行うことができる。高いスペクトル位置は高い周波数に対応し、低いスペクトル位置は低い周波数に対応する。この方法でこれを行うことにより、損失したスピーチに対応する部分22の場合にPLC1が選択される可能性が高くなり、ポリフォン信号または音楽に関連する部分22の場合にPLC2が選択される可能性が高くなる。
完全を期すために、図7は、図2の割り当てプロセスを拡張することができることを示している。特に、図2に示すように、割り当て60は、割り当てまたは割り当て60の選択をPLCツール28のサブセット80に制限することによって行われた。PLCツール28のセット26は、サブセット82などの1つまたは複数のPLCツール28のさらなるサブセットを含んでもよく、損失検出36によってトリガされると、調性検出84は、部分22が調性部分に関連するかどうかを決定するために、最初にアサイナ32によって使用されてもよい。調性決定84は、調性尺度またはインジケータ86をもたらし、この調性尺度インジケータ86は、例えば、部分44内の最新のフレーム18が、図5に記載されているようなピッチ値66などの特定のピッチパラメータを含むかどうかを検査することなどによって、データストリーム14の部分44内の1つまたは複数のパラメータを使用することによって符号84で取得することができる。存在しない場合、これは、オーディオ信号が現在非調性であることを示すと解釈されてもよく、ピッチパラメータ66が存在する場合、これは、オーディオ信号が現在調性であることを示すと解釈されてもよい。次に、この指標は調性尺度86である。尺度86を使用して、オーディオ信号が調性であるか否かが88で識別され、それが非調性である場合には、部分22に割り当てられたPLC62は、サブセット82から割り当てられる。図7は、1つのPLCツール28がサブセット82によって構成され、これが選択された場合を示している。しかしながら、ここでも、サブセット82からのさらなる選択が続く場合がある。調性が88で確認された場合には、決定40および50に基づく割り当て60は、図2に関して上述したように、サブセット80に関して実行される。
PLC3は、複製の変更の有無にかかわらず、フレーム反復を使用することにより部分22のオーディオ信号を回復するPLCなどの非調性PLCであってもよく、上記のように、複製の変更が符号スクランブリング、すなわち、スペクトル46などの最新の受信したスペクトルのスペクトル係数のランダムな符号反転を伴う場合、これは、逆変換され、代替信号30を導出するために使用される。
図8は、例えば図7に対応する方法に従って、PLCツール28の中から選択するための決定木を視覚化する。決定AとBは、最良の隠蔽性能を得るために、特定の欠落信号部分22に異なる信号タイプ用に設計された3つのPLC方法PLC1〜PLC3のどれを使用するかを決定するために行われる。第1の決定である決定Aは、調性に基づいている。信号が非調性であることが判明した場合には、PLC3が隠蔽に使用される。調性である場合には、決定Bが行われる。決定Bは、図2および図7に関して上記で説明した方法で尺度42、52に基づいて調性信号特性をチェックし、特性に応じて、PLC1またはPLC2のいずれかを選択する。上記で説明したように、PLC1は、モノフォンおよび/またはスピーチ信号のための調性時間領域PLCであってもよく、一方、PLC2は、ポリフォンおよび/または音楽信号のための調性周波数領域PLCであってもよい。
したがって、図8の決定木は決定を視覚化し、これは、最高の隠蔽性能を得るために、異なる信号タイプの3つのPLC方法間で行われてもよい。図7のチェック88に対応し得る決定Aは、信号タイプ分類を検査することによって、すなわちそれを指標として使用することによって、またはそこから調性インジケータを導出することによって行うことができる。信号タイプの分類は、各フレーム18に存在する可能性があり、各フレームのフレームクラスを示す。これは、エンコーダ側で計算され、ビットストリーム14でオーディオデコーダに送信される。あるいは、デコーダ側で計算することもできる。しかし、フレームクラスの計算は非常に複雑であり、フレームクラスのフレーム依存関係のために、すべての特徴をすべてのフレームで計算する必要があり得る。したがって、複雑度の低いアプリケーションでは、より単純な手法を使用することが望ましい場合がある。上記のように、いくつかのピッチパラメータ66の存在または不在は、インジケータ86として使用することができる。
決定40、52に基づく割り当て60に対応する決定Bは、PLC#1とPLC#2との間の適切な選択をもたらす。[6]では、このような選択は、信号の短期的な定常性に相関するスペクトル包絡線の安定性測定に基づいて行われた。しかし、信号が定常的であるほど、調性PLC方法PLC#1とPLC#2の両方の性能が向上する。それゆえ、定常性は、最適な調性隠蔽方法を選択するための適切な基準ではない。定常性特徴は調性を非常によく示すが、スピーチ/モノフォニックとポリフォニック/音楽を区別することができない。
上述のように、アサイナ32によって表されるPLC分類器を使用して図8の決定木を実行することが可能であり、フレーム間依存性なしにフレームごとに動作することができ、したがって複雑さを低くするだけでよい。符号38で検出またはチェックされたフレーム損失の場合にのみ、分類特徴42および52を計算し、したがってフレーム18間のエラーのないフレームに内在的な複雑さのオフセットを追加しない。
決定Aは、最後の良好な受信されたオーディオフレームにおけるピッチ値の存在であり得る調性インジケータ86に基づいて行われ得る。決定Bは、スペクトル重心48と、最後の良好な受信されたオーディオフレームで計算された長期予測ゲイン56と、を使用することによって行うことができる。
決定Bは、モノフォニックおよびスピーチのような信号に最も適したピッチベースの時間領域隠蔽法PLC#1と、ポリフォンまたは複雑な音楽信号に最も適した周波数領域法PLC#2と、の間で切り替えることができる。決定Bの分類の利点は、以下の事実から生じる。
・スペクトルの重心は、スピーチ信号の場合はスペクトル的に非常に低い位置にあり、音楽信号の場合はより高い位置にある。
・長期予測ゲインは、スピーチ信号などのモノフォニック信号および定常信号では高く、調性信号もしくは複雑な音楽信号などのポリフォニック信号または定常的でない信号では低くなる。
したがって、特徴42、52の両方の重み付けされた組み合わせを決定Bおよび割り当てプロセス60に使用することができ、スピーチ/モノフォニックおよびポリフォニック/複雑な音楽信号の信頼することができる識別をもたらす。同時に、複雑さを低く抑えることができる。
オーディオデコーダが破損したフレームを受信した場合、またはフレームが失われた場合、つまり、符号38で検出されたように損失部分20に遭遇した場合には、以下を実行することができ、図2も参照されたい。
a.符号88で、PLC#2のような調性隠蔽方法を使用するか、あるいは部分20を表す損失/破損したフレームを隠蔽する、または対応する部分22の損失を隠蔽するためにPLC#1を用いるかの決定Aが成される。この決定Aは、ビットストリームの最後の良好なフレームにおけるピッチ値66の存在を使用することができる調性インジケータ68に基づく。
b.否定的な決定Aの場合、調性PLCは使用されない。代わりに、その場合は別のPLC方法、つまりPLC#3が使用される。同じものが、符号のスクランブリングを伴うフレーム反復を使用することができる。
c.肯定的な決定Aの場合、2つの調性PLC方法PLC#1およびPLC#2の1つを使用して、損失/破損したフレームを隠蔽する。2つのPLC方法は、[4]のTCX TD−PLCなどの時間領域ピッチベースのPLCか、[4]の調性MDCT隠蔽などの周波数領域の調性隠蔽のいずれかであり得る。対応する記載は参照により本明細書に組み込まれる。
肯定的な決定Aの場合、特徴42および52は、次の方法で最後の良好なフレームに基づいて計算することができる。
・特徴または尺度52として、長期予測ゲイン
Figure 2021502608

Figure 2021502608
は、符号50で計算することができる。ここで、
Figure 2021502608
は最後の良好なフレームのピッチ値であり、
Figure 2021502608
は最後の良好なフレームの最後のデコードされた時間サンプルであり、
Figure 2021502608
ここで、
Figure 2021502608
は最大ピッチ値やフレーム長(例えば10ms)などの制限された値とすることができる。
・特徴または尺度42として、スペクトル重心
Figure 2021502608

Figure 2021502608
は符号40で計算することができる。ここで、
Figure 2021502608
は最後に受信したスペクトル
Figure 2021502608
の長さであり、
Figure 2021502608
はマグニチュードスペクトルを意味する。
2つの計算された特徴は、次の式と組み合わされる。
Figure 2021502608
ここで、
Figure 2021502608

Figure 2021502608
および
Figure 2021502608
は重みである。一実施形態では、これらは、
Figure 2021502608

Figure 2021502608
および
Figure 2021502608
である。代替案が
Figure 2021502608

Figure 2021502608
および
Figure 2021502608
を設定しているので、
Figure 2021502608

Figure 2021502608
および
Figure 2021502608
である。重みは、[−1:1]の範囲になるようにここで正規化することができる。
次に、PLC#1、例えば時間領域のピッチベースのPLC方法は、符号60および周波数領域の調性隠蔽などのPLC#2において
Figure 2021502608
である場合に選択することができる。
上記の説明に関して、いくつかの留意事項がある。例えば、第1の尺度42を得るためにスペクトル重心が測定されたスペクトルは、予め強調されたバージョンなどの、いわゆる重み付けされたバージョンであるかもしれない。このような重み付けは、例えば、量子化ノイズを心理音響マスキングしきい値に適合させるために使用される。言い換えれば、それは、第1の尺度42が、音響信号の音響心理学的にスケーリングされたスペクトルのスペクトル重心のスペクトル位置48を示すことであってもよい。これは、エンコードされた基礎となるオーディオデコードコア24でコーディングされた通常のオーディオデコードが、とにかく、データストリーム14は、スペクトル領域、すなわち重み付けされた領域において、その中にエンコードされたオーディオ信号12を有することを含む場合に特に有利であるかもしれない。それに加えてまたはその代わりに、第1の尺度42を得るためにスペクトル重心が測定されたスペクトルは、時間領域に移行するためにオーディオデコードコア24で使用されるスペクトル分解能と同じくらい高いスペクトル分解能で表されるとは限らない。むしろ、それはより高くても低くてもよい。それに加えてまたはその代わりに、オーディオ信号のスペクトルもスケールファクタとして現れることに留意されたい。このようなスケールファクタは、オーディオ信号のスペクトルのコード化された表現を一緒に形成するために、スペクトル係数と共にデータストリーム14で送信される。特定の部分22について、スペクトル係数は、スケールファクタに従ってスケールされる。スケーラファクタよりも多くのスペクトル係数がある。例えば、各スケールファクタは、オーディオ信号の帯域幅が分割される、いわゆるスケールファクタバンドと呼ばれるいくつかのスペクトル帯域の1つに割り当てられる。したがって、スケールファクタは、量子化されたスペクトル係数がデータストリーム14でコード化されるものと比較して低減されたあるスペクトル分解能での包絡線に関して、特定の部分のオーディオ信号のスペクトルを定義する。スケールファクタがデータストリーム14でコード化されるスペクトル分解能は、デコードコア24がスペクトル係数の逆量子化を実行するスペクトル分解能よりもさらに低い場合さえあり得る。例えば、デコードコア24は、データストリーム14にコード化されたスケールファクタをスペクトル補間にかけて、データストリームにコード化されたものとしてより高いスペクトル分解能の補間スケールファクタを得て、逆量子化のために補間スケールファクタを使用する。データストリームにコード化されたスケールファクタと補間されたスケールファクタのいずれかが、オーディオ信号のスペクトルとして使用され、そのスペクトル重心は、第1の尺度42によって示される。これは、さらに努力を増やす、デコードされたオーディオ信号を追加のスペクトル分解にかけることにより重心測定用のスペクトルを取得する場合は、スペクトル係数がコード化されている場所やその他の分解能など、より高い分解能で重心測定を実行する場合と比較して、第1の尺度が低いと判断するために実行される計算操作の数として決定されるのに、重心測定は非常に計算効率が良くなることを意味する。したがって、具体的な例として、コード化されたダウンサンプリングされたスケールファクタSNS(スペクトルノイズシェーピング)に基づいて、次のように第1および第2の尺度を計算することができる。
まず、ピッチ値
Figure 2021502608
が基礎として計算される。
Figure 2021502608
ここで、
Figure 2021502608
および
Figure 2021502608
は、最後の適切なフレームからデコーダによって導出されたビットストリームパラメータである。
Figure 2021502608
は調性指標として解釈することができる。
第2の尺度として、長期予測ゲイン
Figure 2021502608
は次のように計算される。
Figure 2021502608
ここで、
Figure 2021502608
は最後にデコードされた時間サンプルであり、
Figure 2021502608
は最大ピッチ値などの制限された値やフレーム長
Figure 2021502608
(例えば10ms)などの所定の長さの値にすることができる。
Figure 2021502608
Figure 2021502608
は最小ピッチ値である。したがって、第2の尺度は、ピッチで相互にシフトされた、それ自体との最新の受信された部分におけるデコードされたオーディオ時間信号の自己類似性として計算される。
第2の尺度として、スペクトル重心
Figure 2021502608
は次のように計算することができる。
Figure 2021502608
ここで、
Figure 2021502608
はサンプリングレートおよび
Figure 2021502608
であり、
Figure 2021502608
は不均一なバンドインデックスである。つまり、各バンドに対して、周波数の下限と上限をある方法で定義したバンドインデックスであり、関連する下側境界と上側境界の差によって定義される帯域幅は、周波数の増加に伴って増加するなど、相互に異なるが、差は任意選択である。バンドインデックスは、オーディオ信号のサンプリングレート/周波数に応じて定義することができる。さらに、
Figure 2021502608
ここで、
Figure 2021502608
は最後の適切なフレームのビットストリームに格納されているスケールファクタベクトルであり、
Figure 2021502608
は既定で設定されている可能性のある所定のチルトファクタであり、オーディオ信号のサンプル周波数に応じて異なる。項
Figure 2021502608
は、対数領域でスケールファクタをコード化して線形領域に戻すために適用される。項
Figure 2021502608
は、エンコーダ側のプリエンファシスフィルタを反転させるために適用され、これは、ディエンファシスフィルタと呼ばれる。
スケールファクタベクトルはエンコーダ側で計算され、ビットストリームで送信される。これは、MDCT係数のバンドあたりのエネルギーで決定され、バンドは不均一であり、知覚的に関連するバークスケールに従う(低周波数では小さく、高周波数では大きくなる)。エネルギーを平滑化し、予め強調し、対数領域に変換した後に、それらはエンコーダ側で64個のパラメータから16個のパラメータにダウンサンプリングされ、スケールファクタベクトルを形成し、その後に、これがコード化され、ビットストリームで送信される。したがって、
Figure 2021502608
は、音声信号のスペクトル46のスペクトル重心のスペクトル位置48の尺度であり、ここでは、スペクトル的に粗くサンプリングされたバージョン、すなわちSNSパラメータに基づいて決定される。
次に、様々なPLC方法の決定または選択が、基準
Figure 2021502608
および
Figure 2021502608
を使用して行われる。
Figure 2021502608
であれば、符号スクランブリングを使用したフレーム反復が選択されている場合がある(調性インジケータ
Figure 2021502608
であることを意味する)。それ以外の場合、値
Figure 2021502608
は次のように計算される。
Figure 2021502608
Figure 2021502608
であれば、時間領域ピッチベースのPLC方法が選択される可能性があり、それ以外の場合は、周波数領域の調性隠蔽である。
したがって、データストリーム14からオーディオ信号12をデコードするためのオーディオデコーダは、異なる損失隠蔽ツール28のセット26を含み、データストリームの最新の非損失部分のスケールファクタからスペクトルを導出することにより、オーディオ信号のスペクトル46のスペクトル重心のスペクトル位置48を示す第1の尺度42を決定し40、オーディオ信号の時間的予測可能性を示す第2の尺度52を決定し50、異なる損失隠蔽ツール28のセット26の1つ62を、第1および第2の尺度に基づいて損失の影響を受けるオーディオ信号12の部分22に割り当て32、そして、部分22に割り当てられた1つの損失隠蔽ツール62を使用して、オーディオ信号の部分22を回復する、ように構成されてもよい。説明したように、スペクトルの導出には、データストリームでコード化されたスケーラファクタにスペクトル補間を施すことが含まれてもよい。それに加えてまたはその代わりに、これらはディエンファシスフィルタリングが施されてもよい。つまり、ディエンファシスフィルタの伝達関数が乗算されてもよい。結果として得られるスケールファクタは、スペクトルの重心測定が施されてもよい。上記の他のすべての詳細も同様に適用される。つまり、排他的に意図されていない例に言及すると以下のようになる。異なる損失隠蔽ツールのセット26は、モノフォニック部分のオーディオ信号回復のための第1の損失隠蔽ツールと、ポリフォニック部分のオーディオ信号回復のための第2の損失隠蔽ツールと、を含んでもよく、オーディオデコーダは、第1および第2の尺度に基づいて、異なる損失隠蔽ツールのセットの1つをオーディオ信号の部分に割り当てる際に、スペクトル重心のスペクトル位置が低くなるほど、かつ時間的予測可能性が高くなるほど、第1の損失隠蔽ツールをその部分に割り当てる可能性が大きくなり、スペクトル重心のスペクトル位置が高くなるほど、かつ時間的予測可能性が低くなるほど、第2の損失隠蔽ツールをその部分に割り当てる可能性が大きくなるように、構成されてもよい。それに加えてまたはその代わりに、オーディオデコーダは、異なる損失隠蔽ツールのセットの1つを、第1および第2の尺度に基づいて損失の影響を受けるオーディオ信号の部分22に割り当てる際に、第1および第2の尺度42、52の総和演算を実行して、スカラー和を取得し、スカラー和にしきい値処理を適用するように構成することができる。
いくつかの態様を装置のコンテキストで説明したが、これらの態様は対応する方法の説明も表し、ブロックまたは装置が方法ステップまたは方法ステップの特徴に対応することは明らかである。同様に、方法ステップのコンテキストで説明される態様は、対応するブロックまたは項目または対応する装置の特徴の説明も表す。方法ステップの一部またはすべては、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路などのハードウェア装置によって(または使用して)実行されてもよい。いくつかの実施形態では、最も重要な方法ステップの1つまたは複数は、そのような装置によって実行されてもよい。
特定の実施態様の要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実施することができる。実施態様は、電子的に読み取り可能な制御信号が格納されており、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協働する(または協働することができる)デジタル記憶媒体、例えばフロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使用して実行することができる。したがって、デジタル記憶媒体はコンピュータで読み取り可能であってもよい。
本発明によるいくつかの実施形態は、本明細書に記載の方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有するデータキャリアを含む。
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の1つを実行するように動作する。プログラムコードは、例えば、機械可読なキャリアに格納されてもよい。
他の実施形態は、機械可読なキャリアに格納された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
言い換えれば、したがって、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含み、それが記録されたデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタルストレージメディア、または記録されたメディアは、通常、有形および/または非一時的である。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えばインターネットなどのデータ通信接続を介して転送されるように構成されてもよい。
さらなる実施形態は、本明細書に記載の方法の1つを実行するように構成または適合された処理手段、例えばコンピュータ、またはプログラマブルロジックデバイスを含む。
さらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
本発明によるさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを(例えば、電子的または光学的に)受信機に転送するように構成された装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含んでもよい。
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の1つを実行するためにマイクロプロセッサと協働してもよい。一般に、これらの方法は、任意のハードウェア装置によって実行されることが好ましい。
本明細書で説明する装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実施されてもよい。
本明細書で説明される装置、または本明細書で説明される装置の任意の構成要素は、少なくとも部分的にハードウェアおよび/またはソフトウェアで実施されてもよい。
本明細書で説明する方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実行されてもよい。
本明細書で説明される方法、または本明細書で説明される装置の任意の構成要素は、ハードウェアおよび/またはソフトウェアによって少なくとも部分的に実行されてもよい。
上述の実施形態は、本発明の原理の単なる例示に過ぎない。本明細書に記載の配置および詳細の修正および変更は、他の当業者には明らかであることを理解されたい。したがって、本明細書の実施形態の記載および説明として提示される特定の詳細によってではなく、以下の特許請求の範囲によってのみ限定されることが意図されている。
[1] 3GPP TS 26.445;Codec for Enhanced Voice Services (EVS);Detailed algorithmic description
[2] ITU−T G.718:Frame error robust narrow−band and wideband embedded variable bit−rate coding of speech and audio from 8−32 kbit/s
[3] ITU−T G.711 Appendix I:A high quality low−complexity algorithm for packet loss concealment with G.711
[4] 3GPP TS 26.447;Codec for Enhanced Voice Services(EVS);Error concealment of lost packets
[5] Method and device for efficient frame erasure concealment in speech codecs;WO2007073604 (A1)−2007−07−0
[6] Selecting a Packet Loss Concealment Procedure;EP3111624 A1−2017−01−04

Claims (20)

  1. データストリーム(14)からオーディオ信号(12)をデコードするためのオーディオデコーダであって、前記オーディオデコーダは、異なる損失隠蔽ツール(28)のセット(26)を含み、
    前記オーディオ信号のスペクトル(46)のスペクトル重心のスペクトル位置(48)を示す第1の尺度(42)を決定し(40)、
    前記オーディオ信号の時間的予測可能性を示す第2の尺度(52)を決定し(50)、
    異なる損失隠蔽ツール(28)の前記セット(26)のうちの1つ(62)を、前記第1および第2の尺度に基づいて前記オーディオ信号(12)の損失の影響を受ける部分(22)に割り当て(32)、
    前記部分(22)に割り当てられた前記1つの損失隠蔽ツール(62)を使用して、前記オーディオ信号の前記部分(22)を回復する、
    ように構成される、オーディオデコーダ。
  2. 異なる損失隠蔽ツール(28)の前記セット(26)は、
    前記データストリームから導出されたピッチ値(66)に依存する周期性(68)の周期信号(70)を使用したオーディオ信号合成によるオーディオ信号回復のための第1の損失隠蔽ツール(PLC#1)と、
    前記オーディオ信号の調性スペクトル成分(72)を検出し、調性スペクトル成分(72)での位相検出と、前記位相検出に応じて前記信号間の相互位相シフトを調整して前記調性スペクトル成分(72)に依存する周期性の前記信号を組み合わせることによるオーディオ信号合成を実行することによるオーディオ信号を回復するための第2の損失隠蔽ツール(PLC#2)と、
    複製の変更の有無にかかわらず、フレームの繰り返しを使用してオーディオ信号を回復するための第3の損失隠蔽ツール(PLC#3)と、
    のうちの1つまたは複数を含む、請求項1に記載のオーディオデコーダ。
  3. 異なる損失隠蔽ツールの前記セット(26)は、
    モノフォニック部分のオーディオ信号を回復するための第1の損失隠蔽ツール(PLC#1)と、
    ポリフォニック部分のオーディオ信号を回復するための第2の損失隠蔽ツール(PLC#2)と、
    を含む、請求項1または2に記載のオーディオデコーダ。
  4. 異なる損失隠蔽ツールの前記セット(26)は、
    調性時間領域パケット損失隠蔽を使用してオーディオ信号を回復するための第1の損失隠蔽ツール(PLC#1)と、
    調性周波数領域パケット損失隠蔽を使用してオーディオ信号を回復するための第2の損失隠蔽ツール(PLC#2)と、
    を含む、請求項1または2に記載のオーディオデコーダ。
  5. 異なる損失隠蔽ツールの前記セットは、
    前記データストリームから導出されたピッチ値に依存する周期性の周期信号を使用したオーディオ信号合成によるオーディオ信号回復のための第1の損失隠蔽ツール(PLC#1)と、
    前記オーディオ信号の調性スペクトル成分を検出し、調性スペクトル成分での位相検出と、前記位相検出に応じて前記信号間の相互位相シフトを調整して前記調性スペクトル成分に依存する周期性の前記信号を組み合わせることによるオーディオ信号合成を実行することによるオーディオ信号を回復するための第2の損失隠蔽ツール(PLC#2)と、
    を含む、請求項1または2に記載のオーディオデコーダ。
  6. 前記オーディオデコーダは、
    前記データストリームで搬送された最新のピッチパラメータを前記ピッチ値として使用することにより、前記データストリームから前記ピッチ値(66)を導出するように構成される、請求項5に記載のオーディオデコーダ。
  7. 前記オーディオデコーダは、
    前記データストリームの最新の非損失部分から導出された1つまたは複数の連続スペクトル(46)において同じ場所にあるピークを特定することにより、前記調性スペクトル成分(72)の前記検出を実行するように構成される、請求項5または6に記載のオーディオデコーダ。
  8. 前記データストリーム(14)は、スペクトル領域においてエンコードされた前記データストリームの前記最新の非損失部分を有する、請求項7に記載のオーディオデコーダ。
  9. 前記オーディオデコーダは、異なる損失隠蔽ツールの前記セットのうちの前記1つを、前記第1および第2の尺度に基づいて前記オーディオ信号の前記部分に割り当てる際に、前記スペクトル重心の前記スペクトル位置が低くなるほど、かつ前記時間的予測可能性が高くなるほど、前記第1の損失隠蔽ツールを前記部分に割り当てる可能性が大きくなり、前記スペクトル重心の前記スペクトル位置が高くなるほど、かつ前記時間的予測可能性が低くなるほど、前記第2の損失隠蔽ツールを前記部分に割り当てる可能性が大きくなる、請求項3から8のいずれか一項に記載のオーディオデコーダ。
  10. 損失の影響を受けた部分(22)を検出するために損失検出(36)を実行し、
    損失の影響を受けた前記部分(22)を検出する損失検出に応答して、前記部分(22)について前記第1および第2の尺度(42;52)の決定を実行し、損失の影響を受けない部分について前記決定を実行することを抑える、
    ように構成される、請求項1から9のいずれか一項に記載のオーディオデコーダ。
  11. 前記オーディオ信号の調性を示す調性インジケータ(86)を決定し(84)、
    互いに共通の要素をもたない異なる損失隠蔽ツールの前記セット(26)からの1つまたは複数の損失隠蔽ツールの第1および第2のサブセット(80、82)の1つを、前記調性インジケータ(86)に基づいて前記オーディオ信号の前記部分(22)に割り当て、
    前記第1のサブセット(80)が前記部分(22)に割り当てられ、前記部分(22)に割り当てられた前記1つの損失隠蔽ツール(62)を使用して前記オーディオ信号の前記部分(22)の前記回復を実行する場合には、1つまたは複数の損失隠蔽ツールの前記第1のサブセット(80)からの前記第1および第2の尺度に基づいて、異なる損失隠蔽ツールの前記セットの前記1つを前記オーディオ信号の前記部分に割り当てる(60)ことにより、前記第1および第2の尺度に基づいて、前記オーディオ信号の前記部分に異なる損失隠蔽ツールの前記セットの前記1つを割り当て、前記損失隠蔽ツールの前記第2のサブセット(82)が前記部分に割り当てられている場合には、前記損失隠蔽ツールの前記第2のサブセット(82)のうちの1つを使用して前記オーディオ信号の前記部分(22)の前記回復を実行する、
    ようにさらに構成される、請求項1から10のいずれかに一項に記載のオーディオデコーダ。
  12. 前記オーディオデコーダは、
    前記第3の尺度として、前記データストリームで搬送されるパラメータを使用するように構成される、請求項11に記載のオーディオデコーダ。
  13. 前記オーディオデコーダは、
    前記データストリームの最新の失われていないフレームにおけるピッチパラメータ(66)の存在または非存在を前記第3の尺度(86)として使用するように構成される、請求項11または12に記載のオーディオデコーダ。
  14. 異なる損失隠蔽ツールの前記セット(26)は、
    前記データストリームから導出されたピッチ値に依存する周期性の周期信号を使用したオーディオ信号合成によるオーディオ信号回復のための第1の損失隠蔽ツール(PLC#1)と、
    前記オーディオ信号の調性スペクトル成分を検出し、調性スペクトル成分での位相検出と、前記位相検出に応じて前記信号間の相互位相シフトを調整して前記調性スペクトル成分に依存する周期性の前記信号を組み合わせることによるオーディオ信号合成を実行することによるオーディオ信号を回復するための第2の損失隠蔽ツール(PLC#2)と、
    複製の変更の有無にかかわらず、フレームの繰り返しを使用してオーディオ信号を回復するための第3の損失隠蔽ツール(PLC#3)と、を含み、
    前記第3の損失隠蔽ツールは前記第2のサブセット(82)に含まれ、前記第2および前記第1および第2の損失隠蔽ツールは前記第1のサブセット(80)に含まれる、請求項11から13のいずれか一項に記載のオーディオデコーダ。
  15. スペクトル成分位置値の加重和によって前記第1の尺度(42)を決定する(40)ように構成され、各々は前記それぞれのスペクトル成分位置値での前記オーディオ信号の前記スペクトルを使用して重み付けされる、請求項1から14のいずれか一項に記載のオーディオデコーダ。
  16. 前記オーディオ信号の自己相似性を示す相関尺度によって前記第2の尺度(52)を決定する(50)ように構成された、請求項1から15のいずれか一項に記載のオーディオデコーダ。
  17. 前記オーディオ信号からピッチを導出し、前記ピッチに依存する時間的シフトでの前記オーディオ信号の自己相関を示す相関尺度として前記第2の尺度を決定することにより、前記第2の尺度(52)を決定する(50)ように構成される、請求項1から16のいずれか一項に記載のオーディオデコーダ。
  18. 前記第1および第2の尺度に基づいて、異なる損失隠蔽ツールの前記セットの1つを前記オーディオ信号の損失の影響を受ける部分(22)に割り当てる際に、スカラー和を取得し、前記スカラー和をしきい値処理するために、前記第1および第2の尺度(42、52)の総和演算を実行するように構成される、請求項1から17のいずれか一項に記載のオーディオデコーダ。
  19. データストリーム(14)からオーディオ信号(12)をオーディオデコードする際に損失隠蔽を実行するための方法であって、前記方法は、
    前記オーディオ信号のスペクトル(46)のスペクトル重心のスペクトル位置(48)を示す第1の尺度(42)を決定し(40)、
    前記オーディオ信号の時間的予測可能性を示す第2の尺度(52)を決定し(50)、
    異なる損失隠蔽ツール(28)のセット(26)のうちの1つ(62)を、前記第1および第2の尺度に基づいて前記オーディオ信号(12)の損失の影響を受ける部分(22)に割り当て(32)、
    前記部分(22)に割り当てられた前記1つの損失隠蔽ツール(62)を使用して、前記オーディオ信号の前記部分(22)を回復する、
    ことを含む方法。
  20. プロセッサ上で実行される場合に、請求項19に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。
JP2020526135A 2017-11-10 2018-11-05 異なる損失隠蔽ツールのセットをサポートするオーディオデコーダ Active JP7073492B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17201142.1A EP3483878A1 (en) 2017-11-10 2017-11-10 Audio decoder supporting a set of different loss concealment tools
EP17201142.1 2017-11-10
PCT/EP2018/080198 WO2019091924A1 (en) 2017-11-10 2018-11-05 Audio decoder supporting a set of different loss concealment tools

Publications (2)

Publication Number Publication Date
JP2021502608A true JP2021502608A (ja) 2021-01-28
JP7073492B2 JP7073492B2 (ja) 2022-05-23

Family

ID=60301924

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020526135A Active JP7073492B2 (ja) 2017-11-10 2018-11-05 異なる損失隠蔽ツールのセットをサポートするオーディオデコーダ

Country Status (19)

Country Link
US (1) US11315580B2 (ja)
EP (3) EP3483878A1 (ja)
JP (1) JP7073492B2 (ja)
KR (1) KR102424897B1 (ja)
CN (1) CN111630591B (ja)
AR (1) AR113571A1 (ja)
AU (1) AU2018363136B2 (ja)
BR (1) BR112020009117A2 (ja)
CA (1) CA3082268C (ja)
ES (1) ES2933273T3 (ja)
FI (1) FI3707705T3 (ja)
MX (1) MX2020004791A (ja)
PL (1) PL3707705T3 (ja)
PT (1) PT3707705T (ja)
RU (1) RU2759092C1 (ja)
SG (1) SG11202004223RA (ja)
TW (2) TWI704554B (ja)
WO (1) WO2019091924A1 (ja)
ZA (1) ZA202002522B (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004138756A (ja) * 2002-10-17 2004-05-13 Matsushita Electric Ind Co Ltd 音声符号化装置、音声復号化装置、音声信号伝送方法及びプログラム
WO2005086138A1 (ja) * 2004-03-05 2005-09-15 Matsushita Electric Industrial Co., Ltd. エラー隠蔽装置およびエラー隠蔽方法
JP2009008836A (ja) * 2007-06-27 2009-01-15 Nippon Telegr & Teleph Corp <Ntt> 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
JP2009538460A (ja) * 2007-09-15 2009-11-05 ▲ホア▼▲ウェイ▼技術有限公司 高帯域信号にフレーム消失の隠蔽を行う方法および装置
JP2010501955A (ja) * 2006-09-01 2010-01-21 ヴォクスラー デジタル装置のリアルタイム制御のための音声のリアルタイム解析方法ならびに付帯する装置
JP2012533094A (ja) * 2009-07-16 2012-12-20 中興通訊股▲ふん▼有限公司 修正離散コサイン変換ドメインのオーディオフレーム損失補償器及び補償方法

Family Cites Families (164)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3639753A1 (de) 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
US5012517A (en) 1989-04-18 1991-04-30 Pacific Communication Science, Inc. Adaptive transform coder having long term predictor
US5233660A (en) 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
JPH05281996A (ja) 1992-03-31 1993-10-29 Sony Corp ピッチ抽出装置
IT1270438B (it) 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce
US5581653A (en) 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
JP3402748B2 (ja) 1994-05-23 2003-05-06 三洋電機株式会社 音声信号のピッチ周期抽出装置
JPH0811644A (ja) 1994-06-27 1996-01-16 Nissan Motor Co Ltd ルーフモール取付構造
US6167093A (en) 1994-08-16 2000-12-26 Sony Corporation Method and apparatus for encoding the information, method and apparatus for decoding the information and method for information transmission
DE69619284T3 (de) 1995-03-13 2006-04-27 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur Erweiterung der Sprachbandbreite
US5781888A (en) 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
WO1997027578A1 (en) 1996-01-26 1997-07-31 Motorola Inc. Very low bit rate time domain speech analyzer for voice messaging
US5812971A (en) 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
JPH1091194A (ja) 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
KR100261253B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
GB2326572A (en) 1997-06-19 1998-12-23 Softsound Limited Low bit rate audio coder and decoder
AU9404098A (en) 1997-09-23 1999-04-12 Voxware, Inc. Scalable and embedded codec for speech and audio signals
JP3344962B2 (ja) 1998-03-11 2002-11-18 松下電器産業株式会社 オーディオ信号符号化装置、及びオーディオ信号復号化装置
US6507814B1 (en) 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
EP1139665A1 (en) 2000-03-29 2001-10-04 Deutsche Thomson-Brandt Gmbh Method and apparatus for changing the output delay of audio or video data encoding
US6735561B1 (en) 2000-03-29 2004-05-11 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
US6665638B1 (en) 2000-04-17 2003-12-16 At&T Corp. Adaptive short-term post-filters for speech coders
US7395209B1 (en) 2000-05-12 2008-07-01 Cirrus Logic, Inc. Fixed point audio decoding system and method
US7353168B2 (en) 2001-10-03 2008-04-01 Broadcom Corporation Method and apparatus to eliminate discontinuities in adaptively filtered signals
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US7433824B2 (en) 2002-09-04 2008-10-07 Microsoft Corporation Entropy coding by adapting coding between level and run-length/level modes
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
KR101049751B1 (ko) 2003-02-11 2011-07-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
KR20030031936A (ko) 2003-02-13 2003-04-23 배명진 피치변경법을 이용한 단일 음성 다중 목소리 합성기
ATE503246T1 (de) 2003-06-17 2011-04-15 Panasonic Corp Empfangsvorrichtung, sendevorrichtung und übertragungssystem
WO2004114134A1 (en) * 2003-06-23 2004-12-29 Agency For Science, Technology And Research Systems and methods for concealing percussive transient errors in audio data
US7620545B2 (en) 2003-07-08 2009-11-17 Industrial Technology Research Institute Scale factor based bit shifting in fine granularity scalability audio coding
WO2005027096A1 (en) 2003-09-15 2005-03-24 Zakrytoe Aktsionernoe Obschestvo Intel Method and apparatus for encoding audio
US7009533B1 (en) 2004-02-13 2006-03-07 Samplify Systems Llc Adaptive compression and decompression of bandlimited signals
KR20050087956A (ko) 2004-02-27 2005-09-01 삼성전자주식회사 무손실 오디오 부호화/복호화 방법 및 장치
DE102004009949B4 (de) 2004-03-01 2006-03-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes
DE102004009954B4 (de) 2004-03-01 2005-12-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals
WO2005086139A1 (en) 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
US7392195B2 (en) 2004-03-25 2008-06-24 Dts, Inc. Lossless multi-channel audio codec
KR100956877B1 (ko) 2005-04-01 2010-05-11 콸콤 인코포레이티드 스펙트럼 엔벨로프 표현의 벡터 양자화를 위한 방법 및장치
US7539612B2 (en) 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
US7546240B2 (en) 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
KR20070037945A (ko) 2005-10-04 2007-04-09 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
KR100888474B1 (ko) 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
US7805297B2 (en) * 2005-11-23 2010-09-28 Broadcom Corporation Classification-based frame loss concealment for audio signals
US9123350B2 (en) * 2005-12-14 2015-09-01 Panasonic Intellectual Property Management Co., Ltd. Method and system for extracting audio features from an encoded bitstream for audio classification
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
CN101395661B (zh) 2006-03-07 2013-02-06 艾利森电话股份有限公司 音频编码和解码的方法和设备
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
ATE447227T1 (de) 2006-05-30 2009-11-15 Koninkl Philips Electronics Nv Linear-prädiktive codierung eines audiosignals
CN1983909B (zh) 2006-06-08 2010-07-28 华为技术有限公司 一种丢帧隐藏装置和方法
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
EP2054882B1 (en) 2006-08-15 2011-01-19 Dolby Laboratories Licensing Corporation Arbitrary shaping of temporal noise envelope without side-information
CN101140759B (zh) 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
DE102006049154B4 (de) 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
KR101292771B1 (ko) * 2006-11-24 2013-08-16 삼성전자주식회사 오디오 신호의 오류은폐방법 및 장치
JPWO2008072701A1 (ja) 2006-12-13 2010-04-02 パナソニック株式会社 ポストフィルタおよびフィルタリング方法
FR2912249A1 (fr) 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
EP2015293A1 (en) 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
JP5618826B2 (ja) 2007-06-14 2014-11-05 ヴォイスエイジ・コーポレーション Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
JP4928366B2 (ja) 2007-06-25 2012-05-09 日本電信電話株式会社 ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体
US20110116542A1 (en) 2007-08-24 2011-05-19 France Telecom Symbol plane encoding/decoding with dynamic calculation of probability tables
CN101790757B (zh) 2007-08-27 2012-05-30 爱立信电话股份有限公司 语音与音频信号的改进的变换编码
JP5547081B2 (ja) 2007-11-02 2014-07-09 華為技術有限公司 音声復号化方法及び装置
WO2009066869A1 (en) 2007-11-21 2009-05-28 Electronics And Telecommunications Research Institute Frequency band determining method for quantization noise shaping and transient noise shaping method using the same
KR101162275B1 (ko) 2007-12-31 2012-07-04 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
CN102057424B (zh) 2008-06-13 2015-06-17 诺基亚公司 用于经编码的音频数据的错误隐藏的方法和装置
MX2011000369A (es) 2008-07-11 2011-07-29 Ten Forschung Ev Fraunhofer Codificador y decodificador de audio para codificar marcos de señales de audio muestreadas.
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
PL2346030T3 (pl) 2008-07-11 2015-03-31 Fraunhofer Ges Forschung Koder audio, sposób kodowania sygnału audio oraz program komputerowy
US8577673B2 (en) 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
TWI419148B (zh) 2008-10-08 2013-12-11 Fraunhofer Ges Forschung 多解析度切換音訊編碼/解碼方案
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
CA2750795C (en) 2009-01-28 2015-05-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, encoded audio information, methods for encoding and decoding an audio signal and computer program
EP2392003B1 (en) * 2009-01-30 2013-01-02 Telefonaktiebolaget LM Ericsson (publ) Audio signal quality prediction
JP4945586B2 (ja) * 2009-02-02 2012-06-06 株式会社東芝 信号帯域拡張装置
US20100223061A1 (en) 2009-02-27 2010-09-02 Nokia Corporation Method and Apparatus for Audio Coding
EP2239732A1 (en) * 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
FR2944664A1 (fr) 2009-04-21 2010-10-22 Thomson Licensing Dispositif et procede de traitement d'images
US8352252B2 (en) * 2009-06-04 2013-01-08 Qualcomm Incorporated Systems and methods for preventing the loss of information within a speech frame
US8428938B2 (en) * 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
KR20100136890A (ko) 2009-06-19 2010-12-29 삼성전자주식회사 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법
ES2441069T3 (es) 2009-10-08 2014-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, procedimiento y programa de computación que usan un modelado de ruido en base a linealidad-predicción-codificación
WO2011044700A1 (en) 2009-10-15 2011-04-21 Voiceage Corporation Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
WO2011048118A1 (en) 2009-10-20 2011-04-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications
PT2491553T (pt) 2009-10-20 2017-01-20 Fraunhofer Ges Forschung Codificador de áudio, descodificador de áudio, método para codificar uma informação de áudio, método para descodificar uma informação de áudio e programa de computador que utiliza uma redução iterativa de tamanho de intervalo
US7978101B2 (en) 2009-10-28 2011-07-12 Motorola Mobility, Inc. Encoder and decoder using arithmetic stage to compress code space that is not fully utilized
US8207875B2 (en) 2009-10-28 2012-06-26 Motorola Mobility, Inc. Encoder that optimizes bit allocation for information sub-parts
KR101761629B1 (ko) 2009-11-24 2017-07-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
MX2012008075A (es) 2010-01-12 2013-12-16 Fraunhofer Ges Forschung Codificador de audio, decodificador de audio, metodo para codificar e informacion de audio, metodo para decodificar una informacion de audio y programa de computacion utilizando una modificacion de una representacion de un numero de un valor de contexto numerico previo.
US20110196673A1 (en) * 2010-02-11 2011-08-11 Qualcomm Incorporated Concealing lost packets in a sub-band coding decoder
EP2375409A1 (en) 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
FR2961980A1 (fr) 2010-06-24 2011-12-30 France Telecom Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique
EP3422346B1 (en) 2010-07-02 2020-04-22 Dolby International AB Audio encoding with decision about the application of postfiltering when decoding
ES2937066T3 (es) 2010-07-20 2023-03-23 Fraunhofer Ges Forschung Decodificador de audio, procedimiento y programa informático para decodificación de audio
US9082416B2 (en) 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
US8738385B2 (en) 2010-10-20 2014-05-27 Broadcom Corporation Pitch-based pre-filtering and post-filtering for compression of audio signals
AR085794A1 (es) 2011-02-14 2013-10-30 Fraunhofer Ges Forschung Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral
US9270807B2 (en) 2011-02-23 2016-02-23 Digimarc Corporation Audio localization using audio signal encoding and recognition
KR101748760B1 (ko) 2011-03-18 2017-06-19 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 오디오 콘텐츠를 표현하는 비트스트림의 프레임들 내의 프레임 요소 배치
MX2013012301A (es) 2011-04-21 2013-12-06 Samsung Electronics Co Ltd Aparato para cuantificar coeficientes de codificacion predictiva lineal, aparato de codificacion de sonido, aparato para decuantificar coeficientes de codificacion predictiva lineal, aparato de decodificacion de sonido y dispositivo electronico para los mismos.
EP2707873B1 (en) 2011-05-09 2015-04-08 Dolby International AB Method and encoder for processing a digital stereo audio signal
FR2977439A1 (fr) 2011-06-28 2013-01-04 France Telecom Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard.
FR2977969A1 (fr) 2011-07-12 2013-01-18 France Telecom Adaptation de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee
US9363339B2 (en) 2011-07-12 2016-06-07 Hughes Network Systems, Llc Staged data compression, including block level long range compression, for data streams in a communications system
CN103493130B (zh) * 2012-01-20 2016-05-18 弗劳恩霍夫应用研究促进协会 用以利用正弦代换进行音频编码及译码的装置和方法
WO2013149672A1 (en) 2012-04-05 2013-10-10 Huawei Technologies Co., Ltd. Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder
US20130282373A1 (en) 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US9026451B1 (en) 2012-05-09 2015-05-05 Google Inc. Pitch post-filter
WO2013183977A1 (ko) 2012-06-08 2013-12-12 삼성전자 주식회사 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
GB201210373D0 (en) 2012-06-12 2012-07-25 Meridian Audio Ltd Doubly compatible lossless audio sandwidth extension
FR2992766A1 (fr) 2012-06-29 2014-01-03 France Telecom Attenuation efficace de pre-echos dans un signal audionumerique
CN102779526B (zh) 2012-08-07 2014-04-16 无锡成电科大科技发展有限公司 语音信号中基音提取及修正方法
US9406307B2 (en) 2012-08-19 2016-08-02 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US9293146B2 (en) 2012-09-04 2016-03-22 Apple Inc. Intensity stereo coding in advanced audio coding
US9280975B2 (en) 2012-09-24 2016-03-08 Samsung Electronics Co., Ltd. Frame error concealment method and apparatus, and audio decoding method and apparatus
CN103714821A (zh) * 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
US9401153B2 (en) 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
EP2757558A1 (en) 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
FR3001593A1 (fr) 2013-01-31 2014-08-01 France Telecom Correction perfectionnee de perte de trame au decodage d'un signal.
RU2628144C2 (ru) * 2013-02-05 2017-08-15 Телефонактиеболагет Л М Эрикссон (Пабл) Способ и устройство для управления маскировкой потери аудиокадров
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
AU2014283389B2 (en) 2013-06-21 2017-10-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pulse resynchronization
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
KR101831289B1 (ko) * 2013-10-18 2018-02-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 오디오 신호의 스펙트럼의 스펙트럼 계수들의 코딩
US9906858B2 (en) 2013-10-22 2018-02-27 Bongiovi Acoustics Llc System and method for digital signal processing
KR101940740B1 (ko) * 2013-10-31 2019-01-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
EP3063761B1 (en) 2013-10-31 2017-11-22 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung E.V. Audio bandwidth extension by insertion of temporal pre-shaped noise in frequency domain
BR112016010197B1 (pt) 2013-11-13 2021-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador para codificar um sinal áudio, sistema de transmissão de áudio e método para determinar os valores de correção
GB2524333A (en) 2014-03-21 2015-09-23 Nokia Technologies Oy Audio signal payload
ES2827278T3 (es) * 2014-04-17 2021-05-20 Voiceage Corp Método, dispositivo y memoria no transitoria legible por ordenador para codificación y decodificación predictiva linealde señales sonoras en la transición entre tramas que tienen diferentes tasas de muestreo
US9396733B2 (en) 2014-05-06 2016-07-19 University Of Macau Reversible audio data hiding
NO2780522T3 (ja) 2014-05-15 2018-06-09
EP2963649A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using horizontal phase correction
US9685166B2 (en) 2014-07-26 2017-06-20 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding
PT3000110T (pt) 2014-07-28 2017-02-15 Fraunhofer Ges Forschung Seleção de um de entre um primeiro algoritmo de codificação e um segundo algoritmo de codificação com o uso de redução de harmônicos.
WO2016016724A2 (ko) 2014-07-28 2016-02-04 삼성전자 주식회사 패킷 손실 은닉방법 및 장치와 이를 적용한 복호화방법 및 장치
EP2980799A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a harmonic post-filter
EP2980798A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
EP2980796A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
EP2988300A1 (en) 2014-08-18 2016-02-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Switching of sampling rates at audio processing devices
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US10049684B2 (en) 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
US9886963B2 (en) 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
JP6422813B2 (ja) 2015-04-13 2018-11-14 日本電信電話株式会社 符号化装置、復号装置、これらの方法及びプログラム
US9978400B2 (en) * 2015-06-11 2018-05-22 Zte Corporation Method and apparatus for frame loss concealment in transform domain
US9837089B2 (en) 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
KR20170000933A (ko) 2015-06-25 2017-01-04 한국전기연구원 시간 지연 추정을 이용한 풍력 터빈의 피치 제어 시스템
US9830921B2 (en) 2015-08-17 2017-11-28 Qualcomm Incorporated High-band target signal control
WO2017039422A2 (ko) 2015-09-04 2017-03-09 삼성전자 주식회사 음질 향상을 위한 신호 처리방법 및 장치
US9978381B2 (en) 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals
US10219147B2 (en) 2016-04-07 2019-02-26 Mediatek Inc. Enhanced codec control
US10283143B2 (en) 2016-04-08 2019-05-07 Friday Harbor Llc Estimating pitch of harmonic signals
CN107103908B (zh) 2017-05-02 2019-12-24 大连民族大学 复调音乐多音高估计方法及伪双谱在多音高估计中的应用

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004138756A (ja) * 2002-10-17 2004-05-13 Matsushita Electric Ind Co Ltd 音声符号化装置、音声復号化装置、音声信号伝送方法及びプログラム
WO2005086138A1 (ja) * 2004-03-05 2005-09-15 Matsushita Electric Industrial Co., Ltd. エラー隠蔽装置およびエラー隠蔽方法
JP2010501955A (ja) * 2006-09-01 2010-01-21 ヴォクスラー デジタル装置のリアルタイム制御のための音声のリアルタイム解析方法ならびに付帯する装置
JP2009008836A (ja) * 2007-06-27 2009-01-15 Nippon Telegr & Teleph Corp <Ntt> 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
JP2009538460A (ja) * 2007-09-15 2009-11-05 ▲ホア▼▲ウェイ▼技術有限公司 高帯域信号にフレーム消失の隠蔽を行う方法および装置
JP2012533094A (ja) * 2009-07-16 2012-12-20 中興通訊股▲ふん▼有限公司 修正離散コサイン変換ドメインのオーディオフレーム損失補償器及び補償方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GUOJUN LU, ET AL.: "A Technique towards Automatic Audio Classification and Retrieval", FORTH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING, vol. 1998, JPN6021019229, 12 October 1998 (1998-10-12), pages 1142 - 1145, ISSN: 0004511885 *

Also Published As

Publication number Publication date
CN111630591B (zh) 2023-08-08
TW202125502A (zh) 2021-07-01
TWI704554B (zh) 2020-09-11
PL3707705T3 (pl) 2023-02-20
TW201923749A (zh) 2019-06-16
WO2019091924A1 (en) 2019-05-16
EP3707705A1 (en) 2020-09-16
SG11202004223RA (en) 2020-06-29
JP7073492B2 (ja) 2022-05-23
CA3082268C (en) 2022-11-22
KR20200077575A (ko) 2020-06-30
AU2018363136B2 (en) 2021-10-07
MX2020004791A (es) 2020-10-05
KR102424897B1 (ko) 2022-07-25
EP3483878A1 (en) 2019-05-15
PT3707705T (pt) 2022-12-19
US20200265846A1 (en) 2020-08-20
FI3707705T3 (fi) 2023-01-31
AU2018363136A1 (en) 2020-05-28
US11315580B2 (en) 2022-04-26
EP3707705B1 (en) 2022-10-19
EP4152316A1 (en) 2023-03-22
RU2759092C1 (ru) 2021-11-09
CN111630591A (zh) 2020-09-04
AR113571A1 (es) 2020-05-20
BR112020009117A2 (pt) 2020-10-13
CA3082268A1 (en) 2019-05-16
TWI776236B (zh) 2022-09-01
ES2933273T3 (es) 2023-02-03
ZA202002522B (en) 2021-05-26

Similar Documents

Publication Publication Date Title
KR101376762B1 (ko) 디코더 및 대응 디바이스에서 디지털 신호의 반향들의 안전한 구별과 감쇠를 위한 방법
CN105654958B (zh) 用于高频带宽扩展的对信号进行编码和解码的设备和方法
CN105408956B (zh) 用于获取音频信号的替换帧的频谱系数的方法及相关产品
AU2015295519B2 (en) Harmonicity-dependent controlling of a harmonic filter tool
AU2018363701B2 (en) Encoding and decoding audio signals
US7197454B2 (en) Audio coding
JP6728142B2 (ja) デジタルオーディオ信号におけるプレエコーを識別し、減衰させる方法及び装置
US20200273475A1 (en) Selecting pitch lag
JP7073492B2 (ja) 異なる損失隠蔽ツールのセットをサポートするオーディオデコーダ
KR20240042449A (ko) 오디오 신호의 펄스 및 잔차 부분의 코딩 및 디코딩
CN117178322A (zh) 用于声音信号的统一时域/频域编码的方法和装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200627

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200627

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210511

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210521

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210819

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220511

R150 Certificate of patent or registration of utility model

Ref document number: 7073492

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150