JP6272619B2 - オーディオ信号の符号化用エンコーダ、オーディオ伝送システムおよび補正値の判定方法 - Google Patents

オーディオ信号の符号化用エンコーダ、オーディオ伝送システムおよび補正値の判定方法 Download PDF

Info

Publication number
JP6272619B2
JP6272619B2 JP2016526934A JP2016526934A JP6272619B2 JP 6272619 B2 JP6272619 B2 JP 6272619B2 JP 2016526934 A JP2016526934 A JP 2016526934A JP 2016526934 A JP2016526934 A JP 2016526934A JP 6272619 B2 JP6272619 B2 JP 6272619B2
Authority
JP
Japan
Prior art keywords
weighting
coefficient
audio signal
encoder
lsf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016526934A
Other languages
English (en)
Other versions
JP2017501430A (ja
Inventor
シュミット・コンスタンチン
フォックス・ギヨーム
ノイジンゲア・マッテヤ
ディーツ・マーティン
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2017501430A publication Critical patent/JP2017501430A/ja
Application granted granted Critical
Publication of JP6272619B2 publication Critical patent/JP6272619B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、オーディオ信号を符号化するエンコーダと、オーディオ伝送システムと、補正値を判定する方法と、コンピュータプログラムとに関する。本発明は、イミタンススペクトル周波数/線スペクトル周波数の重み付けにさらに関する。
今日の音声コーデックおよびオーディオコーデックでは、線形予測によって音声信号またはオーディオ信号のスペクトル包絡線を抽出し、線形予測係数(LPC)の変換をさらに量子化かつ符号化することが最先端である。このような変換は、例えば線スペクトル周波数(LSF)またはイミタンススペクトル周波数(ISF)である。
LPC量子化のためにベクトル量子化(VQ)は、高性能化により、通常はスカラ量子化よりも好ましい。しかし、最適なLPC符号化が、LSFまたはISFのベクトルの周波数ごとに異なるスカラ感度を示すことが観察された。直接の結果として、古典的なユークリッド距離を量子化ステップにおける測定基準として使用することは、準最適システムにつながるであろう。これは、LPC量子化の性能が、通常、ユークリッド距離と直線比例関係を有さない対数スペクトル距離(LSD)または加重対数スペクトル距離(WLSD)などの距離によって測定されるという事実によって説明することができる。
LSDは、元のLPC係数のスペクトル包絡線のユークリッド距離の対数、およびそれらの量子化されたバージョンとして定義される。WLSDは、低周波が高周波よりも知覚的に関連性があることを考慮する重み付けされたバージョンである。
LSDおよびWLSDのいずれも、LPC量子化方式内で計算するにはあまりにも複雑である。したがって、ほとんどのLPC符号化方式は、単純ユークリッド距離またはその重み付けされたバージョン(WED)のいずれかを使用しており、
Figure 0006272619
(式中、lsfは、量子化される予定のパラメータであり、qlsfは、量子化パラメータである。wは、特定の係数に歪みを与え、その他の係数にほとんど歪みを与えない重み付け量である。)として定義される。
Laroiaら[1]は、フォルマント領域に近いLSFに重点を置く重み付け量を計算するための、逆調和平均として知られる発見的な手法を発表した。2つのLSFパラメータが互いに近接している場合、信号スペクトルは、その周波数付近のピークを含んでいることが予想される。したがって、その近隣のうちの1つに近接しているLSFは、高スカラ感度を有し、より高い重み付け量を与えられるはずである。
Figure 0006272619
最初および最後の重み付け係数は、この疑似LSFによって算出される。lfs=0およびlsfp+1=πであり、式中、pはLPモデルの次数である。次数は、通常、8kHzでサンプリングされる音声信号について10であり、16kHzでサンプリングされる音声信号について16である。
GardnerおよびRao[2]は、(例えば30またはそれ以上のビットのVQを用いた場合に)LSFについての個別のスカラ感度を高レートの近似値から導出した。このような場合、導出された重み付け量は最適であり、LSDを最小化する。スカラ重み付け量は、いわゆる感度行列の対角線を形成し、次の式
Figure 0006272619
(式中、Rは、LPC分析の元の予測係数から導出された合成フィルタ1/A(z)のインパルス応答の自己相関行列である。Jω(ω)は、LSFをLPC係数に変換するヤコビ行列である。)によって得られる。
この解決策の主な欠点は、感度行列を計算するための計算の複雑性である。
ITU勧告G.718[3]は、いくつかの音響心理学的な考慮事項を追加することでガードナーの手法を拡張している。行列Rを考慮する代わりに、知覚的に重み付けられた合成フィルタW(z)のインパルス応答を考慮する。
Figure 0006272619
(式中、W(z)は、低周波により重点が置かれたバークの重み付けフィルタを近似するIIRフィルタである。感度行列は、その後、1/A(z)をW(z)と置換することで計算される。)
G.718で使用される重み付けは理論的にほぼ最適な手法であるが、非常に高い複雑性をガードナーの手法から引き継いでいる。今日のオーディオコーデックは、複雑性の制約により標準化されており、それゆえ、知覚品質における複雑性および利益のトレードオフは、この手法では満たされない。
Laroiaらによって発表された手法は、準最適な重み付け量をもたらすが、複雑性は低い。この手法で生成された重み付け量は、人間の耳の感度が高非線形であるにもかかわらず、全周波数帯域を均等に処理する。低周波における歪みは、高周波における歪みよりもはるかに可聴性がある。
したがって、符号化方式を改善する必要がある。
本発明の目的は、アルゴリズムの計算量および/またはアルゴリズムの高精度を許容する一方で、符号化されたオーディオ信号を復号化する場合に良好なオーディオ品質を維持する符号化方式を提供することである。
この目的は、請求項1に記載のエンコーダ、請求項10に記載のオーディオ伝送システム、請求項11に記載の方法、および請求項15に記載のコンピュータプログラムによって達成される。
発明者たちは、計算量の低い方法を用いてスペクトル重み付け係数を判定すること、および、事前計算された補正情報を用いて得られたスペクトル重み付け係数を少なくとも部分的に補正することで、得られた補正後のスペクトル重み付け係数が、符号化の精度および/または低減された線スペクトル距離(LSD)を維持しながら、オーディオ信号を少ない計算量で符号化および復号化することを可能にすることを見出した。
本発明の一実施形態によれば、オーディオ信号を符号化するエンコーダは、オーディオ信号を分析し、オーディオ信号から分析予測係数を判定するアナライザを備える。エンコーダは、変換後の予測係数を分析予測係数から導出するように構成されたコンバータと、多数の補正値を記憶するように構成されたメモリとをさらに備える。エンコーダは、計算器とビットストリーム形成器とをさらに備える。計算器は、プロセッサと、結合器と、量子化器とを備え、プロセッサは、スペクトル重み付け係数を取得するために、変換後の予測係数を処理するように構成される。結合器は、補正後の重み付け係数を取得するために、スペクトル重み付け係数と多数の補正値とを結合するように構成される。量子化器は、補正後の重み付け係数を使用して変換後の予測係数を量子化して、変換後の予測係数の量子化表現、例えば、データベースへの予測係数のエントリに関連する値を取得するように構成される。ビットストリーム形成器は、変換後の予測係数の量子化表現に関連する情報と、オーディオ信号とに基づいて出力信号を形成するように構成される。本実施形態の利点は、計算の複雑性が低い方法および/または概念を使用することで、プロセッサがスペクトル重み付け係数を取得することができることである。その他の概念または方法に関して得られる可能性のある誤差は、多数の補正値を適用することで、少なくとも部分的に補正され得る。これは、[3]に基づく判定ルールと比較した場合の重み付け量の導出の計算量の低減を可能にし、[1]による判定ルールと比較した場合のLSDの低減を可能にする。
さらなる実施形態はエンコーダを提供し、結合器は、正後の重み付け係数を取得するために、スペクトル重み付け係数と、多数の補正値と、入力信号に関連するさらなる情報とを結合するように構成される。特に、さらなる情報を再利用することができるように、その他の符号化ステップの間に、入力信号に関連するさらなる情報が少なくとも部分的に得られた場合、入力信号に関連するさらなる情報を使用することで、少ない計算量を維持しながら、得られた補正後の重み付け係数のさらなる向上を達成することができる。
さらなる実施形態はエンコーダを提供し、結合器は、補正後の重み付け係数を周期的に、1周期ごとに取得するように構成される。計算器は平滑器を備え、この平滑器は、前回の周期に対して取得された第1の量子化後の重み付け係数と、前回の周期に続く周期に対して取得された第2の量子化後の重み付け係数とを重み付け結合して、第1の量子化後の重み付け係数および第2の量子化後の重み付け係数の値の間の値を含む、平滑化された補正後の重み付け係数を取得するように構成される。これは、特に、2つの連続した周期の補正後の重み付け係数が、それぞれを比較して大きな差を含むと判定された場合に、遷移歪みの低減または防止を可能にする。
さらなる実施形態はオーディオ伝送システムを提供し、このオーディオ伝送システムは、エンコーダと、エンコーダの出力信号またはその導出された信号を受信し、かつ、合成後のオーディオ信号を供給するために受信信号を復号化するように構成されたデコーダとを備え、エンコーダの出力信号は有線媒体または無線媒体などの伝送媒体を介して伝送される。オーディオ伝送システムの利点は、不変の方法に基づいて、デコーダが出力信号とオーディオ信号とをそれぞれ復号化することができることである。
さらなる実施形態は、第1の多数の第1重み付け係数に対する補正値を判定する方法を提供する。各重み付け係数は、例えば線スペクトル周波数またはイミタンススペクトル周波数として表されるオーディオ信号の一部を重み付けするのに適している。第1の多数の第1重み付け係数は、オーディオ信号ごとに第1判定ルールに基づいて判定される。第2の多数の第2重み付け係数は、1組のオーディオ信号のオーディオ信号ごとに第2判定ルールに基づいて算出される。第2の多数の重み付け係数の各々は、第1重み付け係数に関連している。つまり、重み付け係数は、異なる可能性がある2つの結果を取得するために、第1判定ルールおよび第2判定ルールに基づいて、オーディオ信号の一部について判定されてもよい。第3の多数の距離値は算出され、この距離値は、いずれもオーディオ信号の一部に関連する第1重み付け係数と第2重み付け係数との間の距離に関連する値を有している。第4の多数の補正値は、第1重み付け係数と結合した場合に、距離値を低減するように算出され、これにより、第1重み付け係数が第4の多数の補正値と結合した場合に、第2重み付け係数と比較して補正後の第1重み付け係数の間の距離が低減される。これは、高計算量および/または高精度を含む第2判定ルールに基づいて1回設定され、かつ、計算量が少なく精度が低い第1判定ルールに基づいて別の回に設定された訓練データに基づいて、重み付け係数を計算することを可能にし、ここで、低精度は、補正によって少なくとも部分的に補償されるか、または低減される。
さらなる実施形態は、多項式係数が補正値に関連する多項式を適用することで距離が低減される方法を提供する。さらなる実施形態はコンピュータプログラムを提供する。
本発明の好ましい実施形態を、添付の図面を参照して詳細に説明する。
一実施形態によるオーディオ信号を符号化するエンコーダの略ブロック図である。 図1の計算器と比較して計算器が修正される、一実施形態による計算器の略ブロック図である。 一実施形態によるスペクトルアナライザおよびスペクトルプロセッサを追加的に備えるエンコーダの略ブロック図である。 一実施形態による判定された予測係数に基づいて、コンバータによって取得される、線スペクトル周波数の16個の値を含むベクトルを示す図である。 一実施形態による結合器によって実行される判定ルールを示す図である。 一実施形態による補正後の重み付け係数の取得ステップを説明するための例示的な判定ルールを示す図である。 一実施形態による変換後の予測係数の量子化表現を判定するために量子化器によって実施される例示的な判定方式を示す図である。 一実施形態による集合に結合される量子化値の例示的なベクトルを示す図である。 一実施形態によるオーディオ伝送システムの略ブロック図の図である。 補正値を導出する実施形態を示す図である。 一実施形態によるオーディオ信号を符号化する方法の概略的なフローチャートを示す図である。
同様または同等の要素、または同様または同等の機能を含む要素は、異なる図面に現れたとしても、同様または同等の参照番号によって以下の説明に示される。
以下の説明では、本発明の実施形態のより完全な説明を提供するために、複数の詳細を記載する。しかし、これら特定の詳細無しで本発明の実施形態を実施することができるは、当業者にとって明らかであろう。他の事例では、周知の構造および装置は、本発明の実施形態を曖昧にすることを避けるために、詳細にではなくブロック図の形態で示されている。また、特に注記がない限り、以下に説明する異なる実施形態の特徴は、互いに組み合わせることができる。
図1は、オーディオ信号を符号化するエンコーダ100の略ブロック図である。オーディオ信号は、オーディオ信号の一連のフレーム102として、エンコーダ100によって取得されてもよい。エンコーダ100は、フレーム102を分析し、オーディオ信号102から分析予測係数112を判定するアナライザを備える。分析予測係数(予測係数)112は、例えば、線形予測係数(LPC)として取得されてもよい。あるいは、非線形予測係数も取得することができ、計算能力をより少なく利用することで、線形予測係数をより速く取得することができる。
エンコーダ100は、予測係数112から変換後の予測係数122を導出するように構成されたコンバータ120を備える。コンバータ120は、例えば線スペクトル周波数(LSF)および/またはイミタンススペクトル周波数(ISF)を取得するために、変換後の予測係数122を判定するように構成されてもよい。変換後の予測係数122は、予測係数112と比較すると、後の量子化における量子化誤差に対して、より高いロバスト性を含む可能性がある。量子化は、通常は非線形に行われるので、線形予測係数の量子化は、復号化されたオーディオ信号の歪みにつながる可能性がある。
エンコーダ100は、計算器130を備える。計算器130は、スペクトル重み付け係数142を取得するために、変換後の予測係数122を処理するように構成されたプロセッサ140を備える。プロセッサは、[1]で公知であるように、または、[2]に記載のより複雑な手法に従って、逆調和平均(IHM)などの複数の既知の判定ルールのうちの1つ以上に基づいて、重み付け係数142を算出および/または判定するように構成されてもよい。国際電気通信連合(ITU)標準G.718は、[3]に記載のように[2]の手法を拡大することで、重み付け係数を判定するさらなる手法を記載している好ましくは、プロセッサ140は、低計算量を含む判定ルールに基づいて重み付け係数142を判定するように構成される。これは、少ない計算量に基づいてより少ないエネルギーを消費することができるハードウェアによって、符号化されたオーディオ信号の高スループットおよび/またはエンコーダ100の簡単な実現を可能にする。
計算器130は、補正後の重み付け係数152を取得するために、スペクトル重み付け係数142と多数の補正値162とを結合するように構成された結合器150を備える。多数の補正値は、補正値162が記憶されているメモリ160から供給される。補正値162は、静的または動的であってもよく、つまり、補正値162は、エンコーダ100の動作中に更新されてもよく、あるいは、動作中に不変のままであってもよく、および/または、エンコーダ100の較正のための較正手順の間に更新されるのみであってもよい。好ましくは、メモリ160は、静的補正値162を含む。補正値162は、後述するように、例えば事前計算の手順によって取得されてもよい。あるいは、メモリ160は、点線で示されるように、計算器130によって代替的に構成されてもよい。
計算器130は、補正後の重み付け係数152を用いて変換後の予測係数122を量子化するように構成された量子化器170を備える。量子化器170は、変換後の予測係数122の量子化表現172を出力するように構成される。量子化器170は、線形量子化器、対数量子化器などの非線形量子化器、または、それぞれベクトル的量子化器、ベクトル量子化器であってもよい。ベクトル的量子化器は、補正後の重み付け係数152の複数の部分を、複数の量子化値(部分)に量子化するように構成されてもよい。量子化器170は、変換後の予測係数122を補正後の重み付け係数152で重み付けするように構成されてもよい。量子化器は、データベース内のエントリに関連する符号語(表現)を選択するために、量子化器170のデータベースのエントリに対する重み付けされた変換後の予測係数122の距離を判定するようにさらに構成されてもよく、ここで、エントリは、重み付けされた変換後の予測係数122に対する最小距離を含んでもよい。このような手順は、例示的に後述される。量子化器170は、確率的ベクトル量子化器(VQ)であってもよい。あるいは、量子化器170はまた、格子VQのようなその他のベクトル量子化器または任意のスカラ量子化器を適用するように構成されてもよい。あるいは、量子化器170はまた、線形量子化または対数量子化を適用するように構成されてもよい。
変換後の予測係数122の量子化表現172、つまり、符号語は、エンコーダ100のビットストリーム形成器180に供給される。エンコーダ100は、オーディオ信号102のオーディオ情報の一部または全ておよび/またはさらなる情報を処理するように構成されたオーディオ処理部190を備えてもよい。オーディオ処理部190は、有声音信号情報または無声音信号情報などのオーディオデータ192を、ビットストリーム形成器180に提供するように構成される。ビットストリーム形成器180は、変換後の予測係数122の量子化表現172と、オーディオ信号102に基づくオーディオ情報192とに基づいて、出力信号(ビットストリーム)182を形成するように構成される。
エンコーダ100の利点は、プロセッサ140が、低計算量を含む判定ルールを用いて、重み付け係数142を取得する、つまり重み付け係数142を算出するように構成されてもよいことである。補正値162は、簡約して表される場合、高計算量を含む(基準)判定ルールによって取得される1組の重み付け係数を比較することで取得され得るが、それゆえに、プロセッサ140によって実行された判定ルールによって取得された重み付け係数を有する高精度のおよび/または良好なオーディオ品質および/または低LSDを含む。これは、多数のオーディオ信号に対して行うことができ、両方の判定ルールに基づいて、オーディオ信号ごとに重み付け係数の数が取得される。オーディオ信号ごとに、取得結果を比較して、不一致または誤差に関する情報を取得してもよい。不一致または誤差に関する情報は、より低い計算量の判定ルールを実行する場合、基準判定ルールに対してプロセッサ140によって作られる平均誤差に関する情報を取得するために、多数のオーディオ信号について合計および/または平均化されてもよい。平均誤差および/または不一致に関して得られた情報は、結合器によって重み付け係数142を補正値162と結合して平均誤差を低減または補償することができるように、補正値162において表されてもよい。これは、オフラインで使用される基準判定ルールと比較すると、重み付け係数142の誤差を低減またはほとんど補償することを可能にする一方で、重み付け係数142の判定の複雑性をより少なくすることが依然として可能である。
図2は、修正された計算器130’の略ブロック図を示している。計算器130’は、変換後の予測係数を表すLSF122’から逆調和平均(IHM)の重み付け量を算出するように構成されたプロセッサ140’を備える。計算器130’は、結合器150と比較すると、プロセッサ140’のIHMの重み付け量142’、補正値162、および、「反射係数」として示されるオーディオ信号102のさらなる情報114を結合するように構成される結合器150’を備え、ここで、さらなる情報114は、「反射係数」に限定されない。さらなる情報は、その他の符号化ステップの中間結果であってもよく、例えば、反射係数114は、図1で説明したように、予測係数112の判定中にアナライザ110によって取得されてもよい。線形予測係数は、反射アルゴリズムが判定されるレビンソン・ダービンアルゴリズムに従って判定ルールを実行する場合に、アナライザ110によって判定されてもよい。パワースペクトルに関連する情報は、予測係数112の算出中に取得されてもよい。結合器150’の可能な実装については後述する。代替的にまたは追加的に、さらなる情報114は、例えばオーディオ信号102のパワースペクトルに関連する情報などの、重み付け量142または142’および補正パラメータ162と結合されてもよい。さらなる情報114は、計算器130または130’によって判定された重み付け量142または142’と基準の重み付け量との差をさらに低減することを可能にする。オーディオ符号化のその他のステップ中にアナライザ110などのその他の構成要素によって、さらなる情報114はすでに判定されている可能性があるので、計算量の増大は軽度な効果しかない可能性がある。
計算器130’は、結合器150’からの補正後の重み付け係数152’と、平滑器155の制御動作(ON/OFF状態)を可能にする任意の情報157(制御フラグ)とを受信するように構成された平滑器155をさらに備える。制御フラグ157は、例えば、不快な遷移を低減するために平滑化が行われることを示すアナライザから取得されてもよい。平滑器155は、補正後の重み付け係数152’と補正後の重み付け係数152’’’とを結合させるように構成されてもよく、これらの係数は、オーディオ信号の先行フレームまたはサブフレームについて判定された補正後の重み付け係数の遅延表現、つまり、ON状態の前回の周期で判定された補正後の重み付け係数である。平滑器155は、無限インパルス応答(IIR)フィルタとして実装されてもよい。したがって、計算器130’は、最初の周期で平滑器155によって提供された補正後の重み付け係数152’’を受信し、かつ遅延させて、これらの重み付け量を、後続の周期における補正後の重み付け係数152’’’として提供するように構成された遅延ブロック159を備える。
遅延ブロック159は、例えば、遅延フィルタとして、または受信した補正後の重み付け係数152’’を記憶するように構成されたメモリとして実装されてもよい。平滑器155は、受信した補正後の重み付け係数152’と、過去の受信した補正後の重み付け係数152’’’とを重み付け結合するように構成される。例えば、(現在の)補正後の重み付け係数152’は、平滑化された補正後の重み付け係数152’’において25%、50%、75%または任意のその他の値の割合を占めてもよく、(過去の)重み付け係数152’’’は、(1−補正後の重み付け係数152’の割合)の割合を占めてもよい。これは、オーディオ信号、つまり、2つの後続フレームが、復号化されたオーディオ信号の歪みにつながるであろう異なる補正後の重み付け係数をもたらす場合、後続のオーディオフレーム間の不快な遷移を回避することができる。OFF状態では、平滑器155は、補正後の重み付け係数152’を転送するように構成される。代替的にまたは追加的に、平滑化は、高レベルの周期性を含むオーディオ信号のための向上したオーディオ品質を可能にする。
あるいは、平滑器155は、前回以前の周期の補正後の重み付け係数を追加的に結合するように構成されてもよい。代替的にまたは追加的に、変換後の予測係数122’は、イミタンススペクトル周波数であってもよい。
重み付け係数w例えば逆調和平均(IHM)に基づいて取得することができる。判定ルールは、以下の数式
Figure 0006272619
(式中、wは、添字iを含む判定された重み付け量142’を示し、LSFは、添字iを含む線スペクトル周波数を示す)に基づく。添字iは、取得されたスペクトル重み付け係数の数に対応し、アナライザによって判定された予測係数の数に等しくてもよい。予測係数の数、したがって変換後の係数の数は、例えば16であってもよい。あるいは、その数は8または32であってもよい。あるいは、例えば、変換後の係数122が、予測係数の数と比較してより低い数を含む可能性がある、イミタンススペクトル周波数として判定されると、変換後の係数の数は予測係数の数よりも低くてもよい。
換言すれば、図2は、コンバータ120によって実行される重み付け量の導出ステップで行われる処理を詳述している。まず、IHMの重み付け量は、LSFから計算される。一実施形態によれば、LPC次数16は、16kHzでサンプリングされた信号のために使用される。これは、LSFが、0〜8kHzの間で有界であることを意味している。さらなる実施形態によれば、LPCは次数16であり、信号は12.8kHzでサンプリングされる。この場合、LSFは、0〜6.4kHzの間で有界である。さらなる実施形態によれば、信号は8kHzでサンプリングされ、これは、狭帯域サンプリングと呼ばれる。その後、IHMの重み付け量は、訓練過程の間に係数がオフラインで最適化される多項式内で、例えばいくつかの反射係数と関連しているさらなる情報と結合されてもよい。最後に、特定の場合において、例えば定常信号に対して、前回の1組の重み付け量によって得られた重み付け量を平滑化することができる。一実施形態によれば、平滑化は決して行われない。その他の実施形態によれば、平滑化は、入力フレームが有声であると分類された場合、つまり、信号が高度に周期的であると検出された場合にのみ行われる。
以降では、導出された重み付け係数の補正についての詳細を参照する。例えば、アナライザは、次数10または16の線形予測係数(LPC)、つまり、LPC10または16の数を判定するように構成される。アナライザもまた、任意のその他の数の線形予測係数または異なる種類の係数を判定するように構成されてもよいが、16個の係数が移動体通信において使用されるので、以下の説明を、16個の係数を参照して行う。
図3は、スペクトルアナライザ115を追加的に備え、エンコーダ100と比較して、スペクトルプロセッサ145を備えるエンコーダ300の略ブロック図を示している。スペクトルアナライザ115は、オーディオ信号102からスペクトルパラメータ116を導出するように構成される。スペクトルパラメータは、例えばオーディオ信号またはそのフレームのスペクトルの包絡線、および/または包絡線を特徴付けるパラメータであってもよい。あるいは、パワースペクトルに関連する係数を取得してもよい。
スペクトルプロセッサ145は、スペクトルパラメータ116に基づいて、オーディオ信号102のスペクトルの周波数ビンのエネルギーについての量または尺度146を計算するように構成されたエネルギー計算器145aを備える。スペクトルプロセッサは、正規化後の予測係数147を取得するために、変換後の予測係数122’(LSF)を正規化する正規化器145bをさらに備える。変換後の予測係数は、例えば相対的に、複数のLSFの最大値について正規化されてもよく、および/または、絶対的に、つまり使用された計算変数によって予想されるか、または表現可能な最大値などの所定値について正規化されてもよい。
スペクトルプロセッサ145は、正規化後の予測パラメータごとにビンエネルギーを判定するように、つまり、ビンエネルギーを含むベクトルW1をLSFごとに取得するために、正規化器145bから取得された各正規化後の予測パラメータ147を、計算された尺度146に関連付けるように構成された第1判定器145cをさらに備える。スペクトルプロセッサ145は、正規化されたLSFごとに周波数重み付けを求めて(判定して)、周波数重み付けを含むベクトルW2を取得するように構成された第2判定器145dをさらに備える。さらなる情報114は、ベクトルW1およびベクトルW2を含む。つまり、ベクトルW1およびベクトルW2は、さらなる情報114を表す特徴である。
プロセッサ142’は、変換後の予測パラメータ122’および、例えば二乗などのIHMの指数に基づいてIHMを判定するように構成され、ここで、代替的にまたは追加的に、高い指数を計算することもでき、IHMおよびその指数は重み付け係数142’を形成する。
結合器150’’は、さらなる情報114および重み付け係数142’に基づいて補正後の重み付け係数(補正後のLSFの重み付け量)152’を判定するように構成される。
あるいは、プロセッサ140’、スペクトルプロセッサ145および/または結合器は、中央処理装置、(マイクロ)コントローラ、プログラマブル・ゲート・アレイなどの単一の処理装置として実装されてもよい。
換言すれば、結合器への第1のエントリおよび第2のエントリは、IHMおよびIHM、つまり、重み付け係数142’である。第3のエントリは、LSFベクトル要素iごとである。
Figure 0006272619
(式中、wfftは、W1およびW2の組み合わせであり、minは、wfftの最小値である。
i=0..Mであり、16個の予測係数がオーディオ信号から導出された場合、Mは16であってもよい。
Figure 0006272619
Figure 0006272619
式中、binEnerは、スペクトルの各ビンのエネルギーを含む。つまり、binEnerは、尺度146に対応する。)
マッピング
Figure 0006272619
は、スペクトル包絡線内のフォルマントのエネルギーの近似である。FreqWTableは、有声または無声の入力信号に応じて選択される追加の重み付け量を含むベクトルである。
Wfftは、LSF係数のような予測係数に近いスペクトルエネルギーの近似値である。簡単に言えば、予測(LSF)係数が値Xを含む場合、これは、オーディオ信号(フレーム)のスペクトルが、周波数Xで最大(フォルマント)の、または周波数Xの下のエネルギーを含むことを意味する。wfftは、周波数Xにおけるエネルギーの対数表現である。つまり、wfftは、この位置における対数エネルギーに対応する。さらなる情報として反射係数を利用する上述の実施形態と比較すると、代替的にまたは追加的に、wfft(W1)およびFrequWTable(W2)の組み合わせを使用して、さらなる情報114を取得してもよい。FreqWTableは、複数の使用可能なテーブルのうちの1つを表している。エンコーダ300の「符号化モード」、例えば、有声の、摩擦音などに基づいて、複数のテーブルのうちの少なくとも1つを選択してもよい。1つ以上の複数のテーブルを、エンコーダ300の動作中に訓練(プログラムおよび適合)させてもよい。
wfftを使用した結果、フォルマントを表す変換後の予測係数の符号化を向上させる。ノイズが大量の(信号)エネルギーを含む周波数にある古典的なノイズシェーピングとは対照的に、記載の手法は、スペクトル包絡線を量子化することに関連する。パワースペクトルが、変換後の予測係数の周波数を含むか、またはこれに隣接して配置された周波数で大量のエネルギー(大きな尺度)を含む場合、この変換後の予測係数(LSF)を良好に、つまり、より低い尺度のエネルギーを含むその他の係数よりも高い重み付け量によって達成される低誤差で、量子化することができる。
図4aは、判定された線スペクトル周波数のエントリの16個の値を含むベクトルLSFを示し、これらは、判定された予測係数に基づいて、コンバータによって取得される。プロセッサはまた、16の重み付け量を取得するように構成され、例示的には、逆調和平均IHMは、ベクトルIHMで表される補正値162は、例えばベクトル、ベクトルおよびベクトルに分類される。ベクトル、ベクトルおよびベクトルの各々は、16個の値a1−16、b1−16およびc1−16を含み、同一の添字は、それぞれの補正値が、予測係数、予測係数の変換後の表現および同一の添字を含む重み付け係数に関連していることを示す。図4bは、一実施形態による結合器150または結合器150’によって実行される判定ルールを示している。結合器は、数式bxcx に基づく多項式関数の結果を計算または判定するように構成される。つまり、異なる補正値a、b、cは、(xとして示される)重み付け係数の異なる指数と組み合わせられ(乗算され)る。は、取得された補正後の重み付け係数のベクトルを示す。
代替的にまたは追加的に、結合器はまた、さらなる補正値(d、e、f...)、および重み付け係数またはさらなる情報のさらなる指数を追加するように構成されてもよい。例えば、さらなる情報114の三乗と乗算される16個の値を含むベクトルによって、図4bに示す多項式を拡張することができ、それぞれのベクトルもまた、16個の値を含む。これは、図3に記載したようなプロセッサ140’がIHMのさらなる指数を判定するように構成される場合、例えばIHM³に基づくベクトルであってもよい。あるいは、少なくともベクトルのみ、および必要に応じて1つ以上の高次ベクトル...を計算してもよい。簡約された多項式の次数は、各項と共に増加し、各タイプは、重み付け係数に基づいて、および/または、必要に応じてさらなる情報に基づいて形成されてもよく、多項式は、高次の項を含む場合に、数式bxcx に基づく。補正値a、b、cおよび必要に応じてd、e...は、実数値および/または虚数値を含んでもよく、ゼロの値を含んでもよい。
図4cは、補正後の重み付け係数152または152’の取得ステップを説明するための例示的な判定ルールを示している。補正後の重み付け係数は、16個の値を含むベクトルで表され、変換後の予測係数ごとの1つの重み付け係数は、図4aに示されている。補正後の重み付け係数w1−16の各々は、図4bに示す判定ルールによって計算される。上述の説明は、補正後の重み付け係数を判定する原理を説明するだけのものであり、上述の判定ルールに限定されるものではない。上述の判定ルールはまた、変更され、スケーリングされ、交換されるなどしてもよい。一般的に、補正後の重み付け係数は、補正値と判定後の重み付け係数との結合を行うことで取得される。
図5aは、変換後の予測係数の量子化表現を判定するために量子化器170などの量子化器によって実施され得る例示的な判定方式を示す。量子化器は、誤差、例えばLSFとして示される判定された変換後の係数とLSF’として示される基準係数との間の差分または指数を合計してもよく、基準係数は、量子化器のデータベースに記憶されてもよい。判定された距離は、正の値のみ得られるように二乗されてもよい。距離(誤差)の各々は、それぞれの重み付け係数wによって重み付けされる。これは、オーディオ品質について重要度が高い周波数帯域または変換後の予測係数に、より高い重み付け量を与え、オーディオ品質について重要度が低い周波数帯域に、より低い重み付け量を与えることを可能にする。誤差は、総誤差値を取得するために一部または全ての添字1〜16について合計される。これは、図5bに示すセットQu’、Qu’’、...Quに結合することができる係数の、複数の所定の組み合わせ(データベースエントリ)に対して行われてもよい。量子化器は、判定された補正後の重み付け係数および変換後の予測係数に対する最小誤差を含む、所定の係数のセットに関連する符号語を選択するように構成されてもよい。符号語は、例えば表の見出しであってもよく、これにより、それぞれ受信した指数、受信した符号語に基づいてデコーダが所定のセットQu’、Qu’’、...を復元することができる。
訓練過程中に補正値を取得するために、基準の重み付け量が判定される基準の判定ルールが選択される。エンコーダは、基準の重み付け量に対して判定後の重み付け係数を補正するように構成され、基準の重み付け量の判定はオフラインで、つまり、較正ステップの間などに行われるので、高精度(例えば低LSD)の判定ルールは、結果として生じた計算量を無視しながら選択されてもよい。好ましくは、高精度を含み、かつ、おそらくは高計算量を含む方法は、予め大きさが決められた基準の重み付け係数を取得するために選択されてもよい。例えば、G.718標準[3]による重み付け係数を判定する方法を使用してもよい。
エンコーダが重み付け係数を判定する判定ルールを実行してもよい。これは、判定された結果の精度が低いことを受け入れながら、低計算量を含む方法であってもよい。重み付け量は、例えば、音声および/または音楽を含むオーディオ素材のセットを使用しながら、両方の判定ルールに従って計算される。オーディオ素材は、M個の訓練ベクトルの数で表されてもよく、Mは、100以上、1000以上または5000以上の値を含んでもよい。得られた重み付け係数のセットのいずれも、行列に記憶され、各行列は、各々がM個の訓練ベクトルのうちの1つに関連するベクトルを含む。
M個の訓練ベクトルの各々について、第1(基準)判定ルールに基づいて判定された重み付け係数を含むベクトルと、エンコーダ判定ルールに基づいて判定された重み付けベクトルを含むベクトルとの間の距離が判定される。この距離は、総距離(誤差)を取得するために合計され、総誤差は、平均誤差値を取得するために平均化されてもよい。
補正値の判定中の目的は、総誤差および/または平均誤差を低減することであり得る。したがって、図4bに示す判定ルールに基づいて、多項式フィッティングが実行されてもよく、ベクトルa、b、cおよび/またはさらなるベクトルは、総誤差および/または平均誤差が低減されるか、あるいは最小化されるように多項式に適合される。多項式は、デコーダで実行される判定ルールに基づいて判定された重み付け係数に適合する。多項式は、総誤差または平均誤差が閾値、例えば0.01、0.1または0.2を下回るように適合されてもよく、ここで、1は、合計の不一致である。代替的にまたは追加的に、誤差最小化アルゴリズムに基づいて利用することで、総誤差が最小化されるように多項式を適合してもよい。0.01の値は、差分(距離)および/または距離の商として表される相対誤差を示してもよい。あるいは、結果として生じた総誤差または平均誤差が、数学的最小値に近接した値を含むように補正値を判定することで、多項式フィッティングが行われてもよい。これは、例えば使用される関数の導出、および、得られた導出をゼロに設定することに基づいた最適化によって行うことができる。
距離(誤差)、例えばユークリッド距離のさらなる低減は、エンコーダ側で114として示される追加の情報を追加する場合に達成することができる。この追加の情報はまた、補正パラメータを算出する間に使用されてもよい。情報は、補正値を判定する多項式と組み合わせることで使用されてもよい。
換言すれば、第1のIHMの重み付け量およびG.718の重み付け量は、5000秒(またはM個の訓練ベクトル)以上の音声および音楽の素材を含むデータベースから抽出されてもよい。IHMの重み付け量は、行列Iに記憶されてもよく、G.718の重み付け量は、行列Gに記憶されてもよい。IおよびGは、全訓練データベースのi番目のISFまたはLSF係数の全てのIHMおよびG.718の重み付け量wを含むベクトルとする。これら2つのベクトル間の平均ユークリッド距離は、以下の式に基づいて判定されてもよい。
Figure 0006272619
これら2つのベクトル間の距離を最小化するために、二次多項式を適用してもよい。
Figure 0006272619
以下の行列
Figure 0006272619
が導入されてもよく、ベクトルPi=[p0,i 0,i 2,iであり、その根拠は、
Figure 0006272619
および
Figure 0006272619
を書き換えるためである。
最低平均ユークリッド距離を有するベクトルPを得るために、導出
Figure 0006272619
をゼロに設定する。つまり、
Figure 0006272619
を得るために
Figure 0006272619
を設定する。
提案された重み付け量とG.718の重み付け量との間の差(ユークリッド距離)をさらに低減するために、その他の情報の反射係数を、行列EIに加えてもよい。例えば反射係数は、LSFまたはISFの領域において直接観察不可能であるLPCモデルについてのいくつかの情報を有しているので、ユークリッド距離dを低減するのに役立つ。実際には、おそらく全ての反射係数が、ユークリッド距離の大幅な低減に導くわけではない。発明者たちは、第1番目および第14番目の反射係数を使用すればよいことを発見した。反射係数を行列EIに加えると、以下の式
Figure 0006272619
(式中、rx,yは、訓練データセット内のx番目のインスタンスのy番目の反射係数(またはその他の情報)である。)のようになる。したがって、ベクトルPの次元は、行列EIのカラムの数に応じて変更された次元を含む。最適ベクトルPの算出は、上述と変わらない。
さらなる情報を加えることで、図4bに示した判定ルールは、bxcx dr +...に応じて変更(拡張)されてもよい。
図6は、一実施形態によるオーディオ伝送システム600の略ブロック図を示している。オーディオ伝送システム600は、出力信号182を、量子化されたLSF、または量子化されたLSFに関する情報をそれぞれ含むビットストリームとして受信するように構成された、エンコーダ100およびデコーダ602を備える。ビットストリームは、有線接続(ケーブル)または無線接続などの伝送媒体604を介して送信される。
換言すれば、図6は、エンコーダ側でのLPC符号化方式の概要を示している。重み付け量はエンコーダによってのみ使用され、デコーダで必要とされないことは言及する価値がある。まず、LPC分析が入力信号に対して行われる。LPC分析は、LPC係数および反射係数(RC)を出力する。LPC分析の後、LPC予測係数がLSFに変換される。これらLSFは、多段ベクトル量子化などの方式を使用して量子化され、その後にデコーダへ送信されるベクトルである。符号語は、前の章で紹介したWEDと呼ばれる重み付けされた二乗誤差の距離に応じて選択される。このために、関連する重み付け量を予め計算しなくてはならない。重み付け量の導出は、元のLSFおよび反射係数の関数である。反射係数は、レビンソン・ダービンアルゴリズムが必要とする内部変数として、LPCの分析中に直接利用可能である。
図7は、上述したように補正値を導出する実施形態を示している。変換後の予測係数122’(LSF)または他の係数は、ブロックAにおけるエンコーダによる重み付け量の判定、および、ブロックBにおける対応する重み付け量の計算に使用される。得られた重み付け量142はいずれも、モデリングに適合させるため、つまり、ブロックAからブロックCまで破線で示すようにベクトルPを計算するために、ブロックCにおいて得られた基準の重み付け量142’’と直接結合される。必要に応じて、さらなる情報114が例えば反射係数であるか、またはスペクトル指数情報が補正値162を判定するために使用される場合、重み付け量142’は、反射値によって拡張されたEIによって説明したように、ブロックDとして示される回帰ベクトル内のさらなる情報114と結合される。得られた重み付け量142’’’はその後、ブロックCにおいて基準重み付け係数142’’と結合される。
換言すれば、ブロックCのフィッティングモデルは、上述のベクトルPである。以下では、疑似コードは、重み付け量の導出処理を例示的に要約したものである。
入力:lsf=元のLSFベクトル
order=LPCの次数、lsfの長さ
parcorr[0]=−1番目の反射係数
parcorr[1]=−14番目の反射係数
smooth_flag=重み付け量を平滑化するフラグ
w_past=過去の重み付け量
出力
weights=計算された重み付け量
(数19)
/*Compute IHM weights*/
weights[0] = 1.f/( lsf[0] - 0 ) + 1.f/( lsf[1] - lsf[0] );
for(i=1; i<order-1; i++)
weights[i] = 1.f/( lsf[i] - lsf[i-1] ) + 1.f/( lsf[i+1] - lsf[i] );
weights[order-1] = 1.f/( lsf[order-1] - lsf[order-2] ) + 1.f/( 8000 - lsf[order-1] );
/* Fitting model*/
for(i=0; i<order; i++)
{
weights[i] *= (8000/ PI);
weights[i] = ((float)(lsf_fit_model[0][i])/(1<<12))
+ weights[i]*((float)(lsf_fit_model[1][i])/(1<<14))
+ weights[i]*weights[i]*((float)(lsf_fit_model[2][i])/(1<<19))
+ parcorr[0]* ((float)(lsf_fit_model[3][i])/(1<<13))
+ parcorr[1] * ((float)(lsf_fit_model[4][i])/(1<<10));
/* avoid too low weights and negative weights*/
if(weights[i] < 1.f/(i+1))
weights[i] = 1.f/(i+1);
}
(式中、「parcorr」は行列EIの拡張を示し、
(数20)
if(smooth_flag){
for(i=0; i<order; i++) {
tmp = 0.75f*weights[i] * 0.25f*w_past[i];
w_past[i]=weights[i];
weights[i]=tmp;
}
}
行列EIは、上述の平滑化を示し、現在の重み付け量が0.75の係数で重み付けされ、過去の重み付け量が0.25の係数で重み付けされる。)
16kHzおよびLPC次数16でサンプリングされる信号について以降に例示的に示すように、ベクトルPについて得られた係数はスカラ値を含んでもよい。
(数21)
lsf_fit_model[5][16] = {
{679 , 10921 , 10643 , 4998 , 11223 , 6847 , 6637 , 5200 , 3347 , 3423 , 3208 , 3329 , 2785 , 2295 , 2287 , 1743},
{23735 , 14092 , 9659 , 7977 , 4125 , 3600 , 3099 , 2572 , 2695 , 2208 , 1759 , 1474 , 1262 , 1219 , 931 , 1139},
{-6548 , -2496 , -2002 , -1675 , -565 , -529 , -469 , -395 , -477 , -423 , -297 , -248 , -209 , -160 , -125 , -217},
{-10830 , 10563 , 17248 , 19032 , 11645 , 9608 , 7454 , 5045 , 5270 , 3712 , 3567 , 2433 , 2380 , 1895 , 1962 , 1801},
{-17553 , 12265 , -758 , -1524 , 3435 , -2644 , 2013 , -616 , -25 , 651 , -826 , 973 , -379 , 301 , 281 , -165}};
上述の通り、LSFの代わりに、ISFもまた、変換後の係数122としてコンバータによって提供されてもよい。重み付け量の導出は、以下の疑似コードによって示されるように、非常に類似することがある。次数NのISFは、N番目の反射係数を付加するN−1の第1係数に対して、次数N−1のLSFと同等である。それゆえ、重み付け量の導出は、LSFの重み付け量の導出と非常に密接している。重み付け量は、以下の疑似コードによって得られる。
入力:isf=元のISFベクトル
order=LPCの次数、lsfの長さ
parcorr[0]=−1番目の反射係数
parcorr[1]=−14番目の反射係数
smooth_flag=重み付け量を平滑化するフラグ
w_past=過去の重み付け量
出力
weights=計算された重み付け量
(数22)
/*Compute IHM weights*/
weights[0] = 1.f/( lsf[0] - 0 ) + 1.f/( lsf[1] - lsf[0] );
for(i=1; i<order-2; i++)
weights[i] = 1.f/( lsf[i] - lsf[i-1] ) + 1.f/( lsf[i+1] - lsf[i] );

weights[order-2] = 1.f/( lsf[order-2] - lsf[order-3] ) + 1.f/( 6400 - lsf[order-2] );
/* Fitting model*/
for(i=0; i<order-1; i++)
{
weights[i] *= (6400/PI);
weights[i] = ((float)(isf_fit_model[0][i])/(1<<12))
+ weights[i]*((float)(isf_fit_model[1][i])/(1<<14))
+ weights[i]*weights[i]*((float)(isf_fit_model[2][i])/(1<<19))
+ parcorr[0]* ((float)(isf_fit_model[3][i])/(1<<13))
+ parcorr[1] * ((float)(isf_fit_model[4][i])/(1<<10));
/* avoid too low weights and negative weights*/
if(weights[i] < 1.f/(i+1))
weights[i] = 1.f/(i+1);
}
if(smooth_flag){
for(i=0; i<order-1; i++) {
tmp = 0.75f*weights[i] * 0.25f*w_past[i];
w_past[i]=weights[i];
weights[i]=tmp;
}
}
weights[order-1]=1;
式中、周波数成分を有する入力信号のためのフィッティングモデル係数は6.4kHzまで上昇する。
(数23)
isf_fit_model[5][15] = {
{8112 , 7326 , 12119 , 6264 , 6398 , 7690 , 5676 , 4712 , 4776 , 3789 , 3059 , 2908 , 2862 , 3266 , 2740},
{16517 , 13269 , 7121 , 7291 , 4981 , 3107 , 3031 , 2493 , 2000 , 1815 , 1747 , 1477 , 1152 , 761 , 728},
{-4481 , -2819 , -1509 , -1578 , -1065 , -378 , -519 , -416 , -300 , -288 , -323 , -242 , -187 , -7 , -45},
{-7787 , 5365 , 12879 , 14908 , 12116 , 8166 , 7215 , 6354 , 4981 , 5116 , 4734 , 4435 , 4901 , 4433 , 5088},
{-11794 , 9971 , -3548 , 1408 , 1108 , -2119 , 2616 , -1814 , 1607 , -714 , 855 , 279 , 52 , 972 , -416}};
式中、周波数成分を有する入力信号のためのフィッティングモデル係数は、4kHzまで上昇し、4kHzから6.4kHzまで上昇する周波数成分に対してエネルギーがゼロである。
(数24)
isf_fit_model [5][15] = {
{21229 , -746 , 11940 , 205 , 3352 , 5645 , 3765 , 3275 , 3513 , 2982 , 4812 , 4410 , 1036 , -6623 , 6103},
{15704 , 12323 , 7411 , 7416 , 5391 , 3658 , 3578 , 3027 , 2624 , 2086 , 1686 , 1501 , 2294 , 9648 , -6401},
{-4198 , -2228 , -1598 , -1481 , -917 , -538 , -659 , -529 , -486 , -295 , -221 , -174 , -84 , -11874 , 27397},
{-29198 , 25427 , 13679 , 26389 , 16548 , 9738 , 8116 , 6058 , 3812 , 4181 , 2296 , 2357 , 4220 , 2977 , -71},
{-16320 , 15452 , -5600 , 3390 , 589 , -2398 , 2453 , -1999 , 1351 , -1853 , 1628 , -1404 , 113 , -765 , -359}};
基本的には、両方の疑似コードのブロック/*compute IHN weights */と比較した場合に見られるISFの次数が変更される。
図8は、オーディオ信号を符号化する方法800の概略的なフローチャートを示している。方法800はステップ802を含み、ここで、オーディオ信号が分析され、分析予測係数がオーディオ信号から判定される。方法800はステップ804をさらに含み、ここで、変換後の予測係数が分析予測係数から導出される。ステップ806では、多数の補正値が、例えばメモリ160などのメモリに記憶される。ステップ808では、補正後の重み付け係数を取得するために、変換後の予測係数と多数の補正値とが結合される。ステップ812では、変換後の予測係数の量子化表現を取得するために、補正後の重み付け係数を使用して変換後の予測係数が量子化される。ステップ814では、変換後の予測係数の表現とオーディオ信号とに基づいて出力信号が形成される。
換言すれば、本発明は、複雑性の低い発見的なアルゴリズムを使用して、最適重み付け量wを導出する新規の効率的な方法を提案する。IHMの重み付け量に対する最適化は、低周波においてはより少ない歪みをもたらす一方で、高周波にはより多くの歪みを与え、全体的な歪みを聞きとりにくくすることを示している。このような最適化は、[1]で提案された重み付け量をまず計算し、その後に、この重み付け量を、G.718の手法[3]を使用して取得された重み付け量と非常に近接にするように変更することで達成される。第2段階は、修正されたIHMの重み付け量とG.718の重み付け量との間の平均ユークリッド距離を最小化することによって、訓練過程中の単純な二次多項式モデルで構成される。簡略化されたIHMの重み付け量とG.718の重み付け量との関係は、(おそらく単純な)多項式関数によってモデル化される。
いくつかの態様を装置の文脈で説明してきたが、これらの態様はまた、ブロックまたは装置が、方法ステップまたは方法ステップの特徴に対応する方法の説明を表していることは明らかである。同様に、方法ステップの文脈で説明した態様はまた、対応する装置の対応するブロックまたは項目あるいは機能の説明を表している。
本発明の符号化されたオーディオ信号を、デジタル記憶媒体に記憶させることができ、または、無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体上で伝送することができる。
特定の実施要件に応じて、本発明の実施形態を、ハードウェアまたはソフトウェアで実施することができる。例えば、電子的に読み取り可能な制御信号を格納して有するフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリなどのデジタル記憶媒体を使用して実装することができ、これらは、それぞれの方法を行うように、プログラム可能なコンピュータシステムと協働する(または協働することができる)。
本発明のいくつかの実施形態は、電子的に読み取り可能な制御信号を有するデータキャリアを含み、このデータキャリアは、本明細書に記載のいずれかの方法を行うことができるように、プログラム可能なコンピュータシステムと協働することが可能である。
一般的には、プログラムコードを有するコンピュータプログラム製品として、本発明の実施形態を実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行される場合に、いずれかの方法を行うように作動する。プログラムコードは、例えば機械可読キャリアに記憶されてもよい。
他の実施形態は、機械可読キャリアに記憶された、本明細書に記載のいずれかの方法を行うコンピュータプログラムを含む。
したがって、換言すれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行される場合に、本明細書に記載のいずれかの方法を行うプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載のいずれかの方法を行うコンピュータプログラムが記録されたデータキャリア(またはデジタル記憶媒体、あるいはコンピュータ可読媒体)である。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載のいずれかの方法を行うコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えばインターネットなどのデータ通信接続を介して転送されるように構成されてもよい。
さらなる実施形態は、本明細書に記載のいずれかの方法を行うように構成または適合された、例えばコンピュータ、またはプログラム可能な論理デバイスなどの処理手段を含む。
さらなる実施形態は、本明細書に記載のいずれかの方法を行うコンピュータプログラムがインストールされたコンピュータを含む。
いくつかの実施形態では、本明細書に記載の方法の一部または全ての機能を実行するために、プログラム可能な論理デバイス(例えばフィールドプログラマブルゲートアレイ)を使用してもよい。いくつかの実施形態では、本明細書に記載のいずれかの方法を行うために、フィールドプログラマブルゲートアレイは、マイクロプロセッサと協働することができる。一般的には、これらの方法は、任意のハードウェア装置によって行われるのが好ましい。
上述の実施形態は、本発明の原理の例示に過ぎない。本明細書に記載の構成および詳細の改変および変更は、当業者には明らかであろうことが理解される。したがって、本明細書の実施形態の記述および説明によって提示される特定の詳細によって限定されるものではなく、間近の特許請求の範囲によって限定されるものである。
[文献]
[1]Laroia,R.、Phamdo,N.、Farvardin,N.著、「Robust and efficient quantization of speech LSP parameters using structured vector quantizers」、1991年音響・音声・信号処理に関する国際会議、1991.ICASSP−91、1991年4月14日〜17日、第1巻、p.641−644
[2]Gardner,William R.、Rao,B.D.著、「Theoretical analysis of the high−rate vector quantization of LPC parameters」Speech and Audio Processing、IEEE Transactions、1995年9月、第3巻、第5号、p.367−381
[3]電気通信標準化部門(ITU−T)G.718勧告、「Frame error robust narrow−band and wideband embedded variable bit−rate coding of speech and audio from 8−32 kbit/s」、2008年6月、セクション6.8.2.4、「ISF weighting function for frame−end ISF quantization」

Claims (14)

  1. オーディオ信号(102)を符号化するエンコーダ(100)であって、前記エンコーダ(100)は、
    前記オーディオ信号(102)を分析して、前記オーディオ信号(102)から分析予測係数(112)を判定するように構成されたアナライザ(100)と、
    前記分析予測係数(112)から変換後の予測係数(122;122’)を導出するように構成されたコンバータ(120)と、
    多数の補正値(162)を記憶するように構成されたメモリ(160)と、
    計算器(130;130’)とを備え、前記計算器(130;130’)は、
    スペクトル重み付け係数(142;142’)を取得するために、前記変換後の予測係数(122;122’)を処理するように構成されたプロセッサ(140;140’)と、
    補正後の重み付け係数(152;152’)を取得するために、前記スペクトル重み付け係数(142;142’)と前記多数の補正値(162;a,b,c)とを結合するように構成された結合器(150;150’)と、
    前記変換後の予測係数(122;122’)の量子化表現(172)を取得するために、前記補正後の重み付け係数(152;152’)を使用して前記変換後の予測係数(122;122’)を量子化するように構成された量子化器(170)とを備え、
    前記エンコーダ(100)は、
    前記変換後の予測係数(122)の前記量子化表現(172)と、前記オーディオ信号(102)とに基づいて、出力信号(182)を形成するように構成されたビットストリーム形成器(180)を備え、
    前記結合器(150;150’)は、以下の数式
    (数1)
    w=a+bx+cx
    (式中、wは取得された補正後の重み付け係数を示し、xは前記スペクトル重み付け係数を示し、a、bおよびcは補正値を示す)
    に基づく多項式を適用するように構成される、エンコーダ。
  2. 前記結合器(150’)は、前記補正後の重み付け係数(152’)を取得するために、前記スペクトル重み付け係数(142;142’)と、前記多数の補正値(162;a,b,c)と、前記オーディオ信号(102)に関連するさらなる情報(114)とを結合するように構成される、請求項1に記載のエンコーダ。
  3. 前記オーディオ信号(102)に関連する前記さらなる情報(114)は、前記アナライザ(110)によって取得された反射係数を含むか、あるいは、前記オーディオ信号(102)のパワースペクトルに関連する情報を含む、請求項2に記載のエンコーダ。
  4. 前記アナライザ(110)は、線形予測係数(LPC)を判定するように構成され、前記コンバータ(120)は、前記線形予測係数(LPC)から線スペクトル周波数(LSF;122’)またはイミタンススペクトル周波数(ISF)を導出するように構成される、請求項1〜3のいずれか1項に記載のエンコーダ。
  5. 前記結合器(150;150’)は、前記補正後の重み付け係数(152;152’)を周期的に、1周期ごとに取得するように構成され、
    前記計算器(130’)は、前回の周期に対して取得された第1の量子化後の重み付け係数(152’’’)と、前記前回の周期に続く周期に対して取得された第2の量子化後の重み付け係数(152’)とを重み付け結合して、前記第1(152’’’)および前記第2(152’)の量子化後の重み付け係数の値の間の値を含む、平滑化された補正後の重み付け係数(152’’)を取得するように構成された平滑器(155)をさらに備える、請求項1〜4のいずれか1項に記載のエンコーダ。
  6. 前記多数の補正値(162;a,b,c)は、事前計算後の重み付け量(LSF;142’’)から導出され、前記事前計算後の重み付け量(LSF;142’’)を判定するための計算量は、前記スペクトル重み付け係数(142;142’)を判定するための計算量よりも多い、請求項1〜5のいずれか1項に記載のエンコーダ。
  7. 前記プロセッサ(140;140’)は、逆調和平均によって前記スペクトル重み付け係数(142;142’)を取得するように構成される、請求項1〜6のいずれか1項に記載のエンコーダ。
  8. 前記プロセッサ(140;140’)は、以下の数式
    Figure 0006272619
    (式中、wは添字iを含む判定された重み付け量を示し、lsfは添字iを含む線スペクトル周波数を示し、前記添字iは、取得されたスペクトル重み付け係数(142;142’)の数に対応する)
    に基づいて前記スペクトル重み付け係数(142;142’)を取得するように構成される、請求項1〜7のいずれか1項に記載のエンコーダ。
  9. オーディオ伝送システム(600)であって、
    請求項1〜8のいずれか1項に記載のエンコーダ(100)と、
    前記エンコーダの前記出力信号(182)または導出された信号を受信し、かつ、合成後のオーディオ信号(102’)を供給するために前記出力信号(182)または導出された信号の受信信号を復号化するように構成されたデコーダ(602)とを備え、
    前記エンコーダ(100)は、伝送媒体(604)にアクセスして、前記伝送媒体(604)を介して前記出力信号(182)を伝送するように構成される、オーディオ伝送システム。
  10. 各重み付け係数がオーディオ信号(102)の一部(LSF;ISF)を重み付けするのに適した第1の多数の(IHM)第1重み付け係数(142;142’)に対する補正値(162;a,b,c)を判定する方法であって、前記方法(700)は、
    1組のオーディオ信号のオーディオ信号ごとに、第1判定ルールに基づいて前記第1の多数の(IHM)第1重み付け係数(142;142’)を算出するステップと、
    前記1組のオーディオ信号のオーディオ信号ごとに、第2判定ルールに基づいて第2の多数の第2重み付け係数(142’’)を算出するステップであって、前記第2の多数の重み付け係数(142’’)の各々は、第1重み付け係数(142;142’)に関連している、算出するステップと、
    各距離値(d)が、前記オーディオ信号(102)の一部に関連する第1重み付け係数(142;142’)と第2重み付け係数(142’’)との間の距離に関連した値を有する、第3の多数の距離値(d)を算出するステップと、
    前記第1重み付け係数(142;142’)と結合された場合に、前記距離値(d)を低減するのに適した第4の多数の補正値を算出するステップであって、
    前記第4の多数の補正値は、前記第1重み付け係数(142;142’)の値を、多項式の項を適合させるための少なくとも1つの変数を含む多項式(y=a+bx+cx)で乗算するステップを含む多項式フィッティングに基づいて判定される、算出するステップとを含む、方法。
  11. 前記第4の多数の補正値は、多項式フィッティングに基づいて判定され、
    前記第1重み付け係数(142;142’)の値を、前記多項式の項を適合させるための少なくとも1つの変数を含む多項式(y=a+bx+cx)で乗算するステップと、
    前記第3の多数の距離値(d)が以下の式
    Figure 0006272619
    Figure 0006272619
    (式中、dは、前記オーディオ信号のi番目の部分の距離値を示し、Pは、以下の式
    Figure 0006272619
    に基づく数式を含むベクトルを示し、EIは、以下の式
    Figure 0006272619
    に基づく行列を示し、
    x,iは、前記オーディオ信号(102)のx番目の部分について前記第1判定ルール(IHM)に基づいて判定されるi番目の重み付け係数(142;142’)を示す)に基づく閾値を下回る値を含むように、前記変数に対する値を算出するステップとを含む、請求項10に記載の方法。
  12. 前記第3の多数の距離値(d)は、反射係数、または、以下の式
    Figure 0006272619
    (式中、Ix,iは、前記オーディオ信号(102)のx番目の部分について前記第1判定ルール(IHM)に基づいて判定されるi番目の重み付け係数(142;142’)を示し、ra,bは、b番目の重み付け係数(142;142’)と、前記オーディオ信号(102)のx番目の部分とに基づくさらなる情報(114)を示す)
    に基づく、前記1組のオーディオ信号(102)のうち少なくとも一方のパワースペクトルに関連する情報を含む前記さらなる情報(114)に基づいて算出される、請求項10または11に記載の方法。
  13. オーディオ信号を符号化する方法(800)であって、前記方法は、
    前記オーディオ信号(102)を分析(802)して、前記オーディオ信号(102)から分析予測係数(112)を判定するステップと、
    前記分析予測係数(112)から変換後の予測係数(122;122’)を導出するステップ(804)と、
    多数の補正値(162;a〜d)を記憶すること(806)と、
    補正後の重み付け係数(152;152’)を取得するために、前記変換後の予測係数(122;122’)と前記多数の補正値(162;a〜d)とを結合するステップ(808)であって、
    以下の数式
    (数8)
    w=a+bx+cx
    (式中、wは取得された補正後の重み付け係数を示し、xはスペクトル重み付け係数を示し、a、bおよびcは補正値を示す)に基づく多項式を適用するステップを含む、結合するステップ(808)と、
    前記変換後の予測係数(122;122’)の量子化表現(172)を取得するために、前記補正後の重み付け係数(152;152’)を使用して前記変換後の予測係数(122;122’)を量子化するステップ(812)と、
    前記変換後の予測係数(122)の表現(172)と、前記オーディオ信号(102)とに基づいて、出力信号(182)を形成するステップ(814)とを含む、方法。
  14. コンピュータ上で動作している場合に、請求項10〜13のいずれか1項に記載の方法を行うためのプログラムコードを有するコンピュータプログラム。
JP2016526934A 2013-11-13 2014-11-06 オーディオ信号の符号化用エンコーダ、オーディオ伝送システムおよび補正値の判定方法 Active JP6272619B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13192735 2013-11-13
EP13192735.2 2013-11-13
EP14178815 2014-07-28
EP14178815.8 2014-07-28
PCT/EP2014/073960 WO2015071173A1 (en) 2013-11-13 2014-11-06 Encoder for encoding an audio signal, audio transmission system and method for determining correction values

Publications (2)

Publication Number Publication Date
JP2017501430A JP2017501430A (ja) 2017-01-12
JP6272619B2 true JP6272619B2 (ja) 2018-01-31

Family

ID=51903884

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016526934A Active JP6272619B2 (ja) 2013-11-13 2014-11-06 オーディオ信号の符号化用エンコーダ、オーディオ伝送システムおよび補正値の判定方法

Country Status (16)

Country Link
US (4) US9818420B2 (ja)
EP (2) EP3483881B1 (ja)
JP (1) JP6272619B2 (ja)
KR (1) KR101831088B1 (ja)
CN (2) CN111179953B (ja)
AU (1) AU2014350366B2 (ja)
BR (1) BR112016010197B1 (ja)
CA (1) CA2928882C (ja)
ES (1) ES2716652T3 (ja)
MX (1) MX356164B (ja)
PL (1) PL3069338T3 (ja)
PT (1) PT3069338T (ja)
RU (1) RU2643646C2 (ja)
TW (1) TWI571867B (ja)
WO (1) WO2015071173A1 (ja)
ZA (1) ZA201603823B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7049234B2 (ja) 2018-11-15 2022-04-06 本田技研工業株式会社 ハイブリッド飛行体

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102623012B (zh) 2011-01-26 2014-08-20 华为技术有限公司 矢量联合编解码方法及编解码器
PL3069338T3 (pl) * 2013-11-13 2019-06-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Koder do kodowania sygnału audio, system przesyłania audio i sposób określania wartości korekcji
US9978381B2 (en) * 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
KR20190069192A (ko) 2017-12-11 2019-06-19 한국전자통신연구원 오디오 신호의 채널 파라미터 예측 방법 및 장치
US11532316B2 (en) * 2017-12-19 2022-12-20 Dolby International Ab Methods and apparatus systems for unified speech and audio decoding improvements
CN114734436B (zh) * 2022-03-24 2023-12-22 苏州艾利特机器人有限公司 一种机器人的编码器校准方法、装置及机器人
WO2024167252A1 (ko) * 2023-02-09 2024-08-15 한국전자통신연구원 오디오 신호 코딩 방법 및 이를 수행하는 장치

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE467806B (sv) 1991-01-14 1992-09-14 Ericsson Telefon Ab L M Metod att kvantisera linjespektralfrekvenser (lsf) vid beraekning av parametrar foer ett analysfilter ingaaende i en talkodare
JPH0764599A (ja) * 1993-08-24 1995-03-10 Hitachi Ltd 線スペクトル対パラメータのベクトル量子化方法とクラスタリング方法および音声符号化方法並びにそれらの装置
JP3273455B2 (ja) 1994-10-07 2002-04-08 日本電信電話株式会社 ベクトル量子化方法及びその復号化器
US6098037A (en) * 1998-05-19 2000-08-01 Texas Instruments Incorporated Formant weighted vector quantization of LPC excitation harmonic spectral amplitudes
DE19947877C2 (de) 1999-10-05 2001-09-13 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Einbringen von Informationen in einen Datenstrom sowie Verfahren und Vorrichtung zum Codieren eines Audiosignals
CA2429832C (en) * 2000-11-30 2011-05-17 Matsushita Electric Industrial Co., Ltd. Lpc vector quantization apparatus
ATE520121T1 (de) 2006-02-22 2011-08-15 France Telecom Verbesserte celp kodierung oder dekodierung eines digitalen audiosignals
DE102006051673A1 (de) 2006-11-02 2008-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
KR101412255B1 (ko) 2006-12-13 2014-08-14 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 부호화 장치, 복호 장치 및 이들의 방법
RU2464650C2 (ru) * 2006-12-13 2012-10-20 Панасоник Корпорэйшн Устройство и способ кодирования, устройство и способ декодирования
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
KR101392546B1 (ko) 2008-09-11 2014-05-08 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 마이크로폰 신호를 기반으로 공간 큐의 세트를 제공하는 장치, 방법 및 컴퓨터 프로그램과, 2채널 오디오 신호 및 공간 큐의 세트를 제공하는 장치
US8023660B2 (en) 2008-09-11 2011-09-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
US20100191534A1 (en) * 2009-01-23 2010-07-29 Qualcomm Incorporated Method and apparatus for compression or decompression of digital signals
US8428938B2 (en) * 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
KR100963219B1 (ko) 2009-09-09 2010-06-10 민 우 전 연결부재를 이용한 관 연결공법
CA2777073C (en) * 2009-10-08 2015-11-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping
BR112012009490B1 (pt) * 2009-10-20 2020-12-01 Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados
WO2011048117A1 (en) * 2009-10-20 2011-04-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
US8600737B2 (en) 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
FR2961980A1 (fr) * 2010-06-24 2011-12-30 France Telecom Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique
WO2012004349A1 (en) * 2010-07-08 2012-01-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Coder using forward aliasing cancellation
KR101747917B1 (ko) * 2010-10-18 2017-06-15 삼성전자주식회사 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
TWI488176B (zh) * 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
PL2676264T3 (pl) * 2011-02-14 2015-06-30 Fraunhofer Ges Forschung Koder audio estymujący szum tła podczas faz aktywnych
MY185091A (en) * 2011-04-21 2021-04-30 Samsung Electronics Co Ltd Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
US9115883B1 (en) 2012-07-18 2015-08-25 C-M Glo, Llc Variable length lamp
ES2714289T3 (es) * 2013-01-29 2019-05-28 Fraunhofer Ges Forschung Llenado con ruido en la codificación de audio por transformada perceptual
CN104517611B (zh) * 2013-09-26 2016-05-25 华为技术有限公司 一种高频激励信号预测方法及装置
PL3069338T3 (pl) * 2013-11-13 2019-06-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Koder do kodowania sygnału audio, system przesyłania audio i sposób określania wartości korekcji

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7049234B2 (ja) 2018-11-15 2022-04-06 本田技研工業株式会社 ハイブリッド飛行体

Also Published As

Publication number Publication date
US10354666B2 (en) 2019-07-16
AU2014350366B2 (en) 2017-02-23
EP3069338A1 (en) 2016-09-21
EP3483881B1 (en) 2024-10-02
CA2928882A1 (en) 2015-05-21
TW201523594A (zh) 2015-06-16
RU2643646C2 (ru) 2018-02-02
US9818420B2 (en) 2017-11-14
WO2015071173A1 (en) 2015-05-21
US20180047403A1 (en) 2018-02-15
ZA201603823B (en) 2017-11-29
RU2016122865A (ru) 2017-12-18
AU2014350366A1 (en) 2016-05-26
US10229693B2 (en) 2019-03-12
KR101831088B1 (ko) 2018-02-21
BR112016010197B1 (pt) 2021-12-21
PL3069338T3 (pl) 2019-06-28
KR20160079110A (ko) 2016-07-05
CN111179953B (zh) 2023-09-26
CA2928882C (en) 2018-08-14
MX356164B (es) 2018-05-16
US20170309284A1 (en) 2017-10-26
US10720172B2 (en) 2020-07-21
CN105723455A (zh) 2016-06-29
US20160247516A1 (en) 2016-08-25
MX2016006208A (es) 2016-09-13
US20190189142A1 (en) 2019-06-20
ES2716652T3 (es) 2019-06-13
PT3069338T (pt) 2019-03-26
CN111179953A (zh) 2020-05-19
EP3483881A1 (en) 2019-05-15
TWI571867B (zh) 2017-02-21
EP3069338B1 (en) 2018-12-19
BR112016010197A2 (pt) 2017-08-08
JP2017501430A (ja) 2017-01-12
CN105723455B (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
JP6272619B2 (ja) オーディオ信号の符号化用エンコーダ、オーディオ伝送システムおよび補正値の判定方法
JP5356406B2 (ja) オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法
US8670981B2 (en) Speech encoding and decoding utilizing line spectral frequency interpolation
US11011181B2 (en) Audio encoding/decoding based on an efficient representation of auto-regressive coefficients
AU2014336357B2 (en) Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
JPH11143498A (ja) Lpc係数のベクトル量子化方法
WO2014198726A1 (en) Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170718

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171229

R150 Certificate of patent or registration of utility model

Ref document number: 6272619

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250