JP6726785B2 - ビット割り当て装置 - Google Patents

ビット割り当て装置 Download PDF

Info

Publication number
JP6726785B2
JP6726785B2 JP2019079583A JP2019079583A JP6726785B2 JP 6726785 B2 JP6726785 B2 JP 6726785B2 JP 2019079583 A JP2019079583 A JP 2019079583A JP 2019079583 A JP2019079583 A JP 2019079583A JP 6726785 B2 JP6726785 B2 JP 6726785B2
Authority
JP
Japan
Prior art keywords
bits
unit
subband
spectrum
allocated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019079583A
Other languages
English (en)
Other versions
JP2019168699A (ja
Inventor
キム,ミ−ヨン
ポロフ,アントン
オ,ウン−ミ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2019168699A publication Critical patent/JP2019168699A/ja
Application granted granted Critical
Publication of JP6726785B2 publication Critical patent/JP6726785B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

本発明は、オーディオ符号化/復号化に係り、さらに具体的には、知覚的に重要な周波数領域にサブバンド単位で効率的にビットを割り当てる方法、オーディオ符号化方法及び装置、オーディオ復号化方法及び装置、記録媒体とこれを採用するマルチメディア機器に関する。
オーディオ信号を符号化または復号化する場合、限定されたビットを効率的に用いることで、該ビット範囲で最上の音質を持つオーディオ信号を復元することが求められる。特に、低いビット率では特定周波数領域にビットが集中せず、知覚的に重要な周波数領域にビットが均一に割り当てられるようにオーディオ信号を符号化及び復号化する技術を必要とする。
本発明が解決しようとする課題は、知覚的に重要な周波数領域にサブバンド単位で効率的にビットを割り当てる方法及び装置、オーディオ符号化方法及び装置、オーディオ復号化方法及び装置、記録媒体とこれを採用するマルチメディア機器を提供することである。
本発明が解決しようとする他の課題は、知覚的に重要な周波数領域に低い複雑度でサブバンド単位で効率的にビットを割り当てる方法及び装置、オーディオ符号化方法及び装置、オーディオ復号化方法及び装置、記録媒体とこれを採用するマルチメディア機器を提供することである。
前記課題を解決するための本発明の一実施形態によるビット割り当て方法は、与えられたフレームに対して使用可能なビット数範囲内で、所定の周波数バンドに存在するスペクトルのSNRを最大化させるように、前記周波数バンド単位で割り当てビット数を小数点単位で定める段階と、前記周波数バンド単位で定められた割り当てビット数を調整する段階と、を含む。
前記課題を解決するための本発明の一実施形態によるビット割り当て装置は、時間ドメインのオーディオ信号を周波数ドメインのオーディオスペクトルに変換する変換部と、前記オーディオスペクトルで与えられたフレームに含まれた周波数バンド単位で、マスキングしきい値を用いて許容ビット数を小数点単位で推定し、スペクトルエネルギーを用いて割り当てビット数を小数点単位で推定し、前記割り当てビット数が前記許容ビット数を超えないように調整するビット割り当て部と、を備える。
前記課題を解決するための本発明の一実施形態によるオーディオ符号化装置は、時間ドメインのオーディオ信号を周波数ドメインのオーディオスペクトルに変換する変換部と、前記オーディオスペクトルで与えられたフレームに対して使用可能なビット数範囲内で、所定の周波数バンドに存在するスペクトルのSNRを最大化させるように前記周波数バンド単位で割り当てビット数を小数点単位で定め、前記周波数バンド単位で定められた割り当てビット数を調整するビット割り当て部と、前記周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いて前記オーディオスペクトルを符号化する符号化部と、を備える。
前記課題を解決するための本発明の一実施形態によるオーディオ符号化装置は、時間ドメインのオーディオ信号を周波数ドメインのオーディオスペクトルに変換する変換部と、前記オーディオスペクトルで与えられたフレームに含まれた周波数バンド単位で、マスキングしきい値を用いて許容ビット数を小数点単位で推定し、スペクトルエネルギーを用いて割り当てビット数を小数点単位で推定し、前記割り当てビット数が前記許容ビット数を超えないように調整するビット割り当て部と、前記周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いて前記オーディオスペクトルを符号化する符号化部と、を備える。
前記課題を解決するための本発明の一実施形態によるオーディオ復号化装置は、与えられたフレームに対して使用可能なビット数範囲内で、各周波数バンドに存在するスペクトルのSNRを最大化させるように、前記周波数バンド単位で割り当てビット数を小数点単位で定め、前記周波数バンド単位で定められた割り当てビット数を調整するビット割り当て部と、前記周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いてビットストリームに含まれたオーディオスペクトルを復号化する復号化部と、前記復号化されたオーディオスペクトルを時間ドメインのオーディオ信号に変換する逆変換部と、を備える。
前記課題を解決するための本発明の一実施形態によるオーディオ復号化装置は、与えられたフレームに含まれた周波数バンド単位で、マスキングしきい値を用いて許容ビット数を小数点単位で推定し、スペクトルエネルギーを用いて割り当てビット数を小数点単位で推定し、前記割り当てビット数が前記許容ビット数を超えないように調整するビット割り当て部と、前記周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いてビットストリームに含まれたオーディオスペクトルを復号化する復号化部と、前記復号化されたオーディオスペクトルを時間ドメインのオーディオ信号に変換する逆変換部と、を備える。
本発明によれば、知覚的なモデリングを用いてサブバンド単位で小数点単位の最大許容ビット数を計算し、最大許容ビット数を超えないように制限して他のサブバンドに割り当てられるように調節する。その結果、特定サブバンドに必要以上にビットを使わないように他のサブバンドにビットを再分配することで、さらに効率的なビット割り当てになるようにする。また、サブバンド単位で必要なビット数を数式的に推定することで、低い複雑度で具現でき、小数点単位のビット割り当てが可能になってサブバンド単位で必要とする最適のビットを求める。
本発明の一実施形態によるオーディオ符号化装置の構成を示すブロック図である。 図1において、本発明の一実施形態によるビット割り当て部の構成を示すブロック図である。 図1において、本発明の他の実施形態によるビット割り当て部の構成を示すブロック図である。 図1において、本発明の他の実施形態によるビット割り当て部の構成を示すブロック図である。 図1において、本発明の一実施形態による符号化部の構成を示すブロック図である。 本発明の他の実施形態によるオーディオ符号化装置の構成を示すブロック図である。 本発明の一実施形態によるオーディオ復号化装置の構成を示すブロック図である。 図7において、本発明の一実施形態によるビット割り当て部の構成を示すブロック図である。 図7において、本発明の一実施形態による復号化部の構成を示すブロック図である。 図7において、本発明の他の実施形態による復号化部の構成を示すブロック図である。 図7において、本発明の他の実施形態による復号化部の構成を示すブロック図である。 本発明の他の実施形態によるオーディオ復号化装置の構成を示すブロック図である。 本発明の他の実施形態によるオーディオ復号化装置の構成を示すブロック図である。 本発明の一実施形態によるビット割り当て方法の動作を説明するフローチャートである。 本発明の他の実施形態によるビット割り当て方法の動作を説明するフローチャートである。 本発明の他の実施形態によるビット割り当て方法の動作を説明するフローチャートである。 本発明の他の実施形態によるビット割り当て方法の動作を説明するフローチャートである。 本発明の一実施形態による符号化モジュールを備えるマルチメディア機器の構成を示すブロック図である。 本発明の一実施形態による復号化モジュールを備えるマルチメディア機器の構成を示すブロック図である。 本発明の一実施形態による符号化モジュール及び復号化モジュールを備えるマルチメディア機器の構成を示すブロック図である。
本発明は、多様な変換を加えられ、かつ様々な実施形態を持つことができるところ、特定の実施形態を図面に例示して詳細な説明に具体的に説明しようとする。しかし、これは本発明を特定の実施形態について限定しようとするものではなく、本発明の技術的思想及び技術範囲に含まれるすべての変換、均等物ないし代替物を含むと理解できる。本発明を説明するにあたって、かかる公知技術についての具体的な説明が本発明の趣旨を不明にすると判断される場合、その詳細な説明を略する。
第1、第2などの用語は、多様な構成要素の説明に使われるが、構成要素が用語によって限定されるものではない。用語は、一つの構成要素を他の構成要素から区別する目的のみで使われる。
本発明で使った用語は、単に特定の実施形態を説明するために使われたものであり、本発明を限定しようとする意図ではない。本発明で使った用語は、本発明での機能を考慮してなるべく現在広く使われる一般的な用語を選択したが、これは当業者の意図、判例、または新たな技術の出現などによって変わりうる。また、特定の場合には出願人が任意に選定した用語もあり、この場合、該発明の説明部分で詳細にその意味を記載する。したがって、本発明で使われる用語は単純な用語の名称ではない、その用語が持つ意味及び本発明の全般的な内容に基づいて定義されねばならない。
単数の表現は、文脈上明らかに断らない限り、複数の表現を含む。本発明で、“含む”または“持つ”などの用語は、明細書上に記載の特徴、数字、段階、動作、構成要素、部品またはこれらを組み合わせたものの存在を指定しようとするものであり、一つまたはそれ以上の他の特徴や数字、段階、動作、構成要素、部品またはこれらを組み合わせたものなどの存在または付加可能性を予め排除しないと理解されねばならない。
以下、本発明の実施形態を添付図面を参照して詳細に説明し、添付図面を参照して説明するにあたって、同一または対応する構成要素には同じ図面番号をつけ、これについていの重なる説明は略する。
図1は、本発明の一実施形態によるオーディオ符号化装置100の構成を示すブロック図である。図1に示されたオーディオ符号化装置100は、変換部130、ビット割り当て部150、符号化部170及び多重化部190を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ(図示せず)に具現される。ここで、オーディオは、オーディオあるいは音声、またはオーディオと音声との混合信号を意味するが、以下では、説明の便宜のためにオーディオと通称する。
図1を参照すれば、変換部130は、時間ドメインのオーディオ信号を周波数ドメインに変換してオーディオスペクトルを生成する。この時、時間/周波数ドメイン変換は、DCTなどの公知の多様な方法を使って行う。
ビット割り当て部150は、オーディオスペクトルについてスペクトルエネルギーあるいは心理音響モデルを用いて得られるマスキングしきい値と、スペクトルエネルギーを用いて各サブバンド単位で割り当てビット数とを定める。ここで、サブバンドは、オーディオスペクトルのサンプルをグルーピングした単位であり、しきい帯域を反映して均一あるいは不均一な長さを持つ。不均一な場合、1フレームについて最初のサンプルから最後のサンプルに至るまでサブバンドに含まれるサンプルの数が段々増加するようにサブバンドを設定する。ここで、1フレームに含まれるサブバンドの数あるいはサブバンドに含まれるサンプルの数は既定のものでありうる。または、1フレームについて所定数の均一長さのサブバンドに分けた後、スペクトル係数の分布によって長さを調整する。スペクトル係数の分布は、スペクトル平坦度、最大値と最小値との差あるいは最大値の微分値などを用いて定める。
一実施形態によれば、ビット割り当て部150は、各サブバンド単位で求められたNorm値、すなわち、平均スペクトルエネルギーを用いて許容ビット数を推定し、平均スペクトルエネルギーを用いてビットを割り当て、割り当てビット数が許容ビット数を超えないように制限する。
他の実施形態によれば、ビット割り当て部150は、各サブバンド単位で心理音響モデルを用いて許容ビット数を推定し、平均スペクトルエネルギーを用いてビットを割り当て、割り当てビット数が許容ビット数を超えないように制限する。
符号化部170は、各サブバンド単位で最終的に定められた割り当てビット数に基づいてオーディオスペクトルを量子化及び無損失符号化し、符号化されたスペクトルに関する情報を生成する。
多重化部190は、ビット割り当て部150から提供される符号化されたNorm値と、符号化部170に提供される符号化されたスペクトルに関する情報とを多重化してビットストリームを生成する。
一方、オーディオ符号化装置100は、オプションで与えられたサブバンドについてノイズレベルを生成し、オーディオ復号化装置700(図7)、1200(図12)、1300(図13)に提供する。
図2は、図1において、本発明の一実施形態によるビット割り当て部200の構成を示すブロック図である。図2に示されたビット割り当て部200は、Norm推定部210、Norm符号化部230及びビット推定及び割り当て部250を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ(図示せず)に具現される。
図2を参照すれば、Norm推定部210は、各サブバンド単位で平均スペクトルエネルギーに該当するNorm値を求める。この時、一例として、ITU−T G.719で適用される下記の数式(1)のようにNorm値を計算できるが、これに限定されるものではない。

ここで、1フレームにP個のサブバンドあるいはサブベクトルが存在する場合、N(p)は、サブバンドあるいはサブベクトルpのNorm値、Lは、サブバンドあるいはサブベクトルpの長さ、すなわち、サンプルあるいはスペクトル係数の数、s及びeは、サブバンドpの最初及び最後のサンプル、y(k)は、サンプルのサイズあるいはスペクトル係数(すなわち、エネルギー)をそれぞれ意味する。
一方、各サブバンドについて求められたNorm値は、符号化部150(図1)に提供される。
Norm符号化部230は、各サブバンドについて求められたNorm値を量子化及び無損失符号化する。ここで、各サブバンド単位で量子化されたNorm値は、ビット推定及び割り当て部250に提供されるか、または各サブバンド単位で再び逆量子化されたNorm値は、ビット推定及び割り当て部250に提供される。一方、各サブバンド単位で量子化及び無損失符号化されたNorm値は、多重化部190(図1)に提供される。
ビット推定及び割り当て部250は、各サブバンド単位で、Norm値を用いて必要とするビット数を推定して割り当てる。望ましくは、符号化部及び復号化部で同じビット推定及び割り当てプロセスを用いるように、逆量子化されたNorm値を使う。この時、マスキング効果を考慮して調整されたNorm値を使える。Norm値の調整には、一例として、下記の数式(2)のようにITU−T G.719で適用される心理音響加重(psycho−acoustical weighting)を用いられるが、これに限定されるものではない。

ここで、

は、サブバンドpの量子化されたNorm値のインデックス、

は、サブバンドpの調整されたNorm値のインデックス、

は、Norm値調整のためのオフセットスペクトルをそれぞれ示す。
ビット推定及び割り当て部250は、各サブバンド単位で、Norm値を用いてマスキングしきい値を計算し、マスキングしきい値を用いて知覚的に必要なビット数を予測する。このために、先ず、各サブバンドについて求められたNorm値は、下記の数式(3)のようにdB単位のスペクトルエネルギーと等価的に表現される。

一方、スペクトルエネルギーを用いてマスキングしきい値を求める方法は、公知の多様な方法を使える。すなわち、マスキングしきい値は、JND(Just Noticeable Distortion)に該当する値であり、量子化ノイズがマスキングしきい値より小さい場合、知覚的なノイズが感じられない。よって、知覚的なノイズを感じられなくするのに必要な最小ビット数を、マスキングしきい値を用いて計算する。一実施形態で、各サブバンド単位で、Norm値とマスキングしきい値との比を用いてSMR(Signal−to−Mask Ratio)を計算し、SMRについて、6.025dB≒1ビットの関係を用いてマスキングしきい値を満たすビット数を予測する。ここで、予測されたビット数は、知覚的なノイズを感じられなくするのに必要な最小ビット数であるが、圧縮側面からみれば、予測されたビット数以上に使う必要がないので、サブバンド単位で許容される最大ビット数(以下、許容ビット数と略称)と見なされる。この時、各サブバンドの許容ビット数は、小数点単位で表現される。
ビット推定及び割り当て部250は、各サブバンド単位で、Norm値を用いて小数点単位のビット割り当てを行う。この時、Norm値の大きいサブバンドから順次にビットを割り当てるが、各サブバンドのNorm値に対して各サブバンドの知覚的重要度によって加重値を付与することで、知覚的に重要なサブバンドにさらに多いビットが割り当てられるように調整する。知覚的重要度は、一例としてITU−T G.719でのような心理音響加重を通じて定める。
具体的に、ビット推定及び割り当て部250は、Norm値の大きいサブバンドから順次にサンプル別にビットを割り当てる。すなわち、優先的に最大Norm値を持つサブバンドについてサンプル当たりビットを割り当て、該サブバンドのNorm値を所定単位ほど低減させて他のサブバンドにビットを割り当てるように優先順位を変更する。このような過程は、与えられたフレームで使用可能な全体ビット数Bがいずれもなくなるまで繰り返して行われる。
ビット推定及び割り当て部250は、各サブバンドについて割り当てられたビット数が予測されたビット数、すなわち、許容ビット数を超えないように制限し、最終的に割り当てビット数を定める。すべてのサブバンドについて、割り当てられたビット数と予測されたビット数と比較して、割り当てられたビット数が予測されたビット数より大きい場合には、予測されたビット数に制限する。ビット数制限の結果で得られる、与えられたフレームの全体サブバンドのビット数が、与えられたフレームで使用可能な全体ビット数Bより少ない場合、その差に該当するビット数を全体サブバンドに均一に分配するか、あるいは知覚的重要度によって不均一に分配する。
これによれば、各サブバンドの割り当てビット数を小数点単位で定めつつ許容ビット数に制限できるため、与えられたフレームの全体ビット数をさらに効率的に配分する。
一方、各サブバンドに必要なビット数を推定及び割り当てる具体的な方法は、次の通りである。これによれば、数回の繰り返しなしに各サブバンド単位で割り当てビット数を一回に定めることができ、複雑度が低くなる。
一実施形態で、次の数式(4)に記載のLagrange functionを適用して、量子化歪曲及び各サブバンドに割り当てられるビット数を最適化できる解(solution)を求める。

ここで、Lは、Lagrange functionを称し、Dは、量子化歪曲、Bは、与えられたフレームで使用可能な全体ビット数、Nは、サブバンドbのサンプル数、Lは、サブバンドbで各サンプルに割り当てられたビット数を示す。すなわち、Nは、サブバンドbに割り当てられたビット数を示す。ここで、λは、最適化係数であるLagrange multiplierを示し、与えられた関数の最小値を探すためのコントロールパラメータである。
前記数式(4)を用いれば、量子化歪曲を考慮しつつ、与えられたフレームに含まれた各サブバンドに割り当てられたビット数の総和と、与えられたフレームについての許容ビット数との差が最小になるLを定める。
そして、量子化歪曲Dは、次の数式(5)のように定義する。

ここで、

は、入力スペクトル、

は、復号化されたスペクトルを示す。すなわち、量子化歪曲Dは、任意のフレームで入力スペクトル

及び復号化されたスペクトル

についてのMSE(Mean Square Error)と定義される。
一方、数式(5)で分母項は、与えられた入力スペクトルによって定められる一定値であり、したがって、最適化に影響しないため、次の数式(6)のように簡略化される。

入力スペクトル

について任意のサブバンドbの平均スペクトルエネルギーであるnorm値

は、次の数式(7)のように定義され、ログスケールで量子化されたnorm値

は、次の数式(8)のように定義され、逆量子化されたnorm値

は、次の数式(9)のように定義される。

ここで、s及びeは、それぞれサブバンドbの最初及び最後のサンプルを示す。
次いで、入力スペクトル

は、次の数式(10)でのように、逆量子化されたnorm値

で割って正規化されたスペクトルyを生成し、次の数式(11)のように復元された、正規化されたスペクトル

に逆量子化されたnorm値

を掛けて復号化されたスペクトル

を生成する。

前記数式(9)ないし(11)を用いて数式(6)の量子化歪曲項をまとめれば、次の数式(12)のように示す。

通常量子化歪曲と割り当てられたビット数との関係で、サンプル当たり1ビットが加えられる度にSNRが6.02dBほど増加すると定義し、これを用いて正規化されたスペクトルの量子化歪曲を定義すれば、次の数式(13)のように示す。

一方、実際オーディオコーディングに適用する場合には、1bit/sampleについて6.02dBの関係を固定せず、信号の特性によって可変されるdBスケール値Cを適用して次の数式(14)のように定義する。

ここで、Cが2である場合に6.02dB、Cが3である場合に9.03dBに該当する。
したがって、数式(6)は、数式(12)及び数式(14)から次の数式(15)のように示す。

前記数式(15)で最適のL及びλを求めるために、次の数式(16)のように、L及びλについてそれぞれ偏微分を行う。

前記数式(16)をまとめれば、Lは、次の数式(17)のように示す。

前記数式(17)を用いれば、与えられたフレームで使用可能な全体ビット数Bの範囲内で、入力スペクトルのSNRを最大化させられる各サブバンドのサンプル当たり割り当てビット数Lを推定する。
ビット推定及び割り当て部250で、各サブバンド単位で定められた割り当てビット数は、符号化部170(図1)に提供される。
図3は、図1において、本発明の他の実施形態によるビット割り当て部300の構成を示すブロック図である。図3に示されたビット割り当て部300は、心理音響モデル310、ビット推定及び割り当て部330、スケールファクタ推定部350及びスケールファクタ符号化部370を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ(図示せず)に具現される。
図3を参照すれば、心理音響モデル310は、変換部130(図1)から提供されるオーディオスペクトルを入力とし、各サブバンドについてマスキングしきい値を求める。
ビット推定及び割り当て部330は、各サブバンド単位でマスキングしきい値を用いて知覚的に必要なビット数を予測する。すなわち、各サブバンド単位でSMRを求めることができ、SMRについて6.025dB≒1ビットの関係を用いてマスキングしきい値を満たすビット数を予測する。ここで、予測されたビット数は、知覚的なノイズを感じられなくするのに必要な最小ビット数であるが、圧縮側面からみれば、予測されたビット数以上に使う必要がないので、サブバンド単位で許容される最大ビット数(以下、許容ビット数と略称)と見なされる。この時、各サブバンドの許容ビット数は、小数点単位で表現される。
ビット推定及び割り当て部330は、各サブバンド単位でスペクトルエネルギーを用いて小数点単位のビット割り当てを行う。この時、例えば、前記数式(4)ないし(17)によるビット割り当て方法を使える。
ビット推定及び割り当て部330は、すべてのサブバンドについて、割り当てられたビット数と予測されたビット数とを比較して、割り当てられたビット数が予測されたビット数より大きい場合には予測されたビット数に制限する。ビット数制限の結果で得られる、与えられたフレームの全体サブバンドのビット数が、与えられたフレームで使用可能な全体ビット数Bより少ない場合、その差に該当するビット数を全体サブバンドに均一に分配するか、あるいは知覚的重要度によって不均一に分配する。
スケールファクタ推定部350は、各サブバンド単位で最終的に定められた割り当てビット数を用いてスケールファクタを推定する。各サブバンド単位で推定されたスケールファクタは、符号化部170(図1)に提供される。
スケールファクタ符号化部370は、各サブバンド単位で推定されたスケールファクタを量子化及び無損失符号化する。サブバンド単位で符号化されたスケールファクタは、多重化部190(図1)に提供される。
図4は、図1において、本発明の他の実施形態によるビット割り当て部300の構成を示すブロック図である。図4に示されたビット割り当て部400は、Norm推定部410、ビット推定及び割り当て部430、スケールファクタ推定部450及びスケールファクタ符号化部470を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ(図示せず)に具現される。
図4を参照すれば、Norm推定部410は、各サブバンド単位で平均スペクトルエネルギーに該当するNorm値を求める。
ビット推定及び割り当て部430は、各サブバンド単位でスペクトルエネルギーを用いてマスキングしきい値を求め、マスキングしきい値を用いて知覚的に必要なビット数、すなわち、許容ビット数を予測する。
ビット推定及び割り当て部430は、各サブバンド単位で、スペクトルエネルギーを用いて小数点単位のビット割り当てを行う。この時、例えば、前記数式(4)ないし(17)によるビット割り当て方法を使える。
ビット推定及び割り当て部430は、すべてのサブバンドについて、割り当てられたビット数と予測されたビット数とを比較して、割り当てられたビット数が予測されたビット数より大きい場合には、予測されたビット数に制限する。ビット数の制限の結果で得られる、与えられたフレームの全体サブバンドの割り当てビット数が、与えられたフレームで使用可能な全体ビット数Bより少ない場合、その差に該当するビット数を全体サブバンドに均一に分配するか、あるいは知覚的重要度によって不均一に分配する。
スケールファクタ推定部450は、各サブバンド単位で最終的に定められた割り当てビット数を用いてスケールファクタを推定する。各サブバンド単位で推定されたスケールファクタは、符号化部170(図1)に提供される。
スケールファクタ符号化部470は、各サブバンド単位で推定されたスケールファクタを量子化及び無損失符号化する。サブバンド単位で符号化されたスケールファクタは多重化部190(図1)に提供される。
図5は、図1において、本発明の一実施形態による符号化部500の構成を示すブロック図である。
図5に示された符号化部500は、スペクトル正規化部510及びスペクトル符号化部530を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ(図示せず)に具現される。
図5を参照すれば、スペクトル正規化部510は、ビット割り当て部150(図1)から提供される各サブバンドのNorm値を用いてスペクトルを正規化する。
スペクトル符号化部530は、正規化されたスペクトルについて各サブバンドの割り当てビット数を用いて量子化を行い、量子化された結果について無損失符号化する。一例として、スペクトル符号化にファクトリアル・パルス・コーディング(Factorial Pulse Coding)を使えるが、これに限定されるものではない。ファクトリアル・パルス・コーディングによれば、割り当てビット数範囲内でパルスの位置、パルスのサイズ、及びパルスの符号などの情報がファクトリアル形式で表現される。
スペクトル符号化部530で符号化されたスペクトルに関する情報は、多重化部190(図1)に提供される。
図6は、本発明の他の実施形態によるオーディオ符号化装置600の構成を示すブロック図である。図6に示されたオーディオ符号化装置600は、トランジェント検出部610、変換部630、ビット割り当て部650、符号化部670及び多重化部690を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ(図示せず)に具現される。図6のオーディオ符号化装置600は、図1のオーディオ符号化装置100と比較すれば、トランジェント検出部610をさらに備える差があるので、共通の構成要素については具体的な説明を略する。
図6を参照すれば、トランジェント検出部610は、オーディオ信号を分析してトランジェント特性を示す区間を検出する。トランジェント区間の検出には、公知の多様な方法を使える。トランジェント検出部610に提供されるトランジェントシグナリング情報は、多重化部690を通じてビットストリームに含まれる。
変換部630は、トランジェント区間検出結果によって、変換に使われるウィンドウサイズを定め、定められたウィンドウサイズに基づいて時間/周波数ドメイン変換を行う。一例として、トランジェント区間が検出されたサブバンドの場合に短区間ウィンドウ(short window)を、検出されていないサブバンドの場合に長区間ウィンドウ(long window)を適用する。
ビット割り当て部650は、図2ないし図4に示されたビット割り当て部200、300、400のうちいずれか一つに具現される。
符号化部670は、トランジェント区間検出結果によって、変換部630と同様に符号化に使われるウィンドウサイズを定める。
一方、オーディオ符号化装置600は、オプションで与えられたサブバンドについてノイズレベルを生成し、オーディオ復号化装置700(図7)、1200(図12)、1300(図13)に提供する。
図7は、本発明の一実施形態によるオーディオ復号化装置700の構成を示すブロック図である。図7に示されたオーディオ復号化装置700は、逆多重化部710、ビット割り当て部730、復号化部750及び逆変換部770を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ(図示せず)に具現される。
図7を参照すれば、逆多重化部710は、ビットストリームを逆多重化して量子化及び無損失符号化されたNorm値と、符号化されたスペクトルに関する情報とを抽出する。
ビット割り当て部730は、各サブバンド単位で量子化及び無損失符号化されたNorm値から逆量子化されたNorm値を求め、逆量子化されたNorm値を用いて割り当てビット数を定める。ビット割り当て部730は、オーディオ符号化装置100、600のビット割り当て部150、650と実質的に同じく動作する。一方、オーディオ符号化装置100、600で、Norm値が心理音響加重によって調整された場合、オーディオ復号化装置700でも同じく調整される。
復号化部750は、逆多重化部710から提供される、符号化されたスペクトルに関する情報を用いて、符号化されたスペクトルを無損失復号化及び逆量子化する。一例として、スペクトル復号化はファクトリアル・パルス・デコーディングを使える。
逆変換部770は、復号化されたスペクトルを時間ドメインに変換し、復元されたオーディオ信号を生成する。
図8は、図7において、本発明の一実施形態によるビット割り当て部800の構成を示すブロック図である。図8に示されたビット割り当て部800は、Norm復号化部810と、ビット推定及び割り当て部830とを備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ(図示せず)に具現される。
図8を参照すれば、Norm復号化部810は、逆多重化部710(図7)から提供される量子化及び無損失符号化されたNorm値から、逆量子化されたNorm値を求める。
ビット推定及び割り当て部830は、逆量子化されたNorm値を用いて割り当てビット数を定める。具体的に、ビット推定及び割り当て部830は、各サブバンド単位でスペクトルエネルギー、すなわち、Norm値を用いてマスキングしきい値を求め、マスキングしきい値を用いて知覚的に必要なビット数、すなわち、許容ビット数を予測する。
ビット推定及び割り当て部830は、各サブバンド単位で、スペクトルエネルギー、すなわち、Norm値を用いて小数点単位のビット割り当てを行う。この時、例えば、前記数式(4)ないし(17)によるビット割り当て方法を使える。
ビット推定及び割り当て部830は、すべてのサブバンドについて、割り当てられたビット数と予測されたビット数とを比較して、割り当てられたビット数が予測されたビット数より大きい場合には、予測されたビット数に制限する。ビット数制限の結果で得られる、与えられたフレームの全体サブバンドの割り当てビット数が、与えられたフレームで使用可能な全体ビット数Bより少ない場合、その差に該当するビット数を全体サブバンドに均一に分配するか、あるいは知覚的重要度によって不均一に分配する。
図9は、図7において、本発明の一実施形態による復号化部900の構成を示すブロック図である。図9に示された復号化部900は、スペクトル復号化部910及びエンベロープ・シェーピング部930を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ(図示せず)に具現される。
図9を参照すれば、スペクトル復号化部910は、逆多重化部710(図7)から提供される、符号化されたスペクトルに関する情報、及びビット割り当て部730(図7)から提供される割り当てビット数を用いて、符号化されたスペクトルを無損失復号化及び逆量子化する。スペクトル復号化部910から提供される、復号化されたスペクトルは、正規化されたスペクトルである。
エンベロープ・シェーピング部930は、ビット割り当て部730(図7)から提供される、逆量子化されたNorm値を用いて、スペクトル復号化部910から提供される、正規化されたスペクトルについてエンベロープ・シェーピングを行って正規化以前のスペクトルに復元する。
図10は、図7において、本発明の他の実施形態による復号化部1000の構成を示すブロック図である。図10に示された復号化部1000は、スペクトル復号化部1000、エンベロープ・シェーピング部1030及びスペクトル・フィーリング部1050を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ(図示せず)に具現される。図10の復号化部1000は、図9の復号化部900と比べれば、スペクトル・フィーリング部1050をさらに備える差があるので、共通の構成要素については、具体的な説明を略する。
図10を参照すれば、スペクトル・フィーリング部1050は、エンベロープ・シェーピング部1030から提供されるスペクトルで0に逆量子化された部分を含むサブバンドが存在する場合、ノイズ成分で満たすことができる。一実施形態によれば、ノイズ成分はランダムに生成されるか、または0でない値に逆量子化されたサブバンドのスペクトルをコピーして生成する。他の実施形態によれば、0に逆量子化された部分を含むサブバンドについてノイズ成分を生成し、ノイズ成分のエネルギーと、ビット割り当て部730(図7)から提供される逆量子化されたNorm値、すなわち、スペクトルエネルギーとの比を用いてノイズ成分のエネルギーを調節する。他の実施形態によれば、0に逆量子化された部分を含むサブバンドについてノイズ成分を生成し、ノイズ成分の平均エネルギーが1になるように調節する。他の実施形態によれば、オーディオ符号化装置100、600から各サブバンド単位でノイズレベルを受信し、与えられたサブバンドが0に逆量子化された部分を含む場合、与えられたサブバンドについてノイズ成分を生成し、受信されたノイズレベルを用いてノイズ成分のエネルギーを調節する。
図11は、図7において、本発明の他の実施形態による復号化部1100の構成を示すブロック図である。図11に示された復号化部1100は、スペクトル復号化部1100、スペクトル・フィーリング部1130及びエンベロープ・シェーピング部1150を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ(図示せず)に具現される。図11の復号化部1100は、図10の復号化部1000と比べれば、スペクトル・フィーリング部1130及びエンベロープ・シェーピング部1150の配置順序が異なる差があるので、共通の構成要素については、具体的な説明を略する。
図11を参照すれば、スペクトル・フィーリング部1130は、スペクトル復号化部1110から提供される、正規化されたスペクトルで0に逆量子化された部分を含むサブバンドが存在する場合、ノイズ成分で満たすことができる。この時、図10のスペクトル・フィーリング部1050に適用される多様なノイズフィーリング方法を使える。望ましくは、0に逆量子化された部分を含むサブバンドについてノイズ成分を生成し、ノイズ成分の平均エネルギーが1になるように調節する。
エンベロープ・シェーピング部1150は、ビット割り当て部730(図7)から提供される逆量子化されたNorm値を用いて、ノイズ成分が満たされたサブバンドを含むスペクトルについて正規化以前のスペクトルに復元する。
図12は、本発明の他の実施形態によるオーディオ復号化装置1200の構成を示すブロック図である。図12に示されたオーディオ復号化装置1200は、逆多重化部1210、スケールファクタ復号化部1230、スペクトル復号化部1250及び逆変換部1270を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ(図示せず)に具現される。
図12を参照すれば、逆多重化部1210は、ビットストリームを逆多重化して量子化及び無損失符号化されたスケールファクタと、符号化されたスペクトルに関する情報とを抽出する。
スケールファクタ復号化部1230は、各サブバンド単位で量子化及び無損失符号化されたスケールファクタを無損失復号化及び逆量子化する。
スペクトル復号化部1250は、逆多重化部1210から提供される、符号化されたスペクトルに関する情報及び逆量子化されたスケールファクタを用いて、符号化されたスペクトルを無損失復号化及び逆量子化する。スペクトル復号化部1250は、図10に示された復号化部1000と同じ構成要素を含む。
逆変換部1270は、スペクトル復号化部1250で復号化されたスペクトルを時間ドメインに変換して、復元されたオーディオ信号を生成する。
図13は、本発明の他の実施形態によるオーディオ復号化装置1300の構成を示すブロック図である。図13に示されたオーディオ復号化装置1300は逆多重化部1310、ビット割り当て部1330、復号化部1350及び逆変換部1370を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ(図示せず)に具現される。
図13に示されたオーディオ復号化装置1300は、図7のオーディオ復号化装置700と比べれば、トランジェントシグナリング情報が復号化部1350及び逆変換部1370に提供されるという差があるので、共通の構成要素については、具体的な説明を略する。
図13を参照すれば、復号化部1350では、逆多重化部1310から提供される、符号化されたスペクトルに関する情報を用いてスペクトルを復号化する。この時、トランジェントシグナリング情報によってウィンドウサイズが可変される。
逆変換部1370では、復号化されたスペクトルを時間ドメインに変換し、復元されたオーディオ信号を生成する。この時、トランジェントシグナリング情報によってウィンドウサイズが可変される。
図14は、本発明の一実施形態によるビット割り当て方法の動作を説明するフローチャートである。図14を参照すれば、1410段階では、各サブバンド単位でスペクトルエネルギーを獲得する。スペクトルエネルギーは、Norm値を使える。
1420段階では、各サブバンド単位で、スペクトルエネルギーを用いてマスキングしきい値を獲得する。
1430段階では、各サブバンド単位で、マスキングしきい値を用いて許容ビット数を小数点単位で推定する。
1440段階では、各サブバンド単位で、スペクトルエネルギーに基づいて小数点単位でビットを割り当てる。
1450段階では、各サブバンド単位で、許容ビット数と割り当てビット数とを比較する。
1460段階では、1450段階での比較結果、与えられたサブバンドについて割り当てビット数が許容ビット数より大きい場合、割り当てビット数を許容ビット数に制限する。
1470段階では、1450段階での比較結果、与えられたサブバンドについて割り当てビット数が許容ビット数より小さいか、または同じ場合、割り当てビット数をそのまま使うか、または1460段階で制限された許容ビット数を使って各サブバンドについて最終的な割り当てビット数を定める。
一方、図示されていないが、1470段階で与えられたフレームの各サブバンドについて定められた割り当てビット数の総和が、与えられたフレームで使用可能な全体ビット数より多いか、または少ない場合、その差に該当するビット数を全体サブバンドに均一に分配するか、あるいは知覚的重要度によって不均一に分配する。
図15は、本発明の他の実施形態によるビット割り当て方法の動作を説明するフローチャートである。図15を参照すれば、各サブバンド単位で、逆量子化されたNorm値を受信する。
1510段階では、各サブバンド単位で、逆量子化されたNorm値を用いてマスキングしきい値を獲得する。
1520段階では、各サブバンド単位で、マスキングしきい値を用いてSMRを獲得する。
1530段階では、各サブバンド単位で、SMRを用いて許容ビット数を小数点単位で推定する。
1540段階では、各サブバンド単位で、スペクトルエネルギーあるいは逆量子化されたNorm値に基づいて、小数点単位でビットを割り当てる。
1550段階では、各サブバンド単位で、許容ビット数と割り当てビット数とを比較する。1560段階では、1550段階での比較結果、与えられたサブバンドについて割り当てビット数が許容ビット数より大きい場合、割り当てビット数を許容ビット数に制限する。
1570段階では、1550段階での比較結果、与えられたサブバンドについて割り当てビット数が許容ビット数より小さいか、または同じ場合、割り当てビット数をそのまま使うか、または1560段階で制限された許容ビット数を使って各サブバンドについて最終的な割り当てビット数を定める。
一方、図示されていないが、1570段階で与えられたフレームの各サブバンドについて定められた割り当てビット数の総和が、与えられたフレームで使用可能な全体ビット数より多いか、または少ない場合、その差に該当するビット数を全体サブバンドに均一に分配するか、あるいは知覚的重要度によって不均一に分配する。
図16は、本発明の他の実施形態によるビット割り当て方法の動作を説明するフローチャートである。図16を参照すれば、1610段階では初期化を行う。初期化の一例としては、前記数式(17)を使って各サブバンドについて割り当てビット数を推定する場合、すべてのサブバンドについて常に一定の値を持つ

を計算することで、全体的な複雑度を低減させる。
1620段階では、前記数式(4)あるいは数式(17)を使って、各サブバンドについて割り当てビット数を小数点単位で推定する。サンプル当たり割り当てビット数Lにサブバンドのサンプル数を掛けて各サブバンドに割り当てられたビット数を計算する。この時、数式(17)を用いて各サブバンドのサンプル当たり割り当てビット数Lを計算する場合、Lが0より小さな値を持つ。この場合、下記の数式(18)のように、0より小さな値を持つLについて0を割り当てる。

その結果、与えられたフレームに含まれた各サブバンドについて推定された割り当てビット数の総和が、与えられたフレームの使用可能なビット数Bより大きい。
1630段階では、与えられたフレームに含まれた各サブバンドについて推定された割り当てビット数の総和と、与えられたフレームの使用可能なビット数とを比較する。
1640段階では、与えられたフレームに含まれた各サブバンドについて推定された割り当てビット数の総和が、与えられたフレームの使用可能なビット数と同一になるまで、下記の数式(19)を使って各サブバンドについてビットを再分配する。

ここで、

は、(k−1)番目の繰り返しによって定められるビット数、

は、k番目の繰り返しによって定められるビット数を示す。毎繰り返しで定められるビット数は、0より小さくてはならず、したがって、1640段階は、0より大きいビット数を持つサブバンドについて行われる。
1650段階では、1630段階での比較結果、与えられたフレームに含まれた各サブバンドについて推定された割り当てビット数の総和が、与えられたフレームの使用可能なビット数と同じ場合に各サブバンドの割り当てビット数をそのまま使うか、または1640段階で再分配結果で得られる各サブバンドの割り当てビット数を使って、各サブバンドについて最終的な割り当てビット数を定める。
図17は、本発明の他の実施形態によるビット割り当て方法の動作を説明するフローチャートである。図17を参照すれば、1710段階では、図16の1610段階と同様に初期化を行う。1720段階では、図16の1620段階と同様に各サブバンドについて割り当てビット数を小数点単位で推定し、各サブバンドのサンプル当たり割り当てビット数Lが0より小さな場合、前記数式(18)のように0より小さな値を持つLについて0を割り当てる。
1730段階では、SNR側面で各サブバンドについて必要とする最小ビット数を定義し、1720段階の割り当てビット数が0よりは大きいが、最小ビット数よりは少ないサブバンドについては、最小ビット数に制限して割り当てビット数を調整する。このように各サブバンドの割り当てビット数を最小ビット数に制限することで、音質低下の可能性を低減させる。一例として、各サブバンドについて必要とする最小ビット数は、ファクトリアル・パルス・コーディングでパルスコーディングに必要な最小ビット数と定義する。ファクトリアル・パルス・コーディングは、0ではないパルスの位置(position)、パルスのサイズ(magnitude)、パルスの符号(sign)のすべての組み合わせを用いて信号を表現する。この時、パルスを表現できるすべての組み合わせNの場合は、下記の数式(20)のように示す。

ここで、2は、i個のノン・ゼロ位置にある信号について+/−に表現可能な符号の場合の数を示す。
数式(20)で、F(n,i)は、下記の数式(21)のように定義され、与えられたn個のサンプル、すなわち、位置についてi個のノン・ゼロ位置を選択できる場合の数を示す。

数式(20)で、D(m,i)は、下記の数式(22)のように示すことができ、これは、i個のノン・ゼロ位置で選択された信号をm個のサイズに表現できる場合の数を示す。

一方、N個のすべての組み合わせを表現するために必要なビット数Mは、下記の数式(23)のように示す。

結局、与えられたサブバンドbでN個のサンプルについて最小1個のパルスを符号化するために必要な最小ビット数Lb_minは、下記の数式(24)のように示す。

この時、ファクトリアル・パルス・コーディングで必要な最小ビット数には、量子化に必要な利得値の伝送に使われるビット数が加えられ、ビット率によって可変される。各サブバンド単位の必要な最小ビット数は、下記の数式(25)のように、ファクトリアル・パルス・コーディングで必要な最小ビット数と、与えられたサブバンドのサンプル数Nのうち大きい値と定められる。一例によれば、1ビット/サンプルで設定する。

一方、1730段階では、ターゲットビット率が小さくて使うビットが不十分な場合、割り当てビット数が0よりは大きいが最小ビット数より少ないサブバンドについては、割り当てビット数を回収して割り当てビット数を0に調整する。また、割り当てビット数が数式(24)のビット数より小さな場合に割り当てビット数を回収し、数式(24)のビット数より大きいが数式(25)の最小ビット数より少ないサブバンドについては、最小ビット数を割り当てる。
1740段階では、与えられたフレームに含まれた各サブバンドについて推定された割り当てビット数の総和と、与えられたフレームの使用可能なビット数とを比較する。
1750段階では、与えられたフレームに含まれた各サブバンドについて推定された割り当てビット数の総和が、与えられたフレームの使用可能なビット数と同一になるまで、最小ビット数より多く割り当てられたサブバンドについてビットを再分配する。
1760段階では、ビット再分配についての以前繰り返しの時、及び現在繰り返しの時に、各サブバンドの割り当てビット数に変動があるかどうかを判断し、ビット再分配についての以前繰り返しの時と現在繰り返しの時とに、各サブバンドの割り当てビット数に変動がないか、または与えられたフレームに含まれた各サブバンドについて推定された割り当てビット数の総和が、与えられたフレームの使用可能なビット数と同一になるまで1740段階ないし1760段階を行う。
1770段階では、1760段階での判断結果、ビット再分配についての以前繰り返しの時及び現在繰り返しの時に、各サブバンドの割り当てビット数に変動がない場合、上位サブバンドから下位サブバンドに順次にビットを回収して、与えられたフレームの使用可能なビット数を満たすまで1740段階ないし1760段階を行う。
すなわち、ビット再分配の時、最小ビット数Nより大きい値が割り当てられたサブバンドについて、ビットを低減させつつ可用ビット数を満たすように調整するが、すべてのサブバンドについて割り当てられたビット数が最小ビット数より大きくなく、かつ割り当てられたビット数の総和が依然として可用ビット数より大きい場合には、高周波サブバンドから順次にビットを回収する方式でビット数を調整する。
図16及び図17に示されたビット割り当て方法によれば、各サブバンドにビットを割り当てるために、各サブバンドにスペクトルエネルギーあるいは加重されたスペクトルエネルギー順に初期ビットを割り当てた後、再びスペクトルエネルギーあるいは加重されたスペクトルエネルギーを探す動作を数回繰り返す必要なく、各サブバンドが必要とするビット数を一回に予測する。また、前記ビット割り当て方法によれば、与えられたフレームに含まれた各サブバンドについて推定された割り当てビット数の総和が、与えられたフレームの使用可能なビット数と同一になるまでビットを再分配することで、効率的なビット割り当てが可能である。また、前記ビット割り当て方法によれば、任意のサブバンドについて最小ビット数を保証することで、少ないビット数が割り当てられて十分な数のスペクトルサンプルあるいはパルスが符号化できなくてスペクトルホールが発生することを防止する。
図14ないし図17の方法は、プログラミングされ、少なくとも一つのプロセッシングデバイスによって行われる。
図18は、本発明の一実施形態による符号化モジュールを備えるマルチメディア機器の構成を示すブロック図である。
図18に示されたマルチメディア機器1800は、通信部1810及び符号化モジュール1830を備える。また、符号化結果で得られるオーディオビットストリームの用途によって、オーディオビットストリームを保存する保存部1850をさらに備える。また、マルチメディア機器1800は、マイクロフォン1870をさらに備える。すなわち、保存部1850及びマイクロフォン1870は、オプションで備えられる。一方、図18に示されたマルチメディア機器1800は、任意の復号化モジュール(図示せず)、例えば、一般的な復号化機能を行う復号化モジュールあるいは本発明の一実施形態による復号化モジュールをさらに備える。ここで、符号化モジュール1830は、マルチメディア機器1800に備えられる他の構成要素(図示せず)と共に一体化され、少なくとも一つ以上のプロセッサ(図示せず)に具現される。
図18を参照すれば、通信部1810は、外部から提供されるオーディオと符号化されたビットストリームのうち少なくとも一つを受信するか、または復元されたオーディオと符号化モジュール1830の符号化結果で得られるオーディオビットストリームのうち少なくとも一つを送信する。
通信部1810は、無線インターネット、無線イントラネット、無線電話網、無線LAN、ワイファイ(Wi−Fi)、WFD(Wi−Fi Direct)、3G(Generation)、4G(4Generation)、ブルートゥース(登録商標)、赤外線通信(IrDA、Infrared Data Association)、RFID(Radio Frequency Identification)、UWB(Ultra Wide Band)、ジグビー、NFC(Near Field Communication)のような無線ネットワークまたは有線電話網、有線インターネットのような有線ネットワークを通じて、外部のマルチメディア機器とデータを送受信するように構成される。
符号化モジュール1830は、一実施形態によれば、通信部1810あるいはマイクロフォン1870を通じて提供される時間ドメインのオーディオ信号を、周波数ドメインのオーディオスペクトルに変換し、オーディオスペクトルで与えられたフレームに対して使用可能なビット数範囲内で、所定の周波数バンドに存在するスペクトルのSNRを最大化させるように、周波数バンド単位で割り当てビット数を小数点単位で定め、周波数バンド単位で定められた割り当てビット数を調整し、周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いて、オーディオスペクトルを符号化してビットストリームを生成する。
符号化モジュール1830は、他の実施形態によれば、通信部1810あるいはマイクロフォン1870を通じて提供される時間ドメインのオーディオ信号を周波数ドメインのオーディオスペクトルに変換し、オーディオスペクトルで与えられたフレームに含まれた周波数バンド単位で、マスキングしきい値を用いて許容ビット数を小数点単位で推定し、スペクトルエネルギーを用いて割り当てビット数を小数点単位で推定し、割り当てビット数が前記許容ビット数を超えないように調整し、周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いて、オーディオスペクトルを符号化してビットストリームを生成する。
保存部1850は、符号化モジュール1830で生成される、符号化されたビットストリームを保存する。一方、保存部1850は、マルチメディア機器1800の運用に必要な多様なプログラムを保存する。
マイクロフォン1870は、ユーザあるいは外部のオーディオ信号を符号化モジュール1830に提供する。
図19は、本発明の一実施形態による復号化モジュールを備えるマルチメディア機器の構成を示すブロック図である。図19に示されたマルチメディア機器1800は、通信部1910及び復号化モジュール1930を備える。また、復号化結果で得られる復元されたオーディオ信号の用途によって、復元されたオーディオ信号を保存する保存部1950をさらに備える。また、マルチメディア機器1900はスピーカー1970をさらに備える。すなわち、保存部1950及びスピーカー1970はオプションで備えられる。一方、図19に示されたマルチメディア機器1900は、任意の符号化モジュール(図示せず)、例えば、一般的な符号化機能を行う符号化モジュールあるいは本発明の一実施形態による符号化モジュールをさらに備える。ここで、復号化モジュール1930は、マルチメディア機器1900に備えられる他の構成要素(図示せず)と共に一体化され、少なくとも一つの以上のプロセッサ(図示せず)に具現される。
図19を参照すれば、通信部1910は、外部から提供される、符号化されたビットストリームとオーディオ信号のうち少なくとも一つを受信するか、または復号化モジュール1930の復号化結果で得られる復元されたオーディオ信号と、符号化結果で得られるオーディオビットストリームのうち少なくとも一つを送信する。一方、通信部1910は、図18の通信部1810と実質的に類似して具現される。
復号化モジュール1930は、一実施形態によれば、通信部1910を通じて提供されるビットストリームを受信し、与えられたフレームに対して使用可能なビット数範囲内で、各周波数バンドに存在するスペクトルのSNRを最大化させるように周波数バンド単位で割り当てビット数を小数点単位で定め、周波数バンド単位で定められた割り当てビット数を調整し、周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いて、ビットストリームに含まれたオーディオスペクトルを復号化し、復号化されたオーディオスペクトルを時間ドメインのオーディオ信号に変換し、復元されたオーディオ信号を生成する。
復号化モジュール1930は、他の実施形態によれば、通信部1910を通じて提供されるビットストリームを受信し、与えられたフレームに含まれた周波数バンド単位で、マスキングしきい値を用いて許容ビット数を小数点単位で推定し、スペクトルエネルギーを用いて割り当てビット数を小数点単位で推定し、割り当てビット数が前記許容ビット数を超えないように調整し、周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いてビットストリームに含まれたオーディオスペクトルを復号化し、復号化されたオーディオスペクトルを時間ドメインのオーディオ信号に変換し、復元されたオーディオ信号を生成する。
保存部1950は、復号化モジュール1930で生成される、復元されたオーディオ信号を保存する。一方、保存部1950は、マルチメディア機器1900の運用に必要な多様なプログラムを保存する。
スピーカー1970は、復号化モジュール1930で生成される復元されたオーディオ信号を外部に出力する。
図20は、本発明の一実施形態による符号化モジュール及び復号化モジュールを備えるマルチメディア機器の構成を示すブロック図である。図20に示されたマルチメディア機器2000は、通信部2010、符号化モジュール2020と復号化モジュール2030を備える。また、符号化結果で得られるオーディオビットストリーム、あるいは復号化結果で得られる復元されたオーディオ信号の用途によって、オーディオビットストリームあるいは復元されたオーディオ信号を保存する保存部2040をさらに備える。また、マルチメディア機器2000は、マイクロフォン2050あるいはスピーカー2060をさらに備える。ここで、符号化モジュール2020及び復号化モジュール2030は、マルチメディア機器2000に備えられる他の構成要素(図示せず)と共に一体化され、少なくとも一つ以上のプロセッサ(図示せず)に具現される。
図20に示された各構成要素は、図18に示されたマルチメディア機器1800の構成要素、あるいは図19に示されたマルチメディア機器1900の構成要素と重なるため、その詳細な説明は略する。
図18ないし図20に示されたマルチメディア機器1800、1900、2000には、電話、モバイルフォンなどを含む音声通信専用端末、TV、MP3プレーヤなどを含む放送あるいは音楽専用装置、あるいは音声通信専用端末と放送あるいは音楽専用装置の融合端末装置が含まれるが、これらに限定されるものではない。また、マルチメディア機器1800、1900、2000は、クライアント、サーバあるいはクライアントとサーバとの間に配される変換器として使われる。
一方、マルチメディア機器1800、1900、2000が、例えば、モバイルフォンである場合、図示されてはいないが、キーパッドなどのユーザ入力部、ユーザインターフェースあるいはモバイルフォンで処理される情報をディスプレイするディスプレイ部、モバイルフォンの全般的な機能を制御するプロセッサをさらに備える。また、モバイルフォンは、撮像機能を持つカメラ部と、モバイルフォンで必要とする機能を行う少なくとも一つ以上の構成要素とをさらに備える。
一方、マルチメディア機器1800、1900、2000が、例えば、TVである場合、図示されてはいないが、キーパッドなどのユーザ入力部、受信された放送情報をディスプレイするディスプレイ部、TVの全般的な機能を制御するプロセッサをさらに備える。また、TVは、TVで必要とする機能を行う少なくとも一つ以上の構成要素をさらに備える。
前記実施形態による方法は、コンピュータで実行されるプログラムで作成でき、コンピュータで読み取り可能な記録媒体を用いて前記プログラムを動作させる汎用デジタルコンピュータで具現される。また、前述した本発明の実施形態で使われるデータ構造、プログラム命令、あるいはデータファイルは、コンピュータで読み取り可能な記録媒体に多様な手段を通じて記録される。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取られるデータが保存されるすべての保存装置を含む。コンピュータで読み取り可能な記録媒体の例には、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気光媒体、及びROM(Read Only Memory)、RAM、フラッシュメモリなどのプログラム命令を保存して行うように特別に構成されたハードウェア装置が含まれる。また、コンピュータで読み取り可能な記録媒体は、プログラム命令、データ構造などを指定する信号を伝送する伝送媒体であってもよい。プログラム命令の例には、コンパイラによって作われる同じ機械語コードだけではなく、インタプリタなどを使ってコンピュータによって実行される高級言語コードを含む。
以上のように本発明の一実施形態は、たとえ限定された実施形態及び図面によって説明されたとしても、本発明の一実施形態は前記の実施形態に限定されるものではなく、当業者ならば、これより多様な修正及び変形が可能であろう。よって、本発明のスコープは前述した説明ではなく特許請求の範囲に示されており、この均等または等価的な変形はいずれも本発明の技術的思想の範ちゅうに属するといえる。
上記の実施形態に関する付記を以下に例示的に示す。
(付記1)
与えられたフレームに対して使用可能なビット数範囲内で、所定の周波数バンドに存在するスペクトルのSNRを最大化させるように、前記周波数バンド単位で割り当てビット数を小数点単位で定める段階と、
前記周波数バンド単位で定められた割り当てビット数を調整する段階と、を含むビット割り当て方法。
(付記2)
前記割り当てビット数決定段階は、前記周波数バンドのスペクトルエネルギー及び前記与えられたフレームに対して使用可能なビット数を用いて行われる付記1に記載のビット割り当て方法。
(付記3)
前記割り当てビット数決定段階は、前記周波数バンドに含まれた各サンプル当たり割り当てビット数は、前記与えられたフレームに含まれたすべての周波数バンドに割り当てられるビット数の総和と、前記与えられたフレームに対して使用可能なビット数との差が最小になるように定める付記1に記載のビット割り当て方法。
(付記4)
前記割り当てビット数決定段階は、下記の数式
(ここで、Lは、周波数バンドbで各サンプルに割り当てられたビット数、Cは、dBスケール値、nは、周波数バンドbでログスケールに量子化されたNorm値、Nは、周波数バンドbのサンプル数、Bは、与えられたフレームで使用可能な全体ビット数をそれぞれ示す。)
を用いて行われる付記1に記載のビット割り当て方法。
(付記5)
前記割り当てビット数調整段階は、前記周波数バンドに含まれた各サンプル当たり割り当てビット数が0より小さな場合に0を割り当てる付記1に記載のビット割り当て方法。
(付記6)
前記割り当てビット数調整段階は、前記与えられたフレームに含まれた各周波数バンドについて定められた割り当てビット数の総和が、前記与えられたフレームで使用可能な全体ビット数と同一になるまで各周波数バンドについてビットを再分配する付記5に記載のビット割り当て方法。
(付記7)
前記割り当てビット数調整段階は、前記周波数バンドに必要な最小ビット数を定義し、前記周波数バンドに割り当てられたビット数が前記最小ビット数より小さな場合、前記周波数バンドに割り当てられたビット数を前記最小ビット数に制限する付記1に記載のビット割り当て方法。
(付記8)
前記割り当てビット数調整段階は、前記周波数バンドに必要な最小ビット数を定義し、前記周波数バンドに割り当てられたビット数が前記最小ビット数より小さな場合、前記周波数バンドに割り当てられたビット数を0に設定する付記1に記載のビット割り当て方法。
(付記9)
前記最小ビット数は、前記周波数バンドに少なくとも一つのパルスをコーディングするのに必要なビット数を用いて定義される付記7または8に記載のビット割り当て方法。
(付記10)
前記割り当てビット数調整段階は、前記与えられたフレームに含まれた前記周波数バンドについて、前記最小ビット数を用いて調整された結果の総和と、前記与えられたフレームに対して使用可能なビット数とが同一になるまでビットを再分配する付記7または8に記載のビット割り当て方法。
(付記11)
付記1ないし10のうちいずれか一つに記載の方法を行えるプログラムを記録したコンピュータで読み取り可能な記録媒体。
(付記12)
時間ドメインのオーディオ信号を周波数ドメインのオーディオスペクトルに変換する変換部と、
前記オーディオスペクトルで与えられたフレームに含まれた周波数バンド単位で、マスキングしきい値を用いて許容ビット数を小数点単位で推定し、スペクトルエネルギーを用いて割り当てビット数を小数点単位で推定し、前記割り当てビット数が前記許容ビット数を超えないように調整するビット割り当て部と、を備えるビット割り当て装置。
(付記13)
前記ビット割り当て部は、前記周波数バンド単位で前記割り当てビット数が前記許容ビット数を超えないように制限した結果、残るビットについて前記与えられたフレームに含まれた周波数バンドのスペクトルエネルギーのサイズを基準として分配する付記12に記載のビット割り当て装置。
(付記14)
前記各周波数バンドのスペクトルエネルギーは、知覚的な重要度によって加重される付記12に記載のビット割り当て装置。
(付記15)
時間ドメインのオーディオ信号を周波数ドメインのオーディオスペクトルに変換する変換部と、
前記オーディオスペクトルで与えられたフレームに対して使用可能なビット数範囲内で、所定の周波数バンドに存在するスペクトルのSNRを最大化させるように前記周波数バンド単位で割り当てビット数を小数点単位で定め、前記周波数バンド単位で定められた割り当てビット数を調整するビット割り当て部と、
前記周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いて前記オーディオスペクトルを符号化する符号化部と、を備えるオーディオ符号化装置。
(付記16)
前記時間ドメインのオーディオ信号からトランジェント特性を持つ区間を検出して、時間/周波数ドメイン変換に使われるウィンドウサイズの決定に使うトランジェント検出部をさらに備える付記15に記載のオーディオ符号化装置。
(付記17)
時間ドメインのオーディオ信号を周波数ドメインのオーディオスペクトルに変換する変換部と、
前記オーディオスペクトルで与えられたフレームに含まれた周波数バンド単位で、マスキングしきい値を用いて許容ビット数を小数点単位で推定し、スペクトルエネルギーを用いて割り当てビット数を小数点単位で推定し、前記割り当てビット数が前記許容ビット数を超えないように調整するビット割り当て部と、
前記周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いて前記オーディオスペクトルを符号化する符号化部と、を備えるオーディオ符号化装置。
(付記18)
前記時間ドメインのオーディオ信号からトランジェント特性を持つ区間を検出して、時間/周波数ドメイン変換に使われるウィンドウサイズの決定に使うトランジェント検出部をさらに備える付記17に記載のオーディオ符号化装置。
(付記19)
与えられたフレームに対して使用可能なビット数範囲内で、各周波数バンドに存在するスペクトルのSNRを最大化させるように、前記周波数バンド単位で割り当てビット数を小数点単位で定め、前記周波数バンド単位で定められた割り当てビット数を調整するビット割り当て部と、
前記周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いてビットストリームに含まれたオーディオスペクトルを復号化する復号化部と、
前記復号化されたオーディオスペクトルを時間ドメインのオーディオ信号に変換する逆変換部と、を備えるオーディオ復号化装置。
(付記20)
前記ビットストリームに含まれるトランジェントシグナリング情報に基づいて、前記逆変換部で使われるウィンドウサイズを設定する付記19に記載のオーディオ復号化装置。
(付記21)
前記復号化部は、0に符号化された部分を含む周波数バンドについてノイズ成分を生成し、前記ノイズ成分のエネルギーを、ノイズレベルを用いて調節する付記19に記載のオーディオ復号化装置。
(付記22)
前記復号化部は、0に符号化された部分を含む周波数バンドについてノイズ成分を生成し、前記ノイズ成分のエネルギーとスペクトルエネルギーとの比を用いてノイズ成分のエネルギーを調節する付記19に記載のオーディオ復号化装置。
(付記23)
前記復号化部は、0に符号化された部分を含む周波数バンドについてノイズ成分を生成し、前記ノイズ成分の平均エネルギーが1になるように調節する付記19に記載のオーディオ復号化装置。
(付記24)
与えられたフレームに含まれた周波数バンド単位で、マスキングしきい値を用いて許容ビット数を小数点単位で推定し、スペクトルエネルギーを用いて割り当てビット数を小数点単位で推定し、前記割り当てビット数が前記許容ビット数を超えないように調整するビット割り当て部と、
前記周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いてビットストリームに含まれたオーディオスペクトルを復号化する復号化部と、
前記復号化されたオーディオスペクトルを時間ドメインのオーディオ信号に変換する逆変換部と、を備えるオーディオ復号化装置。
(付記25)
前記ビットストリームに含まれるトランジェントシグナリング情報に基づいて、前記逆変換部で使われるウィンドウサイズを設定する付記24に記載のオーディオ復号化装置。
(付記26)
前記復号化部は、0に符号化された部分を含む周波数バンドについてノイズ成分を生成し、前記ノイズ成分のエネルギーをノイズレベルを用いて調節する付記24に記載のオーディオ復号化装置。
(付記27)
前記復号化部は、0に符号化された部分を含む周波数バンドについてノイズ成分を生成し、前記ノイズ成分のエネルギーとスペクトルエネルギーとの比を用いてノイズ成分のエネルギーを調節する付記24に記載のオーディオ復号化装置。
(付記28)
前記復号化部は、0に符号化された部分を含む周波数バンドについてノイズ成分を生成し、前記ノイズ成分の平均エネルギーが1になるように調節する付記24に記載のオーディオ復号化装置。
特開平04−168500号公報 特開平03−181232号公報 特開2000−293199号公報 特開2000−148191号公報

Claims (2)

  1. 少なくとも一つのプロセッサを備え、
    前記プロセッサは、
    フレームの使用可能なビット数を考慮して、前記フレーム内の各サブバンドに割り当てられるビット数を初期的に小数点単位で推定し、
    前記推定されたビット数が0より小さいサブバンドのビット数を0に設定し、
    前記各サブバンドに割り当てられるビット数を最終的に決定するために、前記フレーム内の各サブバンドに割り当てられるビット数の合計が前記使用可能なビット数と同じになるまで、前記各サブバンドに割り当てられるビット数を0でないビット数を有するサブバンドに再分配し、
    前記各サブバンドに割り当てられるビット数を最終的に決定するために、前記フレーム内のサブバンドのうち、第1最小値より小さいビット数が割り当てられたサブバンドのビット数を0に設定し、前記フレーム内のサブバンドのうち、第1最小値以上でありながら、第2最小値より小さいビット数が割り当てられたサブバンドのビット数を第2最小値に設定するビット割り当て装置。
  2. 前記プロセッサは、各サブバンドのスペクトルエネルギーに基づいて行われる請求項1に記載のビット割り当て装置。
JP2019079583A 2011-05-13 2019-04-18 ビット割り当て装置 Active JP6726785B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201161485741P 2011-05-13 2011-05-13
US61/485,741 2011-05-13
US201161495014P 2011-06-09 2011-06-09
US61/495,014 2011-06-09

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017094252A Division JP2017194690A (ja) 2011-05-13 2017-05-10 ビット割り当て装置

Publications (2)

Publication Number Publication Date
JP2019168699A JP2019168699A (ja) 2019-10-03
JP6726785B2 true JP6726785B2 (ja) 2020-07-22

Family

ID=47141906

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2014511291A Active JP6189831B2 (ja) 2011-05-13 2012-05-14 ビット割り当て方法及び記録媒体
JP2017094252A Ceased JP2017194690A (ja) 2011-05-13 2017-05-10 ビット割り当て装置
JP2019079583A Active JP6726785B2 (ja) 2011-05-13 2019-04-18 ビット割り当て装置

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2014511291A Active JP6189831B2 (ja) 2011-05-13 2012-05-14 ビット割り当て方法及び記録媒体
JP2017094252A Ceased JP2017194690A (ja) 2011-05-13 2017-05-10 ビット割り当て装置

Country Status (15)

Country Link
US (7) US9159331B2 (ja)
EP (5) EP2707875A4 (ja)
JP (3) JP6189831B2 (ja)
KR (7) KR102053899B1 (ja)
CN (3) CN103650038B (ja)
AU (3) AU2012256550B2 (ja)
BR (1) BR112013029347B1 (ja)
CA (1) CA2836122C (ja)
MX (3) MX345963B (ja)
MY (2) MY164164A (ja)
RU (2) RU2705052C2 (ja)
SG (1) SG194945A1 (ja)
TW (5) TWI562133B (ja)
WO (2) WO2012157932A2 (ja)
ZA (1) ZA201309406B (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100266989A1 (en) 2006-11-09 2010-10-21 Klox Technologies Inc. Teeth whitening compositions and methods
EP2707875A4 (en) 2011-05-13 2015-03-25 Samsung Electronics Co Ltd NOISE REDUCTION AND AUDIO CODING
CA2966987C (en) * 2011-06-30 2019-09-03 Samsung Electronics Co., Ltd. Apparatus and method for generating bandwidth extension signal
US8586847B2 (en) * 2011-12-02 2013-11-19 The Echo Nest Corporation Musical fingerprinting based on onset intervals
US11116841B2 (en) 2012-04-20 2021-09-14 Klox Technologies Inc. Biophotonic compositions, kits and methods
CN105976824B (zh) * 2012-12-06 2021-06-08 华为技术有限公司 信号解码的方法和设备
MX341885B (es) 2012-12-13 2016-09-07 Panasonic Ip Corp America Dispositivo de codificacion de sonido de voz, dispositivo de decodificacion de sonido de voz, metodo de codificacion de sonido de voz y metodo de decodificacion de sonido de voz.
CN103107863B (zh) * 2013-01-22 2016-01-20 深圳广晟信源技术有限公司 一种分段平均码率的数字音频信源编码方法及装置
PT3451334T (pt) * 2013-01-29 2020-06-29 Fraunhofer Ges Forschung Conceito de preenchimento de ruído
US20140276354A1 (en) 2013-03-14 2014-09-18 Klox Technologies Inc. Biophotonic materials and uses thereof
CN104282312B (zh) 2013-07-01 2018-02-23 华为技术有限公司 信号编码和解码方法以及设备
CN110867190B (zh) 2013-09-16 2023-10-13 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
TR201802303T4 (tr) * 2013-10-31 2018-03-21 Fraunhofer Ges Forschung Frekans alanında zamansal ön şekillendirilmiş gürültü eklenmesiyle ses bant genişliği uzatma.
CN111370008B (zh) * 2014-02-28 2024-04-09 弗朗霍弗应用研究促进协会 解码装置、编码装置、解码方法、编码方法、终端装置、以及基站装置
CN106409300B (zh) 2014-03-19 2019-12-24 华为技术有限公司 用于信号处理的方法和装置
JPWO2015151451A1 (ja) * 2014-03-31 2017-04-13 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置、符号化方法、復号方法、およびプログラム
CN105336339B (zh) * 2014-06-03 2019-05-03 华为技术有限公司 一种语音频信号的处理方法和装置
US9361899B2 (en) * 2014-07-02 2016-06-07 Nuance Communications, Inc. System and method for compressed domain estimation of the signal to noise ratio of a coded speech signal
CN111968656B (zh) 2014-07-28 2023-11-10 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
EP2980792A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
EP3208800A1 (en) 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
CN105957533B (zh) * 2016-04-22 2020-11-10 杭州微纳科技股份有限公司 语音压缩方法、语音解压方法及音频编码器、音频解码器
CN106782608B (zh) * 2016-12-10 2019-11-05 广州酷狗计算机科技有限公司 噪声检测方法及装置
CN108174031B (zh) * 2017-12-26 2020-12-01 上海展扬通信技术有限公司 一种音量调节方法、终端设备及计算机可读存储介质
US10950251B2 (en) * 2018-03-05 2021-03-16 Dts, Inc. Coding of harmonic signals in transform-based audio codecs
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10580424B2 (en) * 2018-06-01 2020-03-03 Qualcomm Incorporated Perceptual audio coding as sequential decision-making problems
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
CN108833324B (zh) * 2018-06-08 2020-11-27 天津大学 一种基于时域限幅噪声消除的haco-ofdm系统接收方法
CN108922556B (zh) * 2018-07-16 2019-08-27 百度在线网络技术(北京)有限公司 声音处理方法、装置及设备
WO2020207593A1 (en) * 2019-04-11 2020-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program
CN110265043B (zh) * 2019-06-03 2021-06-01 同响科技股份有限公司 自适应有损或无损的音频压缩和解压缩演算方法
US11930230B2 (en) 2019-11-01 2024-03-12 Samsung Electronics Co., Ltd. Hub device, multi-device system including the hub device and plurality of devices, and operating method of the hub device and multi-device system

Family Cites Families (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4899384A (en) * 1986-08-25 1990-02-06 Ibm Corporation Table controlled dynamic bit allocation in a variable rate sub-band speech coder
JPH03181232A (ja) * 1989-12-11 1991-08-07 Toshiba Corp 可変レート符号化方式
JP2560873B2 (ja) * 1990-02-28 1996-12-04 日本ビクター株式会社 直交変換符号化復号化方法
JPH0414355A (ja) 1990-05-08 1992-01-20 Matsushita Electric Ind Co Ltd 構内交換機のリンガ信号送出方法
JPH04168500A (ja) * 1990-10-31 1992-06-16 Sanyo Electric Co Ltd 信号符号化方法
JPH05114863A (ja) * 1991-08-27 1993-05-07 Sony Corp 高能率符号化装置及び復号化装置
JP3141450B2 (ja) * 1991-09-30 2001-03-05 ソニー株式会社 オーディオ信号処理方法
EP0559348A3 (en) * 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
JP3153933B2 (ja) * 1992-06-16 2001-04-09 ソニー株式会社 データ符号化装置及び方法並びにデータ復号化装置及び方法
JPH06348294A (ja) * 1993-06-04 1994-12-22 Sanyo Electric Co Ltd 帯域分割符号化装置
US5893065A (en) * 1994-08-05 1999-04-06 Nippon Steel Corporation Apparatus for compressing audio data
TW271524B (ja) * 1994-08-05 1996-03-01 Qualcomm Inc
KR0144011B1 (ko) * 1994-12-31 1998-07-15 김주용 엠펙 오디오 데이타 고속 비트 할당 및 최적 비트 할당 방법
DE19638997B4 (de) * 1995-09-22 2009-12-10 Samsung Electronics Co., Ltd., Suwon Digitales Toncodierungsverfahren und digitale Toncodierungsvorrichtung
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP3189660B2 (ja) 1996-01-30 2001-07-16 ソニー株式会社 信号符号化方法
JP3181232B2 (ja) 1996-12-19 2001-07-03 立川ブラインド工業株式会社 ロールブラインドのスクリーン取付装置
JP3328532B2 (ja) * 1997-01-22 2002-09-24 シャープ株式会社 デジタルデータの符号化方法
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
JP3802219B2 (ja) * 1998-02-18 2006-07-26 富士通株式会社 音声符号化装置
JP3515903B2 (ja) * 1998-06-16 2004-04-05 松下電器産業株式会社 オーディオ符号化のための動的ビット割り当て方法及び装置
JP4168500B2 (ja) 1998-11-04 2008-10-22 株式会社デンソー 半導体装置およびその実装方法
JP2000148191A (ja) * 1998-11-06 2000-05-26 Matsushita Electric Ind Co Ltd ディジタルオーディオ信号の符号化装置
TW477119B (en) * 1999-01-28 2002-02-21 Winbond Electronics Corp Byte allocation method and device for speech synthesis
JP2000293199A (ja) * 1999-04-05 2000-10-20 Nippon Columbia Co Ltd 音声符号化方法および記録再生装置
US6687663B1 (en) * 1999-06-25 2004-02-03 Lake Technology Limited Audio processing method and apparatus
US6691082B1 (en) 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
JP2002006895A (ja) * 2000-06-20 2002-01-11 Fujitsu Ltd ビット割当装置および方法
JP4055336B2 (ja) * 2000-07-05 2008-03-05 日本電気株式会社 音声符号化装置及びそれに用いる音声符号化方法
JP4190742B2 (ja) * 2001-02-09 2008-12-03 ソニー株式会社 信号処理装置及び方法
ES2260426T3 (es) * 2001-05-08 2006-11-01 Koninklijke Philips Electronics N.V. Codificacion de audio.
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
KR100462611B1 (ko) * 2002-06-27 2004-12-20 삼성전자주식회사 하모닉 성분을 이용한 오디오 코딩방법 및 장치
US7272566B2 (en) * 2003-01-02 2007-09-18 Dolby Laboratories Licensing Corporation Reducing scale factor transmission cost for MPEG-2 advanced audio coding (AAC) using a lattice based post processing technique
FR2849727B1 (fr) * 2003-01-08 2005-03-18 France Telecom Procede de codage et de decodage audio a debit variable
JP2005202248A (ja) * 2004-01-16 2005-07-28 Fujitsu Ltd オーディオ符号化装置およびオーディオ符号化装置のフレーム領域割り当て回路
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
JP2005265865A (ja) * 2004-02-16 2005-09-29 Matsushita Electric Ind Co Ltd オーディオ符号化のためのビット割り当て方法及び装置
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
KR100695125B1 (ko) * 2004-05-28 2007-03-14 삼성전자주식회사 디지털 신호 부호화/복호화 방법 및 장치
US7725313B2 (en) * 2004-09-13 2010-05-25 Ittiam Systems (P) Ltd. Method, system and apparatus for allocating bits in perceptual audio coders
US7979721B2 (en) * 2004-11-15 2011-07-12 Microsoft Corporation Enhanced packaging for PC security
CN1780278A (zh) 2004-11-19 2006-05-31 松下电器产业株式会社 子载波通信系统中自适应调制与编码方法和设备
KR100657948B1 (ko) * 2005-02-03 2006-12-14 삼성전자주식회사 음성향상장치 및 방법
DE202005010080U1 (de) 2005-06-27 2006-11-09 Pfeifer Holding Gmbh & Co. Kg Verbindungsvorrichtung
US7562021B2 (en) * 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
US7734053B2 (en) * 2005-12-06 2010-06-08 Fujitsu Limited Encoding apparatus, encoding method, and computer product
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
JP2007264154A (ja) * 2006-03-28 2007-10-11 Sony Corp オーディオ信号符号化方法、オーディオ信号符号化方法のプログラム、オーディオ信号符号化方法のプログラムを記録した記録媒体及びオーディオ信号符号化装置
JP5114863B2 (ja) * 2006-04-11 2013-01-09 横浜ゴム株式会社 空気入りタイヤおよび空気入りタイヤの組立方法
SG136836A1 (en) * 2006-04-28 2007-11-29 St Microelectronics Asia Adaptive rate control algorithm for low complexity aac encoding
JP4823001B2 (ja) * 2006-09-27 2011-11-24 富士通セミコンダクター株式会社 オーディオ符号化装置
US7953595B2 (en) * 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
KR101291672B1 (ko) * 2007-03-07 2013-08-01 삼성전자주식회사 노이즈 신호 부호화 및 복호화 장치 및 방법
HUE047607T2 (hu) * 2007-08-27 2020-05-28 Ericsson Telefon Ab L M Eljárás és eszköz hangjel észlelési spektrális dekódolására, beleértve a spektrális lyukak kitöltését
US20110035212A1 (en) * 2007-08-27 2011-02-10 Telefonaktiebolaget L M Ericsson (Publ) Transform coding of speech and audio signals
CN101239368A (zh) 2007-09-27 2008-08-13 骆立波 异型盖整平模具及其整平方法
WO2009049896A1 (en) * 2007-10-17 2009-04-23 Fraunhofer-Fesellschaft Zur Förderung Der Angewandten Forschung E.V. Audio coding using upmix
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
US8364471B2 (en) * 2008-11-04 2013-01-29 Lg Electronics Inc. Apparatus and method for processing a time domain audio signal with a noise filling flag
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
CN102222505B (zh) * 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
US9165567B2 (en) * 2010-04-22 2015-10-20 Qualcomm Incorporated Systems, methods, and apparatus for speech feature detection
CN101957398B (zh) 2010-09-16 2012-11-28 河北省电力研究院 一种基于机电与电磁暂态混合仿真技术检测计算电网一次时间常数的方法
JP5609591B2 (ja) * 2010-11-30 2014-10-22 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
FR2969805A1 (fr) * 2010-12-23 2012-06-29 France Telecom Codage bas retard alternant codage predictif et codage par transformee
DK3319087T3 (da) * 2011-03-10 2019-11-04 Ericsson Telefon Ab L M Fyldning af ikke-kodede subvektorer i transformationskodede audiosignaler
US9536534B2 (en) * 2011-04-20 2017-01-03 Panasonic Intellectual Property Corporation Of America Speech/audio encoding apparatus, speech/audio decoding apparatus, and methods thereof
EP2707875A4 (en) * 2011-05-13 2015-03-25 Samsung Electronics Co Ltd NOISE REDUCTION AND AUDIO CODING
DE102011106033A1 (de) * 2011-06-30 2013-01-03 Zte Corporation Verfahren und System zur Audiocodierung und -decodierung und Verfahren zur Schätzung des Rauschpegels
RU2505921C2 (ru) * 2012-02-02 2014-01-27 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ и устройство кодирования и декодирования аудиосигналов (варианты)

Also Published As

Publication number Publication date
TW201301264A (zh) 2013-01-01
US20180012605A1 (en) 2018-01-11
KR20120127334A (ko) 2012-11-21
US20170316785A1 (en) 2017-11-02
US20120290307A1 (en) 2012-11-15
TW201705123A (zh) 2017-02-01
KR102053900B1 (ko) 2019-12-09
RU2013155482A (ru) 2015-06-20
US9236057B2 (en) 2016-01-12
KR20200143332A (ko) 2020-12-23
WO2012157932A3 (en) 2013-01-24
CN105825859B (zh) 2020-02-14
JP2014514617A (ja) 2014-06-19
KR20120127335A (ko) 2012-11-21
KR20220004778A (ko) 2022-01-11
CA2836122C (en) 2020-06-23
EP3937168A1 (en) 2022-01-12
WO2012157931A2 (en) 2012-11-22
TW201250672A (en) 2012-12-16
CN105825859A (zh) 2016-08-03
KR20190138767A (ko) 2019-12-16
CA2836122A1 (en) 2012-11-22
MX2013013261A (es) 2014-02-20
US10276171B2 (en) 2019-04-30
SG194945A1 (en) 2013-12-30
EP2707875A2 (en) 2014-03-19
ZA201309406B (en) 2021-05-26
AU2016262702A1 (en) 2016-12-15
CN105825858A (zh) 2016-08-03
TW201715512A (zh) 2017-05-01
MX337772B (es) 2016-03-18
JP2019168699A (ja) 2019-10-03
KR20210011482A (ko) 2021-02-01
JP2017194690A (ja) 2017-10-26
RU2018108586A (ru) 2019-02-26
CN103650038B (zh) 2016-06-15
US9711155B2 (en) 2017-07-18
EP2707874A2 (en) 2014-03-19
TWI562132B (en) 2016-12-11
KR102053899B1 (ko) 2019-12-09
TWI576829B (zh) 2017-04-01
KR102193621B1 (ko) 2020-12-21
KR102209073B1 (ko) 2021-01-28
AU2012256550B2 (en) 2016-08-25
TW201705124A (zh) 2017-02-01
TWI606441B (zh) 2017-11-21
WO2012157931A3 (en) 2013-01-24
BR112013029347B1 (pt) 2021-05-11
CN105825858B (zh) 2020-02-14
MY186720A (en) 2021-08-12
MX345963B (es) 2017-02-28
RU2648595C2 (ru) 2018-03-26
US20160035354A1 (en) 2016-02-04
WO2012157932A2 (en) 2012-11-22
AU2018200360A1 (en) 2018-02-08
EP2707874A4 (en) 2014-12-03
US10109283B2 (en) 2018-10-23
US9773502B2 (en) 2017-09-26
EP2707875A4 (en) 2015-03-25
AU2012256550A1 (en) 2014-01-16
BR112013029347A2 (pt) 2017-02-07
JP6189831B2 (ja) 2017-08-30
EP3385949A1 (en) 2018-10-10
US9159331B2 (en) 2015-10-13
MY164164A (en) 2017-11-30
AU2016262702B2 (en) 2017-10-19
KR20190139172A (ko) 2019-12-17
TWI562133B (en) 2016-12-11
KR102491547B1 (ko) 2023-01-26
RU2705052C2 (ru) 2019-11-01
US9489960B2 (en) 2016-11-08
KR102284106B1 (ko) 2021-07-30
CN103650038A (zh) 2014-03-19
AU2018200360B2 (en) 2019-03-07
EP3346465A1 (en) 2018-07-11
US20120288117A1 (en) 2012-11-15
US20160099004A1 (en) 2016-04-07
RU2018108586A3 (ja) 2019-04-24
US20170061971A1 (en) 2017-03-02
KR102409305B1 (ko) 2022-06-15
TWI604437B (zh) 2017-11-01

Similar Documents

Publication Publication Date Title
JP6726785B2 (ja) ビット割り当て装置
KR102248252B1 (ko) 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
KR20130090826A (ko) 낮은 복잡도로 오디오 신호를 처리하는 방법 및 장치
TW201337913A (zh) 頻譜編碼方法、音訊編碼裝置、頻譜解碼方法、音訊解碼裝置以及非暫時性電腦可讀儲存媒體

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190418

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200629

R150 Certificate of patent or registration of utility model

Ref document number: 6726785

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250