JP2013037111A - オーディオ信号符号化方法および装置 - Google Patents

オーディオ信号符号化方法および装置 Download PDF

Info

Publication number
JP2013037111A
JP2013037111A JP2011171821A JP2011171821A JP2013037111A JP 2013037111 A JP2013037111 A JP 2013037111A JP 2011171821 A JP2011171821 A JP 2011171821A JP 2011171821 A JP2011171821 A JP 2011171821A JP 2013037111 A JP2013037111 A JP 2013037111A
Authority
JP
Japan
Prior art keywords
bits
channel
usable
bit
quantization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011171821A
Other languages
English (en)
Other versions
JP5704018B2 (ja
JP2013037111A5 (ja
Inventor
Tomoya Fujita
智哉 藤田
Mari Asami
真理 浅見
Jun Ono
小野  純
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Semiconductor Ltd
Original Assignee
Fujitsu Semiconductor Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Semiconductor Ltd filed Critical Fujitsu Semiconductor Ltd
Priority to JP2011171821A priority Critical patent/JP5704018B2/ja
Priority to US13/562,960 priority patent/US9224401B2/en
Publication of JP2013037111A publication Critical patent/JP2013037111A/ja
Publication of JP2013037111A5 publication Critical patent/JP2013037111A5/ja
Application granted granted Critical
Publication of JP5704018B2 publication Critical patent/JP5704018B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】チャネル間の音質のバランスを維持しながら音質が向上したオーディオ信号符号化方法および装置の実現。
【解決手段】オーディオ信号符号化装置であって、知覚エントロピー算出部21と、知覚エントロピーに応じて、各チャネルの使用可能ビット数を決定するビット配分部22と、窓判定部23と、使用可能ビット数を補正する補正部24と、各チャネルのオーディオ信号を、補正された使用可能ビット数以下となるように順次量子化し、その際にフレーム内で既に量子化されたチャネルの余りビット数を順次後のチャネルに加えながら量子化する量子化部25と、を有し、補正部24は、以前のフレームの窓のタイプごとの量子化ビット使用率を算出する使用率履歴算出部31と、量子化ビット使用率で量子化が行われた場合の各チャネルの使用可能ビット数に対する使用率が等しくなるように補正する補正ビット数算出部32と、を有する。
【選択図】図5

Description

本発明は、オーディオ信号符号化方法およびオーディオ信号符号化装置に関する。
オーディオ信号の符号化処理では、データ圧縮のため量子化処理を行っている。オーディオ信号の符号化処理は、例えばコンピュータを利用して行なわれる。量子化処理においては、各チャネルのスペクトル情報が、ビットレートによって決定される使用可能ビット数以下になるよう、量子化スケールを補正し量子化処理を完了させている。そのため、実際の量子化処理では、量子化ビット数が使用可能ビット数より小さくなり、余りビットが発生することがある。
一方、オーディオ信号では、ステレオや5.1チャネル音声などの臨場感が得られるオーディオ信号が広く使用されており、複数チャネルをそれぞれ符号化し、複数チャネルの符号化後のビット数の総計が総使用可能ビット数より小さくなる必要がある。複数チャネルのオーディオ信号の符号化では、上記のような余りビットを有効に活用することが求められている。例えば、先に符号化したチャネルの余りビットを後で符号化するチャネルの使用可能ビット数に加えて、総使用可能ビット数におけるビット使用率を向上することが行なわれる。
特開2010−156837号公報 特開平11−219197号公報 特開2001−154695号公報 特開2001−154698号公報
しかし、ビット使用率が向上するのは、後で符号化する第2チャネル以降のチャネルのみで、チャネルごとの音質に差が発生する。実施形態によれば、チャネル間の音質のバランスを維持しながら音質が向上した複数チャネルオーディオ信号符号化方法および装置が実現される。
本発明の第1の観点によれば、フレーム内の総ビット数が上限ビット数以下となるように、複数チャネルのオーディオ信号をそれぞれ符号化するオーディオ信号符号化方法であって、各チャネルのオーディオ信号の知覚エントロピーを算出し、知覚エントロピーに応じて、各チャネルに使用可能ビット数を配分し、使用可能ビット数を補正し、各チャネルのオーディオ信号を、補正した使用可能ビット数以下となるように順次量子化する時に、フレーム内で既に量子化したチャネルで実際に量子化に使用されたビット数と補正した使用可能ビット数との差である余りビット数を順次後のチャネルの使用可能ビット数に加えながら量子化し、使用可能ビット数の補正は、処理対象のフレームより前のフレームの符号化データに基づいて窓の種類(タイプ)ごとの量子化ビット使用率を算出し、算出した量子化ビット使用率で量子化が行われたと仮定した場合の各チャネルの使用可能ビット数に対する使用率が等しくなるように、使用可能ビット数を補正するオーディオ信号符号化方法が提供される。
本発明の第2の観点によれば、フレーム内の総ビット数が上限ビット数以下となるように、複数チャネルのオーディオ信号をそれぞれ符号化するオーディオ信号符号化装置であって、各チャネルのオーディオ信号の知覚エントロピーを算出する知覚エントロピー算出部と、知覚エントロピーに応じて、各チャネルの使用可能ビット数を決定するビット配分部と、各チャネルのオーディオ信号の窓のタイプを判定する窓判定部と、使用可能ビット数を補正する補正部と、各チャネルのオーディオ信号を、補正した使用可能ビット数以下となるように順次量子化する時に、フレーム内で既に量子化したチャネルで実際に量子化に使用されたビット数と補正した使用可能ビット数との差である余りビット数を順次後のチャネルの使用可能ビット数に加えながら量子化する量子化部と、を有し、補正部は、処理対象のフレームより前の符号化データに基づいて窓のタイプごとの量子化ビット使用率を算出する使用率履歴算出部と、算出した量子化ビット使用率で量子化が行われたと仮定した場合の各チャネルの使用可能ビット数に対する使用率が等しくなるように、使用可能ビット数を補正する補正ビット数算出部と、を有するオーディオ信号符号化装置が提供される。
実施形態によれば、複数チャネルのオーディオ信号符号化処理を行う時に、チャネル間の音質のバランスを維持しながら、音質を向上させることができる。
図1は、量子化処理が理想状態で行われる場合の量子化後のビット数の変化を示す図である。 図2は、量子化スケール補正回数が有限である場合の量子化後のビット数の変化を示す図である。 図3は、複数チャネルのオーディオ信号の符号化処理において、既に符号化したチャネルの余りビットを次に符号化するチャネルの使用可能ビット数に加える場合の処理を示すフローチャートである。 図4は、実施形態の複数チャネルオーディオ信号符号化装置のハードウエア構成を示す図である。 図5は、図4に示したハードウエア構成を有する実施形態の符号化装置の処理ブロック図である。 図6は、実施形態の符号化装置における、複数チャネル(ここでは2チャネル)のオーディオ信号の符号化処理を示すフローチャートである。 図7は、補正ビット数算出部における補正ビット数算出処理を示すフローチャートである。
まず、以下に説明する実施形態の基礎となる技術を図を参照して説明する。
図1は、量子化処理が理想状態で行われる場合の量子化後のビット数の変化を示す図である。図1に示すように、理想状態では、量子化スケール補正回数を無限にし、量子化処理を完了させることで、使用可能な量子化ビット数(以降、使用可能ビット数ともいう)を使い切ること、言い換えれば、量子化後のビット数が使用可能ビット数に等しくなった状態で、量子化処理を終了できる。しかし通常、量子化スケール補正回数を増加させると処理量が増加し、その分処理時間が増加し、所定時間内に量子化処理を終了することができない。そのため、現実には量子化スケール補正回数が無限であるという理想状態で量子化処理を行うことはできず、量子化スケール補正回数を有限に設定する。
図2は、量子化スケール補正回数が有限である場合の量子化後のビット数の変化を示す図である。量子化スケール補正回数が有限であるため、できるだけ早い段階で量子化を完了させることが望ましい。そのため、量子化スケールの補正ステップの間隔をある程度大きく設定するが、各チャネルの量子化ビットは、量子化ビット数<使用可能ビット数の関係になり、ビットが余る。
オーディオ信号では、臨場感が得られるステレオ・オーディオ信号が従来から広く使用されており、近年、従来のステレオよりの臨場感に優れた5.1チャネル音声のコンテンツも増加している。このような複数チャネルのオーディオ信号を符号化する場合、フレームごとに複数チャネルをそれぞれ符号化し、複数チャネルの符号化後のビット数の総計が総使用可能ビット数より小さくなる必要がある。
近年デジタルコンテンツの情報は膨大になっており、オーディオ信号においても「低ビットレートで高音質」という要求がある。そのため、複数チャネルのオーディオ信号の符号化でも、上記のような余りビットを有効に活用することで、高音質を実現することが望ましい。そこで、複数チャネルのオーディオ信号を使用可能ビット数以下となるように順次量子化する際に、フレーム内で既に量子化したチャネルの実際に量子化に使用したビット数と配分した使用可能ビット数との差である余りビット数を算出する。そして、余りビット数を、これから符号化処理するチャネルの使用可能ビット数に加えて量子化することが行なわれる。例えば、2チャネルの場合、総ビット数を、第1チャネルの第1使用可能ビット数と、第2チャネルの第2使用可能ビット数と、にそれぞれ配分する。次に、第1チャネルのオーディオ信号を第1使用可能ビット数以下となるように量子化する。この場合、図2に示すように量子化された第1チャネルのオーディオ信号のビット数は、第1使用可能ビット数より小さくなり、余りビットを生じる。次に、第2チャネルのオーディオ信号を量子化するが、この場合に、第2使用可能ビット数に余りビット数を加えたビット数を修正第2使用可能ビット数として、修正第2使用可能ビット数以下となるように第2チャネルのオーディオ信号を量子化する。これにより、使用可能な総ビット数を有効に使用できる。
図3は、複数チャネル(ここでは2チャネル)のオーディオ信号の符号化処理において、既に符号化したチャネルの余りビットを次に符号化するチャネルの使用可能ビット数に加える場合の処理を示すフローチャートである。
ステップS11では、入力された複数チャネルのオーディオ信号から聴覚心理モデルを導出する。
ステップS12では、ショート窓(SHORT WINDOW)であるかロング窓(LONG WINDOW)であるかを選択する。
ステップS13では、変形離散コサイン変換(MDCT: Modified Discrete Cosine Transform)を行い、入力信号を時間領域から周波数領域へ変換し、聴覚心理モデルの周波数分解能に応じたスケールファクタバンドに分割する。
ステップS14では、聴覚心理モデルとMDCT係数により、マスキングパワーをスケールファクタバンドごとに導出する。
ステップS15では、MDCT係数とマスキングパワーから知覚エントロピーを各チャネルに対して導出する。
ステップS16では、知覚エントロピーに基づいて各チャネルへ使用可能ビット数を割り当てる。
ステップS17では、第1チャネル(CH1)のオーディオ信号について、各スケールファクタバンドのスケーリング処理を行い、第1使用可能ビット数以下になるように量子化する。この時、余りビットが発生する。
ステップS18では、第2チャネル(CH2)の第2使用可能ビット数にステップS17で発生した余りビットを加えた修正第2使用可能ビット数を算出する。その上で、第2チャネル(CH2)のオーディオ信号を、各スケールファクタバンドごとにスケーリング処理を行い、修正第2使用可能ビット以下になるように量子化する。
ステップS19では、量子化されたMDCT係数をハフマン符号化により圧縮する。
以上のようにして得られた符号化データからストリームを生成して出力する。
図3のフローチャートにおいて、ステップS18で行う、既に符号化した第1チャネルの余りビットを次に符号化する第2チャネルの使用可能ビット数に加えること以外は、広く知られている処理であり、説明は省略する。
上記のように、先に符号化した第1チャネルの余りビットを後で符号化する第2チャネルの使用可能ビット数に加えた場合、後から量子化する第2チャネル使用可能ビット数が増加し、総使用可能ビット数におけるビット使用率は向上する。しかし、ビット使用率が向上するのは、後で符号化する第2チャネルのみで、チャネルごとの音質に差が発生し、チャネル間の音質のバランスが劣化する。
図4は、実施形態の複数チャネルオーディオ信号符号化装置(以下、符号化装置と略称する)のハードウエア構成の一例を示す図である。
図4に示すように、実施形態の符号化装置は、CPU(Central Processing Unit)11、メモリ12、メモリコントローラ13、I/Oポート(Input/Output Port)15、オーディオ(Audio)信号入力部16と、ストリーム(Stream)出力部17と、を有する。オーディオ信号入力部16は、オーディオ入力信号(音)を外部からシステム内部へ取り込み、入力されたオーディオ信号が、アナログ信号であれば、所定のサンプリング周波数でA/D変換してデジタルデータを生成する。ここでは、オーディオ入力信号はデジタルデータであるとして説明する。メモリコントローラ13は、CPU11やなどのハードウエア要素の要求に従い、メモリ12へのリード(Read)、ライト(Write)を制御する。CPU11は、装置全体の制御、および入力データに対して符号化処理を行い、ストリームを生成する。I/Oポート15は、USB(Universal Serial Bus)、SDなどの外部デバイスとのインターフェイスである。ストリーム出力部17は、生成されたストリームを出力する。
図4において、参照符号A〜Cは、処理における信号・データの流れを示す。Aのように、処理対象であるオーディオ入力データは、オーディオ信号入力部16によって装置内部に取り込まれ、メモリコントローラ13を介して、メモリ12に保存される。Bのように、CPU11はメモリコントローラ13を介して、メモリ12上にあるオーディオ入力データを内部へロードし、符号化処理を行う。なお、CPU11は、符号化処理の結果得られたビット使用率を、メモリコントローラ13を介してメモリ12に記憶し、窓のタイプ別に管理する。Cのように、符号化されたオーディオ出力データは、ストリーム出力部17または、I/Oポート15を介して外部デバイス外部へ出力される。
図4に示したハードウエア構成は、オーディオ信号処理に広く使用される構成であり、これ以上の説明は省略する。なお、実施形態の符号化装置のハードウエア構成は、図4の構成に限定されるものではない。
図5は、図4に示したハードウエア構成を有する実施形態の符号化装置の処理ブロック図である。
実施形態の符号化装置は、フレーム内の総ビット数が上限ビット数以下となるように、複数チャネルのオーディオ信号をそれぞれ符号化する。図5に示すように、実施形態の符号化装置は、知覚エントロピー算出部21と、ビット配分部22と、窓判定部23と、補正部24と、量子化部25と、履歴データ記憶部30と、を有する。補正部24は、使用率履歴算出部31と、補正ビット数算出部32と、を有する。
知覚エントロピー算出部21は、各チャネルのオーディオ信号の知覚エントロピーを算出する。ビット配分部22は、知覚エントロピーに応じて、各チャネルの使用可能ビット数を決定する。窓判定部23は、各チャネルのオーディオ信号の窓がショート窓またはロング窓であるかなど窓のタイプを判定する。窓判定部23は、例えば、オーディオ信号が過度信号の場合にはショート窓を、定常信号の場合にはロング窓を選択する。量子化部25は、各チャネルのオーディオ信号を、使用可能ビット数以下となるように順次量子化し、その際にフレーム内で既に量子化したチャネルの実際に量子化に使用したビット数と使用可能ビット数との差である余りビット数を順次後のチャネルの使用可能ビット数に加えながら量子化する。履歴データ記憶部30は、量子化部25による量子化処理の結果得られたチャネル毎のビット使用率を記憶する。
補正部24は、ビット配分部22が決定した各チャネルの使用可能ビット数を補正する。補正のアルゴリズムは、窓情報(タイプ)ごとに過去のN−1フレーム分の量子化ビット平均使用率を求める。この量子化ビット平均使用率を用いて、先に量子化するチャネル(後述する図6の場合はCH1)の余りビット数を、後から量子化するチャネル(後述する図6の場合はCH2)の量子化使用可能ビット数に加算する。そして、加算した場合で過去の量子化ビット平均使用率と同じビット使用率で量子化が行なわれた場合に、ビット配分時の使用可能ビット数に対して、量子化ビット使用率がすべてのチャネルで一致するように補正ビット数を計算する。
使用率履歴算出部31は、履歴データ記憶部30に記憶された処理対象のフレームより前のフレームのビット使用率から、量子化ビット使用率の実績平均値を窓のタイプ別に算出する。補正ビット数算出部32は、算出した実績平均値である量子化ビット使用率で量子化が行われたと仮定した場合の各チャネルの使用可能ビット数に対する予測使用率が等しくなるように補正ビット数を算出し、算出した補正ビット数を各チャネルの使用可能ビット数に加えて補正する。これにより、各チャネルにおいて配分されたビット数に対してビット使用率を向上させることができる。また、各チャネルの配分されたビット数に対する量子化ビット使用率も近づけることができ、チャネル間の音質差分課題を解消することが可能となる。
なお、履歴データ記憶部30が記憶するビット使用率は、各チャネルの配分されたビット数に対する量子化ビット使用率ではなく、補正された使用可能ビット数に対するビット使用率である。
図6は、実施形態の符号化装置における、複数チャネル(ここでは2チャネル)のオーディオ信号の符号化処理を示すフローチャートである。
ステップS11からS16までは、図3で説明したフローチャートの場合と同じであり、説明は省略する。
ステップS21では、補正部24が、ビット配分部22が決定した各チャネルの使用可能ビット数を補正する。
ステップS22からS24は、補正された使用可能ビット数に対して処理を行うこと以外は、図3で説明したフローチャートのS17からS19の場合と同じであり、説明は省略する。
図7は、補正ビット数算出部32における補正ビット数算出処理を示すフローチャートであり、チャネルがCH1とCH2の2チャネルの場合の例を示している。
現在フレーム番号をn、現在フレームのビット配分処理にて各チャネルに割り当てられた使用可能ビット数をCH1(n),CH2(n)、ロング窓およびショート窓の量子化ビット使用率をそれぞれRateL(n), RateS(n)で表す。なお、各チャネルの窓情報は、CH1=LONG, CH2=SHORTとする。
ステップS31では、現在フレームの窓情報に応じて、ロング窓であればステップS32に進み、ショート窓であれば、ステップS33に進む。
ステップS32では、過去のフレーム0〜n−1までのフィードバック情報におけるロング窓の量子化ビット平均使用率RateL(n)を、式(1)により導出し、ステップS34に進む。
Figure 2013037111
ステップS33では、過去のフレーム0〜n−1までのフィードバック情報におけるショート窓の量子化ビット平均使用率RateS(n)を、式(2)により導出し、ステップS34に進む。
Figure 2013037111
ステップS34では、チャネルごとに補正ビット数を算出する。ここで、CH1=LONG, CH2=SHORTであるから、第1および第2チャネルの量子化ビット使用率をRateCH1(n),RateCH2(n)とすると、
RateCH1(n)= RateL(n)
RateCH2(n)= RateS(n)
と、予測することができる。
補正ビット数AdjustBits(n)を考慮した場合において、第1および第2チャネルで量子化ビット使用率RateCH1(n),RateCH2(n)で量子化が行なわれると仮定する。そして、この仮定の下で、各チャネルのビット配分時の使用可能ビット数に対してのビット使用率をCH1x,CH2xとし、これらを式(3)および(4)にしたがって求める。
Figure 2013037111
Figure 2013037111
ここで、式(3)および(4)においてCH1x=CH2xとして、補正ビット数AdjustBits(n)について解くと、式(5)が得られる。
Figure 2013037111
この式(5)は、CH1x=CH2xとするための補正ビット数AdjustBits(n)を示す。
ステップS35では、算出した補正ビット数AdjustBits(n)を、各チャネルのビット配分時の使用可能ビット数に加算(負の場合は減算)する。
以下、上記の方法で補正ビット数を算出する具体例を説明する。
[例1: 2つのチャネル(CH1,CH2)の量子化ビット平均使用率が等しい場合]
CH1がロング窓、CH2がショート窓とし、ロング窓とショート窓の量子化ビット使用率を0.8、両チャネル使用可能ビット数を2000ビット、知覚エントロピーによるビット配分比率をCH1:CH2=1:3とし、量子化処理は、CH1を行った後CH2を行うものとする。なお、ビット使用率は、ビット配分時の使用可能ビット数に対する量子化部で使用したビット数の割合である。
まず、補正を行わない場合について説明する。
CH1:CH2=1:3のビット配分比率で配分するため、CH1=500ビット、CH2=1500ビットが配分される。CH1で量子化が行なわれ、ビット使用率は0.8であるから、400ビットが使用され、100ビットが余る。余った100ビットはCH2に加えられて、CH2には1600ビットが割り当てられる。CH2のビット使用率も0.8であるから、1600×0.8=1280ビットが使用され、320ビットが余る。CH2に最初に配分されたのは1500ビットであるから、CH2のビット使用率は、1280/1500=0.85となる。CH1とCH2で実際に使用されたビット数は、400+1280=1680ビットになる。
したがって、補正を行わない場合の各チャネルの使用可能ビット数とビット使用率は、表1のようになる。
Figure 2013037111
次に、実施形態のように補正を行う場合について説明する。
上記と同様に、CH1:CH2=1:3のビット配分比率で配分するため、CH1=500ビット、CH2=1500ビットが配分される。次に、前のフレームまでのビット使用率は、ロング窓およびショート窓の両方とも0.8である。したがって、式5は次のようにして解かれる。
(500*1500(0.8-0.8)+500*500*0.8*(1-0.8))/(0.8*(1500+500*0.8))=26.32
したがって、補正ビット数は26になり、CH1の補正後の配分ビット数は526になり、CH2の補正後の配分ビット数は1474になる。ビット使用率は0.8であるから、CH1では、526×0.8=420ビットが使用され、106ビットが余る。最初に配分された500ビットに対するビット使用率は84%になる。余った106ビットはCH2に加えられて、CH2には1580ビットが割り当てられる。ビット使用率は0.8であるから、CH2では、1580×0.8=1264ビットが使用され、最初に配分された1500ビットに対するビット使用率は0.84(84%)になる。CH1とCH2で実際に使用されたビット数は、420+1264=1684ビットになる。
したがって、補正を行った場合の各チャネルの使用可能ビット数とビット使用率は、表2のようになる。
Figure 2013037111
以上のように、補正後はCH1とCH2のビット使用率の差が無く、チャネル間の音質のバランスも維持できる。
[例2: 2つのチャネル(CH1,CH2)の量子化ビット平均使用率が等しくない場合]
CH1がショート窓、CH2がロング窓とし、ショート窓の量子化ビット使用率を0.9、ロング窓の量子化ビット使用率を0.6、両チャネル使用可能ビット数を3000ビット、知覚エントロピーによるビット配分比率をCH1:CH2=3:1とし、量子化処理は、CH1を行った後CH2を行うものとする。
まず、補正を行わない場合について説明する。
CH1:CH2=3:1のビット配分比率で配分するため、CH1=2250ビット、CH2=750ビットが配分される。CH1で量子化が行なわれ、ショート窓のビット使用率は0.9であるから、2025ビットが使用され、225ビットが余る。余った225ビットはCH2に加えられて、CH2には975ビットが割り当てられる。ロング窓のCH2のビット使用率は0.6であるから、975×0.6=585ビットが使用され、390ビットが余る。CH2に最初に配分されたのは750ビットであるから、CH2のビット使用率は、585/750=0.78となる。
したがって、補正を行わない場合の各チャネルの使用可能ビット数とビット使用率は、表3のようになる。
Figure 2013037111
したがって、CH1のビット使用率が0.9であり、一方CH2のビット使用率は0.78となり、ビット使用率に差分が生じて、チャネル間の音質のバランスが劣化する。
次に、実施形態のように補正を行う場合について説明する。
上記と同様に、CH1:CH2=3:1のビット配分比率で配分するため、CH1=2250ビット、CH2=750ビットが配分される。次に、ビット使用率は、ロング窓が0.6、ショート窓が0.9である。したがって、式5は次のようにして解かれる。
(2250*750(0.6-0.9)+2250*2250*0.6*(1-0.9))/(0.9*(750+2250*0.6))=-107.14
したがって、補正ビット数は−107になり、CH1の補正後の配分ビット数は2143になり、CH2の補正後の配分ビット数は857になる。CH1では、ビット使用率は0.9であるから、2143×0.9=1929ビットが使用され、214ビットが余る。最初に配分された2250ビットに対するビット使用率は86%になる。余った214ビットはCH2に加えられて、CH2には1071ビットが割り当てられる。ビット使用率は0.6であるから、CH2では、1071×0.6=642ビットが使用され、最初に配分された750ビットに対するビット使用率は0.86(86%)になる。
したがって、補正を行った場合の各チャネルの使用可能ビット数とビット使用率は、表4のようになる。
Figure 2013037111
以上のように、補正後はCH1とCH2のビット使用率の差が無く、チャネル間の音質のバランスが維持できる。
[例3: 3つのチャネル(CH1,CH2,CH3)の量子化ビット平均使用率が等しくない場合]
CH1がロング窓、CH2がショート窓、CH3がロング窓とし、ショート窓の量子化ビット使用率を0.6、ロング窓の量子化ビット使用率を0.9、両チャネル使用可能ビット数を3000ビット、知覚エントロピーによるビット配分比率をCH1:CH2:CH3=1:3:2とし、量子化処理は、CH1、CH2、CH3の順番で行うものとする。
まず、補正を行わない場合について説明する。
CH1:CH2:CH3=1:3:2のビット配分比率で配分するため、CH1=500ビット、CH2=1500ビット、CH3=1000ビットが配分される。CH1で量子化が行なわれ、ロング窓のCH1のビット使用率は0.9であるから、450ビットが使用され、50ビットが余る。余った50ビットはCH2に加えられて、CH2には1550ビットが割り当てられる。ショート窓のCH2のビット使用率は0.6であるから、1550×0.6=930ビットが使用され、620ビットが余る。余った620ビットはCH3に加えられて、CH3には1620ビットが割り当てられる。ロング窓のCH3のビット使用率は0.9であるから、1620×0.9=1458ビットが使用される。
CH1に最初に配分されたのは500ビット、CH2に最初に配分されたのは1500ビット、CH3に最初に配分されたのは1000ビットであるから、CH1〜CH3のビット使用率は、0.9、0.62、1.46となる。
したがって、補正を行わない場合の各チャネルの使用可能ビット数とビット使用率は、表5のようになる。
Figure 2013037111
したがって、CH1〜CH3のビット使用率に差分が生じて、チャネル間の音質のバランスが劣化する。
次に、実施形態のように補正を行う場合について説明する。
上記と同様に、CH1:CH2:CH3=1:3:2のビット配分比率で配分するため、CH1=500ビット、CH2=1500ビット、CH3=1000ビットが配分される。次に、ビット使用率は、ロング窓が0.9、ショート窓が0.6である。3チャネルであるので、式5は使用できず、補正ビット数は、次のようにして求められる。
まず、CH1〜CH3の使用可能ビット数をそれぞれC1〜C3、量子化ビット使用率をR1〜R3とすると、各チャネルに加える補正ビット数A1〜A3は、式6〜式8で求められる。
Figure 2013037111
Figure 2013037111
Figure 2013037111
計算の途中経過の説明は省略する。
補正を行った場合の各チャネルの使用可能ビット数とビット使用率は、表6のようになる。
Figure 2013037111
以上のように、補正後はCH1〜CH3のビット使用率の差が無く、チャネル間の音質のバランスが維持できる。
以上、実施形態を説明したが、ここに記載したすべての例や条件は、発明および技術に適用する発明の概念の理解を助ける目的で記載されたものであり、特に記載された例や条件は発明の範囲を制限することを意図するものではなく、明細書のそのような例の構成は発明の利点および欠点を示すものではない。発明の実施形態を詳細に記載したが、各種の変更、置き換え、変形が発明の精神および範囲を逸脱することなく行えることが理解されるべきである。
21 知覚エントロピー算出部
22 ビット配分部
23 窓判定部
24 補正部
25 量子化部
30 履歴データ記憶部
31 使用率履歴算出部
32 補正ビット数算出部

Claims (3)

  1. フレーム内の総ビット数が上限ビット数以下となるように、複数チャネルのオーディオ信号をそれぞれ符号化するオーディオ信号符号化方法であって、
    各チャネルのオーディオ信号の知覚エントロピーを算出し、
    前記知覚エントロピーに応じて、各チャネルに使用可能ビット数を配分し、
    前記使用可能ビット数を補正し、
    前記各チャネルのオーディオ信号を、補正した前記使用可能ビット数以下となるように順次量子化する時に、前記フレーム内で既に量子化したチャネルで実際に量子化に使用されたビット数と前記補正した使用可能ビット数との差である余りビット数を順次後のチャネルの使用可能ビット数に加えながら量子化し、
    前記使用可能ビット数の補正は、処理対象のフレームより前のフレームの符号化データに基づいて窓のタイプごとの量子化ビット使用率を算出し、算出した前記量子化ビット使用率で量子化が行われたと仮定した場合の各チャネルの使用可能ビット数に対する使用率が等しくなるように、前記使用可能ビット数を補正する
    ことを特徴とするオーディオ信号符号化方法。
  2. フレーム内の総ビット数が上限ビット数以下となるように、複数チャネルのオーディオ信号をそれぞれ符号化するオーディオ信号符号化装置であって、
    各チャネルのオーディオ信号の知覚エントロピーを算出する知覚エントロピー算出部と、
    前記知覚エントロピーに応じて、各チャネルの使用可能ビット数を決定するビット配分部と、
    前記各チャネルのオーディオ信号の窓のタイプを判定する窓判定部と、
    前記使用可能ビット数を補正する補正部と、
    前記各チャネルのオーディオ信号を、補正した前記使用可能ビット数以下となるように順次量子化する時に、前記フレーム内で既に量子化したチャネルで実際に量子化に使用されたビット数と補正した使用可能ビット数との差である余りビット数を順次後のチャネルの使用可能ビット数に加えながら量子化する量子化部と、を備え、
    前記補正部は、
    処理対象のフレームより前の符号化データに基づいて窓のタイプごとの量子化ビット使用率を算出する使用率履歴算出部と、
    算出した前記量子化ビット使用率で量子化が行われたと仮定した場合の各チャネルの使用可能ビット数に対する使用率が等しくなるように、前記使用可能ビット数を補正する補正ビット数算出部と、を備えることを特徴とするオーディオ信号符号化装置。
  3. 前記量子化部が出力するタイプごとの量子化ビット使用率を含む符号化データを記憶する履歴データ記憶部を備え、
    前記使用率履歴算出部は、前記履歴データ記憶部に記憶された処理対象のフレームより前の符号化データに基づいて窓のタイプごとの量子化ビット使用率を算出する請求項2記載の複数チャネルオーディオ信号符号化装置。
JP2011171821A 2011-08-05 2011-08-05 オーディオ信号符号化方法および装置 Active JP5704018B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011171821A JP5704018B2 (ja) 2011-08-05 2011-08-05 オーディオ信号符号化方法および装置
US13/562,960 US9224401B2 (en) 2011-08-05 2012-07-31 Audio signal encoding method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011171821A JP5704018B2 (ja) 2011-08-05 2011-08-05 オーディオ信号符号化方法および装置

Publications (3)

Publication Number Publication Date
JP2013037111A true JP2013037111A (ja) 2013-02-21
JP2013037111A5 JP2013037111A5 (ja) 2014-06-19
JP5704018B2 JP5704018B2 (ja) 2015-04-22

Family

ID=47626961

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011171821A Active JP5704018B2 (ja) 2011-08-05 2011-08-05 オーディオ信号符号化方法および装置

Country Status (2)

Country Link
US (1) US9224401B2 (ja)
JP (1) JP5704018B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016075737A1 (ja) * 2014-11-10 2016-05-19 株式会社ワンダーフューチャーコーポレーション タッチパネル、タッチパネルの製造方法、及びタッチパネル一体型表示装置
CN109635209B (zh) * 2018-12-12 2021-03-12 广东小天才科技有限公司 一种学习内容推荐方法及家教设备
CN112599139B (zh) * 2020-12-24 2023-11-24 维沃移动通信有限公司 编码方法、装置、电子设备及存储介质
CN117093182B (zh) * 2023-10-10 2024-04-02 荣耀终端有限公司 一种音频播放方法、电子设备和计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0758707A (ja) * 1993-08-20 1995-03-03 Fujitsu Ltd 量子化ビット割当方式
JPH11219197A (ja) * 1998-02-02 1999-08-10 Fujitsu Ltd オーディオ信号符号化方法及び装置
JP2004309921A (ja) * 2003-04-09 2004-11-04 Sony Corp 符号化装置、符号化方法及びプログラム
JP2006345063A (ja) * 2005-06-07 2006-12-21 Oki Electric Ind Co Ltd 量子化装置、符号化装置、量子化方法および符号化方法
EP1873753A1 (en) * 2004-04-01 2008-01-02 Beijing Media Works Co., Ltd Enhanced audio encoding/decoding device and method
JP2009116371A (ja) * 2001-11-14 2009-05-28 Panasonic Corp 符号化装置および復号化装置
JP2010156837A (ja) * 2008-12-26 2010-07-15 Fujitsu Ltd オーディオ符号化装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001154695A (ja) 1999-11-24 2001-06-08 Victor Co Of Japan Ltd オーディオ符号化装置及びその方法
JP2001154698A (ja) 1999-11-29 2001-06-08 Victor Co Of Japan Ltd オーディオ符号化装置及びその方法
US7027982B2 (en) * 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
US7668715B1 (en) * 2004-11-30 2010-02-23 Cirrus Logic, Inc. Methods for selecting an initial quantization step size in audio encoders and systems using the same
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
JP5609591B2 (ja) * 2010-11-30 2014-10-22 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
GB2490879B (en) * 2011-05-12 2018-12-26 Qualcomm Technologies Int Ltd Hybrid coded audio data streaming apparatus and method

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0758707A (ja) * 1993-08-20 1995-03-03 Fujitsu Ltd 量子化ビット割当方式
JPH11219197A (ja) * 1998-02-02 1999-08-10 Fujitsu Ltd オーディオ信号符号化方法及び装置
JP2009116371A (ja) * 2001-11-14 2009-05-28 Panasonic Corp 符号化装置および復号化装置
JP2004309921A (ja) * 2003-04-09 2004-11-04 Sony Corp 符号化装置、符号化方法及びプログラム
EP1873753A1 (en) * 2004-04-01 2008-01-02 Beijing Media Works Co., Ltd Enhanced audio encoding/decoding device and method
JP2006345063A (ja) * 2005-06-07 2006-12-21 Oki Electric Ind Co Ltd 量子化装置、符号化装置、量子化方法および符号化方法
JP2010156837A (ja) * 2008-12-26 2010-07-15 Fujitsu Ltd オーディオ符号化装置

Also Published As

Publication number Publication date
US20130034233A1 (en) 2013-02-07
JP5704018B2 (ja) 2015-04-22
US9224401B2 (en) 2015-12-29

Similar Documents

Publication Publication Date Title
US20230245665A1 (en) Decoding apparatus and method, and program
KR101353216B1 (ko) 팩토리얼 펄스 코더를 위한 산술 인코딩
EP2159790B1 (en) Audio encoding method, audio decoding method, audio encoding device, audio decoding device, program, and audio encoding/decoding system
KR101353170B1 (ko) 완전히 활용되지 않는 코드 공간을 압축하는데 산술 스테이지를 이용하는 인코더 및 디코더
AU2018200552A1 (en) Encoding method and apparatus
WO2006054583A1 (ja) オーディオ信号符号化装置および方法
US20090132238A1 (en) Efficient method for reusing scale factors to improve the efficiency of an audio encoder
JP5704018B2 (ja) オーディオ信号符号化方法および装置
JP5201375B2 (ja) チャネル間及び一時的冗長度抑圧を用いた音声信号符号化
JP2019529979A (ja) インデックスコーディング及びビットスケジューリングを備えた量子化器
JP7257965B2 (ja) デジタルオーディオ信号における差分データ
MX2012002182A (es) Determinacion de factor de escala de banda de frecuencia en la codificacion de audio con base en la energia de señal de banda de frecuencia.
US8576910B2 (en) Parameter selection method, parameter selection apparatus, program, and recording medium
US8593321B2 (en) Computation apparatus and method, quantization apparatus and method, and program
JP2004309921A (ja) 符号化装置、符号化方法及びプログラム
WO2015146224A1 (ja) 符号化方法、符号化装置、プログラム、および記録媒体
US8601039B2 (en) Computation apparatus and method, quantization apparatus and method, and program
JPH0969781A (ja) オーディオデータ符号化装置
JP2014085542A (ja) オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム
WO2017109865A1 (ja) データ圧縮装置、データ伸長装置、データ圧縮プログラム、データ伸長プログラム、データ圧縮方法及びデータ伸長方法
JP3889738B2 (ja) 逆量子化装置、オーディオ復号化装置、画像復号化装置、逆量子化方法および逆量子化プログラム
US20120143614A1 (en) Encoding apparatus, encoding method, decoding apparatus, decoding method, and program
JP2002311997A (ja) オーディオ信号符号化装置
JP2023523074A (ja) 線形予測符号化パラメータの符号化方法および符号化装置
JP2003108192A (ja) オーディオ信号符号化方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140502

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140502

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150209

R150 Certificate of patent or registration of utility model

Ref document number: 5704018

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350