JP2009063623A - 符号化装置および符号化方法、ならびに復号化装置および復号化方法 - Google Patents

符号化装置および符号化方法、ならびに復号化装置および復号化方法 Download PDF

Info

Publication number
JP2009063623A
JP2009063623A JP2007228853A JP2007228853A JP2009063623A JP 2009063623 A JP2009063623 A JP 2009063623A JP 2007228853 A JP2007228853 A JP 2007228853A JP 2007228853 A JP2007228853 A JP 2007228853A JP 2009063623 A JP2009063623 A JP 2009063623A
Authority
JP
Japan
Prior art keywords
band
main
signal
information
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007228853A
Other languages
English (en)
Other versions
JP4973397B2 (ja
Inventor
Masayuki Ueda
雅之 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007228853A priority Critical patent/JP4973397B2/ja
Publication of JP2009063623A publication Critical patent/JP2009063623A/ja
Application granted granted Critical
Publication of JP4973397B2 publication Critical patent/JP4973397B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】聴感上の音質劣化を解決することが可能な符号化装置および符号化方法、ならびに復号化装置および復号化方法を提供する。
【解決手段】符号化装置は、オーディオ信号を複数の周波数帯域に分割する分割手段102と、前記周波数帯域ごとにエネルギーを算出し前記複数の周波数帯域のうち当該エネルギーが最大の周波数帯域を主帯域として選出する選出手段104と、前記オーディオ信号のマスキング特性を検出する分析手段105と、前記マスキング特性に基づいて少なくとも前記主帯域内の信号を符号化して主符号情報を生成する符号手段106と、前記主帯域内の信号と、前記複数の周波数帯域のうち前記主符号情報の元となった帯域以外の副帯域内の信号と、の相関関係を示す擬似帯域情報を生成する生成手段107と、前記主符号情報と前記擬似帯域情報を多重化して符号化信号を出力する出力手段108とを含む。
【選択図】図1

Description

本発明は、符号化装置および符号化方法、ならびに復号化装置および復号化方法に関し、特には、帯域拡張技術を用いた符号化装置および符号化方法、ならびに復号化装置および復号化方法に関する。
デジタル音楽再生機の普及に伴い、原音からの音質劣化を聴感上抑えつつ、ファイルサイズを抑えることで、再生機内のメモリに保存できる曲数を増加させることが望まれる。
一般的に、オーディオ信号の符号化では、音源となるPCM(Pulse Code Modulation)信号を一定のサンプル数で区切って1フレームが規定され、フレーム単位で、周波数変換、量子化および符号化が行われ、ビットストリームが生成される。復号側では、反対に、入力されるビットストリームが1フレームごとに逆周波数変換され、PCM信号が出力される。
特許文献1および2には、デジタルオーディオ信号を圧縮伸張する技術が記載されている。
特に、特許文献2に記載されたSBR(Spectral Band Replication)技術は、帯域拡張技術を用いて符号量を抑制する技術として注目されている。
以下、SBR技術を簡単に説明する。
SBR技術では、デコード時に、高周波数帯域の信号が、低周波数帯域の信号を用いて擬似的に復元される。
具体的には、SBR技術では、エンコード時に、低周波数帯域の信号が、例えばマスキング特性に基づいて符号化され、低域情報が生成される。さらに、低周波数帯域の信号を用いて高周波数帯域の信号を擬似的に生成するために使用される擬似帯域情報が生成される。
この擬似帯域情報は、高周波数帯域の信号をマスキング特性に基づいて符号化することによって得られる情報より、符号量を小さくできる。
デコード時には、低域情報から低周波数帯域の信号が復号され、続いて、低周波数帯域の信号と擬似帯域情報から、擬似高周波数帯域の信号が、高周波数帯域の信号として復号される。
特開2001‐94432号公報 特表2001‐521648号公報
SBR技術では、常に、低周波数帯域の信号から高周波数帯域の信号が擬似的に生成される。このため、高周波数帯域の信号の復元具合は、低周波数帯域の信号の復元具合に比べて、悪くなる可能性が高い。
よって、高周波数帯域にエネルギーが集中している場合などでは、エネルギーが集中している帯域の復元具合が悪化する。エネルギーが集中している帯域は、聴感上重要な要素である可能性が高い。よって、SBR技術では、高周波数帯域にエネルギーが集中している場合、聴感上の音質劣化が大きくなると考えられる。
本発明の目的は、上述した課題である聴感上の音質劣化を解決することが可能な符号化装置および方法、ならびに復号化装置および方法を提供することにある。
本発明の符号化装置は、オーディオ信号を複数の周波数帯域に分割する分割手段と、前記周波数帯域ごとにエネルギーを算出し、前記複数の周波数帯域のうちエネルギーが最大の周波数帯域を、主帯域として選出する選出手段と、前記オーディオ信号のマスキング特性を検出する分析手段と、少なくとも前記主帯域に含まれる信号を、前記マスキング特性に基づいて符号化して、主符号情報を生成する符号手段と、前記主帯域に含まれる信号と、前記複数の周波数帯域のうち前記主符号情報の元となった帯域以外の副帯域に含まれる信号と、の相関関係を示す擬似帯域情報を生成する生成手段と、前記主符号情報と前記擬似帯域情報を多重化して符号化信号を出力する出力手段と、を含む。
また、本発明の符号化方法は、符号化装置での符号化方法であって、オーディオ信号を複数の周波数帯域に分割する分割ステップと、前記周波数帯域ごとにエネルギーを算出し、前記複数の周波数帯域のうちエネルギーが最大の周波数帯域を、主帯域として選出する選出ステップと、前記オーディオ信号のマスキング特性を検出する分析ステップと、少なくとも前記主帯域に含まれる信号を、前記マスキング特性に基づいて符号化して、主符号情報を生成する符号ステップと、前記主帯域に含まれる信号と、前記複数の周波数帯域のうち前記主符号情報の元となった帯域以外の副帯域に含まれる信号と、の相関関係を示す擬似帯域情報を生成する生成ステップと、前記主符号情報と前記擬似帯域情報を多重化して符号化信号を出力する出力ステップと、を含む。
また、本発明の復号化装置は、上記符号化装置が出力した、主符号情報と擬似帯域情報とを含む符号化信号を復号化する復号化装置であって、前記符号化信号を、前記主符号情報と前記擬似帯域情報に分離する分離手段と、前記主符号情報を復号して、前記主符号情報の元となった帯域の信号を生成する第1復号手段と、前記主符号情報の元となった帯域内の主帯域の信号と前記擬似帯域情報とに基づいて、前記副帯域の信号を生成する第2復号手段と、前記主符号情報の元となった帯域の信号と前記副帯域の信号を合成してオーディオ信号を出力する合成手段と、を含む。
また、本発明の復号化方法は、上記符号化装置が出力した、主符号情報と擬似帯域情報とを含む符号化信号を復号化する復号化装置での復号化方法であって、前記符号化信号を、前記主符号情報と前記擬似帯域情報に分離する分離ステップと、前記主符号情報を復号して、前記主符号情報の元となった帯域の信号を生成する第1復号ステップと、前記主符号情報の元となった帯域内の主帯域の信号と前記擬似帯域情報とに基づいて、前記副帯域の信号を生成する第2復号ステップと、前記主符号情報の元となった帯域の信号と前記副帯域の信号を合成してオーディオ信号を出力する合成ステップと、を含む。
本発明によれば、聴感上の音質劣化を抑えつつ、符号量を抑えることが可能になる。
以下、本発明の実施形態の符号化装置および復号化装置を、図面を参照して説明する。
図1は、本発明の一実施形態の符号化装置を示したブロック図である。
図1において、符号化装置は、入力メモリ101と、フィルタバンク102と、アタック検出部103と、主帯域選出部104と、分析部105と、符号部106と、擬似帯域情報生成部107と、ストリーム多重化部108と、出力メモリ109とを含む。分析部105は、周波数変換部110と、マスキング分析部111とを含む。符号部106は、量子化部112と、符号化部113とを含む。
入力メモリ101には、音源となるオーディオ信号が1フレームずつ記録される。本実施形態では、オーディオ信号として、PCM信号が用いられる。なお、オーディオ信号は、時間的に連続する複数のフレームから構成される。
フィルタバンク102は、分割手段の一例である。
フィルタバンク102は、入力メモリ101に記録されているPCM信号を、フレームごとに、複数の周波数帯域に分割する。
例えば、フィルタバンク102は、入力メモリ101内のPCM信号を、フレームごとに、複数のサブバンド帯域に分割し、それらサブバンド帯域を、低域(低周波数帯域)、中域(中周波数帯域)および高域(高周波数帯域)にグループ化する。
フィルタバンク102は、低域、中域および高域にて構成された各フレームを、アタック検出部103、主帯域選出部104および擬似帯域情報生成部107に、フレーム順に提供していく。
アタック検出部103は、検出手段の一例である。
アタック検出部103は、フィルタバンク102から1フレームを構成する低域、中域および高域を受け付けた場合、帯域ごとに、直前のフレームよりエネルギーが増加しているフレームを、アタックとして検出する。
例えば、アタック検出部103は、帯域ごとに、直前のフレームからのエネルギー増加率が予め定められた閾値より大きくなくなるフレームをアタックとして検出する。
なお、アタックが検出された帯域は、音質が判断される上で重要な要素である可能性が高いと考えられる。
アタック検出部103は、アタックの有無を示すアタック有無情報を生成し、そのアタック有無情報を主帯域選出部104に提供する。
例えば、アタック検出部103は、アタックを検出しなかった場合、アタック無しを示すアタック有無情報を生成し、一方、アタックを検出した場合、アタックが検出された帯域(アタック検出帯域)を示すアタック有無情報を生成する。
主帯域選出部104は、選出手段の一例である。
主帯域選出部104は、フィルタバンク102から1フレームを構成する低域、中域および高域を受け付けた場合、帯域ごとにエネルギーを算出し、1フレームを構成する複数の帯域のうち、エネルギーが最大の帯域を、主帯域として選出する。
例えば、主帯域選出部104は、帯域ごとにエネルギー平均を算出し、複数の帯域のうち、エネルギー平均が最大の帯域を、主帯域として選出する。
なお、1フレームを構成する各帯域のうち、エネルギー(例えばエネルギー平均)が最大となる帯域は、音源を構成する帯域の中で、聴感上重要な要素である可能性が高いと考えられる。
主帯域選出部104は、主帯域を示す主帯域情報と、アタック検出部103からのアタック有無情報と、を含むベース帯域情報を生成する。主帯域選出部104は、ベース帯域情報を、擬似帯域情報生成部107および量子化部112に提供する。
分析部105は、分析手段の一例である。
分析部105は、入力メモリ101に記録されているPCM信号をフレーム単位で受け付け、そのフレーム内のオーディオ信号のマスキング特性を検出する。
周波数変換部110は、例えば、MDCT(Modified Discrete Cosine Transform)部であり、入力メモリ101に記録されているPCM信号をフレーム単位で受け付け、そのフレーム(時間軸上のオーディオ信号)を周波数軸上の周波数スペクトルに変換する。
周波数変換部110は、その変換結果をマスキング分析部111に提供する。
マスキング分析部111は、周波数変換部110の変換結果を受け付け、その変換結果を、例えば、聴覚心理モデルに基づいて分析して、オーディオ信号のマスキング特性を検出する。なお、「聴覚心理」とは、例えば、人間は大きな音の周辺の周波数を有する小さな音の有無を知覚できない、というような人間の耳が持ついくつかの特性のことである。
マスキング分析部111は、そのマスキング特性と、周波数変換部110の変換結果とを、符号部106、具体的には量子化部112に提供する。
符号部106は、符号手段の一例である。
符号部106は、マスキング分析部111からのマスキング特性に基づいて、少なくとも主帯域内の信号を符号化して主符号情報を生成する。
量子化部112は、マスキング分析部111からマスキング特性と周波数変換部110の変換結果とを受け付け、主帯域選出部104からベース帯域情報(主帯域情報とアタック有無情報)を受け付けた場合、以下のような処理を実行する。
アタック有無情報がアタック無しを示す場合、量子化部112は、周波数変換部110の変換結果のうち、主帯域情報が示す主帯域内の情報を、マスキング特性に基づいて量子化して主量子化情報を生成する。
一方、アタック有無情報がアタック検出帯域を示す場合、量子化部112は、周波数変換部110の変換結果のうち、主帯域内の情報とアタック検出帯域内の情報とを、マスキング特性に基づいて量子化して主量子化情報を生成する。
量子化部112は、主量子化情報を符号化部113に提供する。
符号化部113は、量子化部112から主量子化情報を受け付け、その主量子化情報を符号化して主符号情報を生成する。例えば、符号化部113は、主量子化情報をハフマン符号化して主符号情報を生成する。なお、符号化の手法は、ハフマン符号化に限らず適宜変更可能である。
符号化部113は、主符号情報をストリーム多重化部108に提供する。
擬似帯域情報生成部107は、生成手段の一例である。
擬似帯域情報生成部107は、フィルタバンク102から1フレームを構成する低域、中域および高域を受け付け、主帯域選出部104からベース帯域情報を受け付けた場合、以下のような処理を実行する。
擬似帯域情報生成部107は、主帯域内の信号と、1フレームを構成する複数の帯域のうち主符号情報の元となった帯域以外の帯域(以下「副帯域」と称する。)内の信号と、の相関関係を示す擬似帯域情報を生成する。
例えば、擬似帯域情報生成部107は、ベース帯域情報内のアタック有無情報がアタック無しを示す場合、主帯域内の信号と、1フレームを構成する複数の帯域のうちの主帯域と異なる各帯域内の信号と、の相関関係を示す擬似帯域情報を生成する。
この場合、主帯域と異なる帯域が、副帯域となる。
一例をあげると、高域が主帯域である場合、低域および中域が副帯域となる。この場合、擬似帯域情報生成部107は、高域の信号(オーディオ信号)と中域の信号(オーディオ信号)との相関関係を示す擬似帯域情報と、高域の信号(オーディオ信号)と低域の信号(オーディオ信号)との相関関係を示す擬似帯域情報と、を生成する。
また、擬似帯域情報生成部107は、ベース帯域情報内のアタック有無情報がアタック検出帯域を示す場合、1フレームを構成する複数の帯域のうちで主帯域およびアタック検出帯域と異なる帯域内の信号と主帯域内の信号との相関関係を示す擬似帯域情報を生成する。
この場合、主帯域およびアタック検出帯域と異なる帯域が、副帯域となる。
一例をあげると、高域が主帯域であり、中域がアタック検出帯域である場合、低域が副帯域となる。この場合、擬似帯域情報生成部107は、高域の信号(オーディオ信号)と低域の信号(オーディオ信号)との相関関係を示す擬似帯域情報と、を生成する。
なお、擬似帯域情報生成部107は、例えば、副帯域ごとに、擬似帯域情報として、主帯域のエネルギーに対する、副帯域のエネルギーの減衰率を生成する。
擬似帯域情報生成部107は、擬似帯域情報に、副帯域を示す副帯域情報および主帯域情報を付加し、その後、副帯域情報および主帯域情報が付加された擬似帯域情報を、ストリーム多重化部108に提供する。
ストリーム多重化部108は、出力手段の一例である。
ストリーム多重化部108は、符号化部113から主符号情報を受け付け、擬似帯域情報生成部107から副帯域情報および主帯域情報が付加された擬似帯域情報を受け付けた場合、以下のような処理を実行する。
ストリーム多重化部108は、副帯域情報および主帯域情報が付加された擬似帯域情報を主符号情報と多重化してビットストリーム(符号化信号)を生成し、そのビットストリームを出力メモリ109に出力して記録する。
図2は、本発明の一実施形態の復号化装置を示したブロック図である。
図2において、復号化装置は、入力メモリ201と、ストリーム分離部202と、主帯域情報復号化部203と、拡張帯域情報復号化部204と、周波数逆変換処理部205と、出力メモリ206とを含む。
入力メモリ201には、図1に示した出力メモリ109に記録されたビットストリームが1フレームずつ記録される。
ストリーム分離部202は、分離手段の一例である。
ストリーム分離部202は、入力メモリ201に記録されているビットストリームを、副帯域情報および主帯域情報が付加された擬似帯域情報と、主符号情報に分離する。
ストリーム分離部202は、主符号情報を主帯域情報復号化部203に提供し、副帯域情報および主帯域情報が付加された擬似帯域情報を拡張帯域情報復号化部204に提供する。
主帯域情報復号化部203は、第1復号手段の一例である。
主帯域情報復号化部203は、ストリーム分離部202からの主符号情報を復号して、主符号情報の元となった帯域の信号を生成する。
主帯域情報復号化部203は、その帯域の信号を、拡張帯域情報復号化部204に提供する。
拡張帯域情報復号化部204は、第2復号手段の一例である。
拡張帯域情報復号化部204は、主帯域情報復号化部203からの信号と、ストリーム分離部202からの、副帯域情報および主帯域情報が付加された擬似帯域情報と、に基づいて、副帯域の信号を生成する。
例えば、拡張帯域情報復号化部204は、主帯域情報復号化部203からの信号から、主帯域情報が示す主帯域に含まれる信号を選出し、その選出された信号(主帯域の信号)を擬似帯域情報が示すエネルギーの減衰率に基づいて調整し、それを副帯域情報が示す副帯域にコピーすることによって、副帯域の信号を生成する。
拡張帯域情報復号化部204は、主帯域情報復号化部203からの信号と、副帯域の信号とを、周波数逆変換処理部205に提供する。
周波数逆変換処理部205は、合成手段の一例である。
周波数逆変換処理部205は、主帯域情報復号化部203からの信号と副帯域の信号を合成し、その合成された信号に周波数逆変換を施し、PCM信号を生成し、出力メモリ206に記録する。
次に、動作を説明する。
図3は、符号化装置の動作を説明するためのフローチャートである。
符号化が実行されると(ステップ301)、フィルタバンク102は、入力メモリ101に記録されている音源の各フレームを、いくつかのサブバンド帯域に分割する(ステップ302)。
続いて、フィルタバンク102は、サブバンド分割された帯域を、低域、中域、高域にグループ化する(ステップ303)。その後、フィルタバンク102は、低域、中域および高域にて構成された各フレームを、アタック検出部103、主帯域選出部104および擬似帯域情報生成部107に、フレーム順に提供していく。
アタック検出部103は、フィルタバンク102から1フレームを構成する低域、中域および高域を受け付けると、各帯域で、受け付けたフレームと前フレームとのエネルギー比率を算出し、この比率が予め定められた閾値より大きくなるフレームを、アタックとして検出する(ステップ304)。
なお、アタックが検出された帯域は、音質が判断される上で重要な要素である可能性が高いと考えられる。
続いて、アタック検出部103は、アタックの有無を示すアタック有無情報を、主帯域選出部104に提供する。
一方、主帯域選出部104は、フィルタバンク102から1フレームを構成する低域、中域および高域を受け付けた場合、それぞれの帯域でのエネルギー平均を算出し、それらの帯域の中でエネルギー平均が最大となる帯域を、主帯域として選出する(ステップ305)。
なお、1フレームを構成する各帯域のうち、エネルギー平均が最大となる帯域(主帯域)は、音源を構成する帯域の中で、聴感上重要な要素である可能性が高いと考えられる。
続いて、主帯域選出部104は、主帯域を示す主帯域情報と、アタック検出部103からのアタック有無情報と、を含むベース帯域情報を生成する。主帯域選出部104は、ベース帯域情報を、擬似帯域情報生成部107および量子化部112に提供する。
擬似帯域情報生成部107は、1フレームを構成する複数の帯域とベース帯域情報とを受け付けると、最大エネルギーではなく、かつアタック検出がされない帯域に対して、擬似帯域情報を生成する(ステップ306)。
具体的には、擬似帯域情報生成部107は、ベース帯域情報内のアタック有無情報がアタック無しを示す場合、主帯域内の信号と、1フレームを構成する複数の帯域のうちの主帯域以外の全ての帯域(副帯域)のそれぞれの信号と、の相関関係を示す擬似帯域情報を生成する。
また、擬似帯域情報生成部107は、ベース帯域情報内のアタック有無情報がアタック検出帯域を示す場合、1フレームを構成する複数の帯域のうちで主帯域およびアタック検出帯域と異なる帯域(副帯域)内の信号と主帯域内の信号との相関関係を示す擬似帯域情報を生成する。
なお、擬似帯域情報生成部107は、副帯域ごとに、擬似帯域情報として、主帯域のエネルギーに対する、副帯域のエネルギーの減衰率を生成する。
擬似帯域情報生成部107は、擬似帯域情報に副帯域を示す副帯域情報および主帯域情報を付加し、その後、副帯域情報および主帯域情報が付加された擬似帯域情報を、ストリーム多重化部108に提供する。
一方、周波数変換部110は、入力メモリ101に記録されているPCM信号をフレーム単位で受け付け、そのフレームを周波数軸上の周波数スペクトルに変換する(ステップ307)。周波数変換部110は、その変換結果をマスキング分析部111に提供する。
マスキング分析部111は、周波数変換部110の変換結果を受け付けると、その変換結果を分析して、オーディオ信号のマスキング特性を検出する(ステップ308)。
マスキング分析部111は、そのマスキング特性と、周波数変換部110の変換結果とを、符号部106に提供する。
符号部106は、マスキング分析部111からマスキング特性と周波数変換部110の変換結果を受け付け、主帯域選出部104からベース帯域情報(主帯域情報とアタック有無情報)を受け付けると、量子化および符号化処理を行う(ステップ309)。
具体的には、アタックが検出された帯域およびエネルギーが最大となる帯域は、音質が判断される上で重要な情報であるため、符号部106は、これらの帯域については、マスキング特性(マスキング分析)を利用して符号化を行い、これらの帯域を高精度な情報、すなわち主符号情報として表す。
符号部106は、主符号情報をストリーム多重化部108に提供する。
一方、最大エネルギーではなく、かつアタック検出がされない帯域に対しては、上述したように、擬似帯域情報生成部107が、最大エネルギーを持つ帯域との減衰率を擬似帯域情報として算出している。
なお、帯域の減衰率は、マスキング分析が利用された符号化情報と比べ、大幅に小さい情報なので、符号量削減につながる。
ストリーム多重化部108は、副帯域情報および主帯域情報が付加された擬似帯域情報と、主符号情報と、を受け付けると、擬似帯域情報と主符号情報を多重化してビットストリームを生成し、そのビットストリームを出力メモリ109に出力して記録する(ステップ310)。
図4は、復号化装置の動作を説明するためのフローチャートである。
復号化が実行されると(ステップ401)、ストリーム分離部202は、入力メモリ201に記録されているビットストリームを、副帯域情報および主帯域情報が付加された擬似帯域情報と、主符号情報に分離する(ステップ402)。
ストリーム分離部202は、主符号情報を主帯域情報復号化部203に提供し、副帯域情報および主帯域情報が付加された擬似帯域情報を拡張帯域情報復号化部204に提供する。
主帯域情報復号化部203は、ストリーム分離部202からの主符号情報を復号して、主符号情報の元となった帯域の信号を生成する(ステップ403)。
主帯域情報復号化部203は、その帯域の信号を、拡張帯域情報復号化部204に提供する。
拡張帯域情報復号化部204は、主帯域情報復号化部203からの信号と、ストリーム分離部202からの、副帯域情報および主帯域情報が付加された擬似帯域情報と、に基づいて、副帯域(拡張帯域)の信号を生成する(ステップ404)。
具体的には、拡張帯域情報復号化部204は、主帯域情報復号化部203からの信号から、主帯域情報が示す主帯域に含まれる信号を選出し、その選出された信号(主帯域の信号)を、擬似帯域情報が示すエネルギーの減衰率に基づいて調整し、それを副帯域情報が示す副帯域にコピーすることによって、副帯域の信号を生成する。
拡張帯域情報復号化部204は、主帯域情報復号化部203からの信号と副帯域の信号とを周波数逆変換処理部205に提供する。
周波数逆変換処理部205は、主帯域情報復号化部203からの信号と副帯域の信号を合成し、その合成された信号に周波数逆変換を施し(ステップ405)、PCM信号を生成し、出力メモリ206に記録する(ステップ406)。
本実施形態の符号化装置によれば、以下の作用効果を奏する。
エネルギーが最大の周波数帯域は、音源を構成する帯域の中で、聴感上重要な要素である可能性が高いと考えられる。本実施形態では、主帯域選出部104が、帯域ごとのエネルギーに応じて主帯域(聴感上重要な可能性が高い要素)を動的に選出する。そして、符号部106が、聴感上重要な可能性が高い要素に対しては、マスキング特性に基づいた符号化を行い、擬似帯域情報生成部107が、聴感上重要でない可能性が高い要素に対しては、主帯域から生成される擬似帯域情報を生成する。
このため、符号量を抑制しつつ、音質の劣化をより抑えることが可能になる。
例えば、SBR技術では、低域から高域情報を擬似的に生成するのみであるのに対し、本実施形態では、高域から低域情報を擬似的に生成することも可能となる。つまり、本実施形態によれば、高域に、聴感上重要な可能性が高い要素が存在する場合、高域をマスキング特性に基づいて符号化し、他の領域について擬似帯域情報を生成することが可能になる。
なお、本実施形態では、擬似帯域情報生成部107は、擬似帯域情報として、主帯域のエネルギーに対する副帯域のエネルギーの減衰率を生成する。
こうして生成される擬似帯域情報は、通常マスキング特性を利用して符号化される情報に比べ、符号量を小さくすることができる。よって、擬似帯域情報を非常に小さくすることが可能になる。
また、本実施形態では、主帯域選出部104は、周波数帯域ごとにエネルギー平均を算出し、複数の周波数帯域のうち、エネルギー平均が最大の周波数帯域を、主帯域として選出する。
エネルギー平均が大きい帯域は、聴感上重要な可能性が非常に高い帯域であると考えられる。よって、この場合、聴感上重要な可能性が非常に高い帯域を、主帯域として選出することが可能になる。
また、本実施形態では、アタック検出部103は、周波数帯域ごとに、直前のフレームよりエネルギーが増加しているフレームを、アタックとして検出する。また、符号部113は、アタックが検出された周波数帯域内の信号と、主帯域内の信号とを、マスキング特性に基づいて符号化して、主符号情報を生成する。
アタックが検出された帯域も、音質が判断される上で重要な要素である可能性が高いと考えられる。このため、符号部106は、聴感上重要な可能性が高い帯域について、マスキング特性に基づいた符号化を行うことが可能になる。
また、本実施形態では、アタック検出部103は、周波数帯域ごとに、直前のフレームからのエネルギー増加率が予め定められた閾値より大きくなくなるフレームをアタックとして検出する。
この場合、エネルギー増加率に基づいて、アタックを検出することが可能になる。
また、本実施形態の復号化装置によれば、以下の作用効果を奏する。
ストリーム分離部202は、符号化信号を主符号情報と擬似帯域情報に分離する。主帯域情報復号化部203は、主符号情報を復号して、主符号情報の元となった帯域の信号を生成する。拡張帯域情報復号化部204は、主符号情報の元となった帯域内の主帯域の信号と擬似帯域情報とに基づいて副帯域の信号を生成する。周波数逆変換処理部205は、主符号情報の元となった帯域の信号と副帯域の信号を合成して、オーディオ信号を出力する。
このため、例えば、図1に示した符号化装置が出力した符号化信号を適切に復号することが可能になる。
また、本実施形態では、拡張帯域情報復号化部204は、主帯域の信号を擬似帯域情報に基づいて変更して副帯域の信号を生成する。
この場合、主帯域の信号から副帯域の信号を、擬似的に容易に生成することが可能になる。
次に、本発明の他の実施形態を説明する。
図5は、本発明の他の実施形態の符号化装置を示したブロック図である。なお、図5において、図1に示したものと同一のものには同一符号を付してある。
以下、図5に示した符号化装置500と図1に示した符号化装置の相違点を中心に説明する。
符号化装置500では、アタック検出部103が省略され、入力メモリ101と出力メモリ109が外部構成となっている。
主帯域選出部104aは、選出手段の一例である。
主帯域選出部104aは、ベース帯域情報の生成の仕方以外は、主帯域選出部104と同様に動作する。主帯域選出部104aは、主帯域を示す主帯域情報からなるベース帯域情報を生成する。
量子化部112aは、マスキング分析部111からマスキング特性と周波数変換部110の変換結果を受け付け、主帯域選出部104からベース帯域情報(主帯域情報)を受け付けると、以下のように動作する。
量子化部112aは、周波数変換部110の変換結果のうち、主帯域情報が示す主帯域内の情報を、マスキング特性に基づいて量子化して主量子化情報を生成する。量子化部112aは、主量子化情報を符号化部113に提供する。
擬似帯域情報生成部107aは、生成手段の一例である。
擬似帯域情報生成部107aは、主帯域内の信号と、1フレームを構成する複数の周波数帯域のうち主符号情報の元となった帯域以外の帯域(副帯域)内の信号と、の相関関係を示す擬似帯域情報を生成する。
例えば、擬似帯域情報生成部107aは、主帯域内の信号と、1フレームを構成する複数の帯域のうちの主帯域と異なる各帯域内の信号と、の相関関係を示す擬似帯域情報を生成する。この場合、他の全ての帯域が、副帯域となる。
この実施形態でも、主帯域選出部104が、帯域ごとのエネルギーに応じて主帯域(聴感上重要な可能性が高い要素)を動的に選出する。そして、符号部106が、聴感上重要な可能性が高い要素に対しては、マスキング特性に基づいた符号化を行い、擬似帯域情報生成部107が、聴感上重要でない可能性が高い要素に対しては、主帯域から生成される擬似帯域情報を生成する。
このため、符号量を抑制しつつ、音質の劣化をより抑えることが可能になる。
図6は、本発明の他の実施形態の復号化装置を示したブロック図である。なお、図6において、図2に示したものと同一のものには同一符号を付してある。
以下、図6に示した復号化装置600と図2に示した復号化装置の相違点を中心に説明する。
復号化装置600では、入力メモリ201と出力メモリ209が外部構成となっている。
この実施形態でも、図2に示した復号化装置と同様の作用効果を奏する。
以上説明したように各実施形態によれば、聴感上の音質劣化を抑え、例えば1つのコンテンツ(楽曲)あたりの符号量を抑えることが可能になる。
以上説明した各実施形態において、図示した構成は単なる一例であって、本発明はその構成に限定されるものではない。
例えば、上記各実施形態では、フィルタバンク102は、入力メモリ101内のPCM信号を、フレームごとに、3つの帯域に分割したが、分割数は3つに限らず適宜変更可能である。
本発明の一実施形態の符号化装置を示したブロック図である。 本発明の一実施形態の復号化装置を示したブロック図である。 図1に示した符号化装置の動作を説明するためのフローチャートである。 図2に示した復号化装置の動作を説明するためのフローチャートである。 本発明の他の実施形態の符号化装置を示したブロック図である。 本発明の他の実施形態の復号化装置を示したブロック図である。
符号の説明
101 入力メモリ
102 フィルタバンク
103 アタック検出部
104、104a 主帯域選出部
105 分析部
106 符号部
107、107a 擬似帯域情報生成部
108 ストリーム多重化部
109 出力メモリ
110 周波数変換部
111 マスキング分析部
112、112a 量子化部
113 符号化部
201 入力メモリ
202 ストリーム分離部
203 主帯域情報復号化部
204 拡張帯域情報復号化部
205 周波数逆変換処理部
206 出力メモリ

Claims (14)

  1. オーディオ信号を複数の周波数帯域に分割する分割手段と、
    前記周波数帯域ごとにエネルギーを算出し、前記複数の周波数帯域のうちエネルギーが最大の周波数帯域を、主帯域として選出する選出手段と、
    前記オーディオ信号のマスキング特性を検出する分析手段と、
    少なくとも前記主帯域に含まれる信号を、前記マスキング特性に基づいて符号化して、主符号情報を生成する符号手段と、
    前記主帯域に含まれる信号と、前記複数の周波数帯域のうち前記主符号情報の元となった帯域以外の副帯域に含まれる信号と、の相関関係を示す擬似帯域情報を生成する生成手段と、
    前記主符号情報と前記擬似帯域情報を多重化して符号化信号を出力する出力手段と、を含む符号化装置。
  2. 請求項1に記載の符号化装置において、
    前記生成手段は、前記擬似帯域情報として、前記主帯域のエネルギーに対する前記副帯域のエネルギーの減衰率を生成する、符号化装置。
  3. 請求項1または2に記載の符号化装置において、
    前記選出手段は、前記周波数帯域ごとにエネルギー平均を算出し、前記複数の周波数帯域のうちエネルギー平均が最大の周波数帯域を前記主帯域として選出する、符号化装置。
  4. 請求項1から3のいずれか1項に記載の符号化装置において、
    前記オーディオ信号は、時間的に連続する複数のフレームからなり、
    前記周波数帯域ごとに、直前のフレームよりエネルギーが増加しているフレームを、アタックとして検出する検出手段をさらに含み、
    前記符号手段は、前記アタックが検出された周波数帯域に含まれる信号と、前記主帯域に含まれる信号とを、前記マスキング特性に基づいて符号化して、前記主符号情報を生成する、符号化装置。
  5. 請求項4に記載の符号化装置において、
    前記検出手段は、前記周波数帯域ごとに、直前のフレームからのエネルギー増加率が予め定められた閾値より大きくなくなるフレームを前記アタックとして検出する、符号化装置。
  6. 請求項1から5のいずれか1項に記載の符号化装置が出力した、主符号情報と擬似帯域情報とを含む符号化信号を復号化する復号化装置であって、
    前記符号化信号を、前記主符号情報と前記擬似帯域情報に分離する分離手段と、
    前記主符号情報を復号して、前記主符号情報の元となった帯域の信号を生成する第1復号手段と、
    前記主符号情報の元となった帯域内の主帯域の信号と前記擬似帯域情報とに基づいて、前記副帯域の信号を生成する第2復号手段と、
    前記主符号情報の元となった帯域の信号と前記副帯域の信号を合成してオーディオ信号を出力する合成手段と、を含む復号化装置。
  7. 請求項6に記載の復号化装置において、
    前記第2復号手段は、前記主帯域の信号を前記擬似帯域情報に基づいて変更して前記副帯域の信号を生成する、復号化装置。
  8. 符号化装置での符号化方法であって、
    オーディオ信号を複数の周波数帯域に分割する分割ステップと、
    前記周波数帯域ごとにエネルギーを算出し、前記複数の周波数帯域のうちエネルギーが最大の周波数帯域を、主帯域として選出する選出ステップと、
    前記オーディオ信号のマスキング特性を検出する分析ステップと、
    少なくとも前記主帯域に含まれる信号を、前記マスキング特性に基づいて符号化して、主符号情報を生成する符号ステップと、
    前記主帯域に含まれる信号と、前記複数の周波数帯域のうち前記主符号情報の元となった帯域以外の副帯域に含まれる信号と、の相関関係を示す擬似帯域情報を生成する生成ステップと、
    前記主符号情報と前記擬似帯域情報を多重化して符号化信号を出力する出力ステップと、を含む符号化方法。
  9. 請求項8に記載の符号化方法において、
    前記生成ステップでは、前記擬似帯域情報として、前記主帯域のエネルギーに対する前記副帯域のエネルギーの減衰率を生成する、符号化方法。
  10. 請求項8または9に記載の符号化方法において、
    前記選出ステップでは、前記周波数帯域ごとにエネルギー平均を算出し、前記複数の周波数帯域のうちエネルギー平均が最大の周波数帯域を前記主帯域として選出する、符号化方法。
  11. 請求項8から10のいずれか1項に記載の符号化方法において、
    前記オーディオ信号は、時間的に連続する複数のフレームからなり、
    前記周波数帯域ごとに、直前のフレームよりエネルギーが増加しているフレームを、アタックとして検出する検出ステップをさらに含み、
    前記符号ステップでは、前記アタックが検出された周波数帯域に含まれる信号と、前記主帯域に含まれる信号とを、前記マスキング特性に基づいて符号化して、前記主符号情報を生成する、符号化方法。
  12. 請求項11に記載の符号化方法において、
    前記検出ステップでは、前記周波数帯域ごとに、直前のフレームからのエネルギー増加率が予め定められた閾値より大きくなくなるフレームを前記アタックとして検出する、符号化方法。
  13. 請求項1から5のいずれか1項に記載の符号化装置が出力した、主符号情報と擬似帯域情報とを含む符号化信号を復号化する復号化装置での復号化方法であって、
    前記符号化信号を、前記主符号情報と前記擬似帯域情報に分離する分離ステップと、
    前記主符号情報を復号して、前記主符号情報の元となった帯域の信号を生成する第1復号ステップと、
    前記主符号情報の元となった帯域内の主帯域の信号と前記擬似帯域情報とに基づいて、前記副帯域の信号を生成する第2復号ステップと、
    前記主符号情報の元となった帯域の信号と前記副帯域の信号を合成してオーディオ信号を出力する合成ステップと、を含む復号化方法。
  14. 請求項13に記載の復号化方法において、
    前記第2復号ステップでは、前記主帯域の信号を前記擬似帯域情報に基づいて変更して前記副帯域の信号を生成する、復号化方法。
JP2007228853A 2007-09-04 2007-09-04 符号化装置および符号化方法、ならびに復号化装置および復号化方法 Expired - Fee Related JP4973397B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007228853A JP4973397B2 (ja) 2007-09-04 2007-09-04 符号化装置および符号化方法、ならびに復号化装置および復号化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007228853A JP4973397B2 (ja) 2007-09-04 2007-09-04 符号化装置および符号化方法、ならびに復号化装置および復号化方法

Publications (2)

Publication Number Publication Date
JP2009063623A true JP2009063623A (ja) 2009-03-26
JP4973397B2 JP4973397B2 (ja) 2012-07-11

Family

ID=40558279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007228853A Expired - Fee Related JP4973397B2 (ja) 2007-09-04 2007-09-04 符号化装置および符号化方法、ならびに復号化装置および復号化方法

Country Status (1)

Country Link
JP (1) JP4973397B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011501228A (ja) * 2007-10-31 2011-01-06 ケンブリッジ シリコン ラジオ リミテッド 知覚モデルの適応的調整
JP2013050543A (ja) * 2011-08-30 2013-03-14 Fujitsu Ltd 符号化方法、符号化装置および符号化プログラム
WO2014091694A1 (ja) * 2012-12-13 2014-06-19 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法
JP2016085334A (ja) * 2014-10-24 2016-05-19 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003241799A (ja) * 2002-02-15 2003-08-29 Nippon Telegr & Teleph Corp <Ntt> 音響符号化方法、復号化方法、符号化装置、復号化装置及び符号化プログラム、復号化プログラム
JP2003318977A (ja) * 2002-04-25 2003-11-07 Sony Corp データ配信システム、データ処理装置及びデータ処理方法、並びにコンピュータ・プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003241799A (ja) * 2002-02-15 2003-08-29 Nippon Telegr & Teleph Corp <Ntt> 音響符号化方法、復号化方法、符号化装置、復号化装置及び符号化プログラム、復号化プログラム
JP2003318977A (ja) * 2002-04-25 2003-11-07 Sony Corp データ配信システム、データ処理装置及びデータ処理方法、並びにコンピュータ・プログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011501228A (ja) * 2007-10-31 2011-01-06 ケンブリッジ シリコン ラジオ リミテッド 知覚モデルの適応的調整
JP2013050543A (ja) * 2011-08-30 2013-03-14 Fujitsu Ltd 符号化方法、符号化装置および符号化プログラム
WO2014091694A1 (ja) * 2012-12-13 2014-06-19 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法
CN104838443A (zh) * 2012-12-13 2015-08-12 松下电器(美国)知识产权公司 语音声响编码装置、语音声响解码装置、语音声响编码方法及语音声响解码方法
US9767815B2 (en) 2012-12-13 2017-09-19 Panasonic Intellectual Property Corporation Of America Voice audio encoding device, voice audio decoding device, voice audio encoding method, and voice audio decoding method
RU2643452C2 (ru) * 2012-12-13 2018-02-01 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство кодирования аудио/голоса, устройство декодирования аудио/голоса, способ кодирования аудио/голоса и способ декодирования аудио/голоса
US10102865B2 (en) 2012-12-13 2018-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Voice audio encoding device, voice audio decoding device, voice audio encoding method, and voice audio decoding method
US10685660B2 (en) 2012-12-13 2020-06-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Voice audio encoding device, voice audio decoding device, voice audio encoding method, and voice audio decoding method
JP2016085334A (ja) * 2014-10-24 2016-05-19 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム

Also Published As

Publication number Publication date
JP4973397B2 (ja) 2012-07-11

Similar Documents

Publication Publication Date Title
AU2018204110B2 (en) Signal processing apparatus and method, and program
JP4899359B2 (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
JP4876574B2 (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
US8081764B2 (en) Audio decoder
JP5942358B2 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
JP2011059714A (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
RU2732951C1 (ru) Устройство аудиодекодирования, устройство аудиокодирования, способ аудиодекодирования, способ аудиокодирования, программа аудиодекодирования и программа аудиокодирования
KR20100086000A (ko) 오디오 신호 처리 방법 및 장치
JP2010079275A (ja) 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
JP2006126826A (ja) オーディオ信号符号化/復号化方法及びその装置
CN111602197B (zh) 解码装置、编码装置、它们的方法以及计算机可读记录介质
JP5365380B2 (ja) 音響信号処理装置、その処理方法およびプログラム
JP4973397B2 (ja) 符号化装置および符号化方法、ならびに復号化装置および復号化方法
KR100891666B1 (ko) 믹스 신호의 처리 방법 및 장치
JP4317355B2 (ja) 符号化装置、符号化方法、復号化装置、復号化方法および音響データ配信システム
KR20080066537A (ko) 부가정보를 가지는 오디오신호의 부호화/복호화 방법 및장치
JP2005114813A (ja) オーディオ信号再生装置及び再生方法
JP2005004119A (ja) 音響信号符号化装置及び音響信号復号化装置
JP5569476B2 (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
JP6439843B2 (ja) 信号処理装置および方法、並びにプログラム
JP2007178529A (ja) 符号化オーディオ信号再生装置及び符号化オーディオ信号再生方法
JP2006023658A (ja) オーディオ信号符号化装置及びオーディオ信号符号化方法
JP3692959B2 (ja) 電子透かし情報埋め込み装置
JP2005148539A (ja) オーディオ信号符号化装置およびオーディオ信号符号化方法
JP2016105180A (ja) 信号処理装置および方法、並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100806

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120326

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150420

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees