JP4530567B2

JP4530567B2 - デジタルオーディオ復号装置

Info

Publication number: JP4530567B2
Application number: JP2001098486A
Authority: JP
Inventors: 康治田中
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2001-03-30
Filing date: 2001-03-30
Publication date: 2010-08-25
Anticipated expiration: 2021-03-30
Also published as: JP2002297192A

Description

【０００１】
【発明の属する技術分野】
本発明は、符号化されたオーディオデータを復号するオーディオ復号装置の構成に関し、特に、再生時の聴感的な音質劣化を低減することが可能なオーディオ復号装置の構成に関する。
【０００２】
【従来の技術】
現在、ＭＰＥＧ−Ａｕｄｉｏ（Moving Picture Experts Group-Audio）規格（ＩＳＯ／ＩＥＣ１１１７２−３，ＩＳＯ／ＩＥＣ１３８１８−３，ＩＳＯ／ＩＥＣ１３８１８−７）など、オーディオデータを符号化し、データ量を圧縮する方式が多く提案されている。これらの方式では、符号化時に人間が聴感上あまり聞き取ることができない情報を除去することで、データ量を圧縮することを可能としている。
【０００３】
また、復号化時には、同じくＭＰＥＧ−Ａｕｄｉｏ規格などで定められた方式に基づいて、復号処理が行なわれる。このとき、符号化時に除去された情報については復元することができないが、符号化時に除去された情報が聴感上重要でないものであれば、音質の劣化を感じさせることなくオーディオデータを再生することができる。
【０００４】
こうしたオーディオ符号化／復号化方式を用いることで、限られた伝送容量での通信や、限られた容量のメディアへの蓄積が可能になる。そのため、インターネットや電話回線による音楽配信、デジタルテレビ放送、ミニディスク（ＭＤ：Mini-Disc）や固体メモリを利用した音楽プレーヤーなど、多くの分野で利用されている。
【０００５】
以下、従来のデジタルオーディオ復号装置の構成について、図面を参照しながら説明する。
【０００６】
図８は、このような従来のデジタルオーディオ復号装置８００の構成を説明するための図である。
【０００７】
図８を参照して、「圧縮オーディオデータ」は、ＭＰＥＧ−Ａｕｄｉｏ規格などで符号化されたデータである。また、「オーディオデータ」は、復号されたオーディオの時系列データであり、ＤＡＣ（デジタル／アナログ変換器）、増幅器、スピーカを通して、音として再生することができる。
【０００８】
オーディオデコーダ８１０は、「圧縮オーディオデータ」を入力とし、ＭＰＥＧ−Ａｕｄｉｏ規格に従って、デコード処理を行ない、「オーディオデータ」を出力する。こうして、ＭＰＥＧ−Ａｕｄｉｏ規格などで符号化されたデータの復号を実現でき、ＤＡＣ、増幅器、スピーカ等の再生系と併せて再生することが可能となる。
【０００９】
【発明が解決しようとする課題】
ＭＰＥＧ−Ａｕｄｉｏ規格などに従って、符号化を行なう際に、人間の聴感にそぐわない方法でデータ圧縮が行なわれたり、過度の圧縮率でデータ圧縮が行なわれたりすると、人間の聴取可能な情報まで除去されてしまう場合がある。この場合、このような圧縮データを復号して再生すると、除去されてしまった情報に相当する部分が雑音として知覚され、聴取者には不快感を与えてしまうという問題点があった。
【００１０】
本発明は、上記のような問題点を解決するためになされたものであって、その目的は、符号化時に不適切に圧縮されたオーディオデータに対して、復号・再生時に雑音の低減を行ない、良好な音質を提供することが可能なオーディオ復号装置を提供することである。
【００１１】
この発明の他の目的は、不適切に圧縮されたオーディオデータを自動的に判別することで、雑音を含んだオーディオデータに対しては雑音を低減して再生し、適切に符号化されたデータに対しては通常の再生を妨げないことが可能なオーディオ復号装置を提供することである。
【００１２】
【課題を解決するための手段】
請求項１記載のデジタルオーディオ復号装置は、音声信号を複数の周波数帯域ごとに圧縮したオーディオデータの復号を行なうためのデジタルオーディオ復号装置であって、圧縮されたオーディオデータに含まれる帯域ごとの誤差量を算出する誤差算出手段と、各帯域の誤差量をもとに、補正処理を行なう帯域を決定する帯域決定手段と、決定された帯域に対し補正を行なう補正手段とを備える。
【００１３】
請求項２記載のデジタルオーディオ復号装置は、請求項１記載のデジタルオーディオ復号装置の構成に加えて、各帯域の聴感的な感度を算出するための聴感算出手段をさらに備え、帯域決定手段は、各帯域の誤差量と各帯域の聴感的な感度をもとに、補正処理を行なう帯域を決定する。
【００１４】
請求項３記載のデジタルオーディオ復号装置は、請求項１または２に記載のデジタルオーディオ復号装置の構成に加えて、オーディオデータに含まれる帯域ごとの誤差量は、オーディオデータの各帯域成分の量子化間隔をもとに算出される。
【００２７】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について説明する。
【００２８】
また、以下では、ＩＳＯ／ＩＥＣ１３８１８−７（名称は、MPEG-Audio ADVANCED Audio Codec、以下、ＡＡＣと略す）の中で規定されたａｄｔｓフォーマットに対する復号装置を例にとって説明することにする。ただし、本発明はこのような規格に限定されることなく、オーディオデータが周波数分析に基づいて圧縮されており、各周波数帯域ごとに、データ圧縮処理を規定するデータから、量子化に伴う誤差を予測可能なデータ圧縮方式や、圧縮オーディオデータ中のデータに基づいて、ビットレートを算出することが可能な圧縮方式に対して適用可能なものである。
【００２９】
［実施の形態１］
図１は、本発明の実施の形態１のデジタルオーディオ復号装置１００の構成を説明するための概略ブロック図である。
【００３０】
デジタルオーディオ復号装置１００は、以下に説明するとおり、入力の圧縮オーディオデータから帯域ごとの誤差量を算出し、その誤差量をもとに補正処理を行なう帯域を決定し、その帯域に対して補正処理を行なうことで、復号時に聴感的な音質劣化を低減することが可能である。
【００３１】
図１を参照して、「圧縮オーディオデータ」は、システムへの入力となるＡＡＣ規格のデータストリームである。「オーディオデータ」は、「圧縮オーディオデータ」を復号して得られるオーディオの時系列データである。オーディオデコーダ１０は、「圧縮オーディオデータ」を入力として、ＡＡＣ規格の復号処理を行ない、復号結果を「オーディオデータ」として出力するブロックである。以上により、ＡＡＣ規格に従う通常の復号処理が行なわれる。
【００３２】
図１において、誤差算出部２０は、「圧縮オーディオデータ」から符号化時に発生した各帯域に含まれる誤差量を算出するブロックである。算出された各帯域の誤差量は、「予測誤差量」として制御帯域判断部３０に出力される。
【００３３】
誤差算出部２０において「予測誤差量」を算出する方法について以下に詳しく説明する。
【００３４】
図２は、ＡＡＣ規格の、特にａｄｔｓフォーマットの圧縮データフォーマットを示す概念図である。
【００３５】
ａｄｔｓフォーマットの圧縮データフォーマットは、図２に示すように、ａｄｔｓフレームというデータ構造の連続である。
【００３６】
ａｄｔｓフレームは、ａｄｔｓヘッダといくつかのフレームから成り立っている。フレームは、復号処理を行なう単位であり、各チャネルの連続する１０２４個のオーディオサンプルを格納している。
【００３７】
図３は、フレーム内のオーディオサンプルの構成を示す概念図である。
フレーム内のオーディオサンプルは、図３に示すように、周波数変換されて格納されており、周波数帯域ごとに異なる量子化間隔で量子化されている。
【００３８】
具体的には、オーディオサンプルは、フレームのデータ構造の中に、以下の形式で格納されている。
【００３９】
Ｓｑ：量子化されたサンプル（量子化のインデックス値）
Ｓｃｆ：スケーリング因子（周波数帯域ごとに異なる）
ここで、Ｓｑはチャネルごとに１０２４サンプル存在し、それぞれ１０２４個に分割された各周波数帯域成分に相当する。一方、Ｓｃｆは、図３に示すように、１０２４個に分割された各周波数帯域のいくつかをまとめたスケールファクタバンド（以下、ｓｆｂ）ごとに存在している。これらを用いて、逆量子化は以下の式に従って行なうことが規格で定められている。
【００４０】
【数１】

【００４１】
ここで、Ｓｑ＝ＳＱ，Ｓｃｆ＝ＳＣＦの場合の量子化誤差Ｅについて考える。Ｓｃｆ＝ＳＣＦであって、Ｓｑ＝ＳＱ−１、Ｓｑ＝ＳＱ、Ｓｑ＝ＳＱ＋１のそれぞれの場合において、逆量子化の値を求めると以下の式のように表わされる。
【００４２】
【数２】

【００４３】
ここで、符号化を行なう前の本来のサンプル値をＳとすれば、符号化時に、Ｓｑ＝ＳＱと量子化されるＳの範囲は、ＳがＳｄ（ＳＱ−１，ＳＣＦ）およびＳｄ（ＳＱ＋１，ＳＣＦ）よりもＳｄ（ＳＱ，ＳＣＦ）に近い場合であるから、そのような範囲を示すと、以下の式（１）のようになる。さらに、量子化による誤差Ｅは、Ｅ＝（Ｓ−Ｓｄ）と求められるので、Ｅの範囲は、以下の式（２）のようになる。
【００４４】
【数３】

【００４５】
上記誤差Ｅの範囲が広いことは存在する誤差が大きいことを示し、上記誤差Ｅの範囲が狭いことは存在する誤差が小さいことを示すから、誤差Ｅの範囲の広さから誤差量の大きさを推定することができる。また、上記の式に従って、誤差Ｅの範囲は、「圧縮オーディオデータ」中の量子化サンプルＳｑ、スケール因子Ｓｃｆに依存して算出できることになる。
【００４６】
したがって、「圧縮オーディオデータ」中の量子化サンプルＳｑ、スケール因子Ｓｃｆを用いて量子化間隔を算出し、これを元に「圧縮オーディオデータ」中の各周波数成分に含まれる「予測誤差量」を算出することができる。
【００４７】
再び、図１を参照して、制御帯域判断部３０は、各帯域の上述したような「予測誤差量」をもとに、補正処理を行なう帯域を決定するブロックである。
【００４８】
制御帯域判断部３０は、決定した帯域の情報を「制御帯域情報」として帯域補正部４０に送出する。
【００４９】
次に、制御帯域判断部３０において補正処理を行なう帯域を決定する方法について以下にさらに詳しく説明する
許容誤差のしきい値として定数Ｅ０を設ける。制御帯域判断部３０には、この定数Ｅ０が予め格納されており、帯域ごとに「予測誤差量」との比較を行なう。「予測誤差量」が定数Ｅ０よりも大きくなる帯域を補正処理を行なう帯域として、また、「予測誤差量」が定数Ｅ０以下となる帯域を補正処理を行なわない帯域として判断する。
【００５０】
以上の方法で、補正制御を行なう帯域を示した情報である「制御帯域情報」を決定し出力することができる。
【００５１】
帯域補正部４０は、制御帯域判断部３０から送られる「制御帯域情報」に基づいて、「圧縮オーディオデータ」の復号結果である「オーディオデータ」に補正処理を行なう。
【００５２】
以下、帯域補正部４０において行なう補正処理の方法をさらに詳しく説明する。
【００５３】
帯域補正部４０は、遮断帯域の異なるいくつかの帯域遮断フィルタ、低域通過フィルタ、高域通過フィルタを格納しており、それらの中から「制御帯域情報」によって補正処理を行なうことを示された帯域を遮断するフィルタを選択する。そして、「オーディオデータ」に対し、選択したフィルタを用いてフィルタ処理を行ない、結果を「補正オーディオデータ」として出力する。
【００５４】
以上説明したような動作により、入力されたオーディオデータが誤差を多く含んでいる場合、復号を行なう際に、誤差を多く含んだ帯域成分を自動的に除去したオーディオデータを出力することが可能となり、聴感上、雑音を低減した音を提供することができる。
【００５５】
［実施の形態２］
実施の形態２のオーディオデータ復号装置の構成は、基本的に実施の形態１のオーディオデータ復号装置１００の構成と同様である。
【００５６】
ただし、以下に説明するように、制御帯域判断部３０において、補正処理を行なう帯域を決定する際の処理が異なる。
【００５７】
以下、制御帯域判断部３０において、補正処理を行なう帯域を決定する処理の方法について説明する。
【００５８】
制御帯域判断部３０には、許容誤差のしきい値として定数Ｅ０が設けられ、この定数Ｅ０が格納されている。
【００５９】
最も高い周波数帯域から順に、帯域ごとに「予測誤差量」と定数Ｅ０の比較を行ない、初めて「予測誤差量」＜定数Ｅ０となるような帯域を求める。この帯域より高い周波数の全帯域を補正処理を行なう帯域として判断する。
【００６０】
以上の方法で、補正制御を行なう帯域を示す情報である「制御帯域情報」を決定することができる。
【００６１】
以上の方法によっても、入力されたオーディオデータが誤差を多く含んでいる場合、復号を行なう際に誤差を多く含んだ帯域成分を自動的に除去したオーディオデータを出力することが可能になり、聴感上雑音を低減した音を提供することができる。
【００６２】
また、このとき、「制御帯域情報」としては境界となる帯域のみの情報を帯域補正部４０に送ればよく、より小規模なシステムで実現することが可能である。さらに、帯域補正部４０が格納するフィルタは、低域通過フィルタのみの組合せでよく、より小規模なシステムで実現が可能となる。
【００６３】
［実施の形態３］
実施の形態３のデジタルオーディオ復号装置の構成は、基本的に実施の形態１のデジタルオーディオ復号装置の構成と同様であるが、以下に説明するように、制御帯域判断部３０における処理が異なる。
【００６４】
以下、制御帯域判断部３０において補正処理を行なう帯域を決定する処理について説明する。
【００６５】
まず、許容誤差のしきい値として定数Ｅ０を設けておき、制御帯域判断部３０にこの定数Ｅ０を格納しておく。
【００６６】
最も低い周波数帯域から順に、帯域ごとに「予測誤差量」と定数Ｅ０の比較を行ない、初めて「予測誤差量」＜定数Ｅ０となる帯域を求める。この帯域より低い周波数の全帯域を補正処理を行なう帯域として判断する。
【００６７】
以上の方法で、補正制御を行なう帯域を示す情報である「制御帯域情報」を決定し出力することができる。
【００６８】
以上の方法によっても、入力されたオーディオデータが誤差を多く含んでいる場合、復号を行なう際に、誤差を多く含んだ帯域成分を自動的に除去したオーディオデータを出力することが可能になり、聴感上、雑音を低減した音を提供することができる。
【００６９】
また、このとき、「制御帯域情報」としては境界となる帯域のみの情報を帯域補正部４０に送ればよく、より小規模なシステムで実現が可能である。さらに、帯域補正部４０が格納するフィルタは、高域通過フィルタのみの組合せでよく、より小規模なシステムで実現が可能である。
【００７０】
［実施の形態４］
図４は、本発明の実施の形態４のデジタルオーディオ復号装置２００の構成を説明するための概略ブロック図である。
【００７１】
デジタルオーディオ復号装置２００は、以下に説明するとおり、入力の圧縮オーディオデータから帯域ごとの誤差量を算出し、その誤差量をもとに補正処理を行なう帯域を決定し、その帯域に対しては補正処理を行なうことで、復号時に聴感的な音質劣化を低減する。
【００７２】
図４においても、「圧縮オーディオデータ」は、システムへの入力となるＡＡＣ規格のデータストリームであるものとする。「オーディオデータ」は「圧縮オーディオデータ」を復号して得られるオーディオの時系列データである。
【００７３】
ＡＡＣなどの規格では、実施の形態１で説明したように、フレーム内のオーディオサンプルは周波数分析された状態で格納されている。したがって、復号処理の全体の流れの中の後段では、ＩＭＤＣＴ（Inverse Modified Discrete CosineTransform）など周波数領域から時間領域へ変換する処理が行なわれる。
【００７４】
図４を参照して、オーディオデコーダ１０．１は、圧縮オーディオデータを入力として、ＡＡＣ規格などの復号処理のうち、周波数領域から時間領域への変換の前段階の処理までを行ない、その処理の結果である周波数領域でのオーディオサンプルを「中間オーディオデータ１」として出力するブロックである。
【００７５】
オーディオデコーダ１０．２は、帯域補正部４０から出力される周波数領域でのオーディオサンプルである「中間オーディオデータ２」を入力として、ＡＡＣ規格などの復号処理のうち、周波数領域から時間領域への変換以後の処理を行ない、復号処理の結果である時間領域でのオーディオサンプルを「オーディオデータ」として出力するブロックである。
【００７６】
帯域補正部４０が何の処理も行なわず、入力である「中間オーディオデータ１」を「中間オーディオデータ２」として出力した場合、以上の処理により、たとえば、ＡＡＣ規格に従う通常の復号が行なわれる。
【００７７】
図４において誤差算出部２０、制御帯域判断部３０は実施の形態１と同じ処理を行ない、帯域補正部４０に補正制御を行なう帯域を示した「制御帯域情報」を送る。
【００７８】
帯域補正部４０は、制御帯域判断部３０から送られる「制御帯域情報」に基づいて、オーディオデコーダ１０．１の出力である周波数領域でのオーディオサンプルに補正処理を行なう。
【００７９】
帯域補正部４０において行なう補正処理の方法について以下にさらに詳しく説明する
帯域補正部４０の入力である「中間オーディオデータ１」は周波数領域でのオーディオサンプルである。その中から、「制御帯域情報」によって補正処理を行なうことを示された帯域に相当するオーディオサンプルをゼロ値に置き換え、その周波数成分を除去する。置き換え後のオーディオサンプルを「中間オーディオデータ２」として出力する。
【００８０】
この置き換えによって、オーディオデコーダ１０．２で時間領域に変換された「オーディオデータ」は、「制御帯域情報」によって補正処理を行なうことを示された帯域成分を含まないデータとして出力される。
【００８１】
以上により、入力されたオーディオデータが誤差を多く含んでいる場合、復号を行なう際に、誤差を多く含んだ帯域成分を自動的に除去したオーディオデータを出力することが可能になり、聴感上、雑音を低減した音を提供することができる。
【００８２】
また、周波数領域でサンプル値を間引くことにより、フィルタ処理を行なう必要がないため、より小規模なシステムで実現をすることが可能である。
【００８３】
［実施の形態５］
実施の形態５のデジタルオーディオ復号装置の構成は、実施の形態４のデジタルオーディオ復号装置２００の構成と基本的に同様であるが、以下に説明するとおり、制御帯域判断部３０および帯域補正部４０の行なう処理が異なる。
【００８４】
制御帯域判断部３０は、「予測誤差量」をもとにして、補正処理を行なう帯域の情報とともに、どの程度補正を行なうかを示す「補正係数」を決定し、両者を「制御帯域情報」として帯域補正部４０に送る。
【００８５】
制御帯域判断部３０において補正処理を行なう帯域を決定する方法は実施の形態１と同様である。
【００８６】
「補正係数」を算出する方法については以下にさらに詳しく説明する。
許容誤差のしきい値として、制御帯域判断部３０に格納された定数Ｅ０と、帯域ごとの「予測誤差量」とを用いて、「補正係数」を（Ｅ０／「予測誤差量」）として決定する。これは、予測誤差量を何倍すれば許容誤差量になるかを示す係数である。
【００８７】
以上の方法で、「制御帯域情報」内の「補正係数」を決定することができる。帯域補正部４０は、制御帯域判断部３０から送られる「制御帯域情報」に基づいて、オーディオデコーダ１０．１の出力である周波数領域でのオーディオサンプルに補正処理を行なう。
【００８８】
帯域補正部４０において行なう補正処理の方法を以下に説明する。
帯域補正部４０の入力である「中間オーディオデータ１」は、周波数領域のオーディオサンプルである。帯域補正部４０は、「中間オーディオデータ１」の中から、「制御帯域情報」によって補正処理を行なうことを示された帯域に相当するオーディオサンプルに対して、「制御帯域情報」内の「補正係数」を乗じることにより、補正を行なった値に置き換える。帯域補正部４０は、置き換え後のオーディオサンプルを「中間オーディオデータ２」として出力する。
【００８９】
この置き換えによって、「中間オーディオデータ２」の各周波数成分が含む誤差量は、許容誤差量Ｅ０以下に抑えられ、雑音を低減することが可能となる。また、同時に、必要以上に元のオーディオデータを削除することがなくなるので、補正処理による音質の劣化を抑制することが可能となる。
【００９０】
［実施の形態６］
図５は、本発明の実施の形態６のデジタルオーディオ復号装置３００の構成を説明するための概略ブロック図である。
【００９１】
デジタルオーディオ復号装置３００は、以下に説明するとおり、入力の圧縮オーディオデータからビットレートを算出し、そのビットレートをもとに補正処理を行なう帯域を決定して、その帯域に対して補正処理を行なうことで、復号時に聴感的な音質劣化を低減する。
【００９２】
図５において、「圧縮オーディオデータ」は、システムへの入力となる、たとえばＡＡＣ規格のデータストリームである。「オーディオデータ」は「圧縮オーディオデータ」を復号して得られるオーディオの時系列データである。
【００９３】
オーディオデコーダ１０は、「圧縮オーディオデータ」を入力として、ＡＡＣ規格の復号処理を行ない、復号結果を「オーディオデータ」として出力するブロックである。以上により、ＡＡＣ規格に従う通常の復号処理が行なわれる。
【００９４】
図５において、ビットレート算出部５０は、「圧縮オーディオデータ」から、圧縮オーディオデータのビットレートを算出するブロックである。算出されたビットレートは、「ビットレート情報」として制御帯域判断部３０に出力される。
【００９５】
以下、ビットレート算出部５０において「ビットレート」を算出する方法について、詳しく説明する。
【００９６】
ＡＡＣ規格の、特にａｄｔｓフォーマットの圧縮データフォーマットは、実施の形態１の図２で説明したとおり、ａｄｔｓフレームというデータ構造の連続である。ａｄｔｓフレーム中には、サンプリング周波数を示す情報とａｄｔｓフレームのサイズを示す情報とａｄｔｓフレーム内に格納されているフレーム数を示す情報が格納されている。これらの情報をもとに、以下のようにして「ビットレート」を算出する。
【００９７】
ａｄｔｓフレームサイズ（ビット）×サンプリング周波数（Ｈｚ）／（フレーム数×１０２４）（サンプル）
以上の方法により、「ビットレート」の算出が可能である。
【００９８】
制御帯域判断部３０は、各帯域のビットレートをもとに補正処理を行なう帯域を決定するブロックである。決定した帯域の情報を「制御帯域情報」として帯域補正部４０に送る。
【００９９】
制御帯域判断部３０において補正処理を行なう帯域を決定する方法を以下に説明する。
【０１００】
制御帯域判断部３０は、ビットレートと補正処理を行なう帯域の下限との関係をテーブルとして格納しておく。このテーブルは、ビットレートが下がるほど補正処理を行なう帯域も下がる関係を示しているものとする。
【０１０１】
制御帯域判断部３０は、このテーブルを用いて、入力された「ビットレート」に最も近い補正処理を行なう帯域の下限を求める。この下限値より高周波数のすべての帯域を補正処理を行なう帯域として判断する。
【０１０２】
以上の方法で、補正制御を行なう帯域を示した情報である「制御帯域情報」を決定することができる。
【０１０３】
帯域補正部４０は、制御帯域判断部３０から送られる「制御帯域情報」に基づいて、「圧縮オーディオデータ」の復号結果である「オーディオデータ」に補正処理を行なう。
【０１０４】
帯域補正部４０において行なう補正処理の内容を以下に説明する。
帯域補正部４０は遮断帯域の異なるいくつかの帯域遮断フィルタ、低域通過フィルタ、高域通過フィルタを格納しており、その中から「制御帯域情報」によって補正処理を行なうことを示された帯域を遮断するフィルタを選択する。そして、「オーディオデータ」に対し、選択したフィルタを用いたフィルタ処理を行ない、結果を「補正オーディオデータ」として出力する。
【０１０５】
以上により、入力されたオーディオデータが誤差を多く含んでいる場合、復号を行なう際に、誤差を多く含んだ帯域成分を自動的に除去したオーディオデータを出力することが可能になる。したがって、聴感上、雑音を低減した音を提供することができる。
【０１０６】
［実施の形態７］
図６は、本発明の実施の形態７のデジタルオーディオ復号装置４００の構成を説明するための概略ブロック図である。
【０１０７】
デジタルオーディオ復号装置４００は、以下に説明するとおり、入力の圧縮オーディオデータから帯域ごとの誤差量を算出し、その誤差量と帯域ごとの聴感的感度をもとに補正処理を行なう帯域を決定し、その帯域に対して補正処理を行なうことで、復号時に聴感的な音質劣化を低減する復号装置のシステム構成を示したブロック図である。
【０１０８】
図６において、「圧縮オーディオデータ」は、システムへの入力となる、たとえばＡＡＣ規格のデータストリームである。「オーディオデータ」は、「圧縮オーディオデータ」を復号して得られるオーディオの時系列データである。
【０１０９】
オーディオデコーダ１０は、実施の形態１と同様に、「圧縮オーディオデータ」を入力として、ＡＡＣ規格の復号処理を行ない、復号結果を「オーディオデータ」として出力するブロックである。以上により、ＡＡＣ規格に従うと通常の復号処理が行なわれる。
【０１１０】
図６において、誤差算出部２０は実施の形態１と同様であり、「圧縮オーディオデータ」から、符号化時に発生した各帯域に含まれる「予測誤差量」を算出し制御帯域判断部３０に出力する。
【０１１１】
聴覚心理量算出部７０は、各帯域において人間の聴感的な感度である「予測聴覚心理量」を決定し、制御帯域判断部３０に送る。
【０１１２】
聴覚心理量算出部７０において、「予測聴覚心理量」を決定する方法を以下に説明する。
【０１１３】
人間の聴覚の感度は、周波数に依存して異なっており、たとえば物理的に同じ大きさの音であっても、４ｋＨｚの音と１５ｋＨｚの音では、４ｋＨｚの音の方が大きく聞こえる。こうした聴覚の感度の周波数依存性は、ＩＳＯ２２６などの規格にまとめられている。
【０１１４】
聴覚心理テーブル格納部６０は、上述したようなＩＳＯ２２６で規定されたような情報をもとに、周波数と聴感上聞き取ることのできない音の最大値との関係を示したテーブルを格納しており、聴覚心理量算出部７０では、聴覚心理テーブル格納部６０に格納された情報に基づいて、各帯域の「予測聴覚心理量」を算出する。
【０１１５】
以上のような方法で、「予測聴覚心理量」の決定が可能である。
制御帯域判断部３０は、各帯域の「予測誤差量」と「予測聴覚心理量」とをもとに補正処理を行なう帯域を決定するブロックである。決定した帯域の情報を「制御帯域情報」として帯域補正部４０に送る。
【０１１６】
以下、制御帯域判断部３０において補正処理を行なう帯域を決定する方法を説明する。
【０１１７】
制御帯域判断部３０は、帯域ごとに「予測誤差量」と「予測聴覚心理量」との比較を行なう。
【０１１８】
「予測誤差量」＞「予測聴覚心理量」となる帯域を補正処理を行なう帯域とし、「予測誤差量」＜「予測聴覚心理量」となる帯域を、補正処理を行なわない帯域として判断する。
【０１１９】
以上の方法で、補正制御を行なう帯域を示した情報である「制御帯域情報」を決定することができる。
【０１２０】
帯域補正部４０の構成は、実施の形態１に示したものと同様であり、「制御帯域情報」に基づいて、「オーディオデータ」の補正処理を行ない、「補正オーディオデータ」として出力する。
【０１２１】
なお、実施の形態７のデジタルオーディオ復号装置４００においても、図４に示したデジタルオーディオ復号装置２００の構成と同様に、オーディオデコーダ１０を、周波数領域から時間領域への変換の前段階の処理までを行なうオーディオデコーダ１０．１と、周波数領域から時間領域への変換以後の処理を行なうオーディオデコーダ１０．２とに分割し、帯域補正部４０は、オーディオデコーダ１０．１の出力を補正して、オーディオデコーダ１０．２に与える構成としてもよい。
【０１２２】
また、実施の形態７のデジタルオーディオ復号装置４００においても、実施の形態５のデジタルオーディオ復号装置の構成と同様に、制御帯域判断部３０は、「予測誤差量」と「予測聴覚心理量」をもとにして決定された補正処理を行なう帯域の情報とともに、どの程度補正を行なうかを示す「補正係数」を決定し、両者を「制御帯域情報」として帯域補正部４０に送る構成としてもよい。帯域補正部４０では、実施の形態５と同様にして補正処理を行なう。
【０１２３】
以上により、入力されたオーディオデータが誤差を多く含んでいる場合、復号を行なう際に、誤差を多く含んだ帯域成分を自動的に除去したオーディオデータを出力することが可能になり、聴感上、雑音を低減した音を提供することができる。
【０１２４】
また、聴感的な特性を考慮して誤差量を評価することにより、より人間が聴取する際に適切な雑音の低減を行なうことができる。
【０１２５】
［実施の形態８］
図７は、本発明の実施の形態８のデジタルオーディオ復号装置５００の構成を説明するための概略ブロック図である。
【０１２６】
デジタルオーディオ復号装置５００は、以下に説明するとおり、入力の圧縮オーディオデータから帯域ごとの誤差量と聴感的感度とを算出し、その誤差量と聴感的感度とをもとに補正処理を行なう帯域を決定し、その帯域に対して補正処理を行なうことで、復号時に聴感的な音質劣化を低減する。
【０１２７】
図７においても、「圧縮オーディオデータ」は、システムへの入力となる、たとえばＡＡＣ規格のデータストリームである。「オーディオデータ」は、「圧縮オーディオデータ」を復号して得られるオーディオの時系列データである。
【０１２８】
オーディオデコーダ１０は、実施の形態１と同様に、圧縮オーディオデータを入力として、たとえばＡＡＣ規格の復号処理を行ない、復号結果を「オーディオデータ」として出力するブロックである。以上により、ＡＡＣ規格に従う通常の復号処理が行なわれる。
【０１２９】
図７において誤差算出部２０は実施の形態１および実施の形態７で説明したのと同様な構成を有し、「圧縮オーディオデータ」から符号化時に発生した各帯域における「予測誤差量」を算出し、制御帯域判断部３０に出力する。
【０１３０】
聴覚心理量算出部７０は、「圧縮オーディオデータ」をもとに各帯域において人間の聴感的な感度である「予測聴覚心理量」を決定し、制御帯域判断部３０に送る。
【０１３１】
以下では、聴覚心理量算出部７０において、「予測聴覚心理量」を決定する方法を説明する。
【０１３２】
人間の聴覚の感度は、周囲に存在する音に依存して異なり、この現象は「マスキング」として一般に知られている。マスキングでは、ある音に対して、周波数的に近い位置に他の音が存在したり、時間的に近い位置に音が存在したりすると、その音が聞こえにくくなるという現象が現われる。すなわち、たとえば物理的に同じ大きさの４ｋＨｚの音であっても、その音のみを聞く場合と、３．５ｋＨｚの他の音と一緒に聞く場合とでは、前者の方が音が大きく聞こえるという特性がある。こうした各時刻、各帯域におけるマスキング量を算出する方法としては、たとえば、ＩＳＯ／ＩＥＳ１１１７２−３などに記載された方法がある。
【０１３３】
聴覚心理量算出部７０では、このようなＩＳＯ／ＩＥＣ１１１７２−０３などに記載された方法を用いて、「圧縮オーディオデータ」から、その時点で各帯域における聴感上聞き取ることができない音の最大値を算出する。これを各帯域の「予測聴覚心理量」とする。
【０１３４】
以上のような方法で、「予測聴覚心理量」の決定が可能である。
制御帯域判断部３０は、実施の形態７で説明したものと同様の構成を有し、各帯域の「予測誤差量」と「予測聴覚心理量」とをもとに補正処理を行なう帯域を決定し、「制御帯域情報」として帯域補正部４０に送る。
【０１３５】
帯域補正部４０は、実施の形態７に示したのと同様の構成を有し、「制御帯域情報」に基づいて、「オーディオデータ」の補正処理を行ない、「補正オーディオデータ」として出力する。
【０１３６】
なお、実施の形態８のデジタルオーディオ復号装置５００においても、図４に示したデジタルオーディオ復号装置２００の構成と同様に、オーディオデコーダ１０を、周波数領域から時間領域への変換の前段階の処理までを行なうオーディオデコーダ１０．１と、周波数領域から時間領域への変換以後の処理を行なうオーディオデコーダ１０．２とに分割し、帯域補正部４０は、オーディオデコーダ１０．１の出力を補正して、オーディオデコーダ１０．２に与える構成としてもよい。
【０１３７】
また、実施の形態８のデジタルオーディオ復号装置５００においても、実施の形態５のデジタルオーディオ復号装置の構成と同様に、制御帯域判断部３０は、「予測誤差量」と「予測聴覚心理量」をもとにして決定された補正処理を行なう帯域の情報とともに、どの程度補正を行なうかを示す「補正係数」を決定し、両者を「制御帯域情報」として帯域補正部４０に送る構成としてもよい。帯域補正部４０では、実施の形態５と同様にして補正処理を行なう。
【０１３８】
以上により、入力されたオーディオデータが誤差を多く含んでいる場合、復号を行なう際に、誤差を多く含んだ帯域成分を自動的に除去したオーディオデータを出力することが可能になり、聴感上、雑音を低減した音を提供することができる。また、聴感的な特性を考慮して誤差量を評価することにより、より適切な雑音の低減を行なうことが可能となる。
【０１３９】
［実施の形態９］
実施の形態９のデジタルオーディオ復号装置の構成は、実施の形態７に示したオーディオ復号装置の構成と基本的に同様である。
【０１４０】
ただし、以下に説明するとおり、制御帯域判断部３０において補正処理を行なう帯域を決定する処理の方法が異なる。
【０１４１】
すなわち、実施の形態９のデジタルオーディオ復号装置においては、最も高い周波数帯域から順に、帯域ごとに「予測誤差量」と「予測聴覚心理量」との比較を行ない、初めて、「予測誤差量」＜「予測聴覚心理量」の帯域を求める。この帯域より高い周波数の全帯域を、補正処理を行なう帯域として判断する。以上の方法で、補正制御を行なう帯域を示す情報である「制御帯域情報」を決定することができる。
【０１４２】
このような方法によっても、入力されたオーディオデータが誤差を多く含んでいる場合、復号を行なう際に誤差を多く含んだ帯域成分を自動的に除去したオーディオデータを出力することが可能になり、聴感上、雑音を低減した音を提供することができる。
【０１４３】
また、聴感的な特性を考慮して誤差量を評価することにより、より適切な雑音の低減が行なえる。
【０１４４】
さらに、このとき、「制御帯域情報」としては境界となる帯域のみの情報を帯域補正部４０に送ればよく、より小規模なシステムで実現が可能である。さらに、帯域補正部４０が格納するフィルタは、低域通過フィルタのみの組合せでよく、より小規模なシステムで実現が可能である。
【０１４５】
［実施の形態１０］
実施の形態１０のデジタルオーディオ復号装置の構成は、基本的に、実施の形態７のデジタルオーディオ復号装置の構成と同様であり、以下に説明するとおり、制御帯域判断部３０において、補正処理を行なう帯域を判断する処理が異なる。
【０１４６】
すなわち、実施の形態１０のデジタルオーディオ復号装置においては、最も低い周波数帯域から順に、帯域ごとに「予測誤差量」と「予測聴覚心理量」との比較を行ない、初めて、「予測誤差量」＜「予測聴覚心理量」となる帯域を求める。この帯域より低い周波数の全帯域を、補正処理を行なう帯域として判断する。
【０１４７】
以上の方法で、補正制御を行なう帯域を示す情報である「制御帯域情報」を決定することができる。
【０１４８】
このような方法によっても、入力されたオーディオデータが誤差を多く含んでいる場合、復号を行なう際に誤差を多く含んだ帯域成分を自動的に除去したオーディオデータを出力することが可能になり、聴感上、雑音を低減した音を提供することができる。また、聴感的な特性を考慮して誤差量を評価することにより、より適切な雑音の低減が行なえる。さらに、このとき、「制御帯域情報」としては境界となる帯域のみの情報を帯域補正部４０に送ればよく、より小規模なシステムで実現が可能である。さらに、帯域補正部４０が格納するフィルタは、高域通過フィルタのみの組合せでよく、より小規模なシステムで実現が可能である。
【０１４９】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【０１５０】
【発明の効果】
以上説明したとおり、本発明によれば、符号化時に音質の劣化した圧縮オーディオデータに対し、再生時の音質劣化を低減することが可能なデジタルオーディオ復号装置を提供することができる。
【０１５１】
さらに、本発明によれば、符号化時に音質の劣化した圧縮オーディオデータに対し、雑音を低減し良好な音質の再生を行なうことが可能なデジタルオーディオ復号装置を提供することができる。さらに、符号化時の音質劣化を自動的に判別し、劣化の少ない圧縮データに対しては、通常の再生を妨げないデジタルオーディオ復号装置を提供することができる。
【図面の簡単な説明】
【図１】本発明の実施の形態１のデジタルオーディオ復号装置１００の構成を説明するための概略ブロック図である。
【図２】ＡＡＣ規格の、特にａｄｔｓフォーマットの圧縮データフォーマットを示す概念図である。
【図３】フレーム内のオーディオサンプルの構成を示す概念図である。
【図４】本発明の実施の形態４のデジタルオーディオ復号装置２００の構成を説明するための概略ブロック図である。
【図５】本発明の実施の形態６のデジタルオーディオ復号装置３００の構成を説明するための概略ブロック図である。
【図６】本発明の実施の形態７のデジタルオーディオ復号装置４００の構成を説明するための概略ブロック図である。
【図７】本発明の実施の形態８のデジタルオーディオ復号装置５００の構成を説明するための概略ブロック図である。
【図８】従来のデジタルオーディオ復号装置８００の構成を説明するための図である。
【符号の説明】
１０オーディオデコーダ、２０誤差算出部、３０制御帯域判断部、４０帯域補正部、５０ビットレート算出部、６０聴覚心理テーブル格納部、７０聴覚心理量算出部、１００，２００，３００，４００，５００デジタルオーディオ復号装置。

Claims

音声信号を複数の周波数帯域ごとに圧縮したオーディオデータの復号を行なうためのデジタルオーディオ復号装置であって、
前記圧縮されたオーディオデータに含まれる帯域ごとの誤差量を算出する誤差算出手段と、
前記各帯域の誤差量をもとに、補正処理を行なう帯域を決定する帯域決定手段と、
前記決定された帯域に対し補正を行なう補正手段とを備える、デジタルオーディオ復号装置。
各帯域の聴感的な感度を算出するための聴感算出手段をさらに備え、
前記帯域決定手段は、前記各帯域の誤差量と各帯域の聴感的な感度をもとに、補正処理を行なう帯域を決定する、請求項１記載のデジタルオーディオ復号装置。
前記オーディオデータに含まれる帯域ごとの誤差量は、オーディオデータの各帯域成分の量子化間隔をもとに算出される、請求項１または２に記載のデジタルオーディオ復号装置。