JP3886851B2 - Audio signal encoding device - Google Patents
Audio signal encoding device Download PDFInfo
- Publication number
- JP3886851B2 JP3886851B2 JP2002167571A JP2002167571A JP3886851B2 JP 3886851 B2 JP3886851 B2 JP 3886851B2 JP 2002167571 A JP2002167571 A JP 2002167571A JP 2002167571 A JP2002167571 A JP 2002167571A JP 3886851 B2 JP3886851 B2 JP 3886851B2
- Authority
- JP
- Japan
- Prior art keywords
- block
- prediction
- audio signal
- information
- coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、オーディオ信号を符号化し、オーディオ信号に含まれる量子化雑音を抑圧するオーディオ信号符号化装置に関するものである。
【0002】
【従来の技術】
従来、この種のオーディオ信号符号化装置は、動画およびオーディオを対象とした規格であるMPEG(Moving Picture Experts Group)のオーディオ規格などに準拠したものが普及している。
MPEGオーディオ規格によって規定されている量子化雑音を抑圧する処理であるTNS(Temporal Noise Shaping) は、オーディオ信号を複数のブロックに分割し、分割されたブロックについて、ブロックの長さに応じて量子化雑音を抑圧する処理の対象となる周波数、予測係数長、あるいは予測ゲイン閾値を決定する。また、ブロックに含まれる離散コサイン係数の一種であるMDCT(Modified Discrete Cosine Transform)係数に基づいて、公知の線形予測分析を用いて予測ゲインを算出する。予測ゲインと上記予測ゲイン閾値との比較を行い、予測ゲインが閾値よりも大きいか否かを比較する。算出された予測係数から反射係数に変換した後、非線形量子化して得られた係数であるフィルタ係数を生成する。生成されたフィルタ係数をMDCT係数に対してフィルタ処理を施し、予測残差の信号を生成する。これらの処理により、量子化雑音は、時間軸上全体に均一に分布しているが、上記のフィルタ処理によって量子化雑音は時間軸上で出力レベルの大きいところに分布されるため、プリエコーを低減することができる。
【0003】
【発明が解決しようとする課題】
しかしながら、このような従来のMPEGオーディオ規格に準拠したオーディオ信号符号化装置では、低速の伝送速度でオーディオ信号を送信する場合、オーディオ信号に含まれる量子化雑音を過剰に抑圧してしまうと、この抑圧に伴い生成される情報量が増加するために、周波数成分を符号化する情報が減少し、復号化の際に音質劣化を生じるという問題があった。また、オーディオ信号の性質を無視して符号化しているために、オーディオ信号を復号化すると音質劣化を生じるという問題があった。
本発明は、このような問題を解決するためになされたもので、オーディオ信号に含まれる量子化雑音を抑圧する際に生じる音質劣化を低減することが可能となるオーディオ信号符号化装置を提供するものである。
【0004】
【課題を解決するための手段】
本発明のオーディオ信号符号化装置は、オーディオ信号を複数のブロックに分割し、このブロック毎に変換して得られる周波数領域の情報である各離散係数情報に基づいて、前記ブロック毎に各周波数での離散係数情報に対して線形予測して線形予測係数を生成し、前記線形予測係数のレベルと前記線形予測の誤差のレベルとの比である予測ゲインを前記ブロック毎に算出する予測ゲイン算出手段と、前記各ブロックについて算出された前記各予測ゲインが所定の閾値を越えたか否かを判断する閾値判断手段と、前記閾値を越えたと判断された前記予測ゲインに対応するブロックである対象ブロックの中から、所定個数以下の個数のブロックを選択するブロック選択手段と、選択された前記対象ブロックから得られるフィルタ係数に基づいて、前記各離散係数情報をフィルタリングして量子化雑音を抑圧し、前記ブロック毎の線形予測の誤差である予測残差の信号を生成する量子化雑音抑圧手段とを備え、前記線形予測係数の次数は、所定の次数である最大次数以下とする構成を有している。この構成により、予測ゲインが上記閾値を越えたと判断されたブロックである対象ブロックを選択し、オーディオ信号に含まれる量子化雑音を過剰に抑圧しないため、オーディオ信号に含まれる量子化雑音を抑圧する際に生じる音質劣化を低減することが可能となる。
【0005】
また、本発明のオーディオ信号符号化装置は、オーディオ信号を複数のブロックに分割し、このブロック毎に変換して得られる周波数領域の情報である各離散係数情報に基づいて、前記ブロック毎に各周波数での離散係数情報に対して線形予測して線形予測係数を生成し、前記線形予測係数のレベルと前記線形予測の誤差のレベルとの比である予測ゲインを前記ブロック毎に算出する予測ゲイン算出手段と、前記各ブロックについて算出された前記各予測ゲインが所定の閾値を越えたか否かを判断する閾値判断手段と、前記閾値を越えたと判断された前記予測ゲインに対応するブロックである対象ブロックの中から、所定個数以下の個数のブロックを選択するブロック選択手段と、選択された前記対象ブロックから得られるフィルタ係数に基づいて、前記各離散係数情報をフィルタリングして量子化雑音を抑圧し、前記ブロック毎の線形予測の誤差である予測残差の信号を生成する量子化雑音抑圧手段とを備え、前記線形予測係数の次数は、所定の次数である最大次数以下とし、また前記予測ゲイン算出手段は、前記各離散係数情報に基づいて統計情報を生成し、前記統計情報に応じて周波数帯域の範囲を決定し、決定された周波数帯域の範囲に含まれる前記ブロック毎の離散係数情報に基づいて、前記予測ゲインを前記ブロック毎に算出する構成を有している。この構成により、離散係数情報に基づいて統計情報を生成しオーディオ信号の性質に応じて周波数成分を符号化するため、復号化の際に音質劣化を抑止することが可能となる。
【0006】
また、本発明のオーディオ信号符号化装置は、オーディオ信号を複数のブロックに分割し、このブロック毎に変換して得られる周波数領域の情報である各離散係数情報に基づいて、前記ブロック毎に各周波数での離散係数情報に対して線形予測して線形予測係数を生成し、前記線形予測係数のレベルと前記線形予測の誤差のレベルとの比である予測ゲインを前記ブロック毎に算出する予測ゲイン算出手段と、前記各ブロックについて算出された前記各予測ゲインが所定の閾値を越えたか否かを判断する閾値判断手段と、前記閾値を越えたと判断された前記予測ゲインに対応するブロックである対象ブロックの中から、所定個数以下の個数のブロックを選択するブロック選択手段と、選択された前記対象ブロックから得られるフィルタ係数に基づいて、前記各離散係数情報をフィルタリングして量子化雑音を抑圧し、前記ブロック毎の線形予測の誤差である予測残差の信号を生成する量子化雑音抑圧手段とを備え、前記線形予測係数の次数は、所定の次数である最大次数以下とし、またサンプリング周波数と伝送速度とチャンネル数とに基づいて圧縮率を算出する圧縮率算出手段を備え、前記ブロック選択手段は、前記圧縮率に応じて前記対象ブロックを選択する個数である選択数を決定し、決定された選択数以下の個数のブロックを選択する構成を有している。この構成により、オーディオ信号を符号化した情報を送信する際の圧縮率に応じて、自動的に選択数を決定することが可能となる。
【0007】
また、本発明のオーディオ信号符号化装置は、オーディオ信号を複数のブロックに分割し、このブロック毎に変換して得られる周波数領域の情報である各離散係数情報に基づいて、前記ブロック毎に各周波数での離散係数情報に対して線形予測して線形予測係数を生成し、前記線形予測係数のレベルと前記線形予測の誤差のレベルとの比である予測ゲインを前記ブロック毎に算出する予測ゲイン算出手段と、前記各ブロックについて算出された前記各予測ゲインが所定の閾値を越えたか否かを判断する閾値判断手段と、前記閾値を越えたと判断された前記予測ゲインに対応するブロックである対象ブロックの中から、所定個数以下の個数のブロックを選択するブロック選択手段と、選択された前記対象ブロックから得られるフィルタ係数に基づいて、前記各離散係数情報をフィルタリングして量子化雑音を抑圧し、前記ブロック毎の線形予測の誤差である予測残差の信号を生成する量子化雑音抑圧手段とを備え、前記線形予測係数の次数は、所定の次数である最大次数以下とし、また前記予測ゲイン算出手段は、前記圧縮率に応じて前記最大次数を決定し、決定された最大次数に基づいて前記予測ゲインを前記ブロック毎に算出する構成を有している。この構成により、オーディオ信号を符号化した情報を送信する際の圧縮率に応じて、自動的に最大次数を決定することが可能となる。
【0008】
また、本発明のオーディオ信号符号化装置は、オーディオ信号を複数のブロックに分割し、このブロック毎に変換して得られる周波数領域の情報である各離散係数情報に基づいて、前記ブロック毎に各周波数での離散係数情報に対して線形予測して線形予測係数を生成し、前記線形予測係数のレベルと前記線形予測の誤差のレベルとの比である予測ゲインを前記ブロック毎に算出する予測ゲイン算出手段と、前記各ブロックについて算出された前記各予測ゲインが所定の閾値を越えたか否かを判断する閾値判断手段と、前記閾値を越えたと判断された前記予測ゲインに対応するブロックである対象ブロックの中から、所定個数以下の個数のブロックを選択するブロック選択手段と、選択された前記対象ブロックから得られるフィルタ係数に基づいて、前記各離散係数情報をフィルタリングして量子化雑音を抑圧し、前記ブロック毎の線形予測の誤差である予測残差の信号を生成する量子化雑音抑圧手段とを備え、前記線形予測係数の次数は、所定の次数である最大次数以下とし、また前記閾値判断手段は、前記圧縮率に応じて閾値を決定し、決定された閾値を越えたか否かを判断する構成を有している。この構成により、オーディオ信号を符号化した情報を送信する際の圧縮率に応じて、自動的に閾値を決定することが可能となる。
【0009】
また、本発明のオーディオ信号符号化装置は、オーディオ信号を複数のブロックに分割し、このブロック毎に変換して得られる周波数領域の情報である各離散係数情報に基づいて、前記ブロック毎に各周波数での離散係数情報に対して線形予測して線形予測係数を生成し、前記線形予測係数のレベルと前記線形予測の誤差のレベルとの比である予測ゲインを前記ブロック毎に算出する予測ゲイン算出手段と、前記各ブロックについて算出された前記各予測ゲインが所定の閾値を越えたか否かを判断する閾値判断手段と、前記閾値を越えたと判断された前記予測ゲインに対応するブロックである対象ブロックの中から、所定個数以下の個数のブロックを選択するブロック選択手段と、選択された前記対象ブロックから得られるフィルタ係数に基づいて、前記各離散係数情報をフィルタリングして量子化雑音を抑圧し、前記ブロック毎の線形予測の誤差である予測残差の信号を生成する量子化雑音抑圧手段とを備え、前記線形予測係数の次数は、所定の次数である最大次数以下とし、また前記閾値判断手段は、前記圧縮率が所定の値以下であったとき、および前記線形予測係数の次数に応じて閾値を決定し、決定された閾値を越えたか否かを判断する構成を有している。この構成により、オーディオ信号を符号化した情報を送信する際の圧縮率および前記線形予測係数の次数に応じて、自動的に閾値を決定することが可能となる。
【0010】
また、本発明のオーディオ信号符号化装置は、オーディオ信号を複数のブロックに分割し、このブロック毎に変換して得られる周波数領域の情報である各離散係数情報に基づいて、前記ブロック毎に各周波数での離散係数情報に対して線形予測して線形予測係数を生成し、前記線形予測係数のレベルと前記線形予測の誤差のレベルとの比である予測ゲインを前記ブロック毎に算出する予測ゲイン算出手段と、前記各ブロックについて算出された前記各予測ゲインが所定の閾値を越えたか否かを判断する閾値判断手段と、前記閾値を越えたと判断された前記予測ゲインに対応するブロックである対象ブロックの中から、所定個数以下の個数のブロックを選択するブロック選択手段と、選択された前記対象ブロックから得られるフィルタ係数に基づいて、前記各離散係数情報をフィルタリングして量子化雑音を抑圧し、前記ブロック毎の線形予測の誤差である予測残差の信号を生成する量子化雑音抑圧手段とを備え、前記線形予測係数の次数は、所定の次数である最大次数以下とし、さらに前記圧縮率に応じて、前記量子化雑音抑圧手段によって生成された前記予測残差の信号を復元し、復元された情報と、復元の基となった前記各離散係数情報との誤差を判断し、判断した結果に応じて前記予測残差の信号、あるいは前記各離散係数情報を出力する手段とを備えた構成を有している。この構成により、離散係数情報と量子化雑音を抑圧した予測残差の信号を復元し得られた情報との誤差を判断して出力する情報を決定するため、復号化の際に音質劣化を低減することが可能となる。
【0011】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を用いて説明する。
図1は、本発明の第1の実施の形態のオーディオ信号符号化装置のブロック構成を示す図である。本発明の第1の実施の形態のオーディオ信号符号化装置100は、予測ゲインを生成する予測ゲイン算出手段110、予測ゲインが所定の閾値を越えるか否かを判断する閾値判断手段120、予測ゲインが所定の閾値を越えるブロックを所定の個数選択するブロック選択手段130、およびブロックに含まれる量子化雑音を抑圧する量子化雑音抑圧手段140によって構成される。
【0012】
予測ゲイン算出手段110は、ブロック毎に変換して得られる周波数領域の情報である各離散係数情報を入力し、下記の線形予測係数と、予測ゲインとを生成する手段である。ここでブロックとは、オーディオ信号を複数に分割したものである。離散係数情報は、MPEGの規格書などに記載されているMDCT(Modified Discrete Cosine Transform)係数でもよい。
【0013】
予測ゲイン算出手段110は、入力された各離散係数情報に基づいて、前記ブロック毎に各周波数での離散係数情報の線形予測をして線形予測係数を生成する。なお、線形予測係数の生成方法は、公知のLevinson−Durbinアルゴリズムあるいはその他の方法でもよい。また、線形予測の次数は、所定の次数である最大次数以下となるように生成される。
【0014】
予測ゲイン算出手段110は、生成した線形予測係数のレベルと線形予測の誤差のレベルとの比である予測ゲインをブロック毎に算出し、各ブロックに対応する予測ゲインを閾値判断手段120に出力する。予測ゲインとは、ブロック内に量子化雑音が含まれている可能性を示すものであり、この可能性が高いと予測ゲインも大きくなる。また、予測ゲインの算出方法は、MPEGの規格書などに記載されている。
【0015】
また、予測ゲイン算出手段110は、各離散係数情報に基づいて統計情報を生成し、前記統計情報に応じて、周波数帯域の範囲を決定し、決定された周波数帯域の範囲に含まれる前記ブロック毎の離散係数情報に基づいて、前記予測ゲインを前記ブロック毎に算出してもよい。周波数帯域の範囲を決定する方法としては、周波数軸を分割する単位であるスケールファクタバンドに含まれるスペクトルの分散の大きさに応じて周波数帯域の範囲を狭く制限してもよい。
【0016】
閾値判断手段120は、予測ゲイン算出手段110によって出力された各ブロックに対応する予測ゲインを入力とし、入力された各予測ゲインが所定の閾値を越えたか否かを判断し、判断の結果に関する情報(以下、判断情報と呼ぶ)をブロック選択手段130に出力する手段である。判断情報は、各ブロックに付与される所定の閾値を越えるか否かを示す情報でもよい。
【0017】
ブロック選択手段130は、閾値判断手段120によって出力された判断情報を入力とし、判断情報に基づいて、予測ゲインが上記閾値を越えたと判断されたブロックである対象ブロックのうち、ブロックから得られる予測ゲインが大きいものから順番に所定の個数である選択数以下となるように選択する手段である。例えば、閾値を越えたと判断された対象ブロック数が5、選択数が3であった場合、予測ゲインが大きいものから順番にブロックを3個選択する。また、閾値を越えたと判断された対象ブロック数が2、選択数が3であった場合、ブロックを2個選択する。
【0018】
ブロック選択手段130は、選択の結果に関する情報(以下、選択情報と呼ぶ)と各ブロックとを量子化雑音抑圧手段140に出力する。選択情報は、各ブロックに付与される選択したか否かを示す情報でもよい。
【0019】
量子化雑音抑圧手段140は、ブロック選択手段130によって出力された選択情報を入力とし、選択されたブロックからフィルタ係数を算出し、算出されたフィルタ係数を適用したフィルタで離散係数情報をフィルタリングして、量子化雑音を抑圧する手段である。
【0020】
量子化雑音抑圧手段140は、前記ブロック毎の線形予測の誤差である予測残差の信号を生成し出力する。量子化雑音を抑圧する処理であるTNS(Temporal Noise Shaping)は、MPEGの規格書などに記載されている。
【0021】
以上説明したように、本発明の第1の実施の形態に係るオーディオ信号符号化装置は、予測ゲインが上記閾値を越えたと判断されたブロックである対象ブロックを選択し、オーディオ信号に含まれる量子化雑音を過剰に抑圧しないため、オーディオ信号に含まれる量子化雑音を抑圧する際に生じる音質劣化を低減することが可能となる。また、離散係数情報に基づいて統計情報を生成しオーディオ信号の性質に応じてオーディオ信号を符号化するため、復号化の際に音質劣化を低減することが可能となる。
【0022】
図2は、本発明の第2の実施の形態のオーディオ信号符号化装置のブロック構成を示す図である。本発明の第2の実施の形態のオーディオ信号符号化装置200は、予測ゲインを生成する予測ゲイン算出手段210、予測ゲインが所定の閾値を越えるか否かを判断する閾値判断手段220、ブロックを所定の個数選択するブロック選択手段230、ブロックに含まれる量子化雑音を抑圧する量子化雑音抑圧手段140、およびサンプリング周波数と伝送速度とチャンネル数とに基づいて圧縮率を算出する圧縮率算出手段250によって構成される。
なお、本発明の第2の実施の形態に係るオーディオ信号符号化装置200を構成する手段のうち、本発明の第1の実施の形態に係るオーディオ信号符号化装置100を構成する手段と同様の処理を行うものには同一の符号を付し、その説明を省略する。
【0023】
予測ゲイン算出手段210は、圧縮率算出手段250によって出力された圧縮率とブロック毎に変換して得られる周波数領域の情報である各離散係数情報とを入力し、下記の線形予測係数と、予測ゲインとを生成する手段である。ここでブロックとは、オーディオ信号を複数に分割したものである。離散係数情報は、MPEGの規格書などに記載されるMDCT(Modified Discrete Cosine Transform)係数でもよい。
【0024】
また、予測ゲイン算出手段210は、入力された圧縮率に応じて最大次数を決定する。例えば、最大次数を決定する方法としては、圧縮率と最大次数とが対応する表を予め作成しておき、この表に従って最大次数を求めてもよい。
【0025】
予測ゲイン算出手段210は、入力された各離散係数情報に基づいて、前記ブロック毎に各周波数での離散係数情報の線形予測をして線形予測係数を生成する。なお、線形予測係数の生成方法は、公知のLevinson−Durbinアルゴリズムあるいはその他の方法でもよい。また、線形予測係数の次数は、決定された最大次数以下となるように生成される。
【0026】
予測ゲイン算出手段210は、生成した線形予測係数のレベルと線形予測の誤差のレベルとの比である予測ゲインをブロック毎に算出し、各ブロックに対応する予測ゲインを閾値判断手段220に出力する。予測ゲインとは、ブロック内に量子化雑音が含まれている可能性を示すものであり、この可能性が高いと予測ゲインも大きくなる。また、予測ゲインの算出方法は、MPEGの規格書などに記載されている。
【0027】
また、予測ゲイン算出手段210は、各離散係数情報に基づいて統計情報を生成し、前記統計情報に応じて、周波数帯域の範囲を決定し、決定された周波数帯域の範囲に含まれる前記ブロック毎の離散係数情報に基づいて、前記予測ゲインを前記ブロック毎に算出してもよい。周波数帯域の範囲を決定する方法としては、周波数軸を分割する単位であるスケールファクタバンドに含まれるスペクトルの分散の大きさに応じて周波数帯域の範囲を狭く制限してもよい。
【0028】
閾値判断手段220は、圧縮率算出手段250によって出力された圧縮率と、予測ゲイン算出手段110によって出力された各ブロックに対応する予測ゲインを入力とし、入力された圧縮率に応じて閾値を決定する手段である。例えば、閾値を決定する方法としては、圧縮率と閾値とが対応する表を予め作成しておき、この表に従って閾値を求めてもよい。
【0030】
閾値判断手段220は、入力された各予測ゲインが上記で決定された閾値を越えたか否かを判断し、判断の結果に関する情報(以下、判断情報と呼ぶ)と各ブロックとをブロック選択手段230に出力する。判断情報は、各ブロックに付与される所定の閾値を越えるか否かを示す情報でもよい。
【0031】
ブロック選択手段230は、圧縮率算出手段250によって出力された圧縮率と、閾値判断手段220によって出力された判断情報を入力とし、入力された圧縮率に応じて所定の個数である選択数を決定する手段である。例えば、選択数を決定する方法としては、圧縮率と選択数とが対応する表を予め作成しておき、この表に従って選択数を求めてもよい。
【0032】
また、ブロック選択手段230は、入力された判断情報に基づいて、予測ゲインが上記閾値を越えたと判断されたブロックである対象ブロックのうち、ブロックから得られる予測ゲインが大きいものから順番に所定の個数である選択数以下となるように選択する。
【0033】
ブロック選択手段230は、選択の結果に関する情報(以下、選択情報と呼ぶ)と各ブロックとを量子化雑音抑圧手段140に出力する。選択情報は、各ブロックに付与される選択したか否かを示す情報でもよい。
【0034】
圧縮率算出手段250は、サンプリング周波数と伝送速度とチャンネル数とに基づいて圧縮率を算出し、圧縮率を必要とする手段に出力する手段である。例えば、サンプリング周波数をfs、伝送速度をbr、チャンネル数をchとして表すと、圧縮率は、以下に示す式で求められる。
圧縮率=(fs/br)/ch
【0035】
以上説明したように、本発明の第2の実施の形態に係るオーディオ信号符号化装置は、オーディオ信号を符号化した情報を送信する際の圧縮率に応じて自動的に最大次数、閾値、または選択数を決定することが可能となる。
【0036】
図3は、本発明の第3の実施の形態のオーディオ信号符号化装置のブロック構成を示す図である。本発明の第3の実施の形態のオーディオ信号符号化装置300は、予測ゲインを生成する予測ゲイン算出手段210、予測ゲインが所定の閾値を越えるか否かを判断する閾値判断手段220、ブロックを所定の個数選択するブロック選択手段230、ブロックに含まれる量子化雑音を抑圧する量子化雑音抑圧手段140、圧縮率を算出する圧縮率算出手段250、および量子化雑音を抑圧した予測残差の信号に基づいて予測残差の信号を出力するか否かを判断する復号化判断手段360によって構成される。
なお、本発明の第3の実施の形態に係るオーディオ信号符号化装置300を構成する手段のうち、本発明の第2の実施の形態に係るオーディオ信号符号化装置200を構成する手段と同様の処理を行うものには同一の符号を付し、その説明を省略する。
【0037】
復号化判断手段360は、量子化雑音抑圧手段140によって出力された予測残差の信号と、予測ゲイン算出手段210によって出力された予測ゲインと、圧縮率算出手段250によって出力された圧縮率を入力とし、入力されたこれらの情報を処理する手段である。
【0038】
また、復号化判断手段360は、予測残差の信号を復元し得られた情報と、前記ブロックに含まれるオーディオ信号を前記ブロック毎に変換して得られる周波数領域の情報である前記ブロック毎の離散係数情報との誤差を算出する。
【0039】
例えば、予測残差の信号を復元する方法としては、圧縮率に応じて予測残差の信号に含まれるスペクトル数のみを復元し、すなわち圧縮率が非常に小さい場合、量子化できるスペクトル数が少なくなるため、圧縮率が小さい場合は,復元するスペクトル数も少なくする。また、符号化の際に周波数軸を分割する単位であるスケールファクタバンドでスペクトルの絶対値が大きいものから順に選択し、予測残差の信号を復元する。
例えば、予測残差の信号を復元し得られた情報と、離散係数情報との誤差を算出する方法としては、各スケールファクタバンドに含まれるエネルギー値等を使用し算出する。
【0040】
復号化判断手段360は、算出した上記誤差を判断し、予測残差の信号、あるいは離散係数情報を出力する。例えば、上記各スケールファクタバンドに含まれるエネルギー値によって得られた予測残差の信号を復元し得られた情報と、離散係数情報との誤差が基準値を越えていた場合、復号化の際に音質劣化を生じるため、予測残差の信号を出力せずに離散係数情報を出力する。上記誤差が基準値を以内であった場合、予測残差の信号を出力する。
【0041】
以上説明したように、本発明の第3の実施の形態に係るオーディオ信号符号化装置は、離散係数情報と量子化雑音を抑圧した予測残差の信号を復元し得られた情報との誤差を判断して出力する情報を決定するため、復号化の際に音質劣化を抑止することが可能となる。
【0042】
【発明の効果】
以上説明したように、本発明は、オーディオ信号に含まれる量子化雑音を抑圧する際に生じる音質劣化を低減するオーディオ信号符号化装置を提供することができるものである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態のオーディオ信号符号化装置のブロック構成を示す図
【図2】本発明の第2の実施の形態のオーディオ信号符号化装置のブロック構成を示す図
【図3】本発明の第3の実施の形態のオーディオ信号符号化装置のブロック構成を示す図
【符号の説明】
100、200、300 オーディオ信号符号化装置
110、210 予測ゲイン算出手段
120、220 閾値判断手段
130、230 ブロック選択手段
140 量子化雑音抑圧手段
250 圧縮率算出手段
360 復号化判断手段[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an audio signal encoding apparatus that encodes an audio signal and suppresses quantization noise included in the audio signal.
[0002]
[Prior art]
Conventionally, this type of audio signal encoding apparatus that is compliant with the MPEG (Moving Picture Experts Group) audio standard, which is a standard for moving images and audio, has been widely used.
TNS (Temporal Noise Shaping), which is a process for suppressing quantization noise defined by the MPEG audio standard, divides an audio signal into a plurality of blocks, and the divided blocks are quantized according to the block length. A frequency, a prediction coefficient length, or a prediction gain threshold that is a processing target for suppressing noise is determined. Further, based on MDCT (Modified Discrete Cosine Transform) coefficient which is a kind of discrete cosine coefficient included in the block, a prediction gain is calculated using a known linear prediction analysis. The prediction gain is compared with the prediction gain threshold value to compare whether the prediction gain is larger than the threshold value. After converting the calculated prediction coefficient into a reflection coefficient, a filter coefficient that is a coefficient obtained by nonlinear quantization is generated. The generated filter coefficient is subjected to filter processing on the MDCT coefficient to generate a prediction residual signal. With these processes, the quantization noise is evenly distributed over the entire time axis, but because the quantization noise is distributed to places with high output levels on the time axis, the pre-echo is reduced. can do.
[0003]
[Problems to be solved by the invention]
However, in such an audio signal encoding device compliant with the conventional MPEG audio standard, when an audio signal is transmitted at a low transmission speed, if the quantization noise included in the audio signal is excessively suppressed, Since the amount of information generated with the suppression increases, there is a problem in that the information for encoding the frequency component decreases and the sound quality deteriorates at the time of decoding. In addition, since encoding is performed while ignoring the nature of the audio signal, there is a problem in that sound quality degradation occurs when the audio signal is decoded.
The present invention has been made to solve such a problem, and provides an audio signal encoding apparatus capable of reducing deterioration in sound quality that occurs when quantization noise included in an audio signal is suppressed. Is.
[0004]
[Means for Solving the Problems]
The audio signal encoding device according to the present invention divides an audio signal into a plurality of blocks and converts each block at each frequency on the basis of each discrete coefficient information which is frequency domain information obtained by conversion. Predictive gain calculating means for generating a linear prediction coefficient by performing linear prediction on the discrete coefficient information of each block, and calculating a prediction gain that is a ratio between the level of the linear prediction coefficient and the error level of the linear prediction for each block And a threshold determination means for determining whether or not each prediction gain calculated for each block exceeds a predetermined threshold, and a target block that is a block corresponding to the prediction gain determined to exceed the threshold Based on block selection means for selecting a predetermined number of blocks or less from among them, and a filter coefficient obtained from the selected target block Quantization noise suppression means for filtering each of the discrete coefficient information to suppress quantization noise and generating a prediction residual signal that is an error of linear prediction for each block, and the order of the linear prediction coefficient is And having a configuration in which the predetermined order is the maximum order or less. With this configuration, a target block that is a block for which the prediction gain has been determined to exceed the threshold is selected, and the quantization noise included in the audio signal is not excessively suppressed, so that the quantization noise included in the audio signal is suppressed. It is possible to reduce deterioration in sound quality that occurs at the time.
[0005]
Further, the audio signal encoding device of the present invention divides the audio signal into a plurality of blocks and converts each block into each block based on each discrete coefficient information which is information in a frequency domain obtained by conversion for each block. A prediction gain that generates a linear prediction coefficient by performing linear prediction on discrete coefficient information at a frequency, and calculates a prediction gain that is a ratio between a level of the linear prediction coefficient and an error level of the linear prediction for each block. A calculation means; threshold determination means for determining whether or not each prediction gain calculated for each block exceeds a predetermined threshold; and an object that is a block corresponding to the prediction gain determined to exceed the threshold Based on block selection means for selecting a predetermined number of blocks or less from the blocks, and filter coefficients obtained from the selected target block. Quantization noise suppressing means for filtering the discrete coefficient information to suppress quantization noise and generating a prediction residual signal that is an error of linear prediction for each block, and The order is equal to or less than the maximum order that is a predetermined order, and the prediction gain calculation means generates statistical information based on each discrete coefficient information, determines a frequency band range according to the statistical information, and determines The prediction gain is calculated for each block based on the discrete coefficient information for each block included in the range of the frequency band. With this configuration, statistical information is generated based on the discrete coefficient information, and the frequency component is encoded according to the property of the audio signal. Therefore, it is possible to suppress deterioration in sound quality during decoding.
[0006]
Further, the audio signal encoding device of the present invention divides the audio signal into a plurality of blocks and converts each block into each block based on each discrete coefficient information which is information in a frequency domain obtained by conversion for each block. A prediction gain that generates a linear prediction coefficient by performing linear prediction on discrete coefficient information at a frequency, and calculates a prediction gain that is a ratio between a level of the linear prediction coefficient and an error level of the linear prediction for each block. A calculation means; threshold determination means for determining whether or not each prediction gain calculated for each block exceeds a predetermined threshold; and an object that is a block corresponding to the prediction gain determined to exceed the threshold Based on block selection means for selecting a predetermined number of blocks or less from the blocks, and filter coefficients obtained from the selected target block. Quantization noise suppressing means for filtering the discrete coefficient information to suppress quantization noise and generating a prediction residual signal that is an error of linear prediction for each block, and The order is equal to or less than the maximum order, which is a predetermined order, and includes a compression ratio calculation means for calculating a compression ratio based on a sampling frequency, a transmission rate, and the number of channels, and the block selection means is configured to A selection number which is the number for selecting the target block is determined, and a number of blocks equal to or less than the determined selection number is selected. With this configuration, the number of selections can be automatically determined according to the compression rate when transmitting information obtained by encoding an audio signal.
[0007]
Further, the audio signal encoding device of the present invention divides the audio signal into a plurality of blocks and converts each block into each block based on each discrete coefficient information which is information in a frequency domain obtained by conversion for each block. A prediction gain that generates a linear prediction coefficient by performing linear prediction on discrete coefficient information at a frequency, and calculates a prediction gain that is a ratio between a level of the linear prediction coefficient and an error level of the linear prediction for each block. A calculation means; threshold determination means for determining whether or not each prediction gain calculated for each block exceeds a predetermined threshold; and an object that is a block corresponding to the prediction gain determined to exceed the threshold Based on block selection means for selecting a predetermined number of blocks or less from the blocks, and filter coefficients obtained from the selected target block. Quantization noise suppressing means for filtering the discrete coefficient information to suppress quantization noise and generating a prediction residual signal that is an error of linear prediction for each block, and The order is equal to or less than the maximum order which is a predetermined order, and the prediction gain calculation means determines the maximum order according to the compression rate, and the prediction gain is determined for each block based on the determined maximum order. It has a configuration to calculate. With this configuration, it is possible to automatically determine the maximum order according to the compression rate when transmitting information obtained by encoding an audio signal.
[0008]
Further, the audio signal encoding device of the present invention divides the audio signal into a plurality of blocks and converts each block into each block based on each discrete coefficient information which is information in a frequency domain obtained by conversion for each block. A prediction gain that generates a linear prediction coefficient by performing linear prediction on discrete coefficient information at a frequency, and calculates a prediction gain that is a ratio between a level of the linear prediction coefficient and an error level of the linear prediction for each block. A calculation means; threshold determination means for determining whether or not each prediction gain calculated for each block exceeds a predetermined threshold; and an object that is a block corresponding to the prediction gain determined to exceed the threshold Based on block selection means for selecting a predetermined number of blocks or less from the blocks, and filter coefficients obtained from the selected target block. Quantization noise suppressing means for filtering the discrete coefficient information to suppress quantization noise and generating a prediction residual signal that is an error of linear prediction for each block, and The order is equal to or less than the maximum order, which is a predetermined order, and the threshold value determination means determines a threshold value according to the compression rate and determines whether or not the determined threshold value is exceeded. With this configuration, it is possible to automatically determine the threshold according to the compression rate when transmitting information obtained by encoding an audio signal.
[0009]
Further, the audio signal encoding device of the present invention divides the audio signal into a plurality of blocks and converts each block into each block based on each discrete coefficient information which is information in a frequency domain obtained by conversion for each block. A prediction gain that generates a linear prediction coefficient by performing linear prediction on discrete coefficient information at a frequency, and calculates a prediction gain that is a ratio between a level of the linear prediction coefficient and an error level of the linear prediction for each block. A calculation means; threshold determination means for determining whether or not each prediction gain calculated for each block exceeds a predetermined threshold; and an object that is a block corresponding to the prediction gain determined to exceed the threshold Based on block selection means for selecting a predetermined number of blocks or less from the blocks, and filter coefficients obtained from the selected target block. Quantization noise suppressing means for filtering the discrete coefficient information to suppress quantization noise and generating a prediction residual signal that is an error of linear prediction for each block, and The order is not more than the maximum order which is a predetermined order, and the threshold value determining means determines the threshold value when the compression rate is not more than a predetermined value and according to the order of the linear prediction coefficient. It is configured to determine whether or not the threshold value is exceeded. With this configuration, it is possible to automatically determine a threshold value according to the compression rate when transmitting information obtained by encoding an audio signal and the order of the linear prediction coefficient.
[0010]
Further, the audio signal encoding device of the present invention divides the audio signal into a plurality of blocks and converts each block into each block based on each discrete coefficient information which is information in a frequency domain obtained by conversion for each block. A prediction gain that generates a linear prediction coefficient by performing linear prediction on discrete coefficient information at a frequency, and calculates a prediction gain that is a ratio between a level of the linear prediction coefficient and an error level of the linear prediction for each block. A calculation means; threshold determination means for determining whether or not each prediction gain calculated for each block exceeds a predetermined threshold; and an object that is a block corresponding to the prediction gain determined to exceed the threshold Based on block selection means for selecting a predetermined number of blocks or less from the blocks, and filter coefficients obtained from the selected target block. Quantization noise suppressing means for filtering the discrete coefficient information to suppress quantization noise and generating a prediction residual signal that is an error of linear prediction for each block, and The order is not more than the maximum order, which is a predetermined order, and the prediction residual signal generated by the quantization noise suppression means is restored according to the compression rate, and the restored information and the basis of the restoration are restored. An error from each of the discrete coefficient information is determined, and a signal of the prediction residual or a means for outputting the discrete coefficient information is output according to the determined result. This configuration reduces the degradation of sound quality during decoding because it determines the information to be output by judging the error between the discrete coefficient information and the information obtained by restoring the prediction residual signal with quantization noise suppressed. It becomes possible to do.
[0011]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a diagram showing a block configuration of an audio signal encoding device according to the first embodiment of the present invention. The audio
[0012]
The prediction
[0013]
The prediction
[0014]
The prediction
[0015]
Further, the prediction gain calculation means 110 generates statistical information based on each discrete coefficient information, determines a frequency band range according to the statistical information, and each block included in the determined frequency band range. The prediction gain may be calculated for each block based on the discrete coefficient information. As a method of determining the frequency band range, the frequency band range may be narrowly limited in accordance with the magnitude of spectral dispersion included in the scale factor band, which is a unit for dividing the frequency axis.
[0016]
The
[0017]
The
[0018]
The
[0019]
The quantization
[0020]
The quantization
[0021]
As described above, the audio signal encoding device according to the first embodiment of the present invention selects a target block that is a block for which the prediction gain has been determined to exceed the threshold, and includes a quantum included in the audio signal. Since the quantization noise is not excessively suppressed, it is possible to reduce deterioration in sound quality that occurs when the quantization noise included in the audio signal is suppressed. Further, since statistical information is generated based on the discrete coefficient information and the audio signal is encoded according to the property of the audio signal, it is possible to reduce deterioration in sound quality at the time of decoding.
[0022]
FIG. 2 is a block diagram showing an audio signal encoding device according to the second embodiment of the present invention. The audio
Of the means configuring the audio
[0023]
The prediction
[0024]
Moreover, the prediction gain calculation means 210 determines the maximum order according to the input compression rate. For example, as a method of determining the maximum order, a table corresponding to the compression rate and the maximum order may be created in advance, and the maximum order may be obtained according to this table.
[0025]
The prediction
[0026]
The prediction
[0027]
Further, the prediction
[0028]
The
[0030]
The
[0031]
The
[0032]
In addition, the
[0033]
The
[0034]
The compression rate calculation means 250 is a means for calculating the compression rate based on the sampling frequency, the transmission rate, and the number of channels, and outputting the compression rate to the means that requires the compression rate. For example, if the sampling frequency is expressed as fs, the transmission rate as br, and the number of channels as ch, the compression rate can be obtained by the following equation.
Compression rate = (fs / br) / ch
[0035]
As described above, the audio signal encoding device according to the second embodiment of the present invention automatically increases the maximum order, the threshold value, or the threshold according to the compression rate when transmitting information obtained by encoding the audio signal. The number of selections can be determined.
[0036]
FIG. 3 is a diagram showing a block configuration of an audio signal encoding device according to the third embodiment of the present invention. The audio
Of the means constituting the audio
[0037]
The
[0038]
In addition, the
[0039]
For example, as a method of restoring the prediction residual signal, only the number of spectra included in the prediction residual signal is restored according to the compression rate, that is, when the compression rate is very small, the number of spectra that can be quantized is small. Therefore, when the compression rate is small, the number of restored spectra is also reduced. In addition, the prediction residual signal is reconstructed in the order of the scale factor band, which is a unit for dividing the frequency axis at the time of encoding, in descending order of the absolute value of the spectrum.
For example, as a method of calculating the error between the information obtained by restoring the signal of the prediction residual and the discrete coefficient information, calculation is performed using energy values included in each scale factor band.
[0040]
The
[0041]
As described above, the audio signal encoding device according to the third embodiment of the present invention calculates an error between the discrete coefficient information and the information obtained by restoring the prediction residual signal in which the quantization noise is suppressed. Since information to be determined and output is determined, it is possible to suppress deterioration in sound quality during decoding.
[0042]
【The invention's effect】
As described above, the present invention can provide an audio signal encoding apparatus that can reduce deterioration in sound quality that occurs when quantization noise included in an audio signal is suppressed.
[Brief description of the drawings]
FIG. 1 is a diagram showing a block configuration of an audio signal encoding device according to a first embodiment of the present invention.
FIG. 2 is a block diagram showing an audio signal encoding device according to a second embodiment of the present invention.
FIG. 3 is a diagram showing a block configuration of an audio signal encoding device according to a third embodiment of the present invention.
[Explanation of symbols]
100, 200, 300 Audio signal encoding apparatus
110, 210 Predictive gain calculation means
120, 220 Threshold judgment means
130, 230 block selection means
140 Quantization noise suppression means
250 Compression rate calculation means
360 Decoding judgment means
Claims (6)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002167571A JP3886851B2 (en) | 2002-06-07 | 2002-06-07 | Audio signal encoding device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002167571A JP3886851B2 (en) | 2002-06-07 | 2002-06-07 | Audio signal encoding device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004015537A JP2004015537A (en) | 2004-01-15 |
JP3886851B2 true JP3886851B2 (en) | 2007-02-28 |
Family
ID=30434779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002167571A Expired - Fee Related JP3886851B2 (en) | 2002-06-07 | 2002-06-07 | Audio signal encoding device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3886851B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5098271B2 (en) * | 2006-09-27 | 2012-12-12 | カシオ計算機株式会社 | Speech coding apparatus, speech coding method, and program |
CN101303858B (en) * | 2007-05-11 | 2011-06-01 | 华为技术有限公司 | Method and apparatus for implementing fundamental tone enhancement post-treatment |
JP2013234068A (en) | 2012-04-10 | 2013-11-21 | Ricoh Co Ltd | Sheet processing device and image forming system |
-
2002
- 2002-06-07 JP JP2002167571A patent/JP3886851B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004015537A (en) | 2004-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10446162B2 (en) | System, method, and non-transitory computer readable medium storing a program utilizing a postfilter for filtering a prefiltered audio signal in a decoder | |
KR100814673B1 (en) | audio coding | |
JP4531805B2 (en) | Apparatus and method for determining step size of quantizer | |
KR100813193B1 (en) | Method and device for quantizing a data signal | |
JP5583881B2 (en) | Audio signal conversion method and conversion apparatus, audio signal adaptive encoding method and adaptive encoding apparatus | |
CA2489443C (en) | Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components | |
KR100848370B1 (en) | Audio Encoding | |
JP4416752B2 (en) | Audio encoding method and apparatus | |
TWI438770B (en) | Audio signal encoding employing interchannel and temporal redundancy reduction | |
US20100063826A1 (en) | Computation apparatus and method, quantization apparatus and method, audio encoding apparatus and method, and program | |
KR20130109793A (en) | Audio encoding method and apparatus for noise reduction | |
JP3886851B2 (en) | Audio signal encoding device | |
US7668715B1 (en) | Methods for selecting an initial quantization step size in audio encoders and systems using the same | |
JP5379871B2 (en) | Quantization for audio coding | |
JP2003233397A (en) | Device, program, and data transmission device for audio encoding | |
JP4721355B2 (en) | Coding rule conversion method and apparatus for coded data | |
JP5491193B2 (en) | Speech coding method and apparatus | |
JP2016513270A (en) | Apparatus and method for processing an encoded signal, and encoder and method for generating an encoded signal | |
JP2008139781A (en) | Speech encoding method and device | |
JP2017161648A (en) | Speech encoding device, method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050606 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060815 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061023 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061122 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091201 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101201 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111201 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121201 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121201 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131201 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |