JP2000276197A - デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 - Google Patents

デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体

Info

Publication number
JP2000276197A
JP2000276197A JP11077703A JP7770399A JP2000276197A JP 2000276197 A JP2000276197 A JP 2000276197A JP 11077703 A JP11077703 A JP 11077703A JP 7770399 A JP7770399 A JP 7770399A JP 2000276197 A JP2000276197 A JP 2000276197A
Authority
JP
Japan
Prior art keywords
block
audio signal
short
pure tone
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11077703A
Other languages
English (en)
Other versions
JP3739959B2 (ja
Inventor
Sadafumi Araki
禎史 荒木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP07770399A priority Critical patent/JP3739959B2/ja
Priority to US09/531,320 priority patent/US6456963B1/en
Publication of JP2000276197A publication Critical patent/JP2000276197A/ja
Application granted granted Critical
Publication of JP3739959B2 publication Critical patent/JP3739959B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 入力音響データの純音性と人間の耳のマスキ
ング特性の周波数依存性を考慮しつつ、音質が劣化しな
いように適切にロング/ショートブロックの別を判定で
きるように、より適切な判定条件を与える。 【解決手段】 予め定めた1つ又は複数の周波数帯域毎
の音響信号に含まれる音響成分の純音性の度合いを示す
純音性指標を算出する純音性指標算出手段(12)と、
該純音性指標算出手段(12)によって算出された純音
性指標と予め定めた1つ又は複数の閾値の組合せからな
る判定条件とを比較する比較手段(13)と、該比較手
段による比較結果に基づいて、音響信号のブロックをロ
ングブロック又はショートブロックのいずれかで変換す
るかを判定するロング/ショートブロック判定手段(1
4)とを具備する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はデジタル音響信号符
号化装置、デジタル音響信号符号化方法及びデジタル音
響信号符号化プログラムを記録した媒体に関し、特に例
えばDVD、デジタル放送等に利用するデジタル音響信
号の圧縮・符号化に関する。
【0002】
【従来の技術】従来より、デジタル音響信号の高品質圧
縮・符号化においては、人間の聴覚心理特性が利用され
ている。その特性は、小さな音が大きな音によってマス
キングされて聴こえなくなるというものである。即ち、
ある周波数で大きな音が発生すると、その近傍の周波数
の小さな音はマスクされて人間の耳には感知されなくな
る。ここで、マスクされて聴こえなくなる限界の強度を
マスキング閾値という。一方、人間の耳はマスキングと
は無関係に、4kHz付近の音に対して最も感度が良
く、それより上下の帯域になればなるほど次第に感度が
悪くなっていくという性質もある。この性質は、静寂な
状況で音を感知し得る限界の強度として表され、これを
絶対可聴閾値という。
【0003】これらのことを音響信号の強度分布を示す
図6に従って説明する。太い実線(A)が音響信号の強
度分布、点線(B)がこの音響信号に対するマスキング
閾値、そして、細い実線(C)が絶対可聴閾値を、それ
ぞれ表す。同図に示すように、人間の耳には、音響信号
に対するマスキング閾値及び絶対可聴閾値よりも大きな
強度の音のみ感知できる。従って、音響信号の強度分布
の中で、音響信号に対するマスキング閾値及び絶対可聴
閾値よりも大きな部分の情報のみを取りだしても、聴覚
的には元の音響信号と同じように感じられるのである。
【0004】このことは、音響信号の符号化において
は、図6の斜線で示した部分のみに符号化ビットを割り
当てることと等価である。ただし、ここでのビット割り
当ては、音響信号の全体域を複数の小帯域に分割して、
その分割帯域(D)の単位で行っている。各斜線の領域
の横幅は、その分割体域幅に相当する。
【0005】各分割帯域で、斜線領域の下限の強度以下
の音は耳に聴こえない。よって、原音と符号/復号化音
の強度の誤差がこの下限を超えなければ両者の差を感知
できない。その意味で、この下限の強度を許容誤差強度
と呼ぶ。音響信号を量子化して圧縮するに際し、原音に
対する符号/復号化音の量子化誤差強度が許容誤差強度
以下になるように量子化すれば、原音の音質を損なわず
に音響信号を圧縮できる。よって、図6の斜線領域のみ
に符号化ビットを割り当てるということは、各分割帯域
での量子化誤差強度がちょうど許容誤差強度になるよう
に量子化することと等価である。
【0006】この音響信号の符号化方式としては、MP
EG(Moving Picture Experts
Group) AudioやDolby Digit
al等があるが、いずれもここで説明したような性質を
用いている。その中で、現在最も符号化効率がよいとさ
れているが、ISO/IEC 13818−7にて標準
化されているMPEG−2AudioAAC(Adva
nced AudioCoding)という方式であ
る。
【0007】図7はAACの符号化の基本的な構成を示
すブロック図である。同図において、聴覚心理モデル部
71は時間軸に沿ってブロック化された入力音響信号の
各分割帯域毎に許容誤差強度を算出する。一方、同じく
ブロック化された入力信号に対して、ゲインコントロー
ル72及びフィルタバンク73ではMDCT(Modi
fied Discrete Cosine Tran
sform)による周波数領域への変換を行い、TNS
(Temporal Noise Shaping)7
4、予測器76では予測符号化、そしてインテンシティ
/カップリング75及びMSステレオ(Middle
Side Stereo)(以下M/Sと略す)77で
は、ステレオ相関符号化処理を、それぞれ行う。その
後、正規化係数78を決定し、量子化器79ではその正
規化係数78を基に音響信号を量子化する。この正規化
係数は図6の許容誤差強度に対応するもので、各分割帯
域毎に定められる。量子化後、ノイズレスコーディング
80では予め定められたハフマン符号表に基づいて、正
規化係数と量子化値にそれぞれハフマン符号を与えてノ
イズレスコーディングを行い、最後にマルチプレクサ8
1にて符号ビットストリームを形成する。
【0008】さて、上述のフィルタバンク73における
MDCTとは、図8に示すように時間軸に沿って変換領
域を50%ずつオーバーラップさせながらDCTを施す
ものである。これによって、各変換領域の境界部での歪
みの発生が抑えられる。また、生成されるMDCT係数
の数は変換領域のサンプル数の半分である。AACでは
入力音響信号ブロックに対して、2048サンプルの長
い変換領域(ロングブロック)、又は各256サンプル
の8個の短い変換領域(ショートブロック)のいずれか
を適用する。よって、MDCT係数の数はロングの場合
は1024、ショートでは128となる。ショートブロ
ックは常に8ブロックを連続して適用することにより、
ロングブロックを用いた場合とMDCT係数の数を合わ
せるようになっている。
【0009】一般に、図9のように信号波形の変化の少
ない定常的な部分にはロングブロックを、図10のよう
に変化の激しいアタック部にはショートブロックを用い
る。この両者の使い分けは重要で、もし図10のような
信号にロングブロックを適用すると、本来のアタックの
前にプリエコーとよばれるノイズが発生する。また、図
9のような信号にショートブロックを適用すると、周波
数領域での解像度の不足から適切なビット割り当てがな
されずに符号化効率が低下し、やはりノイズが発生し、
特に低周波数の音に対しては顕著である。
【0010】ショートブロックについては、さらに、グ
ループ分けの問題がある。グループ分けとは、上記の8
つのショートブロックを、正規化係数の同じ連続するブ
ロックごとにまとめてグループ化することである。グル
ープ内で正規化係数を共通化することで、情報量の削減
効果が上がる。具体的には、図7のノイズレスコーディ
ング80にて正規化係数にハフマン符号を割り当てる際
に、各ショートブロック単位ではなく、グループ単位で
割り当てるのである。図11にグループ分けの一例を示
す。ここではグループ数が3で、各グループ内のブロッ
ク数は、最初の第0グループでは5、次の第1グループ
では1、最後の第2グループでは2、となっている。グ
ループ分けを適切に行わないと、符号量の増加や音質の
低下を招く。グループの分割数が多すぎると、本来共通
化できるはずの正規化係数を重複して符号化することに
なり、符号化効率が低下する。逆に、グループ数が少な
すぎると、音響信号の変化が激しいにも拘わらず共通の
正規化係数で量子化することになるので、音質が低下す
る。なお、ISO/IEC13818−7では、グルー
プ分けに関して、符号のシンタクスの規定はあるもの
の、具体的なグループ分けの基準や手法については考慮
されていない。
【0011】前述のように、符号化に際しては入力音響
信号ブロックに対して適切にロングブロックとショート
ブロックを区別して適用しなければならない。このロン
グ/ショートの判定を行うのは図7の聴覚心理モデル部
71である。ISO/IEC13818−7では、聴覚
心理モデル部71における、各着目ブロックに対するロ
ング/ショートの判定方法の一例が示されている。その
判定処理の概要を以下に説明する。
【0012】ステップ1:音響信号の再構築 ロングブロック用に1024サンプル(ショートブロッ
ク用には128サンプル)を新たに読み込み、前ブロッ
クにて既に読み込んでいる1024サンプル(128サ
ンプル)と合わせて2048サンプル(256サンプ
ル)の信号系列を再構築する。
【0013】ステップ2:ハン窓の掛け合わせとFFT ステップ1にて構築した2048サンプル(256サン
プル)の音響信号にハン窓を掛け合わせ、さらに、FF
T(Fast Fourier Transform)
を施して1024個(128個)のFFT係数を算出す
る。
【0014】ステップ3:FFT係数の予測値の計算 先行する2ブロック分のFFT係数の実数部と虚数部か
ら、現在着目しているブロックのFFT係数の実数部と
虚数部を予測し、それぞれ1024個(128個)の予
測値を算出する。
【0015】ステップ4:非予測可能性値の計算 ステップ2にて算出した各FFT係数の実数部と虚数部
と、ステップ3にて算出した各FFT係数の実数部と虚
数部の予測値から、それぞれの非予測可能性値を算出す
る。ここで、非予測可能性値は0から1の間の値をと
り、0に近いほど音響信号の純音性が高く、1に近いほ
ど雑音性が高い、言い替えれば純音性が低いことを示
す。
【0016】ステップ5:各分割帯域での音響信号の強
度と非予測可能性値の計算 ここでの分割帯域は、図7で示したものに相当する。各
分割帯域毎に、ステップ2にて算出した各FFT係数を
基にして音響信号の強度を算出する。さらに、ステップ
4にて算出した非予測可能性値を強度で重み付けして、
各分割帯域毎の非予測可能性値を算出する。
【0017】ステップ6:広がり関数を掛けた強度と非
予測可能性値の畳み込み 各分割帯域における他の分割帯域の音響信号強度及び非
予測可能性値の影響を広がり関数で求め、それぞれを畳
み込んで正規化する。
【0018】ステップ7:純音性指標の計算 各分割帯域bにおいて、ステップ6にて算出した畳み込
み非予測可能性値(cb(b))を基に、純音性指標t
b(b)(=−0.299−0.43loge(cb
(b)))を算出する。さらに、純音性指標を0から1
の間に制限する。ここで、指標が1に近いほど音響信号
の純音性が高く、0に近いほど雑音性が高いことを示
す。
【0019】ステップ8:S/N比の計算 各分割帯域において、ステップ7にて算出した純音性指
標を基に、S/N比を算出する。ここで、一般に雑音成
分のほうが純音成分よりもマスキング効果が大きいとい
う性質を利用する。
【0020】ステップ9:強度比の計算 各分割帯域において、ステップ8にて算出したS/N比
を基に、畳み込み音響信号強度とマスキング閾値の比を
算出する。
【0021】ステップ10:許容誤差強度の計算 各分割帯域において、ステップ6にて算出した畳み込み
音響信号強度と、ステップ9にて算出した音響信号強度
とマスキング閾値の比を基に、マスキング閾値を算出す
る。
【0022】ステップ11:プリエコー調整と絶対可聴
閾値の考慮 各分割帯域において、ステップ10にて算出したマスキ
ング閾値を、前ブロックでの許容誤差強度を用いてプリ
エコー調整する。さらに、この調整値と絶対可聴閾値の
大きい方の値を、現ブロックでの許容誤差強度とする。
【0023】ステップ12:知覚エントロピーの計算 ロングブロック用とショートブロック用のそれぞれにつ
いて、式(1)で定義される知覚エントロピー(Per
ceptual Entropy(PE))を算出す
る。
【0024】
【数1】
【0025】ただし、w(b)は分割帯域bの幅、nb
(b)はステップ11にて算出した分割帯域bにおける
許容誤差強度、e(b)はステップ5にて算出した分割
帯域bにおける音響信号の強度、をそれぞれ示す。ここ
で、PEは図7におけるビット割り当て領域(斜線領
域)の面積の総和に対応すると考えられる。
【0026】ステップ13:ロング/ショートブロック
の判定(図12に示すロング/ショートブロック判定動
作フローを参照) ステップ12にて算出したロングブロック用のPEの値
(ステップS10)が、予め定められた定数(swit
ch_pe)より大きい場合は、着目ブロックをショー
トブロックと判定し(ステップS11,S12)、小さ
い場合はロングブロックと判定する(ステップS11,
S13)。ここで、switch_peはアプリケーシ
ョンに依存して決められる値である。
【0027】以上が、ISO/IEC13818−7に
て記載されたロング/ショートの判定方法である。とこ
ろが、上述のISO/IEC13818−7にて記載さ
れたロング/ショートブロックの判定方法では、必ずし
も適切な判定がなされない。つまり、本来ショートと判
定すべき部分をロングと判定して(またはその逆で)、
音質の劣化を生じる場合がある。
【0028】一方、特開平9−232964号公報で
は、入力信号を所定区間毎に取り込んで2乗和をそれぞ
れ求め、各区間毎に2乗和された信号の少なくとも2以
上の区間にわたる変化度によって上記信号の過渡状態を
検出するように過渡状態検出回路2を構成し、直交変換
処理やフィルタ処理を行わずに、時間軸上の入力信号の
2乗和計算を行うだけで過渡状態、即ち、ロング/ショ
ートが変化する部分を検出することができるようにして
いる。この方法では入力信号の2乗和のみを用いて、知
覚エントロピーを考慮していないので、必ずしも聴覚上
の特性に合致した判定ができず、音質が劣化する恐れが
ある。
【0029】そこで、同一グループ内の各ショートブロ
ックに関する知覚エントロピーの最大値と最小値の差が
予め定められた閾値より小さくなるように入力音響信号
ブロックをグループ分けし、その結果、グループ数が1
の場合、又はこれと他の条件を満足する場合は入力音響
信号ブロックを1つのロングブロックで周波数領域に変
換し、それ以外の場合は複数のショートブロックで変換
するという方法がある。この方法について動作フローを
示す図13に従って以下に説明する。なお、入力音響信
号の例として、図14の音響データを用い、図14では
連続する8つの各ショートブロックに対応する通し番号
を付している。
【0030】先ず、入力された音響信号は連続する8つ
のショートブロックに分割される。そして、この8つの
ショートブロックの知覚エントロピーをそれぞれ計算
し、これらを順にPE(i)(0≦i≦7)とする(ス
テップS20)。この計算は、上述のISO/IEC1
3818−7における各着目ブロックに対するロング/
ショートの判定方法のステップ1からステップ12にて
説明した方法を各ショートブロックに対して行うことで
実現する。次に、group_len[0]=1,gr
oup_len[gnum]=0(0≦gnum≦7)
と初期化する(ステップS21)。ここで、gnumは
グループ分におけるグループの通し番号、group_
len[gnum]は第gnumグループ内に含まれる
ショートブロックの数、をそれぞれ表す。そして、gn
um=0,min=PE(0),max=PE(0)と
それぞれ初期化する(ステップS22)。このmin,
maxは、PE(i)の最小値、最大値をそれぞれ表
す。さらに、インデックスiをi=1と初期化する(ス
テップS23)。このインデックスはショートブロック
の通し番号に対応する。
【0031】次に、PE(i)によってmin、又はm
axの更新をする。即ち、PE(i)<minならmi
n=PE(i)、PE(i)>maxならmax=PE
(i)とする(ステップS24)。そして、グループ分
けの判定をする(ステップS25)。即ち、求めたma
x−minが予め定められた閾値thと比較されて当該
閾値th以上の場合は、ショートブロックi−1とiの
間でグループ分けを行うためにステップS26に進み、
thより小さい場合は、ショートブロックi−1とiが
同一グループに含まれると判定してステップS27に進
むのである。この例ではth=50としておく。即ち、
同一のグループに含まれる各ショートブロックのPE
(i)の最大値と最小値の差が50より小さくなるよう
に、グループ分けするということである。ショートブロ
ック0と1は同一グループに含まれると判定されてステ
ップS27へ進む。なお、ここではgnum=0なの
で、ショートブロック0と1は第0グループに含まれ
る。そして、group_len[gnum]の値を1
だけインクリメントする(ステップS28)。これは、
第gnumグループに含まれるショートブロックの数を
1だけ増やすということである。この例では、ステップ
S21,S22でgnum=0かつgroup_len
[0]=1と初期化されているので、ステップS27で
はgroup_len[0]=2となる。これは、第0
グループに含まれるショートブロックとしてブロック
0,1の2つのブロックが既に確定していることに対応
する。
【0032】次に、インデックスiを1だけインクリメ
ントし(ステップS28)、iが7より小さい場合はス
テップS24へ戻る(ステップS29)。
【0033】その後、以上で説明したのと同様の動作が
i=4まで続く。i=4のときは、図15より、図13
のステップS24にてmin=96,max=137と
なるので、ステップS25ではmax−min=41<
50=thと判定され、やはり、ステップS25からそ
のままステップS27へ進む。そして、ステップS27
にて、group_len[0]=5となる。これは即
ち、第0グループに含まれるショートブロックとしてブ
ロック0,1,2,3,4の5つのブロックが確定した
ことに対応する。そして、ステップS28にてi=5と
なった後、ステップS29を経て再びステップS24に
戻ると、今度はPE(5)=152なのでmin=9
6,max=152となる。すると、ステップS25で
はmax−min=56>50=thと判定されるの
で、ステップS26へ進む。これはショートブロック4
と5の間でグループ分けを行うことを意味する。ステッ
プS26ではgnumの値を1だけインクリメントし、
かつ、min,maxをそれぞれ最新のPE(i)に置
き換える。ここでは、gnum=1,min=152,
max=152となる。gnum=1はショートブロッ
ク5が含まれるグループが第1グループであることに対
応する。
【0034】次に、ステップS27でgroup_le
n[1]を1だけインクリメントする。group_l
en[1]はステップS21にて0に初期化されていた
ので、ここで改めてgroup_len[1]=1とな
る。これは、第1グループに含まれるショートブロック
としてブロック5の1つのブロックが確定したことに対
応する。
【0035】以下同様に、図13のステップS28でi
=6となり、ステップS29からまたステップS24へ
戻ると、今度は図15よりPE(6)=269なので、
min=152,max=269となり、ステップS2
5にてmax−min=117>50と判定され、ステ
ップS26へ進む。つまり、ショートブロック5と6の
間でもグループ分けがなされるのである。そして、ステ
ップS26にてgnum=2,min=269,max
=269となり、さらにステップS27でgroup_
len[2]=1となる。そして、ステップS28でi
=7とした後これまでと同様に、ステップS24でPE
(7)=231なので、min=231,max=26
9となり、ステップS25にてmax−min=38<
50と判定され、ステップS27へ進む。つまり、ショ
ートブロック6と7はいずれも第2グループに含まれ
る。これに対応して、ステップS27でgroup_l
en[2]=2となる。さて、次のステップS28でi
=8となるとステップS29の判定により、ステップS
30へ進む。これで、8つのショートブロック全てにつ
いてのグループ分けが完了したことになる。
【0036】この例では、結局、gnum=2,gro
up_len[0]=5,group_len[1]=
1,group_len[2]=2となる。即ち、グル
ープの数は3で、各グループに含まれるショートブロッ
クの数は、第0グループが5、第1グループが1、第2
グループが2という結果である。
【0037】次に、グループ分けの結果グループ数によ
ってロング/ショートを判定する方法を説明する。即
ち、ステップS30にて、gnumの値が0か否かを判
定する。もし0ならば、グループの数は1であり、0で
ないならばグループの数は2以上ということになる。そ
こで、gnum=0ならばステップS31へ進んで入力
音響ブロックを1つのロングブロックによってMDCT
変換するものと判定し、gnum=0でないならばステ
ップS32へ進んで入力音響ブロックを8つのショート
ブロックによってMDCT変換するものと判定する。こ
の例ではgnum=2なので、ステップS32へ進み、
ショートブロックで変換すると判定する。
【0038】しかし、この方法でも適切なロング/ショ
ートの判定ができない場合がある。それは、低周波成分
に純音性の高い成分を含む音響データを符号化する場合
である。ショートブロックによる変換は時間領域での解
像度が増す反面、周波数領域での解像度は低下する。一
方、人間の耳は低周波領域で高い解像度のマスキング特
性を有し、特に純音性の高い音響データに対しては非常
に狭い周波数帯域のみがマスキングされる。ところが、
低周波巣成分に純音性の高い成分を含む音響データをシ
ョートブロックで変換すると、ショートブロックに起因
する周波数領域での解像度の不足によってもとの音響デ
ータのエネルギーが周辺の周波数帯域に分散し、それが
人間の耳の低周波成分におけるマスキングの幅を超えて
広がることで、結果的に音質の劣化を感じてしまう。こ
のことは、単にショートブロックに関する知覚エントロ
ピーのみに基づいてロング/ショートの判定を行なうの
は不十分であり、更に音響データの純音性とマスキング
特性の周波数依存性を組み合わせて考慮する必要がある
ことを示している。
【0039】そこで、入力音響信号ブロックを複数のシ
ョートブロックに分割し、それぞれのショートブロック
について、予め定めた1つ又は複数の分割帯域に含まれ
る音響成分の純音性指標が、分割帯域毎に予め定めた閾
値より大きいかどうかを判定し、予め定めた1つ又は複
数の分割帯域の全てにおいて純音性指標が予め定めた閾
値より大きいようなショートブロックが少なくとも1つ
存在する場合は、入力音響信号ブロックを1つのロング
ブロックで周波数領域に変換すると判定するという方法
がある。この方法について動作フローを示す図16に従
って以下に説明する。なお、上記方法と同様に、入力音
響信号の例として図14の音響データを用いる。
【0040】先ず、音響信号は連続する8つのショート
ブロックi(0≦i≦7)に関し、各分割帯域sfbで
の純音性指標をそれぞれ計算し、これらをtb[i]
[sfb]とする(ステップS40)。ここで、sfb
は図17に示すように、各分割帯域を識別するための通
し番号である。なお、この純音性指標の計算は、上述I
SO/IEC13818−7における各着目ブロックに
対するロング/ショートの判定ステップの内ステップ7
にて説明した方法による。次に、tonal_flag
=0と初期化する(ステップS41)。更に、ショート
ブロックの通し番号iをi=0と初期化する(ステップ
S42)。そして、ショートブロックiに関し、予め定
めた1つ又は複数の分割領域において各純音性指標がそ
れぞれの分割帯域について予め定めた閾値より大きいか
どうかを調べる(ステップS43)。図16の例では、
sfb=7,8,9である分割領域に関して調べてお
り、それぞれ純音性指標の閾値を、th7,th8,t
h9としている。
【0041】さて、ここにおける例では、それぞれのシ
ョートブロックiに関し、stb=7,8,9における
純音性指標の値が図18に示したようなものであったと
する。また、th7=0.6,th8=0.9,th9
=0.8と定められているものとする。すると、最初の
i=0のときは、tb[0][7]=0.12<0.6
=th7,tb[0][8]=0.08<0.9=th
8,tb[0][9]=0.15<0.8=th9なの
で、ステップS43における判定はnoとなり、次のス
テップS45に進む。そして、iの値が1つだけインク
リメントされてi=1となり、ステップS46の判定を
経て、再びステップS43に戻る。
【0042】その後、以上説明した動作と同様の動作が
i=5まで続く。i=6となった後(ステップS4
5)、ステップS46を経て再びステップS43に戻
る。今後は、tb[6][7]=0.67>0.6=t
h7,tb[6][8]=0.95>0.9=th8,
tb[6][9]=0.89>0.8=th9なので、
ステップS43における判定はyesとなり、ステップ
S44に進む。そして、tonal_flag=1とな
る(ステップS44)。次に、i=7となり(ステップ
S45)、ステップS46を経てまたステップS43へ
戻る。i=7ではtb[7][7]=0.42<0.6
=th7,tb[7][8]=0.84<0.9=th
8,tb[7][9]=0.81>0.8=th9なの
で、ステップS43の判定はnoであり、ステップS4
5へ進む。一方、tonal_flag=1のまま変わ
らない。そして、i=8となった後(ステップS4
5)、ステップS46の判定を経て今度はステップS4
7へ進む。そして、tonal_flagの値を調べる
(ステップS47)。この例ではtonal_flag
=1なので判定はyesとなりステップS48へ進む。
よって、入力された音響ブロックを1つのロングブロッ
クによってMDCT変換するものと判定される。なお、
tonal_flag=1でないならばステップS49
へ進んで入力音響ブロックを8つのショートブロックに
よってMDCT変換するものと判定する。
【0043】
【発明が解決しようとする課題】しかしながら、この方
法では、判定に用いる分割帯域の数が少ない場合、その
限られた分割帯域での純音性しか考慮しないため、それ
以外の周波数帯域で純音性が高くて本来ロングブロック
を用いるべき場合でも、ショートブロックを採用するよ
うに判定しまう。逆に、判定に用いる分割領域が多い場
合は、その全てにおいて純音性が高いような特殊な場合
しか、ロングブロックを採用するという判定がなされな
い。このような問題が起こるのは、予め定めた1つ又は
複数の分割帯域の全てにおいて純音性指標が予め定めた
閾値より大きいことを判定条件としているからである。
【0044】また、一般に、入力音響信号のサンプリン
グ周波数が小さいと各分割領域の周波数領域での解像度
は上がるので、同じ周波数でもサンプリング周波数が小
さくなるほど相対的に上位の分割帯域に含まれるように
なる。よって、サンプリング周波数によらずに、ロング
/ショートの判定に用いる分割領域家純音性指標の閾値
等を固定しておくと、適切な判定がなされない。更に、
サンプリング周波数が十分に小さい場合は、分割帯域の
解像度も十分に大きくなるので、前述の、ショートブロ
ックに起因する周波数帯域での解像度の不足によっても
との音響データのエネルギーが周辺の周波数帯域に分散
し、それが人間の耳の低周波成分におけるマスキングの
幅を超えて広る、ということがなくなるので純音性指標
を利用した判定は不要になる。
【0045】本発明はこれらの問題点を解決するための
ものであり、入力音響データの純音性と人間の耳のマス
キング特性の周波数依存性を考慮しつつ、音質が劣化し
ないように適切にロング/ショートブロックの別を判定
できるように、より適切な判定条件を与えることであ
る。また、入力音響データのサンプリング周波数に応じ
て適切にロング/ショートの別が判別できる、デジタル
音響信号装置、デジタル音響信号符号化方法及びデジタ
ル音響信号符号化プログラムを記録した媒体を提供する
ことを目的とする。
【0046】
【課題を解決するための手段】本発明は前記問題点を解
決するために、デジタル音響信号を時間軸に沿って入力
してブロック化し、各ブロック毎にサブバンド分割や周
波数領域への変換等の処理を施し、該音響信号を複数の
周波数帯域に分割し、各周波数帯域毎に符号化ビットを
割り当て、割り当てた符号化ビット数に応じて正規化係
数を求め、音響信号を前記正規化係数で量子化すること
により圧縮符号化するデジタル音響信号符号化装置であ
って、周波数領域への変換を行う際に、ブロック化した
音響信号を1つの長い変換ブロック又は複数の短い変換
ブロックのいずれかにて変換し、1つの長いまたは複数
の短い変換ブロックに共通の正規化係数を対応させて音
響信号を量子化するデジタル音響信号符号化装置におい
て、予め定めた1つ又は複数の周波数帯域毎の音響信号
に含まれる音響成分の純音性の度合いを示す純音性指標
を算出する純音性指標算出手段と、該純音性指標算出手
段によって算出された純音性指標と予め定めた1つ又は
複数の閾値の組合せからなる判定条件とを比較する比較
手段と、該比較手段による比較結果に基づいて、音響信
号のブロックをロングブロック又はショートブロックの
いずれかで変換するかを判定するロング/ショートブロ
ック判定手段とを具備することに特徴がある。よって、
限られた分割帯域以外の周波数帯域で純音性が高く本来
ロングブロックを用いる場合でもショートブロックを採
用するように判定しまうとか、逆に多くの分割帯域の全
てにおいて純音性が高いような特殊な場合しかロングブ
ロックを採用するという判定がなされないという、不都
合を解消できるデジタル音響信号符号化装置を提供でき
る。
【0047】また、比較手段において任意の周波数帯域
における前記純音性指標に対する複数の閾値を予め定め
た場合は、当該閾値毎に異なる判定条件を構成する。更
に、比較手段は、対応する周波数帯域における純音性指
標が予め定めた閾値より大きい場合を真、小さい場合を
偽と判定するものとする。比較手段における全ての判定
条件の真偽を論理積又は論理和で結合した論理判定式
を、音響信号をロングブロックで変換するか、又は複数
のショートブロックで変換するかの判定式とする。比較
手段における全ての判定条件の真偽を論理積又は論理和
で結合した論理判定式の中に、各判定条件が1つ又は複
数個含まれている。
【0048】別の発明として、デジタル音響信号を時間
軸に沿って入力してブロック化し、各ブロック毎にサブ
バンド分割や周波数領域への変換等の処理を施し、該音
響信号を複数の周波数帯域に分割し、各周波数帯域毎に
符号化ビットを割り当て、割り当てた符号化ビット数に
応じて正規化係数を求め、音響信号を正規化係数で量子
化することにより圧縮符号化すると共に、周波数領域へ
の変換を行う際に、ブロック化した音響信号を1つの長
い変換ブロック又は複数の短い変換ブロックのいずれか
にて変換し、予め定めた1つ又は複数の周波数帯域毎の
音響信号に含まれる音響成分の純音性の度合いを示す純
音性指標を用いて、音響信号ブロックを1つの長い変換
ブロックで周波数領域に変換するか、または複数の短い
変換ブロックで周波数領域に変換するかの選択を行な
い、純音性指標に関する閾値を予め定めておき、複数の
短い変換ブロック毎に純音性指標を算出するデジタル音
響信号符号化方法において、予め定めた1つ又は複数の
周波数帯域毎に、純音性指標に関する1つ又は複数の閾
値を予め定めておき、当該周波数帯域と純音性指標に関
する閾値の組合せからなる判定条件に基づいて、音響信
号のブロックをロングブロック又はショートブロックの
いずれかで変換するかを判定することに特徴がる。よっ
て、入力音響データの純音性と人間の耳のマスキング特
性の周波数依存性を考慮しつつ、よりふさわしい判定条
件を与え、当該判定条件に基づいて音質が劣化しないよ
うに適切にロング/ショートの別を判定できる。
【0049】更に、別の発明として、コンピュータによ
り、デジタル音響信号を時間軸に沿って入力してブロッ
ク化し、各ブロック毎にサブバンド分割や周波数領域へ
の変換等の処理を施し、該音響信号を複数の周波数帯域
に分割し、各周波数帯域毎に符号化ビットを割り当て、
割り当てた符号化ビット数に応じて正規化係数を求め、
音響信号を正規化係数で量子化することにより圧縮符号
化すると共に、周波数領域への変換を行う際に、ブロッ
ク化した音響信号を1つの長い変換ブロック又は複数の
短い変換ブロックのいずれかにて変換し、予め定めた1
つ又は複数の周波数帯域毎の音響信号に含まれる音響成
分の純音性の度合いを示す純音性指標を用いて、音響信
号ブロックを1つの長い変換ブロックで周波数領域に変
換するか、または複数の短い変換ブロックで周波数領域
に変換するかの選択を行ない、純音性指標に関する閾値
を予め定めておき、複数の短い変換ブロック毎に純音性
指標を算出するように実行するデジタル音響信号符号化
プログラムを記録した媒体において、予め定めた1つ又
は複数の周波数帯域毎に、純音性指標に関する1つ又は
複数の閾値を予め定めておき、当該周波数帯域と純音性
指標に関する閾値の組合せからなる判定条件に基づい
て、音響信号のブロックをロングブロック又はショート
ブロックのいずれかで変換するかを判定する機能を有す
るデジタル音響信号符号化プログラムを記録した媒体に
特徴がある。よって、既存のシステムを変えることな
く、かつ符号化システムを構築する装置を汎用的に使用
することができる。
【0050】
【発明の実施の形態】予め定めた1つ又は複数の周波数
帯域毎の音響信号に含まれる音響成分の純音性の度合い
を示す純音性指標を算出する純音性指標算出手段と、該
純音性指標算出手段によって算出された純音性指標と予
め定めた1つ又は複数の閾値の組合せからなる判定条件
とを比較する比較手段と、該比較手段による比較結果に
基づいて、音響信号のブロックをロングブロック又はシ
ョートブロックのいずれかで変換するかを判定するロン
グ/ショートブロック判定手段とを具備する。
【0051】
【実施例】以下、本発明の実施例を図面に基づいて説明
する。図1は本発明の一実施例に係るデジタル音響信号
符号化装置の構成を示すブロックである。同図に示す本
実施例のデジタル音響信号符号化装置は、入力された音
響信号を所定の数、以下の説明では8つの連続するブロ
ックに分割するブロック分割手段11、分割された各ブ
ロックの純音性指標を上述した算出式によって計算する
純音性指標算出手段12、算出された純音性指標と予め
定めた閾値とを比較する比較手段13、比較結果に応じ
てロングブロック又はショートブロックのいずれかを判
定するロング/ショートブロック判定手段14及び各手
段の動作を制御する制御手段15を含んで構成されてい
る。ここで、図2はデジタル音響信号符号化装置の動作
を示すフローチャートである。以下、両図を用いて本実
施例の具体的な動作を説明する。その際、入力音響信号
の例として、図14の音響データを用いる。
【0052】先ず、ブロック分割手段11によって入力
された音響信号は連続する8つのショートブロックi
(0≦i≦7)に関し、純音性指標算出手段12によっ
て各分割帯域sfbでの純音性指標をそれぞれ計算し、
これらをtb[i][sfb]とする(ステップS5
0)。ここで、sfbは図17に示すように、各分割帯
域を識別するための通し番号である。なお、この純音性
指標の計算は、上述ISO/IEC13818−7にお
ける各着目ブロックに対するロング/ショートの判定ス
テップの内ステップ7にて説明した方法による。次に、
tonal_flag=0と初期化する(ステップS5
1)。更に、ショートブロックの通し番号iをi=0と
初期化する(ステップS52)。そして、ショートブロ
ックiに関し、比較手段13によって予め定めた1つ又
は複数の分割領域において各純音性指標がそれぞれの分
割帯域について予め定めた閾値より大きいかどうかを調
べる(ステップS53)。図2の例では、sfb=6,
7,8,9である分割領域に関して調べており、それぞ
れ純音性指標の閾値を、sfb=6についてth61、
sfb=7についてth71とth72、sfb=8に
ついてth81とth82、sfb=9についてth9
1と定めている。そして、{tb[i][6]>th6
1ANDtb[i][7]>th71}OR{tb
[i][7]>th72ANDtb[i][8]>th
81}OR{tb[i][8]>th82AND[i]
[9]>th91}という論理判定式を満足するかどう
かを判定する(ステップS53)。
【0053】今回の例で、それぞれのショートブロック
iに関し、sfb=6,7,8,9における純音性指標
の値が図18に示したようなものであったとする。ま
た、th61=0.7,th71=0.8,th72=
0.8,th81=0.9,th82=0.8,th9
1=0.9と定めているとする。すると、ステップS5
3での論理判定式は、{tb[i][6]>0.7AN
Dtb[i][7]>0.8}OR{tb[i][7]
>0.8ANDtb[i][8]>0.9}OR{tb
[i][8]>0.8ANDtb[i][9]>0.
9}となる。ここには、tb[i][7]>0.8とい
う判定式が2つ含まれている。また、tb[i][8]
に対しては、tb[i][8]>0.9とtb[i]
[8]>0.8という2つの異なる判定式が存在してい
る。
【0054】さて、図18における例では、最初のi=
0のときは、tb[0][6]=0.09,tb[0]
[7]=0.12,tb[0][8]=0.08,tb
[0][9]=0.15なので、比較手段13によるス
テップS53における判定はnoとなり、次のステップ
S55に進む。そして、ステップS55では、iの値が
1つだけインクリメントされてi=1となり、ステップ
S56の判定を経て、再びステップS53に戻る。
【0055】その後、以上説明した動作と同様の動作が
i=5まで続く。i=6となった後(ステップS5
5)、ステップS56を経て再びステップS53に戻
る。今後は、tb[6][6]=0.67,tb[6]
[7]=0.82,tb[6][8]=0.95,tb
[6][9]=0.89なので、比較手段13によるス
テップS53における判定はyesとなり、ステップS
54に進む。そして、tonal_flag=1となる
(ステップS54)。次に、i=7となり(ステップS
55)、ステップS56を経てまたステップS53へ戻
る。i=7ではtb[7][6]=0.23,tb
[7][7]=0.42,tb[7][8]=0.8
4,tb[7][9]=0.81なので、比較手段13
によるステップS53の判定はnoであり、ステップS
55へ進む。しかし、tonal_flag=1のまま
変わらない。そして、i=8となった後(ステップS5
5)、ステップS565の判定を経て今度はステップS
57へ進む。そして、tonal_flagの値を調べ
る(ステップS57)。この例ではtonal_fla
g=1なので判定はyesとなりステップS58へ進
む。よって、ロング/ショートブロック判定手段14に
よって、入力された音響ブロックを1つのロングブロッ
クによってMDCT変換するものと判定される。
【0056】次に、別の例として、sfb=6,7,
8,9における純音性指標の値が図3に示したような場
合を考える。ただし、th61=0.7,th71=
0.8,th72=0.8,th81=0.9,th8
2=0.8,th91=0.9は上記と同様に変わらな
いものとする。この場合は図18の例とは異なり、{t
b[i][6]>0.7ANDtb[i][7]>0.
8}OR{tb[i][7]>0.8ANDtb[i]
[8]>0.9}OR{tb[i][8]>0.8AN
Dtb[i][9]>0.9}が真となるようなショー
トブロックiは存在しない。よって、比較手段13によ
るステップS53における判定は常にnoとなり、ステ
ップS54を通過することはない。その結果、tona
l_flagの値は初期値のtonal_flag=0
のままステップS57へ進むことになる。
【0057】そして、ステップS57での判定がnoと
なるので、次のステップS59へ進み、上述の従来の判
定方法、ISO/IEC13818−7にて記載された
ロング/ショートの判定方法などの他の判定手段による
ロング/ショートの判定を行いその判定結果に従う。例
えば図13に示す判定方法を使っている場合は、同一グ
ループ内の各ショートブロックに関する知覚エントロピ
ーの最大値と最小値の差が予め定められた閾値より小さ
くなるように入力音響信号ブロックをグループ分けし、
その結果グループ数が1の場合、又はこれと他の条件を
満足する場合は入力音響信号ブロックを1つのロングブ
ロックでMDCT変換し、それ以外の場合は複数のショ
ートブロックで変換する、と判定する。
【0058】なお、図2のステップS53にて純音性指
標の判定に用いる分割帯域は上記の例のようにsfb=
6,7,8,9に限るものではなく、また各閾値もth
61=0.7,th71=0.8,th72=0.8,
th81=0.9,th82=0.8,th91=0.
9に限らない。更に、論理判定式の構成も、上記の例に
限るものではなく、{tb[i][6]>th61AN
Dtb[i][7]>th71ANDtb[i][8]
>th81}OR{tb[i][8]>th82AND
tb[i][9]>th91}とか、tb[i][6]
>th61ORtb[i][7]>th71ORtb
[i][8]>th81ORtb[i][9]>th9
1等、いろいろな構成が可能である。
【0059】次に、本発明の第2の実施例について動作
フローを示す図4に従って説明する。ここでは、入力音
響信号のサンプリング周波数に応じて適切にロング/シ
ョートの判定ができるような方法を与えている。それ
は、図2のステップS53にて純音性指標の判定に用い
る分割帯域や、それぞれの分割帯域に対応して定める純
音性指標の閾値、それにロング/ショートの論理判定式
を、サンプリング周波数毎に個別に定めるということで
ある。
【0060】図4のフローチャートにより、その具体例
を説明する。ここでは、上記の図2の例により入力音響
信号のサンプリング周波数が小さい場合を考える。図4
は図2とほぼ同様であるが、ステップS63(図2では
ステップS53)の部分のみが異なっている。
【0061】さて、前述のように、サンプリング周波数
が小さくなると、分割帯域の解像度が増し、かつ同じ周
波数が相対的に上位の分割帯域に含まれるようになる。
そこで、上記の例を、より小さいサンプリング周波数の
入力音響信号に対して行なう場合は、純音性指標の判定
に用いる分割帯域の数を増やして上位にシフトする。
【0062】図4のステップS63では、sfb=8,
9,10,11,12としている。そして、純音性指標
の閾値を、sfb=8についてth81、sfb=9に
ついてth91とth92、sfb=10についてth
101,th102,th103、sfb=11につい
てth111とth112、sfb=12についてth
121、とそれぞれ定めている。前記の図2の例と同様
に、各閾値のth81,th91,・・・にはそれぞれ
具体的な数値を予め定めておく。そして、ロング/ショ
ートの論理判定式を{tb[i][8]>th81AN
Dtb[i][9]>th91ANDtb[i][1
0]>th101}OR{tb[i][9]>th92
ANDtb[i][10]>th102ANDtb
[i][11]>th111}OR{tb[i][1
0]>th103ANDtb[i][11]>th11
2ANDtb[i][12]>th121}としてい
る。
【0063】このステップS63における判定の部分を
除いて、図2の例と同様の動作により、ロング/ショー
トの判定を行なうのである。
【0064】他のサンプリング周波数に対しても同様
に、図2のステップS53(図4のステップS63)に
対応する部分のみを置き換えて、図2と同様の処理によ
りロング/ショートの判定を行なう。
【0065】さて、よりサンプリング周波数が小さい場
合は、前述のように分割帯域の解像度が十分に大きくな
るので、純音性指標を利用した判定は不要になる。そこ
で、サンプリング周波数が予め定めたある閾値以下の場
合は、純音性指標を利用した方法を用いず、他の方法の
みによってロング/ショートの判定を行なう。即ち、サ
ンプリング周波数に関する予め定めた閾値を例えばth
_sf=24kHzと定めた場合は、入力音響信号のサ
ンプリング周波数とこれを比較し、サンプリング周波数
が24kHz以下なら、純音性指標を利用したロング/
ショートの判定方法を用いずに、他の手段による判定方
法のみでロング/ショートを判定する。24kHzより
大きいときは、純音性指標を用いた判定方法と、他の手
段による判定方法を併用する。このように、純音性指標
を用いた判定方法と、他の手段による判定方法を併用す
る場合は、サンプリング周波数ごとに個別に定められた
純音性指標の判定に用いる分割帯域や、それぞれの分割
帯域に対応して定める純音性指標の閾値、それに、ロン
グ/ショートの論理判定式によって判定する。他の方法
による判定結果との関係も既に図2の例で説明している
(図2のステップS57,S58,S59の部分)。即
ち、純音性指標による方法でロングブロックと判定した
場合は、他の方法での判定結果にかかわらず、ロングブ
ロックで周波数領域に変換し、純音性指標による方法で
ショートブロックと判定した場合は、他の方法での判定
結果に従う。
【0066】次に、図5は本発明のシステム構成を示す
ブロック図である。つまり、同図は上記実施例における
デジタル音響信号符号化方法によるソフトウェアを実行
するマイクロプロセッサ等から構築するハードウェアを
示すものである。同図において、デジタル音響信号符号
化システムはインターフェース(以下I/Fと略す)5
1、CPU52、ROM53、RAM54、表示装置5
5、ハードディスク56、キーボード57及びCD−R
OMドライブ58を含んで構成されている。また、汎用
の処理装置を用意し、CD−ROM59などの読取可能
な記録媒体には、本発明のデジタル音響信号符号化方法
を実行するプログラムが記録されている。更に、I/F
51を介して外部装置から制御信号が入力され、キーボ
ード57によって操作者による指令又は自動的に本発明
のプログラムが起動される。そして、CPU52は当該
プログラムに従って上述のデジタル音響信号符号化方法
に伴う符号化制御処理を施し、その処理結果をRAM5
4やハードディスク56等の記憶装置に格納し、必要に
より表示装置55などに出力する。以上のように、本発
明のデジタル音響信号符号化方法を実行するプログラム
が記録した媒体を用いることにより、既存のシステムを
変えることなく、かつ符号化システムを構築する装置を
汎用的に使用することができる。
【0067】なお、本発明は上記実施例に限定されるも
のではなく、特許請求の範囲内に記載であれば多種の変
形や置換可能であることは言うまでもない。
【0068】
【発明の効果】以上説明しように、本発明によれば、予
め定めた1つ又は複数の周波数帯域毎の音響信号に含ま
れる音響成分の純音性の度合いを示す純音性指標を算出
する純音性指標算出手段と、該純音性指標算出手段によ
って算出された純音性指標と予め定めた1つ又は複数の
閾値の組合せからなる判定条件とを比較する比較手段
と、該比較手段による比較結果に基づいて、音響信号の
ブロックをロングブロック又はショートブロックのいず
れかで変換するかを判定するロング/ショートブロック
判定手段とを具備することに特徴がある。よって、限ら
れた分割帯域以外の周波数帯域で純音性が高く本来ロン
グブロックを用いる場合でもショートブロックを採用す
るように判定しまうとか、逆に多くの分割帯域の全てに
おいて純音性が高いような特殊な場合しかロングブロッ
クを採用するという判定がなされないという、不都合を
解消できるデジタル音響信号符号化装置を提供できる。
【0069】また、比較手段において任意の周波数帯域
における前記純音性指標に対する複数の閾値を予め定め
た場合は、当該閾値毎に異なる判定条件を構成する。更
に、比較手段は、対応する周波数帯域における純音性指
標が予め定めた閾値より大きい場合を真、小さい場合を
偽と判定するものとする。比較手段における全ての判定
条件の真偽を論理積又は論理和で結合した論理判定式
を、音響信号をロングブロックで変換するか、又は複数
のショートブロックで変換するかの判定式とする。比較
手段における全ての判定条件の真偽を論理積又は論理和
で結合した論理判定式の中に、各判定条件が1つ又は複
数個含まれている。
【0070】別の発明として、予め定めた1つ又は複数
の周波数帯域毎に、純音性指標に関する1つ又は複数の
閾値を予め定めておき、当該周波数帯域と純音性指標に
関する閾値の組合せからなる判定条件に基づいて、音響
信号のブロックをロングブロック又はショートブロック
のいずれかで変換するかを判定することに特徴がる。よ
って、入力音響データの純音性と人間の耳のマスキング
特性の周波数依存性を考慮しつつ、よりふさわしい判定
条件を与え、当該判定条件に基づいて音質が劣化しない
ように適切にロング/ショートの別を判定できる。
【0071】更に、別の発明として、コンピュータによ
り、予め定めた1つ又は複数の周波数帯域毎に、純音性
指標に関する1つ又は複数の閾値を予め定めておき、当
該周波数帯域と純音性指標に関する閾値の組合せからな
る判定条件に基づいて、音響信号のブロックをロングブ
ロック又はショートブロックのいずれかで変換するかを
判定する機能を有するデジタル音響信号符号化プログラ
ムを記録した媒体に特徴がある。よって、既存のシステ
ムを変えることなく、かつ符号化システムを構築する装
置を汎用的に使用することができる。
【図面の簡単な説明】
【図1】本発明に係るデジタル音響信号符号化装置の構
成を示すブロック図である。
【図2】本発明の一実施例に係るデジタル音響信号符号
化方法の動作を示すフローチャートである。
【図3】ショートブロック別の純音性指標の関係の一例
を示す図である。
【図4】本発明の一実施例に係るデジタル音響信号符号
化方法の別の動作を示すフローチャートである。
【図5】本発明のシステム構成を示すブロック図であ
る。
【図6】音響信号とマスキング閾値及び絶対可聴閾値の
強度分布を示す図である。
【図7】AACの符号化の基本的な構成を示すブロック
図である。
【図8】MDCTの変換領域を示す図である。
【図9】変化の少ない信号波形の場合のMDCTの変換
領域を示す図である。
【図10】変化の激しい信号波形の場合のMDCTの変
換領域を示す図である。
【図11】グループ分けの一例を示す図である。
【図12】ISO/IEC13818−7におけるロン
グ/ショートブロック判定動作を示すフローチャートで
ある。
【図13】従来のデジタル音響信号符号化方法の動作を
示すフローチャートである。
【図14】音響信号の一例の信号波形を示す図である。
【図15】音響信号に対する知覚エントロピーとの関係
を示す図である。
【図16】別の従来のデジタル音響信号符号化方法の動
作を示すフローチャートである。
【図17】分割領域識別番号の付与の様子を示す図であ
る。
【図18】従来のショートブロック別の純音性指標の関
係の一例を示す図である。
【符号の説明】
11 ブロック分割手段 12 純音性指標算出手段 13 比較手段 14 ロング/ショートブロック判定手段 15 制御手段 51 I/F 52 CPU 53 ROM 54 RAM 55 表示装置 56 ハードディスク 57 キーボード 58 CD−ROMドライブ 59 CD−ROM

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 デジタル音響信号を時間軸に沿って入力
    してブロック化し、各ブロック毎にサブバンド分割や周
    波数領域への変換等の処理を施し、該音響信号を複数の
    周波数帯域に分割し、各周波数帯域毎に符号化ビットを
    割り当て、割り当てた符号化ビット数に応じて正規化係
    数を求め、前記音響信号を前記正規化係数で量子化する
    ことにより圧縮符号化するデジタル音響信号符号化装置
    であって、前記周波数領域への変換を行う際に、ブロッ
    ク化した前記音響信号を1つの長い変換ブロック又は複
    数の短い変換ブロックのいずれかにて変換し、1つの長
    いまたは複数の短い変換ブロックに共通の正規化係数を
    対応させて音響信号を量子化するデジタル音響信号符号
    化装置において、 予め定めた1つ又は複数の周波数帯域毎の前記音響信号
    に含まれる音響成分の純音性の度合いを示す純音性指標
    を算出する純音性指標算出手段と、 該純音性指標算出手段によって算出された前記純音性指
    標と予め定めた1つ又は複数の閾値の組合せからなる判
    定条件とを比較する比較手段と、 該比較手段による比較結果に基づいて、音響信号のブロ
    ックをロングブロック又はショートブロックのいずれか
    で変換するかを判定するロング/ショートブロック判定
    手段とを具備することを特徴とするデジタル音響信号符
    号化装置。
  2. 【請求項2】 前記比較手段において任意の周波数帯域
    における前記純音性指標に対する複数の閾値を予め定め
    た場合は、当該閾値毎に異なる判定条件を構成する請求
    項1記載のデジタル音響信号符号化装置。
  3. 【請求項3】 前記比較手段は、対応する周波数帯域に
    おける前記純音性指標が予め定めた閾値より大きい場合
    を真、小さい場合を偽と判定する請求項1又は2記載の
    デジタル音響信号符号化装置。
  4. 【請求項4】 前記比較手段における全ての判定条件の
    真偽を論理積又は論理和で結合した論理判定式を、音響
    信号をロングブロックで変換するか、又は複数のショー
    トブロックで変換するかの判定式とする請求項1又は3
    記載のデジタル音響信号符号化装置。
  5. 【請求項5】 前記比較手段における全ての判定条件の
    真偽を論理積又は論理和で結合した論理判定式の中に、
    各判定条件が1つ又は複数個含まれる請求項1又は4記
    載のデジタル音響信号符号化装置。
  6. 【請求項6】 デジタル音響信号を時間軸に沿って入力
    してブロック化し、各ブロック毎にサブバンド分割や周
    波数領域への変換等の処理を施し、該音響信号を複数の
    周波数帯域に分割し、各周波数帯域毎に符号化ビットを
    割り当て、割り当てた符号化ビット数に応じて正規化係
    数を求め、前記音響信号を前記正規化係数で量子化する
    ことにより圧縮符号化すると共に、前記周波数領域への
    変換を行う際に、ブロック化した前記音響信号を1つの
    長い変換ブロック又は複数の短い変換ブロックのいずれ
    かにて変換し、予め定めた1つ又は複数の周波数帯域毎
    の前記音響信号に含まれる音響成分の純音性の度合いを
    示す純音性指標を用いて、音響信号ブロックを1つの長
    い変換ブロックで周波数領域に変換するか、または複数
    の短い変換ブロックで周波数領域に変換するかの選択を
    行ない、前記純音性指標に関する閾値を予め定めてお
    き、複数の短い変換ブロック毎に前記純音性指標を算出
    するデジタル音響信号符号化方法において、 予め定めた1つ又は複数の周波数帯域毎に、前記純音性
    指標に関する1つ又は複数の閾値を予め定めておき、当
    該周波数帯域と前記純音性指標に関する閾値の組合せか
    らなる判定条件に基づいて、音響信号のブロックをロン
    グブロック又はショートブロックのいずれかで変換する
    かを判定することを特徴とするデジタル音響信号符号化
    方法。
  7. 【請求項7】 コンピュータにより、デジタル音響信号
    を時間軸に沿って入力してブロック化し、各ブロック毎
    にサブバンド分割や周波数領域への変換等の処理を施
    し、該音響信号を複数の周波数帯域に分割し、各周波数
    帯域毎に符号化ビットを割り当て、割り当てた符号化ビ
    ット数に応じて正規化係数を求め、前記音響信号を前記
    正規化係数で量子化することにより圧縮符号化すると共
    に、前記周波数領域への変換を行う際に、ブロック化し
    た前記音響信号を1つの長い変換ブロック又は複数の短
    い変換ブロックのいずれかにて変換し、予め定めた1つ
    又は複数の周波数帯域毎の前記音響信号に含まれる音響
    成分の純音性の度合いを示す純音性指標を用いて、音響
    信号ブロックを1つの長い変換ブロックで周波数領域に
    変換するか、または複数の短い変換ブロックで周波数領
    域に変換するかの選択を行ない、前記純音性指標に関す
    る閾値を予め定めておき、複数の短い変換ブロック毎に
    前記純音性指標を算出するように実行するデジタル音響
    信号符号化プログラムを記録した媒体において、 予め定めた1つ又は複数の周波数帯域毎に、前記純音性
    指標に関する1つ又は複数の閾値を予め定めておき、当
    該周波数帯域と前記純音性指標に関する閾値の組合せか
    らなる判定条件に基づいて、音響信号のブロックをロン
    グブロック又はショートブロックのいずれかで変換する
    かを判定する機能を有するデジタル音響信号符号化プロ
    グラムを記録した媒体。
JP07770399A 1999-03-23 1999-03-23 デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 Expired - Fee Related JP3739959B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP07770399A JP3739959B2 (ja) 1999-03-23 1999-03-23 デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
US09/531,320 US6456963B1 (en) 1999-03-23 2000-03-20 Block length decision based on tonality index

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP07770399A JP3739959B2 (ja) 1999-03-23 1999-03-23 デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体

Publications (2)

Publication Number Publication Date
JP2000276197A true JP2000276197A (ja) 2000-10-06
JP3739959B2 JP3739959B2 (ja) 2006-01-25

Family

ID=13641272

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07770399A Expired - Fee Related JP3739959B2 (ja) 1999-03-23 1999-03-23 デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体

Country Status (2)

Country Link
US (1) US6456963B1 (ja)
JP (1) JP3739959B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007507751A (ja) * 2003-09-29 2007-03-29 ソニー エレクトロニクス インク オーディオ符号化におけるショートウィンドウグループ化方法

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735561B1 (en) * 2000-03-29 2004-05-11 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
US7099830B1 (en) * 2000-03-29 2006-08-29 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
JP4021124B2 (ja) * 2000-05-30 2007-12-12 株式会社リコー デジタル音響信号符号化装置、方法及び記録媒体
US20030215013A1 (en) * 2002-04-10 2003-11-20 Budnikov Dmitry N. Audio encoder with adaptive short window grouping
KR100477699B1 (ko) * 2003-01-15 2005-03-18 삼성전자주식회사 양자화 잡음 분포 조절 방법 및 장치
KR100547113B1 (ko) * 2003-02-15 2006-01-26 삼성전자주식회사 오디오 데이터 인코딩 장치 및 방법
US20050010396A1 (en) * 2003-07-08 2005-01-13 Industrial Technology Research Institute Scale factor based bit shifting in fine granularity scalability audio coding
US7620545B2 (en) * 2003-07-08 2009-11-17 Industrial Technology Research Institute Scale factor based bit shifting in fine granularity scalability audio coding
WO2005027096A1 (en) 2003-09-15 2005-03-24 Zakrytoe Aktsionernoe Obschestvo Intel Method and apparatus for encoding audio
US7426462B2 (en) * 2003-09-29 2008-09-16 Sony Corporation Fast codebook selection method in audio encoding
US7349842B2 (en) * 2003-09-29 2008-03-25 Sony Corporation Rate-distortion control scheme in audio encoding
US7325023B2 (en) * 2003-09-29 2008-01-29 Sony Corporation Method of making a window type decision based on MDCT data in audio encoding
US20050096918A1 (en) * 2003-10-31 2005-05-05 Arun Rao Reduction of memory requirements by overlaying buffers
KR100537517B1 (ko) * 2004-01-13 2005-12-19 삼성전자주식회사 오디오 데이타 변환 방법 및 장치
AU2005207596A1 (en) * 2004-01-20 2005-08-04 Dolby Laboratories Licensing Corporation Audio coding based on block grouping
DE102004061312B4 (de) * 2004-12-20 2007-10-25 Infineon Technologies Ag Vorrichtung und Verfahren zum Detektieren eines potentiellen Angriffs auf eine kryptographische Berechnung
US7627481B1 (en) * 2005-04-19 2009-12-01 Apple Inc. Adapting masking thresholds for encoding a low frequency transient signal in audio data
KR101599875B1 (ko) * 2008-04-17 2016-03-14 삼성전자주식회사 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 부호화 방법 및 장치, 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 복호화 방법 및 장치
KR20090110242A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 신호를 처리하는 방법 및 장치
KR20090110244A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
CN101751928B (zh) * 2008-12-08 2012-06-13 扬智科技股份有限公司 应用音频帧频谱平坦度简化声学模型分析的方法及其装置
US9947340B2 (en) * 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
GB2466201B (en) * 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
GB0822537D0 (en) 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
JP5270006B2 (ja) * 2008-12-24 2013-08-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 周波数領域におけるオーディオ信号ラウドネス決定と修正
JP5565914B2 (ja) * 2009-10-23 2014-08-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置およびこれらの方法
CN103370705B (zh) * 2011-01-05 2018-01-02 谷歌公司 用于便利文本输入的方法和系统
FR2984580A1 (fr) * 2011-12-20 2013-06-21 France Telecom Procede de detection d'une bande de frequence predeterminee dans un signal de donnees audio, dispositif de detection et programme d'ordinateur correspondant

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
EP0559348A3 (en) * 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
JP3173218B2 (ja) * 1993-05-10 2001-06-04 ソニー株式会社 圧縮データ記録方法及び装置、圧縮データ再生方法、並びに記録媒体
US5608713A (en) * 1994-02-09 1997-03-04 Sony Corporation Bit allocation of digital audio signal blocks by non-linear processing
US5682463A (en) * 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
US5699479A (en) * 1995-02-06 1997-12-16 Lucent Technologies Inc. Tonality for perceptual audio compression based on loudness uncertainty
DE19505435C1 (de) * 1995-02-17 1995-12-07 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JPH09232964A (ja) 1996-02-20 1997-09-05 Nippon Steel Corp ブロック長可変型変換符号化装置および過渡状態検出装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007507751A (ja) * 2003-09-29 2007-03-29 ソニー エレクトロニクス インク オーディオ符号化におけるショートウィンドウグループ化方法
JP4750707B2 (ja) * 2003-09-29 2011-08-17 ソニー エレクトロニクス インク オーディオ符号化におけるショートウィンドウグループ化方法

Also Published As

Publication number Publication date
US6456963B1 (en) 2002-09-24
JP3739959B2 (ja) 2006-01-25

Similar Documents

Publication Publication Date Title
JP2000276197A (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP3762579B2 (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
US7917369B2 (en) Quality improvement techniques in an audio encoder
KR101343267B1 (ko) 주파수 세그먼트화를 이용한 오디오 코딩 및 디코딩을 위한 방법 및 장치
US6704705B1 (en) Perceptual audio coding
EP0966108B1 (en) Dynamic bit allocation apparatus and method for audio coding
JP3131542B2 (ja) 符号化復号化装置
KR101330362B1 (ko) 오디오 인코딩 방법, 오디오 디코딩 방법 및 오디오 인코더 디바이스
JP3178026B2 (ja) ディジタル信号符号化装置及び復号化装置
JP3508146B2 (ja) ディジタル信号符号化復号化装置、ディジタル信号符号化装置及びディジタル信号復号化装置
JP3186292B2 (ja) 高能率符号化方法及び装置
JP2000515266A (ja) オーディオ信号コーディング中にノイズ置換を信号で知らせる方法
JPH066236A (ja) 高能率符号化及び/又は復号化装置
JP2001343997A (ja) デジタル音響信号符号化装置、方法及び記録媒体
JPH07261800A (ja) 変換符号化方法、復号化方法
KR100309727B1 (ko) 오디오 신호 부호화 장치 및 복호화 장치와 오디오 신호 부호화 및 복호화 방법
JP3087814B2 (ja) 音響信号変換符号化装置および復号化装置
US6128593A (en) System and method for implementing a refined psycho-acoustic modeler
JP4281131B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JPH10268897A (ja) 信号符号化方法及び装置
JP2000137497A (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JPH09230897A (ja) 音響信号変換符号化方法
JPH08123488A (ja) 高能率符号化方法、高能率符号記録方法、高能率符号伝送方法、高能率符号化装置及び高能率符号復号化方法
JP4618823B2 (ja) 信号符号化装置及び方法
JP2000206990A (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050401

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051104

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081111

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091111

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101111

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111111

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111111

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121111

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131111

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees