JP2000293199A - 音声符号化方法および記録再生装置 - Google Patents
音声符号化方法および記録再生装置Info
- Publication number
- JP2000293199A JP2000293199A JP11097256A JP9725699A JP2000293199A JP 2000293199 A JP2000293199 A JP 2000293199A JP 11097256 A JP11097256 A JP 11097256A JP 9725699 A JP9725699 A JP 9725699A JP 2000293199 A JP2000293199 A JP 2000293199A
- Authority
- JP
- Japan
- Prior art keywords
- bits
- audio
- level
- masking threshold
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
(57)【要約】
【課題】 聴覚心理特性を用いた音声符号化方法におい
て、ビットが割り当てられていないサブバンドがあると
再生時に高域の歪が発生する。 【解決手段】 音声信号をサブバンドに分割し量子化す
る帯域分割工程と、マスキング閾値算出工程と、音声デ
ータのレベルとマスキング閾値を比較するレベル比較工
程と、量子化ノイズ対マスキング閾値の比の大きさに応
じてサブバンドにビット数を割り当てるビット割り当て
工程と、音声データを再量子化する再量子化工程と、再
量子化した音声データを記録再生可能な所定のフォーマ
ットのデータに変換する信号変換工程とを有し、レベル
比較工程による比較結果が、サブバンド内の音声データ
のレベルがマスキング閾値より小さく、且つその差が予
め定めた値より小さい場合は、ビット割り当て工程にお
いて、該サブバンドに予め決めたビット数を割り当てる
音声符合化方法。
て、ビットが割り当てられていないサブバンドがあると
再生時に高域の歪が発生する。 【解決手段】 音声信号をサブバンドに分割し量子化す
る帯域分割工程と、マスキング閾値算出工程と、音声デ
ータのレベルとマスキング閾値を比較するレベル比較工
程と、量子化ノイズ対マスキング閾値の比の大きさに応
じてサブバンドにビット数を割り当てるビット割り当て
工程と、音声データを再量子化する再量子化工程と、再
量子化した音声データを記録再生可能な所定のフォーマ
ットのデータに変換する信号変換工程とを有し、レベル
比較工程による比較結果が、サブバンド内の音声データ
のレベルがマスキング閾値より小さく、且つその差が予
め定めた値より小さい場合は、ビット割り当て工程にお
いて、該サブバンドに予め決めたビット数を割り当てる
音声符合化方法。
Description
【0001】
【発明の属する技術分野】本発明は、音声圧縮を行う音
声符号化方法および記録再生装置に関する。
声符号化方法および記録再生装置に関する。
【0002】
【従来の技術】聴覚心理特性を利用し、聴覚の感度が低
い細部の情報量を省略することで情報量を削減する音声
圧縮方法の代表的なものにMPEG(Moving Picture Ex
pertsGroup)オーディオがある。MPEGオーディオに
はMPEG1、MPEG2、MPEG4の3種類の音声
圧縮処理方法が規格化され、さらに、MPEG1にはLa
yer1、Layer2、Layer3の3種類の音声圧縮のモードあ
る。
い細部の情報量を省略することで情報量を削減する音声
圧縮方法の代表的なものにMPEG(Moving Picture Ex
pertsGroup)オーディオがある。MPEGオーディオに
はMPEG1、MPEG2、MPEG4の3種類の音声
圧縮処理方法が規格化され、さらに、MPEG1にはLa
yer1、Layer2、Layer3の3種類の音声圧縮のモードあ
る。
【0003】MPEG1オーディオのLayer1の音声圧縮
処理方法は、384サンプルの音声データを一つの処理
単位として、入力する音声信号を異なる周波数帯域の3
2のサブバンド(以下、SBという。)に分割して量子
化し、量子化した音声データを各SB内の最大レベルの
音声データから決められ再生音の倍率を表すスケールフ
ァクタと各SBに適正にビットを割り当てるビットアロ
ケーションを用いて音声圧縮するものである。
処理方法は、384サンプルの音声データを一つの処理
単位として、入力する音声信号を異なる周波数帯域の3
2のサブバンド(以下、SBという。)に分割して量子
化し、量子化した音声データを各SB内の最大レベルの
音声データから決められ再生音の倍率を表すスケールフ
ァクタと各SBに適正にビットを割り当てるビットアロ
ケーションを用いて音声圧縮するものである。
【0004】MPEG1オーディオのLayer2は、Layer1
の音声圧縮の処理に加え、384×3サンプルの音声デ
ータを一つの処理単位とし、複数のデータ転送速度に対
して各データ転送速度毎に準備された圧縮処理用のテー
ブルを用いてビット割り当てを行い高品質・高効率に音
声符号化を行う音声圧縮方法である。
の音声圧縮の処理に加え、384×3サンプルの音声デ
ータを一つの処理単位とし、複数のデータ転送速度に対
して各データ転送速度毎に準備された圧縮処理用のテー
ブルを用いてビット割り当てを行い高品質・高効率に音
声符号化を行う音声圧縮方法である。
【0005】MPEG1オーディオのLayer3は、Layer2
の音声圧縮方法の処理に、エリアシングを起こしにくい
周波数分割方法である変形離散コサイン変換と圧縮処理
の過程で出てくるパラメータの出現確率に偏りがあるこ
とに着目した符合長を可変とするエントロピー(ハフマ
ン)符号化等の処理を用いることにより、更に高効率の
符号化を行う音声圧縮方法である。MPEGオーディオ
の概要は最新MPEG教科書(1994年8月初版、
(株)アスキー出版、変形離散コサイン変換はP.176、エ
ントロピー符号化はP.17)に記載されている。
の音声圧縮方法の処理に、エリアシングを起こしにくい
周波数分割方法である変形離散コサイン変換と圧縮処理
の過程で出てくるパラメータの出現確率に偏りがあるこ
とに着目した符合長を可変とするエントロピー(ハフマ
ン)符号化等の処理を用いることにより、更に高効率の
符号化を行う音声圧縮方法である。MPEGオーディオ
の概要は最新MPEG教科書(1994年8月初版、
(株)アスキー出版、変形離散コサイン変換はP.176、エ
ントロピー符号化はP.17)に記載されている。
【0006】
【発明が解決しようとする課題】MPEG1オーディオ
の音声圧縮方法において、各SBにビット割り当てが行
なわれた結果、ビットの割り当てられているSBの間に
ビットの全く割り当てられていないSBがあった場合
に、その音声圧縮データを再生した再生音は、楽器の倍
音の歪み感や楽音に同期した高域のノイズが検知されや
すい。これは、ビットの割り当てられているSBの間に
ビットの全く割り当てられていないSBがあった場合に
は、これらのSBとSBの間で信号レベルが急激に変化
するため、音声データの再生時に、録音時には存在しな
かった急激に変化する音声信号が生成されてしまうこと
によるものである。
の音声圧縮方法において、各SBにビット割り当てが行
なわれた結果、ビットの割り当てられているSBの間に
ビットの全く割り当てられていないSBがあった場合
に、その音声圧縮データを再生した再生音は、楽器の倍
音の歪み感や楽音に同期した高域のノイズが検知されや
すい。これは、ビットの割り当てられているSBの間に
ビットの全く割り当てられていないSBがあった場合に
は、これらのSBとSBの間で信号レベルが急激に変化
するため、音声データの再生時に、録音時には存在しな
かった急激に変化する音声信号が生成されてしまうこと
によるものである。
【0007】また、ビット割り当てを行う場合に、上述
した32の全てのSBに対して量子化ノイズレベル対マ
スキング閾値の比(以下、NMRという。)の大きさを
計算し、最も大きなNMRを持ったSBに対してビット
の割り当てを行い、さらに他のSBのNMRと比較する
ために再度NMRを計算するという処理を繰り返して行
わなければならない。このためビットの割り当てを行う
処理ステップ数が多くなり、リアルタイムで音声を符合
化するために信号処理ICを処理スピードの速いものに
しなければならない。
した32の全てのSBに対して量子化ノイズレベル対マ
スキング閾値の比(以下、NMRという。)の大きさを
計算し、最も大きなNMRを持ったSBに対してビット
の割り当てを行い、さらに他のSBのNMRと比較する
ために再度NMRを計算するという処理を繰り返して行
わなければならない。このためビットの割り当てを行う
処理ステップ数が多くなり、リアルタイムで音声を符合
化するために信号処理ICを処理スピードの速いものに
しなければならない。
【0008】また、MPEGオーディオではアプリケー
ションに応じてデータ転送速度を選択できるようになっ
ている。データ転送速度が低いモード(各SBに割り当
てるビットが少ないモード)を使用する場合、全てのS
Bにビットを割り当てるとビット数を多く必要とするS
Bにおいてビット数が不足する場合がある。そこで、限
られたビット数を効率良く使うため、高域周波数帯域で
は聴感のダイナミックレンジが小さくなることを利用し
て、高域周波数帯域のSBにはビットの割り当てをしな
いようにして帯域制限をしたビット割り当てを行うこと
がある。この場合、帯域制限を行った上限のSBより高
い周波数成分を持つ音声信号が入力された場合、本来割
り当てられるべきSBの音声データが割り当てられずに
捨てられてしまう。特に、入力した音声信号が帯域制限
を行ったSBよりわずかに高い周波数を持っている場合
には、その周波数成分の音声信号を再生することができ
ない。また、ビットが割り当てられた隣接するSBとの
間に大きな信号レベル差があるので、再生した音声信号
の高域の周波数に耳障りな音を発生させて音質の劣化を
生じさせる。
ションに応じてデータ転送速度を選択できるようになっ
ている。データ転送速度が低いモード(各SBに割り当
てるビットが少ないモード)を使用する場合、全てのS
Bにビットを割り当てるとビット数を多く必要とするS
Bにおいてビット数が不足する場合がある。そこで、限
られたビット数を効率良く使うため、高域周波数帯域で
は聴感のダイナミックレンジが小さくなることを利用し
て、高域周波数帯域のSBにはビットの割り当てをしな
いようにして帯域制限をしたビット割り当てを行うこと
がある。この場合、帯域制限を行った上限のSBより高
い周波数成分を持つ音声信号が入力された場合、本来割
り当てられるべきSBの音声データが割り当てられずに
捨てられてしまう。特に、入力した音声信号が帯域制限
を行ったSBよりわずかに高い周波数を持っている場合
には、その周波数成分の音声信号を再生することができ
ない。また、ビットが割り当てられた隣接するSBとの
間に大きな信号レベル差があるので、再生した音声信号
の高域の周波数に耳障りな音を発生させて音質の劣化を
生じさせる。
【0009】本発明の目的は、ビットが割り当てられて
いるSBとSBの間に全くビットを割り当てられていな
いSBが存在する場合、又は限られたビット数を効率よ
く使用するためにビットを割り当てるSBの数を少なく
することを目的として帯域制限をし、上限のSBよりも
高い周波数の音声信号が入力された場合、再生する音声
信号の歪を抑え且つ複雑な処理を軽減する音声符合化方
法および記録再生装置を得ることである。
いるSBとSBの間に全くビットを割り当てられていな
いSBが存在する場合、又は限られたビット数を効率よ
く使用するためにビットを割り当てるSBの数を少なく
することを目的として帯域制限をし、上限のSBよりも
高い周波数の音声信号が入力された場合、再生する音声
信号の歪を抑え且つ複雑な処理を軽減する音声符合化方
法および記録再生装置を得ることである。
【0010】
【課題を解決するための手段】本発明は、音声信号を圧
縮し符合化する音声符合化方法において、音声信号を複
数の異なる音声周波数帯域のサブバンドに分割し、量子
化して音声データとする帯域分割工程と、マスキング閾
値を算出するマスキング閾値算出工程と、前記音声デー
タのレベルと前記マスキング閾値とを比較するレベル比
較工程と、前記サブバンド内の量子化ノイズレベル対マ
スキング閾値の比の大きさに応じて前記サブバンドにビ
ット数を割り当てるビット割り当て工程と、前記サブバ
ンドに割り当てられたビット数で音声データを再量子化
する再量子化工程と、前記再量子化した音声データを記
録再生可能な所定のフォーマットのデータに変換する信
号変換工程とを有し、前記レベル比較工程による比較結
果が、前記サブバンド内の音声データのレベルが前記マ
スキング閾値より小さく、且つその差が予め定めた値よ
り小さい場合は、前記ビット割り当て工程において、該
サブバンドに予め決めたビット数を割り当てる音声符合
化方法である。
縮し符合化する音声符合化方法において、音声信号を複
数の異なる音声周波数帯域のサブバンドに分割し、量子
化して音声データとする帯域分割工程と、マスキング閾
値を算出するマスキング閾値算出工程と、前記音声デー
タのレベルと前記マスキング閾値とを比較するレベル比
較工程と、前記サブバンド内の量子化ノイズレベル対マ
スキング閾値の比の大きさに応じて前記サブバンドにビ
ット数を割り当てるビット割り当て工程と、前記サブバ
ンドに割り当てられたビット数で音声データを再量子化
する再量子化工程と、前記再量子化した音声データを記
録再生可能な所定のフォーマットのデータに変換する信
号変換工程とを有し、前記レベル比較工程による比較結
果が、前記サブバンド内の音声データのレベルが前記マ
スキング閾値より小さく、且つその差が予め定めた値よ
り小さい場合は、前記ビット割り当て工程において、該
サブバンドに予め決めたビット数を割り当てる音声符合
化方法である。
【0011】また、本発明は、音声信号を圧縮伸張して
記録再生する記録再生装置において、音声信号を複数の
異なる音声周波数帯域のサブバンドに分割し、量子化し
て音声データとする帯域分割手段と、マスキング閾値を
算出するマスキング閾値算出手段と、前記音声データの
レベルと前記マスキング閾値とを比較するレベル比較手
段と、前記量子化ノイズレベル対マスキング閾値の比の
大きさに応じて前記サブバンドにビット数を割り当てる
ビット割り当て手段と、前記サブバンドに割り当てられ
たビット数で音声データを再量子化する再量子化手段
と、前記再量子化した音声データを記録再生可能な所定
のフォーマットのデータに変換する信号変換手段とを有
し、前記レベル比較手段による比較結果が、前記サブバ
ンド内の音声データのレベルが前記マスキング閾値より
小さく、且つその差が予め定めた値より小さい場合は、
前記ビット割り当て手段は、該サブバンドに予め決めた
ビット数を割り当てる記録再生装置である。
記録再生する記録再生装置において、音声信号を複数の
異なる音声周波数帯域のサブバンドに分割し、量子化し
て音声データとする帯域分割手段と、マスキング閾値を
算出するマスキング閾値算出手段と、前記音声データの
レベルと前記マスキング閾値とを比較するレベル比較手
段と、前記量子化ノイズレベル対マスキング閾値の比の
大きさに応じて前記サブバンドにビット数を割り当てる
ビット割り当て手段と、前記サブバンドに割り当てられ
たビット数で音声データを再量子化する再量子化手段
と、前記再量子化した音声データを記録再生可能な所定
のフォーマットのデータに変換する信号変換手段とを有
し、前記レベル比較手段による比較結果が、前記サブバ
ンド内の音声データのレベルが前記マスキング閾値より
小さく、且つその差が予め定めた値より小さい場合は、
前記ビット割り当て手段は、該サブバンドに予め決めた
ビット数を割り当てる記録再生装置である。
【0012】
【発明の実施の形態】図1は、本発明の一実施例である
音声符合化方法及び記録再生装置のMPEG1オーディ
オの音声圧縮処理部の構成を説明する図である。はじめ
に、本実施例の音声符合化方法及び記録再生装置におけ
る音声圧縮処理部の構成について説明する。
音声符合化方法及び記録再生装置のMPEG1オーディ
オの音声圧縮処理部の構成を説明する図である。はじめ
に、本実施例の音声符合化方法及び記録再生装置におけ
る音声圧縮処理部の構成について説明する。
【0013】帯域分割部101は、複数のフィルタを用
いて音声周波数帯域を複数の周波数帯域に帯域分割する
フィルタバンクを備え、入力音声信号を量子化する信号
処理回路である。入力された音声信号は32の異なるS
Bに分割されて量子化される。
いて音声周波数帯域を複数の周波数帯域に帯域分割する
フィルタバンクを備え、入力音声信号を量子化する信号
処理回路である。入力された音声信号は32の異なるS
Bに分割されて量子化される。
【0014】マスキング閾値算出部102は、FFT(F
ast Fourier Transform)処理により各SBのパワーレベ
ルを算出し、聴覚心理特性を利用しマスキングの閾値を
求める。マスキングとは、例えば、静寂な環境ではせせ
らぎの音を聞き取れるが、嵐の中では聞き取れないこと
が有るというように二つの音が同時に発生している場
合、小さい方の音が大きい方の音によって聞こえなくな
る状態をいう。また、マスキング閾値とは、あるSBに
おける音声信号が隣接する音声によってマスキングされ
る最大音声レベルである。
ast Fourier Transform)処理により各SBのパワーレベ
ルを算出し、聴覚心理特性を利用しマスキングの閾値を
求める。マスキングとは、例えば、静寂な環境ではせせ
らぎの音を聞き取れるが、嵐の中では聞き取れないこと
が有るというように二つの音が同時に発生している場
合、小さい方の音が大きい方の音によって聞こえなくな
る状態をいう。また、マスキング閾値とは、あるSBに
おける音声信号が隣接する音声によってマスキングされ
る最大音声レベルである。
【0015】ビットアロケーション部103は、マスキ
ング閾値算出部102から出力されるマスキング閾値と
各SBの音声データのレベルから判断して各SBに適正
なビット数の配分を行う。再量子化部104は、各SB
に適正なビット数の配分を行った後、配分されたビット
数で音声データの再量子化を行い圧縮した音声データを
出力する。
ング閾値算出部102から出力されるマスキング閾値と
各SBの音声データのレベルから判断して各SBに適正
なビット数の配分を行う。再量子化部104は、各SB
に適正なビット数の配分を行った後、配分されたビット
数で音声データの再量子化を行い圧縮した音声データを
出力する。
【0016】フォーマティング部105は、同期信号、
MPEGオーディオの各種モードの識別子が入ったヘッ
ダ情報、ビットアロケーション部103で確定した各S
Bに割り当てられたビット数及び再量子化部104で再
量子化した音声データをMPEG1オーディオ規格の所
定のフォーマットのデータに変換して出力する。
MPEGオーディオの各種モードの識別子が入ったヘッ
ダ情報、ビットアロケーション部103で確定した各S
Bに割り当てられたビット数及び再量子化部104で再
量子化した音声データをMPEG1オーディオ規格の所
定のフォーマットのデータに変換して出力する。
【0017】レベル比較部106は、各SBに割り当て
られたビット数で音声データを再量子化したときに生じ
る量子化ノイズのレベルとマスキング閾値とを比較し、
さらに、各SBにおける信号レベルとマスキング閾値の
レベルの差を予め決められている基準値と比較する。比
較した結果はビットアロケーション部103に送られ、
ビットアロケーション部103は、比較した結果に基づ
いて各SBに割り当てるビット数を決める。
られたビット数で音声データを再量子化したときに生じ
る量子化ノイズのレベルとマスキング閾値とを比較し、
さらに、各SBにおける信号レベルとマスキング閾値の
レベルの差を予め決められている基準値と比較する。比
較した結果はビットアロケーション部103に送られ、
ビットアロケーション部103は、比較した結果に基づ
いて各SBに割り当てるビット数を決める。
【0018】次に、音声圧縮処理の手順について説明す
る。図2は、音声を圧縮する音声符合化方法及び記録再
生装置において、入力した音声信号が異なるSBに分割
されてビットが割り当てられた音声データを説明する図
である。図2(a)、(b)は従来技術の音声圧縮につ
いて説明する図であり、図2(c)は本発明の一実施例
における音声圧縮について説明する図である。
る。図2は、音声を圧縮する音声符合化方法及び記録再
生装置において、入力した音声信号が異なるSBに分割
されてビットが割り当てられた音声データを説明する図
である。図2(a)、(b)は従来技術の音声圧縮につ
いて説明する図であり、図2(c)は本発明の一実施例
における音声圧縮について説明する図である。
【0019】入力した音声信号は、帯域分割部101に
入力されて32に分割されたSB毎の音声データに変換
される。また同時に、入力した音声信号はマスキング閾
値算出部102に入力されFFT(Fast Fourier Transf
orm)処理されて、各SB毎にパワーレベルが算出され
る。各SB毎のパワーレベルが算出されることにより、
マスキング閾値算出部102はマスキング効果による各
SBのマスキング閾値を出力する。
入力されて32に分割されたSB毎の音声データに変換
される。また同時に、入力した音声信号はマスキング閾
値算出部102に入力されFFT(Fast Fourier Transf
orm)処理されて、各SB毎にパワーレベルが算出され
る。各SB毎のパワーレベルが算出されることにより、
マスキング閾値算出部102はマスキング効果による各
SBのマスキング閾値を出力する。
【0020】ビットアロケーション部103において、
マスキング閾値は帯域分割部101の出力である各SB
内の音声データの信号レベルと比較され、予め決められ
た割り当て可能なビット総数に収まるように各SBに割
り当てるビット数が決定される。ビット数を各SBに割
り当てる処理手順は、はじめに32のSBの中からダイ
ナミックレンジの最も大きいSBを選択する。各SBを
スキャンしてNMRの最も大きいSBを選択し、そのS
Bにビット数の一部を割り当てる。SBに割り当てられ
たビット数により量子化ノイズが変化してNMRが変化
するので、再度NMRを計算した後に引き続きSBをス
キャンしNMRの最も大きいSBを選択し、そのSBに
ビット数の一部を割り当てて再度NMRを計算するとい
う処理を繰り返し続けて割り当て可能なビット数が全て
割り当てられるまで繰り返し行う。その後、各SB毎に
割り当てられたビット数にしたがって、再量子化部10
4で各SBに割り当てられた音声データを再量子化し圧
縮した音声データとする。
マスキング閾値は帯域分割部101の出力である各SB
内の音声データの信号レベルと比較され、予め決められ
た割り当て可能なビット総数に収まるように各SBに割
り当てるビット数が決定される。ビット数を各SBに割
り当てる処理手順は、はじめに32のSBの中からダイ
ナミックレンジの最も大きいSBを選択する。各SBを
スキャンしてNMRの最も大きいSBを選択し、そのS
Bにビット数の一部を割り当てる。SBに割り当てられ
たビット数により量子化ノイズが変化してNMRが変化
するので、再度NMRを計算した後に引き続きSBをス
キャンしNMRの最も大きいSBを選択し、そのSBに
ビット数の一部を割り当てて再度NMRを計算するとい
う処理を繰り返し続けて割り当て可能なビット数が全て
割り当てられるまで繰り返し行う。その後、各SB毎に
割り当てられたビット数にしたがって、再量子化部10
4で各SBに割り当てられた音声データを再量子化し圧
縮した音声データとする。
【0021】フォーマッティング部105でMPEG1
オーディオ規格で決められた所定の信号フォーマットの
データとなるようにスケールファクタや音声データ等の
データを配列し出力する。
オーディオ規格で決められた所定の信号フォーマットの
データとなるようにスケールファクタや音声データ等の
データを配列し出力する。
【0022】上述した音声圧縮の手順においては、ダイ
ナミックレンジの大きいSBに優先してビットを割り当
てるという処理を繰り返すため、高い周波数のSBのよ
うにダイナミックレンジが小さいSBにはビットが割り
当てられずSBとSBの間に、全くビットが割り当てら
れないSBが存在する可能性がある。
ナミックレンジの大きいSBに優先してビットを割り当
てるという処理を繰り返すため、高い周波数のSBのよ
うにダイナミックレンジが小さいSBにはビットが割り
当てられずSBとSBの間に、全くビットが割り当てら
れないSBが存在する可能性がある。
【0023】図2(a)の縦軸は、各SBにおける入力
音声信号のレベルと聴覚心理特性を利用して得られたマ
スキングの閾値(図2(a)の斜線部)のレベルを示
す。また横軸は、各SBの番号を示しており、SB0側
が低い周波数でSB31側が高い周波数である。図2
(a)は、入力音声信号のレベルがマスキング閾値より
大きいほどダイナミックレンジが大きく、多くのビット
数を必要とすることを示している。
音声信号のレベルと聴覚心理特性を利用して得られたマ
スキングの閾値(図2(a)の斜線部)のレベルを示
す。また横軸は、各SBの番号を示しており、SB0側
が低い周波数でSB31側が高い周波数である。図2
(a)は、入力音声信号のレベルがマスキング閾値より
大きいほどダイナミックレンジが大きく、多くのビット
数を必要とすることを示している。
【0024】図2(b)は、ビットアロケーション部1
03によって各SB内に割り当てられたビット数で音声
データを再量子化したときの状態を示す図である。縦軸
は、各SBに割り当てられる音声データのビット数であ
り、再量子化部104で各SBの音声データを再量子化
するときの量子化ビット数となる。横軸はSBの番号を
示し、SB0側が低い周波数でSB31側が高い周波数
である。図2(a)、(b)で示すように入力音声信号
のレベルがマスキングの閾値より大きいSBほどビット
数が多く割り当てられる。
03によって各SB内に割り当てられたビット数で音声
データを再量子化したときの状態を示す図である。縦軸
は、各SBに割り当てられる音声データのビット数であ
り、再量子化部104で各SBの音声データを再量子化
するときの量子化ビット数となる。横軸はSBの番号を
示し、SB0側が低い周波数でSB31側が高い周波数
である。図2(a)、(b)で示すように入力音声信号
のレベルがマスキングの閾値より大きいSBほどビット
数が多く割り当てられる。
【0025】SB26、SB29についてはマスキング
閾値より信号レベルが低いので、ビットが割り当てられ
ていない。また、SB27はマスキング閾値より信号レ
ベルが高いが、信号レベルがマスキング閾値より大きい
SBに優先的にビットを割り当てるアルゴリズムのた
め、ビットが割り当てられていない。
閾値より信号レベルが低いので、ビットが割り当てられ
ていない。また、SB27はマスキング閾値より信号レ
ベルが高いが、信号レベルがマスキング閾値より大きい
SBに優先的にビットを割り当てるアルゴリズムのた
め、ビットが割り当てられていない。
【0026】次に、本発明の一実施例である音声符合化
方法及び記録再生装置の音声符合化方法について説明す
る。図2(c)は、SB26、S27、SB29に後述
する予め決められているビット数を割り当てたときの状
態を示す図である。図2(b)でビットが割り当てられ
ていなかったSB26、S27、SB29には、音声デ
ータを再生したときに音質を悪化させる虞のあるSBと
して各々2ビットが割り当てられる。
方法及び記録再生装置の音声符合化方法について説明す
る。図2(c)は、SB26、S27、SB29に後述
する予め決められているビット数を割り当てたときの状
態を示す図である。図2(b)でビットが割り当てられ
ていなかったSB26、S27、SB29には、音声デ
ータを再生したときに音質を悪化させる虞のあるSBと
して各々2ビットが割り当てられる。
【0027】図3は、本実施例の音声符合化方法および
記録再生装置におけるSBの上限のサブバンド(SB
(HIGH))と下限のサブバンド(SB(LOW))
について説明する図である。図4は本実施例の音声符号
化方法および記録再生装置の音声符号化する手順を示す
フローチャートである。
記録再生装置におけるSBの上限のサブバンド(SB
(HIGH))と下限のサブバンド(SB(LOW))
について説明する図である。図4は本実施例の音声符号
化方法および記録再生装置の音声符号化する手順を示す
フローチャートである。
【0028】帯域分割部101によって入力音声信号は
32の異なるSBに帯域分割され、同時にマスキング閾
値検出部102でFFTで周波数分析される。この結果
と聴覚心理特性を利用して、各帯域のマスキング閾値及
び信号レベル対マスキング閾値の比(以下、SMRとい
う。)を求める。(ステップ1)、(ステップ2)これ
らの結果から、マスキング閾値以上のパワーを持ってい
るSBのSMRの値を順次読み出し、その中で最も低い
周波数を持つSB(LOW)と最も高い周波数を持つS
B(HIGH)を検出する。(ステップ3)
32の異なるSBに帯域分割され、同時にマスキング閾
値検出部102でFFTで周波数分析される。この結果
と聴覚心理特性を利用して、各帯域のマスキング閾値及
び信号レベル対マスキング閾値の比(以下、SMRとい
う。)を求める。(ステップ1)、(ステップ2)これ
らの結果から、マスキング閾値以上のパワーを持ってい
るSBのSMRの値を順次読み出し、その中で最も低い
周波数を持つSB(LOW)と最も高い周波数を持つS
B(HIGH)を検出する。(ステップ3)
【0029】音声圧縮を用いた記録再生装置の場合、記
録再生装置を用いるアプリケーションによって要求され
る音質は異なるが、例えば、fs=48kHzのMPEG1オー
ディオLayer2を採用するFMやTV等の放送局において
伝送用途として実績のあるデータ転送速度128kbps/c
h(bit per second/ch)を基準にすると、128kbps/ch
より低いデータ転送速度の場合は、割り当て可能なビッ
ト総数が少ないため、SB(LOW)からSB(HIG
H)までの各SBに必要最少限のビット数を割り当てた
後、MPEG1オーディオ規格どおりにNMRの最も大
きいSBから順にビットを割り当てる。データ転送速度
が128kbps/ch以上であれば、割り当てるビット総数
に余裕があるため、SB(HIGH)より上のSBでも
そのパワーレベルがマスキング閾値に近い場合は、ステ
ップ5以降の動作を実行して歪の発生を防止する。(ス
テップ4)
録再生装置を用いるアプリケーションによって要求され
る音質は異なるが、例えば、fs=48kHzのMPEG1オー
ディオLayer2を採用するFMやTV等の放送局において
伝送用途として実績のあるデータ転送速度128kbps/c
h(bit per second/ch)を基準にすると、128kbps/ch
より低いデータ転送速度の場合は、割り当て可能なビッ
ト総数が少ないため、SB(LOW)からSB(HIG
H)までの各SBに必要最少限のビット数を割り当てた
後、MPEG1オーディオ規格どおりにNMRの最も大
きいSBから順にビットを割り当てる。データ転送速度
が128kbps/ch以上であれば、割り当てるビット総数
に余裕があるため、SB(HIGH)より上のSBでも
そのパワーレベルがマスキング閾値に近い場合は、ステ
ップ5以降の動作を実行して歪の発生を防止する。(ス
テップ4)
【0030】MPEG1オーディオ規格では、32の帯
域に等分割したSBの中で最も低い周波数を持つSBを
SB0(0〜750Hz)とし、最も高い周波数を持つSBをS
B31(23.25kHz〜24kHz)とすると、SB27以上は可
聴帯域外となる為、ビットを全く割り当てないようにな
っている。
域に等分割したSBの中で最も低い周波数を持つSBを
SB0(0〜750Hz)とし、最も高い周波数を持つSBをS
B31(23.25kHz〜24kHz)とすると、SB27以上は可
聴帯域外となる為、ビットを全く割り当てないようにな
っている。
【0031】SB(HIGH)=SB26の場合には、
SB(LOW)からSB(HIGH)まで最低限の数の
ビット数(2ビット)を割り当てた後、MPEG1オー
ディオ規格どおりにNMRの最も大きいSBから順にビ
ットを割り当てていく。
SB(LOW)からSB(HIGH)まで最低限の数の
ビット数(2ビット)を割り当てた後、MPEG1オー
ディオ規格どおりにNMRの最も大きいSBから順にビ
ットを割り当てていく。
【0032】SB(HIGH)=SB25の場合には、
SB(HIGH+1)つまりSB26のパワーレベルを
マスキング閾値と比較してその差が-6db以上(SB2
6のパワーレベルがマスキング閾値の1/2より小さ
い。)であれば、SB26の音声データは聴感上影響を
及ぼさないと判断し、SB(LOW)からSB(HIG
H)まで最低限のビット数(2ビット)を割り当てる。
SB(HIGH+1)つまりSB26のパワーレベルを
マスキング閾値と比較してその差が-6db以上(SB2
6のパワーレベルがマスキング閾値の1/2より小さ
い。)であれば、SB26の音声データは聴感上影響を
及ぼさないと判断し、SB(LOW)からSB(HIG
H)まで最低限のビット数(2ビット)を割り当てる。
【0033】また、SB26のパワーレベルをマスキン
グ閾値と比較してその差が-6db未満(SB26のパワ
ーレベルがマスキング閾値の1/2より大きい。)であ
れば、SB26の音声データは聴感上影響を及ぼす可能
性があるので、SB(LOW)からSB(HIGH+
1)=SB26まで最低限のビット数(2ビット)を割
り当てる。その後、MPEG1オーディオの規格どおり
にNMRの最も大きいSBから順にビットを割り当てて
いく。(ステップ5)、(ステップ6)
グ閾値と比較してその差が-6db未満(SB26のパワ
ーレベルがマスキング閾値の1/2より大きい。)であ
れば、SB26の音声データは聴感上影響を及ぼす可能
性があるので、SB(LOW)からSB(HIGH+
1)=SB26まで最低限のビット数(2ビット)を割
り当てる。その後、MPEG1オーディオの規格どおり
にNMRの最も大きいSBから順にビットを割り当てて
いく。(ステップ5)、(ステップ6)
【0034】SB(HIGH)<SB25の場合には、
SB(HIGH+2)及びSB( HIGH+1)のパ
ワーレベルをマスキング閾値と比較してその差が-6db
以 上であれば、SB(HIGH+2)及びSB(HI
GH+1)の音声信号は 聴感上影響を及ぼさないと判
断しSB(LOW)からSB(HIGH)まで に最低
限のビット数(2ビット)を割り当てる。
SB(HIGH+2)及びSB( HIGH+1)のパ
ワーレベルをマスキング閾値と比較してその差が-6db
以 上であれば、SB(HIGH+2)及びSB(HI
GH+1)の音声信号は 聴感上影響を及ぼさないと判
断しSB(LOW)からSB(HIGH)まで に最低
限のビット数(2ビット)を割り当てる。
【0035】また、SB(HIGH+2)のパワーレベ
ルをマスキング閾値と比較してその差が-6db未満であ
れば、SB(HIGH+2)の音声信号は聴感上影響を
及ぼす可能性があるのでSB(LOW)からSB(HI
GH+2)までの各SBに最低限のビット数(2ビッ
ト)を割り当てる。(ステップ7)、(ステップ7a)
ルをマスキング閾値と比較してその差が-6db未満であ
れば、SB(HIGH+2)の音声信号は聴感上影響を
及ぼす可能性があるのでSB(LOW)からSB(HI
GH+2)までの各SBに最低限のビット数(2ビッ
ト)を割り当てる。(ステップ7)、(ステップ7a)
【0036】また、SB(HIGH+1)のパワーレベ
ルをマスキング閾値と比較してその差が-6db未満であ
れば、SB(HIGH+1)の音声信号が聴感上影響を
及ぼす可能性があるのでSB(LOW)からSB(HI
GH+1)までの各SBに最低限のビット数(2ビッ
ト)を割り当てる。(ステップ8)、(ステップ8a)
ここで、あるSBに最低限のビット数を割り当てるかど
うかを決めるためのレベル差の基準値として、本実施例
ではSBのパワーレベルがマスキング閾値の1/2(-
6db)としたが、データ転送速度によって基準値を変え
るようにしても良い。
ルをマスキング閾値と比較してその差が-6db未満であ
れば、SB(HIGH+1)の音声信号が聴感上影響を
及ぼす可能性があるのでSB(LOW)からSB(HI
GH+1)までの各SBに最低限のビット数(2ビッ
ト)を割り当てる。(ステップ8)、(ステップ8a)
ここで、あるSBに最低限のビット数を割り当てるかど
うかを決めるためのレベル差の基準値として、本実施例
ではSBのパワーレベルがマスキング閾値の1/2(-
6db)としたが、データ転送速度によって基準値を変え
るようにしても良い。
【0037】その後、MPEG1オーディオの規格どお
りにNMRの大きいSBから順にビットを割り当ててい
く。ビットの割り当てが終了したら、各SBに割り当て
られたビット数で音声データを再量子化し、再量子化し
た音声データを所定のフォーマットに変換して出力す
る。(ステップ9)、(ステップ10)、(ステップ1
1)、(ステップ12)
りにNMRの大きいSBから順にビットを割り当ててい
く。ビットの割り当てが終了したら、各SBに割り当て
られたビット数で音声データを再量子化し、再量子化し
た音声データを所定のフォーマットに変換して出力す
る。(ステップ9)、(ステップ10)、(ステップ1
1)、(ステップ12)
【0038】以上の実施例ではMPEG1オーディオLa
yer2について説明したが、本発明は、音声周波数帯域を
複数の異なるサブバンドに分割し、聴覚心理特性を利用
して音声圧縮する音声符合化方法とこの音声符合化方法
を利用した記録再生装置の全てに使用することができ
る。
yer2について説明したが、本発明は、音声周波数帯域を
複数の異なるサブバンドに分割し、聴覚心理特性を利用
して音声圧縮する音声符合化方法とこの音声符合化方法
を利用した記録再生装置の全てに使用することができ
る。
【0039】
【発明の効果】本発明により、ビットが割り当てられて
いるSBとSBの間に全くビットを割り当てられていな
いSBが存在する場合、又は帯域制限をするためにビッ
トを割り当てるSBの範囲が固定される場合であってS
Bの範囲よりも高い周波数の信号が入ってくる場合に、
ビットを割り当てられていないSBの音声信号が聴感上
音質に影響があると判断されるときは、該SBに最低限
のビット数を割り当てて、再生する音声信号の歪を抑え
且つ複雑な処理を軽減する音声符合化方法および記録再
生装置を得ることができる
いるSBとSBの間に全くビットを割り当てられていな
いSBが存在する場合、又は帯域制限をするためにビッ
トを割り当てるSBの範囲が固定される場合であってS
Bの範囲よりも高い周波数の信号が入ってくる場合に、
ビットを割り当てられていないSBの音声信号が聴感上
音質に影響があると判断されるときは、該SBに最低限
のビット数を割り当てて、再生する音声信号の歪を抑え
且つ複雑な処理を軽減する音声符合化方法および記録再
生装置を得ることができる
【図1】本発明の一実施例である音声符合化方法及び記
録再生装置のMPEG1オーディオの音声圧縮処理の構
成を説明する図である。
録再生装置のMPEG1オーディオの音声圧縮処理の構
成を説明する図である。
【図2】本実施例の音声符合化方法及び記録再生装置に
おいて、入力した音声信号が異なるSBに分割されてビ
ットを割り当てられた音声データを説明する図である。
おいて、入力した音声信号が異なるSBに分割されてビ
ットを割り当てられた音声データを説明する図である。
【図3】本実施例の音声符合化方法及び記録再生装置に
おいて、サブバンド(SB)の上限のサブバンドと下限
のサブバンドについて説明する図である。
おいて、サブバンド(SB)の上限のサブバンドと下限
のサブバンドについて説明する図である。
【図4】本実施例の音声符号化方法及び記録再生装置の
音声符号化の手順を示すフローチャートである。
音声符号化の手順を示すフローチャートである。
101 帯域分割部 102 マスキング閾値算出部 103 ビットアロケーション部 104 再量子化部 105 フォーマッティング部 106 レベル比較判別部
Claims (2)
- 【請求項1】 音声信号を圧縮し符合化する音声符合化
方法において、音声信号を複数の異なる音声周波数帯域
のサブバンドに分割し、量子化して音声データとする帯
域分割工程と、マスキング閾値を算出するマスキング閾
値算出工程と、前記音声データのレベルと前記マスキン
グ閾値とを比較するレベル比較工程と、前記サブバンド
内の量子化ノイズレベル対マスキング閾値の比の大きさ
に応じて前記サブバンドにビット数を割り当てるビット
割り当て工程と、前記サブバンドに割り当てられたビッ
ト数で音声データを再量子化する再量子化工程と、前記
再量子化した音声データを記録再生可能な所定のフォー
マットのデータに変換する信号変換工程とを有し、前記
レベル比較工程による比較結果が、前記サブバンド内の
音声データのレベルが前記マスキング閾値より小さく、
且つその差が予め定めた値より小さい場合は、前記ビッ
ト割り当て工程において、該サブバンドに予め決めたビ
ット数を割り当てることを特徴とする音声符合化方法。 - 【請求項2】 音声信号を圧縮伸張して記録再生する記
録再生装置において、音声信号を異なる音声周波数帯域
のサブバンドに分割し、量子化して音声データとする帯
域分割手段と、マスキング閾値を算出するマスキング閾
値算出手段と、前記音声データのレベルと前記マスキン
グ閾値とを比較するレベル比較手段と、前記サブバンド
内の量子化ノイズレベル対マスキング閾値の比の大きさ
に応じて前記サブバンドにビット数を割り当てるビット
割り当て手段と、前記サブバンドに割り当てられたビッ
ト数で音声データを再量子化する再量子化手段と、前記
再量子化した音声データを記録再生可能な所定のフォー
マットのデータに変換する信号変換手段とを有し、前記
レベル比較手段による比較結果が、前記サブバンド内の
音声データのレベルが前記マスキング閾値より小さく、
且つその差が予め定めた値より小さい場合は、前記ビッ
ト割り当て手段は、該サブバンドに予め決めたビット数
を割り当てることを特徴とする記録再生装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11097256A JP2000293199A (ja) | 1999-04-05 | 1999-04-05 | 音声符号化方法および記録再生装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11097256A JP2000293199A (ja) | 1999-04-05 | 1999-04-05 | 音声符号化方法および記録再生装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000293199A true JP2000293199A (ja) | 2000-10-20 |
Family
ID=14187489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11097256A Withdrawn JP2000293199A (ja) | 1999-04-05 | 1999-04-05 | 音声符号化方法および記録再生装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000293199A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007264154A (ja) * | 2006-03-28 | 2007-10-11 | Sony Corp | オーディオ信号符号化方法、オーディオ信号符号化方法のプログラム、オーディオ信号符号化方法のプログラムを記録した記録媒体及びオーディオ信号符号化装置 |
US8244524B2 (en) | 2007-07-04 | 2012-08-14 | Fujitsu Limited | SBR encoder with spectrum power correction |
JP2014514617A (ja) * | 2011-05-13 | 2014-06-19 | サムスン エレクトロニクス カンパニー リミテッド | ビット割り当て、オーディオ符号化及び復号化 |
US9076440B2 (en) | 2008-02-19 | 2015-07-07 | Fujitsu Limited | Audio signal encoding device, method, and medium by correcting allowable error powers for a tonal frequency spectrum |
-
1999
- 1999-04-05 JP JP11097256A patent/JP2000293199A/ja not_active Withdrawn
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007264154A (ja) * | 2006-03-28 | 2007-10-11 | Sony Corp | オーディオ信号符号化方法、オーディオ信号符号化方法のプログラム、オーディオ信号符号化方法のプログラムを記録した記録媒体及びオーディオ信号符号化装置 |
US8244524B2 (en) | 2007-07-04 | 2012-08-14 | Fujitsu Limited | SBR encoder with spectrum power correction |
US9076440B2 (en) | 2008-02-19 | 2015-07-07 | Fujitsu Limited | Audio signal encoding device, method, and medium by correcting allowable error powers for a tonal frequency spectrum |
JP2014514617A (ja) * | 2011-05-13 | 2014-06-19 | サムスン エレクトロニクス カンパニー リミテッド | ビット割り当て、オーディオ符号化及び復号化 |
US9489960B2 (en) | 2011-05-13 | 2016-11-08 | Samsung Electronics Co., Ltd. | Bit allocating, audio encoding and decoding |
US9711155B2 (en) | 2011-05-13 | 2017-07-18 | Samsung Electronics Co., Ltd. | Noise filling and audio decoding |
US9773502B2 (en) | 2011-05-13 | 2017-09-26 | Samsung Electronics Co., Ltd. | Bit allocating, audio encoding and decoding |
US10109283B2 (en) | 2011-05-13 | 2018-10-23 | Samsung Electronics Co., Ltd. | Bit allocating, audio encoding and decoding |
US10276171B2 (en) | 2011-05-13 | 2019-04-30 | Samsung Electronics Co., Ltd. | Noise filling and audio decoding |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3278900B2 (ja) | データ符号化装置及び方法 | |
JP3277692B2 (ja) | 情報符号化方法、情報復号化方法及び情報記録媒体 | |
JP2006011456A (ja) | 低ビット率符号化/復号化方法及び装置並びにコンピュータ可読媒体 | |
JPH08190764A (ja) | ディジタル信号処理方法、ディジタル信号処理装置及び記録媒体 | |
JPH08237132A (ja) | 信号符号化方法及び装置、信号復号化方法及び装置、並びに情報記録媒体及び情報伝送方法 | |
JPH1084284A (ja) | 信号再生方法および装置 | |
JP2005328542A (ja) | 複数のルックアップテーブルを利用したデジタル信号の符号化方法、デジタル信号の符号化装置及び複数のルックアップテーブル生成方法 | |
JP2001343997A (ja) | デジタル音響信号符号化装置、方法及び記録媒体 | |
US20030014241A1 (en) | Method of and apparatus for converting an audio signal between data compression formats | |
JPH0846518A (ja) | 情報符号化方法及び復号化方法、情報符号化装置及び復号化装置、並びに情報記録媒体 | |
KR100636144B1 (ko) | 오디오 신호 부호화/복호화 장치 및 방법 | |
JP2002533790A (ja) | 適応型ビットアロケータ及びオーディオエンコーダ | |
US5899966A (en) | Speech decoding method and apparatus to control the reproduction speed by changing the number of transform coefficients | |
JPH08166799A (ja) | 高能率符号化方法及び装置 | |
US7305346B2 (en) | Audio processing method and audio processing apparatus | |
JP2000293199A (ja) | 音声符号化方法および記録再生装置 | |
JPH09101799A (ja) | 信号符号化方法及び装置 | |
JPH1083623A (ja) | 信号記録方法、信号記録装置、記録媒体および信号処理方法 | |
JP3297238B2 (ja) | 適応的符号化システム及びビット割当方法 | |
JP2000029498A (ja) | デジタルオーディオ信号のミキシング方法およびミキシング装置 | |
JP2002351500A (ja) | ディジタルデータの符号化方法 | |
JP3528260B2 (ja) | 符号化装置及び方法、並びに復号化装置及び方法 | |
JP2000347697A (ja) | 音声記録再生装置および記録媒体 | |
JP2001267928A (ja) | オーディオデータ圧縮装置、及び記憶媒体 | |
JP2002534039A (ja) | オーディオエンコード装置において固定マスキング閾値を効果的に実現する装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20060606 |