JP2002196792A - 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム - Google Patents

音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム

Info

Publication number
JP2002196792A
JP2002196792A JP2000391855A JP2000391855A JP2002196792A JP 2002196792 A JP2002196792 A JP 2002196792A JP 2000391855 A JP2000391855 A JP 2000391855A JP 2000391855 A JP2000391855 A JP 2000391855A JP 2002196792 A JP2002196792 A JP 2002196792A
Authority
JP
Japan
Prior art keywords
scale factor
factor band
maximum scale
band
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000391855A
Other languages
English (en)
Inventor
Yasuhito Watanabe
泰仁 渡邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2000391855A priority Critical patent/JP2002196792A/ja
Priority to DE60106717T priority patent/DE60106717T2/de
Priority to EP01128475A priority patent/EP1220203B1/en
Priority to US10/036,718 priority patent/US6915255B2/en
Priority to CNB011338172A priority patent/CN1310431C/zh
Publication of JP2002196792A publication Critical patent/JP2002196792A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 MPEG2オーディオ符号化方式AAC方式
等で符号化する際に、少ない演算量で、かつより高音質
な符号化を実現することができる音声符号化方式を提供
すること。 【解決手段】 窓長および符号化モードの指定情報に基
づいて複数のスケールファクタバンドとその閾値情報を
初期設定し、そのスケールファクタバンドのうち符号化
する周波数帯域を特定する最大スケールファクタバンド
を、入力信号の周波数分布を分析した結果および聴覚心
理モデルに基づいて算出することにより、入力信号の周
波数特性およびビットレートやサンプリング周波数等の
符号化条件に応じて、符号化する周波数帯域を適応的に
算出するように構成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声符号化方式、
音声符号化方法およびそれを用いる音声符号化装置、記
録媒体、ならびに音楽配信システムに関し、特にMPE
G(Moving Picture Experts Group)オーディオ規格で
採用されている時間周波数変換符号化を用いる音声符号
化方式、音声符号化方法、音声符号化装置、および前記
音声符号化方法を実行ためのプログラムを格納した記録
媒体、ならびにその音声符号化方式または装置を構成要
素とする音楽配信システムに関するものである。
【0002】
【従来の技術】従来、音声符号化には、統計的性質を利
用して符号化を行うエントロピー符号化や、人間の知覚
特性を利用して不要な細部情報を削減していく知覚符号
化が利用されているが、MPEGオーディオ規格では後
者が積極的に利用されている。例えば、人間の聴覚での
最小可聴限界以下の音や、マスキング効果により聞き取
れなくなる周波数帯域の音を省略する等した圧縮方法が
採用されている。
【0003】この種のデジタルオーディオ信号を符号化
する際に、符号化する周波数帯域を設定する場合は、入
力信号のサンプリング周波数あるいは窓長(ロングフレ
ーム・ショートフレーム)に応じて、固定の値を割り当
てていた。ここで、MPEG2オーディオ規格準拠の音
声符号化方式を例にとり、その動作を説明する。 図1
8は、MPEG2オーディオ規格AAC(Advanced Aud
io Coding)準拠の音声符号化方式における、最大スケ
ールファクタバンド値(maxSfb)の一例のデータ
を示すテーブルである。このテーブルは、入力信号のサ
ンプリング周波数に対するロングフレーム、ショートフ
レームそれぞれについて最大スケールファクタバンド値
を割り当てたものである。
【0004】図19は、従来例の音声符号装置のブロッ
ク図である。この音声符号化装置は、FFT分析手段3
00、窓長分析手段310、入力信号情報320、聴覚
心理分析手段330、最大スケールファクタバンド値
(図中ではmaxSfbと記す)算出手段340、前記
最大スケールファクタバンド値(maxSfb)を格納
したテーブル350、スペクトル処理手段360、およ
び量子化/符号化手段370を含んで構成されている。
【0005】この音声符号化装置に入力されるデジタル
オーディオ信号は、窓長分析手段310により分析さ
れ、入力信号が定常な信号の場合にはロングフレーム
と、入力信号が過渡的な信号の場合にはショートフレー
ムと分析される。この窓長分析手段310の分析結果
は、符号化モードを指定する手段320より得られた入
力信号のサンプリング周波数と共に、最大スケールファ
クタバンド算出手段340に取り込まれる。この最大ス
ケールファクタバンド算出手段340は、入力内容に応
じて最大スケールファクタバンド(maxSfb)係数
テーブル350を参照し、最大スケールファクタバンド
値(maxSfb)を設定する算出処理を実行する。
【0006】一方、入力デジタルオーディオ信号は、F
FT分析手段300において、高速フーリエ変換(FF
T:Fast Fourier Transform)され、その結果を用い
て、聴覚心理分析手段330により人間の聴覚心理モデ
ルに基づくスケールファクタバンドごとの信号対マスク
比(SMR;Signal to Masking Ratio)値が算出され
る。そして、この信号対マスク比(SMR)および最大
スケールファクタバンド値(maxSfb)等の情報を
用いて、スペクトル処理手段360がMDCT(Modifi
ed Discrete Cosine Transform;変形離散コサイン変
換)処理やTNS(Temporal Noise Shaping;時間領域
雑音形状化処理)等のスペクトル処理を実行し、次い
で、処理量子化/符号化手段370が量子化/符号化を
行うようになっている。
【0007】
【発明が解決しようとする課題】しかしながら、以上の
ように構成された従来の音声符号化方式では、符号化す
る周波数帯域を特定する最大スケールファクタバンド
(maxSfb)の値が予め設定された固定値であるた
め、例えば低周波数域にのみ信号が偏っているような場
合にも最大スケールファクタバンド(maxSfb)ま
で、演算処理および量子化/符号化処理を行うことにな
るため、演算量の増加および符号化に必要な符号量が増
加することになっていた。そのため、特に音楽配信シス
テムにおいて、無駄な符号化演算および符号量が多くな
り、その結果として音質向上が容易でなかった。
【0008】本発明は、上記のような従来の問題点に鑑
みてなされたもので、符号化する周波数帯域を入力信号
の周波数特性に応じて適応的に変化させることにより、
演算量を削減し、符号量を有効に活用することができる
音声符号化方式、音声符号化方法およびその措置、その
音声符号化方式を実現するためのプログラムを格納した
コンピュータ読取可能な記録媒体、ならびに音楽配信シ
ステムを提供することを目的とする。
【0009】
【課題を解決するための手段】上記課題を解決するた
め、本発明の音声符号化方式は、入力信号を複数のスケ
ールファクタバンドに分割するとともに、所定の聴覚心
理モデルに基づいて前記スケールファクタバンドごとに
符号化を行う音声符号化方式であって、前記入力信号が
定常的な信号であるか過渡的な信号であるかにより前記
入力信号の符号化フレームを特定する窓長を分析する窓
長分析手段と、前記入力信号を高速フーリエ変換するF
FT分析手段と、符号化モードを決定するための符号化
モード情報を指定する符号化モード情報指定手段と、前
記入力信号を高速フーリエ変換した結果および前記聴覚
心理モデルに基づいて、前記入力信号に対する信号対マ
スク比を算出する聴覚心理分析手段と、符号化する周波
数帯域を特定する最大スケールファクタバンドを算出す
る最大スケールファクタバンド算出手段と、前記最大ス
ケールファクタバンドを算出するための係数を格納した
最大スケールファクタバンド係数テーブルを記憶する最
大スケールファクタバンドテーブル記憶手段と、前記窓
長および前記符号化モード情報に基づいて、前記最大ス
ケールファクタバンドを算出するために必要な初期値を
算出する最大スケールファクタバンド初期値算出手段
と、前記FFT分析手段からのデータおよび前記最大ス
ケールファクタバンドの算出値に基づいて前記入力信号
のスペクトル処理を行うスペクトル処理手段と、前記ス
ペクトル処理がされたデータを前記スケールファクタバ
ンドごとに量子化および符号化する量子化/符号化手段
とを備え、前記入力信号に応じて適応的に前記最大スケ
ールファクタバンドを算出するようにしたことを特徴と
するものである。この構成により、入力信号に応じて最
大スケールファクタバンドを適応的に算出することで、
符号化する周波数帯域を常に必要な帯域に割当てて、符
号化のために無駄な演算量を削減し、符号量を有効に活
用することができる音声符号化方式を容易に実現するこ
とができる。上記音声符号化方式においては、前記最大
スケールファクタバンドは、前記符号化モード情報から
得られるビットレートおよびサンプリング周波数に応
じ、前記最大スケールファクタバンド係数テーブルを参
照することにより設定されるのが好ましい。この構成に
より、符号化モードに適した最大スケールファクタバン
ドの設定が可能となる。
【0010】また、前記最大スケールファクタバンド
は、前記符号化モード情報より得られるチャンネル数に
応じ、前記最大スケールファクタバンド係数テーブルを
参照することにより設定されるのが、より好ましい。こ
の構成により、入力信号のチャンネル数をも考慮して、
その符号化モードにより適した最大スケールファクタバ
ンドの設定が可能となる。
【0011】また、上記音声符号化方式においては、前
記窓長および前記符号化モード情報に応じた所定の複数
の閾値を格納した閾値テーブルを記憶する閾値テーブル
記憶手段を有し、前記最大スケールファクタバンド算出
手段は、前記最大スケールファクタバンド係数テーブル
を参照することにより設定されるいずれか1つの最大ス
ケールファクタバンドにおける、前記聴覚心理分析手段
で算出された信号対マスク比と、前記窓長および前記符
号化モード情報に応じて前記閾値テーブルを参照するこ
とにより設定された閾値とを比較し、前記算出された信
号対マスク比が前記設定された閾値より小さい場合には
前記最大スケールファクタバンドを1ずつ下げていき、
前記算出された信号対マスク比が前記設定された閾値よ
り大きな値をとるスケールファクタバンドになる1つ前
のスケールファクタバンドを現在の符号化フレームの最
大スケールファクタバンドとするものであるのがよい。
この構成により、マスキング閾および臨界帯域を常に好
適に保って無駄な符号化処理を省き、符号化効率を高め
ることができる。
【0012】あるいは、上記音声符号化方式において
は、前記窓長および前記符号化モード情報に応じた所定
の複数の閾値を格納した閾値テーブルを記憶する閾値テ
ーブル記憶手段を有し、前記最大スケールファクタバン
ド算出手段は、前記最大スケールファクタバンド係数テ
ーブルを参照することにより設定されるいずれか1つの
最大スケールファクタバンドにおける、前記入力信号の
スペクトルのエネルギー値を算出し、その算出値と前記
窓長および前記符号化モード情報に応じて前記閾値テー
ブルを参照することにより設定された閾値とを比較し、
前記エネルギー値が前記設定された閾値より小さい場合
には前記最大スケールファクタバンドを下げていき、前
記エネルギー値が前記設定された閾値より大きな値をと
るスケールファクタバンドになる1つ前のスケールファ
クタバンドを現符号化フレームの最大スケールファクタ
バンドとするものであってもよい。この構成によって
も、マスキング閾および臨界帯域を常に好適に保って無
駄な符号化処理を省き、符号化効率を高めることができ
る。
【0013】前記所定の閾値は、前記符号化モード情報
のうちビットレートを参照することにより決定されるの
がよい。さらに、前記所定の閾値は、前記符号化モード
情報のうち入力のサンプリング周波数をも参照すること
により決定されるものであってもよく、前記符号化フレ
ームの窓長をも参照することにより決定されるものであ
ってもよい。また、前記所定の閾値は、前記符号化モー
ド情報のうちチャンネル数をも参照することにより決定
されるものであってもよい。このような構成により、符
号化モードに応じてきめ細かに閾値を設定することがで
き、演算量の削減効果をより高めることができる。
【0014】また、上記音声符号化方式においては、前
記窓長分析手段により前記入力信号が過渡的であること
が分析され、ビットレートが所定値より高く、前記スケ
ールファクタバンドのそれぞれに割付け可能なビット数
が所定値を超えて十分にある状態において、前記最大ス
ケールファクタバンド算出手段が算出した最大スケール
ファクタバンドが所定の最小スケールファクタバンドよ
り低い場合には、最大スケールファクタバンドの設定値
を算出した値より所定の増分だけ上げるようにするのが
好ましい。このような構成により、削減した周波数帯域
の符号量(ビット割付量)を、音質に影響する周波数帯
域の符号化に有効活用して、音質を向上させることがで
きる。
【0015】一方、本発明の音声符号化方法は、サンプ
リングした入力信号のデータを複数の周波数帯域のスケ
ールファクタバンドに分割して、所定の聴覚心理モデル
に基づき、符号化する周波数帯域を制限しながら、その
周波数帯域内のスケールファクタバンドごとに符号化を
行う音声符号化方法であって、前記入力信号が定常的な
信号であるか過渡的な信号であるかにより前記入力信号
の符号化フレームを特定する窓長を分析する窓長分析ス
テップと、前記窓長および符号化モードの指定情報に基
づいて前記スケールファクタバンドの周波数帯域順に複
数のスケールファクタバンドを設定するとともに、所定
の閾値の情報に基づいて、前記スケールファクタバンド
のうち前記符号化する周波数帯域を特定する最大スケー
ルファクタバンドを初期設定する初期設定ステップと、
前記入力信号の周波数分布を分析した結果および前記聴
覚心理モデルに基づいて、前記最大スケールファクタバ
ンドを算出する最大スケールファクタバンド算出ステッ
プと、前記最大スケールファクタバンドにより制限され
た周波数帯域幅内で、前記スケールファクタバンドごと
のスペクトル処理を実行するスペクトル処理ステップ
と、前記スペクトル処理後のデータを量子化および符号
化処理する符号化処理ステップとを含むことを特徴とす
る。この構成により、入力信号に応じて最大スケールフ
ァクタバンドを適応的に算出することで、符号化する周
波数帯域を常に必要な帯域に割当てて、符号化のために
無駄な演算量を削減し、符号量を有効に活用することが
できる。
【0016】上記音声符号化方法においては、前記最大
スケールファクタバンド算出ステップに先立って前記入
力信号の周波数分布を分析するとともに、前記スケール
ファクタバンドごとに前記聴覚心理モデルに基づく信号
対マスク比を算出し、その信号対マスク比と前記所定の
閾値とに基づいて前記最大スケールファクタバンドを決
定することが好ましい。この構成により、マスキング閾
および臨界帯域を常に好適に保って無駄な符号化処理を
省き、符号化効率を高めることができる。
【0017】また、前記最大スケールファクタバンド算
出ステップに先立って前記入力信号の周波数分布を分析
するとともに、前記スケールファクタバンドごとにスペ
クトルのエネルギー値を算出し、そのエネルギー値と前
記閾値とに基づいて前記最大スケールファクタバンドを
決定するのが好ましい。この構成により、マスキング閾
および臨界帯域を常に好適に保って無駄な符号化処理を
省き、符号化効率を高めることができる。
【0018】本発明の音声符号化装置は、上記音声符号
化方法を用いて音声符号化を行うものであり、かかる構
成により、入力信号に応じて最大スケールファクタバン
ドを適応的に算出することで、符号化する周波数帯域を
常に好適にして無駄な演算量を削減し、符号量を有効に
活用することができる音声符号化装置となる。
【0019】本発明の記録媒体は、上記音声符号化方法
の各ステップを実現するためのプログラムが記録されて
いるコンピュータ読取可能なものである。この構成によ
り、記録媒体の読取が可能なハードウェア資源を用いて
上記音声符号化方法の各ステップの処理を実行すること
ができ、当該方法の効果を得ることができる。
【0020】本発明の音楽配信システムは、上記音声符
号化方式または音声符号化装置を構成要素とするもので
あり、かかる構成によって、上記音声符号化方式または
音声符号化装置による音声符号化を実行し、高符号化効
率で音質の優れた音楽の配信を行うことができる音楽配
信システムとなる。
【0021】
【発明の実施の形態】以下、本発明の好ましい実施の形
態について、図面に基づき説明する。 (実施の形態1)本発明の実施の形態1にかかる音声符
号化方式および装置について、図1〜図8を参照しなが
ら説明する。
【0022】本実施形態の音声符号化装置においては、
図1に概略のブロック構成を示すように、デジタルオー
ディオ信号である入力信号はFFT分析手段100に入
力され、ここで高速フーリエ変換(FFT:Fast Fouri
er Transform)され、入力信号の周波数分布が分析され
る。入力信号はまた窓長分析手段110にも入力され、
ここでその入力信号が定常的な信号である場合にはロン
グフレームの入力信号ブロックと、その入力信号が過渡
的な信号である場合にはショートフレームの入力信号ブ
ロックと分析される。これにより、現在の入力信号に適
した符号化フレームの長さが判定されることになる。
【0023】また、入力信号のサンプリング周波数やビ
ットレート等のような符号化に必要な情報は、符号化モ
ードを指定する情報として符号化モード情報指定手段1
20により指定入力される。この指定入力は、予めユー
ザーが符号化モード情報指定手段120に操作入力する
ことで行われる。
【0024】FFT分析手段100の出力は聴覚心理分
析手段130に与えられ、この聴覚心理分析手段130
により公知の人間の聴覚心理モデルに基づく、信号対マ
スク比(SMR)の値を算出する処理がなされる。この
SMR値は、各周波数帯域のスケールファクタバンドご
とに割り当てられるもので、各周波数領域のスケールフ
ァクタバンドの信号レベルとマスキングレベルの比の対
数値として与えられるものである。
【0025】一方、窓長分析手段110で分析された窓
長と、符号化モード情報指定手段120に指定入力され
た情報、例えばサンプリング周波数は、最大スケールフ
ァクタバンド(maxSfb)初期値設定手段140に
入力され、ここで最大スケールファクタバンド(max
Sfb)の初期値が算出される。この最大スケールファ
クタバンド初期値設定手段140による算出処理は、最
大スケールファクタバンド値(maxSfb)算出に必
要な初期値および信号対マスク比(SMR)閾値を記録
している最大スケールファクタバンド(maxSfb)
係数テーブル記憶手段180を参照しながら、後述する
手順で実行される。なお、図2に示すように、最大スケ
ールファクタバンド係数テーブル記憶手段180には、
後述する最大スケールファクタバンド初期値テーブル4
10および信号対マスク比(SMR)閾値テーブル42
0が記憶されている。
【0026】最大スケールファクタバンド初期値設定手
段140からの初期値情報と聴覚心理分析手段130に
より算出されたSMR値とは、それぞれ最大スケールフ
ァクタバンド適応算出手段150に入力され、ここで最
大スケールファクタバンド(maxSfb)が入力信号
の特性に応じて適応的に算出される。
【0027】そして、最大スケールファクタバンド適応
算出手段150で算出された最大スケールファクタバン
ド(maxSfb)と聴覚心理分析手段130により算
出されたSMR値に基づいて、スペクトル処理手段16
0でMDCT処理やTNS処理等のスペクトル処理が行
われ、その処理後のデータが量子化/符号化手段170
によって量子化され、符号化データとして出力される。
【0028】なお、上記のような音声符号化装置の構成
は、例えばサウンドカードを内蔵したパーソナルコンピ
ュータのROMや記録媒体(例えばハードディスクドラ
イブ)に、上記各手段の機能を実現するためのプログラ
ムを格納し、そのパーソナルコンピュータのCPUがR
AM等との間で適宜データを授受しながら、後述する一
連の符号化処理を実行するようにすることができる。も
ちろん、音楽配信用の専用の音声符号化装置にすること
で、より複雑な符号化モード設定や高音質の符号化処理
を行うこともできる。
【0029】次に、本実施形態における音声符号化装置
の動作とその音声符号化方法について説明するととも
に、データテーブル等の詳細構成について説明する。
【0030】まず、入力デジタルオーディオ信号が窓長
分析手段110に入力されると、この窓長分析手段11
0により、入力信号が定常な信号の場合にはロングフレ
ームの入力信号ブロックと、過渡的な信号の場合にはシ
ョートフレームの入力信号ブロックと分析される。 ま
た、入力デジタルオーディオ信号は、FFT分析手段1
00において、高速フーリエ変換され、この結果を用い
て、聴覚心理分析手段130により人間の聴覚心理モデ
ルに基づく、信号対マスク比(SMR)の値が算出され
る。この信号対マスク比(SMR)により、各スケール
ファクタバンドについて、マスキング効果によるマスキ
ング閾値のレベルを超える範囲で、かつそのスケールフ
ァクタバンドのピークレベルまでの範囲が各スケールフ
ァクタバンドのスケールファクタとして特定される。
また、最大スケールファクタバンド初期値設定手段14
0により、窓長分析手段110の分析結果および符号化
モード情報指定手段120より得られた符号化ビットレ
ートや入力信号のサンプリング周波数等の情報に応じ
て、最大スケールファクタバンド係数テーブル記憶手段
180が参照され、最大スケールファクタバンド(ma
xSfb)初期値が設定される。
【0031】このように、最大スケールファクタバンド
初期値設定手段140は、外部から指定された符号化モ
ード情報指定手段120よりの情報に応じて、最大スケ
ールファクタバンド係数テーブル記憶手段180を参照
して、最大スケールファクタバンド(maxSfb)初
期値および信号対マスク比(SMR)閾値を算出する
が、本実施形態では、例えば、最大スケールファクタバ
ンド(maxSfb)初期値を42、信号対マスク比
(SMR)閾値を1.0とする。
【0032】次いで、最大スケールファクタバンド適応
算出手段150により、上記最大スケールファクタバン
ド(maxSfb)の初期値および上述の信号対マスク
比(SMR)の値を用いて、最大スケールファクタバン
ド(maxSfb)値が設定されると、この最大スケー
ルファクタバンド(maxSfb)値および信号対マス
ク比(SMR)等の情報を用いて、スペクトル処理手段
160によりMDCT処理やTNS処理等のスペクトル
処理が行われ、次いで、量子化/符号化手段170によ
って量子化/符号化処理が実行される。 本実施形態で
は、スケールファクタバンドごとにSMR値を算出して
符号化を行う時間周波数変換符号化方式を用いるが、本
発明は、聴覚心理モデルを利用した各スケールファクタ
バンド信号に対するビット割当ての処理(スケールファ
クタバンド信号ごとのスケールファクタに人間の聴覚特
性に基づいた重み付けを行う処理)に注目したものでは
なく、周波数帯域順(図3中では、最も低周波数側のS
fb「0」から最も高周波数側のSfb「42」までの
順)に設定されたスケールファクタバンドのうち、最大
スケールファクタバンドの適応的な変化によって、符号
化する周波数帯域を最適に保ち、無駄な符号化演算を削
減する。
【0033】そのための最大スケールファクタバンド
(maxSfb)適応算出手段150における算出処理
内容について、図3を参照して説明する。この図3は、
複数のスケールファクタバンドについて、聴覚心理分析
手段130により人間の聴覚心理モデルに基づいて算出
された信号対マスク比(SMR)値と、その信号対マス
ク比(SMR)についての閾値(所定の閾値)とを示し
たグラフである。
【0034】最大スケールファクタバンド適応算出手段
150は、最大スケールファクタバンド(maxSf
b)初期値における信号対マスク比(SMR)値と信号
対マスク比(SMR)の閾値とを比較し、信号対マスク
比(SMR)値が信号対マスク比(SMR)の閾値より
も小さい場合には、最大スケールファクタバンド(ma
xSfb)値を1下げる。次いで、1下げた最大スケー
ルファクタバンド(maxSfb)における信号対マス
ク比(SMR)値と信号対マスク比(SMR)閾値とを
比較し、信号対マスク比(SMR)値が信号対マスク比
(SMR)閾値よりも小さいときには、最大スケールフ
ァクタバンド(maxSfb)値を1下げる。
【0035】以上の動作を繰り返し行い、信号対マスク
比(SMR)値が信号対マスク比(SMR)の閾値より
も大きくなった時のスケールファクタバンドに1を足
し、その値を現フレームの最大スケールファクタバンド
(maxSfb)値とする。
【0036】図3においては、信号対マスク比(SM
R)値が信号対マスク比(SMR)の閾値よりも大きく
なった時のスケールファクタバンドが38であるため、
最大スケールファクタバンド(maxSfb)は39と
なる。
【0037】次に、上記最大スケールファクタバンド初
期値テーブル410の構成について説明する。図4およ
び図5は最大スケールファクタバンド初期値テーブル4
10に格納されている情報の例を示す。この最大スケー
ルファクタバンド初期値テーブル410は、最大スケー
ルファクタバンド(maxSfb)初期値を記憶したも
のであって、上記符号化モード情報より入力される「ビ
ットレート」、「サンプリング周波数」、「チャンネル
数」、「窓長」を考慮して設定されている。図4(a)
は「窓長」がロングフレーム、「チャンネル数」が2
(ステレオ)の場合のテーブルであり、図4(b)は
「窓長」がショートフレーム、「チャンネル数」が2
(ステレオ)の場合のテーブルであり、図5(a)は
「窓長」がロングフレーム、「チャンネル数」が1(モ
ノラル)の場合のテーブルであり、図5(b)は「窓
長」がショートフレーム、「チャンネル数」が1(モノ
ラル)の場合のテーブルである。
【0038】最大スケールファクタバンド初期値テーブ
ル410は、人間の耳に対して比較的感度の低い高帯域
においては、符号化をし難くするように設定する。例え
ば、「ビットレート」が低くなり、使用可能なビットが
少なくなる場合には、最大スケールファクタバンド(m
axSfb)初期値を下げて、高帯域の符号化をし難く
し、人間の耳に比較的感度の高い低周波数にビットを優
先的に使用する。また「サンプリング周波数」が低くな
った場合は、フレーム長が長くなり、使用可能ビットが
多くなるため、高帯域の符合化をしやすいように最大ス
ケールファクタバンド(maxSfb)初期値を上げ、
音質を向上させる。また、「チャンネル数」が少ない場
合には、1フレームにおける使用ビット数が少なくなる
ため、最大スケールファクタバンド(maxSfb)初
期値をあげ、音質を向上させる。また、「窓長」がショ
ートフレームの場合は、入力音源が過渡的な音源である
ため、高帯域のエネルギーが多くなるため、最大スケー
ルファクタバンド(maxSfb)初期値をあげること
により音質を向上させる。
【0039】次に、上記信号対マスク比閾値テーブル
(以下、SMR閾値テーブルという)420の構成につ
いて説明する。図6および図7はSMR閾値テーブル4
20に格納されている情報の例を示している。このSM
R閾値テーブル420は、最大スケールファクタバンド
(maxSfb)の算出に必要な信号対マスク比(SM
R)の閾値を記憶したものであって、上記符号化モード
情報のうち「ビットレート」、「サンプリング周波
数」、「チャンネル数」、「窓長」を考慮してそれぞれ
の閾値が設定されている。ここで、図6(a)は「窓
長」がロングフレーム、「チャンネル数」が2(ステレ
オ)の場合のテーブルであり、図6(b)は「窓長」が
ショートフレーム、「チャンネル数」が2(ステレオ)
の場合のテーブルであり、図7(a)は「窓長」がロン
グフレーム、「チャンネル数」が1(モノラル)の場合
のテーブルであり、図7(b)は「窓長」がショートフ
レーム、「チャンネル数」が1(モノラル)の場合のテ
ーブルである。
【0040】SMR閾値テーブル420は、最大スケー
ルファクタバンド初期値テーブル410と同様に、人間
の耳に対して比較的感度の低い高帯域においては、使用
可能ビットが少ない場合に符号化をし難くするように設
定されている。
【0041】具体的には、例えば、「ビットレート」が
低くなり、使用可能なビットが少なくなる場合には、信
号対マスク比(SMR)閾値を上げ、高帯域の符号化を
し難くし、人間の耳に比較的感度の高い低周波数にビッ
トを優先的に使用する。また「サンプリング周波数」が
低くなった場合は、フレーム長が長くなり、使用可能ビ
ットが多くなるため、高帯域の符合化をしやすいように
信号対マスク比(SMR)閾値を下げて、音質を向上さ
せる。また「チャンネル数」が少ない場合には、1フレ
ームにおける使用ビット数が少なくなるため、信号対マ
スク比(SMR)閾値を下げて、音質を向上させる。ま
た、「窓長」がショートフレームの場合は、入力音源が
過渡的な音源であって高帯域のエネルギーが多くなるた
め、信号対マスク比(SMR)閾値を下げることにより
音質を向上させる。
【0042】次に図8のフローチャートを参照して、本
発明の音声符号化方法の一実施形態を上記装置のソフト
ウェアで実現する場合の処理の流れを説明する。同図に
おいて、まず、入力デジタルオーディオ信号は、ステッ
プS110において窓長分析手段110により、入力信
号が定常な信号の場合にはロングフレームと分析され、
過渡的な信号の場合にはショートフレームと分析され
る。
【0043】一方、入力デジタルオーディオ信号は、ス
テップS100においてFFT分析手段100によっ
て、高速フーリエ変換(FFT)され、この結果を用い
て、聴覚心理分析手段130により人間の聴覚心理モデ
ルに基づく、信号対マスク比(SMR)値が算出される
(ステップS130)。
【0044】次いで、ステップS140において、最大
スケールファクタバンド初期値設定手段140は、ステ
ップS110における窓長分析手段110の分析結果お
よび外部からの制御情報である符号化モード情報指定手
段120より得られた(ステップS120)符号化ビッ
トレートや入力信号のサンプリング周波数等の情報よ
り、最大スケールファクタバンド係数テーブル記憶手段
180を参照し、最大スケールファクタバンド(max
Sfb)の初期値および信号対マスク比(SMR)の閾
値を設定する。
【0045】次にステップS150において、最大スケ
ールファクタバンド(maxSfb)適応算出手段15
0は、最大スケールファクタバンド(maxSfb)初
期値における信号対マスク比(SMR)値と信号対マス
ク比(SMR)閾値とを比較し(ステップS151)、
最大スケールファクタバンド(maxSfb)初期値に
おける信号対マスク比(SMR)値が、信号対マスク比
(SMR)閾値より小さい場合には、最大スケールファ
クタバンド(maxSfb)を1下げ(ステップS15
2)、ステップS151に戻る。
【0046】次ステップS151において、最大スケー
ルファクタバンド(maxSfb)における信号対マス
ク比(SMR)値が、信号対マスク比(SMR)閾値よ
り大きくなると、最大スケールファクタバンド(max
Sfb)を1上げる(ステップS153)。次にステッ
プS160において、スペクトル処理手段160は、M
DCT処理やTNS処理等のスペクトル処理を行い、ス
テップS170において量子化/符号化手段170によ
って量子化/符号化が行われる。
【0047】上記のように、本実施形態においは、入力
信号に応じて最大スケールファクタバンドを適応的に算
出することで、符号化する周波数帯域を常に好適にする
ことができる。したがって、人間の耳に聞こえ難く符号
化に無駄となるスケールファクタバンドにおける演算量
を削減することができ、符号量を有効に活用できる音声
符号化方式を実現することができる。また、最大スケー
ルファクタバンドは、符号化モード情報指定手段120
から得られるビットレートおよびサンプリング周波数に
応じて、最大スケールファクタバンド係数テーブル記憶
手段180を参照することにより設定されるので、符号
化モードに適した最大スケールファクタバンドの設定が
可能となる。さらに、最大スケールファクタバンドの算
出に符号化モード情報より得られるチャンネル数をも考
慮するので、その符号化モードにより適した最大スケー
ルファクタバンドの設定ができる。
【0048】また、本実施形態においては、最大スケー
ルファクタバンド適応算出手段150が、最大スケール
ファクタバンド係数テーブル記憶手段180を参照する
ことで設定されるいずれか1つの最大スケールファクタ
バンドにおいて、前記聴覚心理分析手段130で算出さ
れた信号対マスク比(SMR)と、窓長および符号化モ
ード情報に応じてSMR閾値テーブル420を参照する
ことにより設定された閾値とを比較し、算出された信号
対マスク比(SMR)が設定されたSMR閾値より小さ
い場合には最大スケールファクタバンド(Sfb)を1
ずつ下げていき、算出された信号対マスク比(SMR)
が設定されたSMR閾値より大きな値をとるスケールフ
ァクタバンド(Sfb)になる1つ前のスケールファク
タバンドを現在の符号化フレームの最大スケールファク
タバンドとする。したがって、マスキング閾を常に好適
に保つよう臨界帯域を適応的に制御し、無駄な符号化処
理を省き、符号化効率を高めることができる。
【0049】(実施の形態2) 次に、本発明の実施の
形態2にかかる音声符号化方式および装置について、図
9〜図12を参照しながら説明する。
【0050】図9は実施の形態2にかかる音声符号化装
置のブロック図である。
【0051】同図において、デジタルオーディオ信号で
ある入力信号は、この入力信号を高速フーリエ変換(F
FT:Fast Fourier Transform)するFFT分析手段8
00に入力され、スペクトル情報が得られる。このFF
T分析手段800の出力は聴覚心理分析手段830に入
力され、そこで人間の聴覚心理モデルに基づき、信号対
マスク比(SMR)値を算出する聴覚心理分析処理が実
行される。
【0052】入力信号は、また、窓長分析手段810に
も入力され、入力信号が定常な信号の場合にはロングフ
レームの信号ブロックと、過渡的な信号の場合にはショ
ートフレームの信号ブロックと分析される、さらに、入
力信号のサンプリング周波数やビットレート等の符号化
に必要な情報が符号化モード情報指定手段820で指定
入力され、そこで設定された符号化モード情報が窓長分
析手段810の出力と共に、最大スケールファクタバン
ド(maxSfb)初期値設定手段840に入力され
る。この最大スケールファクタバンド(maxSfb)
初期値設定手段840は、入力情報を基に最大スケール
ファクタバンド(maxSfb)係数テーブル記憶手段
880を参照し、最大スケールファクタバンド(max
Sfb)初期値を設定する算出処理を行う。
【0053】また、FFT分析手段800からのスペク
トル情報と、最大スケールファクタバンド(maxSf
b)初期値設定手段840からの初期値設定情報とに基
づいて、最大スケールファクタバンド(maxSfb)
適応算出手段850が最大スケールファクタバンド(m
axSfb)を入力信号の特性に応じて適応的に算出す
る。そして、算出された最大スケールファクタバンド
(maxSfb)と聴覚心理分析手段830で算出され
た信号対マスク比(SMR)値に基づいて、スペクトル
処理手段860によりMDCT処理やTNS処理等のス
ペクトル処理が実行され、処理量子化/符号化手段87
0により量子化/符号化される。ここで、最大スケール
ファクタバンド(maxSfb)係数テーブル記憶手段
880には、最大スケールファクタバンド値(maxS
fb)算出に必要な初期値およびエネルギー閾値が記録
されている。
【0054】次に本実施の形態における音声符号化装置
の動作について説明する。まず、入力デジタルオーディ
オ信号が、窓長分析手段810により入力信号が定常な
信号の場合にはロングフレーム、過渡的な信号の場合に
はショートフレームと分析される。一方、入力デジタル
オーディオ信号が、FFT分析手段800において、高
速フーリエ変換(FFT:Fast Fourier Transform)さ
れ、この結果を用いて、聴覚心理分析手段830により
人間の聴覚心理モデルに基づく、信号対マスク比(SM
R)値が算出される。
【0055】次に、最大スケールファクタバンド(ma
xSfb)初期値設定手段840により、窓長分析手段
810の分析結果および符号化モード情報指定手段82
0からの符号化ビットレートや入力信号のサンプリング
周波数等の符号化モード情報(外部からの制御情報)に
応じて、最大スケールファクタバンド(maxSfb)
係数テーブル記憶手段880の対応するデータが参照さ
れ、最大スケールファクタバンド(maxSfb)の初
期値が設定される。
【0056】さらに、最大スケールファクタバンド(m
axSfb)適応算出手段850により、前記最大スケ
ールファクタバンド(maxSfb)初期値およびFF
T分析手段800において算出されたスペクトル情報か
ら、最大スケールファクタバンド(maxSfb)値を
設定する算出処理がなされる。
【0057】次いで、この最大スケールファクタバンド
(maxSfb)値および信号対マスク比(SMR)等
の情報を用いて、スペクトル処理手段860によりMD
CT処理やTNS処理等のスペクトル処理が行われ、そ
の出力に基づいて処理量子化/符号化手段870で量子
化/符号化の処理がなされる。
【0058】上記最大スケールファクタバンド(max
Sfb)の初期値設定では、外部からの制御情報である
符号化モード情報指定手段820からの指定情報に応じ
て、最大スケールファクタバンド(maxSfb)係数
テーブル記憶手段880を参照することにより、最大ス
ケールファクタバンド(maxSfb)初期値およびエ
ネルギー閾値が算出されるが、本実施の形態では、各ス
ケールファクタバンド内のエネルギー値を算出し、これ
を予め設定したエネルギー閾値と比較するようになって
いる。
【0059】具体的には、図10に示すように、最大ス
ケールファクタバンド(maxSfb)の初期値を42
とし、エネルギー閾値を100、000としている。
次に、最大スケールファクタバンド(maxSfb)適
応算出手段850の算出処理について説明する。まず、
上記FFT分析手段800より算出されたスペクトルsp
ectral[i]から、下記の数式1に示すように、各サブバ
ンドのエネルギー値energy[sfb]を算出する。
【数1】
【0060】次に、図10を参照して、最大スケールフ
ァクタバンド(maxSfb)適応算出手段850の動
作について説明する。
【0061】図10は、各スケールファクタバンドのエ
ネルギー値および上述のエネルギー閾値を示したもので
ある。最大スケールファクタバンド(maxSfb)適
応算出手段150は、最大スケールファクタバンド(m
axSfb)初期値におけるエネルギー値とエネルギー
閾値とを比較し、スケールファクタバンドのエネルギー
値がエネルギー閾値よりも小さいときには、最大スケー
ルファクタバンド(maxSfb)値を1下げる。次
に、1下げた最大スケールファクタバンド(maxSf
b)におけるエネルギー値とエネルギー閾値とを比較
し、スケールファクタバンドのエネルギー値がエネルギ
ー閾値よりも小さいときには、最大スケールファクタバ
ンド(maxSfb)値を1下げる。
【0062】以上の動作を繰り返し行い、スケールファ
クタバンドのエネルギー値がエネルギー閾値よりも大き
くなった時のスケールファクタバンドに1足した値を現
フレームの最大スケールファクタバンド(maxSf
b)値とする。
【0063】図10においては、スケールファクタバン
ドのエネルギー値がエネルギー閾値よりも大きくなった
時のスケールファクタバンドが38であるため、最大ス
ケールファクタバンド(maxSfb)は39となる。
【0064】最大スケールファクタバンド(maxSf
b)係数テーブル記憶手段880は、図2に示したもの
と同様に最大スケールファクタバンド初期値テーブル4
10および信号対マスク比(SMR)値テーブル420
で構成される。ただし、この場合の最大スケールファク
タバンド初期値テーブル410の構成が図4および図5
に示したものと同様であるのに対して、本実施形態にお
ける閾値テーブルは、図11および図12に示すよう
に、最大スケールファクタバンド(maxSfb)適応
算出手段850に必要なスケールファクタバンドごとの
エネルギー閾値を記憶したものであって、上記符号化モ
ード情報より入力される「ビットレート」、「サンプリ
ング周波数」、「チャンネル数」、「窓長」を考慮して
設定されている。この場合、図11(a)は「窓長」が
ロングフレーム、「チャンネル数」が2(ステレオ)の
場合のテーブルであり、図11(b)は「窓長」がショ
ートフレーム、「チャンネル数」が2(ステレオ)の場
合のテーブルであり、図12(a)は「窓長」がロング
フレーム、「チャンネル数」が1(モノラル)の場合の
テーブルであり、図12(b)は「窓長」がショートフ
レーム、「チャンネル数」が1(モノラル)の場合のテ
ーブルである。
【0065】この図11および図12に示す閾値テーブ
ル420Eは、最大スケールファクタバンド初期値テー
ブル410と同様に、人間の耳に対して比較的感度の低
い高帯域においては、使用可能ビットが少ない場合に
は、符号化をし難くするように設定する。例えば、「ビ
ットレート」が低くなり、使用可能なビットが少なくな
る場合には、エネルギー閾値を上げ、高帯域の符号化を
し難くし、人間の耳に比較的感度の高い低周波数にビッ
トを優先的に使用する。また「サンプリング周波数」が
低くなった場合は、フレーム長が長くなり、使用可能ビ
ットが多くなるため、高帯域の符合化をしやすいように
エネルギー閾値を下げて、音質を向上させるようになっ
ている。また「チャンネル数」が少ない場合には、1フ
レームにおける使用ビット数が少なくなるため、エネル
ギー閾値を下げ、音質を向上させる。さらに、「窓長」
がショートフレームの場合は、入力音源が過渡的な音源
であって、高帯域のエネルギーが多くなるため、エネル
ギー閾値を下げることにより音質を向上させる。
【0066】次に、図16のフローチャートを参照し
て、本発明の音声符号化方法の他の実施形態を上記装置
のソフトウェアで実現する場合の処理の流れを説明す
る。
【0067】同図に示すように、まず、入力デジタルオ
ーディオ信号は、ステップS810において窓長分析手
段810により、入力信号が定常な信号の場合にはロン
グフレーム、過渡的な信号の場合にはショートフレーム
と分析される。
【0068】一方、入力デジタルオーディオ信号は、ス
テップS800でFFT分析手段800によって高速フ
ーリエ変換(FFT:Fast Fourier Transform)され、
この結果を用いて、聴覚心理分析手段830により人間
の聴覚心理モデルに基づく、信号対マスク比(SMR)
値が算出される(ステップS830)。
【0069】次のステップS840においては、最大ス
ケールファクタバンド(maxSfb)初期値設定手段
840により、ステップS810における窓長分析手段
810の分析結果および符号化モード情報指定手段82
0から得られた(ステップS820)符号化ビットレー
トや入力信号のサンプリング周波数等より、最大スケー
ルファクタバンド(maxSfb)係数テーブル記憶手
段880を参照し、最大スケールファクタバンド(ma
xSfb)初期値およびエネルギー閾値を設定する。
【0070】次いで、ステップS850において、最大
スケールファクタバンド(maxSfb)適応算出手段
850により、FFT分析手段800で算出されたスペ
クトル情報から各スケールファクタバンド内のエネルギ
ー値が算出される(ステップS851)。
【0071】次いで、ステップS852において、最大
スケールファクタバンド(maxSfb)初期値におけ
るエネルギー値とエネルギー閾値とが比較され、スケー
ルファクタバンドのエネルギー値がエネルギー閾値より
も小さいときには、最大スケールファクタバンド(ma
xSfb)値を1下げて(ステップS853)、ステッ
プS851に戻る処理がされる。ステップS851で、
最大スケールファクタバンド(maxSfb)における
エネルギー値が、エネルギー閾値より大きくなると、最
大スケールファクタバンド(maxSfb)を1上げる
処理(ステップS854)がされる。
【0072】次いで、ステップS860に進み、スペク
トル処理手段860により、MDCT処理やTNS処理
等のスペクトル処理が実行された後、ステップS870
において、処理量子化/符号化手段870によって量子
化処理がされ、一連の符号化の処理が終了する。
【0073】上記のように、本実施形態においても、実
施の形態1と同様に、入力信号に応じて最大スケールフ
ァクタバンドを適応的に算出することで、符号化する周
波数帯域を常に好適にすることができ、演算量の削減と
符号量の有効活用を図ることができ、上述と同様な効果
を得ることができる。
【0074】また、本実施形態においては、最大スケー
ルファクタバンド適応算出手段850が、最大スケール
ファクタバンド係数テーブル記憶手段880を参照する
ことにより設定されるいずれか1つの最大スケールファ
クタバンドにおいて入力信号のスペクトルのエネルギー
値を算出した後、その算出値と前記窓長および前記符号
化モード情報に応じて記閾値テーブルを参照することに
より設定されたエネルギー閾値とを比較して、最適な最
大スケールファクタバンドに適応的に制御するので、マ
スキング閾および臨界帯域を常に好適に保って無駄な符
号化処理を省き、符号化効率を高めることができる。
【0075】(実施の形態3) 次に、本発明の実施の
形態3における音声符号化方式および装置について、図
を参照しながら説明する。図13は実施の形態1におけ
る音声符号化装置における最大スケールファクタバンド
適応算出手段のブロック図を示したものである。
【0076】図13に示す音声符号化装置は、入力デジ
タルオーディオ信号を高速フーリエ変換(FFT:Fast
Fourier Transform)するFFT分析手段1100と、
入力信号が定常な信号の場合にはロングフレーム、過渡
的な信号の場合にはショートフレームと分析する窓長分
析手段1110と、入力信号のサンプリング周波数やビ
ットレート等の符号化に必要な情報を設定するための符
号化モード情報指定手段1120と、人間の聴覚心理モ
デルに基づいて信号対マスク比(SMR)値を算出する
聴覚心理分析手段1130と、最大スケールファクタバ
ンド(maxSfb)初期値を算出する最大スケールフ
ァクタバンド(maxSfb)初期値設定手段1140
と、最大スケールファクタバンド(maxSfb)を入
力信号の特性に応じて適応的に算出する最大スケールフ
ァクタバンド(maxSfb)適応算出手段1150
と、MDCT処理やTNS処理等のスペクトル処理を行
うスペクトル処理手段1160と、量子化および符号化
処理を行う処理量子化/符号化手段1170と、最大ス
ケールファクタバンド値(maxSfb)算出に必要な
初期値および閾値を記憶している最大スケールファクタ
バンド(maxSfb)係数テーブル記憶手段1180
とを備えている。
【0077】図15に示すように、最大スケールファク
タバンド(maxSfb)係数テーブル1180には、
最大スケールファクタバンド(maxSfb)初期値テ
ーブ1310および信号対マスク比(SMR)閾値テー
ブル1320に加えて、最小スケールファクタバンド
(minSfb)テーブル1330が設けられている。
この最大スケールファクタバンド(maxSfb)初期
値テーブル1310の構成としては、例えば、図4およ
び図5に示したような構成が用いられる。また、上記信
号対マスク比(SMR)閾値テーブル1320の構成と
しては、例えば、図6および図7に示したような構成が
用いられる。前記最小スケールファクタバンド(min
Sfb)テーブル1330は、符号化モード情報より入
力される「ビットレート」、「サンプリング周波数」、
「チャンネル数」、「窓長」を考慮して設定されてお
り、必ず符号化処理を行う最大スケールファクタバンド
の値が設定されている(例えば3kHz以下は常に符号
化処理を行うように設定する)。
【0078】次に、本実施の形態における音声符号化装
置の動作について説明すると、まず、入力デジタルオー
ディオ信号が、窓長分析手段1110により入力信号が
定常な信号の場合にはロングフレーム、過渡的な信号の
場合にはショートフレームと分析される。 一方、入力
デジタルオーディオ信号は、FFT分析手段1100に
おいて高速フーリエ変換(FFT:Fast Fourier Trans
form)され、この結果を用いて、聴覚心理分析手段11
30により人間の聴覚心理モデルに基づく、信号対マス
ク比(SMR)値が算出される。 次に、最大スケール
ファクタバンド(maxSfb)初期値設定手段114
0により、窓長分析手段1110の分析結果と、符号化
モード情報指定手段1120から得られた符号化ビット
レートや入力信号のサンプリング周波数等の符号化モー
ド情報とに応じて、最大スケールファクタバンド(ma
xSfb)係数テーブル記憶手段1180が参照され、
最大スケールファクタバンド(maxSfb)初期値が
設定される。
【0079】次いで、最大スケールファクタバンド(m
axSfb)適応算出手段1150により、上記最大ス
ケールファクタバンド(maxSfb)初期値および上
述の信号対マスク比(SMR)値および上記符号化モー
ド情報指定手段1120より得られた窓長の情報を用い
て、最大スケールファクタバンド(maxSfb)値を
設定する算出処理がされる。
【0080】そして、この最大スケールファクタバンド
(maxSfb)値および信号対マスク比(SMR)等
の情報を用いて、スペクトル処理手段1160によっ
て、MDCT処理やTNS処理等のスペクトル処理が行
われた後、 処理量子化/符号化手段1170によって
量子化/符号化の処理が実行される。 本実施形態にお
いては、最大スケールファクタバンド(maxSfb)
初期値設定手段1140は、外部からの制御情報である
符号化モード情報指定手段1120のへの指定入力情報
に応じて、最大スケールファクタバンド(maxSf
b)係数テーブル1180を参照することより、最大ス
ケールファクタバンド(maxSfb)初期値および信
号対マスク比(SMR)閾値を算出する。具体的には、
図14に示すように、本実施の形態では、最大スケール
ファクタバンド(maxSfb)初期値を13、信号対
マスク比(SMR)閾値を1.0としている。
【0081】次に、図14を参照しながら、上記最大ス
ケールファクタバンド(maxSfb)適応算出手段1
150での算出処理について説明する。なお、同図は、
聴覚心理分析手段1130で人間の聴覚心理モデルに基
づき算出された信号対マスク比(SMR)の値とその信
号対マスク比(SMR)の閾値の関係を示している。
【0082】まず、最大スケールファクタバンド(ma
xSfb)適応算出手段1150は、最大スケールファ
クタバンド(maxSfb)初期値における信号対マス
ク比(SMR)値と信号対マスク比(SMR)閾値とを
比較し、信号対マスク比(SMR)値が信号対マスク比
(SMR)閾値よりも小さいときには、最大スケールフ
ァクタバンド(maxSfb)値を1下げる。次に、1
下げた最大スケールファクタバンド(maxSfb)に
おける信号対マスク比(SMR)値と信号対マスク比
(SMR)閾値とを比較し、信号対マスク比(SMR)
値が信号対マスク比(SMR)閾値よりも小さいときに
は、最大スケールファクタバンド(maxSfb)値を
1下げる。そして、以上の動作を繰り返し行い、信号対
マスク比(SMR)値が信号対マスク比(SMR)閾値
よりも大きくなった時のスケールファクタバンドに1足
した値を現フレームの最大スケールファクタバンド(m
axSfb)値とする。
【0083】ここで、現フレームの最大スケールファク
タバンド(maxSfb)値が前記最小スケールファク
タバンド(minSfb)以下である場合には、最小ス
ケールファクタバンド(minSfb)に1足した値を
現フレームの最大スケールファクタバンド(maxSf
b)値とする。 本実施形態においては、上記最小スケ
ールファクタバンド(minSfb)を11とすると、
図14においては、信号対マスク比(SMR)値が信号
対マスク比(SMR)閾値よりも大きくなった時のスケ
ールファクタバンドが6であるため、最大スケールファ
クタバンド(maxSfb)は7となる。このとき、最
大スケールファクタバンド(maxSfb)は、最小ス
ケールファクタバンド(minSfb)よりも小さいた
め、最大スケールファクタバンドをこの最小スケールフ
ァクタバンドを基に例えば(minSfb+1として)
11とする。これにより、符号化する帯域が狭いときに
は、より広い帯域の符号化を行うことにより音質を向上
させることができる。
【0084】次に図17のフローチャートを参照して、
本発明の音声符号化方法を上記装置のソフトウェアで実
現する場合の処理の流れを説明する。まず、入力デジタ
ルオーディオ信号が、ステップS1110において窓長
分析手段1110により、入力信号が定常な信号の場合
にはロングフレーム、過渡的な信号の場合にはショート
フレームと分析される。
【0085】一方、入力デジタルオーディオ信号は、ス
テップS1100においてFFT分析手段1100によ
って、高速フーリエ変換(FFT:Fast Fourier Trans
form)される。そして、この結果を用いて、聴覚心理分
析手段1130により、人間の聴覚心理モデルに基づ
く、信号対マスク比(SMR)値が算出される(ステッ
プS1130)。
【0086】次のステップS1140においては、最大
スケールファクタバンド(maxSfb)初期値設定手
段1140により、ステップS1110における窓長分
析手段1110の分析結果および符号化モード情報指定
手段1120より得られた(ステップS1120)符号
化ビットレートや入力信号のサンプリング周波数等の符
号化モード情報に応じて、最大スケールファクタバンド
係数テーブル記憶手段1180が参照され、最大スケー
ルファクタバンド(maxSfb)初期値および信号対
マスク比(SMR)の閾値がそれぞれ設定される。
【0087】次いで、ステップS1150において、最
大スケールファクタバンド(maxSfb)適応算出手
段1150により、最大スケールファクタバンド(ma
xSfb)初期値における信号対マスク比(SMR)値
と信号対マスク比(SMR)閾値とが比較され(ステッ
プS1151)、最大スケールファクタバンド(max
Sfb)初期値における信号対マスク比(SMR)値
が、信号対マスク比(SMR)閾値より小さい場合に
は、最大スケールファクタバンド(maxSfb)を1
下げて(ステップS1152)ステップS1151に戻
る処理がされる。ステップS1151で、最大スケール
ファクタバンド(maxSfb)における信号対マスク
比(SMR)値が信号対マスク比(SMR)閾値より大
きくなると、最大スケールファクタバンド(maxSf
b)を1上げる処理(ステップS1153)がなされ
る。
【0088】次に、ステップS1154において、最大
スケールファクタバンド(maxSfb)と最小スケー
ルファクタバンド(minSfb)が比較され(ステッ
プS1154)、最大スケールファクタバンド(max
Sfb)が最小スケールファクタバンド(minSf
b)より小さい場合には、最大スケールファクタバンド
(maxSfb)を最小スケールファクタバンド(mi
nSfb)に1を足した値にする(ステップS115
5)処理がなされる。次いで、ステップS1160にお
いて、スペクトル処理手段1160により、MDCT処
理やTNS処理等のスペクトル処理がされた後、ステッ
プS1170で処理量子化/符号化手段1170によっ
て量子化/符号化が行われる。 上記のように、本実施
形態においても、実施の形態1、2と同様に、入力信号
に応じて最大スケールファクタバンドを適応的に算出す
ることで、符号化する周波数帯域を常に好適にすること
ができ、演算量の削減と符号量の有効活用を図ることが
でき、上述と同様な効果を得ることができる。
【0089】また、本実施形態においては、窓長分析手
段1110により入力信号が過渡的であることが分析さ
れ、ビットレートが所定値より高く、スケールファクタ
バンドのそれぞれに割付け可能なビット数が所定値を超
えて十分にある状態においては、最大スケールファクタ
バンド適応算出手段1150が算出した最大スケールフ
ァクタバンドが所定の最小スケールファクタバンドより
低い場合には、最大スケールファクタバンドの設定値を
算出した値より所定の増分だけ上げるようにしているの
で、削減した周波数帯域の符号量(ビット割付量)を、
音質に影響する周波数帯域の符号化に有効活用すること
ができ、復号化時の音質を向上させることができる。
【0090】以上に述べた各実施の形態においては、本
発明の音声符号化装置の各機能又は音声符号化方法の各
ステップを実現するためのソフトウェアプログラムを準
備して、これをハードディスクその他の記録媒体に記録
したコンピュータ等により実行することとしていたが、
本発明は、そのようなプログラムをコンピュータ読取可
能な他の記録媒体、例えば磁気ディスク(フロッピー
(登録商標)ディスク、ハードディスク等)、光ディス
ク(CD―ROM、DVD等)、半導体メモリなどに記
録したものであってもよく、これを読取って上記プログ
ラムを実行するハードウェア資源としては、パーソナル
コンピュータ程度から音楽配信用の専用音声符号化シス
テムまで各種のものが採用できることはいうまでもな
い。
【0091】
【発明の効果】本発明の音声符号化方式によれば、人間
の耳には聞こえない高域における符号量を削減すること
ができ、その削減したビットをエネルギーの高い帯域に
割り振ることにより音質を向上させることができる。ま
た、高域の量子化/符号化における演算を削減すること
ができるため、演算量を少なくすることができる。さら
に、符号化する帯域が狭いときには、より広い帯域の符
号化を行うことで、音質を向上させることができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1における音声符号化装置
のブロック図
【図2】本発明の実施の形態1における音声符号化装置
で使用する最大スケールファクタバンド(maxSf
b)係数テーブルの構成を示す図
【図3】本発明の実施の形態1における音声符号化装置
で使用する最大スケールファクタバンド(maxSf
b)適応算出手段の処理の一例を示した模式図
【図4】本発明の実施の形態1における音声符号化装置
で使用する最大スケールファクタバンド(maxSf
b)初期値テーブルの構成を示す図
【図5】図4に続く、上記実施の形態1における音声符
号化装置で使用する最大スケールファクタバンド(ma
xSfb)初期値テーブルの構成を示す図
【図6】本発明の実施の形態1における音声符号化装置
で使用する信号対マスク比(SMR)閾値テーブルの構
成を示す図
【図7】図6に続く、上記実施の形態1における音声符
号化装置で使用する信号対マスク比(SMR)閾値テー
ブルの構成を示す図
【図8】本発明の実施の形態1における音声符号化方式
を示すフローチャート
【図9】本発明の実施の形態2における音声符号化装置
のブロック図
【図10】本発明の実施の形態2における音声符号化装
置で使用する最大スケールファクタバンド(maxSf
b)適応算出手段の処理の一例を示した模式図
【図11】本発明の実施の形態2における音声符号化装
置で使用する閾値テーブルの構成を示す図
【図12】図11に続く、上記実施の形態2における音
声符号化装置で使用する閾値テーブルの構成を示す図
【図13】本発明の実施の形態3における音声符号化装
置のブロック図
【図14】本発明の実施の形態3における音声符号化装
置で使用する最大スケールファクタバンド(maxSf
b)適応算出手段の処理の一例を示した模式図
【図15】本発明の実施の形態3における音声符号化装
置で使用する最大スケールファクタバンド(maxSf
b)係数テーブルの構成を示す図
【図16】本発明の実施の形態2における音声符号化方
式を示すフローチャート
【図17】本発明の実施の形態3における音声符号化方
式を示すフローチャート
【図18】従来例の最大スケールファクタバンド値(m
axSfb)を示すテーブル図
【図19】従来例の音声符号装置のブロック図
【符号の説明】
100、800、1100 FFT分析手段 110、810、1110 窓長分析手段 120、820、1120 符号化モード情報指定手
段 130、830、1130 聴覚心理分析手段 140、840、1140 最大スケールファクタバ
ンド初期値設定手段 150、850、1150 最大スケールファクタバ
ンド適応算出手段 160、860、1160 スペクトル処理手段 170、870、1170 量子化/符号化手段 180、880、1180 最大スケールファクタバ
ンド係数テーブル記憶手段(閾値テーブル記憶手段) 410、1310 最大スケールファクタバンド初期
値テーブル 420、420E、1320 信号対マスク比(SM
R)閾値テーブル 1330 最小スケールファクタバンド(minSf
b)テーブル
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 9/18 C

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 入力信号を複数のスケールファクタバン
    ドに分割するとともに、所定の聴覚心理モデルに基づい
    て前記スケールファクタバンドごとに符号化を行う音声
    符号化方式であって、 前記入力信号が定常的な信号であるか過渡的な信号であ
    るかにより前記入力信号の符号化フレームを特定する窓
    長を分析する窓長分析手段と、 前記入力信号を高速フーリエ変換するFFT分析手段
    と、 符号化モードを決定するための符号化モード情報を指定
    する符号化モード情報指定手段と、 前記入力信号を高速フーリエ変換した結果および前記聴
    覚心理モデルに基づいて、前記入力信号に対する信号対
    マスク比を算出する聴覚心理分析手段と、 符号化する周波数帯域を特定する最大スケールファクタ
    バンドを算出する最大スケールファクタバンド算出手段
    と、 前記最大スケールファクタバンドを算出するための係数
    を格納した最大スケールファクタバンド係数テーブルを
    記憶する最大スケールファクタバンドテーブル記憶手段
    と、 前記窓長および前記符号化モード情報に基づいて、前記
    最大スケールファクタバンドを算出するために必要な初
    期値を算出する最大スケールファクタバンド初期値算出
    手段と、 前記FFT分析手段からのデータおよび前記最大スケー
    ルファクタバンドの算出値に基づいて前記入力信号のス
    ペクトル処理を行うスペクトル処理手段と、 前記スペクトル処理がされたデータを前記スケールファ
    クタバンドごとに量子化および符号化する量子化/符号
    化手段とを備え、 前記入力信号に応じて適応的に前記最大スケールファク
    タバンドを算出するようにしたことを特徴とする音声符
    号化方式。
  2. 【請求項2】 前記最大スケールファクタバンドは、前
    記符号化モード情報から得られるビットレートおよびサ
    ンプリング周波数に応じ、前記最大スケールファクタバ
    ンド係数テーブルを参照することにより設定されること
    を特徴とする請求項1に記載の音声符号化方式。
  3. 【請求項3】 前記最大スケールファクタバンドは、前
    記符号化モード情報より得られるチャンネル数に応じ、
    前記最大スケールファクタバンド係数テーブルを参照す
    ることにより設定されることを特徴とする請求項2に記
    載の音声符号化方式。
  4. 【請求項4】 前記窓長および前記符号化モード情報に
    応じた所定の複数の閾値を格納した閾値テーブルを記憶
    する閾値テーブル記憶手段を有し、 前記最大スケールファクタバンド算出手段は、 前記最大スケールファクタバンド係数テーブルを参照す
    ることにより設定されるいずれか1つの最大スケールフ
    ァクタバンドにおける、前記聴覚心理分析手段で算出さ
    れた信号対マスク比と、前記窓長および前記符号化モー
    ド情報に応じて前記閾値テーブルを参照することにより
    設定された閾値とを比較し、 前記算出された信号対マスク比が前記設定された閾値よ
    り小さい場合には前記最大スケールファクタバンドを1
    ずつ下げていき、前記算出された信号対マスク比が前記
    設定された閾値より大きな値をとるスケールファクタバ
    ンドになる1つ前のスケールファクタバンドを現在の符
    号化フレームの最大スケールファクタバンドとすること
    を特徴とする請求項1に記載の音声符号化方式。
  5. 【請求項5】 前記窓長および前記符号化モード情報に
    応じた所定の複数の閾値を格納した閾値テーブルを記憶
    する閾値テーブル記憶手段を有し、 前記最大スケールファクタバンド算出手段は、 前記最大スケールファクタバンド係数テーブルを参照す
    ることにより設定されるいずれか1つの最大スケールフ
    ァクタバンドにおける、前記入力信号のスペクトルのエ
    ネルギー値を算出し、その算出値と前記窓長および前記
    符号化モード情報に応じて前記閾値テーブルを参照する
    ことにより設定された閾値とを比較し、前記エネルギー
    値が前記設定された閾値より小さい場合には前記最大ス
    ケールファクタバンドを下げていき、前記エネルギー値
    が前記設定された閾値より大きな値をとるスケールファ
    クタバンドになる1つ前のスケールファクタバンドを現
    符号化フレームの最大スケールファクタバンドとするこ
    とを特徴とする請求項1に記載の音声符号化方式。
  6. 【請求項6】 前記所定の閾値は、前記符号化モード情
    報のうちビットレートを参照することにより決定される
    ことを特徴とする請求項4または5に記載の音声符号化
    方式。
  7. 【請求項7】 前記所定の閾値は、前記符号化モード情
    報のうち入力のサンプリング周波数をも参照することに
    より決定されることを特徴とする請求項6に記載の音声
    符号化方式。
  8. 【請求項8】 前記所定の閾値は、前記符号化フレーム
    の窓長をも参照することにより決定されることを特徴と
    する請求項7に記載の音声符号化方式。
  9. 【請求項9】 前記所定の閾値は、前記符号化モード情
    報のうちチャンネル数をも参照することにより決定され
    ることを特徴とする請求項7または8に記載の音声符号
    化方式。
  10. 【請求項10】 前記窓長分析手段により前記入力信号
    が過渡的であることが分析され、ビットレートが所定値
    より高く、前記スケールファクタバンドのそれぞれに割
    付け可能なビット数が所定値を超えて十分にある状態に
    おいて、前記最大スケールファクタバンド算出手段が算
    出した最大スケールファクタバンドが所定の最小スケー
    ルファクタバンドより低い場合には、最大スケールファ
    クタバンドの設定値を算出した値より所定の増分だけ上
    げることを特徴とする請求項1に記載の音声符号化方
    式。
  11. 【請求項11】 サンプリングした入力信号のデータを
    複数の周波数帯域のスケールファクタバンドに分割し
    て、所定の聴覚心理モデルに基づき、符号化する周波数
    帯域を制限しながら、その周波数帯域内のスケールファ
    クタバンドごとに符号化を行う音声符号化方法であっ
    て、 前記入力信号が定常的な信号であるか過渡的な信号であ
    るかにより前記入力信号の符号化フレームを特定する窓
    長を分析する窓長分析ステップと、 前記窓長および符号化モードの指定情報に基づいて前記
    スケールファクタバンドの周波数帯域順に複数のスケー
    ルファクタバンドを設定するとともに、所定の閾値の情
    報に基づいて、前記スケールファクタバンドのうち前記
    符号化する周波数帯域を特定する最大スケールファクタ
    バンドを初期設定する初期設定ステップと、 前記入力信号の周波数分布を分析した結果および前記聴
    覚心理モデルに基づいて、前記最大スケールファクタバ
    ンドを算出する最大スケールファクタバンド算出ステッ
    プと、 前記最大スケールファクタバンドにより制限された周波
    数帯域内で、前記スケールファクタバンドごとのスペク
    トル処理を実行するスペクトル処理ステップと、 前記スペクトル処理後のデータを量子化および符号化処
    理する符号化処理ステップとを含むことを特徴とする音
    声符号化方法。
  12. 【請求項12】 前記最大スケールファクタバンド算出
    ステップに先立って前記入力信号の周波数分布を分析す
    るとともに、前記スケールファクタバンドごとに前記聴
    覚心理モデルに基づく信号対マスク比を算出し、その信
    号対マスク比と前記所定の閾値とに基づいて前記最大ス
    ケールファクタバンドを決定することを特徴とする請求
    項11に記載の音声符号化方法。
  13. 【請求項13】 前記最大スケールファクタバンド算出
    ステップに先立って前記入力信号の周波数分布を分析す
    るとともに、前記スケールファクタバンドごとにスペク
    トルのエネルギー値を算出し、そのエネルギー値と前記
    閾値とに基づいて前記最大スケールファクタバンドを決
    定することを特徴とする請求項11に記載の音声符号化
    方法。
  14. 【請求項14】 請求項11乃至請求項13のいずれか
    に記載の音声符号化方法を用いて音声符号化を行うこと
    特徴とする音声符号化装置。
  15. 【請求項15】 請求項11乃至請求項13のいずれか
    に記載の音声符号化方法の各ステップを実現するための
    プログラムが記録されていることを特徴とするコンピュ
    ータ読取可能な記録媒体。
  16. 【請求項16】 請求項1乃至請求項10に記載の音声
    符号化方式または請求項14に記載の音声符号化装置を
    構成要素とすることを特徴とする音楽配信システム。
JP2000391855A 2000-12-25 2000-12-25 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム Withdrawn JP2002196792A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2000391855A JP2002196792A (ja) 2000-12-25 2000-12-25 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム
DE60106717T DE60106717T2 (de) 2000-12-25 2001-12-06 Verfahren und Vorrichtung zur Bestimmung des Skalenfaktors eines Audiosignalkodierers
EP01128475A EP1220203B1 (en) 2000-12-25 2001-12-06 Method and apparatus for the determination of scale factors for an audio signal coder
US10/036,718 US6915255B2 (en) 2000-12-25 2001-12-21 Apparatus, method, and computer program product for encoding audio signal
CNB011338172A CN1310431C (zh) 2000-12-25 2001-12-21 用于编码音频信号的设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000391855A JP2002196792A (ja) 2000-12-25 2000-12-25 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム

Publications (1)

Publication Number Publication Date
JP2002196792A true JP2002196792A (ja) 2002-07-12

Family

ID=18857937

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000391855A Withdrawn JP2002196792A (ja) 2000-12-25 2000-12-25 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム

Country Status (5)

Country Link
US (1) US6915255B2 (ja)
EP (1) EP1220203B1 (ja)
JP (1) JP2002196792A (ja)
CN (1) CN1310431C (ja)
DE (1) DE60106717T2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100682890B1 (ko) 2004-09-08 2007-02-15 삼성전자주식회사 비트량 고속제어가 가능한 오디오 부호화 방법 및 장치
JP2008523450A (ja) * 2004-12-13 2008-07-03 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 平方値に線形従属する計算結果の表示を生成する方法
JP2012032803A (ja) * 2010-07-01 2012-02-16 Polycom Inc フルバンド拡張可能なオーディオコーデック
JP7542153B2 (ja) 2020-12-24 2024-08-29 維沃移動通信有限公司 符号化方法、装置、電子機器及び記憶媒体

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003281128A1 (en) * 2002-07-16 2004-02-02 Koninklijke Philips Electronics N.V. Audio coding
KR100477699B1 (ko) * 2003-01-15 2005-03-18 삼성전자주식회사 양자화 잡음 분포 조절 방법 및 장치
US7318027B2 (en) * 2003-02-06 2008-01-08 Dolby Laboratories Licensing Corporation Conversion of synthesized spectral components for encoding and low-complexity transcoding
CN100339886C (zh) * 2003-04-10 2007-09-26 联发科技股份有限公司 可以检测声音信号的暂态位置的编码器及编码方法
US7983909B2 (en) * 2003-09-15 2011-07-19 Intel Corporation Method and apparatus for encoding audio data
KR20050028193A (ko) * 2003-09-17 2005-03-22 삼성전자주식회사 오디오 신호에 적응적으로 부가 정보를 삽입하기 위한방법, 오디오 신호에 삽입된 부가 정보의 재생 방법, 및그 장치와 이를 구현하기 위한 프로그램이 기록된 기록 매체
JP4168976B2 (ja) * 2004-05-28 2008-10-22 ソニー株式会社 オーディオ信号符号化装置及び方法
US8326606B2 (en) * 2004-10-26 2012-12-04 Panasonic Corporation Sound encoding device and sound encoding method
KR100851970B1 (ko) * 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
WO2007091927A1 (en) * 2006-02-06 2007-08-16 Telefonaktiebolaget Lm Ericsson (Publ) Variable frame offset coding
US7966175B2 (en) * 2006-10-18 2011-06-21 Polycom, Inc. Fast lattice vector quantization
US7953595B2 (en) * 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
US8044830B2 (en) * 2007-09-20 2011-10-25 Lg Electronics Inc. Method and an apparatus for processing a signal
KR101479011B1 (ko) * 2008-12-17 2015-01-13 삼성전자주식회사 다중 대역 스케쥴링 방법 및 이를 이용한 방송 서비스 시스템
US8311843B2 (en) * 2009-08-24 2012-11-13 Sling Media Pvt. Ltd. Frequency band scale factor determination in audio encoding based upon frequency band signal energy
CN107067483A (zh) * 2012-06-13 2017-08-18 中国计量大学 利用高速公路车辆超速摄像监控系统兼顾刷银行卡缴费的方法
EP2943954B1 (en) * 2013-01-08 2018-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Improving speech intelligibility in background noise by speech-intelligibility-dependent amplification
US10460727B2 (en) * 2017-03-03 2019-10-29 Microsoft Technology Licensing, Llc Multi-talker speech recognizer
CN110265046B (zh) * 2019-07-25 2024-05-17 腾讯科技(深圳)有限公司 一种编码参数调控方法、装置、设备及存储介质
CN111933162B (zh) * 2020-08-08 2024-03-26 北京百瑞互联技术股份有限公司 一种优化lc3编码器残差编码和噪声估计编码的方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100269213B1 (ko) * 1993-10-30 2000-10-16 윤종용 오디오신호의부호화방법
US5764698A (en) * 1993-12-30 1998-06-09 International Business Machines Corporation Method and apparatus for efficient compression of high quality digital audio
JP2778482B2 (ja) * 1994-09-26 1998-07-23 日本電気株式会社 帯域分割符号化装置
CN1238837C (zh) * 1996-10-15 2006-01-25 松下电器产业株式会社 声音编码方法和编码装置
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
EP0966109B1 (en) * 1998-06-15 2005-04-27 Matsushita Electric Industrial Co., Ltd. Audio coding method and audio coding apparatus
JP3515903B2 (ja) * 1998-06-16 2004-04-05 松下電器産業株式会社 オーディオ符号化のための動的ビット割り当て方法及び装置
JP2000134105A (ja) * 1998-10-29 2000-05-12 Matsushita Electric Ind Co Ltd オーディオ変換符号化に用いられるブロックサイズを決定し適応させる方法
JP4242516B2 (ja) * 1999-07-26 2009-03-25 パナソニック株式会社 サブバンド符号化方式
JP4287545B2 (ja) * 1999-07-26 2009-07-01 パナソニック株式会社 サブバンド符号化方式
US6678653B1 (en) * 1999-09-07 2004-01-13 Matsushita Electric Industrial Co., Ltd. Apparatus and method for coding audio data at high speed using precision information
JP2001094433A (ja) * 1999-09-17 2001-04-06 Matsushita Electric Ind Co Ltd サブバンド符号化・復号方法
JP3639216B2 (ja) * 2001-02-27 2005-04-20 三菱電機株式会社 音響信号符号化装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100682890B1 (ko) 2004-09-08 2007-02-15 삼성전자주식회사 비트량 고속제어가 가능한 오디오 부호화 방법 및 장치
JP2008523450A (ja) * 2004-12-13 2008-07-03 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 平方値に線形従属する計算結果の表示を生成する方法
JP2012032803A (ja) * 2010-07-01 2012-02-16 Polycom Inc フルバンド拡張可能なオーディオコーデック
JP7542153B2 (ja) 2020-12-24 2024-08-29 維沃移動通信有限公司 符号化方法、装置、電子機器及び記憶媒体

Also Published As

Publication number Publication date
EP1220203B1 (en) 2004-10-27
DE60106717T2 (de) 2005-12-22
US20020116179A1 (en) 2002-08-22
DE60106717D1 (de) 2004-12-02
EP1220203A2 (en) 2002-07-03
CN1361594A (zh) 2002-07-31
US6915255B2 (en) 2005-07-05
CN1310431C (zh) 2007-04-11
EP1220203A3 (en) 2003-09-10

Similar Documents

Publication Publication Date Title
JP2002196792A (ja) 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム
JP7177185B2 (ja) 信号分類方法および信号分類デバイス、ならびに符号化/復号化方法および符号化/復号化デバイス
EP2613315B1 (en) Method and device for coding an audio signal
US8442838B2 (en) Bitrate constrained variable bitrate audio encoding
US7613603B2 (en) Audio coding device with fast algorithm for determining quantization step sizes based on psycho-acoustic model
JP5175028B2 (ja) デジタル信号の符号化方法及び装置ならびに復号化方法及び装置
CN104485111B (zh) 音频/语音编码装置、音频/语音解码装置及其方法
EP1080542B1 (en) System and method for masking quantization noise of audio signals
KR101693280B1 (ko) 오디오 데이터 처리 방법, 장치 및 시스템
JP2010538316A (ja) 改良された音声及びオーディオ信号の変換符号化
KR20090110244A (ko) 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
US9424850B2 (en) Method and apparatus for allocating bit in audio signal
CN110767243A (zh) 一种音频编码方法、装置及设备
KR20040073862A (ko) 오디오 데이터 인코딩 장치 및 방법
KR20040065641A (ko) 양자화 잡음 분포 조절 방법 및 장치
JP2002023799A (ja) 音声符号化装置及びそれに用いる心理聴覚分析方法
US20090132238A1 (en) Efficient method for reusing scale factors to improve the efficiency of an audio encoder
JP4021124B2 (ja) デジタル音響信号符号化装置、方法及び記録媒体
US20060004565A1 (en) Audio signal encoding device and storage medium for storing encoding program
EP2229675A1 (en) Apparatus and method of enhancing quality of speech codec
US20230198488A1 (en) Method and unit for performing dynamic range control
US10650834B2 (en) Audio processing method and non-transitory computer readable medium
JP2014085542A (ja) オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム
JP2003280691A (ja) 音声処理方法および音声処理装置
JP2000078018A (ja) 音声符号化方式、音声符号化装置、及びデ―タ記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071106

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20080702