JP3446216B2 - 音声信号処理方法 - Google Patents

音声信号処理方法

Info

Publication number
JP3446216B2
JP3446216B2 JP04972092A JP4972092A JP3446216B2 JP 3446216 B2 JP3446216 B2 JP 3446216B2 JP 04972092 A JP04972092 A JP 04972092A JP 4972092 A JP4972092 A JP 4972092A JP 3446216 B2 JP3446216 B2 JP 3446216B2
Authority
JP
Japan
Prior art keywords
threshold level
masking threshold
signal
masking
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP04972092A
Other languages
English (en)
Other versions
JPH05248972A (ja
Inventor
正之 西口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP04972092A priority Critical patent/JP3446216B2/ja
Priority to US08/026,562 priority patent/US5475789A/en
Publication of JPH05248972A publication Critical patent/JPH05248972A/ja
Priority to US08/456,174 priority patent/US5651093A/en
Application granted granted Critical
Publication of JP3446216B2 publication Critical patent/JP3446216B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声信号を高能率符号
化して伝送させる音声信号処理方法に関する。
【0002】
【従来の技術】音声信号(オーディオ信号)の高能率符
号化においては、入力した音声信号を時間軸又は周波数
軸で複数のチャンネルに分割すると共に、各チャンネル
毎のビット数を適応的に割当てるビットアロケーション
(ビット割当て)による符号化技術がある。例えば、オ
ーディオ信号等のビット割当てによる符号化技術には、
時間軸上のオーディオ信号を複数の周波数帯域に分割し
て符号化する帯域分割符号化(サブ・バンド・コーディ
ング:SBC)や、時間軸の信号を周波数軸上の信号に
変換(直交変換)して複数の周波数帯域に分割し各帯域
毎で適応的に符号化するいわゆる適応変換符号化(AT
C)、或いはサブ・バンド・コーディングといわゆる適
応予測符号化(APC)とを組合せ、時間軸の信号を帯
域分割して各帯域信号をベースバンド(低域)に変換し
た後複数次の線形予測分析を行って予測符号化するいわ
ゆる適応ビット割当て(APC−AB)等の符号化技術
がある。
【0003】ここで、これらの高能率符号化の内で、例
えば、適応変換符号化においては、時間軸のオーディオ
信号を、高速フーリエ変換(FFT)或いは離散的余弦
変換(DCT)等の直交変換によって、時間軸に直交す
る軸(周波数軸)に変換し、その後複数の帯域に分割し
て、これら分割された各帯域のFFT係数,DCT係数
等を適応的なビット割当てによって量子化(再量子化)
している。高速フーリエ変換の適応変換符号化における
再量子化の一例としては、図5に示すように、信号を高
速フーリエ変換した後の例えばFFT振幅値Am等をブ
ロック(ブロックB1,B2‥‥)分けして、これら各
ブロック毎に再量子化する際に必要となる付加情報を算
出し、この付加情報を用いてブロック毎に再量子化する
と共に、付加情報自体も量子化させる手法がある。
【0004】
【発明が解決しようとする課題】ところで、このような
直交変換によって時間軸に直交する軸に変換処理する高
能率符号化では、一般にバーク毎のパワーよりマスキン
グ・スレッショルドを求め、そのマスキング・スレッシ
ョルドレベル以下に量子化ノイズが抑えられるように、
周波数軸上でのダイナミック・ビット・アロケーション
を行っていた。ここで、1バークの幅は人間の聴覚の特
性(人間が聞き分けられる能力)より決められるもの
で、1バーク毎の上述した処理を行うことで、聴覚のマ
スキング効果(同時刻マスキング)を利用した高能率符
号化が行われる。
【0005】しかしながら、従来のこの種の符号化技術
では、マスキング効果などの聴覚の特性を最大限に利用
しているとは言えなかった。
【0006】本発明の目的は、聴覚の特性に基づいたマ
スキング・スレッショルドレベルを利用した高能率符号
化が、より高い圧縮率でできる音声信号処理方法を提供
することにある。
【0007】
【課題を解決するための手段】本発明は、音声信号を周
波数領域に変換し、この変換された信号のビットアロケ
ーションを行って符号化する音声信号処理方法におい
て、マスキング効果による聴覚上の雑音低減が行われる
マスキング・スレッショルドレベルの決定を、現在のフ
レームの信号スペクトル分布と、過去のフレームのマス
キング・スレッショルドレベルとを使用して行うように
したものである。
【0008】また本発明は、音声信号を周波数領域に変
換し、この変換された信号のビットアロケーションを行
って符号化する音声信号処理方法において、マスキング
効果による聴覚上の雑音低減が行われるマスキング・ス
レッショルドレベルを、現在のフレームの信号スペクト
ル分布と、過去のフレームのマスキング・スレッショル
ドレベルとを使用して求めると共に、この求めた値と、
過去のフレームのマスキング・スレッショルドレベルと
の差が所定量以上あるとき、この所定量の差に制限され
た値を現在のフレームのマスキング・スレッショルドレ
ベルにするようにしたものである。
【0009】また、この場合にマスキング・スレッショ
ルドレベルの制限が行われる所定量を、高域成分と低域
成分とで変化させ、高域成分での制限量を低域成分での
制限量よりも緩くしたものである。
【0010】
【作用】本発明によると、現在のフレームの信号スペク
トル分布と、過去のフレームの信号スペクトル分布とを
使用して、現在のフレームのマスキング・スレッショル
ドレベルを決定するようにしたことで、継時マスキング
効果(テンポラル・マスキング効果)を利用した効率の
良いマスキング・スレッショルドレベルの設定が可能に
なり、符号化されたデータのビットレートを低減させる
ことができる。
【0011】また本発明によると、現在のフレームの信
号スペクトル分布と、過去のフレームの信号スペクトル
分布とを使用して、現在のフレームのマスキング・スレ
ッショルドレベルを求めると共に、このとき求めた値
と、過去のフレームのマスキング・スレッショルドレベ
ルとの差が所定量以上あるとき、この所定量の差に制限
された値を現在のフレームのマスキング・スレッショル
ドレベルにするようにしたことで、符号化された音声デ
ータの品質を低下させずに、符号化されたデータのビッ
トレートをより効率良く低減させることができる。
【0012】
【実施例】以下、本発明の一実施例を図1〜図4を参照
して説明する。
【0013】本例においては、音声信号の送出側(エン
コーダ側)を図1に示すように構成し、音声信号の受信
側(デコーダ側)を図2に示すように構成する。
【0014】まず、音声信号を高能率符号化するエンコ
ーダ側の構成について説明すると、図1において、1は
音声信号の入力端子を示し、この入力端子1に得られる
デジタル音声信号(デジタルオーディオ信号)を窓がけ
回路2に供給し、窓がけを行う。このときの窓がけとし
ては、例えば50%オーバーラップのハニング窓で行
い、この窓がけされてブロック分けされたデータをMD
CT回路3に供給し、MDCT(Modified D
CT:モディファイド離散的余弦変換)による直交変換
を行う。この場合、本例においては高速フーリエ変換
(FFT)による高速演算でMDCTの変換処理を行
う。
【0015】そして、MDCT回路3で変換されたデー
タを、適応量子化器4に供給し、量子化を行う。この場
合、後述するパラメータ量子化器6で量子化された付加
情報(マスキングスレッショルドレベル,RMS値)
と、後述するビットアロケーション計算回路7で求めた
各ブロック内の1サンプルに割り振るビット数の値と
を、適応量子化器4に供給させ、供給される各データに
対応したビット数の量子化を行う。
【0016】また、窓がけ回路2でブロック分けされた
データをマスキング・スレッショルド及びRMS値計算
回路5に供給し、このマスキング・スレッショルド及び
RMS値計算回路5で、マスキング・スレッショルドレ
ベル及びRMS値(フローティング係数)を算出させ
る。このときには、各ブロックの各スペクトルの強度
(パワー)を算出し、各スペクトルの強度分布に基づい
てマスキング・スレッショルドレベル及びRMS値を算
出させる。なお、マスキング・スレッショルドレベルの
算出手順については、後で詳細に説明する。
【0017】そして、算出されたマスキング・スレッシ
ョルドレベル及びRMS値をパラメータ量子化器6に供
給し、このパラメータ量子化器6で量子化されたマスキ
ング・スレッショルドレベルとRMS値とを適応量子化
器4に供給する。さらに、パラメータ量子化器6で量子
化されたマスキング・スレッショルドレベルとRMS値
とをビットアロケーション計算回路7に供給し、各ブロ
ック内の1サンプルに割り振るビット数の値を求める。
そして、求めたビット数の値を適応量子化器に供給
し、適応量子化器での量子化を対応したビット数で行
わせる。また、ビットアロケーション計算回路7で求め
たビット数の値をマスキング・スレッショルド及びRM
S値計算回路5にも供給し、各パラメータの算出時のビ
ットレート調整をさせる。
【0018】そして、適応量子化器4で量子化されたデ
ータを、データ出力端子8から出力させ、所定の伝送路
で伝送させたり、録音装置により記録を行う。また同時
に、付加情報としてパラメータ量子化器6で量子化され
たスレッショルド値とRMS値とを、付加情報出力端子
9から出力させ、所定の伝送路で伝送させたり、録音装
置により記録を行う。
【0019】ここで、この回路による信号処理例を説明
すると、入力端子1に得られる音声信号のデータ列をX
(n)とし、窓がけ回路2でのブロック分けで、n=0
〜1023として、1024ポイントのデータを1ブロ
ックとする。また、MDCT回路3での変換処理時に、
MDCT係数C(k)としてk=0〜511を設定し、
オーバーラップ量を512にする(即ち512で折り返
させる)。また、バークスペクトルをB(i)とし、ス
プレッディドバークをS(i)とし、マスキングスレッ
ショルドT(i)とし、最小可聴限と比較済のマスキン
グスレッショルドをTn(i)とし、バンド幅によるノ
ーマライズを済ませた値をTb(i)とする。この場
合、バークは25本であるのでi=0〜24とする。
【0020】まず、窓がけ回路2でのブロック分けとし
て、ハニングの平方根のウィンドウを乗じる。これをX
W(n)とすると、次の〔数1〕式で示される。
【0021】
【数1】
【0022】次に、MDCT回路3で、次の〔数2〕式
によりMDCT係数列(512点)を求める。
【0023】
【数2】
【0024】なお、このMDCT及び逆MDCTの処理
には、例えば特願平3−181173号にて本出願人が
提案した高速処理方法が適用できる。
【0025】次に、本例のマスキング・スレッショルド
及びRMS値計算回路5でのマスキング・スレッショル
ドレベルの算出方法について述べると、まずバークスペ
クトルB(i)を、次の〔数3〕式より求める。
【0026】
【数3】
【0027】ここで、u(i)は各クリティカルバンド
の上限を示し、l(i)は各クリティカルバンドの下限
を示す。このとき、i=0〜24としたことで、25本
のクリティカルバンドのパワーを求めることになる。な
お、バークスペクトルB(i)は、量子化済の各バーク
内のピークのMDCT係数C(k)に、或る係数を乗算
して擬似的に求めるようにしても良い。
【0028】そして、スプレッティングファンクション
H(x)により、バークスペクトルB(i)を次式のよ
うにスプレッドする。
【0029】
【数4】
【0030】そして、マスキング・スレッショルドT
(i)を、次式によりスプレッド・スペクトル・ドメイ
ンで求める。
【0031】
【数5】
【0032】なお、O(i)はiの関数であれば、どの
ように定義しても良い。但し、O(i)の定義の方法
が、消費するビットレートや音質に影響を与えるので、
適切に定義する必要がある。
【0033】そして、スプレッドされた領域におけるマ
スキング・スレッショルドT(i)を、周波数領域(バ
ークドメイン)でのマスキング・スレッショルドTn
(i)に変換する。このとき、本来はデ・コンボリュー
ジョンする必要があるが、ここでは次式に示すように、
スプレッドファンクションの直流ゲインdg(i)でス
レッショルドT(i)を割り込んで、スレッショルドT
n(i)を近似的に求める。
【0034】
【数6】
【0035】そして、このように求まる周波数領域での
マスキング・スレッショルドTn(i)を、最小可聴カ
ーブより求まるアブソリュート・スレッショルドと、各
クリティカルバンドi毎に比較し、レベルの大きな方を
スレッショルドレベルTn(i)とする。なお、ここで
はアブソリュート・スレッショルドは、最小可聴カーブ
のボトム部分(3.4kHz付近)が1サンプル16ビ
ットのPCMオーディオデータの1LSB(最下位ビッ
ト)に相当する大きさになるようにレベル合わせを行
う。即ち、ここでは16ビットPCMオーディオデータ
の1LSBに相当するノイズは許容する。
【0036】そして、各バーク幅のパワーとして求まっ
ているマスキング・スレッショルドレベルTn(i)
を、次式により1サンプル当たりのrms値に変換す
る。
【0037】
【数7】
【0038】そして本例においては、求めたrms値
を、1フレーム前の値と比較する。ここで、1フレーム
前のrms値をTbp(i)、現在のフレームのrms
値をTbc(i)とし、tc(i)を1フレームで減衰
できる最大の許容dB値とする。このとき、この許容d
B値tc(i)は、次式の演算によりリニア表示値tc
l(i)に変換できる。
【0039】
【数8】
【0040】そして、Tbp(i)*tcl(i)<T
bc(i)であるとき(即ち許容値よりも現在のフレー
ムの信号の方が大きい場合)には、Tbc(i)をその
まま現在のフレームのrms値にする。
【0041】また、Tbp(i)*tcl(i)≧Tb
c(i)であるとき(即ち許容値よりも現在のフレーム
の信号の方が小さい場合)には、Tbp(i)*tcl
(i)をTbc(i)に置き換え、この置き換えたTb
c(i)を現在のフレームのrms値にする。
【0042】このような処理が行われることで、1フレ
ーム前の値Tbp(i)から現在のフレームの値Tbc
(i)への変化量(減衰量)に制限が加わることにな
り、最大でTbp(i)*tcl(i)までしか減衰で
きないことになる。即ち、マスキング・スレッショルド
レベルが、前フレームの値から大きく下回ることがなく
なる。このように制限が加わることで、ノイズレベルが
高く維持されることになり、消費されるビットレートが
下がる。そして、ノイズレベルを高く維持しても、前フ
レームの信号より継時マスキング効果が働くので、この
音声データを再生してもノイズとして認識されない。
【0043】ここで、許容dB値Tc(i)の25本の
各クリティカルバンドでの一例を以下に示す。
【0044】Tc(0)=−1,Tc(1)=−1,T
c(2)=−1,Tc(3)=−2,Tc(4)=−
2,Tc(5)=−2,Tc(6)=−2,Tc(7)
=−2,Tc(8)=−2,Tc(9)=−2,Tc
(10)=−2,Tc(11)=−2,Tc(12)=−2,
Tc(13)=−2,Tc(14)=−2,Tc(15)=−
2,Tc(16)=−2,Tc(17)=−3,Tc(18)
=−3,Tc(19)=−3,Tc(20)=−3,Tc
(21)=−3,Tc(22)=−3,Tc(23)=−3,
Tc(24)=−3
【0045】このように、本例では周波数の高いクリテ
ィカルバンドになるに従って、許容減衰dB値を大きく
設定する。即ち、周波数の高い信号ほど、実際の音声信
号のレベルの減衰に忠実に追随したデータになり、周波
数の低い信号では、実際の音声信号のレベルが減衰した
ときのデータの追随が時定数を持つようになる。このよ
うにすることで、周波数の低い信号ほど継時マスキング
効果が高いと言う特性が有効に活用される。即ち、人間
の聴覚は、高域程その臨界帯域幅が広く、周波数分解能
が広い(悪い)のであるが、逆に時間分解能(時間方向
の追従特性)は高域程高い。従って、マスキング・スレ
ッショルドの変化も、高域程高く許容することで、デコ
ードされた音声として聴感上良好な特性のものが得られ
る。
【0046】ここで、このような制限が加わったマスキ
ング・スレッショルドレベルを図3を用いて簡単に説明
すると、現在のフレームの音声波形Acと過去のフレー
ム(1フレーム前)の音声波形Apが図3に示すように
存在しているとする。このとき、過去のフレームの音声
波形Apに対してマスキング・スレッショルドレベルM
pが設定され、このマスキング・スレッショルドレベル
Mp以下の範囲はノイズとして認識されないとする。そ
して、現在のフレームの音声波形Scに基づいて上述し
た演算でマスキング・スレッショルドレベルMc′(破
線で示すレベル)が求まるとき、従来はこのレベルをそ
のまま現在のフレームのマスキング・スレッショルドレ
ベルとしていた。これに対し、本例では継時マスキング
効果を考慮して、上述した数式による両フレームのスレ
ッショルドレベルの比較で、マスキング・スレッショル
ドレベルMcを設定して、このレベルMc以下の範囲を
ノイズとして知覚されない範囲としている。このように
していることで、マスキング・スレッショルドレベルと
音声波形との差が少なくなり、ビットレートの低減に貢
献する。
【0047】なお、本例の演算により求めたマスキング
・スレッショルドレベルの一例を図4に示す。この図4
より判るように、周波数が低くなるに従って、スレッシ
ョルドレベルの変化量が制限されている。
【0048】なお、マスキング・スレッショルドレベル
が高くなる場合には、制限を加えると音声の劣化が著し
いので、本例では特に制限を設けない。
【0049】そして本例においては、このようにして求
まるマスキング・スレッショルドレベル及びrms値を
使用して、ビットアロケーションの計算がビットアロケ
ーション計算回路7で行われる。このときのビットアロ
ケーションの計算としては、各クリティカルバンド内の
ピーク値をpk(i)とすると、次の〔数9〕式による
演算が行われる。
【0050】
【数9】
【0051】そして、この〔数9〕式により求まるba
l(i)に従ったビットアロケーションを行う。このと
き、高能率符号化されたデータを一定レートで磁気テー
プなどに記録する場合などで、ビットレートを一定に維
持する必要のある場合には、bal(i)の積分値が一
定時間内で一定範囲に収まるように調整する必要があ
る。このような調整は、半導体メモリなどに記憶させる
いわゆる固体録音の場合には、必要ない。
【0052】そして、bal(i)に従ったビットアロ
ケーションで、適応量子化器4によりMDCT係数の量
子化を行う。このときには、線形量子化,非線形量子
化,ベクトル量子化などが適用される。このとき、量子
化効率向上のために、量子化器4の出力のインデックス
に、エントロピーコーディングを施しても良い。このエ
ントロピーコーディングを施すことで、量子化器の出力
を20%程度圧縮できる。
【0053】また、付加情報出力端子9から出力される
付加情報としてのマスキング・スレッショルドレベル及
びrms値は、各バーク毎のピーク値やエネルギーB
(i)をそのまま出力させる他に、これらの付加情報を
リニアドメイン又はdBドメインで、フレーム間の差分
量子化(DPCM)を行ったり、或いはベクトル量子化
を行って、ビットレートを低減させることも可能であ
る。ここで、これらの付加情報については、本例では上
述した処理により減衰時に制限を加えているので、フレ
ーム間で相関が強く、差分量子化などが効率良く行われ
て、ビットレートを大幅に低減させることができる。
【0054】次に、このようにして量子化されたデータ
を受信するデコーダについて図2を参照して説明する
と、図中11はエンコーダの端子8側から伝送されるデ
ータの入力端子を示し、12はこのデータの付加情報
(スレッショルド値及びRMS値の量子化値)が伝送さ
れる付加情報入力端子を示す。そして、両入力端子1
1,12に得られるデータを適応逆量子化器13に供給
し、逆量子化を行う。そして、逆量子化されたデータを
逆MDCT回路14に供給し、逆MDCTによる変換処
理で元に戻されたデータを窓がけ・重ね合わせ回路15
に供給し、窓がけされたデータを重ね合わせ、元の時間
軸のデジタルオーディオ信号を復元し、音声信号出力端
子16にこのデジタルオーディオ信号を供給する。
【0055】ここで、このように逆MDCTで元に戻す
場合の本例の処理について説明すると、逆MDCTで元
に戻されたデータy(n)は次式〔数10〕で示され
る。
【0056】
【数10】
【0057】この〔数10〕式において、nは〔0≦n
≦M−1〕で示される範囲である。この〔数10〕式に
基づいて逆MDCTの処理を行い、求まった時間軸上の
波形に窓がけ,重ね合わせを行い、連続的なデジタル音
声信号とする。
【0058】なお、上述実施例ではデコード時に現在の
フレームのマスキング・スレッショルドレベルを決定す
るのに、過去のフレームのマスキング・スレッショルド
レベルを参照して演算するようにしたが、過去のフレー
ムの他の信号スペクトルより演算するようにしても良
い。但し、上述実施例のようにマスキング・スレッショ
ルドレベルに基づいて演算することで、演算処理が簡単
になる。
【0059】また、上述実施例においては、MDCTに
よる直交変換されたデータのビットアロケーションに使
用するスレッショルドレベルに適用したが、DCT,F
FT(高速フーリエ変換)などの他の直交変換にも適用
できると共に、サブ・バンド・コーデング(帯域分割符
号化)にも適用できる。
【0060】また、上述実施例ではエンコーダで高能率
符号化されたデータの伝送系については何も説明しなか
ったが、有線系,無線系による各種伝送システムが適用
できると共に、エンコーダで高能率符号化されたデータ
を各種記録媒体に記録させた後、この記録媒体からの再
生信号をデコーダで復元させるようにしても良い。何れ
の場合でも、本例ではビットレートが大幅に低減されて
いるので、伝送効率(記録効率)が良い。
【0061】
【発明の効果】本発明によると、現在のフレームの信号
スペクトル分布と、過去のフレームのマスキングスレッ
ショルドレベルとを使用して、現在のフレームのマスキ
ングスレッショルドレベルを決定するようにしたこと
で、継時マスキング効果(テンポラル・マスキング効
果)を利用した効率の良いマスキングスレッショルドレ
ベルの設定が可能になり、符号化されたデータのビット
レートを低減させることができる。
【0062】また本発明によると、現在のフレームの信
号スペクトル分布と、過去のフレームのマスキングスレ
ッショルドレベルとを使用して、現在のフレームのマス
キングスレッショルドレベルを求めると共に、このとき
求めた値と、過去のフレームのマスキングスレッショル
ドレベルとの差が所定量以上あるとき、この所定量の差
に制限された値を現在のフレームのマスキングスレッシ
ョルドレベルにするようにしたことで、符号化されたデ
ータのビットレートをより効率良く低減させることがで
きる。
【0063】この場合、マスキングスレッショルドレベ
ルの制限が行われる量を、高域成分と低域成分とで変化
させ、高域成分での制限量を低域成分での制限量よりも
緩くしたことで、符号化された音声データの品質を低下
させずに、効率良くビットレートを低減させることがで
きる。
【図面の簡単な説明】
【図1】本発明の一実施例によるエンコーダを示す構成
図である。
【図2】本発明の一実施例によるデコーダを示す構成図
である。
【図3】マスキング・スレッショルドレベルの設定状態
を示す説明図である。
【図4】一実施例によるマスキング・スレッショルドレ
ベルの変化状態を示す周波数特性図である。
【図5】適応変換符号化のブロックを示す説明図であ
る。
【符号の説明】
1 音声信号入力端子 2 窓がけ回路 3 MDCT回路 4 適応量子化器 5 マスキング・スレッショルド及びRMS値計算回路 6 パラメータ量子化器 7 ビットアロケーション計算回路 8 データ出力端子 9 付加情報出力端子 11 データ入力端子 12 付加情報入力端子 13 適応逆量子化器 14 逆MDCT回路 15 窓がけ・重ね合わせ回路 16 音声信号出力端子
フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 11/00,19/00 - 19/02 JICSTファイル(JOIS)

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声信号を周波数領域に変換し、該変換
    された信号のビットアロケーションを行って符号化する
    音声信号処理方法において、 マスキング効果による聴覚上の雑音低減が行われるマス
    キングスレッショルドレベルの決定を、 現在のフレームの信号スペクトル分布と、過去のフレー
    ムのマスキングスレッショルドレベルとを使用して行う
    ようにした音声信号処理方法。
  2. 【請求項2】 音声信号を周波数領域に変換し、該変換
    された信号のビットアロケーションを行って符号化する
    音声信号処理方法において、 マスキング効果による聴覚上の雑音低減が行われるマス
    キングスレッショルドレベルを、 現在のフレームの信号スペクトル分布と、過去のフレー
    ムのマスキングスレッショルドレベルとを使用して求め
    ると共に、 この求めた値と、上記過去のフレームのマスキングスレ
    ッショルドレベルとの差が所定量以上あるとき、この所
    定量の差に制限された値を現在のフレームのマスキング
    スレッショルドレベルにするようにした音声信号処理方
    法。
  3. 【請求項3】 上記マスキングスレッショルドレベルの
    制限が行われる所定量を、高域成分と低域成分とで変化
    させ、高域成分での制限量を低域成分での制限量よりも
    緩くした請求項2記載の音声信号処理方法。
JP04972092A 1992-03-06 1992-03-06 音声信号処理方法 Expired - Lifetime JP3446216B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP04972092A JP3446216B2 (ja) 1992-03-06 1992-03-06 音声信号処理方法
US08/026,562 US5475789A (en) 1992-03-06 1993-03-04 Method of compressing an audio signal using adaptive bit allocation taking account of temporal masking
US08/456,174 US5651093A (en) 1992-03-06 1995-05-30 Method of processing audio signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04972092A JP3446216B2 (ja) 1992-03-06 1992-03-06 音声信号処理方法

Publications (2)

Publication Number Publication Date
JPH05248972A JPH05248972A (ja) 1993-09-28
JP3446216B2 true JP3446216B2 (ja) 2003-09-16

Family

ID=12839030

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04972092A Expired - Lifetime JP3446216B2 (ja) 1992-03-06 1992-03-06 音声信号処理方法

Country Status (2)

Country Link
US (2) US5475789A (ja)
JP (1) JP3446216B2 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5623577A (en) * 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
EP0657874B1 (en) * 1993-12-10 2001-03-14 Nec Corporation Voice coder and a method for searching codebooks
PL183307B1 (pl) * 1994-03-31 2002-06-28 Arbitron Co System kodowania sygnału dźwiękowego
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
JPH0836399A (ja) * 1994-07-21 1996-02-06 Sony Corp オーディオ符号化データの処理装置
KR0144011B1 (ko) * 1994-12-31 1998-07-15 김주용 엠펙 오디오 데이타 고속 비트 할당 및 최적 비트 할당 방법
JP3152109B2 (ja) * 1995-05-30 2001-04-03 日本ビクター株式会社 オーディオ信号の圧縮伸張方法
JP3082625B2 (ja) * 1995-07-15 2000-08-28 日本電気株式会社 音声信号処理回路
DE69620967T2 (de) * 1995-09-19 2002-11-07 At & T Corp., New York Synthese von Sprachsignalen in Abwesenheit kodierter Parameter
JP3328532B2 (ja) 1997-01-22 2002-09-24 シャープ株式会社 デジタルデータの符号化方法
US6091773A (en) * 1997-11-12 2000-07-18 Sydorenko; Mark R. Data compression method and apparatus
US6252905B1 (en) 1998-02-05 2001-06-26 International Business Machines Corporation Real-time evaluation of compressed picture quality within a digital video encoder
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
US6195633B1 (en) 1998-09-09 2001-02-27 Sony Corporation System and method for efficiently implementing a masking function in a psycho-acoustic modeler
US6418404B1 (en) 1998-12-28 2002-07-09 Sony Corporation System and method for effectively implementing fixed masking thresholds in an audio encoder device
AU2018201A (en) 1999-10-12 2001-04-23 Perception Digital Technology (Bvi) Limited Digital multimedia jukebox
EP1228506B1 (en) * 1999-10-30 2006-08-16 STMicroelectronics Asia Pacific Pte Ltd. Method of encoding an audio signal using a quality value for bit allocation
WO2001033411A1 (en) * 1999-10-30 2001-05-10 Stmicroelectronics Asia Pacific Pte. Ltd. Fast modified discrete cosine transform method
JP4021124B2 (ja) 2000-05-30 2007-12-12 株式会社リコー デジタル音響信号符号化装置、方法及び記録媒体
JP3659321B2 (ja) * 2000-06-29 2005-06-15 インターナショナル・ビジネス・マシーンズ・コーポレーション 電子透かし方法およびそのシステム
KR20020070373A (ko) * 2000-11-03 2002-09-06 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호들의 사인 곡선 모델 기초 코딩
US6963842B2 (en) * 2001-09-05 2005-11-08 Creative Technology Ltd. Efficient system and method for converting between different transform-domain signal representations
US20060224390A1 (en) * 2005-04-01 2006-10-05 Pai Ramadas L System, method, and apparatus for audio decoding accelerator
US7684981B2 (en) * 2005-07-15 2010-03-23 Microsoft Corporation Prediction of spectral coefficients in waveform coding and decoding
JP4556866B2 (ja) * 2005-12-27 2010-10-06 日本ビクター株式会社 高能率符号化プログラム及び高能率符号化装置
EP2401872A4 (en) * 2009-02-25 2012-05-23 Conexant Systems Inc SYSTEM AND METHOD FOR REDUCING SPEAKER DISTORTION
JP6160072B2 (ja) 2012-12-06 2017-07-12 富士通株式会社 オーディオ信号符号化装置および方法、オーディオ信号伝送システムおよび方法、オーディオ信号復号装置
JP6586804B2 (ja) * 2015-07-14 2019-10-09 富士通株式会社 符号化装置、符号化方法、及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5185800A (en) * 1989-10-13 1993-02-09 Centre National D'etudes Des Telecommunications Bit allocation device for transformed digital audio broadcasting signals with adaptive quantization based on psychoauditive criterion
US5040217A (en) * 1989-10-18 1991-08-13 At&T Bell Laboratories Perceptual coding of audio signals
JP2751564B2 (ja) * 1990-05-25 1998-05-18 ソニー株式会社 ディジタル信号符号化装置
US5317672A (en) * 1991-03-05 1994-05-31 Picturetel Corporation Variable bit rate speech encoder
JP3141450B2 (ja) * 1991-09-30 2001-03-05 ソニー株式会社 オーディオ信号処理方法
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model

Also Published As

Publication number Publication date
US5651093A (en) 1997-07-22
US5475789A (en) 1995-12-12
JPH05248972A (ja) 1993-09-28

Similar Documents

Publication Publication Date Title
JP3446216B2 (ja) 音声信号処理方法
JP3141450B2 (ja) オーディオ信号処理方法
US5553193A (en) Bit allocation method and device for digital audio signals using aural characteristics and signal intensities
US5634082A (en) High efficiency audio coding device and method therefore
US5537510A (en) Adaptive digital audio encoding apparatus and a bit allocation method thereof
US20040162720A1 (en) Audio data encoding apparatus and method
US6604069B1 (en) Signals having quantized values and variable length codes
EP0967593A1 (en) Audio coding and quantization method
JPH07154266A (ja) 信号符号化方法及び装置、信号復号化方法及び装置、並びに記録媒体
KR100512208B1 (ko) 디지탈신호처리방법,디지탈신호처리장치,디지탈신호기록방법,디지탈신호기록장치,기록매체,디지탈신호전송방법,및디지탈신호전송장치
JPH0846518A (ja) 情報符号化方法及び復号化方法、情報符号化装置及び復号化装置、並びに情報記録媒体
JP3557674B2 (ja) 高能率符号化方法及び装置
JPH0846517A (ja) 高能率符号化及び復号化システム
JP3336619B2 (ja) 信号処理装置
JP3134363B2 (ja) 量子化方法
JP3255047B2 (ja) 符号化装置および方法
JP3291948B2 (ja) 高能率符号化方法及び装置、並びに伝送媒体
JP3454394B2 (ja) 音声の準可逆符号化装置
JP3089692B2 (ja) ディジタルデータの高能率符号化方法
JP3200886B2 (ja) オーディオ信号処理方法
JP3227945B2 (ja) 符号化装置
KR0144841B1 (ko) 음향신호의 적응적 부호화 및 복호화장치
JPH07221649A (ja) 情報符号化方法及び装置、情報復号化方法及び装置並びに情報記録媒体及び情報伝送方法
JP3141853B2 (ja) オーディオ信号処理方法
JP3152114B2 (ja) オーディオ信号の符号化装置及び復号化装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080704

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090704

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090704

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100704

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100704

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110704

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110704

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120704

Year of fee payment: 9

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120704

Year of fee payment: 9