JPH0695700A - 音声符号化方法及びその装置 - Google Patents

音声符号化方法及びその装置

Info

Publication number
JPH0695700A
JPH0695700A JP4240616A JP24061692A JPH0695700A JP H0695700 A JPH0695700 A JP H0695700A JP 4240616 A JP4240616 A JP 4240616A JP 24061692 A JP24061692 A JP 24061692A JP H0695700 A JPH0695700 A JP H0695700A
Authority
JP
Japan
Prior art keywords
quantization level
quantized
quantization
outputted
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4240616A
Other languages
English (en)
Inventor
Masami Aizawa
雅己 相沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP4240616A priority Critical patent/JPH0695700A/ja
Publication of JPH0695700A publication Critical patent/JPH0695700A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 本発明は、トランジェント波形に対しても復
号化したさいに波形が歪むことの無い音声符号化方法及
びその装置を提供することを目的とする。 【構成】 本願第1の発明は、音声信号を符号化する際
に聴覚心理モデルに基づく音声圧縮を行う音声符号化方
法であって、入力される音声信号をスペクトル毎に量子
化する際の量子化レベルを該音声信号の急峻な立ち上が
りが検出されるときに変更することを要旨とする。ま
た、本願第2の発明は、入力される音声信号の急峻な立
ち上がりを検出する立上り検出手段と、前記音声信号の
周波数分解を行なう周波数分解手段と、前記立上り検出
手段の出力と周波数分解手段の出力とから聴覚心理モデ
ルに基づき量子化レベルを算出する量子化レベル算出手
段と、この量子化レベル算出手段で算出される量子化レ
ベルに基づきスペクトル毎の量子化を行なう量子化手段
とを備えて構成される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、聴覚心理モデルに基づ
く音声圧縮を行う音声符号化方法及びその装置に関する
ものである。
【0002】
【従来の技術】従来、各種音源による音声信号の符号化
には時間軸上の相関を利用した適応差分PCM(ADP
CM;Adaptive Differential
PCM)、準瞬時圧縮等が利用されている。また、高能
率音声符号化は符号化する際に入力される音声信号をス
ペクトル解析し、人の聴覚心理モデルに基づき、人の耳
で聞こえない成分についての情報を削減することで大幅
な圧縮を行ない高能率伝送を行うものである。
【0003】図7を参照して、従来の高能率音声符号化
方式について説明する。この従来の高能率音声符号化装
置に入力された16ビットPCMSpは、1024サン
プルを1ブロックとしており、個別余弦波変換(DC
T;Discrete Cosine Transfo
rm)、サブバンドフィルタ等によるスペクトル分析器
101において周波数成分に分解され、量子化器103
に送られる。
【0004】一方、前記16ビットPCMSpが入力さ
れる量子化レベル算出器106では、該1024サンプ
ルのデータをフーリエ変換し、周波数成分に分け、さら
に大きな音が小さい音を消してしまう聴覚心理に基づく
マスキング理論(参考文献電子通信学会「聴覚と音声」
p.111−114)及び、静寂時において知覚される
最小値である最小可聴限を考慮してスペクトル毎に量子
化レベルを算出し、この量子化レベルを量子化器103
に送る。
【0005】量子化器103では、この量子化レベル算
出器106から送られた量子化レベルにより、スペクト
ル毎に量子化を行ない、マルチプレクサ109に送る。
【0006】マルチプレクサ109は量子化器103よ
り送られた量子化データを多重化してビットストリーム
Sbを出力する。
【0007】一般に人間の聴覚は周波数分析を行なう器
官と考えられているが、一部では時間軸上においても解
析が行なわれていることが示されている。そこで実際に
はトランジェントな音(急激な信号の立ち上がりによる
音)は、一般的に考えられていたような音とは異なる性
質を持ち、時間軸上の波形そのものとして知覚されるた
め高域の情報が削除されると波形が歪み、聴感上の歪み
が検出される可能性がある。
【0008】
【発明が解決しようとする課題】しかしながら、従来の
高能率音声符号化装置では、図8に示すように符号化の
処理をサンプルをブロック化することにより生じる量子
化歪みが、ブロック内に広がることにより、無音部分に
量子化歪みが生ずることだけを考慮していた。そのた
め、時間軸上の急激な立ち上がりであるトランジェント
波形において高域の情報が削除されることにより波形が
歪み、復号化した場合、聴感上の歪みが生じることを問
題とするには至っていなかった。
【0009】本発明は、上記課題に鑑みてなされたもの
で、トランジェント波形に対しても復号化したさいに波
形が歪むことの無い音声符号化方法及びその装置を提供
することを目的とする。
【0010】
【課題を解決するための手段】上記目的を達成するため
本願第1の発明は、音声信号を符号化する際に聴覚心理
モデルに基づく音声圧縮を行う音声符号化方法であっ
て、入力される音声信号をスペクトル毎に量子化する際
の量子化レベルを該音声信号の急峻な立ち上がりが検出
されるときに変更することを要旨とする。
【0011】また、本願第2の発明は、入力される音声
信号の急峻な立ち上がりを検出する立上り検出手段と、
前記音声信号の周波数分解を行なう周波数分解手段と、
前記立上り検出手段の出力と周波数分解手段の出力とか
ら聴覚心理モデルに基づき量子化レベルを算出する量子
化レベル算出手段と、この量子化レベル算出手段で算出
される量子化レベルに基づきスペクトル毎の量子化を行
なう量子化手段とを有することを要旨とする。
【0012】
【作用】本願第1の発明の音声符号化方法は、入力され
る音声信号の周波数解析を行ない、聴覚心理モデルに基
づいたマスキング理論により量子化ノイズが知覚されな
いようにスペクトル毎の量子化レベルを算出する。ここ
で急激な立ち上がりであるトランジェントな音を検出す
ると、例えば聴覚心理モデルを変えスペクトル毎の量子
化レベレを変える。これにより聴感上の歪みを軽減でき
る。
【0013】本願第2の発明の音声符号化装置は、周波
数分解手段によって入力される音声信号の周波数解析を
行ない、聴覚心理モデルに基づいたマスキング理論によ
り量子化ノイズが知覚されないようにスペクトル毎の量
子化レベルを量子化レベル算出手段で算出する。ここで
立上り検出手段が急激な立ち上がりであるトランジェン
トな音を検出すると当該量子化レベル算出手段はスペク
トル毎の量子化レベレを変える。これにより聴感上の歪
みを軽減できる。
【0014】
【実施例】次に、本発明の一実施例について図面を参照
しながら説明する。図1は本実施例の音声符号化装置全
体の概略の構成を示すブロック図である。
【0015】図1において、入力されるディジタル音声
信号Spは周波数分解手段としてのスペクトル分析器
1、立上り検出手段としてのトランジェント検出器5及
び量子化レベル算出手段としての量子化レベル算出器7
にそれぞれ供給される。トランジェント検出器5でトラ
ンジェントが検出されたときにはトランジェント検出信
号Stが接続される量子化レベル算出器7に出力され
る。
【0016】この量子化レベル算出器7は、図2に示す
ようにディジタル音声信号Spを入力する直交変換部7
1と、この直交変換部71と帯域分割部73及び帯域毎
エネルギ算出部75を介して接続される各帯域のマスキ
ングスレッショルド算出部77と、最小可聴限値を加算
器81に出力する最小可聴限79及びマスキングスレッ
ショルド算出部77からのスレッショルドSmと加算器
81からのスレッショルドSnとを入力してトランジェ
ント検出信号Stの有無によってスレッショルドSmと
スレッショルドSnのいづれかを選択して出力する選択
器83によって構成される。
【0017】この量子化レベル算出器7で算出された量
子化レベルは、量子化手段としての量子化器3に出力さ
れる。この量子化器3はスペクトル分析器1から出力さ
れるスペクトル毎に、量子化レベル算出器7から出力さ
れる量子化レベルに基づいて量子化を行う。この量子化
器3で量子化され出力された量子化データは、マルチプ
レクサ9で多重化され、ビットストリームSbとして、
図示しない符号化部へ出力される。
【0018】次に、本実施例の作用を詳細に説明する。
本実施例のディジタル音声信号Spは512サンプルを
1ブロックとして構成され、前ブロックとあわせ102
4サンプルの音声信号としてスペクトル分析器1に入力
される。このスペクトル分析器1は、帯域分割符号化
(サブバンドコーディング)及び、直交変換(離散フー
リエ変換、離散コサイン変換)を行なうものである。こ
のスペクトル分析器1により、ディジタル音声信号Sp
は周波数成分に分解され、量子化器3に送られる。
【0019】トランジェント検出器5では、入力される
ディジタル音声信号Spの時間軸上における急激な立ち
上がりを検出する。この急激な立ち上がりは、例えばエ
ネルギーの増減を求めることにより行う。具体的には、
まず1024サンプルの値をx0 よりx1023とし、64
サンプル毎に自乗和を求める。
【0020】
【数1】 次に32サンプルずらし、同様に64サンプル毎の自乗
和を求める。
【0021】
【数2】 ここでそれぞれ Ek >12Ek-1 k=1,…,15 Eak>12Ea(k-1) k=1,…,14 が少なくとも一つ以上成立するときトランジェントとみ
なし、トランジェント検出信号Stを量子化レベル算出
器7に送る。
【0022】量子化レベル算出器7の一実施例を図2に
示す。直交変換部71では、1024サンプルのデータ
に窓をかけ、フーリエ変換を行ない、512のスペクト
ル成分に分け、実数成分と虚数成分から振幅成分を求め
る。
【0023】帯域分割部73では上記振幅成分を臨界帯
域(クリティカルバンド)に分割する。クリティカルバ
ンドとは、人間の聴覚特性(周波数分析能力)を考慮し
たものであり、可聴域の20〜20kHzを24バンドに
分け、高い周波数ほどバンド幅が広くなっている。つま
り人間の聴覚が一種のバンドパスフィルタの特性を持つ
ためで、このバンドを臨界帯域と言い単位をバークであ
らわす。
【0024】帯域毎エネルギ算出部75はバンドに分割
した周波数データの各バンド毎のエネルギ(自乗和)を
求める。
【0025】各帯域のマスキングスレッショルド算出部
77は図3に示すような、大きな音Pbが周波数軸上で
隣接する小さい音Psをかき消してしまうという、聴覚
心理におけるマスキング理論にもとづき、バンド毎の許
容ノイズレベル(マスキングスレッショルド)をバンド
毎のエネルギから求める。各バンドのエネルギは例えば
−6dB下の位置から低域方向に18dB/バーク、高
域方向に−6dB/バークの傾きのマスキングを行な
う。図4は、ある1つのバンドnのエネルギEが他のバ
ンドに及ぼすマスキングレベルを示している。
【0026】このようにすべてのバンドのエネルギがつ
くるマスキングの和を全体のマスキング信号Smとして
出力する。
【0027】加算器81では、静寂時において知覚され
る最小値である最小可聴限値を最小可聴限79から得
て、この最小可聴限値と前記求めたマスキングスレッシ
ョルドSmとの和である新しいマスキングスレッショル
ドSnを算出する。
【0028】図3を参照するに、マスキングスレッショ
ルド算出部77で算出されたマスキングスレッショルド
L´m以下となるように量子化レベルL´q(図中、点
線で示す)を算出し、選択器83に送る(Sm)。ま
た、最小可聴限を加算したマスキングスレッショルドL
m以下となるように量子化レベルLq(図中、斜線部で
示す)を算出し、選択器83に送る(Sn)。
【0029】選択器83は、トランジェント検出信号S
tが未検出を示す場合は加算器81で加算されたスレッ
ショルドSnを選択し、トランジェント検出信号Stが
検出を示すと、スレッショルドSmを選択する。これに
より、トランジェントが検出されたときには、最小可聴
限によるスレッショルドが利用されないことから時間軸
上の立上りの歪みを未然に防止することが可能となる。
【0030】量子化レベル算出器7の他の実施例を図5
に示す。この図5に示す量子化レベル算出器7は、図2
に示した量子化レベル算出器7と比較してマスキングス
レッショルド操作部85のみが異なり、直交変換部7
1、帯域分割部73、帯域毎エネルギ算出部75及び各
帯域のマスキングスレッショルド算出部77は略同様な
構成である。
【0031】この場合、マスキングスレッショルド操作
部85の操作により、トランジェント検出信号Stを高
域の12kHz以上のバンドのマスキングスレッショルド
Smを20dB下げることによっても時間軸上の波形の
立ち上がりのくずれを防ぐことが可能となる。このスレ
ッショルドSmを下げた様子を図6に示す。
【0032】量子化器3では、量子化レベル算出器7か
ら送られた量子化レベルLqにより、スペクトル毎に量
子化を行なう。量子化されたデータをハフマン符号化、
ランレングス符号化等の方式によりさらに圧縮し、マル
チプレクサ7により多重化されビットストリームSbが
出力される。
【0033】尚、本発明は上記の実施例に限定されるこ
と無く、例えば様々にスペクトル毎の量子化レベルを変
えること等によっても聴感上の歪みを無くすことが可能
となる。
【0034】
【発明の効果】以上説明した様に、本発明は音声信号の
急峻な立ち上がりが検出されるときに量子化レベルを変
更するようにしたので復号化した際の聴感上の歪みを軽
減することができる。
【図面の簡単な説明】
【図1】本発明に係る一実施例の概略の構成を示すブロ
ック図である。
【図2】図1に示す量子化レベル算出器の構成を示すブ
ロック図である。
【図3】聴覚心理によるマスキングを示す図である。
【図4】マスキングスレッショルドを示す図である。
【図5】図1に示す量子化レベル算出器の他の実施例の
構成を示すブロック図である。
【図6】他の実施例における聴覚心理によるマスキング
を示す図である。
【図7】従来の高能率音声符号化器の構成を示すブロッ
ク図である。
【図8】ブロック化により量子化歪みが無音部分に広が
る状態を示す図である。
【符号の説明】
1 スペクトル分析器 3 量子化器 5 トランジェント検出器 7 量子化レベル算出器 9 マルチプレクサ 71 直交変換部 73 帯域分割部 75 帯域毎エネルギ算出部 77 各帯域のマスキングスレッショルド算出部 79 最小可聴限 81 加算器 83 選択器 85 マスキングスレッショルド操作部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 音声信号を符号化する際に聴覚心理モデ
    ルに基づく音声圧縮を行う音声符号化方法であって、 入力される音声信号をスペクトル毎に量子化する際の量
    子化レベルを該音声信号の急峻な立ち上がりが検出され
    るときに変更することを特徴とする音声符号化方法。
  2. 【請求項2】 入力される音声信号の急峻な立ち上がり
    を検出する立上り検出手段と、 前記音声信号の周波数分解を行なう周波数分解手段と、 前記立上り検出手段の出力と周波数分解手段の出力とか
    ら聴覚心理モデルに基づき量子化レベルを算出する量子
    化レベル算出手段と、 この量子化レベル算出手段で算出される量子化レベルに
    基づきスペクトル毎の量子化を行なう量子化手段とを有
    することを特徴とする音声符号化装置。
JP4240616A 1992-09-09 1992-09-09 音声符号化方法及びその装置 Pending JPH0695700A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4240616A JPH0695700A (ja) 1992-09-09 1992-09-09 音声符号化方法及びその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4240616A JPH0695700A (ja) 1992-09-09 1992-09-09 音声符号化方法及びその装置

Publications (1)

Publication Number Publication Date
JPH0695700A true JPH0695700A (ja) 1994-04-08

Family

ID=17062151

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4240616A Pending JPH0695700A (ja) 1992-09-09 1992-09-09 音声符号化方法及びその装置

Country Status (1)

Country Link
JP (1) JPH0695700A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010518422A (ja) * 2007-02-02 2010-05-27 フランス・テレコム 改良形デジタルオーディオ信号符号化/復号化方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010518422A (ja) * 2007-02-02 2010-05-27 フランス・テレコム 改良形デジタルオーディオ信号符号化/復号化方法

Similar Documents

Publication Publication Date Title
US5825320A (en) Gain control method for audio encoding device
US6240380B1 (en) System and method for partially whitening and quantizing weighting functions of audio signals
EP1701452B1 (en) System and method for masking quantization noise of audio signals
US6253165B1 (en) System and method for modeling probability distribution functions of transform coefficients of encoded signal
KR100348368B1 (ko) 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체
US7917369B2 (en) Quality improvement techniques in an audio encoder
KR20010014352A (ko) 음성 통신 시스템에서 음성 강화를 위한 방법 및 장치
JP4008244B2 (ja) 符号化装置および復号化装置
JP3081378B2 (ja) 毎秒32kbの可聴周波数信号の符号化方法
KR100750115B1 (ko) 오디오 신호 부호화 및 복호화 방법 및 그 장치
US20020152085A1 (en) Encoding apparatus and decoding apparatus
US7050965B2 (en) Perceptual normalization of digital audio signals
JPH0695700A (ja) 音声符号化方法及びその装置
JP3513178B2 (ja) 情報符号化又は復号化方法、並びに装置
CN112771610A (zh) 用压扩对密集瞬态事件进行译码
JP3263881B2 (ja) 情報符号化方法及び装置、情報復号化方法及び装置並びに情報記録媒体及び情報伝送方法
JPH0918348A (ja) 音響信号符号化装置及び音響信号復号装置
Sathidevi et al. Perceptual audio coding using sinusoidal/optimum wavelet representation
Yan Audio compression via nonlinear transform coding and stochastic binary activation
KR0144841B1 (ko) 음향신호의 적응적 부호화 및 복호화장치
KR101386645B1 (ko) 모바일 기기에서 지각적 오디오 코딩 장치 및 방법
KR970013781A (ko) 디지탈 스테레오 오디오 데이타의 부호화 및 복호화 장치
JPH0746137A (ja) 音声高能率符号化装置
JPH07106977A (ja) 情報復号化装置
Jagadeesh et al. Novel Approach of Implementing Psychoacoustic model for MPEG-1 Audio