JPH0695700A

JPH0695700A - 音声符号化方法及びその装置

Info

Publication number: JPH0695700A
Application number: JP4240616A
Authority: JP
Inventors: Masami Aizawa; 雅己相沢
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1992-09-09
Filing date: 1992-09-09
Publication date: 1994-04-08

Abstract

(57)【要約】【目的】本発明は、トランジェント波形に対しても復
号化したさいに波形が歪むことの無い音声符号化方法及
びその装置を提供することを目的とする。【構成】本願第１の発明は、音声信号を符号化する際
に聴覚心理モデルに基づく音声圧縮を行う音声符号化方
法であって、入力される音声信号をスペクトル毎に量子
化する際の量子化レベルを該音声信号の急峻な立ち上が
りが検出されるときに変更することを要旨とする。ま
た、本願第２の発明は、入力される音声信号の急峻な立
ち上がりを検出する立上り検出手段と、前記音声信号の
周波数分解を行なう周波数分解手段と、前記立上り検出
手段の出力と周波数分解手段の出力とから聴覚心理モデ
ルに基づき量子化レベルを算出する量子化レベル算出手
段と、この量子化レベル算出手段で算出される量子化レ
ベルに基づきスペクトル毎の量子化を行なう量子化手段
とを備えて構成される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、聴覚心理モデルに基づ
く音声圧縮を行う音声符号化方法及びその装置に関する
ものである。

【０００２】

【従来の技術】従来、各種音源による音声信号の符号化
には時間軸上の相関を利用した適応差分ＰＣＭ（ＡＤＰ
ＣＭ；ＡｄａｐｔｉｖｅＤｉｆｆｅｒｅｎｔｉａｌ
ＰＣＭ）、準瞬時圧縮等が利用されている。また、高能
率音声符号化は符号化する際に入力される音声信号をス
ペクトル解析し、人の聴覚心理モデルに基づき、人の耳
で聞こえない成分についての情報を削減することで大幅
な圧縮を行ない高能率伝送を行うものである。

【０００３】図７を参照して、従来の高能率音声符号化
方式について説明する。この従来の高能率音声符号化装
置に入力された１６ビットＰＣＭＳｐは、１０２４サン
プルを１ブロックとしており、個別余弦波変換（ＤＣ
Ｔ；ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏ
ｒｍ）、サブバンドフィルタ等によるスペクトル分析器
１０１において周波数成分に分解され、量子化器１０３
に送られる。

【０００４】一方、前記１６ビットＰＣＭＳｐが入力さ
れる量子化レベル算出器１０６では、該１０２４サンプ
ルのデータをフーリエ変換し、周波数成分に分け、さら
に大きな音が小さい音を消してしまう聴覚心理に基づく
マスキング理論（参考文献電子通信学会「聴覚と音声」
ｐ．１１１−１１４）及び、静寂時において知覚される
最小値である最小可聴限を考慮してスペクトル毎に量子
化レベルを算出し、この量子化レベルを量子化器１０３
に送る。

【０００５】量子化器１０３では、この量子化レベル算
出器１０６から送られた量子化レベルにより、スペクト
ル毎に量子化を行ない、マルチプレクサ１０９に送る。

【０００６】マルチプレクサ１０９は量子化器１０３よ
り送られた量子化データを多重化してビットストリーム
Ｓｂを出力する。

【０００７】一般に人間の聴覚は周波数分析を行なう器
官と考えられているが、一部では時間軸上においても解
析が行なわれていることが示されている。そこで実際に
はトランジェントな音（急激な信号の立ち上がりによる
音）は、一般的に考えられていたような音とは異なる性
質を持ち、時間軸上の波形そのものとして知覚されるた
め高域の情報が削除されると波形が歪み、聴感上の歪み
が検出される可能性がある。

【０００８】

【発明が解決しようとする課題】しかしながら、従来の
高能率音声符号化装置では、図８に示すように符号化の
処理をサンプルをブロック化することにより生じる量子
化歪みが、ブロック内に広がることにより、無音部分に
量子化歪みが生ずることだけを考慮していた。そのた
め、時間軸上の急激な立ち上がりであるトランジェント
波形において高域の情報が削除されることにより波形が
歪み、復号化した場合、聴感上の歪みが生じることを問
題とするには至っていなかった。

【０００９】本発明は、上記課題に鑑みてなされたもの
で、トランジェント波形に対しても復号化したさいに波
形が歪むことの無い音声符号化方法及びその装置を提供
することを目的とする。

【００１０】

【課題を解決するための手段】上記目的を達成するため
本願第１の発明は、音声信号を符号化する際に聴覚心理
モデルに基づく音声圧縮を行う音声符号化方法であっ
て、入力される音声信号をスペクトル毎に量子化する際
の量子化レベルを該音声信号の急峻な立ち上がりが検出
されるときに変更することを要旨とする。

【００１１】また、本願第２の発明は、入力される音声
信号の急峻な立ち上がりを検出する立上り検出手段と、
前記音声信号の周波数分解を行なう周波数分解手段と、
前記立上り検出手段の出力と周波数分解手段の出力とか
ら聴覚心理モデルに基づき量子化レベルを算出する量子
化レベル算出手段と、この量子化レベル算出手段で算出
される量子化レベルに基づきスペクトル毎の量子化を行
なう量子化手段とを有することを要旨とする。

【００１２】

【作用】本願第１の発明の音声符号化方法は、入力され
る音声信号の周波数解析を行ない、聴覚心理モデルに基
づいたマスキング理論により量子化ノイズが知覚されな
いようにスペクトル毎の量子化レベルを算出する。ここ
で急激な立ち上がりであるトランジェントな音を検出す
ると、例えば聴覚心理モデルを変えスペクトル毎の量子
化レベレを変える。これにより聴感上の歪みを軽減でき
る。

【００１３】本願第２の発明の音声符号化装置は、周波
数分解手段によって入力される音声信号の周波数解析を
行ない、聴覚心理モデルに基づいたマスキング理論によ
り量子化ノイズが知覚されないようにスペクトル毎の量
子化レベルを量子化レベル算出手段で算出する。ここで
立上り検出手段が急激な立ち上がりであるトランジェン
トな音を検出すると当該量子化レベル算出手段はスペク
トル毎の量子化レベレを変える。これにより聴感上の歪
みを軽減できる。

【００１４】

【実施例】次に、本発明の一実施例について図面を参照
しながら説明する。図１は本実施例の音声符号化装置全
体の概略の構成を示すブロック図である。

【００１５】図１において、入力されるディジタル音声
信号Ｓｐは周波数分解手段としてのスペクトル分析器
１、立上り検出手段としてのトランジェント検出器５及
び量子化レベル算出手段としての量子化レベル算出器７
にそれぞれ供給される。トランジェント検出器５でトラ
ンジェントが検出されたときにはトランジェント検出信
号Ｓｔが接続される量子化レベル算出器７に出力され
る。

【００１６】この量子化レベル算出器７は、図２に示す
ようにディジタル音声信号Ｓｐを入力する直交変換部７
１と、この直交変換部７１と帯域分割部７３及び帯域毎
エネルギ算出部７５を介して接続される各帯域のマスキ
ングスレッショルド算出部７７と、最小可聴限値を加算
器８１に出力する最小可聴限７９及びマスキングスレッ
ショルド算出部７７からのスレッショルドＳｍと加算器
８１からのスレッショルドＳｎとを入力してトランジェ
ント検出信号Ｓｔの有無によってスレッショルドＳｍと
スレッショルドＳｎのいづれかを選択して出力する選択
器８３によって構成される。

【００１７】この量子化レベル算出器７で算出された量
子化レベルは、量子化手段としての量子化器３に出力さ
れる。この量子化器３はスペクトル分析器１から出力さ
れるスペクトル毎に、量子化レベル算出器７から出力さ
れる量子化レベルに基づいて量子化を行う。この量子化
器３で量子化され出力された量子化データは、マルチプ
レクサ９で多重化され、ビットストリームＳｂとして、
図示しない符号化部へ出力される。

【００１８】次に、本実施例の作用を詳細に説明する。
本実施例のディジタル音声信号Ｓｐは５１２サンプルを
１ブロックとして構成され、前ブロックとあわせ１０２
４サンプルの音声信号としてスペクトル分析器１に入力
される。このスペクトル分析器１は、帯域分割符号化
（サブバンドコーディング）及び、直交変換（離散フー
リエ変換、離散コサイン変換）を行なうものである。こ
のスペクトル分析器１により、ディジタル音声信号Ｓｐ
は周波数成分に分解され、量子化器３に送られる。

【００１９】トランジェント検出器５では、入力される
ディジタル音声信号Ｓｐの時間軸上における急激な立ち
上がりを検出する。この急激な立ち上がりは、例えばエ
ネルギーの増減を求めることにより行う。具体的には、
まず１０２４サンプルの値をｘ₀よりｘ₁₀₂₃とし、６４
サンプル毎に自乗和を求める。

【００２０】

【数１】次に３２サンプルずらし、同様に６４サンプル毎の自乗
和を求める。

【００２１】

【数２】ここでそれぞれＥ_k＞１２Ｅ_k-1 ｋ＝１，…，１５Ｅ_ak＞１２Ｅ_a(k-1) ｋ＝１，…，１４が少なくとも一つ以上成立するときトランジェントとみ
なし、トランジェント検出信号Ｓｔを量子化レベル算出
器７に送る。

【００２２】量子化レベル算出器７の一実施例を図２に
示す。直交変換部７１では、１０２４サンプルのデータ
に窓をかけ、フーリエ変換を行ない、５１２のスペクト
ル成分に分け、実数成分と虚数成分から振幅成分を求め
る。

【００２３】帯域分割部７３では上記振幅成分を臨界帯
域（クリティカルバンド）に分割する。クリティカルバ
ンドとは、人間の聴覚特性（周波数分析能力）を考慮し
たものであり、可聴域の２０〜２０ｋHzを２４バンドに
分け、高い周波数ほどバンド幅が広くなっている。つま
り人間の聴覚が一種のバンドパスフィルタの特性を持つ
ためで、このバンドを臨界帯域と言い単位をバークであ
らわす。

【００２４】帯域毎エネルギ算出部７５はバンドに分割
した周波数データの各バンド毎のエネルギ（自乗和）を
求める。

【００２５】各帯域のマスキングスレッショルド算出部
７７は図３に示すような、大きな音Ｐｂが周波数軸上で
隣接する小さい音Ｐｓをかき消してしまうという、聴覚
心理におけるマスキング理論にもとづき、バンド毎の許
容ノイズレベル（マスキングスレッショルド）をバンド
毎のエネルギから求める。各バンドのエネルギは例えば
−６ｄＢ下の位置から低域方向に１８ｄＢ／バーク、高
域方向に−６ｄＢ／バークの傾きのマスキングを行な
う。図４は、ある１つのバンドｎのエネルギＥが他のバ
ンドに及ぼすマスキングレベルを示している。

【００２６】このようにすべてのバンドのエネルギがつ
くるマスキングの和を全体のマスキング信号Ｓｍとして
出力する。

【００２７】加算器８１では、静寂時において知覚され
る最小値である最小可聴限値を最小可聴限７９から得
て、この最小可聴限値と前記求めたマスキングスレッシ
ョルドＳｍとの和である新しいマスキングスレッショル
ドＳｎを算出する。

【００２８】図３を参照するに、マスキングスレッショ
ルド算出部７７で算出されたマスキングスレッショルド
Ｌ´ｍ以下となるように量子化レベルＬ´ｑ（図中、点
線で示す）を算出し、選択器８３に送る（Ｓｍ）。ま
た、最小可聴限を加算したマスキングスレッショルドＬ
ｍ以下となるように量子化レベルＬｑ（図中、斜線部で
示す）を算出し、選択器８３に送る（Ｓｎ）。

【００２９】選択器８３は、トランジェント検出信号Ｓ
ｔが未検出を示す場合は加算器８１で加算されたスレッ
ショルドＳｎを選択し、トランジェント検出信号Ｓｔが
検出を示すと、スレッショルドＳｍを選択する。これに
より、トランジェントが検出されたときには、最小可聴
限によるスレッショルドが利用されないことから時間軸
上の立上りの歪みを未然に防止することが可能となる。

【００３０】量子化レベル算出器７の他の実施例を図５
に示す。この図５に示す量子化レベル算出器７は、図２
に示した量子化レベル算出器７と比較してマスキングス
レッショルド操作部８５のみが異なり、直交変換部７
１、帯域分割部７３、帯域毎エネルギ算出部７５及び各
帯域のマスキングスレッショルド算出部７７は略同様な
構成である。

【００３１】この場合、マスキングスレッショルド操作
部８５の操作により、トランジェント検出信号Ｓｔを高
域の１２ｋHz以上のバンドのマスキングスレッショルド
Ｓｍを２０ｄＢ下げることによっても時間軸上の波形の
立ち上がりのくずれを防ぐことが可能となる。このスレ
ッショルドＳｍを下げた様子を図６に示す。

【００３２】量子化器３では、量子化レベル算出器７か
ら送られた量子化レベルＬｑにより、スペクトル毎に量
子化を行なう。量子化されたデータをハフマン符号化、
ランレングス符号化等の方式によりさらに圧縮し、マル
チプレクサ７により多重化されビットストリームＳｂが
出力される。

【００３３】尚、本発明は上記の実施例に限定されるこ
と無く、例えば様々にスペクトル毎の量子化レベルを変
えること等によっても聴感上の歪みを無くすことが可能
となる。

【００３４】

【発明の効果】以上説明した様に、本発明は音声信号の
急峻な立ち上がりが検出されるときに量子化レベルを変
更するようにしたので復号化した際の聴感上の歪みを軽
減することができる。

【図面の簡単な説明】

【図１】本発明に係る一実施例の概略の構成を示すブロ
ック図である。

【図２】図１に示す量子化レベル算出器の構成を示すブ
ロック図である。

【図３】聴覚心理によるマスキングを示す図である。

【図４】マスキングスレッショルドを示す図である。

【図５】図１に示す量子化レベル算出器の他の実施例の
構成を示すブロック図である。

【図６】他の実施例における聴覚心理によるマスキング
を示す図である。

【図７】従来の高能率音声符号化器の構成を示すブロッ
ク図である。

【図８】ブロック化により量子化歪みが無音部分に広が
る状態を示す図である。

【符号の説明】

１スペクトル分析器３量子化器５トランジェント検出器７量子化レベル算出器９マルチプレクサ７１直交変換部７３帯域分割部７５帯域毎エネルギ算出部７７各帯域のマスキングスレッショルド算出部７９最小可聴限８１加算器８３選択器８５マスキングスレッショルド操作部

Claims

【特許請求の範囲】

【請求項１】音声信号を符号化する際に聴覚心理モデ
ルに基づく音声圧縮を行う音声符号化方法であって、入力される音声信号をスペクトル毎に量子化する際の量
子化レベルを該音声信号の急峻な立ち上がりが検出され
るときに変更することを特徴とする音声符号化方法。
【請求項２】入力される音声信号の急峻な立ち上がり
を検出する立上り検出手段と、前記音声信号の周波数分解を行なう周波数分解手段と、前記立上り検出手段の出力と周波数分解手段の出力とか
ら聴覚心理モデルに基づき量子化レベルを算出する量子
化レベル算出手段と、この量子化レベル算出手段で算出される量子化レベルに
基づきスペクトル毎の量子化を行なう量子化手段とを有
することを特徴とする音声符号化装置。