JPH09321628A

JPH09321628A - 音声符号化装置

Info

Publication number: JPH09321628A
Application number: JP8134812A
Authority: JP
Inventors: Toshiyuki Ishino; 俊之石野
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1996-05-29
Filing date: 1996-05-29
Publication date: 1997-12-12
Anticipated expiration: 2016-05-29
Also published as: JP2820117B2

Abstract

(57)【要約】【課題】同等の演算量でより効率の良い符号化を行うこ
と。【解決手段】音声符号化装置１０は、複数のフレームに
分割された入力音声信号データを一時記憶する入力デー
タメモリ８と、各フレームごとに周波数分割したデータ
とする周波数分割フィルタバンク１と、量子化ステップ
幅を計算すべきフレームを中に挟む前後のｉ個のフレー
ムを受け該当するフレームのスペクトラム解析の結果と
マスキングの効果を含む人間の聴覚特性とを用いて量子
化ステップ幅を計算する心理聴覚分析部７と、周波数分
割フィルタバンク１の出力を心理聴覚分析部７の示す量
子化ステップ幅で量子化する量子化器２と、量子化器２
の量子化したデータを多重化する多重化器３とを備えて
いる。また、心理聴覚分析部７は、フレームの周波数解
析を行うスペクトラム計算器４と、マスキングカーブを
求めるマスキングカーブ予測器５と、量子化ステップ幅
を求める量子化ステップ幅予測器６とを含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声符号化装置に関
し、特に心理聴覚分析を用いる音声符号化装置に関す
る。

【０００２】

【従来の技術】図３は従来の一般的な音声符号化装置の
構成を示すブロック図である。

【０００３】従来から、心理聴覚分析機能を用いた音声
符号化方式はフレーム単位の符号化を行っており、この
音声符号化装置２０では、周波数分割フィルタバンク１
１が入力されたＮフレーム目の入力音声信号データを周
波数領域の成分に分割する。一方、心理聴覚分析部１７
は、図４の入力音声信号データの構成を説明する説明図
に示すように、Ｎフレーム目のデータを符号化する場
合、（Ｎ−ｉ）フレーム目からＮフレーム目までのＡ領
域の入力音声信号データを、スペクトラム計算部１４に
入力して周波数解析を行い、この周波数解析結果と人間
の聴覚特性のマスキング効果とを考慮し、マスキングカ
ーブ予測器１５でマスキングカーブを算出し、このマス
キングカーブを基に、量子化ステップ幅予測器１６によ
り量子化ステップ幅を予測し、量子化器１２が予測され
た量子化ステップ幅で周波数分割フィルタバンク１１の
出力するデータの量子化を行っている。

【０００４】実際の使用例としては、例えば、国際標準
化機構であるＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／Ｗ
Ｇ１１の作業部会（ＭＰＥＧ；ＭｏｖｉｎｇＰｉｃｔ
ｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）の策定した、動
画像の高能率圧縮方式の１つであるＭＰＥＧ方式の音声
符号化方式の場合、ＭＰＥＧＡｕｄｉｏＬａｙｅｒ
Ｉ／II／III で用いられている心理聴覚分析部への音声
信号入力データは、Ｎフレーム目の音声入力信号を符号
化するさい、Ｎフレーム目のデータと（Ｎ−１）フレー
ム目のデータが入力される。この他の心理聴覚分析を用
いた符号化方式としては、ＭＤ（ミニ・ディスク）で用
いられているＡＴＲＡＣ音声符号化方式や、ＤＣＣ（デ
ィジタル・コンパクト・カセット）で用いられているＰ
ＡＳＣ音声符号化方式等があげられる。

【０００５】なお、ここでマスキング効果とこれの使用
方法について述べておく。マスキング効果には同時マス
キングと継時マスキングとがあり、継時マスキングの中
には順向、逆向マスキングがある。

【０００６】同時マスキングとはマスクする音（マスカ
ー）とマスクされる音（マスキー）が同時に提示される
場合をいう。

【０００７】継時マスキングの順向マスキングとは時間
的に先行する音の後続する音へのマスキングであり、逆
向マスキングとは後続する音の先行する音へのマスキン
グである。それぞれのマスキング量は、大阪大学桑野
氏がジェーエーエス・ジャーナル（JAS Journal ）'93・
6月号13〜25頁に「聴覚心理とオーディオ」として発表
された論文の中に示されている。以下に表１として一部
を示す。

【０００８】

【表１】

【０００９】マスキングカーブ予測器１５で予測された
マスキングカーブから、人間の聴覚特性でマスキング量
の大きい周波数成分データに対する量子化ステップ幅を
粗く、マスキング量の少ない周波数成分データに対する
量子化ステップ幅を細かく割り当てしてステップ幅を求
めた結果を量子化ステップ幅予測器１６から出力する。

【００１０】

【発明が解決しようとする課題】上述した従来の音声符
号化装置は、Ｎフレーム目のデータを符号化する場合、
符号化されるフレームのデータより前のデータを用いて
心理聴覚分析を行っているため、マスキング効果の内の
順向マスキング効果のみしか利用しないで、マスキング
カーブを求めていることになる。このため求められたマ
スキングカーブは実際にマスキングされる全てのデータ
を解析していないため、最適のマスキングカーブを算出
しているとはいえず、符号化効率が悪いという問題点が
ある。

【００１１】本発明の目的は、同等の演算量でより符号
化効率を高めることができる音声符号化装置を提供する
ことにある。

【００１２】

【課題を解決するための手段】本発明の音声符号化装置
は、一定長の複数のフレームに分割され入力端子を介し
て入力される入力音声信号データを各フレームごとに周
波数分割したデータとする周波数分割手段と、前記一定
長の複数のフレームを受け各フレームごとにスペクトラ
ム解析し最新のフレームに対しこの最新のフレームおよ
びこの最新のフレーム以前のｉ（ｉ＝１，２，…ｎ）個
のフレームのスペクトラム解析の結果とマスキングの効
果を含む人間の聴覚特性とを用いて量子化ステップ幅を
計算する心理聴覚分析手段と、前記周波数分割手段が周
波数分割したデータを前記心理聴覚分析手段が計算した
量子化ステップ幅で量子化する量子化手段と、この量子
化手段が量子化した量子化データを符号化ビット列に多
重化する多重化手段とを備える音声符号化装置におい
て、前記入力端子と前記周波数分割手段および前記心理
聴覚分析手段との間に前記入力音声信号データを一時記
憶する入力音声信号データ記憶手段を設け、前記心理聴
覚分析手段が前記入力音声信号データ記憶手段から量子
化ステップ幅を計算すべきフレームを中に挟む前後のｉ
個のフレームを受け、前記量子化ステップ幅を計算すべ
きフレームのスペクトラム解析の結果とマスキングの効
果を含む人間の聴覚特性とを用いて量子化ステップ幅を
計算し前記量子化手段に出力する構成である。

【００１３】本発明の音声符号化装置は、周波数分割手
段がサブバンド分割フィルタバンク器であってもよい。

【００１４】本発明の音声符号化装置は、周波数分割手
段が変形離散コサイン変換方式（ＭＤＣＴ）であっても
よい。

【００１５】本発明の音声符号化装置は、心理聴覚分析
手段が入力音声信号データ記憶手段から一定長の複数の
フレームを受け各フレームごとに周波数解析を行うスペ
クトラム計算器と、このスペクトラム計算器の結果と人
間の聴覚特性であるマスキング効果を考慮してマスキン
グカーブを求めるマスキングカーブ予測器と、このマス
キングカーブ予測器で求めたマスキングカーブから量子
化ステップ幅を求める量子化ステップ幅予測器とで構成
してもよい。

【００１６】

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。

【００１７】図１は本発明の第１の実施の形態を示すブ
ロック図である。

【００１８】本発明の音声符号化装置１０は、一定長の
複数のフレームに分割され入力端子９を介して入力され
る入力音声信号データを一時記憶する入力データメモリ
８と、入力音声信号データを各フレームごとに周波数分
割したデータとする周波数分割フィルタバンク１と、入
力データメモリ８から量子化ステップ幅を計算すべきフ
レームを中に挟む前後のｉ個のフレームを受け該当する
フレームのスペクトラム解析の結果とマスキングの効果
を含む人間の聴覚特性とを用いて量子化ステップ幅を計
算する心理聴覚分析部７と、周波数分割フィルタバンク
１が周波数分割したデータを心理聴覚分析部７が計算し
た量子化ステップ幅で量子化する量子化器２と、量子化
器２が量子化した量子化データを符号化ビット列に多重
化する多重化器３とを備えている。また、心理聴覚分析
部７は、入力データメモリ８から一定長の複数のフレー
ムを受け各フレームごとに周波数解析を行うスペクトラ
ム計算器４と、スペクトラム計算器４の計算結果と人間
の聴覚特性であるマスキング効果とを考慮してマスキン
グカーブを求めるマスキングカーブ予測器５と、マスキ
ングカーブ予測器５で求めたマスキングカーブから量子
化ステップ幅を求める量子化ステップ幅予測器６とを含
んでいる。

【００１９】次に図１の心理聴覚分析部７のスペクトラ
ム計算器４に入力されるデータと実際に符号化される入
力音声信号データとの関係を図２の入力音声信号データ
の構成を説明する説明図を用いて説明する。名称および
符号は図１に示すのものを用いる。

【００２０】スペクトラム計算器４に入力される入力音
声信号データは、Ｎフレーム目を符号化する場合には、
Ｎフレーム目を中に含む（Ｎ−ｊ）フレ−ムから（Ｎ＋
ｋ）フレーム目までのＢ領域の入力音声信号データを用
いる。この場合の入力音声信号データは（ｉ＋１）×ｎ
個のサンプルからなる。ここでｉ＝ｊ＋ｋである。

【００２１】このＢ領域で表される（ｉ＋１）×ｎ個の
入力音声信号をスペクトラム計算器４に入力し、周波数
分析を行い、この分析結果をマスキングカーブ予測器５
に入力し、マスキングカーブを求める。続いて、量子化
ステップ幅予測器６が、このマスキングカーブ情報をも
とに量子化ステップ幅を予測することにより、継時マス
キングの順向マスキングと逆向マスキングの両方のマス
キング効果を用いることが可能となる。

【００２２】同じ（ｉ＋１）×ｎ個のサンプル数を用い
てマスキングカーブを求める場合において、順向マスキ
ングと逆向マスキングの割り合いを変え、最も多くのマ
スキング量を有するマスキングカーブを求めることが可
能であり、この最も多くのマスキング量を持つマスキン
グカーブを用いて量子化ステップ幅を予測し、この予測
した量子化ステップ幅で量子化した量子化データは、同
じデータ量のデータを符号化した場合の中で、最も効率
が良い符号化となる。

【００２３】なお、これまで、周波数分割手段として周
波数分割フィルタバンク１を用いた例で説明したが、こ
れは、周波数分割手段がサブバンド分割フィルタバンク
器であっても同様に作用し、最も効率が良い符号化を行
うことが可能である。

【００２４】また、周波数分割手段が変形離散コサイン
変換方式（ＭＤＣＴ）であっても、同様に、最も効率が
良い符号化を行うことが可能である。

【００２５】

【発明の効果】以上説明したように、本発明は、量子化
ステップ幅を予測する場合、順向マスキングの効果と逆
向マスキング効果の両方のマスキング効果を組合せて用
いることにより、従来の順向マスキングの効果のみを用
いてマスキングカーブを算出したものに比較して、より
多くのマスキング量を得ることが可能となり、効率の良
い符号化を行うことが可能となるという効果が有る。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態を示すブロック図で
ある。

【図２】本発明の第１の実施の形態の入力音声信号デー
タの構成を説明する説明図である。

【図３】従来の一般的な音声符号化装置の構成を示すブ
ロック図である。

【図４】従来の一般的な音声符号化装置の入力音声信号
データの構成を説明する説明図である。

【符号の説明】

１周波数分割フィルタバンク２量子化器３多重化器４スペクトラム計算器５マスキングカーブ予測器６量子化ステップ幅予測器７心理聴覚分析部８入力データメモリ９入力端子１０音声符号化装置

Claims

【特許請求の範囲】

【請求項１】一定長の複数のフレームに分割され入力
端子を介して入力される入力音声信号データを各フレー
ムごとに周波数分割したデータとする周波数分割手段
と、前記一定長の複数のフレームを受け各フレームごと
にスペクトラム解析し最新のフレームに対しこの最新の
フレームおよびこの最新のフレーム以前のｉ（ｉ＝１，
２，…ｎ）個のフレームのスペクトラム解析の結果とマ
スキングの効果を含む人間の聴覚特性とを用いて量子化
ステップ幅を計算する心理聴覚分析手段と、前記周波数
分割手段が周波数分割したデータを前記心理聴覚分析手
段が計算した量子化ステップ幅で量子化する量子化手段
と、この量子化手段が量子化した量子化データを符号化
ビット列に多重化する多重化手段とを備える音声符号化
装置において、前記入力端子と前記周波数分割手段およ
び前記心理聴覚分析手段との間に前記入力音声信号デー
タを一時記憶する入力音声信号データ記憶手段を設け、
前記心理聴覚分析手段が前記入力音声信号データ記憶手
段から量子化ステップ幅を計算すべきフレームを中に挟
む前後のｉ個のフレームを受け、前記量子化ステップ幅
を計算すべきフレームのスペクトラム解析の結果とマス
キングの効果を含む人間の聴覚特性とを用いて量子化ス
テップ幅を計算し前記量子化手段に出力することを特徴
とする音声符号化装置。
【請求項２】周波数分割手段がサブバンド分割フィル
タバンク器であることを特徴とする請求項１記載の音声
符号化装置。
【請求項３】周波数分割手段が変形離散コサイン変換
方式（ＭＤＣＴ）であることを特徴とする請求項１記載
の音声符号化装置。
【請求項４】心理聴覚分析手段が入力音声信号データ
記憶手段から一定長の複数のフレームを受け各フレーム
ごとに周波数解析を行うスペクトラム計算器と、このス
ペクトラム計算器の結果と人間の聴覚特性であるマスキ
ング効果を考慮してマスキングカーブを求めるマスキン
グカーブ予測器と、このマスキングカーブ予測器で求め
たマスキングカーブから量子化ステップ幅を求める量子
化ステップ幅予測器とから成ることを特徴とする請求項
１記載の音声符号化装置。