JP2000261323A

JP2000261323A - 音声符号化ストリームの編集方法

Info

Publication number: JP2000261323A
Application number: JP11064427A
Authority: JP
Inventors: Sadahiro Yasura; 定浩安良
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 1999-03-11
Filing date: 1999-03-11
Publication date: 2000-09-22

Abstract

(57)【要約】【課題】音声符号化方法において、フレーム単位で使
用されるビット数が可変の場合に、ビットストリームの
編集接続を行なうと、ビットリザーバに貯えられたビッ
ト数が接続前後で一致せず、デコード時にバッファのア
ンダー、オーバーフローが起こる。【解決手段】音声圧縮符号化ビットストリームを編集
接続する場合に、時間的に前の第1ビットストリームの
最終フレームを符号化し終えた時点でバッファに貯えら
れたビット数aと、時間的に後の第2ビットストリームの
先頭フレームを符号化の開始する時点で前記バッファに
貯えられていたビット数bを比較し、差分量( a−b )に
応じて前記第1ビットストリームの最終フレームを修正
し、バッファ蓄積量を一致させ、バッファのアンダー、
オーバーフローを防止する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声信号を符号化
して得られた符号化ストリームを編集する際の符号化ス
トリームの編集方法に関する。

【０００２】

【従来の技術】従来より、音声信号の符号化方法には、
時間周波数変換符号化が用いられており、例えば適応ス
ペクトル聴感制御エントロピー符号化法（ASPEC, Adapt
ive Spectral Perceptual Entropy Coding）、ＭＰＥＧ
１オーディオ・レイヤ3、ＭＰＥＧ２オーディオＡＡＣ
がある。これらは、音声信号を符号化する場合、フレー
ムと呼ばれる２０ｍｓ程度の一定間隔の区間に分割して
信号処理を行ない、ビットストリームを構成するが、フ
レーム当たりのビット数が可変長になっている。

【０００３】これを実現するため、ビットリザーバと呼
ばれる余分なビット数を貯えることが出来るバッファ装
置が用意される。ターゲットとなるビットレートで1フ
レームに使用できる平均ビット数に対して、そのフレー
ムで使用したビット数が少ない場合には、余ったビット
数をビットリザーバに保存する。また、このビットリザ
ーバにビット数が余っている場合には、平均ビット数と
ビットリザーバ分まで、そのフレームを符号化するのに
使用出来るようになっている。

【０００４】しかし、このように、フレーム単位で使用
しているビット数が異なる場合、ビットストリームの編
集、接続は一般的に困難である。これはビットリザーバ
に貯えられたビット数が接続前後で一致しない問題があ
るためであり、そのまま編集、接続を行なうと、ビット
ストリームデコード時にバッファのアンダーフロー、オ
ーバーフローが発生してしまう。

【０００５】

【発明が解決しようとする課題】そこで本発明は、上記
の問題に鑑み、バッファのアンダーフロー、オーバーフ
ローを発生しないようなビットストリームの編集方法を
提供することを目的とする。１つの方法として、ビット
ストリームの編集を行ない易くするために、符号化方法
を修正することがあるが、今回は、通常に符号化された
ビットストリームを接続することを目的とする。

【０００６】

【課題を解決するための手段】上記目的を達成するため
の手段として、各請求項により、バッファ（ビットリザ
ーバ）に貯えられたビット数を一致させるようにするこ
とにより、ビットストリームのデコード時のバッファの
アンダーフロー、オーバーフローを防止することが出来
るようにした。すなわち、請求項１の発明は、音声信号
を符号化したビットストリームを編集して接続する音声
符号化ストリームの編集方法において、圧縮符号化され
たビットストリームを編集して接続する場合に、時間的
に前の第１のビットストリームの最終フレームを符号化
し終えた時点でバッファに貯えられた第１のビット数a
と、時間的に後の第２のビットストリームの先頭フレー
ムを符号化を開始する時点で前記バッファに貯えられて
いた第２のビット数bとを比較し、前記第１ビット数か
ら第２のビット数を減算した差分量( a−b )に応じて前
記第１のビットストリームの最終フレームを修正して、
前記バッファの蓄積量を一致させることを特徴とする音
声符号化ストリームの編集方法を提供し、請求項２の発
明は、前記請求項１に記載の音声符号化ストリームの編
集方法において、前記差分量( a−b )がゼロよりも大き
い場合に、前記差分量分のビット数を前記第１のビット
ストリームの最終フレームで使用するように修正し、前
記差分量( a−b )がゼロよりも小さい場合には、不足し
た差分量分のビット数を前記第１のビットストリームの
最終フレームで作り出すように修正して、前記バッファ
の蓄積量を一致させることを特徴とする音声符号化スト
リームの編集方法を提供し、請求項３の発明は、前記請
求項２に記載の音声符号化ストリームの編集方法におい
て、前記差分量( a−b )がゼロよりも大きい場合に、前
記差分量分のビット数を前記第１のビットストリームの
最終フレームで使用するように読み捨てビット（スタッ
フィングビット）を用いるようにし、前記差分量( a−b
)がゼロよりも小さい場合には、不足した差分量分のビ
ット数を前記第１のビットストリームの最終フレームで
作り出すように前記最終フレームの音声信号の帯域幅を
狭めて符号化を行なうように修正して、前記バッファの
蓄積量を一致させることを特徴とする音声符号化ストリ
ームの編集方法を提供する。

【０００７】

【発明の実施の形態】本発明の音声符号化ストリームの
編集方法の一実施例について、図と共に以下に説明す
る。本発明の一実施例として、ＭＰＥＧ２オーディオＡ
ＡＣ（以下、単にＡＡＣと呼ぶ。）の場合についての説
明を以下に行なう。図３に示したＡＡＣのビットストリ
ーム構成図から分かるように、ビットストリームの構成
は、転送フォーマットを特定する部分（転送フォーマッ
ト用ヘッダ）Ａと、音声情報を特定する部分（オーディ
オブロック）Ｂとの２つの部分から成立している。

【０００８】この転送フォーマットを特定する部分（転
送フォーマット用ヘッダ）Ａでは、同期コードを有する
ビットストリーム編集を想定したものと、パソコン（Ｐ
Ｃ）等のストレージメディアに置かれ、編集を想定しな
いものとに分けることが出来る。

【０００９】音声（オーディオ）情報を特定する部分
（オーディオブロック）Ｂでは、エレメント(Element)
と呼ばれる単位が集まった形で構成される。例えば、
５.1ch ( C, L, R, SL, SR, LFE)においては、Center用
のSCE(SingleChannel Element)Ｂ２、L, R用のCPE(Chan
nel Pair Element)Ｂ３、SL,SR用のCPE（Ｂ４）、ＬFE
用のSCE（Ｂ５）、チャンネル情報用のPCE(Program Con
fig Element)Ｂ１、固定レートに合わせるためのスタッ
フィングビット用のFIL(Fill Element)Ｂ６、及びフレ
ームの終わりを示すEND(Term Element)Ｂ７から構成さ
れている。

【００１０】図３にこのＡＡＣのビットストリーム構成
の一実施例を示す。ＡＡＣは、ビットバッファ（ビット
リザーバ）を有しており、音声信号の特性に応じてター
ゲットとなるビットレートに対して、瞬間のビットレー
トが超えてしまうことを許可している。

【００１１】図４にＡＡＣのフレーム単位での使用ビッ
ト数の推移を示す。この図４の例では、最初のフレーム
(フレーム１)は、ビットリザーバに貯えられたビット数
はゼロであるために、使用可能なビット数enableはター
ゲットのビットレートから算出される平均ビット数 ave
までを使い符号化を行なう。

【００１２】フレーム１の符号化が終了した時点で、実
際に使用したビット数usedとの差分値a = ( ave -used
)がビットリザーバに貯えられる。フレーム1では、使
用可能なビット数はビットリザーバの分を加えたenable
=( ave + a )となる。このように、フレーム単位で使用
されるビット数が夫々異なるため、ビットストリームを
接続する場合には問題が生じてくる。

【００１３】図５、及び図６には、本発明のビットスト
リームを接続する場合の一実施例を挙げる。図５は、ビ
ットストリームＡの接続時のビットリザーバに貯えられ
た最終フレームのビット数がビットストリームＢの接続
時のビットリザーバに貯えられた先頭フレームのビット
数よりも多い一実施例を示す( bresA > bresB )。

【００１４】図６は、反対に、ビットストリームＡの接
続時のビットリザーバに貯えられた最終フレームのビッ
ト数が、ビットストリームＢの接続時のビットリザーバ
に貯えられた先頭フレームのビット数よりも少ない一実
施例を示す(bresA < bresB )。もし、このような状態の
まま接続を行なうと、平均ビット数aveを上回る状態、
または平均ビット数aveを下回る状態でバッファが推移
し、オーバーフロー、アンダーフローを引き起こす。

【００１５】本発明では、これを防止するために、図５
に示す実施例については、diff = (bresA- bresB )のビ
ット数分をビットストリームAの最終フレームで使用す
るように最終フレームを変更する。また、本発明では、
図６に示す実施例については、diff = ( bresB- bresA
)のビット数分をビットストリームAの最終フレームで
使用しないように最終フレームを変更する。

【００１６】さらに、本発明についてのフローチャート
を示し、図１、及び図2と共に以下に説明する。まず、
接続するビットストリームＡ，Ｂのビットリザーバ量br
esA,bresBを算出する（ステップ２）。

【００１７】このビットストリームＡ，Ｂのビットリザ
ーバ量bresA,bresBの算出方法を図２のフローチャート
に示す。それぞれのビットストリームを（ステップ２０
３）でデマルチプレックスして、各フレームで使用され
たビット数usedを算出し、平均ビット数aveとの差分値
(used - ave )を（ステップ２０４）で求め、これを
（ステップ２０５）で加算していくことで先頭フレーム
において必要となるビットリザーバ量が求まる。図１で
求まったbresA,bresBから差分値diffを（ステップ４）
で算出し、時間的に前のビットストリームＡのデマルチ
プレックスを（ステップ５）にて行なう。

【００１８】もし、（ステップ３）においてbresA > br
esBの場合は、特定量のビット数を余分に消費する為に
使用するビットストリームを構成する要素である FILが
存在するかを（ステップ７）で判断し、もし存在するな
らばFILのデコードを行ない、diff分余計にスタッフィ
ング（読み捨て）するようなFILを作成し、ビットスト
リームの再構成を（ステップ８）により行なう。もし存
在しないならば、新たにFILを追加するようにして、ビ
ットストリームの再構成を（ステップ９）により行な
う。もし、（ステップ３，１５）においてbresA < bres
Bである場合には、diff分をビットストリームAの最終フ
レームで使用しないようにする必要がある。

【００１９】ここで、diff分をビットストリームAの最
終フレームで使用しないようにする方法について以下に
述べる。ＭＰＥＧ２オーディオＡＡＣは、時間周波数変
換符号化方式であり、MDCT(Modified Discrete Cosine
Transform)を用いて周波数軸に変換する。そして、それ
ぞれの周波数成分は聴覚特性に基づいてグループ化がな
され、その単位で処理が行なわれている。

【００２０】その単位はスケールファクターバンド(sf
b)と呼ばれている。これに関連して、最大スケールファ
クターバンド(max sfb) というパラメータがあり、ビッ
トストリームで転送されるsfbの個数を表わしている。
通常は、サンプリング周波数の１／２の帯域までを表現
するのに必要なsfbの数がmax sfbで送られる。

【００２１】本発明は、この最大スケールファクターバ
ンド(max sfb) の値に関連したパラメータを修正して周
波数帯域を制限することで、最終フレーム内で使用され
るビット数を削減している。max sfbを修正する順番と
しては、実際に聴いたときに影響の少ない順番が望まし
く、SCE(LFE)Ｂ５、SCE(Center)Ｂ５、CPE(Ls,Rs)Ｂ
４、CPE(L,R)Ｂ３の順に処理を行なう。

【００２２】以上のことから１つのエレメント(例えばS
CE)を選択し、デマルチプレックスを行ない、max sfbの
値を取り出して、このmax sfbの値を減らしたことによ
り得られるビット数の削減量総和tl revを（ステップ２
１）で算出し、（ステップ２２）で削減量総和tl revが
diff以上になるまで繰り返す（ステップ１１，１２，２
０〜２２）。

【００２３】最大スケールファクターバンド(max sfb)
については制限を行なう限界値（LIMIT）を夫々のエレ
メントに対して（ステップ１２）に示すように設けてお
き、限界値まで達したら、（ステップ１３）に示すよう
にそのエレメントにおけるビット数の削減を終了し、次
のエレメントの削減に入る。

【００２４】もし、（ステップ２２）で削減量総和tl r
evがdiff以上になる条件を満たしたならば、修正を加え
たエレメントを作成する。そしてFILのサーチを行な
い、存在するならばFILのデコードを行ない、(tl rev−
diff)分余計にスタッフィング（読み捨て）するようなF
ILを作成する（ステップ８）。もし、FILが存在しない
ならば新たにFILを追加する（ステップ９）。以上の処
理後、最終的なビットストリームの再構成を行なう。

【００２５】

【発明の効果】本発明の音声符号化ストリームの編集方
法によれば、フレーム当たりの使用ビット数が可変であ
る符号化方式において、ビットストリームの編集、接続
を行なう場合に、ビットリザーバに貯えられたビット数
を一致させるように、時間的に前になるビットストリー
ムの最終フレームを修正することで、ビットストリーム
デコード時にバッファのアンダーフロー、オーバーフロ
ーを防止することが出来る。

【図面の簡単な説明】

【図１】本発明の音声符号化ストリームの編集方法の一
実施例のフローチャートである。

【図２】本発明の音声符号化ストリームの編集方法の一
実施例のフローチャートである。

【図３】本発明の一実施例のＡＡＣのビットストリーム
構成を示す図である。

【図４】本発明の一実施例のＡＡＣのフレーム単位での
使用ビット数の推移を示す図である。

【図５】本発明の一実施例のビットストリームを接続す
る際のバッファの状態を示す図である。

【図６】本発明の一実施例のビットストリームを接続す
る際のバッファの状態を示す図である。

【符号の説明】

FIL 特定量のビット数を余分に消費する為に使用する
ビットストリームを構成する要素 Fill Element LIMIT 限界値ａ時間的に前の第1のビットストリームの最終フレー
ムを符号化し終えた時点でバッファに貯えられたビット
数（第１のビット数）ｂ時間的に後の第2のビットストリームの先頭フレー
ムを符号化の開始する時点で前記バッファに貯えられて
いたビット数（第２のビット数） ave 平均ビット数 bres ビットリザーバ量 diff 差分値（bresAとbresBとの差） enable 使用可能なビット数 max sfb 最大スケールファクターバンド sfb スケールファクターバンド tl rev 削減量総和 used 実際に使用したビット数

Claims

【特許請求の範囲】

【請求項１】音声信号を符号化したビットストリームを
編集して接続する音声符号化ストリームの編集方法にお
いて、圧縮符号化されたビットストリームを編集して接続する
場合に、時間的に前の第１のビットストリームの最終フ
レームを符号化し終えた時点でバッファに貯えられた第
１のビット数と、時間的に後の第2のビットストリーム
の先頭フレームを符号化を開始する時点で前記バッファ
に貯えられていた第２のビット数とを比較し、前記第１ビット数から第２のビット数を減算した差分量
に応じて前記第１のビットストリームの最終フレームを
修正して、前記バッファの蓄積量を一致させることを特
徴とする音声符号化ストリームの編集方法。
【請求項２】前記請求項１に記載の音声符号化ストリー
ムの編集方法において、前記差分量がゼロよりも大きい場合に、前記差分量分の
ビット数を前記第1のビットストリームの最終フレーム
で使用するように修正し、前記差分量がゼロよりも小さい場合には、不足した差分
量分のビット数を前記第１のビットストリームの最終フ
レームで作り出すように修正して、前記バッファの蓄積量を一致させることを特徴とする音
声符号化ストリームの編集方法。
【請求項３】前記請求項２に記載の音声符号化ストリー
ムの編集方法において、前記差分量がゼロよりも大きい場合に、前記差分量分の
ビット数を前記第１のビットストリームの最終フレーム
で使用するように読み捨てビットを用いるようにし、前記差分量がゼロよりも小さい場合には、不足した差分
量分のビット数を前記第１のビットストリームの最終フ
レームで作り出すように前記最終フレームの音声信号の
帯域幅を狭めて符号化を行なうように修正して、前記バッファの蓄積量を一致させることを特徴とする音
声符号化ストリームの編集方法。