JP2005292702A

JP2005292702A - オーディオフレームに対するフェードイン／フェードアウト処理装置及びプログラム

Info

Publication number: JP2005292702A
Application number: JP2004111028A
Authority: JP
Inventors: Koichi Takagi; 幸一高木; Shigeyuki Sakasawa; 茂之酒澤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2004-04-05
Filing date: 2004-04-05
Publication date: 2005-10-20
Also published as: US7472069B2; US20050234714A1

Abstract

【課題】携帯電話機のような低演算速度及び低メモリ量の装置であっても、オーディオデータを完全に復号化することなく、音量に時間的変化を加えることができるフェードイン／フェードアウト処理装置及びプログラムを提供する。
【解決手段】ＭＰＥＧオーディオ規格に基づくオーディオフレームのビットストリームをヘッダ部及び実データ部に分解して、global_gainを出力するビットストリーム分解部１０と、global_gainを所定時間範囲で増加又は減少させる利得パラメータ変更部１２と、変更されたglobal_gainを含めて、分解されたヘッダ部及び実データ部を合成するビットストリーム合成部１４とを有する。また、ＳＢＲデータを含むオーディオデータについては、サブバンド毎のbs_data_envを増加又は減少する。
【選択図】図２

Description

本発明は、オーディオフレームに対するフェードイン／フェードアウト処理装置及びプログラムに関する。

インターネットを介した音楽配信においては、通常、原音から得られたＰＣＭ符号データに圧縮をかけた形で配信される。代表的なオーディオ圧縮方式としては、ＭＰＥＧ１オーディオレイヤIII規格に基づくＭＰ３（ＩＳＯ／ＩＥＣ１１１７２−３、ＪＩＳＸ４３２３）がある。また、ＭＰＥＧ１オーディオレイヤIIIから互換性を保ちつつ多くの拡張がなされたＭＰＥＧ２オーディオレイヤIII規格は、互換性はないまでもＭＰＥＧ１オーディオレイヤIIIと比較して最大２０％〜５０％の符号化効率を達成するＡＡＣ(Advanced Audio Coding)が規格されている。このように非常に少ない符号量で高音質を実現するＡＡＣは、携帯電話機に対する音楽配信のための符号化として注目されてきている。

近年、オーディオデータは、利用者の嗜好に応じて様々な場面で再生させることができる。利用者は、単に趣味的に音楽を聴くだけでなく、例えば携帯電話機において、着信音としてその音楽を鳴動させたり、アラーム代わりに鳴動させることができる。このとき、利用者にとっては、音量をフェードイン（単調増加）又はフェードアウト（単調減少）させ、心地よい音楽にしたいという要求がある。しかしながら、その音量を変化させるには、通常、スピーカのボリュームを利用者自身が手動で変化させるしかなかった。また、一度、その音楽を再生しつつ、自らボリュームを変化させた音を再度録音し、その機器のメモリに記憶させておかなければならなかった。

これに対し、オーディオデータの前部分のサンプルのみを復号化して、そのゲインを除々に上げて、更に符号化してオーディオデータを再生成することにより、フェードインを実現する方法がある（例えば特許文献１参照）。この方法によれば、また、オーディオデータの後部分のサンプルのみを復号化して、そのゲインを除々に下げて、更に符号化してオーディオデータを再生成することにより、フェードアウトを実現している。

特開平７−２２０３９４号公報

しかしながら、従来技術による方法によれば、音量に時間変化を加えるだけのために、復号化したオーディオデータに対するゲインを制御し、更に符号化してオーディオデータを再生成しなければならないので、比較的高い演算速度及びメモリ量を必要とする。これに対し、低演算速度で且つ低メモリ量である携帯電話機では、その実現が難しいという問題があった。

そこで、本発明は、携帯電話機のような低演算速度及び低メモリ量の装置であっても、オーディオデータを完全に復号化することなく、音量に時間的変化を加えることができるフェードイン／フェードアウト処理装置及びプログラムを提供することを目的とする。

本発明のフェードイン／フェードアウト処理装置によれば、
オーディオフレームのビットストリームをヘッダ要素及び実データ部に分解して、利得パラメータ値を出力するビットストリーム分解手段と、
利得パラメータ値を所定時間範囲で増加又は減少させる利得パラメータ変更手段と、
変更された利得パラメータ値を含めて、ヘッダ要素及び実データ部を合成するビットストリーム合成手段とを有することを特徴とする。

本発明のフェードイン／フェードアウト処理装置における他の実施形態によれば、オーディオフレームは、ＭＰＥＧオーディオ規格に基づくＡＡＣデータを含むものであって、利得パラメータ値はglobal_gainであることも好ましい。

また、本発明のフェードイン／フェードアウト処理装置における他の実施形態によれば、ビットストリーム分解手段はスケールファクタを出力するように構成されており、量子化刻み幅が負とならないように、global_gainと差分値のスケールファクタとから計算される量子化刻み幅の中で最小値を利得パラメータ変更手段へ通知する操作可能域監視手段を更に有し、利得パラメータ変更手段は、global_gainから量子化刻み幅の最小値を差し引いた値よりも、global_gainが減少しないように構成されていることも好ましい。

本発明のフェードイン／フェードアウト処理装置によれば、オーディオフレームのビットストリームをヘッダ要素及び実データ部に分解するビットストリーム分解手段と、実データ部に含まれる包絡線の利得パラメータの符号列を利得パラメータ値に復元するハフマン復号化手段と、利得パラメータ値を所定時間範囲で増加又は減少させて、変更された利得パラメータ値をハフマン符号化して当該実データ部に含める利得パラメータ変更手段と、ヘッダ要素及び実データ部を合成するビットストリーム合成手段とを有することを特徴とする。

本発明のフェードイン／フェードアウト処理装置における他の実施形態によれば、オーディオフレームは、ＭＰＥＧオーディオ規格に基づくＳＢＲデータを含むものであって、利得パラメータ値はbs_data_envであることも好ましい。

また、本発明のフェードイン／フェードアウト処理装置における他の実施形態によれば、利得パラメータ変更手段は、利得パラメータ値を、時間進行に対して、単調的に、指数曲線的に又は予め指定された特徴ある曲線的に、増加又は減少させることも好ましい。

本発明のフェードイン／フェードアウト処理プログラムによれば、
オーディオフレームのビットストリームをヘッダ要素及び実データ部に分解して、利得パラメータ値を出力するビットストリーム分解手段と、
利得パラメータ値を所定時間範囲で増加又は減少させる利得パラメータ変更手段と、
変更された利得パラメータ値を含めて、ヘッダ要素及び実データ部を合成するビットストリーム合成手段として機能させることを特徴とする。

また、本発明のフェードイン／フェードアウト処理プログラムにおける他の実施形態によれば、オーディオフレームは、ＭＰＥＧオーディオ規格に基づくＡＡＣデータを含むものであって、利得パラメータ値はglobal_gainであるように機能させることも好ましい。

また、本発明のフェードイン／フェードアウト処理プログラムにおける他の実施形態によれば、ビットストリーム分解手段はスケールファクタを出力するように構成されており、量子化刻み幅が負とならないように、global_gainと差分値のスケールファクタとから計算される量子化刻み幅の中で最小値を利得パラメータ変更手段へ通知する操作可能域監視手段を更に有し、利得パラメータ変更手段は、global_gainから量子化刻み幅の最小値を差し引いた値よりも、global_gainが減少しないように機能させることも好ましい。

本発明のフェードイン／フェードアウト処理プログラムによれば、
オーディオフレームのビットストリームをヘッダ要素及び実データ部に分解するビットストリーム分解手段と、
実データ部に含まれる包絡線の利得パラメータの符号列を利得パラメータ値に復元するハフマン復号化手段と、
利得パラメータ値を所定時間範囲で増加又は減少させて、変更された利得パラメータ値をハフマン符号化して当該実データ部に含める利得パラメータ変更手段と、
ヘッダ要素及び実データ部を合成するビットストリーム合成手段として機能させることを特徴とする。

また、本発明のフェードイン／フェードアウト処理プログラムにおける他の実施形態によれば、オーディオフレームは、ＭＰＥＧオーディオ規格に基づくＳＢＲデータを含むものであって、利得パラメータ値はbs_data_envであるように機能させることも好ましい。

更に、本発明のフェードイン／フェードアウト処理プログラムにおける他の実施形態によれば、利得パラメータ変更手段は、利得パラメータ値を、時間進行に対して、単調的に、指数曲線的に又は予め指定された特徴ある曲線的に、増加又は減少させるように機能させることも好ましい。

本発明のフェードイン／フェードアウト処理装置及びプログラムによれば、オーディオフレームの利得パラメータ(global_gain)のみを変化させることにより、携帯電話機のような低演算速度及び低メモリ量の装置であっても、オーディオデータを完全に復号化することなく、音量に時間的変化を加えて再生することが可能なオーディオデータに変更できる。

また、本発明によれば、ＭＰＥＧオーディオ規格に基づいて、低周波数領域のＡＡＣデータだけでなく、高周波数領域のＳＢＲデータについてもフェードイン／フェードアウト処理を加えることができる。

更に、本発明によれば、利用者の希望に応じて、フェードイン／フェードアウトさせる音量変更の種々パターンを指定することができる。

以下では、図面を用いて、本発明における最良の実施形態について詳細に説明する。

図１は、１オーディオフレームの構成図である。

ＭＰＥＧオーディオ規格に基づくフレームによれば、チャネルＣｈ１及びＣｈ２（例えば右チャネルと左チャネル）からなり低周波数領域をカバーするＡＡＣ部と、高周波数領域をカバーするＳＢＲ（Spectral Band Replication：スペクトル帯域複製）部とがタグで区切られている。

ＡＡＣ部には、チャネル毎にglobal_gainが含まれている。global_gainは、実際にデコードに用いられる値が格納されている。また、ＡＡＣ部には、チャネル毎に、サブバンド分解された、オーディオデータに対応したスケールファクタ（差分値）と符号化データとを含む。スケールファクタは、予測差分値の形式で、サブバンド毎に異なる値が配列形式で一カ所に固めて格納されている。尚、スケールファクタは、ハフマン符号化されて格納されているので、ハフマン復号化する必要がある。

ＳＢＲ（Spectral Band Replication：スペクトル帯域複製）とは、復号側で低周波数領域を用いて高周波数領域を複製することによって音質を向上させる技術である。ＳＢＲは、低周波数領域とわずかなサイド情報だけを伝送すればよいために、低ビットレートの情報で、高ビットレートのＡＡＣと同等の音質を実現することができる。ＳＢＲ部は、ヘッダ部と実データ部とからなり、実データ部には、サブバンド毎に異なるbs_data_env（包絡線の利得パラメータ）が配列形式で一カ所に固めてた部分と、合成用ノイズデータとが含まれている。尚、bs_data_envは、ハフマン符号化されて格納されているので、ハフマン復号化する必要がある。

図２は、本発明におけるＡＡＣのフェードイン／フェードアウト処理装置１の機能構成図である。これら機能は、プログラムによって実現されることが好ましい。

ＡＡＣのフェードイン／フェードアウト処理装置１には、ＡＡＣのオーディオフレームが入力され、フェードイン／フェードアウト処理が加えられたオーディオフレームを出力する。ビットストリーム分解部１０は、ビットストリームをヘッダ要素及び実データ部に分解する。そして、ヘッダ要素に含まれるglobal_gainを利得パラメータ変更部１２へ通知し、サブバンド毎のスケールファクタの符号列をハフマン復号化部１１へ通知する。ハフマン復号化部１１は、スケールファクタの符号列を復号化し、抽出されたスケールファクタは、操作可能域監視部１３へ通知される。

利得パラメータ変更部１２は、フェードイン又はフェードアウトのいずれを行うか、どの程度の時間範囲で行うか等の制御情報が、利用者によって予め指定されている。その上で、利得パラメータ変更部１２は、所定時間範囲で、段階的にglobal_gainを増加又は減少させる。global_gainは初期値となるものであり、その値とスケールファクタとから計算されて、量子化刻み幅が決定される。尚、global_gainを変更することによって符号列が短くなった場合、ビットストリーム合成部１４において、オーディオフレーム長が所定の固定長となるようにスタッフィングデータを挿入することで当該符号長に変更が生じないようにすることができる。

ハフマン復号化部１１は、分解されたサブバンド毎のスケールファクタの符号列を復号化する。復号化されたスケールファクタの配列が、操作可能域監視部１３へ通知される。

操作可能監視部１３は、ビットストリーム分解部１０からglobal_gainが入力され、ハフマン復号化部１１からscale_factor[]配列が入力される。その上で、操作可能監視部１３は、scale_factor[]から計算される量子化刻み幅が負とならないように、該量子化刻み幅の中で最小値を利得パラメータ変更部１２へ通知する。利得パラメータ変更部１２は、global_gainから量子化刻み幅の最小値を差し引いた値よりも、global_gainが減少しないようにように動作する。これにより、scale_factor[]から計算される量子化刻み幅の最小値が負になることを防ぐことができる。

global_gain、scale_factor[]及び量子化刻み幅は、例えば以下のような関係の値をとる。
global_gain ＝15
scale_factor[]＝0, -2, -1, -2, +4, ・・・
量子化刻み幅＝15, 13, 12, 10, 14, ・・・

このとき、global_gain＝15->3に変更されたとする。そうすると、以下のような関係の値となる。
global_gain ＝ 3
scale_factor[]＝0, -2, -1, -2, +4, ・・・
量子化刻み幅＝3, 1, 0, -2, 2, ・・・

この場合、量子化刻み幅が"-2"となる負の値となる部分が生じてしまう。このように量子化刻み幅が負とならないようにするためには、global_gain＝15の場合における量子化刻み幅の最小値"10"よりも、global_gainを減少させないようにしなければならない。従って、以下のような関係がglobal_gainの最小値となる。
global_gain ＝15->5
scale_factor[]＝0, -2, -1, -2, +4, ・・・
量子化刻み幅＝5, 3, 2, 0, 4, ・・・

前述の例の場合、操作可能監視部１３は、global_gain＝15の場合の量子化刻み幅の最小値"10"を、利得パラメータ変更部１２へ通知する。利得パラメータ変更部１２は、量子化刻み幅の最小値"10"よりもglobal_gainを減少させないように動作する。

ビットストリーム合成部１４は、利得パラメータ変更部１２から出力された利得パラメータを含めて、分解されたヘッダ要素及び実データ部をビットストリームに合成する。これにより、フェードイン／フェードアウト処理装置１から、フェードイン／フェードアウト処理が加えられたＡＡＣデータが出力される。

図３は、標準の量子化特性を表すグラフである。また、図４は、音量を１段小さくした量子化特性を表すグラフである。更に、図５は、音量を２段小さくした量子化特性を表すグラフである。

それぞれのグラフは、横軸を入力とし、縦軸を出力として表されており、入力信号を量子化刻み幅Δで割算した結果を切り捨てたものである。図３->図４->図５への刻み幅の変更はフェードアウトを意味し、図５->図４->図３への刻み幅の変更はフェードインを意味する。このように、global_gainの増加又は減少により、量子化刻み幅が変更され、擬似的に音量を制御することが可能となる。

図６は、フェードアウトの変更パターンのグラフである。

このグラフは、縦軸はglobal_gainの割合を表し、横軸は時間経過を表している。パターン１は、global_gainの１００％から単調減少で変化している。パターン２は、指数曲線的に減少して変化している。パターン３は、減少した後、増加して、再び減少して変化している。このようなパターンは、利得パラメータ変更部１２のglobal_gainの変更によってどのようにもすることができる。どのように変化させるかは設計事項である。

図７は、ＳＢＲ及びbs_data_envパラメータの説明図である。

図７によれば、低周波数領域はＡＡＣによって符号化されており、その部分を用いて高周波数領域として複製している。その高周波数領域の包絡線は、bs_data_envパラメータとして表されている。bs_data_envパラメータを、ＡＡＣのglobal_gain及びスケールファクタと同様に増加又は減少させることによって、高周波数領域についてもフェードイン／フェードアウトを実現することができる。

図８は、ＳＢＲのフェードイン／フェードアウト処理装置２の機能構成図である。これら機能は、プログラムによって実現されることが好ましい。

ＳＢＲのフェードイン／フェードアウト処理装置２は、ビットストリーム分解部２０と、ハフマン復号化部２１と、利得パラメータ変更部２２と、ビットストリーム合成部２３とを有する。

ビットストリーム分解部２０は、ビットストリームをヘッダ部及び実データ部に分解し、実データ部に含まれる包絡線利得パラメータのハフマン符号をハフマン復号化部２１へ通知する。ハフマン復号化部２１は、サブバンド毎のbs_data_env（包絡線利得パラメータ）の符号列を復号化して抽出する。利得パラメータ変更部２２は、サブバンド毎のbs_data_envを増加又は減少させる。そして、利得パラメータ変更部２２は、変更後のbs_data_envに対応したハフマン符号語に置き換えてビットストリーム合成部２３へ通知する。このとき、bs_data_envを変更することによって符号列が短くなった場合、スタッフィングデータを挿入することで当該符号長に変更が生じないようにすることができる。ビットストリーム合成部２３は、ヘッダ部及び実データ部を合成し、そのビットストリームを出力する。このとき、ハフマン符号語を置き換える際に、一段階音を小さくするのに対応するハフマン符号語だと符号語長が長くなってしまう際に、符号語長が同じ又は短くなるハフマン符号語で、より小さな音となるように置き換えることもできる。これにより、ＳＢＲ全体のデータ長の増加を防止することができる。

尚、図２は、ＡＡＣに対するフェードイン／フェードアウト処理装置であるのに対し、図８は、ＳＢＲに対するものである。従って、ＡＡＣの低周波数領域とＳＢＲの高周波数領域とを同時にフェードイン／フェードアウトさせるためには、図２及び図６の機能構成を併合することによって実現できる。

前述した本発明における種々の実施形態によれば、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略を、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１オーディオフレームの構成図である。本発明におけるＡＡＣのフェードイン／フェードアウト処理装置の機能構成図である。標準の量子化特性を表すグラフの例である。音量を１段小さくした量子化特性を表すグラフの例である。音量を２段小さくした量子化特性を表すグラフの例である。フェードアウトの変更パターンのグラフである。ＳＢＲ及びbs_data_envパラメータの説明図である。本発明におけるＳＢＲのフェードイン／フェードアウト処理装置の機能構成図である。

符号の説明

１ＡＡＣのフェードイン／フェードアウト処理装置
１０ビットストリーム分解部
１１ハフマン復号化部
１２利得パラメータ変更部
１３操作可能域監視部
１４ビットストリーム合成部
２ＳＢＲのフェードイン／フェードアウト処理装置
２０ビットストリーム分解部
２１ハフマン復号化部
２２利得パラメータ変更部
２３ビットストリーム合成部
４オーディオデータ記憶部

Claims

オーディオフレームのビットストリームをヘッダ要素及び実データ部に分解して、利得パラメータ値を出力するビットストリーム分解手段と、
前記利得パラメータ値を所定時間範囲で増加又は減少させる利得パラメータ変更手段と、
変更された前記利得パラメータ値を含めて、前記ヘッダ要素及び実データ部を合成するビットストリーム合成手段と
を有することを特徴とするフェードイン／フェードアウト処理装置。
前記オーディオフレームは、ＭＰＥＧオーディオ規格に基づくＡＡＣデータを含むものであって、前記利得パラメータ値はglobal_gainであることを特徴とする請求項１に記載のフェードイン／フェードアウト処理装置。
前記ビットストリーム分解手段はスケールファクタを出力するように構成されており、
量子化刻み幅が負とならないように、前記global_gainと差分値の前記スケールファクタとから計算される量子化刻み幅の中で最小値を前記利得パラメータ変更手段へ通知する操作可能域監視手段を更に有し、
前記利得パラメータ変更手段は、前記global_gainから前記量子化刻み幅の最小値を差し引いた値よりも、前記global_gainが減少しないように構成されていることを特徴とする請求項２に記載のフェードインフェードアウト処理装置。
オーディオフレームのビットストリームをヘッダ要素及び実データ部に分解するビットストリーム分解手段と、
前記実データ部に含まれる包絡線の利得パラメータの符号列を利得パラメータ値に復元するハフマン復号化手段と、
前記利得パラメータ値を所定時間範囲で増加又は減少させて、変更された前記利得パラメータ値をハフマン符号化して当該実データ部に含める利得パラメータ変更手段と、
前記ヘッダ要素及び実データ部を合成するビットストリーム合成手段と
を有することを特徴とするフェードイン／フェードアウト処理装置。
前記オーディオフレームは、ＭＰＥＧオーディオ規格に基づくＳＢＲデータを含むものであって、前記利得パラメータ値はbs_data_envであることを特徴とする請求項４に記載のフェードイン／フェードアウト処理装置。
前記利得パラメータ変更手段は、前記利得パラメータ値を、時間進行に対して、単調的に、指数曲線的に又は予め指定された特徴ある曲線的に、増加又は減少させることを特徴とする請求項１から５のいずれか１項に記載のフェードイン／フェードアウト処理装置。
オーディオフレームのビットストリームをヘッダ要素及び実データ部に分解して、利得パラメータ値を出力するビットストリーム分解手段と、
前記利得パラメータ値を所定時間範囲で増加又は減少させる利得パラメータ変更手段と、
変更された前記利得パラメータ値を含めて、前記ヘッダ要素及び実データ部を合成するビットストリーム合成手段と
して機能させることを特徴とするフェードイン／フェードアウト処理プログラム。
前記オーディオフレームは、ＭＰＥＧオーディオ規格に基づくＡＡＣデータを含むものであって、前記利得パラメータ値はglobal_gainであるように機能させることを特徴とする請求項７に記載のフェードイン／フェードアウト処理プログラム。
前記ビットストリーム分解手段はスケールファクタを出力するように構成されており、
量子化刻み幅が負とならないように、前記global_gainと差分値の前記スケールファクタとから計算される量子化刻み幅の中で最小値を前記利得パラメータ変更手段へ通知する操作可能域監視手段を更に有し、
前記利得パラメータ変更手段は、前記global_gainから前記量子化刻み幅の最小値を差し引いた値よりも、前記global_gainが減少しないように機能させることを特徴とする請求項８に記載のフェードインフェードアウト処理プログラム。
オーディオフレームのビットストリームをヘッダ要素及び実データ部に分解するビットストリーム分解手段と、
前記実データ部に含まれる包絡線の利得パラメータの符号列を利得パラメータ値に復元するハフマン復号化手段と、
前記利得パラメータ値を所定時間範囲で増加又は減少させて、変更された前記利得パラメータ値をハフマン符号化して当該実データ部に含める利得パラメータ変更手段と、
前記ヘッダ要素及び実データ部を合成するビットストリーム合成手段と
して機能させることを特徴とするフェードイン／フェードアウト処理プログラム。
前記オーディオフレームは、ＭＰＥＧオーディオ規格に基づくＳＢＲデータを含むものであって、前記利得パラメータ値はbs_data_envであるように機能させることを特徴とする請求項１０に記載のフェードイン／フェードアウト処理プログラム。
前記利得パラメータ変更手段は、前記利得パラメータ値を、時間進行に対して、単調的に、指数曲線的に又は予め指定された特徴ある曲線的に、増加又は減少させるように機能させることを特徴とする請求項７から１１のいずれか１項に記載のフェードイン／フェードアウト処理プログラム。