JP2011514558A

JP2011514558A - オーディオ信号処理方法及び装置

Info

Publication number: JP2011514558A
Application number: JP2010549573A
Authority: JP
Inventors: ククリ，ヒュン; ヨンユン，スン; スキム，ドン; ヒュンリム，ジェ
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2008-03-04
Filing date: 2009-03-04
Publication date: 2011-05-06
Anticipated expiration: 2029-03-04
Also published as: JP5108960B2; EP2259254A4; US8135585B2; EP2259254B1; WO2009110751A3; CA2717584A1; RU2010140365A; EP2259254A2; KR20100134623A; US20100070272A1; CN102007534A; CA2717584C; AU2009220341A1; CN102007534B; WO2009110751A2; AU2009220341B2; RU2452042C1; ES2464722T3

Abstract

【課題】本発明は、オーディオ信号をより高効率で圧縮・復元できるオーディオ信号処理方法及び装置を提供する。
【解決手段】このオーディオ信号処理方法は、第１タイプ情報を用いてオーディオ信号のコーディングタイプが音楽信号コーディングタイプであるか否かを識別する段階と、音楽信号コーディングタイプでない場合、第２タイプ情報を用いて音声信号コーディングタイプか、或いは混合信号コーディングタイプかを識別する段階と、混合信号コーディングタイプである場合、オーディオ信号からスペクトルデータ及び線形予測係数を抽出する段階と、スペクトルデータを逆周波数変換して線形予測に対するレジデュアル信号を生成する段階と、線形予測係数及びレジデュアル信号を線形予測コーディングして、オーディオ信号を復元する段階と、復元されたオーディオ信号の一部領域である拡張基礎信号及び帯域拡張情報を用いて高周波領域信号を復元する段階と、を含む。
【選択図】図２

Description

本発明は、種々のオーディオ信号を全て効果的に符号化及び復号化することができるオーディオ信号処理方法及び装置に関するものである。

一般に、オーディオコーディング技術は、知覚的オーディオコーダと線形予測ベースのコーダとに大別することができる。例えば、音楽に最適化された知覚的オーディオコーダは、周波数軸で人間の聴取心理音響理論であるマスキング原理を用いて符号化過程で情報量を減らす方式である。一方、例えば、音声に最適化された線形予測ベースのコーダは、時間軸で音声発声をモデリングして情報量を減らす方式である。

しかし、これらの技術は、それぞれ最適化されたオーディオ信号（例えば、音声または音楽信号）については良い性能を示すが、他の種類のオーディオ信号あるいは音声と音楽信号とが複雑に混ざり合ったオーディオ信号については一貫した性能を示さないという問題点がある。

本発明の目的は、種々のオーディオ信号をより高い効率で圧縮及び復元できるオーディオ信号処理方法及び装置を提供することにある。

上記目的を達成するために、本発明は、オーディオ信号の特性に適合するオーディオコーディング方法を提供する。本発明のオーディオ信号処理方法の実施例は、第１タイプ情報を用いてオーディオ信号のコーディングタイプが音楽信号コーディングタイプであるか否かを識別する段階と、オーディオ信号のコーディングタイプが音楽信号コーディングタイプでない場合、第２タイプ情報を用いてオーディオ信号のコーディングタイプが音声信号コーディングタイプであるか、或いは、混合信号コーディングタイプであるかを識別する段階と、オーディオ信号のコーディングタイプが混合信号コーディングタイプである場合、オーディオ信号からスペクトルデータ及び線形予測係数を抽出する段階と、スペクトルデータを逆周波数変換して線形予測に対するレジデュアル信号を生成する段階と、線形予測係数及びレジデュアル信号を線形予測コーディングして、オーディオ信号を復元する段階と、復元されたオーディオ信号の一部領域である拡張基礎信号及び帯域拡張情報を用いて高周波領域信号を復元する段階と、を含む。

また、本発明のオーディオ処理装置の実施例は、ビットストリームから第１タイプ情報、第２タイプ情報、帯域拡張情報を抽出するデマルチプレクサと、第１タイプ情報を用いてオーディオ信号のコーディングタイプが音楽信号コーディングタイプであるか否かを識別し、オーディオ信号のコーディングタイプが音楽信号コーディングタイプでない場合、第２タイプ情報を用いてオーディオ信号のコーディングタイプが音声信号コーディングタイプであるか、または、混合信号コーディングタイプであるかを識別した後、復号化方式を決定する復号化器決定部と、オーディオ信号のコーディングタイプが混合信号コーディングタイプである場合、オーディオ信号からスペクトルデータ及び線形予測係数を抽出する情報抽出部と、スペクトルデータを逆周波数変換して線形予測に対するレジデュアル信号を生成する周波数変換部と、線形予測係数及びレジデュアル信号を線形予測コーディングして、オーディオ信号を復元する線形予測部と、復元されたオーディオ信号の一部領域である拡張基礎信号及び帯域拡張情報を用いて高周波領域信号を復元する帯域幅拡張デコーディング部と、を含む。

また、オーディオ信号は、複数のサブフレームで構成され、第２タイプ情報は、サブフレーム単位に存在することができる。

また、高周波領域信号の帯域幅は、拡張基礎信号の帯域幅と異なるように生成することができ、帯域拡張情報は、復元されたオーディオ信号に適用されるフィルター範囲、拡張基礎信号の開始周波数及び終了周波数のうち一つ以上の情報を含むことができる。

また、オーディオ信号のコーディングタイプが音楽信号コーディングタイプであれば、オーディオ信号は、周波数ドメイン信号であり、オーディオ信号のコーディングタイプが音声信号コーディングタイプであれば、オーディオ信号は、タイムドメイン信号であり、オーディオ信号のコーディングタイプが混合信号コーディングタイプであれば、オーディオ信号は、ＭＤＣＴドメイン信号でありうる。

また、線形予測係数の抽出時には、線形予測係数モードを抽出し、該抽出されたモードに該当する可変ビット数の大きさの線形予測係数を抽出することができる。

本発明は、種々のオーディオ信号を分類し、各オーディオ信号の特性別にそれに適合するオーディオコーディング方式を提供することによって、より効率的なオーディオ信号の圧縮及び復元を可能にすることができる。

本発明の一実施例によるオーディオ符号化装置を示すブロック図である。本発明の他の実施例によるオーディオ符号化装置を示すブロック図である。図２における帯域幅前処理部１５０の詳細構成を示すブロック図である。本発明の一実施例によるオーディオタイプ情報を用いるオーディオ信号の符号化方法を示すフローチャートである。本発明によって符号化されたオーディオビットストリーム構造の一例を示す図である。本発明の一実施例によるオーディオ復号化装置を示すブロック図である。本発明の他の実施例によるオーディオ復号化装置を示すブロック図である。図７における帯域幅拡張部２５０の詳細構成を示すブロック図である。本発明の実施例によるオーディオ復号化装置が組み込まれた製品の構成を例示する図である。本発明の実施例によるオーディオ復号化装置が組み込まれた製品間の関係を例示する図である。本発明の実施例によるオーディオ復号化方法を示すフローチャートである。

以下、添付の図面を参照しつつ、本発明の好適な実施例について詳細に説明する。本明細書に記載された実施例と図面に示された構成は、本発明の好適な一実施例に過ぎないもので、これらの実施例によって本発明の技術的思想が限定されることはない。したがって、本出願時点においてそれらの実施例に取って代わる様々な均等物や変形例がありうることは明らかである。

本発明において用語は適宜解釈することができ、例えば、「コーディング」は、場合によって、エンコーディングまたはデコーディングと解釈することができ、情報は、値、パラメータ、係数、成分などを含むことができる。

なお、本発明において、「オーディオ信号」とは、ビデオ信号と区別される概念であり、再生時に聴覚で識別しうる全ての信号を指す。したがって、オーディオ信号は、例えば、人間の発音を中心とする音声信号またはこれに類似する信号（以下、「音声信号」と総称する。）と、機械音及び声を中心とする音楽信号またはこれに類似する信号（以下、「音楽信号」と総称する。）と、音声信号及び音楽信号が混合されている「混合信号」とに分類することができる。本発明は、例えば、３種類に分類されるオーディオ信号を、各信号の特性に合わせて符号化及び復号化する方法及び装置を提供する。ただし、このオーディオ信号の分類は、本発明の説明のために分類した基準に過ぎず、オーディオ信号を他の方法により分類する場合にも、本発明の技術的思想を同様に適用できることは明らかである。

図１は、本発明の好ましい一実施例によるオーディオ符号化装置を示すブロック図である。詳しくは、図１は、入力されるオーディオ信号を既に設定された基準によって分類し、この分類された各オーディオ信号に好適なオーディオ符号化方式を選択して符号化する過程を示す図である。

図１を参照すると、入力されるオーディオ信号の特性を分析して、音声信号、音楽信号、または音声と音楽との混合信号のいずれか一類型に分類する信号分類部（Sound Activity Detector）１００と、信号分類部１００で決定された信号類型のうち、音声信号を符号化する線形予測モデリング部１１０と、音楽信号を符号化する心理音響モデリング部１２０と、音声と音楽との混合信号を符号化する混合信号モデリング部１３０と、を含む。また、信号分類部１００によってオーディオ信号が分類されると、それに好適な符号化方式を選択するためのスイッチング部１０１をさらに含むことができる。スイッチング部１０１は、信号分類部１００により生成されるオーディオ信号コーディングタイプ情報（例えば、第１タイプ情報及び第２タイプ情報。これについては図２及び図３で詳細に後述する。）を制御信号として動作する。また、混合信号モデリング部１３０は、線形予測部１３１、レジデュアル信号抽出部１３２、周波数変換部１３３を含むことができる。以下、図１の各部分について詳細に説明する。

まず、信号分類部１００は、入力オーディオ信号のタイプを分類し、それに好適なオーディオ符号化方式を選択するための制御信号を生成する。例えば、信号分類部１００は、入力オーディオ信号が、音楽信号なのか、音声信号なのか、または音声及び音楽の両信号が混合された混合信号なのか、を分類する。すなわち、このように、入力されるオーディオ信号のタイプを分類する理由は、オーディオ信号タイプ別に、後述するオーディオ符号化方式から最適のコーディング方式を選択するためである。その結果、信号分類部１００は、入力オーディオ信号を分析してそれに好適な最適オーディオコーディング方式を選択する過程を行う。例えば、信号分類部１００は、入力オーディオ信号を分析してオーディオコーディングタイプ情報を生成し、この生成されたオーディオコーディングタイプ情報は、符号化方式を選択する基準として用いられる他、最終的に符号化されるオーディオ信号中にビットストリームの形態で含まれて、復号化装置または受信装置に転送される。このオーディオコーディングタイプ情報を用いる復号化方法及び装置は、図６〜図８及び図１１で詳細に後述される。また、信号分類部１００により生成されるオーディオコーディングタイプ情報は、例えば、第１タイプ情報及び第２タイプ情報を含むことができ、これについては、図４及び図５で後述する。

信号分類部１００は、入力オーディオ信号の特性によってオーディオ信号タイプを決定する。例えば、入力オーディオ信号が特定係数とレジデュアル信号でよりよくモデリングされる信号である場合は、それを音声信号と判断し、一方、当該信号が特定係数とレジデュアル信号でよくモデリングされない信号である場合は、それを音楽信号と判断する。また、音声信号及び音楽信号のいずれか一つと判断し難い場合には、混合信号と判断することができる。具体的な判断基準は、例えば、信号を特定係数及びレジデュアル信号でモデリングした時、当該信号のエネルギーレベルに対するレジデュアル信号のエネルギーレベル比が、既に設定された基準値よりも小さい場合、この信号を、よくモデリングされる信号と判断することができ、よって、音声信号と判断することができる。または、信号が時間軸上で高い重複性を有する場合、当該信号は、過去の信号から現在の信号を予測する線形予測によりよくモデリングされる信号と判断でき、よって、音楽信号と判断することができる。

このような基準により、入力される信号が音声信号と分類された場合、音声信号に最適化されている音声符号化器を用いて入力信号を符号化することができ、本実施例では、音声信号に好適な符号化方式として線形予測モデリング部１１０を使用する。線形予測モデリング部１１０は、様々な方式が存在し、例えば、ＡＣＥＬＰ（代数符号励振線形予測、Algebraic Code Excited Linear Prediction）コーディング方式またはＡＭＲ（適応マルチレート、Adaptive Multi-Rate）コーディング及びＡＭＲ−ＷＢ（適応マルチレート広帯域、Adaptive Multi-Rate Wideband）コーディング方式を適用することができる。

なお、線形予測モデリング部１１０は、入力オーディオ信号をフレーム単位で線形予測符号化することができ、一つのフレームごとに予測係数をそれぞれ抽出して量子化することができる。例えば、一般に、「レビンソン−ダービンアルゴリズム」を用いて予測係数を抽出する方式が広く用いられている。

すなわち、例えば、入力オーディオ信号が、複数のフレームで構成されているか、または、複数のフレームを一つの単位とするスーパーフレームが複数存在する場合、それぞれのフレーム別に線形予測モデリング方式を適用するか否かを決定することができる。また、一つのスーパーフレーム内に存在する単位フレームごとにまたは単位フレームのサブフレームごとに、それぞれ異なる線形予測モデリング方式を適用することも可能であり、これにより、オーディオ信号のコーディング効率を高めることができる。

一方、信号分類部１００により入力オーディオ信号が音楽信号と分類される場合には、音楽信号に最適化されている音楽符号化器を用いて入力信号を符号化することができ、本実施例では、音楽信号に好適な符号化方式として心理音響モデリング部１２０を使用する。この心理音響モデリング部１２０は、知覚的オーディオコーダをベースにして構成される。

一方、信号分類部１００により入力オーディオ信号が音声と音楽との混合信号と分類される場合には、混合信号に最適化されている符号化器を用いて入力信号を符号化することができ、本実施例では、混合信号に好適な符号化方式として混合信号モデリング部１３０を使用する。

混合信号モデリング部１３０は、前述の線形予測モデリング方式及び心理音響モデリング方式を変形した混合方式でコーディングすることが可能である。すなわち、混合信号モデリング部１３０は、入力信号を線形予測コーディングした後、線形予測された結果信号と原信号との差であるレジデュアル信号を獲得し、このレジデュアル信号は、周波数変換コーディング方式によってコーディングする。

例えば、図１には、混合信号モデリング部１３０が、線形予測部１３１、レジデュアル信号抽出部１３２及び周波数変換部１３３を含んでなる一例を示す。

ここで、線形予測部１３１は、入力される信号を線形予測分析して、当該信号の特性を表す線形予測係数を抽出し、この抽出された線形予測係数を用いて、レジデュアル信号抽出部１３２で入力信号から重複成分の除去されたレジデュアル信号を抽出する。このレジデュアル信号は、重複性が除去されたため、白色雑音のような形態を有することができる。また、線形予測部１３１は、入力オーディオ信号をフレーム単位で線形予測符号化することができ、一つのフレームごとに予測係数をそれぞれ抽出して量子化することができる。すなわち、例えば、入力オーディオ信号が、複数のフレームで構成されているか、または、複数のフレームを一つの単位とするスーパーフレームが複数存在する場合、それぞれのフレーム別に線形予測モデリング方式を適用するか否かを決定することができる。また、一つのスーパーフレーム内に存在する単位フレームごとにまたは単位フレームのサブフレームごとに、それぞれ異なる線形予測モデリング方式を適用することも可能であり、これにより、オーディオ信号のコーディング効率を高めることができる。

レジデュアル信号抽出部１３２は、線形予測部１３１でコーディングされた残余信号と、信号分類部１００を通過した原オーディオ信号とを受信して、両信号の差信号であるレジデュアル信号を抽出する。

周波数変換部１３３は、入力されるレジデュアル信号をＭＤＣＴのような方法で周波数ドメイン変換して、レジデュアル信号のマスキング臨界値または信号対マスク比（ＳＭＲ: Signal-to-Mask Ratio）を計算することで、レジデュアル信号をコーディングする。周波数変換部１３３は、心理音響モデリング方法の他に、ＴＣＸを用いて残余オーディオ性向の信号をコーディングすることも可能である。

ここで、線形予測モデリング部１１０及び線形予測部１３１で入力オーディオ信号を線形予測分析して、オーディオ特性の反映された線形予測係数（ＬＰＣ：Linear prediction coefficient）を抽出し、ＬＰＣデータを転送する方法において可変的なビットを利用する方式を考慮することができる。

例えば、各フレーム別コーディング方式を考慮してＬＰＣデータモードを決定し、決定されたＬＰＣデータモード別に可変的なビット数を有する線形予測係数を割り当てることが可能である。こうすると、全体的なオーディオビット数を減らすことができ、より効率的なオーディオ符号化及び復号化が可能になる。

一方、信号分類部１００は、上述のように、オーディオ信号のコーディングタイプ情報を２つのタイプ情報に分類して生成し、これをビットストリーム内に含めて復号化装置に転送する。以下、本発明によるオーディオコーディングタイプ情報について、図４及び図５を参照して詳細に説明する。

図４は、本発明の一実施例によるオーディオ信号のコーディングタイプ情報を用いるオーディオ信号の符号化方法を示すフローチャートである。

本発明は、オーディオ信号のタイプを表現する方法として、第１タイプ情報と第２タイプ情報とに区別する方法を提案する。すなわち、例えば、信号分類部１００は、入力オーディオ信号を音楽信号と判断すると（Ｓ１００）、それに好適な符号化方式（例えば、図１の心理音響モデリング方式）を選択するようにスイッチング部１０１を制御して、選択された符号化方式によって符号化が行われるようにする（Ｓ１１０）。以降、該当の制御情報を第１タイプ情報として構成して、符号化されたオーディオビットストリーム内に含めて転送する。その結果、この第１タイプ情報は、オーディオ信号のコーディングタイプが音楽信号コーディングタイプである旨を表すコーディング識別情報の役目を兼ねることとなり、これは、復号化方法及び装置でオーディオ信号を復号化する時に用いられる。

また、信号分類部１００は、もし、入力オーディオ信号を音声信号と判断すると（Ｓ１２０）、それに好適な符号化方式（例えば、図１の線形予測モデリング方式）を選択するようにスイッチング部１０１を制御して、選択された符号化方式によって符号化が行われるようにする（Ｓ１３０）。また、信号分類部１００は、もし、入力オーディオ信号を混合信号と判断すると（Ｓ１２０）、それに好適な符号化方式（例えば、図１の混合信号モデリング方式）を選択するようにスイッチング部１０１を制御して、選択された符号化方式によって符号化が行われるようにする（Ｓ１４０）。以降、音声信号コーディングタイプまたは混合信号コーディングタイプのいずれかを表す制御情報を第２タイプ情報として構成して、第１タイプ情報と一緒に符号化されたオーディオビットストリーム中に含めて転送する。その結果、第２タイプ情報は、オーディオ信号のコーディングタイプが音声信号コーディングタイプまたは混合信号コーディングタイプのいずれかを表すコーディング識別情報の役目を兼ねることとなり、これは、復号化方法及び装置で前述の第１タイプ情報と一緒に、オーディオ信号を復号化する時に用いられる。

なお、第１タイプ情報と第２タイプ情報は、入力オーディオ信号の特性に応じて、第１タイプ情報のみ転送される場合、第１タイプ情報と第２タイプ情報の両方が転送される場合の２種類に区別される。すなわち、例えば、入力オーディオ信号コーディングタイプが音楽信号コーディングタイプであれば、第１タイプ情報のみをビットストリームに含めて転送し、第２タイプ情報はビットストリームに含めずに済む（図５の（ａ））。すなわち、第２タイプ情報は、入力オーディオ信号コーディングタイプが音声信号コーディングタイプであるか、または、混合信号コーディングタイプに該当する場合にのみビットストリームに含まれ、結果として、オーディオ信号のコーディングタイプを表現するために余分のビット数を使用することを防止することができる。

ここでは、一例として、第１タイプ情報が、音楽信号コーディングタイプか否かを指示するとして説明したが、これに限定されず、第１タイプ情報を、音声信号コーディングタイプまたは混合信号コーディングタイプを指示する情報とすることもできることは明らかである。すなわち、本発明の適用されるコーディング環境によって、確率的に発生頻度の高いオーディオコーディングタイプを第１タイプ情報とすることによって、全体的なビットストリームのビット数を減らす効果を得ることができる。

図５は、本発明によって符号化されたオーディオビットストリーム構造の一例を示す図である。

例えば、図５の（ａ）は、入力オーディオ信号が音楽信号に該当する場合を示すもので、ビットストリーム内には、第１タイプ情報３０１のみを含み、第２タイプ情報は含まれない。また、ビットストリーム内には、第１タイプ情報３０１に該当するコーディングタイプでコーディングされたオーディオデータを含む（例えば、ＡＡＣビットストリーム３０２）。

また、図５の（ｂ）は、入力オーディオ信号が音声信号に該当する場合を示すもので、ビットストリーム内には、第１タイプ情報３１１及び第２タイプ情報３１２を含む。また、ビットストリーム内には、第２タイプ情報３１２に該当するコーディングタイプでコーディングされたオーディオデータを含む（例えば、ＡＭＲビットストリーム３１３）。

また、図５の（ｃ）は、入力オーディオ信号が混合信号に該当する場合を示すもので、ビットストリーム内には、第１タイプ情報３２１及び第２タイプ情報３２２の両方を含む。また、ビットストリーム内には、第２タイプ情報３２２に該当するコーディングタイプでコーディングされたオーディオデータを含む（例えば、ＴＸＣの適用されたＡＡＣビットストリーム３１３）。

図５の（ａ）〜（ｃ）は、本発明により符号化されるオーディオビットストリーム内に含まれる情報の一例を表示したものに過ぎず、本発明の範囲内で様々な応用が可能であることは明らかである。例えば、本発明では、ＡＭＲ及びＡＡＣをコーディング方式の例とし、これらを識別する情報を追加したが、これに限定されず、様々なコーディング方式を適用可能であることは勿論、それらを識別するコーディング識別情報も様々なものを用いることができる。また、図５の（ａ）〜（ｃ）は、一つのスーパーフレーム、単位フレームまたはサブフレームのいずれにも適用可能な方式である。すなわち、既に設定されたフレーム単位別にオーディオ信号コーディングタイプ情報を提供することが可能である。

以下、図２及び図３を参照して、本発明の他の実施例として、符号化前処理過程の含まれたオーディオ符号化方法及び装置について説明する。

図１における線形予測モデリング部１１０、心理音響モデリング部１２０、混合信号モデリング部１３０を用いる入力信号の符号化過程の前処理過程として、周波数帯域幅拡張過程及びチャネル数変更過程を含むこともできる。

例えば、周波数帯域拡張過程の一実施例として、帯域幅前処理部１５０（図２）で低周波成分を用いて高周波成分を生成することができ、帯域幅前処理部１５０の一例に、変形改善されたＳＢＲ（スペクトル帯域複製、Spectral Band Replication）とＨＢＥ（高域拡張、High Band Extension）を用いることができる。

また、チャネル数変更過程は、オーディオ信号のチャネル情報を付加情報として符号化してビット割当量を減少させる。このチャネル数変更過程の一実施例としてダウンミックスチャネル生成部１４０（図２）を挙げることができる。ダウンミックスチャネル生成部１４０は、例えば、ＰＳ（Parametric Stereo）方式を適用することができ、ＰＳは、ステレオ信号をコーディングする技術であり、ステレオ信号をモノ信号にダウンミックスさせる。ダウンミックスチャネル生成部１４０は、入力される複数チャネルオーディオ信号をダウンミックスして、ダウンミックス信号及びダウンミックスされた信号の復元に関連する空間情報を生成する。

一実施例として、４８ｋＨｚステレオ信号をＳＢＲとＰＳを用いて転送すると、ＳＢＲ／ＰＳを通過した後に２４ｋＨｚ、モノ信号が残り、これは再び符号化器を通じてエンコーディングされることができる。この符号化器の入力信号が２４ｋＨｚになる理由は、ＳＢＲを通過しながら高周波成分はＳＢＲを通じてコーディングされ、既存周波数の半分にダウンサンプリングされるからであり、モノ信号になる理由は、ＰＳを通じてステレオオーディオがパラメータとして抽出されて、モノ信号と付加オーディオとの和の形態に変わるからである。

図２は、符号化前処理過程として、前述のダウンミックスチャネル生成部１４０及び帯域幅前処理部１５０が含まれた符号化装置を示す図である。
線形予測モデリング部１１０、心理音響モデリング部１２０、混合信号モデリング部１３０及びスイッチング部１０１は、図１と同様に動作する。また、信号分類部１００は、第１タイプ情報及び第２タイプ情報を生成する内容は同一であるが、これに加えて、ダウンミックスチャネル生成部１４０及び帯域幅前処理部１５０の動作を制御する制御信号を生成する。

すなわち、入力されるオーディオ信号を分析してオーディオ信号タイプを決定するとともに、オーディオ信号内のチャネル数及び周波数帯域幅を分析して、符号化前処理過程として、ダウンミックスチャネル生成部１４０及び帯域幅前処理部１５０の動作の有無及びその動作範囲を制御する制御信号１００ｂ，１００ｃをそれぞれ生成する。

図３は、本実施例に係る帯域幅前処理部１５０の詳細構成を示すブロック図である。

図３を参照すると、帯域拡張のための帯域幅前処理部１５０は、高周波領域除去部１５１、拡張情報生成部１５２、及び空間情報挿入部１５３を含む。高周波領域除去部１５１は、ダウンミックスチャネル生成部１４０からダウンミックス信号及び空間情報を受信する。高周波領域除去部１５１は、該ダウンミックス信号の周波数信号のうち、高周波領域に該当する高周波信号を除去した低周波ダウンミックス信号及び拡張基礎信号（後述する）の開始周波数及び終了周波数を含む復元情報を生成する。

ここで、復元情報は、入力信号の特性に基づいて決定することができる。一般に、高周波信号の開始周波数は、入力信号の全体帯域幅の半分に該当する周波数である。一方、復元情報は、入力信号の特性によって開始周波数を全体帯域幅の半分以下または以上に該当する周波数と決定することができる。例えば、ダウンミックス信号に対して帯域幅拡張技術を用いて高周波領域を除去してエンコーディングするよりは、ダウンミックス信号の全体帯域幅信号を用いる方が効率的な場合、該復元情報は開始周波数として帯域幅の末端に位置する周波数を表すことができる。この復元情報は、信号の大きさ、コーディング時に用いられるセグメントの長さ、及びソースの種類のうち一つ以上を用いて決定することができるが、これに限定されない。

拡張情報生成部１５２は、ダウンミックスチャネル生成部１４０で生成されたダウンミックス信号及び空間情報を用いて、デコーディングに用いられる拡張基礎信号を決定する拡張情報を生成する。拡張基礎信号は、デコーディング時に高周波領域除去部１５１で除去されたダウンミックス信号の高周波信号を復元するために用いられるダウンミックス信号の周波数信号であり、低周波信号または低周波信号のうち一部の信号とすることができる。例えば、ダウンミックス信号にバンドパスフィルタリングを行って低周波信号を再び低周波数バンド領域と中間周波数バンド領域領域とに区分することができ、この場合、低周波数バンド領域のみを用いて拡張情報を生成することができる。低周波数バンド領域と中間周波数バンド領域とを区分する境界周波数は、任意の固定値に定めることができ、或いは、信号分類部１００で混合信号に対して音声と音楽との比率を分析した情報に基づいてフレームごとに可変的に決定することもできる。

上記拡張情報は、高周波領域除去部１５１で除去されなかったダウンミックス信号に関する情報と一致することができるが、これに限定されず、拡張情報は、ダウンミックス信号のうち一部信号に関する情報であっても良い。また、拡張情報は、ダウンミックス信号のうち一部信号に関する情報である場合、拡張基礎信号の開始周波数及び終了周波数を含むことができ、該ダウンミックス信号の周波数信号に適用されるフィルターの範囲をさらに含むことができる。

空間情報挿入部１５３は、ダウンミックスチャネル生成部１４０で生成された空間情報に、高周波領域除去部１２１で生成された復元情報及び拡張情報生成部１２２で生成された拡張情報が挿入された新しい空間情報を生成する。

図６は、本発明の一実施例による復号化装置を示す図である。

図６を参照すると、復号化装置は、図１を参照して説明した符号化装置で行われる符号化過程の逆過程を行うことによって、入力されるビットストリームから信号を復元することができる。さらに言うと、この復号化装置は、デマルチプレクサ２１０、復号化器決定部２２０、復号化部２３０、合成部２４０を含むことができる。復号化部２３０は、それぞれ異なる方法で復号化を行う複数の復号化部２３１，２３２，２３３を含むことができ、これらは復号化器決定部２２０の制御によって動作する。詳しくは、復号化部２３０は、線形予測復号化部２３１、心理音響復号化部２３２、混合信号復号化部２３３を含むことができる。混合信号復号化部２３３は、情報抽出部２３４、周波数変換部２３５、線形予測部２３６を含むことができる。

デマルチプレクサ２１０は、入力されるビットストリームから、符号化された複数の信号及びこれら信号を復号化するための付加情報を抽出する。ビットストリーム内に含まれた付加情報、例えば、第１タイプ情報及び第２タイプ情報（必要時にのみ含まれる）を抽出してそれを復号化器決定部２２０に転送する。

復号化器決定部２２０は、受信した第１タイプ情報及び第２タイプ情報（必要時にのみ含まれる）から、復号化部２３１，２３２，２３３の復号化方式のうちいずれか一つを決定する。ただし、復号化器決定部２２０は、ビットストリームから抽出された付加情報を用いて復号化方式を決定することもできるが、ビットストリーム中に付加情報が存在しない場合には、独立した判断方法によって復号化方式を決定することもできる。この判断方法は、前述の信号分類部（図１の１００）の特徴を活用することができる。

復号化部２３０内の線形予測復号化器２３１は、音声信号タイプのオーディオ信号を復号化することができる。心理音響復号化器２３２は、音楽信号タイプのオーディオ信号を復号化する。混合信号復号化器２３３は、音声と音楽との混合タイプのオーディオ信号を復号化する。特に、混合信号復号化器２３３は、オーディオ信号からスペクトルデータと線形予測係数を抽出する情報抽出部２３４と、スペクトルデータを逆周波数変換して線形予測に対するレジデュアル信号を生成する周波数変換部２３５と、線形予測係数及びレジデュアル信号を線形予測コーディングして、出力信号を生成する線形予測部２３６と、を含んでなる。これら復号化された信号は合成部２４０で合成されて、符号化以前のオーディオ信号に復元される。

図７は、本発明の一実施例による復号化装置を示す図で、特に、復号化されたオーディオ信号の後処理過程を示す。この後処理過程は、線形予測復号化部２３１、心理音響復号化部２３２、混合信号復号化部２３３のうち一つを用いて復号化されたオーディオ信号に対して、帯域幅拡大及びチャネル数変更を行う過程を意味する。この後処理過程は、前述した図２のダウンミックスチャネル生成部１４０及び帯域幅前処理部１５０に対応して帯域幅拡張デコーディング部２５０及び複数チャネル生成部２６０で構成することができる。

図８は、帯域幅拡張デコーディング部２５０の詳細構成を示す図である。

周波数帯域拡張過程では、前述の帯域幅前処理部１５０で生成された拡張情報を、デマルチプレクサ２１０でビットストリームから抽出して活用する。オーディオ信号ビットストリームに含まれた拡張情報を用いて、スペクトルデータの一部または全部から別の帯域（例えば、高周波帯域）のスペクトルデータを生成するようになる。この時、周波数帯域を拡張する際に、類似の特性を有するユニットにグルーピングしてブロックを生成することができる。これは、共通のエンベロープ（または、エンベロープ特性）を有するタイプスロット（または、サンプル）をグルーピングしてエンベロープ領域を生成することと同一である。

図８を参照すると、帯域幅拡張デコーディング部２５０は、拡張基礎領域決定部２５１、高周波数領域復元部２５２、及び帯域幅拡張部２５３を含む。

拡張基礎領域決定部２５１は、受信した拡張情報に基づいて、受信したダウンミックス信号において拡張基礎領域を決定し、その結果として拡張基礎信号を生成する。このダウンミックス信号は、周波数ドメインで示される信号であり、拡張基礎信号は、周波数ドメインの当該ダウンミックス信号のうち一部の周波数領域を意味する。要するに、拡張情報は、拡張基礎信号を決定するのに用いる情報で、拡張基礎信号の開始周波数及び終了周波数、またはダウンミックス信号の一部をフィルタリングするフィルターの範囲を含むことができる。

高周波数領域復元部２５２は、ダウンミックス信号及び拡張情報を受信し、また、拡張基礎信号を受信する。以降、拡張基礎信号及び拡張情報を用いて、符号化端で除去されたダウンミックス信号の高周波領域信号を復元することができる。この時、符号化装置から受信した復元情報をさらに用いることができる。また、高周波領域信号は、ダウンミックス信号には含まれず、原信号には含まれた高周波領域信号とすることができる。高周波領域信号は、ダウンミックス信号の整数倍でなくても良く、高周波領域信号の帯域幅は、拡張基礎信号の帯域幅と同一でなくても良い。

本発明の一実施例による帯域幅拡張装置及び方法は、拡張基礎信号として、符号化端で高周波領域の除去されたダウンミックス信号全部を利用せずに、このダウンミックス信号の一部周波数領域に該当する信号を用いることによって、復元される高周波領域がダウンミックス信号の整数倍でない場合にも帯域幅拡張技術を利用できるようにする。

また、高周波数領域復元部２５２は、時間拡張ダウンミックス信号生成部（図示せず）及び周波数信号拡張部（図示せず）をさらに含むことができる。時間拡張ダウンミックス信号生成部は、拡張基礎信号に拡張情報を適用してダウンミックス信号を時間領域に拡張することができる。周波数信号拡張部は、時間拡張ダウンミックス信号のサンプル数を減少させることによって、ダウンミックス信号の周波数領域での信号を拡張することができる。

また、帯域幅拡張部２５３は、高周波数領域復元部２５２が復元された高周波領域信号のみを含み、低周波領域信号は含まない場合に、ダウンミックス信号及び高周波領域信号を結合して帯域幅の拡張された拡張ダウンミックス信号を生成する。この高周波領域信号は、ダウンミックス信号の整数倍でなくても良い。したがって、本発明の一実施例による帯域幅拡張技術は、倍数関係にない信号へのアップサンプリングに用いることができる。
帯域幅拡張部２５３で最終生成された拡張ダウンミックス信号は、複数チャネル生成部２６０に入力されて、複数チャネルに変換される。

以下、本発明の復号化方法を、図１１に示すフローチャートを参照して詳細に説明する。

デマルチプレクサ２１０は、入力されるビットストリームから第１タイプ情報及び第２タイプ情報（必要時に）を抽出する。また、デマルチプレクサ２１０は、後処理過程のための情報（例えば、帯域拡張情報、復元情報等）を抽出する。復号化器決定部２２０は、これら抽出された情報のうち、まず、第１タイプ情報を用いて、受信したオーディオ信号のコーディングタイプを判別する（Ｓ１０００）。仮に、受信したオーディオ信号のコーディングタイプが音楽信号コーディングタイプであれば、復号化部２３０における心理音響復号化部２３２を用いて復号化を行う（Ｓ１１００）。このとき、第１タイプ情報により決定される、各フレーム別またはサブフレーム別に適用されるコーディング方式を決定した後、それに適合するコーディング方式を適用して復号化を行う。

また、復号化器決定部２２０は、抽出された情報のうち、まず、第１タイプ情報を用いて、受信したオーディオ信号のコーディングタイプが音楽信号コーディングタイプでないと判別されると、以降、第２タイプ情報を用いて、受信したオーディオ信号のコーディングタイプが音声信号コーディングタイプなのかまたは混合信号コーディングタイプなのかを判別する（Ｓ１２００）。

仮に、第２タイプ情報が音声信号コーディングタイプを意味する場合、復号化部２３０における線形予測復号化部２３１を用いて復号化を行う（Ｓ１３００）。このとき、ビットストリームから抽出されたコーディング識別情報を用いて、各フレーム別またはサブフレーム別に適用されるコーディング方式を決定した後、それに適合するコーディング方式を適用して復号化を行う。

また、仮に、第２タイプ情報が混合信号を意味する場合、復号化部２３０における混合信号復号化部２３３を用いて復号化を行う（Ｓ１４００）。このとき、第２タイプ情報により決定される、各フレーム別またはサブフレーム別に適用されるコーディング方式を決定した後、それに適合するコーディング方式を適用して復号化を行う。

一方、線形予測復号化部２３１、心理音響復号化部２３２、混合信号復号化部２３３のいずれかを用いたオーディオ信号の復号化過程の後処理過程として、帯域幅拡張デコーディング部２５０で周波数帯域拡張過程を行うことができる（Ｓ１５００）。周波数帯域拡張過程は、帯域幅拡張デコーディング部２５０で、オーディオ信号ビットストリームから抽出された帯域拡張情報をデコーディングして、スペクトルデータの一部または全部から別の帯域（例えば、高周波帯域）のスペクトルデータを生成するようになる。

以降、帯域拡張過程後に生成された帯域幅の拡張されたオーディオ信号に対して、複数チャネル生成部２６０で複数チャネルを生成する過程を行う（Ｓ１６００）。

図９は、本発明の実施例による復号化装置が具現された製品の構成例を示す図である。また、図１０は、本発明の実施例による復号化装置が具現された製品間の関係を示す図である。

図９を参照すると、有無線通信部９１０は、有無線通信方式によってビットストリームを受信する。具体的に、有無線通信部９１０は、有線通信部９１０Ａ、赤外線通信部９１０Ｂ、ブルートゥース９１０Ｃ、無線ＬＡＮ通信部９１０Ｄのうち一つ以上を含むことができる。

ユーザ認証部９２０は、ユーザ情報を受信してユーザ認証を行うもので、指紋認識部９２０Ａ、虹彩認識部９２０Ｂ、顔認識部９２０Ｃ、及び音声認識部９２０Ｄのうち一つ以上を含むことができ、それぞれ、指紋、虹彩情報、顔の輪郭情報、音声情報を受信してユーザ情報に変換し、このユーザ情報と既存の登録されているユーザデータとが一致するか否かを判断して、ユーザ認証を行うことができる。

入力部９３０は、ユーザが様々な命令を入力するための入力装置で、キーパッド部９３０Ａ、タッチパッド部９３０Ｂ、リモコン部９３０Ｃのうち一つ以上を含むことができるが、本発明は、これに限定されない。信号デコーディング部９４０は、受信したビットストリーム及びフレームタイプ情報を用いて信号特性を分析し、該当の信号特性に対応するデコーディング部を用いて信号をデコーディングして出力信号を生成する。

制御部９５０は、入力装置から入力信号を受信し、信号デコーディング部９４０と出力部９６０のプロセス全般を制御する。出力部９６０は、信号デコーディング部９４０で生成された出力信号などを出力する構成要素で、スピーカー部９６０Ａ及びディスプレイ部９６０Ｂを含むことができる。出力信号がオーディオ信号であるとスピーカー部から出力信号が出力され、ビデオ信号であると、出力信号はディスプレイ部から出力される。

図１０は、図９に示す製品に該当する端末間の関係、及び該端末とサーバーとの関係をそれぞれ示す図である。図１０の（Ａ）を参照すると、第１端末１００１及び第２端末１００２が、有無線通信部を通じてデータまたはビットストリームを両方向に通信することができる。図１０の（Ｂ）を参照すると、サーバー１００３及び第１端末１００１も、互いに有無線通信を行うことができる。

本発明によるオーディオ信号処理方法は、コンピュータで実行可能なプログラムとして製作されて、コンピュータ読み取り可能な記録媒体に記憶されることができる。また、本発明によるデータ構造を有するマルチメディアデータも、コンピュータ読み取り可能な記録媒体に記憶されることができる。コンピュータ読み取り可能な記録媒体は、コンピュータシステムに読み込み可能なデータを記憶しうるいずれの記憶装置をも含むことができる。コンピュータ読み取り可能な記録媒体の例には、ＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光データ記憶装置などがあり、さらに、キャリアウェーブ（例えば、インターネットを介した転送）の形態で具現されるものも含む。また、上記エンコーディング方法によって生成されたビットストリームは、コンピュータ読み取り可能な記録媒体に記憶されたり、有／無線通信網を介して転送されたりすることができる。

以上では限定された実施例及び図面を例に挙げて本発明を説明してきたが、本発明は、それらに限定されず、本発明の属する技術分野における通常の知識を有する者には、本発明の技術思想及び添付の特許請求の範囲とその均等範囲内で様々な修正及び変形が可能であるということが理解できる。

Claims

オーディオ復号化器を含むオーディオ信号処理装置内で、
第１タイプ情報を用いてオーディオ信号のコーディングタイプが音楽信号コーディングタイプであるか否かを識別する段階と、
前記オーディオ信号のコーディングタイプが音楽信号コーディングタイプでない場合、第２タイプ情報を用いて、前記オーディオ信号のコーディングタイプが音声信号コーディングタイプなのか、或いは、混合信号コーディングタイプなのかを識別する段階と、
前記オーディオ信号のコーディングタイプが混合信号コーディングタイプである場合、前記オーディオ信号からスペクトルデータ及び線形予測係数を抽出する段階と、
前記スペクトルデータを逆周波数変換して線形予測に対するレジデュアル信号を生成する段階と、
前記線形予測係数及び前記レジデュアル信号を線形予測コーディングして、オーディオ信号を復元する段階と、
前記復元されたオーディオ信号の一部領域である拡張基礎信号及び帯域拡張情報を用いて高周波領域信号を復元する段階と、
を含むことを特徴とするオーディオ信号処理方法。
前記オーディオ信号は、複数のサブフレームで構成され、前記第２タイプ情報は、前記サブフレーム単位で存在する、請求項１に記載のオーディオ信号処理方法。
前記高周波領域信号の帯域幅は、前記拡張基礎信号の帯域幅と同一でない、請求項１に記載のオーディオ信号処理方法。
前記帯域拡張情報は、前記復元されたオーディオ信号に適用されるフィルター範囲、前記拡張基礎信号の開始周波数及び終了周波数のうち一つ以上の情報を含む、請求項１に記載のオーディオ信号処理方法。
前記オーディオ信号のコーディングタイプが音楽信号コーディングタイプであれば、前記オーディオ信号は周波数ドメイン信号であり、前記オーディオ信号のコーディングタイプが音声信号コーディングタイプであれば、前記オーディオ信号はタイムドメイン信号であり、前記オーディオ信号のコーディングタイプが混合信号コーディングタイプであれば、前記オーディオ信号はＭＤＣＴドメイン信号である、請求項１に記載のオーディオ信号処理方法。
前記線形予測係数を抽出する段階は、線形予測係数モードを抽出し、前記抽出されたモードに該当する可変ビット数の大きさの線形予測係数を抽出する、請求項１に記載のオーディオ信号処理方法。
ビットストリームから第１タイプ情報、第２タイプ情報、帯域拡張情報を抽出するデマルチプレクサと、
前記第１タイプ情報を用いてオーディオ信号のコーディングタイプが音楽信号コーディングタイプであるか否かを識別し、前記オーディオ信号のコーディングタイプが音楽信号コーディングタイプでない場合、第２タイプ情報を用いて、前記オーディオ信号のコーディングタイプが音声信号コーディングタイプなのかまたは混合信号コーディングタイプなのかを識別した後、復号化方式を決定する復号化器決定部と、
前記オーディオ信号のコーディングタイプが混合信号コーディングタイプである場合、前記オーディオ信号からスペクトルデータ及び線形予測係数を抽出する情報抽出部と、
前記スペクトルデータを逆周波数変換して線形予測に対するレジデュアル信号を生成する周波数変換部と、
前記線形予測係数及び前記レジデュアル信号を線形予測コーディングして、オーディオ信号を復元する線形予測部と、
前記復元されたオーディオ信号の一部領域である拡張基礎信号及び帯域拡張情報を用いて高周波領域信号を復元する帯域幅拡張デコーディング部と、
を含むことを特徴とするオーディオ信号処理装置。
前記オーディオ信号は、複数のサブフレームで構成され、前記第２タイプ情報は、前記サブフレーム単位で存在する、請求項７に記載のオーディオ信号処理装置。
前記高周波領域信号の帯域幅は、前記拡張基礎信号の帯域幅と同一でない、請求項７に記載のオーディオ信号処理装置。
前記帯域拡張情報は、前記復元されたオーディオ信号に適用されるフィルター範囲、前記拡張基礎信号の開始周波数及び前記終了周波数のうち一つ以上の情報を含む、請求項７に記載のオーディオ信号処理装置。
前記オーディオ信号のコーディングタイプが音楽信号コーディングタイプであれば、前記オーディオ信号は周波数ドメイン信号であり、前記オーディオ信号のコーディングタイプが音声信号コーディングタイプであれば、前記オーディオ信号はタイムドメイン信号であり、前記オーディオ信号のコーディングタイプが混合信号コーディングタイプであれば、前記オーディオ信号はＭＤＣＴドメイン信号である、請求項７に記載のオーディオ信号処理装置。
前記線形予測係数を抽出する段階は、線形予測係数モードを抽出し、前記抽出されたモードに該当する可変ビット数の大きさの線形予測係数を抽出することを特徴とする、請求項１に記載のオーディオ信号処理装置。
オーディオ信号を処理するオーディオ符号化器を含むオーディオ信号処理装置内で、
オーディオ信号の高周波帯域信号を除去し、前記高周波帯域信号を復元するための帯域拡張情報を生成する段階と、
前記オーディオ信号のコーディングタイプを決定する段階と、
前記オーディオ信号が音楽信号であれば、音楽信号コーディングタイプにコーディングされることを表す第１タイプ情報を生成する段階と、
前記オーディオ信号が音楽信号でなければ、音声信号コーディングタイプと混合信号コーディングタイプのうちいずれか一つにコーディングされることを表す第２タイプ情報を生成する段階と、
前記オーディオ信号のコーディングタイプが混合信号コーディングタイプである場合、前記オーディオ信号を線形予測コーディングして線形予測係数を生成する段階と、
前記線形予測コーディングに対するレジデュアル信号を生成する段階と、
前記レジデュアル信号を周波数変換してスペクトル係数を生成する段階と、
前記第１タイプ情報、前記第２タイプ情報、前記線形予測係数及びレジデュアル信号を含むオーディオビットストリームを生成する段階と、
を含むオーディオ信号処理方法。
オーディオ信号の高周波帯域信号を除去し、前記高周波帯域信号を復元するための帯域拡張情報を生成する帯域幅前処理部と、
入力オーディオ信号のコーディングタイプを決定するもので、前記オーディオ信号が音楽信号であれば、音楽信号コーディングタイプにコーディングされることを表す第１タイプ情報を生成し、前記オーディオ信号が音楽信号でなければ、音声信号コーディングタイプと混合信号コーディングタイプのうちいずれか一つにコーディングされることを表す第２タイプ情報を生成する信号分類部と、
前記オーディオ信号のコーディングタイプが混合信号コーディングタイプである場合、前記オーディオ信号を線形予測コーディングして線形予測係数を生成する線形予測モデリング部と、
前記線形予測に対するレジデュアル信号を生成するレジデュアル信号抽出部と、
前記レジデュアル信号を周波数変換してスペクトル係数を生成する周波数変換部と、
を含むことを特徴とするオーディオ信号処理装置。
前記オーディオ信号は、複数のサブフレームで構成され、前記第２タイプ情報は、前記サブフレーム別に生成される、請求項１１に記載のオーディオ信号処理装置。