JP5266341B2 - オーディオ信号処理方法及び装置 - Google Patents

オーディオ信号処理方法及び装置 Download PDF

Info

Publication number
JP5266341B2
JP5266341B2 JP2010549570A JP2010549570A JP5266341B2 JP 5266341 B2 JP5266341 B2 JP 5266341B2 JP 2010549570 A JP2010549570 A JP 2010549570A JP 2010549570 A JP2010549570 A JP 2010549570A JP 5266341 B2 JP5266341 B2 JP 5266341B2
Authority
JP
Japan
Prior art keywords
signal
audio signal
coding type
type
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010549570A
Other languages
English (en)
Other versions
JP2011513788A (ja
Inventor
オー,ヒェン−オ
ウク ソン,ジュン
ホン リ,チャン
ウォン ジュン,ヤン
グー カン,ホン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of JP2011513788A publication Critical patent/JP2011513788A/ja
Application granted granted Critical
Publication of JP5266341B2 publication Critical patent/JP5266341B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • G11B2020/00014Time or data compression or expansion the compressed signal being an audio signal

Description

本発明は、様々な種類のオーディオ信号を効果的に符号化及び復号化することができるオーディオ信号処理方法及び装置に関するものである。
従来のオーディオコーディング技術は、知覚的オーディオコーダ(Perceptual audio coder)と線形予測ベースコーダ(Linear Prediction based coder)の2種類に分類することができる。例えば、音楽(music)に最適化された知覚的オーディオコーダ(Perceptual audio coder)は、周波数軸において、人間聴覚の心理音響理論(human aural psychoacoustic theory)であるマスキング(masking)原理を用いて符号化過程において情報量を減らす方式である。一方、例えば、音声(speech)に最適化された線形予測ベースコーダ(Linear Prediction based coder)は、時間軸において音声発声をモデリングして情報量を減らす方式である。
しかしながら、これらの技術は、それぞれ最適化されたオーディオ信号(例えば、音声または音楽信号)については良い性能を示すが、異なる種類のオーディオ信号、あるいは音声と音楽信号とが複雑に混合されたオーディオ信号については一貫した性能を示さないという問題点があった。
従って、本発明は、関連技術の制限および不利点に伴う1つ以上の問題を実質的に取り除くためのオーディオ信号を処理する装置とその方法に関する。
本発明の目的は、オーディオ信号を処理するための装置とその方法を提供することであり、これにより、様々な種類のオーディオ信号を、より高い効率で、圧縮及び/又は復元することができる。
本発明のその他の目的は、オーディオ信号の特性に好適なオーディオコーディング方法を提供することである。
当然のことであるが、前記の一般的な記載と以下の詳細な説明の両方は、典型例、及び説明であり、請求項に記載される本発明の更なる説明を提供することを目的としている。
本発明の更なる理解を提供するために添付され、組み込まれ、及び本明細書の一部を構成する図面は、本発明の実施例を説明し、明細書と共に、本発明の原理を説明する。
本発明の好ましい一実施例によるオーディオ符号化装置を示すブロック図である。 本発明の一実施例によるオーディオタイプ情報を用いたオーディオ信号の符号化方法を示すフローチャートである。 本発明によって符号化されたオーディオビットストリーム構造の一例を示す図である。 本発明の一実施例による心理音響モデル(psychoacoustic model)を用いたオーディオ符号化装置を示すブロック図である。 本発明の他の実施例による心理音響モデル(psychoacoustic model)を用いたオーディオ符号化装置を示すブロック図である。 本発明の他の実施例による心理音響モデル部を用いたノイズシェーピング基準の変化を示すグラフである。 本発明の他の実施例による心理音響モデルを用いたノイズシェーピング基準生成方法を示すフローチャートである。 本発明の一実施例によるオーディオ復号化装置を示すブロック図である。 本発明の実施例によるオーディオ復号化装置が具現された製品の構成例を示す図である。 本発明の実施例によるオーディオ復号化装置が具現された製品間の関係を示す図である。 本発明の一実施例によるオーディオ復号化方法を示すフローチャートである。
以下、添付の図面を参照しつつ、本発明の好適な実施例について詳細に説明する。
本発明における用語は、以下の参照のように解釈することができる。例えば、「コーディング(coding)」は、場合によって、エンコーディングまたはデコーディングと解釈することができ、情報(information)は、値(values)、パラメータ(parameter)、係数(coefficients)、成分(elements)などのいずれをも含む用語とする。
なお、本発明において、「オーディオ信号(audio signal)」とは、ビデオ信号(video signal)と区別される概念であり、再生時に聴覚で識別しうる全ての信号を指す。したがって、オーディオ信号は、例えば、人間の発音を中心とする音声(speech)信号またはこれに類似する信号(以下、「音声(speech)信号」と称する。)と、機械音及び音を中心とする音楽(music)信号またはこれに類似する信号(以下、「音楽(music)信号」と称する。)、及び音声信号及び音楽信号が混合された「混合(mixed)信号」と、に分類することができる。本発明は、例えば、3種類に分類されるオーディオ信号を、各信号の特性に合わせて符号化及び復号化する方法及び装置を提供する。ただし、このオーディオ信号の分類は、本発明の説明のために分類した基準に過ぎず、オーディオ信号を他の方法により分類する場合にも、本発明の技術的思想を同一に適用できることは明らかである。
図1は、本発明の好ましい一実施例によるオーディオ符号化装置を示すブロック図である。詳しくは、図1は、入力されるオーディオ信号を既に設定された基準によって分類し、この分類された各オーディオ信号に好適なオーディオ符号化方式を選択して符号化する過程を示す図である。
図1を参照すると、入力されるオーディオ信号の特性を分析して、音声信号、音楽信号、または音声と音楽との混合信号のいずれか一類型に分類する信号分類部(signal classifying unit)(または、サウンドアクティビティ検出器(Sound Activity Detector))100と、信号分類部100で決定された信号類型のうち、音声信号を符号化する線形予測モデリング部110と、音楽信号を符号化する心理音響モデル部120と、音声と音楽との混合信号を符号化する混合信号モデリング部130と、を含む。また、信号分類部100によってオーディオ信号が分類されると、それに好適な符号化方式を選択するためのスイッチング部101をさらに含むことができる。スイッチング部101は、信号分類部100により生成されるオーディオ信号コーディングタイプ情報(例えば、第1タイプ情報及び第2タイプ情報、これについては図2及び図3に基づいて詳細に後述する。)を制御信号として動作される。また、混合信号モデリング部130は、線形予測部131、残余信号抽出部132、周波数変換部133を含むことができる。以下、図1の各部分について詳細に説明する。
まず、信号分類部100は、入力オーディオ信号のタイプを分類し、それに好適なオーディオ符号化方式を選択するための制御信号を生成する。例えば、信号分類部100は、入力オーディオ信号が、音楽信号なのか、音声信号なのか、または音声及び音楽の両信号が混合された混合信号(mixed)なのか、を分類する。すなわち、このように、入力されるオーディオ信号のタイプを分類する理由は、オーディオ信号タイプ別後述するオーディオ符号化方式から、最適のコーディング方式を選択することにある。結局として、信号分類部100は、入力オーディオ信号を分析してそれに好適な最適のオーディオコーディング方式を選択する過程に用いられる。例えば、信号分類部100は、入力オーディオ信号を分析してオーディオコーディングタイプ情報を生成し、この生成されたオーディオコーディングタイプ情報は、符号化方式を選択する基準として用いられる他、最終符号化されるオーディオ信号中にビットストリームの形態で含まれて復号化装置または受信装置に転送される。このオーディオコーディングタイプ情報を用いた復号化方法及び装置は、図8及び図11で詳細に後述される。また、信号分類部100により生成されるオーディオコーディングタイプ情報は、例えば、第1タイプ情報及び第2タイプ情報を含むことができる。これについては、図2及び図3で後述する。
信号分類部100は、入力オーディオ信号の特性によってオーディオ信号タイプを決定する。例えば、入力オーディオ信号が特定係数と残余(residual)信号でよくモデリングされる信号である場合は、それを音声信号と判断し、一方、信号が特定係数と残余信号でよくモデリングされない信号である場合は、それを音楽信号と判断する。また、音声信号及び音楽信号のいずれか一つと判断し難い場合には、混合信号と判断することができる。具体的な判断基準は、例えば、信号を特定係数及び残余信号でモデリングした時、この信号のエネルギーレベルに対する残余信号のエネルギーレベル比が、既に設定された基準値よりも小さい場合、この信号を、よくモデリングされる信号と判断することができ、よって、音声信号と判断することができる。または、信号が時間軸上で高い冗長性を持つ場合、この信号は、過去信号から現在信号を予測する線形予測によりよくモデリングされる信号と判断でき、よって、音楽信号と判断することができる。
このような基準により、入力される信号が音声信号と分類された場合、音声信号に最適化されている音声符号化器を用いて入力信号を符号化することができ、本実施例では、音声信号に好適な符号化方式として線形予測モデリング部110を使用する。線形予測モデリング部110は、様々な方式が存在し、例えば、ACELP(Algebraic Code Excited Linear Prediction)コーディング方式またはAMR(Adaptive Multi-Rate)コーディング及びAMR−WB(Adaptive Multi-Rate Wideband)コーディング方式を適用することができる。
なお、線形予測モデリング部110は、入力オーディオ信号をフレーム単位で線形予測符号化することができ、一つのフレームごとに予測(prediction)係数をそれぞれ抽出して量子化することができる。例えば、一般に、「レビンソン−ダービン(Levinson-Durbin)アルゴリズム」を用いて予測係数を抽出する方式が広く用いられている。
すなわち、例えば、入力オーディオ信号が、複数のフレーム(frame)で構成されているか、または、複数のフレームを一つの単位とするスーパーフレーム(super frame)が複数存在する場合、それぞれのフレーム別に線形予測モデリング方式を適用するか否かを決定することができる。また、一つのスーパーフレーム内に存在する単位フレームごとにまたは単位フレームのサブフレームごとに、それぞれ異なる線形予測モデリング方式を適用することも可能であり、これにより、オーディオ信号のコーディング効率を高めることができる。
一方、信号分類部100により入力オーディオ信号が音楽信号に分類される場合には、音楽信号に最適化されている音楽符号化器を用いて入力信号を符号化することができ、本実施例では、音楽信号に好適な符号化方式として心理音響モデル部120を使用する。本発明に適用される心理音響モデル部120の一例については、図4〜図7を参照して詳細に後述する。
一方、信号分類部100により入力オーディオ信号が音声と音楽との混合信号に分類される場合には、混合信号に最適化されている符号化器を用いて入力信号を符号化することができ、本実施例では、混合信号に好適な符号化方式として混合信号モデリング部130を使用する。
混合信号モデリング部130は、前述の線形予測モデリング方式及び心理音響モデリング方式を変形した混合方式でコーディングすることが可能である。すなわち、混合信号モデリング部130は、入力信号を線形予測コーディングし、線形予測結果の信号と原始信号との差である残余信号を取得し、そして、この残余信号を周波数変換コーディング方式によってコーディングする。
例えば、図1は、混合信号モデリング部130が、線形予測部131、残余信号抽出部132及び周波数変換部133を含んでなる一例を示す図である。
ここで、線形予測部131は、入力される信号を線形予測分析して、当該信号の特性を表す線形予測係数を抽出し、この抽出された線形予測係数を用いて、残余信号抽出部132で入力信号から冗長成分の除去された残余信号を抽出する。この残余信号は冗長性が除去されたため、白色雑音のような形態を有することができる。また、線形予測部131は、入力オーディオ信号をフレーム単位で線形予測符号化することができ、一つのフレームごとに予測(prediction)係数をそれぞれ抽出して量子化することができる。すなわち、例えば、入力オーディオ信号が、複数のフレーム(frame)で構成されているか、または、複数のフレームを一つの単位とするスーパーフレーム(super frame)が複数存在する場合、それぞれのフレーム別に線形予測モデリング方式を適用するか否かを決定することができる。また、一つのスーパーフレーム内に存在する単位フレームごとにまたは単位フレームのサブフレームごとに、それぞれ異なる線形予測モデリング方式を適用することも可能であり、これにより、オーディオ信号のコーディング効率を高めることができる。
残余信号抽出部132は、線形予測部131でコーディングされた残りの信号の入力と、信号分類部100を通過した原始オーディオ信号の入力とを受信して、両信号の差分信号である残余(Residual)信号を抽出する。
周波数変換部133は、入力される残余信号をMDCTのような方法で周波数ドメイン変換して、残余信号のマスキングしきい値または信号対マスク比(SMR: Signal-to-Mask Ratio)を計算することで、残余信号をコーディングする。周波数変換部133は、心理音響モデリング方法の他に、TCXを用いて残余オーディオ性質の信号をコーディングすることも可能である。
ここで、線形予測モデリング部110及び線形予測部131で入力オーディオ信号を線形予測分析して、オーディオ特性の反映された線形予測係数(LPC:Linear prediction coefficient)を抽出し、よって、LPCデータを転送する方法において可変的なビットを利用する方式を考慮することができる。
例えば、各フレーム別コーディング方式を考慮してLPCデータモードを決定し、決定されたLPCデータモード別に可変的なビット数を持つ線形予測係数を割り当てることが可能である。こうすると、全体的なオーディオビット数を減らすことができ、より効率的なオーディオ符号化及び復号化が可能になる。
一方、信号分類部100は、上述のように、オーディオ信号のコーディングタイプ情報を2つのタイプ情報に分類して生成し、これをビットストリーム内に含めて復号化装置に転送する。以下、本発明によるオーディオコーディングタイプ情報について、図2及び図3を参照して詳細に説明する。
図2は、本発明の好ましい一実施例によるオーディオ信号のコーディングタイプ情報を用いたオーディオ信号の符号化方法を示すフローチャートである。
本発明は、オーディオ信号のタイプを表現する方法として、第1タイプ情報と第2タイプ情報とに区別する方法を提案する。すなわち、例えば、信号分類部100は、入力オーディオ信号が音楽信号と判断されると(S100)、それに好適な符号化方式(例えば、図2の心理音響モデリング方式)を選択するようにスイッチング部101を制御して、選択された符号化方式によって符号化が行われるようにする(S110)。以降、該当の制御情報を第1タイプ情報として構成して、符号化されたオーディオビットストリーム内に含めて転送する。従って、この第1タイプ情報は、オーディオ信号のコーディングタイプが音楽信号コーディングタイプである旨を表すコーディング識別情報の役目を兼ねることとなり、これは、復号化方法及び装置でオーディオ信号を復号化する時に用いられる。
また、信号分類部100は、もし、入力オーディオ信号が音声信号と判断されると(S120)、それに好適な符号化方式(例えば、図2の線形予測モデリング方式)を選択するようにスイッチング部101を制御して、選択された符号化方式によって符号化が行われるようにする(S130)。また、信号分類部100は、もし、入力オーディオ信号が混合信号と判断されると(S120)、それに好適な符号化方式(例えば、図2の混合信号モデリング方式)を選択するようにスイッチング部101を制御して、選択された符号化方式によって符号化が行われるようにする(S140)。以降、音声信号コーディングタイプまたは混合信号コーディングタイプのいずれかを表す制御情報を第2タイプ情報として構成して、第1タイプ情報と一緒に符号化されたオーディオビットストリーム中に含めて転送する。従って、第2タイプ情報は、オーディオ信号のコーディングタイプが音声信号コーディングタイプまたは混合信号コーディングタイプのいずれかを表すコーディング識別情報の役目を兼ねることとなり、これは、復号化方法及び装置で前述の第1タイプ情報と一緒に、オーディオ信号を復号化する時に用いられる。
なお、第1タイプ情報と第2タイプ情報は、入力オーディオ信号の特性によって、第1タイプ情報のみ転送される場合、第1タイプ情報と第2タイプ情報の両方が転送される場合の2種類に区別される。すなわち、例えば、入力オーディオ信号コーディングタイプが音楽信号コーディングタイプであれば、第1タイプ情報のみをビットストリームに含めて転送し、第2タイプ情報はビットストリームに含めなくて済む(図3の(a))。すなわち、第2タイプ情報は、入力オーディオ信号コーディングタイプが音声信号コーディングタイプであるか、または、混合信号コーディングタイプに該当する場合にのみビットストリームに含まれ、結果として、オーディオ信号のコーディングタイプを表現するのに余分のビット数が使われることを防止することができる。
ここでは、一例として、第1タイプ情報が、音楽信号コーディングタイプか否かを指示するとして説明したが、これに限定されず、第1タイプ情報を、音声信号コーディングタイプまたは混合信号コーディングタイプを指示する情報とすることもできることは明らかである。すなわち、本発明の適用されるコーディング環境によって、確率的に発生頻度の高いオーディオコーディングタイプを第1タイプ情報とすることによって、全体的なビットストリームのビット数を減らす効果を得ることができる。
図3は、本発明によって符号化されたオーディオビットストリーム構造の一例を示す図である。
例えば、図3の(a)は、入力オーディオ信号が音楽信号に該当する場合を示すもので、ビットストリーム内には、第1タイプ情報301のみを含み、第2タイプ情報は含まれない。また、ビットストリーム内には、第1タイプ情報301に該当するコーディングタイプでコーディングされたオーディオデータを含む(例えば、AACビットストリーム302)。
また、図3の(b)は、入力オーディオ信号が音声信号に該当する場合を示すもので、ビットストリーム内には、第1タイプ情報311及び第2タイプ情報312を含む。また、ビットストリーム内には、第2タイプ情報312に該当するコーディングタイプでコーディングされたオーディオデータを含む(例えば、AMRビットストリーム313)。
また、図3の(c)は、入力オーディオ信号が混合信号に該当する場合を示すもので、ビットストリーム内には、第1タイプ情報321及び第2タイプ情報322を含む。また、ビットストリーム内には、第2タイプ情報322に該当するコーディングタイプでコーディングされたオーディオデータを含む(例えば、TXCの適用されたAACビットストリーム313)。
図3の(a)〜(c)は、本発明により符号化されるオーディオビットストリーム内に含まれる情報の一例を表示したものに過ぎず、本発明の範囲内で様々な応用が可能であるということは自明である。例えば、本発明では、AMR及びAACをコーディング方式の例とし、これらを識別する情報を追加したが、これに限定されず、様々なコーディング方式を適用可能であることは勿論、それらを識別する様々なコーディング識別情報を用いることもできる。また、図3の(a)〜(c)は、一つのスーパーフレーム、単位フレームまたはサブフレームの何れにも適用可能な方式である。すなわち、既に設定されたフレーム単位別にオーディオ信号コーディングタイプ情報を提供することが可能である。
一方、図1に示す、線形予測モデリング部110、心理音響モデル部120、混合信号モデリング部130を用いた入力信号符号化処理の前処理過程として、周波数帯域拡張処理を行うこともできる(図示せず)。周波数帯域拡張処理の一実施例として、帯域幅拡張デコーディング部で低周波成分を用いて高周波成分を生成するスペクトル帯域複製(Spectral Band Replication:SBR)と高帯域拡張(High Band Extension:HBE)を用いることができる。
一方、線形予測モデリング部110、心理音響モデル部120、混合信号モデリング部130を用いた入力信号の符号化処理の前処理過程として、チャネル拡張処理を行うこともできる(図示せず)。このチャネル拡張処理は、オーディオ信号のチャネル情報を付加情報で符号化して、ビット割当量を減少させる。このチャネル拡張処理の一実施例として、パラメトリックステレオ(Parametric Stereo:PS)のようなチャネル拡張エンコーディング部を挙げることができる。PSは、ステレオ信号をコーディングする技術で、ステレオ信号をモノ信号にダウンミックスさせる。
一実施例として、48kHzステレオ信号をSBRとPSを用いて転送すると、SBR/PSを通過した後、24kHz、モノ信号が残り、これは再び符号化器を通じてエンコーディングされることができる。この符号化器の入力信号が24kHzになる理由は、SBRを通過しながら高周波成分はSBRを通じてコーディングされ、既存周波数の半分にダウンサンプリングされるためであり、モノ信号となる理由は、PS(Parametric Stereo)を通じてステレオオーディオがパラメータで抽出されて、モノ信号と付加オーディオとの和の形態に変わるためである。
以下、図面を参照して、心理音響モデル部を用いた音楽信号の符号化過程について説明する。
図4は、本発明の好ましい一実施例による心理音響モデル(psychoacoustic model)を用いたオーディオ符号化過程を示すブロック図である。
図4を参照すると、本発明の一実施例による心理音響モデルを用いたオーディオ符号器は、フィルタバンク(または、解析フィルタバンク(Analysis filter bank))401、心理音響モデル部(psychoacoustic model unit)402、量子化及びビット割当て部(quantization and bit allocation unit)403、エントロピーコーディング部(entropy coding unit)404、及びマルチプレクサ405を含む。
フィルタバンク401は、時間軸信号である入力オーディオ信号を符号化するために修正離散コサイン変換(Modified Discrete Cosine Transform:MDCT)を行うことで、オーディオ信号を周波数軸信号に変換させる。
心理音響モデル部402は、入力されたオーディオ信号の知覚的特性を分析して、ビット割当過程に必要な各周波数別最大許容量子化雑音の量を決定することとなる。このような周波数別最大許容量子化雑音の量を図式化したものが、ノイズシェーピング基準(Noise Shaping Reference)である。さらに言うと、心理音響モデル部402は、周波数軸で入力信号の知覚的特性を分析するから、入力信号の周波数変換過程を必要とする。オーディオ信号の符号化過程においてフィルタバンク401を通じて周波数変換を行っているが、心理音響理論の実験結果の大部分は離散フーリエ変換(Discrete Fourier Transform:DFT)軸上で行われるため、高速フーリエ変換(Fast Fourier Transform:FFT)を行うことが好ましい。このような方法で周波数軸信号の変換過程を経た後、心理音響モデルにおけるノイズシェーピング基準は、周波数スペクトルと各周波数成分に対応する広がり(spreading)関数との畳み込み(convolution)により得られる。心理音響モデルにより得られたノイズシェーピング基準と入力信号スペクトルとの差を、知覚的エントロピー(perceptual entropy)で計算し、それに好適なビットを割り当てることによってオーディオ信号のスペクトルを量子化する。
量子化及びビット割当て部403は、フィルタバンク401で周波数軸信号に変換されたオーディオ信号において、心理音響モデル部402で決定されたノイズシェーピング基準の下に位置する量子化雑音の量を除去するロスコーディング(Loss Coding)により生成された成果対象(result object)を量子化する。また、量子化されたオーディオ信号にビットを割り当てる。ビット割当過程は、与えられたビット率において、量子化過程で発生する量子化雑音が心理音響モデルから得た最大許容雑音の量よりも可能な限り少なくなるように最適化する。
エントロピーコーディング部404は、量子化及びビット割当て部403で量子化及びビット割当されたオーディオ信号に、使用頻度によって符号を割り当てることで、オーディオ信号の圧縮率を最大化する。すなわち、平均符号長がエントロピーに最も近接するように符号を割り当てることで、圧縮効率を向上させる。基本原理は、データシンボルの統計的発生頻度によって、それぞれのシンボルや連続したシンボルを適切な長さの符号で表現することで、全体データ量を減らすことである。データシンボルの発生確率によって、「エントロピー」と呼ばれるシンボル当たりの平均情報量が決定され、エントロピー符号化の目標は、シンボル当たりの平均符号長をエントロピーに近接させることである。
マルチプレクサ405は、高効率で圧縮されたオーディオデータとサイド情報(Side Information)をエントロピーコーディング部404から受信して、受信側復号器(Decoder)にオーディオデータビットストリームとして転送する。
図5は、本発明の好ましい他の実施例による心理音響モデル(psychoacoustic model)を用いたオーディオ符号化過程を示すブロック図である。
図5を参照すると、本発明の他の実施例によるオーディオ信号符号器は、フィルタバンク(解析フィルタバンク)501、心理音響モデル部502、量子化及びビット割当て部503、エントロピーコーディング部504、及びマルチプレクサ505を含む。特に、心理音響モデル部502は、係数生成部502aと、ノイズシェーピング基準決定部502bと、を含む。
フィルタバンク501は、オーディオ信号の統計的な冗長性を除去するためにサブバンドサンプルに変換し、時間軸信号である入力オーディオ信号を符号化するためにMDCT(Modified Discrete Cosine Transform)を行うことで、オーディオ信号を周波数軸信号に変換させる。
心理音響モデル部502は、入力信号の知覚的特性を分析して、ビット割当過程に必要な各周波数別最大許容量子化雑音の量を決定する。一般に、オーディオ信号を符号化する過程において、アナログ信号をデジタル信号に変換するための量子化過程を経ることとなる。このような量子化過程において連続する値を四捨五入することから発生する誤差の値を、量子化雑音という。このような量子化雑音は、ビット割当(bit allocation)の度合によって変化し、このような量子化雑音を数値化するために、信号対量子化雑音比(SQNR:Signal to Quantization Noise Ratio)値を使用する。信号対量子化雑音比は、20×N×log2=6.02×N(dB)で表現され、ここで、Nは、サンプルにつき割り当てられたビット数を意味する。このような周波数別最大許容量子化雑音の量を図式化したものが、ノイズシェーピング基準(Noise Shaping Reference)である。結果的に、ビット割当値を増加させると、量子化雑音が減少し、量子化雑音がノイズシェーピング基準未満となる確率を増加させる。
心理音響モデル部502は、線形予測分析を行って線形予測係数を生成し、この線形予測係数に重み値を適用してシェーピング予測係数(shaping predictive coefficient)を生成する係数生成部502aと、生成されたシェーピング予測係数を用いてノイズシェーピング基準を決定するノイズシェーピング基準決定部502bと、を含む。ノイズシェーピング基準は、線形予測(Linear Prediction)コーディングによって導き出された線形予測係数(Linear Prediction Coefficient)に重み値を付与する知覚的重み付け(Perceptual Weighting)コーディングによって生成されるシェーピング予測係数を用いて生成される。
量子化及びビット割当て部503は、フィルタバンク501で周波数軸信号に変換されたオーディオ信号において、心理音響モデル部502で決定されたノイズシェーピング基準未満の量子化雑音の量を除去するロスコーディング(Loss Coding)により生成された成果対象を量子化し、量子化されたオーディオ信号にビットを割り当てる。ビット割当過程は、与えられたビット率において、量子化過程で発生する量子化雑音が、新しく設定されたノイズシェーピング基準の最大許容雑音の量よりも可能な限り少なくなるように最適化する。すなわち、各フレームにおけるノイズシェーピング基準に基づいて量子化雑音が信号によってマスキングされるようにMDCTスペクトルの量子化ビットを割り当てる。一実施例として、周波数変換されたオーディオ信号は、複数個のサブバンド信号に区分され、各サブバンド信号に対応するシェーピング予測係数ベースのノイズシェーピング基準を用いて各サブバンド信号を量子化することができる。
エントロピーコーディング部504は、量子化及びビット割当て部503で量子化及びビット割当されたオーディオ信号に使用頻度によって符号を割り当てることで、オーディオ信号の圧縮率を最大化する。すなわち、平均符号長がエントロピーに最も近接するように符号を割り当てることによって圧縮効率を向上させる。すなわち、データシンボルの統計的発生頻度によって、それぞれのシンボルや連続したシンボルを適切な長さの符号で表現することでデータ量を最適化させる。データシンボルの発生確率によって「エントロピー」と呼ばれるシンボル当たりの平均情報量が決定され、エントロピー符号化の目標は、シンボル当たりの平均符号長をエントロピーに近接させることにある。エントロピーコーディング部504は特定の方法に限定されず、ハフマンコーディング、算術コーディング、LZWコーディングなどを用いることもでき、これは当業者が選択することができる。
マルチプレクサ505は、高効率で圧縮されたオーディオデータ及びサイド情報(Side information)をエントロピーコーディング部504から受信して、受信側復号器(Decoder)に符号化されたオーディオデータビットストリームとして転送する。
一方、本発明のオーディオ符号化方法によって符号化されたオーディオデータは、復号化器で下記のように復号化することができる。
まず、量子化されたオーディオ信号を復号化器のデマルチプレクサで受信し、この量子化されたオーディオ信号からオーディオ信号を復元する。ここで、量子化されたオーディオ信号は、周波数変換されたオーディオ信号にノイズシェーピング基準を適用して生成されたものであり、このノイズシェーピング基準は、当該オーディオ信号の線形予測係数に重み値を適用して生成されたシェーピング予測係数を用いて決定したものとすることができる。
図6は、本発明の好ましい他の実施例による心理音響モデル部を用いたノイズシェーピング基準の変化を示すグラフである。
Figure 0005266341
グラフ上のオーディオ入力信号の波形を考慮するとき、波形の高点をそれぞれフォルマント(formant)と呼び、波形の底点をバレー(valley)と呼ぶ。例えば、図6のA部分がフォルマントとなり、B部分がバレー領域となる。音声符号化の場合、人の聴覚的特性が、周波数スペクトルのバレー(valley)領域における量子化雑音に敏感であるという点に着目して、バレー領域に対する量子化雑音を相殺させるためにオーディオ信号符号化時におけるよりも多いビット数をバレー領域に割り当て、また、相対的にエネルギーの大きいフォルマント(formant)領域のノイズシェーピング基準を増加させ相対的に少ないビット数をフォルマント領域に割り当てることによって圧縮率を維持すると同時に、より向上した音質を具現することができる。すなわち、A部分のノイズシェーピング基準を従来に比べて高く調整し、B部分のマスキングカーブ値を従来に比べて低く調整することによって、音声信号に対するコーディング効率を上げることができる。すなわち、重み値は、周波数変換されたオーディオ信号を量子化する段階において、線形予測係数に対する周波数スペクトルのフォルマント領域に対応するオーディオ信号の量子化雑音を増加させ、バレー領域に対応するオーディオ信号の量子化雑音を減少させるように適用することができる。
このために、図5に示す係数生成部502aで、線形予測解析(Linear Predictive analysis)を用いて線形予測(Linear Predictive)係数で構成された伝達関数を求めることができる。この伝達関数の周波数スペクトルは、入力信号に対する周波数スペクトルの包絡線(envelope)で示される。このような伝達関数を線形予測係数(Linear Predictive Coefficient)といい、これは、従来オーディオ符号化過程で用いられる心理音響モデル(PAM)のノイズシェーピング基準と類似の形態を示す。このような特徴を用いて、係数生成部502aで伝達関数、すなわち、線形予測係数を導き出し、これに基づいて従来の実験的に求められたノイズシェーピング基準を調整することによって、ビットレートの減少による量子化雑音をより効率的に減殺させることができ、演算量を減少させることができる。また、係数生成部502aで線形予測係数に適切な重み付け係数(weighting coefficient)を適用して重み付けフィルタ(weighting filter)を具現することによって、シェーピング予測係数を生成し、このシェーピング予測係数を用いて簡単にスペクトルのフォルマント(formant)領域とバレー(valley)領域に対する比重を調節することが可能になる。
この方式をオーディオ符号化過程に適用すると、量子化雑音の影響が聴覚的側面で敏感なスペクトルのバレー(valley)領域についてはノイズシェーピング基準を下げることによってより多くのビットを割り当てるようにし、相対的にエラーの影響が小さいフォルマント(formant)領域についてはノイズシェーピング基準を高めることによって、割り当てられるビット数を減少させ、聴覚的側面における符号化性能を向上させる。この過程で、知覚的重み値(perceptual weighting)の度合を調節する重み付け係数(weighting coefficient)は、一様に適用せずに、スペクトルの平坦度(flatness)のような入力信号特性によって適応的(adaptive)に調節することによって、符号化性能をより改善させることができる。このように、線形予測及び重み値を用いてノイズシェーピング基準を改善するにあたり、スペクトルに対する包絡線分析無しにも、心理音響モデルに知覚的重み値(perceptual weighting)のみを適用してノイズシェーピング基準を導き出すことができる。
図7は、本発明の好ましい他の実施例による心理音響モデル(psychoacoustic model)を用いたノイズシェーピング基準生成方法を示すフローチャートである。
図7を参照すると、心理音響モデル部502にオーディオ信号が入力されると、係数生成部502aで、線形予測コーディングを用いて線形予測係数で構成された伝達関数を生成する(S200)。この伝達関数の周波数スペクトルは、入力信号に対する周波数スペクトルの包絡線(envelope)で示される。このような伝達関数を線形予測係数(Linear Predictive Coefficient)といい、これは、従来オーディオ符号化過程で使われる心理音響モデル(PAM)のノイズシェーピング基準と類似の形態を示す。また、係数生成部502aでオーディオ信号を受信して、線形予測係数に適切な重み付け係数を決定する(S210)。その後、ノイズシェーピング基準決定部502bで、S200段階で求められた線形予測係数からなる伝達関数の包絡線に、S210段階で決定された重み付け係数を適用して、補正された包絡線を生成する(S220)。続いて、ノイズシェーピング基準決定部502bで、S220段階で生成された包絡線のインパルス応答を計算する(S230)。この時、インパルス応答は、一種のフィルタリングの役割を担当する。続いて、ノイズシェーピング基準決定部502bで、S230段階でフィルタリングされた包絡線をFFTして、時間軸信号を周波数軸信号に変換する(S240)。ノイズシェーピング基準決定部502bでは、このように周波数軸信号に変換された包絡線をノイズシェーピング基準に設定するためにマスキングレベルを決定する(S250)。その後、ノイズシェーピング基準決定部502bで、サブバンド別に信号対マスク比(SMR)を分割する(S260)。
このような過程によって心理音響係数に重み付け係数を適用して重み付けフィルタ(weighting filter)を具現することによって、従来のノイズシェーピング基準に比べて、周波数スペクトル上でノイズシェーピング基準のフォルマント領域の値を高めるとともにバレー領域の値を下げ、バレー領域に相対的に多くのビット数を割り当てることができる。
一方、S200段階の線形予測コーディング(Linear Predictive Analysis)の代わりにワープ線形予測コーディング(Warped LP analysis)を用いて符号化効率を向上させることもできる。さらに言うと、ワープ線形予測コーディングは、高効率オーディオ符号化器において転送率減少のために、特定低周波(low frequency)帯域までは、本発明の心理音響モデルを適用したコアオーディオ符号化方法で信号を圧縮し、残り高周波(high frequency)成分は、低周波(low frequency)情報を用いた帯域幅拡張(bandwidth extension)またはスペクトル帯域複製(SBR:spectral band replication)方法を用いて符号化する。このような高効率符号化器の場合、特定低周波帯域のみまで心理音響モデルベースのノイズシェーピング基準を必要とする。ワープ線形予測コーディングを用いる場合、特定周波数帯域に対する周波数解像度を増加させることで、包絡線モデリング効率を増加させることができる。
図4または図5に示すオーディオ信号エンコーダは、音楽信号エンコーダ、音声信号エンコーダ両方が搭載されたデバイスで動作することができる。このオーディオ信号エンコーダは、ダウンミックス信号の特定フレームまたは特定セグメントが、主として音楽特性とされている場合、音楽コーディング方式(Music coding scheme)によってダウンミックス信号をエンコーディングする。この音楽信号エンコーダは、MDCTエンコーダに該当することができる。
この音声信号エンコーダは、ダウンミックス信号の特定フレームまたは特定セグメントが、主として音声特性とされている場合、音声コーディング方式(speech coding scheme)によってダウンミックス信号をエンコーディングする。一方、音声信号エンコーダに用いられる線形予測符号化(Linear Prediction Coding)方法を、本発明で提案する方式において改善することができる。ハーモニック信号が時間軸上で高い冗長性を持つ場合、過去信号から現在信号を予測する線形予測によってモデリングすることができるが、この場合、線形予測符号化方式を適用すると符号化効率を上げることができる。一方、音声信号エンコーダは、タイムドメインエンコーダに該当することができる。
図8は、本発明の一実施例による復号化装置を示す図である。
図8を参照すると、復号化装置は、図1を参照して説明した符号化装置で行われる符号化過程の逆過程を行うことによって、入力されるビットストリームから信号を復元することができる。さらに言うと、この復号化装置は、デマルチプレクサ210、復号化器決定部220、デコーディング部230、合成部240を含むことができる。デコーディング部230は、それぞれ異なる方法で復号化を行う複数のデコーディング部231,232,233を含むことができ、これらは復号化器決定部220の制御によって動作する。詳しくは、デコーディング部230は、線形予測デコーディング部231、心理音響デコーディング部232、混合信号デコーディング部233を含むことができる。混合信号デコーディング部233は、情報抽出部234、周波数変換部235、線形予測部236を含むことができる。
デマルチプレクサ210は、入力されるビットストリームから、符号化された複数の信号及びこれら信号を復号化するための付加情報を抽出する。ビットストリーム内に含まれた付加情報、例えば、第1タイプ情報及び第2タイプ情報(必要時にのみ含まれる)を抽出してそれを復号化器決定部220に転送する。
復号化器決定部220は、受信した第1タイプ情報及び第2タイプ情報(必要時にのみ含まれる)から、デコーディング部231,232,233における復号化方式のうちいずれか一つを決定する。ただし、復号化器決定部220は、ビットストリームから抽出された付加情報を用いて復号化方式を決定することもできるが、ビットストリーム中に付加情報が存在しない場合には、独立した判断方法によって復号化方式を決定することもできる。この判断方法は、前述の信号分類部(図1の100)の特徴を活用することができる。
デコーディング部230において、線形予測デコーディング部231は、音声信号タイプのオーディオ信号を復号化でき、心理音響デコーディング部232は、音楽信号タイプのオーディオ信号を復号化することができる。また、混合信号デコーディング部233は、音声と音楽との混合タイプのオーディオ信号を復号化することができる。詳しくは、混合信号デコーディング部233は、オーディオ信号からスペクトルデータ及び線形予測係数を抽出する情報抽出部234と、スペクトルデータを逆周波数変換して、線形予測に対する残余信号を生成する周波数変換部235、及びこの線形予測係数及び残余信号を線形予測コーディングして出力信号を生成する線形予測部236と、を含んで構成される。
これら復号化された信号は、合成部240で合成されて、元のオーディオ信号に復元される。
以下、本発明の復号化方法を、図11のフローチャートを参照して詳細に説明する。
デマルチプレクサ210は、入力されるビットストリームから第1タイプ情報及び第2タイプ情報(必要時に)を抽出する。復号化器決定部220は、抽出された情報のうち、まず、第1タイプ情報を用いて、受信したオーディオ信号のコーディングタイプを判別する(S1000)。もし、音楽信号を受信した場合には、デコーディング部230中の心理音響デコーディング部232を利用し、第1タイプ情報により決定される、各フレーム別またはサブフレーム別に適用されるコーディング方式を決定し、それに好適なコーディング方式を適用して復号化を行う(S1100)。
また、復号化器決定部220は、抽出された情報のうち第1タイプ情報をまず用いて、受信したオーディオ信号のコーディングタイプが音楽信号コーディングタイプでないと判別されると、続いて、第2タイプ情報を用いて、受信したオーディオ信号のコーディングタイプが音声信号コーディングタイプなのかまたは混合信号コーディングタイプなのかを判別する(S1200)。
もし、第2タイプ情報が音声信号コーディングタイプを意味する場合、デコーディング部230中の線形予測デコーディング部231を利用し、ビットストリームから抽出されたコーディング識別情報を用いて各フレーム別またはサブフレーム別に適用されるコーディング方式を決定し、それに好適なコーディング方式を適用して復号化を行う(S1300)。
また、もし、第2タイプ情報が混合信号を意味する場合、デコーディング部230中の混合信号デコーディング部233を利用し、第2タイプ情報により決定される、各フレーム別またはサブフレーム別に適用されるコーディング方式を決定し、それに好適なコーディング方式を適用して復号化を行う(S1400)。
一方、図示してはいないが、線形予測デコーディング部231、心理音響デコーディング部232、混合信号デコーディング部233を用いたオーディオ信号の復号化過程の後処理過程として、帯域幅拡張デコーディング部で周波数帯域拡張過程を行うことができる。周波数帯域拡張過程は、帯域幅拡張デコーディング部で、オーディオ信号ビットストリームに含まれた帯域拡張情報をデコーディングして、スペクトルデータの一部または全部から別の帯域(例えば、高周波帯域)のスペクトルデータを生成することをいう。ここで、周波数帯域を拡張する際に、類似の特性を有するユニットを1つのブロックにグループ化することができる。これは、共通のエンベロープ(または、エンベロープ特性)を持つタイムスロット(または、サンプル)をグループ化することによりエンベロープ領域を生成することと同一の方法である。
図9は、本発明の実施例による復号化装置が具現された製品の構成例を示す図である。また、図10は、本発明の実施例による復号化装置が具現された製品間の関係を示す図である。
図9を参照すると、有線/無線通信部910は、有線/無線通信方式によってビットストリームを受信する。具体的に、有線/無線通信部910は、有線通信部910A、赤外線通信部910B、ブルートゥース部910C、無線LAN部910Dのうち一つ以上を含むことができる。
ユーザ認証部920は、ユーザ情報を受信してユーザ認証を行うもので、指紋認識部920A、虹彩認識部920B、顔認識部920C、及び音声認識部920Dのうち一つ以上を含むことができ、それぞれ、指紋、虹彩情報、顔の輪郭情報、音声情報を受信してユーザ情報に変換し、このユーザ情報と既存登録されているユーザデータとが一致するか否かを判断して、ユーザ認証を行うことができる。
入力部930は、ユーザが様々な命令を入力するための入力装置で、キーパッド部930A、タッチパッド部930B、遠隔操作部930Cのうち一つ以上を含むことができるが、本発明は、これに限定されない。信号デコーディング部940は、受信したビットストリーム及びフレームタイプ情報を用いて信号特性を分析し、該当の信号特性に対応するデコーディング部を用いて信号をデコーディングして出力信号を生成する。
制御部950は、入力装置から入力信号を受信し、信号デコーディング部940と出力部960のプロセス全般を制御する。出力部960は、信号デコーディング部940で生成された出力信号などを出力する構成要素で、スピーカー部960A及びディスプレイ部960Bを含むことができる。出力信号がオーディオ信号であるとスピーカー部から出力信号が出力され、ビデオ信号であると、出力信号はディスプレイ部から出力される。
図10は、図9に示す製品に該当する端末及びサーバーとの関係を示す図である。図10の(A)を参照すると、第1端末1001及び第2端末1002が、有線/無線通信部を通じてデータまたはビットストリームを両方向に通信することができる。図10の(B)を参照すると、サーバー1003及び第1端末1001も、互いに有線/無線通信を行うことができる。
本発明によるオーディオ信号処理方法は、コンピュータで実行可能なプログラムとして製作されて、コンピュータ読み取り可能な記録媒体に記憶されることができる。また、本発明によるデータ構造を有するマルチメディアデータも、コンピュータ読み取り可能な記録媒体に記憶されることができる。コンピュータ読み取り可能な記録媒体は、コンピュータシステムに読み込み可能なデータを記憶しうるいずれの保存装置をも含むことができる。コンピュータ読み取り可能な記録媒体の例には、ROM、RAM、CD−ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ記憶装置などがあり、さらに、キャリアウェーブ(例えば、インターネットを介した転送)の形態で具現されるものも含む。また、上記エンコーディング方法によって生成されたビットストリームは、コンピュータ読み取り可能な記録媒体に記憶されたり、有線/無線通信網を介して転送されることができる。
従って、本発明は、以下の効果と利点を提供する。
本発明は、様々な種類のオーディオ信号を分類し、各オーディオ信号特性別にそれに好適なオーディオコーディング方式を提供することによって、より効率的なオーディオ信号の圧縮及び復元を可能にする。
以上では限定された実施例及び図面に挙げて本発明を説明してきたが、本発明は、それらに限定されず、本発明の属する技術分野における通常の知識を有する者には、本発明の技術思想及び添付の特許請求の範囲とその均等範囲内で様々な修正及び変形が可能であるということが理解できる。

Claims (15)

  1. オーディオ復号化器を含むオーディオ信号処理装置において、
    第1タイプ情報を用いて、オーディオ信号のコーディングタイプが音楽信号コーディングタイプなのか否かを識別する段階と、
    前記オーディオ信号の前記コーディングタイプが前記音楽信号コーディングタイプでない場合、第2タイプ情報を用いて、前記オーディオ信号の前記コーディングタイプが音声信号コーディングタイプなのか、混合信号コーディングタイプなのかを識別する段階と、
    前記オーディオ信号の前記コーディングタイプが前記混合信号コーディングタイプである場合、前記オーディオ信号からスペクトルデータ及び線形予測係数を抽出する段階と、
    前記スペクトルデータを逆周波数変換して、線形予測に対する残余信号を生成する段階と、
    前記線形予測係数及び前記残余信号を線形予測デコーディングして、前記オーディオ信号を復元する段階と、
    を含み、
    前記オーディオ信号の前記コーディングタイプが前記音楽信号コーディングタイプである場合、前記第1タイプ情報のみが用いられ、
    前記オーディオ信号の前記コーディングタイプが前記音声信号コーディングタイプまたは前記混合信号コーディングタイプである場合、前記第1タイプ情報と前記第2タイプ情報の両方が用いられ、
    前記オーディオ信号の前記コーディングタイプが前記混合信号コーディングタイプである場合、前記オーディオ信号は、MDCTを実行することにより変換された周波数領域の信号を有することを特徴とするオーディオ信号処理方法。
  2. 前記オーディオ信号の前記コーディングタイプが前記混合信号コーディングタイプである場合、前記復元されたオーディオ信号の低周波帯域信号を用いて高周波帯域信号を復元する段階と、
    前記復元されたオーディオ信号をアップミキシングして複数個のチャネルを生成する段階と、
    をさらに含むことを特徴とする、請求項1に記載のオーディオ信号処理方法。
  3. 前記オーディオ信号は、複数のサブフレームを有し、前記第2タイプ情報は、該サブフレーム単位で存在することを特徴とする、請求項1に記載のオーディオ信号処理方法。
  4. 前記オーディオ信号の前記コーディングタイプが前記音楽信号コーディングタイプである場合、前記オーディオ信号は周波数ドメイン信号から成り、前記オーディオ信号の前記コーディングタイプが前記音声信号コーディングタイプである場合、前記オーディオ信号はタイムドメイン信号から成ることを特徴とする、請求項1に記載のオーディオ信号処理方法。
  5. 前記線形予測係数を抽出する段階は、
    線形予測係数モードを抽出する段階と、
    前記抽出された線形予測係数モードに該当する可変ビット大きさを有する前記線形予測係数を抽出する段階と、
    を含むことを特徴とする、請求項1に記載のオーディオ信号処理方法。
  6. ビットストリームから第1タイプ情報、及び第2タイプ情報を抽出するデマルチプレクサと、
    前記第1タイプ情報を用いてオーディオ信号のコーディングタイプが音楽信号コーディングタイプなのか否かを識別し、前記オーディオ信号の前記コーディングタイプが前記音楽信号コーディングタイプでない場合、第2タイプ情報を用いて前記オーディオ信号の前記コーディングタイプが音声信号コーディングタイプか、混合信号コーディングタイプなのかを識別し、そして復号化方式を決定する復号化器決定部と、
    前記オーディオ信号の前記コーディングタイプが前記混合信号コーディングタイプである場合、前記オーディオ信号からスペクトルデータ及び線形予測係数を抽出する情報抽出部と、
    前記スペクトルデータを逆周波数変換して、線形予測に対する残余信号を生成する周波数変換部と、
    前記線形予測係数及び前記残余信号を線形予測デコーディングして、前記オーディオ信号を復元する線形予測部と、
    を含み、
    前記オーディオ信号の前記コーディングタイプが前記音楽信号コーディングタイプである場合、前記第1タイプ情報のみが用いられ、
    前記オーディオ信号の前記コーディングタイプが前記音声信号コーディングタイプまたは前記混合信号コーディングタイプである場合、前記第1タイプ情報と前記第2タイプ情報の両方が用いられ、
    前記オーディオ信号の前記コーディングタイプが前記混合信号コーディングタイプである場合、前記オーディオ信号は、MDCTを実行することにより変換された周波数領域の信号を有することを特徴とするオーディオ信号処理装置。
  7. 前記オーディオ信号の前記コーディングタイプが前記混合信号コーディングタイプである場合、前記復元されたオーディオ信号の低周波帯域信号を用いて高周波帯域信号を復元する帯域幅拡張デコーディング部と、
    前記復元されたオーディオ信号をアップミキシングして複数個のチャネルを生成するチャネル拡張デコーディング部と、
    をさらに含むことを特徴とする、請求項6に記載のオーディオ信号処理装置。
  8. 前記オーディオ信号は、複数のサブフレームを有し、前記第2タイプ情報は、該サブフレーム単位で存在することを特徴とする、請求項6に記載のオーディオ信号処理装置。
  9. 前記オーディオ信号の前記コーディングタイプが前記音楽信号コーディングタイプである場合、前記オーディオ信号は周波数ドメイン信号から成り、前記オーディオ信号の前記コーディングタイプが前記音声信号コーディングタイプである場合、前記オーディオ信号はタイムドメイン信号から成ることを特徴とする、請求項6に記載のオーディオ信号処理装置。
  10. 前記線形予測係数を抽出する前記情報抽出部は、線形予測係数モードを確認し、抽出された線形予測係数モードに該当する可変ビット大きさを有する前記線形予測係数を抽出することを特徴とする、請求項6に記載のオーディオ信号処理装置。
  11. オーディオ信号を処理するオーディオ符号化器を含むオーディオ信号処理装置において、
    前記オーディオ信号のコーディングタイプを決定する段階と、
    前記オーディオ信号が音楽信号である場合、前記オーディオ信号が音楽信号コーディングタイプでコーディングされるということを表す第1タイプ情報を生成する段階と、
    前記オーディオ信号が音楽信号でない場合、前記オーディオ信号が音声信号コーディングタイプまたは混合信号コーディングタイプのどちらか一方でコーディングされるということを表す第2タイプ情報を生成する段階と、
    前記オーディオ信号の前記コーディングタイプが前記混合信号コーディングタイプである場合、前記オーディオ信号を線形予測コーディングして線形予測係数を生成する段階と、
    前記線形予測コーディングに対する残余信号を生成する段階と、
    前記残余信号を周波数変換してスペクトル係数を生成する段階と、
    前記第1タイプ情報、前記第2タイプ情報、前記線形予測係数及び前記残余信号を含むオーディオビットストリームを生成する段階と、
    を含み、
    前記オーディオ信号の前記コーディングタイプが前記音楽信号コーディングタイプである場合、前記第1タイプ情報のみが生成され、
    前記オーディオ信号の前記コーディングタイプが前記音声信号コーディングタイプまたは前記混合信号コーディングタイプのどちらか一方である場合、前記第1タイプ情報と前記第2タイプ情報の両方が生成されることを特徴とするオーディオ信号処理方法。
  12. 前記オーディオ信号は、複数のサブフレームを有し、前記第2タイプ情報は、該サブフレーム別に生成されることを特徴とする、請求項11に記載のオーディオ信号処理方法。
  13. オーディオ信号のコーディングタイプを決定し、前記オーディオ信号が音楽信号である場合、前記オーディオ信号が音楽信号コーディングタイプでコーディングされるということを表す第1タイプ情報を生成し、前記オーディオ信号が音楽信号でない場合、前記オーディオ信号が音声信号コーディングタイプまたは混合信号コーディングタイプのどちらか一方でコーディングされるということを表す第2タイプ情報を生成する信号分類部と、
    前記オーディオ信号の前記コーディングタイプが前記混合信号コーディングタイプである場合、前記オーディオ信号を線形予測コーディングして、線形予測係数を生成する線形予測モデリング部と、
    前記線形予測コーディングにおける残余信号を生成する残余信号抽出部と、
    前記残余信号を周波数変換してスペクトル係数を生成する周波数変換部と、
    を含み、
    前記オーディオ信号の前記コーディングタイプが前記音楽信号コーディングタイプである場合、前記第1タイプ情報のみが生成され、
    前記オーディオ信号の前記コーディングタイプが前記音声信号コーディングタイプまたは前記混合信号コーディングタイプのどちらか一方である場合、前記第1タイプ情報と前記第2タイプ情報の両方が生成されることを特徴とするオーディオ信号処理装置。
  14. 前記オーディオ信号は、複数のサブフレームを有し、前記第2タイプ情報は、該サブフレーム別に生成されることを特徴とする、請求項13に記載のオーディオ信号処理装置。
  15. 前記オーディオ信号の前記コーディングタイプが前記音楽信号コーディングタイプである場合、前記線形予測コーディングを用いて前記線形予測係数を生成し、前記線形予測係数に重み値を与える係数生成部と、
    前記重み値が与えられた線形予測係数を用いてノイズシェーピング基準を生成する基準値決定部と、
    を含むことを特徴とする、請求項13に記載のオーディオ信号処理装置。
JP2010549570A 2008-03-03 2009-03-03 オーディオ信号処理方法及び装置 Active JP5266341B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US3303208P 2008-03-03 2008-03-03
US61/033,032 2008-03-03
PCT/KR2009/001050 WO2009110738A2 (ko) 2008-03-03 2009-03-03 오디오 신호 처리 방법 및 장치

Publications (2)

Publication Number Publication Date
JP2011513788A JP2011513788A (ja) 2011-04-28
JP5266341B2 true JP5266341B2 (ja) 2013-08-21

Family

ID=41056471

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010549570A Active JP5266341B2 (ja) 2008-03-03 2009-03-03 オーディオ信号処理方法及び装置

Country Status (11)

Country Link
US (1) US7991621B2 (ja)
EP (1) EP2259253B1 (ja)
JP (1) JP5266341B2 (ja)
KR (1) KR101221919B1 (ja)
CN (1) CN101965612B (ja)
AU (1) AU2009220321B2 (ja)
BR (1) BRPI0910285B1 (ja)
CA (1) CA2716817C (ja)
MX (1) MX2010009571A (ja)
RU (1) RU2455709C2 (ja)
WO (1) WO2009110738A2 (ja)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
US9343079B2 (en) * 2007-06-15 2016-05-17 Alon Konchitsky Receiver intelligibility enhancement system
KR101380170B1 (ko) * 2007-08-31 2014-04-02 삼성전자주식회사 미디어 신호 인코딩/디코딩 방법 및 장치
RU2452042C1 (ru) * 2008-03-04 2012-05-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для обработки аудиосигнала
JP5247826B2 (ja) * 2008-03-05 2013-07-24 ヴォイスエイジ・コーポレーション 復号化音調音響信号を増強するためのシステムおよび方法
CN101567203B (zh) * 2008-04-24 2013-06-05 深圳富泰宏精密工业有限公司 自动搜寻及播放音乐的系统及方法
CN102144259B (zh) * 2008-07-11 2015-01-07 弗劳恩霍夫应用研究促进协会 用于产生带宽扩展输出数据的装置和方法
ES2396927T3 (es) * 2008-07-11 2013-03-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para decodificar una señal de audio codificada
KR101569702B1 (ko) * 2009-08-17 2015-11-17 삼성전자주식회사 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치
EP2481048B1 (en) * 2009-09-25 2017-10-25 Nokia Technologies Oy Audio coding
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
JP5245014B2 (ja) 2009-10-20 2013-07-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 領域に依存した算術符号化マッピングルールを使用した、オーディオ符号器、オーディオ復号器、オーディオ情報を符号化するための方法、オーディオ情報を復号するための方法、および、コンピュータプログラム
WO2011086065A1 (en) 2010-01-12 2011-07-21 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for encoding and audio information, method for decoding an audio information and computer program using a hash table describing both significant state values and interval boundaries
JP5814341B2 (ja) 2010-04-09 2015-11-17 ドルビー・インターナショナル・アーベー Mdctベース複素予測ステレオ符号化
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US20130066638A1 (en) * 2011-09-09 2013-03-14 Qnx Software Systems Limited Echo Cancelling-Codec
EP2758956B1 (en) * 2011-09-23 2021-03-10 Digimarc Corporation Context-based smartphone sensor logic
BR112014009700A2 (pt) * 2011-10-28 2017-05-09 Koninklijke Philips Nv dispositivo para o processamento de um sinal representativo dos sons cardíacos, e método para o processamento de um sinal sonoro cardíaco de um indivíduo campo da invenção
LT2774145T (lt) * 2011-11-03 2020-09-25 Voiceage Evs Llc Nekalbinio turinio gerinimas mažos spartos celp dekoderiui
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
US9378746B2 (en) 2012-03-21 2016-06-28 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding high frequency for bandwidth extension
US9123328B2 (en) * 2012-09-26 2015-09-01 Google Technology Holdings LLC Apparatus and method for audio frame loss recovery
TWI612518B (zh) * 2012-11-13 2018-01-21 三星電子股份有限公司 編碼模式決定方法、音訊編碼方法以及音訊解碼方法
CA2985121C (en) 2013-01-29 2019-03-12 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension
PT3121813T (pt) 2013-01-29 2020-06-17 Fraunhofer Ges Forschung Preenchimento de ruído sem informação lateral para codificadores do tipo celp
US9601125B2 (en) * 2013-02-08 2017-03-21 Qualcomm Incorporated Systems and methods of performing noise modulation and gain adjustment
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
US9495968B2 (en) * 2013-05-29 2016-11-15 Qualcomm Incorporated Identifying sources from which higher order ambisonic audio data is generated
JP6360165B2 (ja) 2013-06-21 2018-07-18 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 快適ノイズの適応スペクトル形状を生成するための装置及び方法
EP2830058A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
CN103413553B (zh) * 2013-08-20 2016-03-09 腾讯科技(深圳)有限公司 音频编码方法、音频解码方法、编码端、解码端和系统
US9666202B2 (en) 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
JP6531649B2 (ja) 2013-09-19 2019-06-19 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
CN103500580B (zh) * 2013-09-23 2017-04-12 广东威创视讯科技股份有限公司 混音处理方法及系统
MY181965A (en) 2013-10-18 2021-01-15 Fraunhofer Ges Forschung Coding of spectral coefficients of a spectrum of an audio signal
EP3608909B1 (en) 2013-12-27 2021-08-25 Sony Group Corporation Decoding apparatus and method, and program
KR102354331B1 (ko) * 2014-02-24 2022-01-21 삼성전자주식회사 신호 분류 방법 및 장치, 및 이를 이용한 오디오 부호화방법 및 장치
US10410645B2 (en) 2014-03-03 2019-09-10 Samsung Electronics Co., Ltd. Method and apparatus for high frequency decoding for bandwidth extension
WO2015133795A1 (ko) * 2014-03-03 2015-09-11 삼성전자 주식회사 대역폭 확장을 위한 고주파 복호화 방법 및 장치
EP2922056A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
EP2922055A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
EP2922054A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
KR102400016B1 (ko) 2014-03-24 2022-05-19 삼성전자주식회사 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
EP3385948B1 (en) * 2014-03-24 2019-08-14 Nippon Telegraph and Telephone Corporation Encoding method, encoder, program and recording medium
CN107452391B (zh) * 2014-04-29 2020-08-25 华为技术有限公司 音频编码方法及相关装置
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
JP6398607B2 (ja) * 2014-10-24 2018-10-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
CN105070304B (zh) * 2015-08-11 2018-09-04 小米科技有限责任公司 实现对象音频录音的方法及装置、电子设备
KR102398124B1 (ko) * 2015-08-11 2022-05-17 삼성전자주식회사 음향 데이터의 적응적 처리
US10186276B2 (en) * 2015-09-25 2019-01-22 Qualcomm Incorporated Adaptive noise suppression for super wideband music
US10614823B2 (en) * 2015-12-08 2020-04-07 Sony Corporation Transmitting apparatus, transmitting method, receiving apparatus, and receiving method
US10991379B2 (en) * 2018-06-22 2021-04-27 Babblelabs Llc Data driven audio enhancement
FR3085785B1 (fr) * 2018-09-07 2021-05-14 Gracenote Inc Procedes et appareil pour generer une empreinte numerique d'un signal audio par voie de normalisation
KR20220017221A (ko) * 2020-08-04 2022-02-11 삼성전자주식회사 전자 장치 및 그의 오디오 데이터를 출력하는 방법

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2952113C2 (de) * 1979-12-22 1983-05-19 Matth. Hohner Ag, 7218 Trossingen String-Chorus-Schaltung
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
DE4202140A1 (de) * 1992-01-27 1993-07-29 Thomson Brandt Gmbh Verfahren zur uebertragung digitaler audio-signale
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
US5692102A (en) * 1995-10-26 1997-11-25 Motorola, Inc. Method device and system for an efficient noise injection process for low bitrate audio compression
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
US5778335A (en) * 1996-02-26 1998-07-07 The Regents Of The University Of California Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
US6092041A (en) * 1996-08-22 2000-07-18 Motorola, Inc. System and method of encoding and decoding a layered bitstream by re-applying psychoacoustic analysis in the decoder
JPH1084284A (ja) * 1996-09-06 1998-03-31 Sony Corp 信号再生方法および装置
US6208962B1 (en) * 1997-04-09 2001-03-27 Nec Corporation Signal coding system
ES2247741T3 (es) * 1998-01-22 2006-03-01 Deutsche Telekom Ag Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio.
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
SG98418A1 (en) * 2000-07-10 2003-09-19 Cyberinc Pte Ltd A method, a device and a system for compressing a musical and voice signal
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
CN1898724A (zh) * 2003-12-26 2007-01-17 松下电器产业株式会社 语音/乐音编码设备及语音/乐音编码方法
FI118835B (fi) * 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
US7596486B2 (en) * 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
ES2478004T3 (es) * 2005-10-05 2014-07-18 Lg Electronics Inc. Método y aparato para decodificar una señal de audio
CN101086845B (zh) * 2006-06-08 2011-06-01 北京天籁传音数字技术有限公司 声音编码装置及方法以及声音解码装置及方法
JP2010503881A (ja) * 2006-09-13 2010-02-04 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声・音響送信器及び受信器のための方法及び装置
KR20070017378A (ko) * 2006-11-16 2007-02-09 노키아 코포레이션 서로 다른 코딩 모델들을 통한 오디오 인코딩
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
KR101513028B1 (ko) * 2007-07-02 2015-04-17 엘지전자 주식회사 방송 수신기 및 방송신호 처리방법

Also Published As

Publication number Publication date
CN101965612A (zh) 2011-02-02
WO2009110738A2 (ko) 2009-09-11
RU2010140362A (ru) 2012-04-10
US20100070284A1 (en) 2010-03-18
AU2009220321A1 (en) 2009-09-11
JP2011513788A (ja) 2011-04-28
BRPI0910285A2 (pt) 2015-09-29
US7991621B2 (en) 2011-08-02
KR20100134576A (ko) 2010-12-23
EP2259253B1 (en) 2017-11-15
CA2716817C (en) 2014-04-22
CA2716817A1 (en) 2009-09-11
BRPI0910285B1 (pt) 2020-05-12
EP2259253A2 (en) 2010-12-08
AU2009220321B2 (en) 2011-09-22
CN101965612B (zh) 2012-08-29
RU2455709C2 (ru) 2012-07-10
MX2010009571A (es) 2011-05-30
KR101221919B1 (ko) 2013-01-15
EP2259253A4 (en) 2013-02-20
WO2009110738A3 (ko) 2009-10-29

Similar Documents

Publication Publication Date Title
JP5266341B2 (ja) オーディオ信号処理方法及び装置
JP5108960B2 (ja) オーディオ信号処理方法及び装置
KR101373004B1 (ko) 고주파수 신호 부호화 및 복호화 장치 및 방법
KR100647336B1 (ko) 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US8972270B2 (en) Method and an apparatus for processing an audio signal
TWI415114B (zh) 用於計算頻譜包絡數目之裝置與方法
US20210005210A1 (en) Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band
JP2009524099A (ja) 符号化/復号化装置及び方法
IL201469A (en) Formulation of a temporary envelope for spatial drilling using WIENER DOMAIN filter for frequency
JP6148342B2 (ja) 低または中ビットレートに対する知覚品質に基づくオーディオ分類
KR101108955B1 (ko) 오디오 신호 처리 방법 및 장치
JP2005003835A (ja) オーディオ信号符号化装置、オーディオ信号符号化方法、及びプログラム
KR20100054749A (ko) 신호의 처리 방법 및 이의 장치

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130502

R150 Certificate of patent or registration of utility model

Ref document number: 5266341

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250