JP2011514558A - オーディオ信号処理方法及び装置 - Google Patents

オーディオ信号処理方法及び装置 Download PDF

Info

Publication number
JP2011514558A
JP2011514558A JP2010549573A JP2010549573A JP2011514558A JP 2011514558 A JP2011514558 A JP 2011514558A JP 2010549573 A JP2010549573 A JP 2010549573A JP 2010549573 A JP2010549573 A JP 2010549573A JP 2011514558 A JP2011514558 A JP 2011514558A
Authority
JP
Japan
Prior art keywords
signal
audio signal
coding type
type
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010549573A
Other languages
English (en)
Other versions
JP5108960B2 (ja
Inventor
クク リ,ヒュン
ヨン ユン,スン
ス キム,ドン
ヒュン リム,ジェ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of JP2011514558A publication Critical patent/JP2011514558A/ja
Application granted granted Critical
Publication of JP5108960B2 publication Critical patent/JP5108960B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • G11B2020/00014Time or data compression or expansion the compressed signal being an audio signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】本発明は、オーディオ信号をより高効率で圧縮・復元できるオーディオ信号処理方法及び装置を提供する。
【解決手段】このオーディオ信号処理方法は、第1タイプ情報を用いてオーディオ信号のコーディングタイプが音楽信号コーディングタイプであるか否かを識別する段階と、音楽信号コーディングタイプでない場合、第2タイプ情報を用いて音声信号コーディングタイプか、或いは混合信号コーディングタイプかを識別する段階と、混合信号コーディングタイプである場合、オーディオ信号からスペクトルデータ及び線形予測係数を抽出する段階と、スペクトルデータを逆周波数変換して線形予測に対するレジデュアル信号を生成する段階と、線形予測係数及びレジデュアル信号を線形予測コーディングして、オーディオ信号を復元する段階と、復元されたオーディオ信号の一部領域である拡張基礎信号及び帯域拡張情報を用いて高周波領域信号を復元する段階と、を含む。
【選択図】図2

Description

本発明は、種々のオーディオ信号を全て効果的に符号化及び復号化することができるオーディオ信号処理方法及び装置に関するものである。
一般に、オーディオコーディング技術は、知覚的オーディオコーダと線形予測ベースのコーダとに大別することができる。例えば、音楽に最適化された知覚的オーディオコーダは、周波数軸で人間の聴取心理音響理論であるマスキング原理を用いて符号化過程で情報量を減らす方式である。一方、例えば、音声に最適化された線形予測ベースのコーダは、時間軸で音声発声をモデリングして情報量を減らす方式である。
しかし、これらの技術は、それぞれ最適化されたオーディオ信号(例えば、音声または音楽信号)については良い性能を示すが、他の種類のオーディオ信号あるいは音声と音楽信号とが複雑に混ざり合ったオーディオ信号については一貫した性能を示さないという問題点がある。
本発明の目的は、種々のオーディオ信号をより高い効率で圧縮及び復元できるオーディオ信号処理方法及び装置を提供することにある。
上記目的を達成するために、本発明は、オーディオ信号の特性に適合するオーディオコーディング方法を提供する。本発明のオーディオ信号処理方法の実施例は、第1タイプ情報を用いてオーディオ信号のコーディングタイプが音楽信号コーディングタイプであるか否かを識別する段階と、オーディオ信号のコーディングタイプが音楽信号コーディングタイプでない場合、第2タイプ情報を用いてオーディオ信号のコーディングタイプが音声信号コーディングタイプであるか、或いは、混合信号コーディングタイプであるかを識別する段階と、オーディオ信号のコーディングタイプが混合信号コーディングタイプである場合、オーディオ信号からスペクトルデータ及び線形予測係数を抽出する段階と、スペクトルデータを逆周波数変換して線形予測に対するレジデュアル信号を生成する段階と、線形予測係数及びレジデュアル信号を線形予測コーディングして、オーディオ信号を復元する段階と、復元されたオーディオ信号の一部領域である拡張基礎信号及び帯域拡張情報を用いて高周波領域信号を復元する段階と、を含む。
また、本発明のオーディオ処理装置の実施例は、ビットストリームから第1タイプ情報、第2タイプ情報、帯域拡張情報を抽出するデマルチプレクサと、第1タイプ情報を用いてオーディオ信号のコーディングタイプが音楽信号コーディングタイプであるか否かを識別し、オーディオ信号のコーディングタイプが音楽信号コーディングタイプでない場合、第2タイプ情報を用いてオーディオ信号のコーディングタイプが音声信号コーディングタイプであるか、または、混合信号コーディングタイプであるかを識別した後、復号化方式を決定する復号化器決定部と、オーディオ信号のコーディングタイプが混合信号コーディングタイプである場合、オーディオ信号からスペクトルデータ及び線形予測係数を抽出する情報抽出部と、スペクトルデータを逆周波数変換して線形予測に対するレジデュアル信号を生成する周波数変換部と、線形予測係数及びレジデュアル信号を線形予測コーディングして、オーディオ信号を復元する線形予測部と、復元されたオーディオ信号の一部領域である拡張基礎信号及び帯域拡張情報を用いて高周波領域信号を復元する帯域幅拡張デコーディング部と、を含む。
また、オーディオ信号は、複数のサブフレームで構成され、第2タイプ情報は、サブフレーム単位に存在することができる。
また、高周波領域信号の帯域幅は、拡張基礎信号の帯域幅と異なるように生成することができ、帯域拡張情報は、復元されたオーディオ信号に適用されるフィルター範囲、拡張基礎信号の開始周波数及び終了周波数のうち一つ以上の情報を含むことができる。
また、オーディオ信号のコーディングタイプが音楽信号コーディングタイプであれば、オーディオ信号は、周波数ドメイン信号であり、オーディオ信号のコーディングタイプが音声信号コーディングタイプであれば、オーディオ信号は、タイムドメイン信号であり、オーディオ信号のコーディングタイプが混合信号コーディングタイプであれば、オーディオ信号は、MDCTドメイン信号でありうる。
また、線形予測係数の抽出時には、線形予測係数モードを抽出し、該抽出されたモードに該当する可変ビット数の大きさの線形予測係数を抽出することができる。
本発明は、種々のオーディオ信号を分類し、各オーディオ信号の特性別にそれに適合するオーディオコーディング方式を提供することによって、より効率的なオーディオ信号の圧縮及び復元を可能にすることができる。
本発明の一実施例によるオーディオ符号化装置を示すブロック図である。 本発明の他の実施例によるオーディオ符号化装置を示すブロック図である。 図2における帯域幅前処理部150の詳細構成を示すブロック図である。 本発明の一実施例によるオーディオタイプ情報を用いるオーディオ信号の符号化方法を示すフローチャートである。 本発明によって符号化されたオーディオビットストリーム構造の一例を示す図である。 本発明の一実施例によるオーディオ復号化装置を示すブロック図である。 本発明の他の実施例によるオーディオ復号化装置を示すブロック図である。 図7における帯域幅拡張部250の詳細構成を示すブロック図である。 本発明の実施例によるオーディオ復号化装置が組み込まれた製品の構成を例示する図である。 本発明の実施例によるオーディオ復号化装置が組み込まれた製品間の関係を例示する図である。 本発明の実施例によるオーディオ復号化方法を示すフローチャートである。
以下、添付の図面を参照しつつ、本発明の好適な実施例について詳細に説明する。本明細書に記載された実施例と図面に示された構成は、本発明の好適な一実施例に過ぎないもので、これらの実施例によって本発明の技術的思想が限定されることはない。したがって、本出願時点においてそれらの実施例に取って代わる様々な均等物や変形例がありうることは明らかである。
本発明において用語は適宜解釈することができ、例えば、「コーディング」は、場合によって、エンコーディングまたはデコーディングと解釈することができ、情報は、値、パラメータ、係数、成分などを含むことができる。
なお、本発明において、「オーディオ信号」とは、ビデオ信号と区別される概念であり、再生時に聴覚で識別しうる全ての信号を指す。したがって、オーディオ信号は、例えば、人間の発音を中心とする音声信号またはこれに類似する信号(以下、「音声信号」と総称する。)と、機械音及び声を中心とする音楽信号またはこれに類似する信号(以下、「音楽信号」と総称する。)と、音声信号及び音楽信号が混合されている「混合信号」とに分類することができる。本発明は、例えば、3種類に分類されるオーディオ信号を、各信号の特性に合わせて符号化及び復号化する方法及び装置を提供する。ただし、このオーディオ信号の分類は、本発明の説明のために分類した基準に過ぎず、オーディオ信号を他の方法により分類する場合にも、本発明の技術的思想を同様に適用できることは明らかである。
図1は、本発明の好ましい一実施例によるオーディオ符号化装置を示すブロック図である。詳しくは、図1は、入力されるオーディオ信号を既に設定された基準によって分類し、この分類された各オーディオ信号に好適なオーディオ符号化方式を選択して符号化する過程を示す図である。
図1を参照すると、入力されるオーディオ信号の特性を分析して、音声信号、音楽信号、または音声と音楽との混合信号のいずれか一類型に分類する信号分類部(Sound Activity Detector)100と、信号分類部100で決定された信号類型のうち、音声信号を符号化する線形予測モデリング部110と、音楽信号を符号化する心理音響モデリング部120と、音声と音楽との混合信号を符号化する混合信号モデリング部130と、を含む。また、信号分類部100によってオーディオ信号が分類されると、それに好適な符号化方式を選択するためのスイッチング部101をさらに含むことができる。スイッチング部101は、信号分類部100により生成されるオーディオ信号コーディングタイプ情報(例えば、第1タイプ情報及び第2タイプ情報。これについては図2及び図3で詳細に後述する。)を制御信号として動作する。また、混合信号モデリング部130は、線形予測部131、レジデュアル信号抽出部132、周波数変換部133を含むことができる。以下、図1の各部分について詳細に説明する。
まず、信号分類部100は、入力オーディオ信号のタイプを分類し、それに好適なオーディオ符号化方式を選択するための制御信号を生成する。例えば、信号分類部100は、入力オーディオ信号が、音楽信号なのか、音声信号なのか、または音声及び音楽の両信号が混合された混合信号なのか、を分類する。すなわち、このように、入力されるオーディオ信号のタイプを分類する理由は、オーディオ信号タイプ別に、後述するオーディオ符号化方式から最適のコーディング方式を選択するためである。その結果、信号分類部100は、入力オーディオ信号を分析してそれに好適な最適オーディオコーディング方式を選択する過程を行う。例えば、信号分類部100は、入力オーディオ信号を分析してオーディオコーディングタイプ情報を生成し、この生成されたオーディオコーディングタイプ情報は、符号化方式を選択する基準として用いられる他、最終的に符号化されるオーディオ信号中にビットストリームの形態で含まれて、復号化装置または受信装置に転送される。このオーディオコーディングタイプ情報を用いる復号化方法及び装置は、図6〜図8及び図11で詳細に後述される。また、信号分類部100により生成されるオーディオコーディングタイプ情報は、例えば、第1タイプ情報及び第2タイプ情報を含むことができ、これについては、図4及び図5で後述する。
信号分類部100は、入力オーディオ信号の特性によってオーディオ信号タイプを決定する。例えば、入力オーディオ信号が特定係数とレジデュアル信号でよりよくモデリングされる信号である場合は、それを音声信号と判断し、一方、当該信号が特定係数とレジデュアル信号でよくモデリングされない信号である場合は、それを音楽信号と判断する。また、音声信号及び音楽信号のいずれか一つと判断し難い場合には、混合信号と判断することができる。具体的な判断基準は、例えば、信号を特定係数及びレジデュアル信号でモデリングした時、当該信号のエネルギーレベルに対するレジデュアル信号のエネルギーレベル比が、既に設定された基準値よりも小さい場合、この信号を、よくモデリングされる信号と判断することができ、よって、音声信号と判断することができる。または、信号が時間軸上で高い重複性を有する場合、当該信号は、過去の信号から現在の信号を予測する線形予測によりよくモデリングされる信号と判断でき、よって、音楽信号と判断することができる。
このような基準により、入力される信号が音声信号と分類された場合、音声信号に最適化されている音声符号化器を用いて入力信号を符号化することができ、本実施例では、音声信号に好適な符号化方式として線形予測モデリング部110を使用する。線形予測モデリング部110は、様々な方式が存在し、例えば、ACELP(代数符号励振線形予測、Algebraic Code Excited Linear Prediction)コーディング方式またはAMR(適応マルチレート、Adaptive Multi-Rate)コーディング及びAMR−WB(適応マルチレート広帯域、Adaptive Multi-Rate Wideband)コーディング方式を適用することができる。
なお、線形予測モデリング部110は、入力オーディオ信号をフレーム単位で線形予測符号化することができ、一つのフレームごとに予測係数をそれぞれ抽出して量子化することができる。例えば、一般に、「レビンソン−ダービンアルゴリズム」を用いて予測係数を抽出する方式が広く用いられている。
すなわち、例えば、入力オーディオ信号が、複数のフレームで構成されているか、または、複数のフレームを一つの単位とするスーパーフレームが複数存在する場合、それぞれのフレーム別に線形予測モデリング方式を適用するか否かを決定することができる。また、一つのスーパーフレーム内に存在する単位フレームごとにまたは単位フレームのサブフレームごとに、それぞれ異なる線形予測モデリング方式を適用することも可能であり、これにより、オーディオ信号のコーディング効率を高めることができる。
一方、信号分類部100により入力オーディオ信号が音楽信号と分類される場合には、音楽信号に最適化されている音楽符号化器を用いて入力信号を符号化することができ、本実施例では、音楽信号に好適な符号化方式として心理音響モデリング部120を使用する。この心理音響モデリング部120は、知覚的オーディオコーダをベースにして構成される。
一方、信号分類部100により入力オーディオ信号が音声と音楽との混合信号と分類される場合には、混合信号に最適化されている符号化器を用いて入力信号を符号化することができ、本実施例では、混合信号に好適な符号化方式として混合信号モデリング部130を使用する。
混合信号モデリング部130は、前述の線形予測モデリング方式及び心理音響モデリング方式を変形した混合方式でコーディングすることが可能である。すなわち、混合信号モデリング部130は、入力信号を線形予測コーディングした後、線形予測された結果信号と原信号との差であるレジデュアル信号を獲得し、このレジデュアル信号は、周波数変換コーディング方式によってコーディングする。
例えば、図1には、混合信号モデリング部130が、線形予測部131、レジデュアル信号抽出部132及び周波数変換部133を含んでなる一例を示す。
ここで、線形予測部131は、入力される信号を線形予測分析して、当該信号の特性を表す線形予測係数を抽出し、この抽出された線形予測係数を用いて、レジデュアル信号抽出部132で入力信号から重複成分の除去されたレジデュアル信号を抽出する。このレジデュアル信号は、重複性が除去されたため、白色雑音のような形態を有することができる。また、線形予測部131は、入力オーディオ信号をフレーム単位で線形予測符号化することができ、一つのフレームごとに予測係数をそれぞれ抽出して量子化することができる。すなわち、例えば、入力オーディオ信号が、複数のフレームで構成されているか、または、複数のフレームを一つの単位とするスーパーフレームが複数存在する場合、それぞれのフレーム別に線形予測モデリング方式を適用するか否かを決定することができる。また、一つのスーパーフレーム内に存在する単位フレームごとにまたは単位フレームのサブフレームごとに、それぞれ異なる線形予測モデリング方式を適用することも可能であり、これにより、オーディオ信号のコーディング効率を高めることができる。
レジデュアル信号抽出部132は、線形予測部131でコーディングされた残余信号と、信号分類部100を通過した原オーディオ信号とを受信して、両信号の差信号であるレジデュアル信号を抽出する。
周波数変換部133は、入力されるレジデュアル信号をMDCTのような方法で周波数ドメイン変換して、レジデュアル信号のマスキング臨界値または信号対マスク比(SMR: Signal-to-Mask Ratio)を計算することで、レジデュアル信号をコーディングする。周波数変換部133は、心理音響モデリング方法の他に、TCXを用いて残余オーディオ性向の信号をコーディングすることも可能である。
ここで、線形予測モデリング部110及び線形予測部131で入力オーディオ信号を線形予測分析して、オーディオ特性の反映された線形予測係数(LPC:Linear prediction coefficient)を抽出し、LPCデータを転送する方法において可変的なビットを利用する方式を考慮することができる。
例えば、各フレーム別コーディング方式を考慮してLPCデータモードを決定し、決定されたLPCデータモード別に可変的なビット数を有する線形予測係数を割り当てることが可能である。こうすると、全体的なオーディオビット数を減らすことができ、より効率的なオーディオ符号化及び復号化が可能になる。
一方、信号分類部100は、上述のように、オーディオ信号のコーディングタイプ情報を2つのタイプ情報に分類して生成し、これをビットストリーム内に含めて復号化装置に転送する。以下、本発明によるオーディオコーディングタイプ情報について、図4及び図5を参照して詳細に説明する。
図4は、本発明の一実施例によるオーディオ信号のコーディングタイプ情報を用いるオーディオ信号の符号化方法を示すフローチャートである。
本発明は、オーディオ信号のタイプを表現する方法として、第1タイプ情報と第2タイプ情報とに区別する方法を提案する。すなわち、例えば、信号分類部100は、入力オーディオ信号を音楽信号と判断すると(S100)、それに好適な符号化方式(例えば、図1の心理音響モデリング方式)を選択するようにスイッチング部101を制御して、選択された符号化方式によって符号化が行われるようにする(S110)。以降、該当の制御情報を第1タイプ情報として構成して、符号化されたオーディオビットストリーム内に含めて転送する。その結果、この第1タイプ情報は、オーディオ信号のコーディングタイプが音楽信号コーディングタイプである旨を表すコーディング識別情報の役目を兼ねることとなり、これは、復号化方法及び装置でオーディオ信号を復号化する時に用いられる。
また、信号分類部100は、もし、入力オーディオ信号を音声信号と判断すると(S120)、それに好適な符号化方式(例えば、図1の線形予測モデリング方式)を選択するようにスイッチング部101を制御して、選択された符号化方式によって符号化が行われるようにする(S130)。また、信号分類部100は、もし、入力オーディオ信号を混合信号と判断すると(S120)、それに好適な符号化方式(例えば、図1の混合信号モデリング方式)を選択するようにスイッチング部101を制御して、選択された符号化方式によって符号化が行われるようにする(S140)。以降、音声信号コーディングタイプまたは混合信号コーディングタイプのいずれかを表す制御情報を第2タイプ情報として構成して、第1タイプ情報と一緒に符号化されたオーディオビットストリーム中に含めて転送する。その結果、第2タイプ情報は、オーディオ信号のコーディングタイプが音声信号コーディングタイプまたは混合信号コーディングタイプのいずれかを表すコーディング識別情報の役目を兼ねることとなり、これは、復号化方法及び装置で前述の第1タイプ情報と一緒に、オーディオ信号を復号化する時に用いられる。
なお、第1タイプ情報と第2タイプ情報は、入力オーディオ信号の特性に応じて、第1タイプ情報のみ転送される場合、第1タイプ情報と第2タイプ情報の両方が転送される場合の2種類に区別される。すなわち、例えば、入力オーディオ信号コーディングタイプが音楽信号コーディングタイプであれば、第1タイプ情報のみをビットストリームに含めて転送し、第2タイプ情報はビットストリームに含めずに済む(図5の(a))。すなわち、第2タイプ情報は、入力オーディオ信号コーディングタイプが音声信号コーディングタイプであるか、または、混合信号コーディングタイプに該当する場合にのみビットストリームに含まれ、結果として、オーディオ信号のコーディングタイプを表現するために余分のビット数を使用することを防止することができる。
ここでは、一例として、第1タイプ情報が、音楽信号コーディングタイプか否かを指示するとして説明したが、これに限定されず、第1タイプ情報を、音声信号コーディングタイプまたは混合信号コーディングタイプを指示する情報とすることもできることは明らかである。すなわち、本発明の適用されるコーディング環境によって、確率的に発生頻度の高いオーディオコーディングタイプを第1タイプ情報とすることによって、全体的なビットストリームのビット数を減らす効果を得ることができる。
図5は、本発明によって符号化されたオーディオビットストリーム構造の一例を示す図である。
例えば、図5の(a)は、入力オーディオ信号が音楽信号に該当する場合を示すもので、ビットストリーム内には、第1タイプ情報301のみを含み、第2タイプ情報は含まれない。また、ビットストリーム内には、第1タイプ情報301に該当するコーディングタイプでコーディングされたオーディオデータを含む(例えば、AACビットストリーム302)。
また、図5の(b)は、入力オーディオ信号が音声信号に該当する場合を示すもので、ビットストリーム内には、第1タイプ情報311及び第2タイプ情報312を含む。また、ビットストリーム内には、第2タイプ情報312に該当するコーディングタイプでコーディングされたオーディオデータを含む(例えば、AMRビットストリーム313)。
また、図5の(c)は、入力オーディオ信号が混合信号に該当する場合を示すもので、ビットストリーム内には、第1タイプ情報321及び第2タイプ情報322の両方を含む。また、ビットストリーム内には、第2タイプ情報322に該当するコーディングタイプでコーディングされたオーディオデータを含む(例えば、TXCの適用されたAACビットストリーム313)。
図5の(a)〜(c)は、本発明により符号化されるオーディオビットストリーム内に含まれる情報の一例を表示したものに過ぎず、本発明の範囲内で様々な応用が可能であることは明らかである。例えば、本発明では、AMR及びAACをコーディング方式の例とし、これらを識別する情報を追加したが、これに限定されず、様々なコーディング方式を適用可能であることは勿論、それらを識別するコーディング識別情報も様々なものを用いることができる。また、図5の(a)〜(c)は、一つのスーパーフレーム、単位フレームまたはサブフレームのいずれにも適用可能な方式である。すなわち、既に設定されたフレーム単位別にオーディオ信号コーディングタイプ情報を提供することが可能である。
以下、図2及び図3を参照して、本発明の他の実施例として、符号化前処理過程の含まれたオーディオ符号化方法及び装置について説明する。
図1における線形予測モデリング部110、心理音響モデリング部120、混合信号モデリング部130を用いる入力信号の符号化過程の前処理過程として、周波数帯域幅拡張過程及びチャネル数変更過程を含むこともできる。
例えば、周波数帯域拡張過程の一実施例として、帯域幅前処理部150(図2)で低周波成分を用いて高周波成分を生成することができ、帯域幅前処理部150の一例に、変形改善されたSBR(スペクトル帯域複製、Spectral Band Replication)とHBE(高域拡張、High Band Extension)を用いることができる。
また、チャネル数変更過程は、オーディオ信号のチャネル情報を付加情報として符号化してビット割当量を減少させる。このチャネル数変更過程の一実施例としてダウンミックスチャネル生成部140(図2)を挙げることができる。ダウンミックスチャネル生成部140は、例えば、PS(Parametric Stereo)方式を適用することができ、PSは、ステレオ信号をコーディングする技術であり、ステレオ信号をモノ信号にダウンミックスさせる。ダウンミックスチャネル生成部140は、入力される複数チャネルオーディオ信号をダウンミックスして、ダウンミックス信号及びダウンミックスされた信号の復元に関連する空間情報を生成する。
一実施例として、48kHzステレオ信号をSBRとPSを用いて転送すると、SBR/PSを通過した後に24kHz、モノ信号が残り、これは再び符号化器を通じてエンコーディングされることができる。この符号化器の入力信号が24kHzになる理由は、SBRを通過しながら高周波成分はSBRを通じてコーディングされ、既存周波数の半分にダウンサンプリングされるからであり、モノ信号になる理由は、PSを通じてステレオオーディオがパラメータとして抽出されて、モノ信号と付加オーディオとの和の形態に変わるからである。
図2は、符号化前処理過程として、前述のダウンミックスチャネル生成部140及び帯域幅前処理部150が含まれた符号化装置を示す図である。
線形予測モデリング部110、心理音響モデリング部120、混合信号モデリング部130及びスイッチング部101は、図1と同様に動作する。また、信号分類部100は、第1タイプ情報及び第2タイプ情報を生成する内容は同一であるが、これに加えて、ダウンミックスチャネル生成部140及び帯域幅前処理部150の動作を制御する制御信号を生成する。
すなわち、入力されるオーディオ信号を分析してオーディオ信号タイプを決定するとともに、オーディオ信号内のチャネル数及び周波数帯域幅を分析して、符号化前処理過程として、ダウンミックスチャネル生成部140及び帯域幅前処理部150の動作の有無及びその動作範囲を制御する制御信号100b,100cをそれぞれ生成する。
図3は、本実施例に係る帯域幅前処理部150の詳細構成を示すブロック図である。
図3を参照すると、帯域拡張のための帯域幅前処理部150は、高周波領域除去部151、拡張情報生成部152、及び空間情報挿入部153を含む。高周波領域除去部151は、ダウンミックスチャネル生成部140からダウンミックス信号及び空間情報を受信する。高周波領域除去部151は、該ダウンミックス信号の周波数信号のうち、高周波領域に該当する高周波信号を除去した低周波ダウンミックス信号及び拡張基礎信号(後述する)の開始周波数及び終了周波数を含む復元情報を生成する。
ここで、復元情報は、入力信号の特性に基づいて決定することができる。一般に、高周波信号の開始周波数は、入力信号の全体帯域幅の半分に該当する周波数である。一方、復元情報は、入力信号の特性によって開始周波数を全体帯域幅の半分以下または以上に該当する周波数と決定することができる。例えば、ダウンミックス信号に対して帯域幅拡張技術を用いて高周波領域を除去してエンコーディングするよりは、ダウンミックス信号の全体帯域幅信号を用いる方が効率的な場合、該復元情報は開始周波数として帯域幅の末端に位置する周波数を表すことができる。この復元情報は、信号の大きさ、コーディング時に用いられるセグメントの長さ、及びソースの種類のうち一つ以上を用いて決定することができるが、これに限定されない。
拡張情報生成部152は、ダウンミックスチャネル生成部140で生成されたダウンミックス信号及び空間情報を用いて、デコーディングに用いられる拡張基礎信号を決定する拡張情報を生成する。拡張基礎信号は、デコーディング時に高周波領域除去部151で除去されたダウンミックス信号の高周波信号を復元するために用いられるダウンミックス信号の周波数信号であり、低周波信号または低周波信号のうち一部の信号とすることができる。例えば、ダウンミックス信号にバンドパスフィルタリングを行って低周波信号を再び低周波数バンド領域と中間周波数バンド領域領域とに区分することができ、この場合、低周波数バンド領域のみを用いて拡張情報を生成することができる。低周波数バンド領域と中間周波数バンド領域とを区分する境界周波数は、任意の固定値に定めることができ、或いは、信号分類部100で混合信号に対して音声と音楽との比率を分析した情報に基づいてフレームごとに可変的に決定することもできる。
上記拡張情報は、高周波領域除去部151で除去されなかったダウンミックス信号に関する情報と一致することができるが、これに限定されず、拡張情報は、ダウンミックス信号のうち一部信号に関する情報であっても良い。また、拡張情報は、ダウンミックス信号のうち一部信号に関する情報である場合、拡張基礎信号の開始周波数及び終了周波数を含むことができ、該ダウンミックス信号の周波数信号に適用されるフィルターの範囲をさらに含むことができる。
空間情報挿入部153は、ダウンミックスチャネル生成部140で生成された空間情報に、高周波領域除去部121で生成された復元情報及び拡張情報生成部122で生成された拡張情報が挿入された新しい空間情報を生成する。
図6は、本発明の一実施例による復号化装置を示す図である。
図6を参照すると、復号化装置は、図1を参照して説明した符号化装置で行われる符号化過程の逆過程を行うことによって、入力されるビットストリームから信号を復元することができる。さらに言うと、この復号化装置は、デマルチプレクサ210、復号化器決定部220、復号化部230、合成部240を含むことができる。復号化部230は、それぞれ異なる方法で復号化を行う複数の復号化部231,232,233を含むことができ、これらは復号化器決定部220の制御によって動作する。詳しくは、復号化部230は、線形予測復号化部231、心理音響復号化部232、混合信号復号化部233を含むことができる。混合信号復号化部233は、情報抽出部234、周波数変換部235、線形予測部236を含むことができる。
デマルチプレクサ210は、入力されるビットストリームから、符号化された複数の信号及びこれら信号を復号化するための付加情報を抽出する。ビットストリーム内に含まれた付加情報、例えば、第1タイプ情報及び第2タイプ情報(必要時にのみ含まれる)を抽出してそれを復号化器決定部220に転送する。
復号化器決定部220は、受信した第1タイプ情報及び第2タイプ情報(必要時にのみ含まれる)から、復号化部231,232,233の復号化方式のうちいずれか一つを決定する。ただし、復号化器決定部220は、ビットストリームから抽出された付加情報を用いて復号化方式を決定することもできるが、ビットストリーム中に付加情報が存在しない場合には、独立した判断方法によって復号化方式を決定することもできる。この判断方法は、前述の信号分類部(図1の100)の特徴を活用することができる。
復号化部230内の線形予測復号化器231は、音声信号タイプのオーディオ信号を復号化することができる。心理音響復号化器232は、音楽信号タイプのオーディオ信号を復号化する。混合信号復号化器233は、音声と音楽との混合タイプのオーディオ信号を復号化する。特に、混合信号復号化器233は、オーディオ信号からスペクトルデータと線形予測係数を抽出する情報抽出部234と、スペクトルデータを逆周波数変換して線形予測に対するレジデュアル信号を生成する周波数変換部235と、線形予測係数及びレジデュアル信号を線形予測コーディングして、出力信号を生成する線形予測部236と、を含んでなる。これら復号化された信号は合成部240で合成されて、符号化以前のオーディオ信号に復元される。
図7は、本発明の一実施例による復号化装置を示す図で、特に、復号化されたオーディオ信号の後処理過程を示す。この後処理過程は、線形予測復号化部231、心理音響復号化部232、混合信号復号化部233のうち一つを用いて復号化されたオーディオ信号に対して、帯域幅拡大及びチャネル数変更を行う過程を意味する。この後処理過程は、前述した図2のダウンミックスチャネル生成部140及び帯域幅前処理部150に対応して帯域幅拡張デコーディング部250及び複数チャネル生成部260で構成することができる。
図8は、帯域幅拡張デコーディング部250の詳細構成を示す図である。
周波数帯域拡張過程では、前述の帯域幅前処理部150で生成された拡張情報を、デマルチプレクサ210でビットストリームから抽出して活用する。オーディオ信号ビットストリームに含まれた拡張情報を用いて、スペクトルデータの一部または全部から別の帯域(例えば、高周波帯域)のスペクトルデータを生成するようになる。この時、周波数帯域を拡張する際に、類似の特性を有するユニットにグルーピングしてブロックを生成することができる。これは、共通のエンベロープ(または、エンベロープ特性)を有するタイプスロット(または、サンプル)をグルーピングしてエンベロープ領域を生成することと同一である。
図8を参照すると、帯域幅拡張デコーディング部250は、拡張基礎領域決定部251、高周波数領域復元部252、及び帯域幅拡張部253を含む。
拡張基礎領域決定部251は、受信した拡張情報に基づいて、受信したダウンミックス信号において拡張基礎領域を決定し、その結果として拡張基礎信号を生成する。このダウンミックス信号は、周波数ドメインで示される信号であり、拡張基礎信号は、周波数ドメインの当該ダウンミックス信号のうち一部の周波数領域を意味する。要するに、拡張情報は、拡張基礎信号を決定するのに用いる情報で、拡張基礎信号の開始周波数及び終了周波数、またはダウンミックス信号の一部をフィルタリングするフィルターの範囲を含むことができる。
高周波数領域復元部252は、ダウンミックス信号及び拡張情報を受信し、また、拡張基礎信号を受信する。以降、拡張基礎信号及び拡張情報を用いて、符号化端で除去されたダウンミックス信号の高周波領域信号を復元することができる。この時、符号化装置から受信した復元情報をさらに用いることができる。また、高周波領域信号は、ダウンミックス信号には含まれず、原信号には含まれた高周波領域信号とすることができる。高周波領域信号は、ダウンミックス信号の整数倍でなくても良く、高周波領域信号の帯域幅は、拡張基礎信号の帯域幅と同一でなくても良い。
本発明の一実施例による帯域幅拡張装置及び方法は、拡張基礎信号として、符号化端で高周波領域の除去されたダウンミックス信号全部を利用せずに、このダウンミックス信号の一部周波数領域に該当する信号を用いることによって、復元される高周波領域がダウンミックス信号の整数倍でない場合にも帯域幅拡張技術を利用できるようにする。
また、高周波数領域復元部252は、時間拡張ダウンミックス信号生成部(図示せず)及び周波数信号拡張部(図示せず)をさらに含むことができる。時間拡張ダウンミックス信号生成部は、拡張基礎信号に拡張情報を適用してダウンミックス信号を時間領域に拡張することができる。周波数信号拡張部は、時間拡張ダウンミックス信号のサンプル数を減少させることによって、ダウンミックス信号の周波数領域での信号を拡張することができる。
また、帯域幅拡張部253は、高周波数領域復元部252が復元された高周波領域信号のみを含み、低周波領域信号は含まない場合に、ダウンミックス信号及び高周波領域信号を結合して帯域幅の拡張された拡張ダウンミックス信号を生成する。この高周波領域信号は、ダウンミックス信号の整数倍でなくても良い。したがって、本発明の一実施例による帯域幅拡張技術は、倍数関係にない信号へのアップサンプリングに用いることができる。
帯域幅拡張部253で最終生成された拡張ダウンミックス信号は、複数チャネル生成部260に入力されて、複数チャネルに変換される。
以下、本発明の復号化方法を、図11に示すフローチャートを参照して詳細に説明する。
デマルチプレクサ210は、入力されるビットストリームから第1タイプ情報及び第2タイプ情報(必要時に)を抽出する。また、デマルチプレクサ210は、後処理過程のための情報(例えば、帯域拡張情報、復元情報等)を抽出する。復号化器決定部220は、これら抽出された情報のうち、まず、第1タイプ情報を用いて、受信したオーディオ信号のコーディングタイプを判別する(S1000)。仮に、受信したオーディオ信号のコーディングタイプが音楽信号コーディングタイプであれば、復号化部230における心理音響復号化部232を用いて復号化を行う(S1100)。このとき、第1タイプ情報により決定される、各フレーム別またはサブフレーム別に適用されるコーディング方式を決定した後、それに適合するコーディング方式を適用して復号化を行う。
また、復号化器決定部220は、抽出された情報のうち、まず、第1タイプ情報を用いて、受信したオーディオ信号のコーディングタイプが音楽信号コーディングタイプでないと判別されると、以降、第2タイプ情報を用いて、受信したオーディオ信号のコーディングタイプが音声信号コーディングタイプなのかまたは混合信号コーディングタイプなのかを判別する(S1200)。
仮に、第2タイプ情報が音声信号コーディングタイプを意味する場合、復号化部230における線形予測復号化部231を用いて復号化を行う(S1300)。このとき、ビットストリームから抽出されたコーディング識別情報を用いて、各フレーム別またはサブフレーム別に適用されるコーディング方式を決定した後、それに適合するコーディング方式を適用して復号化を行う。
また、仮に、第2タイプ情報が混合信号を意味する場合、復号化部230における混合信号復号化部233を用いて復号化を行う(S1400)。このとき、第2タイプ情報により決定される、各フレーム別またはサブフレーム別に適用されるコーディング方式を決定した後、それに適合するコーディング方式を適用して復号化を行う。
一方、線形予測復号化部231、心理音響復号化部232、混合信号復号化部233のいずれかを用いたオーディオ信号の復号化過程の後処理過程として、帯域幅拡張デコーディング部250で周波数帯域拡張過程を行うことができる(S1500)。周波数帯域拡張過程は、帯域幅拡張デコーディング部250で、オーディオ信号ビットストリームから抽出された帯域拡張情報をデコーディングして、スペクトルデータの一部または全部から別の帯域(例えば、高周波帯域)のスペクトルデータを生成するようになる。
以降、帯域拡張過程後に生成された帯域幅の拡張されたオーディオ信号に対して、複数チャネル生成部260で複数チャネルを生成する過程を行う(S1600)。
図9は、本発明の実施例による復号化装置が具現された製品の構成例を示す図である。また、図10は、本発明の実施例による復号化装置が具現された製品間の関係を示す図である。
図9を参照すると、有無線通信部910は、有無線通信方式によってビットストリームを受信する。具体的に、有無線通信部910は、有線通信部910A、赤外線通信部910B、ブルートゥース910C、無線LAN通信部910Dのうち一つ以上を含むことができる。
ユーザ認証部920は、ユーザ情報を受信してユーザ認証を行うもので、指紋認識部920A、虹彩認識部920B、顔認識部920C、及び音声認識部920Dのうち一つ以上を含むことができ、それぞれ、指紋、虹彩情報、顔の輪郭情報、音声情報を受信してユーザ情報に変換し、このユーザ情報と既存の登録されているユーザデータとが一致するか否かを判断して、ユーザ認証を行うことができる。
入力部930は、ユーザが様々な命令を入力するための入力装置で、キーパッド部930A、タッチパッド部930B、リモコン部930Cのうち一つ以上を含むことができるが、本発明は、これに限定されない。信号デコーディング部940は、受信したビットストリーム及びフレームタイプ情報を用いて信号特性を分析し、該当の信号特性に対応するデコーディング部を用いて信号をデコーディングして出力信号を生成する。
制御部950は、入力装置から入力信号を受信し、信号デコーディング部940と出力部960のプロセス全般を制御する。出力部960は、信号デコーディング部940で生成された出力信号などを出力する構成要素で、スピーカー部960A及びディスプレイ部960Bを含むことができる。出力信号がオーディオ信号であるとスピーカー部から出力信号が出力され、ビデオ信号であると、出力信号はディスプレイ部から出力される。
図10は、図9に示す製品に該当する端末間の関係、及び該端末とサーバーとの関係をそれぞれ示す図である。図10の(A)を参照すると、第1端末1001及び第2端末1002が、有無線通信部を通じてデータまたはビットストリームを両方向に通信することができる。図10の(B)を参照すると、サーバー1003及び第1端末1001も、互いに有無線通信を行うことができる。
本発明によるオーディオ信号処理方法は、コンピュータで実行可能なプログラムとして製作されて、コンピュータ読み取り可能な記録媒体に記憶されることができる。また、本発明によるデータ構造を有するマルチメディアデータも、コンピュータ読み取り可能な記録媒体に記憶されることができる。コンピュータ読み取り可能な記録媒体は、コンピュータシステムに読み込み可能なデータを記憶しうるいずれの記憶装置をも含むことができる。コンピュータ読み取り可能な記録媒体の例には、ROM、RAM、CD−ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ記憶装置などがあり、さらに、キャリアウェーブ(例えば、インターネットを介した転送)の形態で具現されるものも含む。また、上記エンコーディング方法によって生成されたビットストリームは、コンピュータ読み取り可能な記録媒体に記憶されたり、有/無線通信網を介して転送されたりすることができる。
以上では限定された実施例及び図面を例に挙げて本発明を説明してきたが、本発明は、それらに限定されず、本発明の属する技術分野における通常の知識を有する者には、本発明の技術思想及び添付の特許請求の範囲とその均等範囲内で様々な修正及び変形が可能であるということが理解できる。

Claims (15)

  1. オーディオ復号化器を含むオーディオ信号処理装置内で、
    第1タイプ情報を用いてオーディオ信号のコーディングタイプが音楽信号コーディングタイプであるか否かを識別する段階と、
    前記オーディオ信号のコーディングタイプが音楽信号コーディングタイプでない場合、第2タイプ情報を用いて、前記オーディオ信号のコーディングタイプが音声信号コーディングタイプなのか、或いは、混合信号コーディングタイプなのかを識別する段階と、
    前記オーディオ信号のコーディングタイプが混合信号コーディングタイプである場合、前記オーディオ信号からスペクトルデータ及び線形予測係数を抽出する段階と、
    前記スペクトルデータを逆周波数変換して線形予測に対するレジデュアル信号を生成する段階と、
    前記線形予測係数及び前記レジデュアル信号を線形予測コーディングして、オーディオ信号を復元する段階と、
    前記復元されたオーディオ信号の一部領域である拡張基礎信号及び帯域拡張情報を用いて高周波領域信号を復元する段階と、
    を含むことを特徴とするオーディオ信号処理方法。
  2. 前記オーディオ信号は、複数のサブフレームで構成され、前記第2タイプ情報は、前記サブフレーム単位で存在する、請求項1に記載のオーディオ信号処理方法。
  3. 前記高周波領域信号の帯域幅は、前記拡張基礎信号の帯域幅と同一でない、請求項1に記載のオーディオ信号処理方法。
  4. 前記帯域拡張情報は、前記復元されたオーディオ信号に適用されるフィルター範囲、前記拡張基礎信号の開始周波数及び終了周波数のうち一つ以上の情報を含む、請求項1に記載のオーディオ信号処理方法。
  5. 前記オーディオ信号のコーディングタイプが音楽信号コーディングタイプであれば、前記オーディオ信号は周波数ドメイン信号であり、前記オーディオ信号のコーディングタイプが音声信号コーディングタイプであれば、前記オーディオ信号はタイムドメイン信号であり、前記オーディオ信号のコーディングタイプが混合信号コーディングタイプであれば、前記オーディオ信号はMDCTドメイン信号である、請求項1に記載のオーディオ信号処理方法。
  6. 前記線形予測係数を抽出する段階は、線形予測係数モードを抽出し、前記抽出されたモードに該当する可変ビット数の大きさの線形予測係数を抽出する、請求項1に記載のオーディオ信号処理方法。
  7. ビットストリームから第1タイプ情報、第2タイプ情報、帯域拡張情報を抽出するデマルチプレクサと、
    前記第1タイプ情報を用いてオーディオ信号のコーディングタイプが音楽信号コーディングタイプであるか否かを識別し、前記オーディオ信号のコーディングタイプが音楽信号コーディングタイプでない場合、第2タイプ情報を用いて、前記オーディオ信号のコーディングタイプが音声信号コーディングタイプなのかまたは混合信号コーディングタイプなのかを識別した後、復号化方式を決定する復号化器決定部と、
    前記オーディオ信号のコーディングタイプが混合信号コーディングタイプである場合、前記オーディオ信号からスペクトルデータ及び線形予測係数を抽出する情報抽出部と、
    前記スペクトルデータを逆周波数変換して線形予測に対するレジデュアル信号を生成する周波数変換部と、
    前記線形予測係数及び前記レジデュアル信号を線形予測コーディングして、オーディオ信号を復元する線形予測部と、
    前記復元されたオーディオ信号の一部領域である拡張基礎信号及び帯域拡張情報を用いて高周波領域信号を復元する帯域幅拡張デコーディング部と、
    を含むことを特徴とするオーディオ信号処理装置。
  8. 前記オーディオ信号は、複数のサブフレームで構成され、前記第2タイプ情報は、前記サブフレーム単位で存在する、請求項7に記載のオーディオ信号処理装置。
  9. 前記高周波領域信号の帯域幅は、前記拡張基礎信号の帯域幅と同一でない、請求項7に記載のオーディオ信号処理装置。
  10. 前記帯域拡張情報は、前記復元されたオーディオ信号に適用されるフィルター範囲、前記拡張基礎信号の開始周波数及び前記終了周波数のうち一つ以上の情報を含む、請求項7に記載のオーディオ信号処理装置。
  11. 前記オーディオ信号のコーディングタイプが音楽信号コーディングタイプであれば、前記オーディオ信号は周波数ドメイン信号であり、前記オーディオ信号のコーディングタイプが音声信号コーディングタイプであれば、前記オーディオ信号はタイムドメイン信号であり、前記オーディオ信号のコーディングタイプが混合信号コーディングタイプであれば、前記オーディオ信号はMDCTドメイン信号である、請求項7に記載のオーディオ信号処理装置。
  12. 前記線形予測係数を抽出する段階は、線形予測係数モードを抽出し、前記抽出されたモードに該当する可変ビット数の大きさの線形予測係数を抽出することを特徴とする、請求項1に記載のオーディオ信号処理装置。
  13. オーディオ信号を処理するオーディオ符号化器を含むオーディオ信号処理装置内で、
    オーディオ信号の高周波帯域信号を除去し、前記高周波帯域信号を復元するための帯域拡張情報を生成する段階と、
    前記オーディオ信号のコーディングタイプを決定する段階と、
    前記オーディオ信号が音楽信号であれば、音楽信号コーディングタイプにコーディングされることを表す第1タイプ情報を生成する段階と、
    前記オーディオ信号が音楽信号でなければ、音声信号コーディングタイプと混合信号コーディングタイプのうちいずれか一つにコーディングされることを表す第2タイプ情報を生成する段階と、
    前記オーディオ信号のコーディングタイプが混合信号コーディングタイプである場合、前記オーディオ信号を線形予測コーディングして線形予測係数を生成する段階と、
    前記線形予測コーディングに対するレジデュアル信号を生成する段階と、
    前記レジデュアル信号を周波数変換してスペクトル係数を生成する段階と、
    前記第1タイプ情報、前記第2タイプ情報、前記線形予測係数及びレジデュアル信号を含むオーディオビットストリームを生成する段階と、
    を含むオーディオ信号処理方法。
  14. オーディオ信号の高周波帯域信号を除去し、前記高周波帯域信号を復元するための帯域拡張情報を生成する帯域幅前処理部と、
    入力オーディオ信号のコーディングタイプを決定するもので、前記オーディオ信号が音楽信号であれば、音楽信号コーディングタイプにコーディングされることを表す第1タイプ情報を生成し、前記オーディオ信号が音楽信号でなければ、音声信号コーディングタイプと混合信号コーディングタイプのうちいずれか一つにコーディングされることを表す第2タイプ情報を生成する信号分類部と、
    前記オーディオ信号のコーディングタイプが混合信号コーディングタイプである場合、前記オーディオ信号を線形予測コーディングして線形予測係数を生成する線形予測モデリング部と、
    前記線形予測に対するレジデュアル信号を生成するレジデュアル信号抽出部と、
    前記レジデュアル信号を周波数変換してスペクトル係数を生成する周波数変換部と、
    を含むことを特徴とするオーディオ信号処理装置。
  15. 前記オーディオ信号は、複数のサブフレームで構成され、前記第2タイプ情報は、前記サブフレーム別に生成される、請求項11に記載のオーディオ信号処理装置。
JP2010549573A 2008-03-04 2009-03-04 オーディオ信号処理方法及び装置 Active JP5108960B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US3371508P 2008-03-04 2008-03-04
US61/033,715 2008-03-04
US7876208P 2008-07-07 2008-07-07
US61/078,762 2008-07-07
PCT/KR2009/001081 WO2009110751A2 (ko) 2008-03-04 2009-03-04 오디오 신호 처리 방법 및 장치

Publications (2)

Publication Number Publication Date
JP2011514558A true JP2011514558A (ja) 2011-05-06
JP5108960B2 JP5108960B2 (ja) 2012-12-26

Family

ID=41056476

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010549573A Active JP5108960B2 (ja) 2008-03-04 2009-03-04 オーディオ信号処理方法及び装置

Country Status (10)

Country Link
US (1) US8135585B2 (ja)
EP (1) EP2259254B1 (ja)
JP (1) JP5108960B2 (ja)
KR (1) KR20100134623A (ja)
CN (1) CN102007534B (ja)
AU (1) AU2009220341B2 (ja)
CA (1) CA2717584C (ja)
ES (1) ES2464722T3 (ja)
RU (1) RU2452042C1 (ja)
WO (1) WO2009110751A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011527449A (ja) * 2008-07-11 2011-10-27 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 符号化されたオーディオ信号を復号化するための装置および方法
JP2013515287A (ja) * 2009-12-21 2013-05-02 マインドスピード テクノロジーズ インコーポレイテッド 音声帯域拡張方法及び音声帯域拡張システム
JP2014508327A (ja) * 2011-10-08 2014-04-03 華為技術有限公司 オーディオ信号符号化方法および装置

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2198426A4 (en) * 2007-10-15 2012-01-18 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING A SIGNAL
JP5232121B2 (ja) * 2009-10-02 2013-07-10 株式会社東芝 信号処理装置
KR101826331B1 (ko) 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
EP3023985B1 (en) 2010-12-29 2017-07-05 Samsung Electronics Co., Ltd Methods for audio signal encoding and decoding
CN102610231B (zh) * 2011-01-24 2013-10-09 华为技术有限公司 一种带宽扩展方法及装置
CN103918247B (zh) 2011-09-23 2016-08-24 数字标记公司 基于背景环境的智能手机传感器逻辑
EP2774145B1 (en) * 2011-11-03 2020-06-17 VoiceAge EVS LLC Improving non-speech content for low rate celp decoder
CN102446509B (zh) * 2011-11-22 2014-04-09 中兴通讯股份有限公司 增强抗丢包的音频编解码方法及系统
WO2013147668A1 (en) * 2012-03-29 2013-10-03 Telefonaktiebolaget Lm Ericsson (Publ) Bandwidth extension of harmonic audio signal
JP6096934B2 (ja) * 2013-01-29 2017-03-15 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 周波数拡張されたオーディオ信号を生成するためのデコーダ、復号化方法、符号化された信号を生成するためのエンコーダ、およびコンパクトな選択サイド情報を使用する符号化方法
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
EP2830051A3 (en) * 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
CN103413553B (zh) * 2013-08-20 2016-03-09 腾讯科技(深圳)有限公司 音频编码方法、音频解码方法、编码端、解码端和系统
CN103500580B (zh) * 2013-09-23 2017-04-12 广东威创视讯科技股份有限公司 混音处理方法及系统
EP2863386A1 (en) 2013-10-18 2015-04-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for generating encoded audio output data and methods permitting initializing a decoder
JP6599368B2 (ja) 2014-02-24 2019-10-30 サムスン エレクトロニクス カンパニー リミテッド 信号分類方法及びその装置、並びにそれを利用したオーディオ符号化方法及びその装置
CN107424622B (zh) * 2014-06-24 2020-12-25 华为技术有限公司 音频编码方法和装置
CN104269173B (zh) * 2014-09-30 2018-03-13 武汉大学深圳研究院 切换模式的音频带宽扩展装置与方法
KR102033603B1 (ko) * 2014-11-07 2019-10-17 삼성전자주식회사 오디오 신호를 복원하는 방법 및 장치
CN106075728B (zh) * 2016-08-22 2018-09-28 卢超 应用于电子针灸仪的音乐调制脉冲获取方法
US10074378B2 (en) * 2016-12-09 2018-09-11 Cirrus Logic, Inc. Data encoding detection
CN115334349B (zh) * 2022-07-15 2024-01-02 北京达佳互联信息技术有限公司 音频处理方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10340098A (ja) * 1997-04-09 1998-12-22 Nec Corp 信号符号化装置
JP2003257125A (ja) * 2002-03-05 2003-09-12 Seiko Epson Corp 音再生方法および音再生装置

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5742735A (en) * 1987-10-06 1998-04-21 Fraunhofer Gesellschaft Zur Forderung Der Angewanten Forschung E.V. Digital adaptive transformation coding method
NL9000338A (nl) * 1989-06-02 1991-01-02 Koninkl Philips Electronics Nv Digitaal transmissiesysteem, zender en ontvanger te gebruiken in het transmissiesysteem en registratiedrager verkregen met de zender in de vorm van een optekeninrichting.
JPH04150522A (ja) * 1990-10-15 1992-05-25 Sony Corp ディジタル信号処理装置
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
DE4202140A1 (de) * 1992-01-27 1993-07-29 Thomson Brandt Gmbh Verfahren zur uebertragung digitaler audio-signale
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
IT1257065B (it) * 1992-07-31 1996-01-05 Sip Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi.
US5579404A (en) * 1993-02-16 1996-11-26 Dolby Laboratories Licensing Corporation Digital audio limiter
DE4405659C1 (de) * 1994-02-22 1995-04-06 Fraunhofer Ges Forschung Verfahren zum kaskadierten Codieren und Decodieren von Audiodaten
US5537510A (en) * 1994-12-30 1996-07-16 Daewoo Electronics Co., Ltd. Adaptive digital audio encoding apparatus and a bit allocation method thereof
IT1281001B1 (it) * 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US5778335A (en) * 1996-02-26 1998-07-07 The Regents Of The University Of California Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
US6061793A (en) * 1996-08-30 2000-05-09 Regents Of The University Of Minnesota Method and apparatus for embedding data, including watermarks, in human perceptible sounds
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
CA2233896C (en) * 1997-04-09 2002-11-19 Kazunori Ozawa Signal coding system
DE69926821T2 (de) * 1998-01-22 2007-12-06 Deutsche Telekom Ag Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
JP3199020B2 (ja) * 1998-02-27 2001-08-13 日本電気株式会社 音声音楽信号の符号化装置および復号装置
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
SG98418A1 (en) * 2000-07-10 2003-09-19 Cyberinc Pte Ltd A method, a device and a system for compressing a musical and voice signal
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
SE521600C2 (sv) * 2001-12-04 2003-11-18 Global Ip Sound Ab Lågbittaktskodek
CN1312463C (zh) * 2002-04-22 2007-04-25 诺基亚有限公司 一种产生lsf矢量的方法和装置
US8359197B2 (en) * 2003-04-01 2013-01-22 Digital Voice Systems, Inc. Half-rate vocoder
CN1898724A (zh) * 2003-12-26 2007-01-17 松下电器产业株式会社 语音/乐音编码设备及语音/乐音编码方法
KR100854534B1 (ko) 2004-05-19 2008-08-26 노키아 코포레이션 오디오 코더 모드들 간의 스위칭 지원
US7596486B2 (en) * 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
KR101171098B1 (ko) 2005-07-22 2012-08-20 삼성전자주식회사 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
US8214202B2 (en) * 2006-09-13 2012-07-03 Telefonaktiebolaget L M Ericsson (Publ) Methods and arrangements for a speech/audio sender and receiver
AU2009220321B2 (en) * 2008-03-03 2011-09-22 Intellectual Discovery Co., Ltd. Method and apparatus for processing audio signal

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10340098A (ja) * 1997-04-09 1998-12-22 Nec Corp 信号符号化装置
JP2003257125A (ja) * 2002-03-05 2003-09-12 Seiko Epson Corp 音再生方法および音再生装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011527449A (ja) * 2008-07-11 2011-10-27 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 符号化されたオーディオ信号を復号化するための装置および方法
JP2013515287A (ja) * 2009-12-21 2013-05-02 マインドスピード テクノロジーズ インコーポレイテッド 音声帯域拡張方法及び音声帯域拡張システム
JP2014508327A (ja) * 2011-10-08 2014-04-03 華為技術有限公司 オーディオ信号符号化方法および装置
US9251798B2 (en) 2011-10-08 2016-02-02 Huawei Technologies Co., Ltd. Adaptive audio signal coding
US9514762B2 (en) 2011-10-08 2016-12-06 Huawei Technologies Co., Ltd. Audio signal coding method and apparatus
US9779749B2 (en) 2011-10-08 2017-10-03 Huawei Technologies Co., Ltd. Audio signal coding method and apparatus

Also Published As

Publication number Publication date
JP5108960B2 (ja) 2012-12-26
EP2259254A4 (en) 2013-02-20
US8135585B2 (en) 2012-03-13
EP2259254B1 (en) 2014-04-30
WO2009110751A3 (ko) 2009-10-29
CA2717584A1 (en) 2009-09-11
RU2010140365A (ru) 2012-04-10
EP2259254A2 (en) 2010-12-08
KR20100134623A (ko) 2010-12-23
US20100070272A1 (en) 2010-03-18
CN102007534A (zh) 2011-04-06
CA2717584C (en) 2015-05-12
AU2009220341A1 (en) 2009-09-11
CN102007534B (zh) 2012-11-21
WO2009110751A2 (ko) 2009-09-11
AU2009220341B2 (en) 2011-09-22
RU2452042C1 (ru) 2012-05-27
ES2464722T3 (es) 2014-06-03

Similar Documents

Publication Publication Date Title
JP5108960B2 (ja) オーディオ信号処理方法及び装置
JP5266341B2 (ja) オーディオ信号処理方法及び装置
JP6483805B2 (ja) 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器
RU2449387C2 (ru) Способ и устройство для обработки сигнала
JP6026678B2 (ja) 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法
JP2009524101A (ja) 符号化/復号化装置及び方法
JP2006048043A (ja) オーディオデータの高周波数の復元方法及びその装置
IL201469A (en) Formulation of a temporary envelope for spatial drilling using WIENER DOMAIN filter for frequency
MX2008016163A (es) Codificador de audio, decodificador de audio y procesador de audio con caracteristicas de warping variable de manera dinamica.
TW201732780A (zh) 用於具有具改良式中間/側邊決定之全域ild的mdct m/s立體聲之設備及方法
KR101108955B1 (ko) 오디오 신호 처리 방법 및 장치
CN117751405A (zh) 用于去除不期望的听觉粗糙度的装置和方法
Marie Docteur en Sciences
KR20100054749A (ko) 신호의 처리 방법 및 이의 장치
WO2010058931A2 (en) A method and an apparatus for processing a signal

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120813

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120911

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121005

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5108960

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151012

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250