JP2012513729A - 周波数領域におけるオーディオ信号ラウドネス決定と修正 - Google Patents

周波数領域におけるオーディオ信号ラウドネス決定と修正 Download PDF

Info

Publication number
JP2012513729A
JP2012513729A JP2011543637A JP2011543637A JP2012513729A JP 2012513729 A JP2012513729 A JP 2012513729A JP 2011543637 A JP2011543637 A JP 2011543637A JP 2011543637 A JP2011543637 A JP 2011543637A JP 2012513729 A JP2012513729 A JP 2012513729A
Authority
JP
Japan
Prior art keywords
frequency domain
loudness
block size
block
domain data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011543637A
Other languages
English (en)
Other versions
JP5270006B2 (ja
Inventor
ジェイ スミザーズ,マイケル
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2012513729A publication Critical patent/JP2012513729A/ja
Application granted granted Critical
Publication of JP5270006B2 publication Critical patent/JP5270006B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/025Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

周波数解像度及びこれに対応する周波数領域情報の時間的カバレッジが一定でない周波数領域オーディオ信号の知覚されるラウドネスを決定及び修正する方法と、装置と、実行されると前記方法を実行させる命令を有するコンピュータ読み取り可能記憶媒体である。知覚されるラウドネス処理の周波数(それゆえ時間的)解像度は最も長いブロックサイズで一定に維持される。一方法は、ブロック結合器とラウドネス修正補間器とを含む。

Description

本開示はオーディオ信号処理に関し、特に知覚オーディオコーディングに関する。
オーディオ信号の知覚されるラウドネスを客観的に決定する多くの方法がある。例えば知覚ラウドネスモデルを用いてオーディオ信号の知覚されるラウドネスを所望量だけスケーリングする方法も知られている。個々の周波数帯域のラウドネスをスケーリングして、知覚されるラウドネスを全体的に調整しつつ、知覚されるラウドネススペクトルすなわち音色を保存する方法も知られている。これらの方法は、一般的には、デジタル化したオーディオ信号に対応するサンプルを、重なったブロックに分離して、周波数領域に変換する。重なったデータブロックに適用する変換は、「ラップド変換(lapped transform)」と呼ばれる。知覚されるラウドネスを決定し、可能であれば修正する方法は、短期離散フーリエ変換や修正離散余弦変換などのラップド変換を用いる。
デジタル化したオーディオ信号を圧縮する知覚コーディング方法も知られている。このコーディオン具方法は、デジタル化したオーディオ信号に対応するサンプルを重なったブロックに分離して、周波数領域に変換する。
知覚的にコーディングできるオーディオ信号の知覚されるラウドネスを決定し、可能であれば修正することが望ましい。知覚コーディング方法は、時間的に変化するブロック長を有することが多い。ドルビーデジタルとして知られるAC−3、MPEG−2/AAC及びMPEG−4/AACまたは単にMPEG/AACとして知られるAACは、それぞれ2つのブロックサイズを用いる。オーディオ信号ブロックサイズが変化する場合に周波数領域オーディオ信号の知覚されるラウドネスを効率的に決定し、可能であれば修正することは、複雑な演算となりうる。
(関連出願との相互参照)
この出願は、2008年12月24日に出願した米国仮特許出願第61/140,791号の優先権を主張するものである。この文献はここにその全体を参照援用する。
知覚オーディオデコーダの簡略化した機能的ブロック図を示す図である。 MDCT領域におけるラウドネス処理を含む知覚オーディオデコーダの簡略化したブロック図を示す図である。 図2のラウドネス処理要素の一実施形態における一部の処理をより詳細に示す簡略化したブロック図である。 MDCT領域などの周波数領域でラウドネスを決定し修正するように構成された、本発明の一実施形態による装置を示す図である。 カスタネットを打ったときのドルビーデジタル信号から求めたMDCTスペクトルを用いる、本発明の一実施形態を用いた合成にかかわる異なるMDCTスペクトルを示す図である。 MDCTデータを用いる、本発明の幾つかの実施形態で用いるラウドネス決定の一例を示すブロック図である。 補間(図7A)を用いて、及び複製(図7B)を用いて、短いブロックから決定した長いブロックから求めたドルビーデジタルデータの、ソーン(sone)単位で決定したラウドネスの比較を示す図である。 MDCTデータを用いる、本発明の幾つかの実施形態で用いる、レベリング(leveling)のためのラウドネス決定と修正の一例を示すブロック図である。 ドルビーデジタルなどの256時間領域サンプルの短いブロック長と、512時間領域サンプルの長いブロック長を用いる、知覚的コーディングされたデータに適用可能なゲイン補間を、簡単な例により示す図である。 MPEG−2/AACとMPEG−4/AACなどの256時間領域サンプルの短いブロック長と、2048時間領域サンプルの長いブロック長を用いる、知覚的コーディングされたデータに適用可能なゲイン補間を、簡単な例により示す図である。 本発明の方法の一実施形態を実行するように構成された処理システムを含む、一実施形態による装置を示す簡略化したブロック図である。この装置は、実行されると、本発明の一実施形態による方法を実行させる命令を含むコンピュータ読み取り可能記憶媒体を含む。
概要
本発明は、周波数解像度及びこれに対応する周波数領域情報の時間的カバレッジが一定でない周波数領域オーディオ信号の知覚されるラウドネスを決定及び修正する方法と、装置と、実行されると前記方法を実行させる命令を有するコンピュータ読み取り可能記憶媒体とに関する。これは、可変ブロックサイズを用いる知覚オーディオコーダに直接適用可能である。かかる可変ブロックサイズは過渡的オーディオ信号の音質に貢献する。
複数のブロックサイズを含むデータの場合の一態様は、最も長いブロックサイズで知覚されるラウドネス処理の周波数(それゆえ時間的)解像度を最も長いブロックサイズで一定に維持し、最も長いブロックサイズより短い1つ以上のブロックサイズの短いブロックサイズのデータについて、短いブロックサイズの複数のブロックの周波数領域情報を結合して、ラウドネス処理に入力する最も長いブロックサイズデータを形成する段階と、短いブロックサイズの周波数信号に掛けるため、最も長いブロックサイズのデータを形成するため、ラウドネス処理からの出力されるゲイン情報を補間する段階とを含む。
ある実施形態は、複数のブロックサイズでラップド変換などの変換により決定された周波数領域データを含むオーディオデータの処理方法を含む。本方法は、複数のブロックサイズで周波数領域オーディオデータブロックを受け取ることを含む。本方法は、最も長いブロックサイズより短いブロックサイズの受け取ったデータブロックに対して、前記短いブロックサイズの複数の周波数領域データを結合して最も長いブロックサイズの周波数領域データブロックを形成する段階を含む。本方法は、最も長いブロックサイズの受け取ったブロックの知覚されるラウドネス処理を実行する段階も含む。前記知覚されるラウドネス処理の実行は知覚されるラウドネスパラメータの決定を含む。ラウドネス処理は、決定した少なくとも1つのラウドネス修正を決定して、受け取った周波数領域データブロックまたはそれを遅延させたものに適用する段階を含み得る。少なくとも1つのラウドネス修正の決定には、1つ以上の決定された知覚されるラウドネスパラメータを用いる。
本方法は、前記形成した最も長いブロックサイズで決定した少なくとも1つのラウドネス修正について、前記決定された少なくとも1つのラウドネス修正を形成するために用いる前記短いブロックサイズで前記受け取ったデータブロックに適用するため、前記決定した少なくとも1つのラウドネス修正を補間する段階と、前記決定した少なくとも1つのラウドネス修正または少なくとも1つの補間したラウドネス修正を、前記受け取った周波数領域データブロックに適用する段階とを有してもよい。本方法は、前記少なくとも1つのラウドネス修正または補間した修正を、前記周波数領域データブロックを遅延させたものに適用するように、前記周波数領域オーディオデータブロックを遅延させる段階を含んでもよい。
ある実施形態では、前記少なくとも1つのラウドネス修正は、一組のゲインを含み、前記補間する段階において補間されたゲインを決定し、前記決定した少なくとも1つのラウドネス修正または補完したラウドネス修正を適用する段階は、前記一組のゲインまたは一組の補間したゲインを適用する段階を含んでもよい。少なくとも1つのラウドネス修正が一組のゲインを含む実施形態では、補間により、補間されたゲインを決定し、決定したゲイン値に線形補間を用いる。
ある実施形態では、最も長いブロックサイズの周波数領域データを形成するために前記短いブロックサイズで前記複数の周波数領域データブロックを結合する段階は、前記短いブロックサイズで周波数領域データをインターリーブする段階を含む。他の実施形態では、結合は、短いブロックサイズの周波数領域データの値を複製して、最も長いブロックサイズの周波数領域データを生成する。例えば、最新の短いブロックサイズのブロックの短いブロックサイズの周波数領域データを用いて、前記最も長いブロックサイズの周波数領域データを生成する。
前記1つ以上の知覚されるラウドネスパラメータは、オーディオデータの励起と、オーディオデータの個別ラウドネスとを含んでもよい。知覚されるラウドネス処理を実行する段階は、ラウドネスレベリング、ゲインコントロール、ノイズ補正、及び/またはダイナミックイコライゼーションのうち1つ以上を含んでもよい。
変換はラップド変換であってもよく、例えば、短時間離散フーリエ変換(STDFT)、または修正離散余弦変換(MDCT)、または短時間離散正弦変換などであってもよい。他のラップド変換を用いてもよい。
前記データは、2つ以上のブロックサイズを用いる知覚符号化器により符号化された符号化オーディオデータからのものであってもよい。例としてはAC−3とAACがある。
具体的な実施形態は、処理システムを含む装置であって、前記処理装置は、少なくとも1つのプロセッサと、コンピュータ読み取り可能媒体とを含み、前記処理システムは、複数のブロックサイズでラップド変換により決定された周波数領域データを含むオーディオデータの知覚ラウドネス処理を行う装置である。本方法は、複数のブロックサイズで周波数領域オーディオデータブロックを受け取ることを含む。本方法は、最も長いブロックサイズより短いブロックサイズの受け取ったデータブロックに対して、前記短いブロックサイズの複数の周波数領域データを結合して最も長いブロックサイズの周波数領域データブロックを形成する段階を含む。本方法は、最も長いブロックサイズの受け取ったブロックの知覚されるラウドネス処理を実行する段階も含む。前記知覚されるラウドネス処理の実行は知覚されるラウドネスパラメータの決定を含む。本方法は、前記形成した最も長いブロックサイズで決定した少なくとも1つのラウドネス修正について、前記決定された少なくとも1つのラウドネス修正を形成するために用いる前記短いブロックサイズで前記受け取ったデータブロックに適用するため、前記決定した少なくとも1つのラウドネス修正を補間する段階と、前記決定した少なくとも1つのラウドネス修正または少なくとも1つの補間したラウドネス修正を、前記受け取った周波数領域データブロックに適用する段階とを有してもよい。本方法は、前記少なくとも1つのラウドネス修正または補間した修正を、前記周波数領域データブロックを遅延させたものに適用するように、前記周波数領域オーディオデータブロックを遅延させる段階を含んでもよい。別の実施形態は、概要欄その他に記載の1つ以上の特徴を含んでもよい。
具体的実施形態は、少なくとも1つのプロセッサにより実行されると、複数のブロックサイズでラップド変換により決定された周波数領域データを含むオーディオデータの知覚ラウドネス処理を行う、命令を有するコンピュータ読み出し可能媒体を含む。本方法は、複数のブロックサイズで周波数領域オーディオデータブロックを受け取ることを含む。本方法は、最も長いブロックサイズより短いブロックサイズの受け取ったデータブロックに対して、前記短いブロックサイズの複数の周波数領域データを結合して最も長いブロックサイズの周波数領域データブロックを形成する段階を含む。本方法は、最も長いブロックサイズの受け取ったブロックの知覚されるラウドネス処理を実行する段階も含む。前記知覚されるラウドネス処理の実行は知覚されるラウドネスパラメータの決定を含む。本方法は、前記形成した最も長いブロックサイズで決定した少なくとも1つのラウドネス修正について、前記決定された少なくとも1つのラウドネス修正を形成するために用いる前記短いブロックサイズで前記受け取ったデータブロックに適用するため、前記決定した少なくとも1つのラウドネス修正を補間する段階と、前記決定した少なくとも1つのラウドネス修正または少なくとも1つの補間したラウドネス修正を、前記受け取った周波数領域データブロックに適用する段階とを有してもよい。本方法は、前記少なくとも1つのラウドネス修正または補間した修正を、前記周波数領域データブロックを遅延させたものに適用するように、前記周波数領域オーディオデータブロックを遅延させる段階を含んでもよい。別の実施形態は、概要欄その他に記載の1つ以上の特徴を含んでもよい。
具体的実施形態は、少なくとも1つのプロセッサにより実行されると、複数のブロックサイズでラップド変換により決定された周波数領域データを含むオーディオデータの知覚ラウドネス処理を実行させるプログラムロジックを含む。本方法は、複数のブロックサイズで周波数領域オーディオデータブロックを受け取ることを含む。本方法は、最も長いブロックサイズより短いブロックサイズの受け取ったデータブロックに対して、前記短いブロックサイズの複数の周波数領域データを結合して最も長いブロックサイズの周波数領域データブロックを形成する段階を含む。本方法は、最も長いブロックサイズの受け取ったブロックの知覚されるラウドネス処理を実行する段階も含む。前記知覚されるラウドネス処理の実行は知覚されるラウドネスパラメータの決定を含む。本方法は、前記形成した最も長いブロックサイズで決定した少なくとも1つのラウドネス修正について、前記決定された少なくとも1つのラウドネス修正を形成するために用いる前記短いブロックサイズで前記受け取ったデータブロックに適用するため、前記決定した少なくとも1つのラウドネス修正を補間する段階と、前記決定した少なくとも1つのラウドネス修正または少なくとも1つの補間したラウドネス修正を、前記受け取った周波数領域データブロックに適用する段階とを有してもよい。本方法は、前記少なくとも1つのラウドネス修正または補間した修正を、前記周波数領域データブロックを遅延させたものに適用するように、前記周波数領域オーディオデータブロックを遅延させる段階を含んでもよい。別の実施形態は、概要欄その他に記載の1つ以上の特徴を含んでもよい。
ある実施形態は、複数のブロックサイズでラップド変換などの変換により決定された周波数領域データを含むオーディオデータの知覚されるラウドネス処理をする装置を含む。本装置は、複数のブロックサイズで周波数領域オーディオデータブロックを受け取る手段を含む。本装置は、短いブロックサイズの複数の受け取った周波数領域データブロックを結合して、最も長いブロックサイズの周波数領域データブロックを形成する手段も含む。本装置は、最も長いブロックサイズの受け取ったブロックの知覚されるラウドネス処理を実行するように構成された処理手段も含む。前記処理手段による前記知覚されるラウドネス処理の実行は、知覚されるラウドネスパラメータの決定を含む。本装置は、さらに、前記1つ以上の決定された知覚されるラウドネスパラメータを用いて少なくとも1つのラウドネス修正を決定する手段であって、前記少なくとも1つのラウドネス修正は、受け取った周波数領域データブロックまたはそれを遅延させたものに適用するものである手段含み得る。かかる場合、本装置は、さらに、前記少なくとも1つのラウドネス修正を決定する手段に結合した、ラウドネス修正を補間する手段であって、前記形成された最も長いブロックサイズで決定する少なくとも1つのラウドネス修正のいずれについても、決定した少なくとも1つのラウドネス修正が、決定された少なくとも1つのラウドネス修正を形成するために用いられた短いブロックサイズで受け取られたデータブロックに適用するために補間される手段を含む。かかる場合、本装置は、さらに、前記決定した少なくとも1つのラウドネス修正または補間した修正を、前記受け取った周波数領域データブロックまたはそれを遅延させたものに適用する手段を含む。修正は一組のゲインの形式であってもよい。
ある実施形態は、複数のブロックサイズでラップド変換などの変換により決定された周波数領域データを含むオーディオデータの知覚されるラウドネス処理をする装置を含む。本装置は、周波数領域オーディオデータのブロックを受け取るように構成され、各ブロックは複数のブロックサイズのうちの1つであり、最も長いブロックサイズより短い1つ以上のブロックサイズのある短いブロックサイズのデータブロックを受け取るよう構成されたブロック結合器を含む。ブロック結合器は、さらに、短いブロックサイズで複数の受け取った周波数領域データブロックを結合して、最も長いブロックサイズの周波数領域データブロックを形成するように構成されている。本装置は、さらに、最も長いブロックサイズの受け取ったブロックの知覚されるラウドネス処理を実行するように構成された周波数領域信号プロセッサも含む。前記周波数領域信号プロセッサによる前記知覚されるラウドネス処理の実行は、知覚されるラウドネスパラメータの決定を含む。周波数領域信号プロセッサは、決定した少なくとも1つのラウドネス修正を決定して、受け取った周波数領域データブロックまたはそれを遅延させたものに適用するように構成されたラウドネス修正決定器を含み得る。かかるラウドネス修正決定器は、決定された1つ以上の知覚されるラウドネスパラメータを用いる。ラウドネス修正決定器を含む本装置は、前記周波数領域信号プロセッサに結合し、形成された最も長いブロックサイズで決定した1つ以上のラウドネス修正について、決定された少なくとも1つのラウドネス修正を形成するために用いる短いブロックサイズの受け取ったデータブロックに適用するため、決定した少なくとも1つのラウドネス修正を補間するラウドネス修正補間器を含む。ラウドネス修正決定器を含む本装置は、さらに、ラウドネス修正補間器とブロック結合器の入力またはブロック結合器の入力に結合した遅延要素に結合したラウドネス修正器を含む。ラウドネス修正決定器は、前記決定した少なくとも1つのラウドネス修正または補間した修正を、前記受け取った周波数領域データブロックまたはそれを遅延させたものに適用するように構成されている。修正は一組のゲインの形式であってもよい。
具体的な実施形態はこれらの態様、特徴、または利点のすべて、一部を提供し、またはいずれも提供しない場合もある。具体的な実施形態は、他の態様、特徴、または利点を提供することもあり、それは図面、説明、及び請求項から当業者には明らかであろう。
知覚されるラウドネスと知覚コーディング
オーディオ信号の知覚されるラウドネスを客観的に決定する多くの方法がある。方法例としては、知覚的に感度が高い周波数を強くする所定フィルタと、知覚的に感度が低い周波数を弱くする所定フィルタ、及びISO532(タイトル「音響−ラウドネスレベルの計算方法」(1975年))(非特許文献1)に記載されたようなラウドネスの音響心理モデルの適用を含む、A重み付けラウドネスパワー尺度と、B重み付けラウドネスパワー尺度と、C重み付けラウドネスパワー尺度を含む。この音響心理モデルは、周波数マスキングと時間的マスキングなどの音響心理現象、及びラウドネス知覚の非線形性を信号強度の関数として考慮しつつ、信号を周波数帯域に分割して、これらの帯域を操作・統合することにより、耳の内部構造をモデル化しようとするものである。
国際出願公開第2004/111994号(以下、特許文献1)は、米国を指定国とし、米国において第2007/0092089号として出願公開されているが、ラウドネス決定だけでなく、オーディオ信号の知覚されるラウドネスを所望量だけスケーリングする知覚方法を記載している。特許文献1に記載された一実施形態では、知覚ラウドネスモデルを反転(inverting)することにより、知覚されるラウドネスの所望の変化から広帯域ゲインを計算する。国際出願公開第2006/047600号(以下、特許文献2)は、米国を指定国とし、米国において第2007/0291959号として出願公開されているが、なかんずく、さらに個々の周波数帯域のラウドネスをスケーリングして、知覚されるラウドネスを全体的に調節しつつ、知覚されるラウドネススペクトルすなわち音質を保存する方法を記載している。特許文献2に記載された一実施形態では、複数周波数ラウドネス帯域に適用するように、知覚される所望の変化から複数周波数帯域ゲインを計算する。
特許文献1と特許文献2の内容はここに参照援用する。
特許文献1と特許文献2は、それぞれ、例えば、重なり窓を用いる離散フーリエ変換、すなわち短期離散フーリエ変換(STDFT)、高速フーリエ変換(FFT)及び短期高速フーリエ変換(STFFT)などのラップド変換を用いて、最初にオーディオコンテンツを周波数領域表現に変換することにより、オーディオ信号を分析する段階を含む方法を記載している。知覚されるラウドネスの調節をしたいとき、これらの出願の実施形態は、ラウドネスモデルを反転して計算するゲインを、周波数領域情報といかにかけるか説明している。この周波数領域情報は、対応する逆離散フーリエ変換(IDFT)(その効率的な実装である逆高速フーリエ変換(IFFT)と呼ばれることも多い)により、時間領域オーディオ信号に逆変換される。
もうひとつの時間・周波数変換は離散余弦変換(DCT)である。DCT変換により、信号のコンパクトなスペクトル表現が得られるので、画像、ビデオ、及びオーディオのコーディング方法(圧縮方法ともいう)として広く使われている。オーディオコーディングで利用する場合、DCTは、窓を掛けて、重ね合わせ、修正した形式で用いられ、重なりは50%であり、時間領域エイリアシングをキャンセルするように臨界サンプリング(critically sampled)されている。このような、ラップされ(lapped)修正されたDCTは、一般に修正DCT(MDCT)と呼ばれる。窓が2N個のサンプルの長さであるとする。MDCTは完全には可逆ではなく、2N個のサンプルの窓のMDCTは、逆MDCT(IMDCT)を掛けても、2N個のデータサンプルが得られない。しかし、50%の重なりを用いて、逆変換したデータの後続ブロックを加えると、変換により生じたエラーはキャンセルされる。これが時間領域エイリアシングキャンセレーション(TDAC)である。重なり(overlapping feature)があるため、MDCTは量子化にとって非常に有用である。例えば、変換ブロック間のブロッキングアーティファクトが知覚されやすいが、これを効果的に除去できる。そのため、ドルビーデジタル(AC−3とも呼ばれる)、MPEG/AACなどのオーディオコーディング方法、及びITU−T H.261、H.263、MPEG−1、MPEG−2ビデオ、及びJPEGなどの画像コーディングシステムで広く用いられている。ドルビーデジタルは、ドルビーライセンシングラボラトリ社の商標である。かかるコーディングは、コーディング対象のオーディオ信号または信号を、重ねて窓を掛けた時間セグメント(ここでオーディオブロックと呼ぶ)への分割を含む。各セグメントのMDCT変換は知覚的にコーディングされ、情報圧縮のために量子化される。量子化したデータは符号化ビットストリームにパックされる。復号中、セグメントはそれぞれアンパック(unpacked)され、逆MDCT(IMDCT)(with overlap-add)変換に送られ、時間領域PCTオーディオ信号を再生する。ドルビーデジタルは、例えば、512サンプルの長いブロックサイズを用いる。ブロックの半分は隣接するブロックの半分と重なっている。
国際出願第PCT/US2007/007945号は、米国を指定し、第WO2007120452号として国際公開され、発明の名称「MDCT領域におけるオーディオ信号ラウドネス測定及び修正」(以下、「WO2007120452」と呼ぶ)であるが、なかんずく、修正離散余弦変換(MDCT)を用いて求めた情報を用いて、知覚されるラウドネスの測定と修正をいかに行うか説明している。これにより、例えば、知覚されるラウドネスの決定と修正を、一般的にはMDCTを用いる低ビットレートオーディオデコーダと効率的に組み合わせることができる。WO2007120452の記載内容はここに参照援用する。
WO2007120452は、ここで、及び一般的にSTMDCTという用語によりMDCTと呼ぶものが、重なり窓を掛けたデータブロックのDFTを記述するSTDFTの用い方と一貫するものであることに留意して欲しい。言うまでもなく、ここでMDCTとは、ラップされ、窓を掛けた余弦変換であって、臨界サンプリングしたものであり、TDACを実現する。
知覚オーディオ符号化方法は、1ブロック長より長いラップされた変換データを用い、オーディオ信号の特性に応じてブロック長が変化するように設計されることが多い。例えば、ドルビーデジタルは、2つのブロックサイズを用いる。512サンプルの長いブロックを、例えば明らかに静的な信号に用い、256サンプルの短いブロックを、例えば、増大する過渡的なオーディオ信号に用いる。その結果、周波数帯域の数と幅、及び対応するMDCTスペクトル値の数は、ブロック毎に変化する。再びドルビーデジタルを例として、ブロックサイズが512時間領域サンプルのとき、256周波数帯域(周波数ビン)あり、ブロックサイズが256時間領域サンプルのとき、128周波数帯域(周波数ビン)ある。このように短いブロックサイズと長いブロックサイズを両方使う理由は、知覚コーダーは、オーディオ信号を圧縮し、すなわちその情報レートを低くするため、本質的に、量子化によるエラーやノイズを発生するからである。量子化エラーやノイズは、特に過渡信号からのものは、オーディオサンプルのブロックの長さに広がり、可聴になる。短いサンプルブロックを用いると、広がるノイズは時間的に局所化し、聞こえにくくなる。
知覚オーディオ符号化器が2つ以上のブロックサイズを用いると、1つのオーディオ復号器でのラウドネスの決定と修正は困難になる。WO2007120452は、逆量子化を修正して、複数の小さいブロックを結合または平均して1つの大きなブロックにすることにより、一定のブロックレートで一定の帯域数を常に出力して、ラウドネス決定が一定のブロックサイズで実行できるようにすることを簡単に説明している。また、WO2007120452は、ラウドネス決定プロセスを修正して可変ブロックサイズを受け入れることも簡単に説明している。ラウドネス決定は、一般的には、フィルタリング、励起計算、特定ラウドネス計算、平均及び合計を含み、WO2007120452はこれらが可変であると示唆している。これには、例えば、ブロックサイズを一定に保って短いブロックを結合するのに必要な複雑性を超える複雑性が要求される。
異なるブロック長を結合または平均して、ブロックサイズが可変のとき、知覚ラウドネス修正するために、ゲインを決定し、かかるゲインをオーディオ信号に適用する実際的な方法が求められている。
実施形態
ここで、ブロックサイズが変化し得る周波数領域オーディオ信号のラウドネスを決定・修正する方法、装置、及びソフトウェア(例えば、コンピュータ読み取り可能媒体に化体されたプロセッサ実行可能命令)を説明する。
ここで詳細に説明する実施形態は、知覚オーディオ符号化器により用いられるMDCTスペクトルの使用を仮定する。しかし、本発明態様は、第1の線形スペース領域(すなわち時間領域)と第2の線形スペース領域(すなわち周波数領域)の間を変換する他の変換にも適用可能である。このような他の変換には、前述のDFT、STDFT(STFFT)、DCT(離散余弦変換)その他と、かかる変換の逆変換を含むが、これらに限定されない。ここに説明する実施形態を修正して、かかる他の変換を用いる、及び/またはかかる他の変換に適用するやり方は、当業者には明らかであり、請求項は、特に断らない限り、MDCTまたは逆MDCT(IMDCT)には限定されない。
図1は、知覚オーディオデコーダの簡略化した機能的ブロック図を示す図である。一般的に図1に示したような復号器は先行技術であるが、ここに説明する本発明の要素を含む復号器は先行技術ではない。オーディオ信号(オーディオチャンネル)の知覚符号化したビットストリーム101から始まり、第1の要素103は、各チャンネルのMDCTスペクトルを生成し、ビットストリームをコードワードにアンパックし、コードワードを逆量子化し、逆量子化したコードワードから各オーディオチャンネルのMDCTスペクトル105を再構成する。MDCTスペクトル情報105は、変換し重なったオーディオブロックの変換係数を含む。かかるスペクトル情報は、要素107により、IMDCTを用いて、逆変換した情報ブロックを重なり解消(de-overlapping)して時間領域に変換され、復号デジタルオーディオを生成する。より具体的に、IMDCTを計算し、得られた時間サンプルに窓を掛けて、窓を掛けたサンプルの前半を、前のブロックの後半に加算して、最終的に出力するPCM時間サンプル109を生成する。当業者には言うまでもなく、重なりが解消され、IMDCT機能がPCMオーディオを生成する。
符号化オーディオは(IMDCT機能前の)周波数領域105にある。WO2007120452に記載されているように、ラウドネスの決定と修正はIMDCTの前に実行できる。図2は、MDCT領域におけるラウドネス処理を含む知覚オーディオデコーダの簡略化したブロック図を示す図である。一般的に図2に示したような復号器は先行技術であるが、ここに説明する本発明の要素を含む復号器は先行技術ではない。ラウドネス処理要素203は、ラウドネス修正パラメータ201に応じて、オーディオ信号のラウドネス決定と修正の両方を実行して、修正スペクトルデータ205を生成するように構成されている。この修正スペクトルデータ205は、逆処理後、出力オーディオデータ209になる。
図3は、ラウドネス処理要素203の一実施形態における一部の処理要素をより詳細に示す簡略化したブロック図である。ラウドネス処理要素203は、周波数領域信号プロセッサ301を含む。プロセッサ301は、知覚ラウドネスパラメータを決定するように構成されたラウドネスパラメータ決定器303を含む。知覚ラウドネスパラメータは、例えば、MDCTオーディオ信号105の知覚ラウドネス領域における励起と特定のラウドネスである。得られる知覚ラウドネスパラメータは、例えば、ラウドネスに対する所望の修正を指定するパラメータ201に応じて、ラウドネス修正決定器305により修正される。例えば、ラウドネス処理がノイズ補正を含む場合、ラウドネス修正パラメータは、ノイズ補正の量、ノイズのスペクトル値、所望のラウドネスレベルなどを含む。一実施形態では、ラウドネス修正決定器305は、各オーディオチャンネルの各MDCT周波数帯域に対する1つのゲイン値などである一組のゲイン値またはゲインスペクトルとして表されたラウドネスに修正を加え、かかる修正をラウドネス修正器309により計算する。ラウドネス修正器309は、決定したゲインを用いる乗算要素を含む。ラウドネスパラメータ決定とラウドネス修正計算の詳細は、WO2004111994及びWO2006047600、及び、特に、WO2007120452ではMCDCTに記載されており、本発明の発明態様を分かりにくくしないように、詳細には説明しない。MDCTオーディオ信号105は、遅延要素307により遅延され、ラウドネス決定器303とラウドネス修正決定器305に先読み、すなわち、オーディオ信号の変化を予測する能力を与え、乗算要素309において遅延したスペクトルデータにゲインを適用して、修正MDCTオーディオ信号205を生成する。
図3の装置と、これにより実施される方法は、一定のMDCTブロックサイズに対してうまく機能する。ブロックサイズが時間的に変化する場合、ラウドネス決定器303とラウドネス修正決定器305は、新しいブロックサイズに適応する必要がある。これの実装は複雑である。WO2007120452を参照。
図4は、MDCT領域などの周波数領域でラウドネスを決定し修正するように構成された、本発明の一実施形態による装置400を示す図である。本発明の実施形態の特徴は、ラウドネスパラメータ決定要素406とラウドネス修正決定要素407を含み、例えば、決定と修正を復号器からのデータに行う場合、オーディオ復号器における最大のMDCTブロックサイズである、最大のMDCTブロックサイズと同じブロックサイズまたはブロックレートであるデータで動作する周波数領域信号プロセッサ405の動作を含む。本装置は、最大ブロックサイズよりも小さいブロックを結合して、最大ブロックサイズのブロックを形成するように構成されたブロック結合器403を含み、その後に、周波数領域信号プロセッサ405のラウドネスパラメータ決定器406によりラウドネスパラメータを決定する。実施形態は、さらに、ラウドネス修正決定器407が決定した修正を補間する修正補間器409を含む。これは、例えば、小さいブロックサイズのブロックを結合して求めた最大サイズブロックについて決定したゲインを補間するゲイン補間器である。遅延要素411は、ラウドネス修正要素413に送られるデータが時間的にそろうように、ブロック403,406,407,409に係わる処理遅延だけ遅延させる(accounts for)。
ブロックの結合
ブロック結合器403は、ブロック結合を行い、最大のブロックサイズに対して必ずしも同じ短さのブロックサイズではない、複数の小さいブロックサイズスペクトルから、大きいブロックサイズスペクトルの大きいブロックサイズMDCTスペクトルを構成するように構成されている。
2つ以上のブロック長を用いる一般的な知覚オーディオ符号化器は、一般的に、複数の短いブロックを用い、そのMDCTスペクトル値の総数は、比較的長いブロックのスペクトル値の数と等しい。別の言い方をすると、短いMDCTスペクトルのシーケンスを計算するのに用いるサンプル時間PCMオーディオサンプルの総数は、1つの長いMDCスペクトルを計算するのに用いるサンプル時間PCMオーディオサンプルの数に等しい。一例として、ドルビーデジタルは、512サンプルの長いブロックサイズを用いる。これは、前の長いブロックと重なった256サンプルと、次の長いブロックと重なった256サンプルよりなる。その結果256MDCTスペクトル値(周波数ビン)となる。ドルビーデジタルは、短いブロックを用いるとき、第1と第2の短いブロックのペアとなった短いブロックを用いる。第1の短いブロックは256サンプルを含み、これは前のブロックと重なり、MDCTを掛けると、128MDCTスペクトル値(周波数ビン)となる。第2の短いブロックも256サンプルであり、次の256の長さのブロックと重なり、128MDCTスペクトル値(周波数ビン)となる。
もう一つの例は、MPEG/AACであり、これは、1024MDCT値を与える2048サンプルの長いブロックサイズと、128MDCT値を与える256サンプルの短いブロックサイズを用いる。MPEG/AACは、短いブロックを使うとき、8ブロックの倍数を常に使い、そのため1オクテット(8)には、8×128=1024MDCT値(周波数ビン)あり、これは1つの長いブロックと同じ数である。
結合ステップを実行する方法はたくさんあるが、ブロック結合器403は本発明の精神から逸脱することなく可能であり、2つの方法例をここで説明する。第1の方法例は、短いブロックのMDCT値をインターリーブして、長いブロックの単一スペクトルを生成することである。第2の方法は、短いブロックスペクトルのサブセットを用いて、反復値を含めて長いブロックの単一スペクトルを生成する。反復を用いる方法例では、最新の短いスペクトルを用いて長いブロックの単一スペクトルを生成する。
例えば、結合要素403の、結合を実行する別の実施形態は、短いブロックサイズで周波数領域データの値の間を補間し、最も長いブロックサイズの周波数領域データを生成する。これは後のデータでもできる。
図5Aないし5Eは、カスタネットを叩いたときのドルビーデジタルデータに基づくMDCTスペクトル例を示す。特に、図5Aと図5Bは、2つの連続した短いブロックMDCTスペクトルを示し、それぞれ128値である。図から分かるように、これは明らかに増大する過渡信号であり、第1の短いブロックのエネルギーはすべての周波数帯域において、MDCTデータの第2のブロックのエネルギーと比較して小さい。図5Cは、図5Aと図5Bのスペクトルをインターリーブして決定した256周波数領域値を有するスペクトルを示している。図5Dは、図5Bの第2の短いスペクトルの隣接する値を反復することにより生成した長いブロックスペクトルを示す。これを考えるのは有用である。ドルビーデジタルのような符号化器は、オーディオ信号エネルギー、特に高周波エネルギーが急激に大きくなる時、短いブロックを使うことを選択するからである。これはオーディオ信号の過渡信号を示す。その結果、第2の短いスペクトルは、両方の短いブロックスペクトルを生成するのに使われるオーディオ信号のスペクトル全体のよい表現である。これは図5Eと比較すると分かる。
例えば、結合要素403の、結合を実行する別の実施形態は、短いブロックサイズで周波数領域データの値の間を補間し、最も長いブロックサイズの周波数領域データを生成する。これは後のデータでもできる。
最後に参考として、図5Eは、図5Aと図5Bの2つの短いMDCTスペクトルを計算するのに使われた同じサンプルから計算した長いMDCTスペクトルを示す。これは、ドルビーデジタルが通常のデータレートより速く実行でき、過渡信号の量子化ノイズの可聴性を最小化するために短いブロックを使う必要がない理想的な状況を表す。ドルビーデジタルは、図5Eのスペクトルは計算しないし使わないが、符号化器が長いブロックしか使えないという制限されているときに生じるものを表す。
AAC及び同様の符号化方法では、長いブロックの長さは3つ以上の短いブロック(例えば、AACの場合8)の倍数であり、及び/または複数タイプの長いブロックがあり(例えば、AACの場合3タイプ)、ラウドネスは異なるタイプの長いブロックのそれぞれに対して実質的に同じやり方で決まるものと仮定する。かかる複数ブロックサイズの本発明の実施形態は、最も大きいサイズを選択し、インターリーブを用いて、複数の短いデータブロックから長いデータブロックを決定する。
増大する過渡信号の場合、後の短いブロックが大きいパワーを有することに留意せよ。言うまでもなく、小さくなる過渡信号の知覚マスキングのため、過渡信号の短いブロックは増大する過渡信号の短いブロックを含む。ある実施形態では、長いブロックの長さが短いブロック(例えば、AACの場合8)の長さの3つ分以上の整数の長さであり、所定閾値より大きいエネルギーを有する連続ブロックのサブグループをインターリーブして形成し、これら反復またはインターリーブのどちらかを用いて、前のブロックと結合して、長いブロックを有するブロックの結合スペクトルを与える。ある実施形態では、所定閾値は最後の長いブロックサイズブロックの総周波数領域エネルギーの半分である。
知覚ラウドネスの決定
WO2004111994は、心理音響モデルに基づく、知覚されるラウドネスの客観的な測定を記載している。WO2004111994は、例えば短期DFTを用いて求めたログパワースペクトルの利用を記載しているが、MDCTスペクトルのセットによるパワー決定も知られている。時間サンプルx[n,t]の時間変化窓ブロックのSTDFTを考える。ここで、nはブロック内での時間インデックス、tは時間を参照するインデックスである。長さがTサンプルのブロックの場合、STDFTを用いてパワースペクトルの時間変化する推定の計算が一般的には用いられた。
Figure 2012513729
ここで、kはSTDFTの周波数ビンであり、Kは周波数ビンと時間サンプルとデータブロックの数であり、XSTDFT(k,t)はx[n,t]のSTDFTである。
MDCT(k,t)で、長さKのサンプルの時間ブロックのMDCTを示す。ほとんどのオーディオ信号の場合、|XSTDFT(k,t)|と∠XSTDFT(k,t)は、ブロックに沿って比較的独立に変化する。さらに、ほとんどのオーディオ信号の場合、∠XSTDFT(k,t)は0と2πの間で実質的に一様に分布している。このような場合、次のようになる。
Figure 2012513729
このように、時間変化するパワースペクトルは、MDCTの二乗振幅の移動平均からも決定でき、STDFTを用いて求めた値の約半分となる。WO2007120452を参照。近似として、次式の単一極スムージングフィルタを用いることができる。
Figure 2012513729
ここで、スムージングフィルタの半減衰時間は
Figure 2012513729
で与えられ、このように決めたPMDCT[k,t]は、Kが十分大きければ、正確なパワースペクトル測定を与える。
WO2007120452は、知覚ベースの測定と修正に係わるアプリケーションの場合、例えば、ラウドネス修正決定器により決定されたラウドネス修正に応じた知覚されるラウドネスパラメータ決定とラウドネス修正の場合、各周波数ビンkにおけるパワースペクトルP(k,t)の値は、特定の場所における人間の耳の基底膜の応答を模倣するいわゆる臨界帯域ほど重要ではないことを記載している。このように、かかるアプリケーションの場合、STDFTではなくMDCTを用いることにより生じたエラーを決定して、Kが十分大きいか決定することは、特定の場所における耳の基底膜の応答を模倣する臨界帯域におけるエラーを調べることにより、実行できる。
臨界帯域パワースペクトルの決定は、パワースペクトルP(k,t)に臨界帯域フィルタを乗算して、周波数ビンkにわたり積分することによりを実行できる。
Figure 2012513729
ここで、Cb(k)は、bで示した臨界帯域のフィルタの応答を示す。フィルタCb(k)の形は、例えば、WO2007120452を参照。
知覚されたラウドネス決定を実装する際、
Figure 2012513729
により、(ファクタ2を除くと)臨界帯域パワースペクトルのよい推定が与えられる。
知覚されるラウドネスの客観的な尺度として個別のラウドネスを決定する目的で、ドルビーデジタルビットストリームの部分的な復号から求めた、または、さもなければ、サンプリングしたオーディオ信号のブロックのラップドMDCT変換を取ることにより求めたパワースペクトル値PMDCT(k)は、知覚されるラウドネスを決定する方法への入力として機能する。かかる構成を図6の例に示した。WO2004111994の用語と記法を使うと、bで示す臨界帯域における内耳の基底膜に沿ったエネルギーの分布を近似するデータブロックインデックスtの励起信号E(b,t)は、パワースペクトル値から次のように近似できる:
Figure 2012513729
ここで、T(k)はトランスミッションフィルタの周波数応答を表し、Cb(k)は、bで示す臨界帯域に対応する場所における被験者の基底膜の周波数応答を表す。同じラウドネス曲線(contours)を用いて、各帯域における励起を、1kHzにおいて同じラウドネスとなる励起レベルに変換する。個別のラウドネスは、周波数にわたり分布した知覚ラウドネスの尺度であるが、変換した励起から計算し、E1kHz[b,t]で表す、圧縮非線形性により次のようになる。
Figure 2012513729
ここで、Q1kHzは1kHzにおける静寂の閾値を表し、定数Gとαはラウドネスの増加を記述する心理音響実験から生じるデータに合うように選択される。
多くの形式の知覚ラウドネス処理修正では、励起と個別ラウドネス値を用いて、例えば、所望の結果を達成する一組のゲイン値を決定する。このように、図4のラウドネスパラメータ決定器406は、通常、ラウドネス修正決定器407が用いる励起と個別ラウドネス値を与える。
ソーン(sone)単位で表した全知覚されるラウドネスLは、周波数帯域にわたり個別ラウドネスを合計することにより計算できる。
Figure 2012513729
図6は、MDCT領域ラウドネス決定器を示すブロック図である。短いブロックの場合にブロック結合器403のブロック結合後に決定した、MDCTで決定したパワースペクトルPMDCT[k,t]から始まり、トランスミッションフィルタバンク603と音響フィルタバンク605は、それぞれフィルタ|Cb(k)|と|Cb(k)|を実施する。励起決定器607は臨界帯域bの励起を決定する。ある実施形態では、スムージングも行う。得られた励起E[b,t]は、一組の個別ラウドネス決定器609に入力され、個別ラウドネス値N[b,t]を決定する。
知覚される全ラウドネスを計算したければ、合計器611がすべての臨界帯域にわたり個別ラウドネス値を加算する。
図7は、補間(図7A)を用いて、及び複製(図7B)を用いて、短いブロックから決定した長いブロックから求めたドルビーデジタルデータの、ソーン(sone)単位で決定した知覚される全ラウドネスの比較を示す図である。データは、ドルビーデジタル符号化器が短いブロックを用いる時のものである。水平軸は、2つの連続した短いブロックMDCTのインターリーブ(図7A)か、または第2の短いブロックMDCTを複製(図7B)した後の、元の短いブロックから測定したラウドネスを示す。垂直軸は、オーディオ信号の同じ部分の決定された知覚されるラウドネスであるが、図5Eに示したように、符号化器が長いMDCTスペクトルを用いたものを示す。
両グラフの対角線は、短いMDCTスペクトルと長いMDCTスペクトルから決定した知覚されるラウドネスが同じである一致点を表す。図7Aにおいて、一部の点は一致線の下にあり、短いMDCTインターリーブ法により、決定された知覚されるラウドネスが少し下になったことを示す。測定したすべての信号に対して、ラウドネスの一時的な低下は最大で15%である。図7Bでは、すべての点が一致線の近くにあり、第2の短いMDCTからの値の複製が、長いMDCTを用いるのとほぼ同じであることを示す。
ラウドネス処理
ラウドネスパラメータ決定器406とラウドネス修正決定器407とラウドネス修正器413の組み合わせにより実行できる典型的なラウドネス修正を、ここで簡単に説明するが、詳細はWO2004111994とWO2006047600に記載されている。知覚ラウドネス領域で実行される上記の処理は、ラウドネスレベリング、ゲインコントロール、ノイズ補正、及び/またはダイナミックイコライゼーション、またはこれらの処理の組み合わせを含む。各々は、励起と個別ラウドネス値から、場合によっては、ノイズ補正の場合のノイズ励起などの寄り多くの情報から、一組の周波数帯域(例えば、周波数領域の信号に適用する周波数インデックスk)に適用できる一組の時間可変なゲインの決定を含む。図8は、一組のゲインを決定するゲインソルバで、個別ラウドネスが目標個別ラウドネスに近くなるように、オーディオ励起値と個別ラウドネス値を決定する、ラウドネス決定の組み合わせの一例を示す。かかる処理はレベリングと呼ばれ、市場ではドルビーボリュームとして知られている。これはドルビーラボラトリーズライセンシング社の商標である。MDCTデータから始まり、要素803により、パワースペクトルを決定し、要素805により、フィルタバンク603と音響フィルタバンク605のトランスミッションフィルタリングを結合する。励起決定器607は図6に示したものと同様である。図8はスムージング809を含む。個別ラウドネス決定器811は、オーディオ個別ラウドネス(オーディオSL)を決定する。修正機能813は、レベリングに用いる目標個別ラウドネス(Target SL)を決定する。ゲインソルバ815は、一組の時間可変なゲインを計算し、各周波数インデックスkに(または、ある実施形態では各臨界帯域bに)適用するように構成され、目標後別ラウドネスとオーディオ励起値を用いる。一般的に、ゲインソルバ815は反復法を用いてゲインを決定する。詳細は、WO2004111994とWO2006047600に記載され、MDCTデータを用いる場合はWO2007120452に記載されている。
ゲイン補間器
ラウドネス修正補間器409は、例えば修正が一組のゲインとして計算される場合にはゲイン補間器であり、以下に詳しく説明する。知覚ラウドネス処理は、長いMDCTサイズを仮定するので、長いMDCTスペクトル値ごとに1つのゲインである一組のゲインを出力する。短いMDCTスペクトルへ適用する場合、この長いブロックスペクトルのゲインは長すぎ、短いMDCT値ごとに1つの値に減らす必要がある。
一実施形態では、長いゲインを複数の短いゲインに逆インターリーブすることにより、インターリーブプロセスの逆を実行する。これは非常に効率的である。しかし、ドルビーデジタルなどの符号化器では、MDCTスペクトル間のゲイン調整の差により、EVIDCT演算後に、PCMオーディオでは可聴な不連続性が発生する。
本発明のある実施形態では、この点の改善を、長いMDCTを形成するグループ中のすべての短いMDCTスペクトルに対して使える一組のゲインを生成することにより行う。
様々な方法を用いて、長いゲインの組から一つの短いゲインのスペクトルを生成できる。ある実施形態では、ゲイン値のペア間で線形補間を用いる。図9は、ドルビーデジタルなどの256時間領域サンプルの短いブロック長と、512時間領域サンプルの長いブロック長を用いる、知覚的コーディングされたデータに適用可能なゲイン補間を、簡単な例により示す図である。短いMDCTスペクトルの中心周波数は、長いMDCTスペクトルからの中心周波数のペア間になる。長いスペクトルからのゲインのペアを単に平均して、短いスペクトルのゲイン値を計算することができる。
図10は、MPEG−2/AACとMPEG−4/AACなどの256時間領域サンプルの短いブロック長と、2048時間領域サンプルの長いブロック長を用いる、知覚的コーディングされたデータに適用可能なゲイン補間を、簡単な例により示す図である。短いMDCTスペクトルの中心周波数は、長いMDCTスペクトルの8中心周波数ごとの中間になる。短いブロックの周波数ビンのゲインは、長いブロックゲイン値の最も近いペアの平均として計算できる。
別の実施形態では、長いブロックのスペクトル帯域は短いブロックスペクトル帯域の8倍あり、短いブロックのゲインは、処理のゲインソルバ部により決定された8個の最も近い長いブロックゲインの平均として計算する。
このように、図4に示した完全な処理は、一組のゲインを決定して、受け取った周波数領域データのブロック、またはそれを遅延させたものに適用することを含む。ゲインの決定は、知覚されるラウドネスパラメータを用いる。本方法は、短い周波数領域データブロックから生成した長いブロックから決定した長いブロックサイズで決定したゲインに対して、決定したゲインを補間して、短いブロックサイズで受け取ったデータブロックに適用することを含む。
図4に示したように、完全な処理方法は、決定したゲインや補間したゲインを、受け取った周波数領域データブロック、または図示したように、周波数領域データを遅延させたものに適用することを含む。
留意すべき点として、上記のゲイン補間器のゲイン補間ステップは線形補間を用いるが、別の実施形態では、利用できる計算パワーに基づき、他の補間方法を用いる。例えば、ある実施形態では2次または高次多項式補間、別の実施形態ではスプライン補間をそれぞれ用いる。
図11は、ここに説明する方法のいずれかを実行するように構成された処理システム1100を含む、一実施形態による装置を示す簡略化したブロック図である。処理システムは、プロセッサである中央処理ユニット(CPU)1103と、メモリ1105とを含む。CPU1103とメモリ1105は、バス構成1111により結合されている。バス構成は単純化のため単一バスとして示した。CPUは、1つ以上のキャッシュを含むキャッシュ構造1109を含む。メモリは、例えば、実行されると、ここに説明する方法の実施形態を処理システムに実行させる命令であるプログラムロジック1107を含む。もちろん、処理システムはさらに別の要素を含むが、図11には示していない。図示した態様を分かりにくくしないためである。特に、記憶媒体1105は、命令1107を記憶し、これは実行されると、複数のブロックサイズでラップド変換(lapped
transform)することにより決定した周波数領域データを含む、オーディオデータの処理方法を実行させる。本方法は、ここに説明したように、複数のブロックサイズで周波数領域オーディオデータブロックを受け取ることを含む。本方法は、最も長いブロックサイズより短いブロックサイズの受け取ったデータブロックに対して、前記短いブロックサイズの複数の周波数領域データを結合して最も長いブロックサイズの周波数領域データブロックを形成する段階を含む。本方法は、最も長いブロックサイズの受け取ったブロックの知覚されるラウドネス処理を実行する段階も含む。前記知覚されるラウドネス処理の実行は知覚されるラウドネスパラメータの決定を含む。
ドルビーデジタルとAACの符号化データから生成したデータについて説明したが、本発明は、例えば、複数のブロックサイズでラップド変換により決定された、周波数領域で表したデータに適用可能である。このように、既知の標準や仕様により符号化されたオーディオデータに適用可能であり、独自の方法で符号化されたデータにも適用可能である。さらに、符号化器は、ドルビーデジタルのような変換符号化器でも、AACが一例であるハイブリッド符号化器でもよい。
さらに、ここでは実施形態を、MDCTを用いて説明したが、本発明は、他の変換により得られた変換データで実施することもできる。例えば、DFTのラップドバージョン(短時間DFT(STDFT))、ラップド変換の離散制限変換(DST)(これは短時間離散制限変換である)、または周波数領域に変換する任意の変換など、他のラップド変換で実施することもできる。
さらに、ここに説明する方法は、オーディオ符号化装置や符号化器に結合した処理装置に組み込むこともでき、周波数領域データとともに提供することもできる。
さらに、当業者には言うまでもなく、複数のブロックサイズでのラップド変換などの変換により決定された周波数領域データを有するオーディオデータに適用可能である。オーディオは単一チャンネルのオーディオデータでも、複数チャンネルのオーディオデータでもよい。
ここでは知覚符号化を説明し、ボリュームコントロール、AGC、ダイナミックレンジコントロール、ノイズ補正、及び/またはダイナミックイコライゼーション、またはこれらの組み合わせをある程度詳しく説明したが、本発明の信号処理を如何なる意味でも限定するものではない。本発明は、変換(例えば、ラップド変換)により時間領域に関連する周波数領域で与えられる複数のブロックサイズを有するメディアデータに対する信号処理演算に適用可能である。
上記の説明及びWO2004111994とWO2006047600とは、個別ラウドネスを決定する方法を記載しているが、個別ラウドネスを決定する方法も知られている。例えば、WO2007120453を参照。
特に断らない限り、以下の説明から明らかなように、本明細書の説明では、「処理」、「計算(computing)」、「計算(calculating)」、「決定」などの用語を用いるが、コンピュータまたはコンピューティングシステムの動作及び/またはプロセス、または同様の電子計算装置を指し、これらは物理量として表されたデータを操作及び/または同様に物理量で表された他のデータに変換する。
複数の要素、例えば複数のステップを含む方法を説明するとき、特に断らない限り、かかる要素、例えば、ステップに順番はない。
ある実施形態は、少なくとも1つのプロセッサで実行されたとき、ここに説明した方法のステップを実行させるプログラムロジックで構成されたコンピュータ読み取り可能媒体を含む。
ここに説明する方法は、ある実施形態では、コンピュータ実行可能(マシン実行可能とも言う)プログラムロジックを受け付ける1つ以上のプロセッサにより実行可能である。プログラムロジックは、例えば、1つ以上のコンピュータ読み取り可能媒体に化体(例えば符号化)された、または記憶または構成された命令などである。1つ以上のプロセッサにより実行されると、上記命令は、ここに説明した方法の少なくとも1つを実行する。
「プロセッサ」とは、レジスタ及び/またはメモリからの電子データを処理して、その電子データを他の電子データに変換して、レジスタ及び/またはメモリに記憶するデバイスまたはその一部を指す。行う動作を特定する一組の命令を実行できるプロセッサが含まれる。「コンピュータ」や「計算機械」や「計算プラットフォーム」は少なくとも1つのプロセッサを含む。一般的な例としては、マイクロプロセッサ、マイクロコントローラ、プロセッサに一般的な信号処理タスクに適用可能な特定目的ハードウェアを組み込んだデジタル信号処理(DP)デバイス、チップに組み込んだ計算コアなどを含む。
処理システムの一例には、1つのプロセッサまたは2つ以上のプロセッサを含む。各プロセッサは、1つ以上の処理ユニット(CPU)、グラフィックス処理ユニット、算術処理システム、乗算・加算サブシステム、及び/またはプログラマブルDSPユニットが含まれる。処理システムは、さらに、記憶媒体やサブシステムを含む。これらは、半導体デバイスに組み込まれたメモリ、主RAM及び/またはスタティックRAM、及び/またはROMを含む別段のメモリサブシステム、及びキャッシュメモリを含む。記憶サブシステムは、さらに、磁気記憶デバイス及び/または光記憶デバイスなどの1つ以上の記憶デバイスを含み得る。コンポーネント間の通信用のバスサブシステムが含まれ得る。処理システムは、さらに、プロセッサがネットワークで結合した分散処理システムであってもよい。処理システムがディスプレイを必要とする場合、液晶ディスプレイ(LCD)、プラズマディスプレイ、OLEDディスプレイ、陰極線管(CRT)ディスプレイなどのディスプレイが含まれる。マニュアルでのデータ入力が必要な場合、処理システムは、キーボードなどの英数字入力ユニットやマウスなどのポインティング制御デバイスの入力デバイスなども含む。ここで、記憶デバイス、記憶サブシステムなどは、文脈から明らかであり、特に断らなければ、ディスクドライブユニットやソリッドステートドライブなどの記憶デバイスが含まれる。ある構成の処理システムは、音声入力で日合う、音声出力デバイス、ビデオ入力デバイス、及び/またはネットワークインタフェースデバイスを含み得る。
記憶サブシステムは、このように、実行されたとき、ここに説明する方法を実行させる命令を含む符号化/記憶ロジック(例えば、ソフトウェア)を有するように構成されているコンピュータ読み取り可能媒体を含む。プログラムロジックはハードディスク内にあってもよいし、完全にまたは少なくとも部分的にRAM内にあってもよいし、処理システムによる実行中はプロセッサ内にあってもよい。このように、メモリとプロセッサは、プログラムロジックが例えば命令の形式でエンコードされたコンピュータ読み取り可能媒体を構成する。
さらに、コンピュータ読み取り可能媒体は、コンピュータプログラム製品を構成し、またはそれに含まれる。
別の実施形態では、1つ以上のプロセッサは、スタンドアロンデバイスとして動作し、またはネットワーク展開した他のプロセッサとネットワークで接続されていてもよい。この1つ以上のプロセッサは、サーバ・クライアントネットワーク環境のサーバまたはクライアントで動作し、またはピア・ツー・ピアまたは分散ネットワーク環境でピアマシンとして動作する。1つ以上のプロセッサは、パーソナルコンピュータ(PC)、タブレットPC、セットトップボックス(STB)、パーソナルデジタルアシスタント(PDA)、携帯電話、ウェブ機器、ネットワークルータ、スイッチまたはブリッジ、そのマシンによる動作を指定するその他の一組の命令を実行できるマシンを構成する。
図面には、命令を含むロジックを実行する1つのプロセッサと1つのメモリのみを示しているものもあるが、当業者には言うまでもなく、上記のコンポーネントの多くが含まれているが、発明の態様を分かりにくくしないために、明示的な図示や説明はしていないことに留意してください。例えば、1つのマシンのみが示されていても、「機械(マシン)」は、個々に、または共同して、ここに説明する方法を実行する一組の命令を実行する複数のマシンの集まりを含む。
このように、ここに説明した各方法の一実施形態は、信号処理装置の一部である1つ以上のプロセッサなどの1つ以上のプロセッサを実行するためのコンピュータプログラムなどである一組の命令を有するコンピュータ読み取り可能媒体の形式である。このように、本技術分野の当業者には明らかなように、本発明の実施形態は、方法として、特定目的装置などの装置として、データ処理システムなどの装置として、または実行可能命令を有するコンピュータプログラム製品などのコンピュータ読み取り可能媒体として、実施可能である。本発明のある実施形態は、1つ以上のプロセッサに実行されたとき、ここに説明する方法の1つまたはそれ以上を実行するロジックの形式であってもよい。したがって、本発明の態様は、方法、完全なハードウェアの実施形態、完全なソフトウェアの実施形態、またはソフトウェアとハードウェアの態様を組み合わせた実施形態の形式をとることができる。さらに、本発明は、コンピュータ読み取り可能媒体などに記憶されたプログラムロジック、コンピュータ読み取り可能記憶媒体上のコンピュータプログラム、またはコンピュータ読み取り可能プログラムコードを有するコンピュータ読み取り可能媒体(例えば、コンピュータプログラム製品)などの形式をとってもよい。
コンピュータ読み取り可能媒体を実施形態では1つの媒体として示したが、「媒体」は、1つ以上の組の命令を記憶する、単一媒体または複数媒体(例えば、複数メモリ、集中または分散データベース、及び/または関連するキャッシュとサーバ)を含むと解すべきである。コンピュータ読み取り可能媒体は、不揮発性媒体及び揮発性媒体を含む形式をとることができるが、これらに限定されない。不揮発媒体は、例えば光ディスク、磁気ディスク、及び光・磁気ディスクを含む。揮発性媒体は、ダイナミックメモリを含み、メインメモリ等である。
言うまでもなく、本発明の実施形態は、特定の実装やプログラミング方法には限定されず、本発明は、ここに記載した機能を実装する任意の適切な方法を用いて実施できる。さらに、実施形態は、特定のプログラミング言語やオペレーティングシステムには限定されない。
本明細書において「一実施形態」とは、その実施形態に関して説明する機能、構造、特徴が少なくとも本発明の1つの実施形態に含まれることを意味している。本明細書ではいろいろな箇所で「一実施形態では」と記載するが、必ずしもすべてが同じ実施形態を指すものではなく、同じものでもよい。さらに、本技術分野の当業者には明らかなように、1つ以上の実施形態の特徴、構成、または特性(characteristics)を好適な方法で組み合わせてもよい。
同様に、言うまでもなく、本発明の上記の実施形態の説明では、本発明の様々な特徴は1つの実施形態、図面、またはその説明にグループ分けされているが、これは開示を簡明にし、様々な発明態様の理解を支援するためである。しかし、この開示方法を、請求項に記載した発明が各請求項で明示的に記載した以上の特徴を必要とすることを反映していると解釈してはならない。さらに、以下の請求項が反映しているように、発明態様は上記開示した1つの実施形態の一部特徴にある。このように、実施形態の説明に続く請求項を、ここで実施形態の説明に援用し、各請求項は本発明の別々の実施形態とする。
当業者には言うまでもなく、さらに、ここに説明したある実施形態は、他の実施形態に含まれる一部の特徴を含むが他の特徴は含まないが、異なる実施形態の特徴の組み合わせは本発明の範囲内にあり、異なる実施形態を構成する。例えば、下記の請求項中、請求項に記載した実施形態のどれをどう組み合わせてもちいてもよい。
さらに、一部の実施形態は、方法として、または方法の要素の組み合わせとしてここに記載したが、これらはコンピュータシステムのプロセッサ、またはその機能を実行する他の手段により実施可能である。このように、かかる方法または方法の要素を実行するのに必要な命令を有するプロセッサは、本方法またはその要素を実行する手段を構成する。さらに、ここに説明した装置の実施形態の要素は、本発明を実行するために、その要素により実行される機能を実行する手段の一例である。
ここでの説明では、具体的な詳細を多数記載する。しかし、言うまでもなく、本発明の実施形態はこれらの具体的な詳細がなくても実施することができる。他の場合には、説明を分かりにくくしないために、周知の方法、構造、及び技術は示さなかった。
ここで、特に断らなければ、共通の対象を記載する「第1の」、「第2の」、「第3の」などの順序を示す言葉を用いても、同じ対象の異なる事例を参照しているだけであり、その対象にそのような時間的、空間的、ランキング的、その他の順番があることを示唆するものではない。
この明細書の先行技術の説明は、かかる先行技術が周知であることを認めるものではない。
以下の請求項及びここでの記載では、「有する」との用語はオープンタームであり、少なくともそれに続く要素や特徴は含むが、それ以外を排除するものではない。このように、請求項において、「有する」というとき、その後に列記した手段や要素に限定すると解釈してはならない。例えば、「AとBとを有する装置」という場合、その装置が要素AとBのみから構成されているものと限定してはならない。「含む」との用語もオープンタームとして用いており、少なくともそれに続く要素や特徴を含むが、それ以外を排除することを意味していない。このように、「含む」は「有する」と同じ意味で用いている。
同様に、「結合した」との用語は、請求項で使う時は、直接的な接続だけに限定するものと解釈してはならない。「結合した」、「接続された」及びこれらの派生語を用いることがある。言うまでもなく、これらの用語は互いに同意語として使用したものではない。このように、「装置Bに結合した装置A」との表現の範囲は、装置Aの出力が装置Bの入力に直接接続されている装置やシステムに限定されない。その意味は、Aの出力とBの入力との間に経路があり、その経路には他の装置や手段が含まれている場合もあるということである。「結合した」との用語は、2つ以上の要素が直接的物理的または電気的に接触していること、または2つ以上の要素が互いに直接接触していないが、それでも互いに共同またはインターラクトすることを意味する。
このように、本発明の好ましい実施形態であると考えるものを説明したが、当業者には言うまでもなく、本発明の精神から逸脱することなく、その他の修正やさらなる修正をすることもでき、こうした変更や修正も本発明の範囲内にある。例えば、上記の数式は利用できる手順を単に表すだけである。ブロック図に機能を追加しても、機能を削除しても、機能ブロック間で動作を交換してもよい。本発明の範囲内に記載した方法にステップを追加しても、削除してもよい。

Claims (72)

  1. 複数のブロックサイズでの変換により決まる周波数領域データを有するオーディオデータの知覚されるラウドネス処理の方法であって、
    複数のブロックサイズで周波数領域オーディオデータのブロックを受け取る段階と、
    最も長いブロックサイズより短いブロックサイズの受け取ったデータブロックに対して、前記短いブロックサイズの複数の周波数領域データを結合して最も長いブロックサイズの周波数領域データブロックを形成する段階と、
    最も長いブロックサイズの受け取ったブロックの知覚されるラウドネス処理を実行する段階と、を有し、
    前記知覚されるラウドネス処理の実行は知覚されるラウドネスパラメータの決定を含む、方法。
  2. 前記ラウドネス処理は、さらに、
    前記決定した知覚されるラウドネスパラメータを用いて、少なくとも1つのラウドネス修正を決定して、受け取った周波数領域データのブロックに、またはそれを遅延したものに適用する段階を含み、
    前記方法はさらに、
    前記形成した最も長いブロックサイズで決定した少なくとも1つのラウドネス修正について、前記決定された少なくとも1つのラウドネス修正を形成するために用いる前記短いブロックサイズで前記受け取ったデータブロックに適用するため、前記決定した少なくとも1つのラウドネス修正を補間する段階と、
    前記決定した少なくとも1つのラウドネス修正または少なくとも1つの補間したラウドネス修正を、前記受け取った周波数領域データブロックまたはそれを遅延させたものに適用する段階とを有する、
    請求項1に記載の方法。
  3. 前記少なくとも1つのラウドネス修正または補間した修正を、前記周波数領域データブロックを遅延させたものに適用するように、前記周波数領域オーディオデータブロックを遅延させる段階をさらに有する、
    請求項2に記載の方法。
  4. 前記少なくとも1つのラウドネス修正は、一組のゲインを含み、前記補間する段階において補間されたゲインを決定し、前記決定した少なくとも1つのラウドネス修正または補完したラウドネス修正を適用する段階は、前記一組のゲインまたは一組の補間したゲインを適用する段階を含む、
    請求項2または3に記載の方法。
  5. 最も長いブロックサイズの周波数領域データを形成するために前記短いブロックサイズで前記複数の周波数領域データブロックを結合する段階は、前記短いブロックサイズで周波数領域データをインターリーブする段階を含む、
    請求項1ないし4いずれか一項に記載の方法。
  6. 最も長いブロックサイズの周波数領域データを形成するために前記短いブロックサイズで前記複数の周波数領域データブロックを結合する段階は、前記短いブロックサイズで周波数領域データの値を反復して、前記最も長いブロックサイズ周波数領域データを生成する段階を含む、
    請求項1ないし4いずれか一項に記載の方法。
  7. 最新の短いブロックサイズのブロックの短いブロックサイズの周波数領域データを用いて、前記最も長いブロックサイズの周波数領域データを生成する、
    請求項1ないし4いずれか一項に記載の方法。
  8. 最も長いブロックサイズの周波数領域データを形成するために前記短いブロックサイズで前記複数の周波数領域データブロックを結合する段階は、前記短いブロックサイズで周波数領域データの値の間を補間して、前記最も長いブロックサイズ周波数領域データを生成する段階を含む、
    請求項1ないし4いずれか一項に記載の方法。
  9. 最も長いブロックサイズは短いブロックサイズの長さの3倍以上の長さであり、複数の周波数領域データブロックを結合する段階は、複数のブロックの終わりに向けて現れる、所定閾値より高い総エネルギーを有する連続する周波数領域データブロックのサブグループを、インターリーブして結合し、中間サイズブロックの周波数領域データを形成する段階と、中間サイズブロックの周波数領域データを、前記所定閾値より高いエネルギーを持たない複数の周波数領域データブロックと、反復またはインターリーブして結合して、最も長いブロックサイズの周波数領域データを生成する段階とを有する、
    請求項1ないし4いずれか一項に記載の方法。
  10. 前記ラウドネス修正は一組のゲインを含み、前記補間は補間したゲインを決定し、決定した少なくとも1つのラウドネス修正または補完したラウドネス修正を適用する段階は、前記一組のゲインまたは一組の補間したゲインを適用する段階を含み、決定したゲインを補間する段階は、決定したゲイン値の線形補間を用いる、
    請求項2ないし9いずれか一項に記載の方法。
  11. 前記ラウドネス修正は一組のゲインを含み、前記補間は補間したゲインを決定し、決定した少なくとも1つのラウドネス修正または補完したラウドネス修正を適用する段階は、前記一組のゲインまたは一組の補間したゲインを適用する段階を含み、前記決定したゲインを補間する段階は、2次以上の多項式補間を用いる、
    請求項2ないし9いずれか一項に記載の方法。
  12. 前記ラウドネス修正は一組のゲインを含み、前記補間は補間したゲインを決定し、決定した少なくとも1つのラウドネス修正または補完したラウドネス修正を適用する段階は、前記一組のゲインまたは一組の補間したゲインを適用する段階を含み、決定したゲインを補間する段階は、スプライン補間を用いる、
    請求項2ないし9いずれか一項に記載の方法。
  13. 前記1つ以上の知覚されるラウドネスパラメータは、オーディオデータの励起と、オーディオデータの個別ラウドネスとを含む、
    請求項2ないし12いずれか一項に記載の方法。
  14. 前記1つ以上の知覚されるラウドネスパラメータは、オーディオデータの励起と、オーディオデータの個別ラウドネスとを含み、
    知覚されるラウドネス処理を実行する段階は、ラウドネスレベリング、ゲインコントロール、ノイズ補正、及び/またはダイナミックイコライゼーションのうち1つ以上を含む、
    請求項2ないし12いずれか一項に記載の方法。
  15. 変換はラップド変換である、
    請求項1ないし14いずれか一項に記載の方法。
  16. ラップド変換は短時間離散フーリエ変換(STDFT)である、
    請求項15に記載の方法であって、
  17. ラップド変換は修正離散余弦変換(MDCT)である、
    請求項15に記載の方法であって、
  18. ラップド変換は短時間離散正弦変換である、
    請求項1ないし14いずれか一項に記載の方法。
  19. 前記データは、2つ以上のブロックサイズを用いる知覚符号化器により符号化された符号化オーディオデータからのものである、
    請求項1ないし18いずれか一項に記載の方法。
  20. 前記データは、256時間領域サンプルの短いブロックサイズと、512時間領域サンプルの長いブロックサイズとを用いる知覚符号化器により符号化された符号化オーディオデータからのものである、
    請求項19に記載の方法であって、
  21. 前記データは、AC−3により符号化された符号化オーディオデータからのものである、請求項20に記載の方法であって、
  22. 前記受け取った周波数領域データは、256時間領域サンプルの短いブロックサイズと、2048時間領域サンプルの長いブロックサイズとを用いる知覚符号化器により符号化された符号化オーディオデータからのものである、
    請求項19に記載の方法であって、
  23. 前記データは、AAC符号化器により符号化された符号化オーディオデータからのものである、
    請求項19に記載の方法。
  24. 少なくとも1つのプロセッサにより実行されると、複数のブロックサイズでラップド変換により決定された周波数領域データを含むオーディオデータの知覚ラウドネス処理を行う、請求項1ないし23いずれか一項に記載の方法を実行する命令を有するコンピュータ読み出し可能媒体。
  25. 少なくとも1つのプロセッサにより実行されると、複数のブロックサイズでラップド変換により決定された周波数領域データを含むオーディオデータの知覚ラウドネス処理を行う、請求項1ないし23いずれか一項に記載の方法を実行するプログラムロジック。
  26. 複数のブロックサイズでの変換により決まる周波数領域データを有するオーディオデータの知覚されるラウドネス処理をする装置であって、
    複数のブロックサイズで周波数領域オーディオデータのブロックを受け取る手段と、
    短いブロックサイズの複数の受け取った周波数領域データブロックを結合して、最も長いブロックサイズの周波数領域データブロックを形成する手段と、
    最も長いブロックサイズの受け取ったブロックの知覚されるラウドネス処理を実行するように構成された処理手段と、を有し、
    前記処理手段による前記知覚されるラウドネス処理の実行は、知覚されるラウドネスパラメータの決定を含む、装置。
  27. 前記ラウドネス処理は、さらに、
    前記1つ以上の決定された知覚されるラウドネスパラメータを用いて少なくとも1つのラウドネス修正を決定する手段であって、前記少なくとも1つのラウドネス修正は、受け取った周波数領域データブロックまたはそれを遅延させたものに適用するものである段階を有し、
    前記装置はさらに、
    前記少なくとも1つのラウドネス修正を決定する手段に結合した、ラウドネス修正を補間する手段であって、前記形成された最も長いブロックサイズで決定する少なくとも1つのラウドネス修正のいずれについても、決定した少なくとも1つのラウドネス修正が、決定された少なくとも1つのラウドネス修正を形成するために用いられた短いブロックサイズで受け取られたデータブロックに適用するために補間される手段と、
    前記決定した少なくとも1つのラウドネス修正または補間した修正を、前記受け取った周波数領域データブロックまたはそれを遅延させたものに適用する手段とを有する、
    請求項26に記載の装置。
  28. 前記少なくとも1つのラウドネス修正または補間した修正を、前記周波数領域データブロックを遅延させたものに適用するように、前記周波数領域オーディオデータブロックを遅延させる手段をさらに有する、
    請求項27に記載の装置。
  29. 前記ラウドネス修正は一組のゲインを含み、前記補間する手段は補間したゲインを決定し、決定した少なくとも1つのラウドネス修正または補完したラウドネス修正を適用する手段は、前記一組のゲインまたは一組の補間したゲインを適用する手段を含む、
    請求項27または28に記載の装置。
  30. 結合する手段は、最も長いブロックサイズの周波数領域データを形成するために前記短いブロックサイズで前記複数の周波数領域データブロックを結合し、前記短いブロックサイズで周波数領域データをインターリーブするように構成されている、
    請求項26ないし29いずれか一項に記載の装置。
  31. 結合する手段は、最も長いブロックサイズの周波数領域データを形成するために前記短いブロックサイズで前記複数の周波数領域データブロックを結合し、前記短いブロックサイズで周波数領域データの値を反復して、前記最も長いブロックサイズ周波数領域データを生成するように構成されている、
    請求項26ないし29いずれか一項に記載の装置。
  32. 最新の短いブロックサイズのブロックの短いブロックサイズの周波数領域データを用いて、前記最も長いブロックサイズの周波数領域データを生成する、
    請求項30に記載の装置。
  33. 結合する手段は、最も長いブロックサイズの周波数領域データを形成するために前記短いブロックサイズで前記複数の周波数領域データブロックを結合し、前記短いブロックサイズで周波数領域データの値を補間して、前記最も長いブロックサイズ周波数領域データを生成するように構成されている、
    請求項26ないし29いずれか一項に記載の装置。
  34. 最も長いブロックサイズは短いブロックサイズの長さの3倍以上の長さであり、
    結合する手段は、複数の周波数領域データブロックの結合が次を含むように構成されている、請求項26ないし29いずれか一項に記載の装置:
    複数のブロックの終わりに向けて現れる、所定閾値より高い総エネルギーを有する連続する周波数領域データブロックのサブグループを、インターリーブして結合し、中間サイズブロックの周波数領域データを形成する段階と、
    中間サイズブロックの周波数領域データを、前記所定閾値より高いエネルギーを持たない複数の周波数領域データブロックと、反復またはインターリーブして結合して、最も長いブロックサイズの周波数領域データを生成する段階。
  35. 前記ラウドネス修正は一組のゲインを含み、前記補間する手段は補間したゲインを決定し、決定した少なくとも1つのラウドネス修正または補完したラウドネス修正を適用する手段は、前記一組のゲインまたは一組の補間したゲインを適用する手段を含み、補間する手段は、決定したゲインの補間に線形補間を用いるように構成された、
    請求項27ないし34いずれか一項に記載の装置。
  36. 前記ラウドネス修正は一組のゲインを含み、前記補間する手段は補間したゲインを決定し、決定した少なくとも1つのラウドネス修正または補完したラウドネス修正を適用する手段は、前記一組のゲインまたは一組の補間したゲインを適用する手段を含み、補間する手段は、決定したゲインの補間に2次以上の多項式補間を用いるように構成された、
    請求項27ないし34いずれか一項に記載の装置。
  37. 前記ラウドネス修正は一組のゲインを含み、前記補間する手段は補間したゲインを決定し、決定した少なくとも1つのラウドネス修正または補完したラウドネス修正を適用する手段は、前記一組のゲインまたは一組の補間したゲインを適用する手段を含み、補間する手段は、決定したゲインの補間にスプライン補間を用いるように構成された、
    請求項27ないし34いずれか一項に記載の装置。
  38. 前記1つ以上の知覚されるラウドネスパラメータは、オーディオデータの励起と、オーディオデータの個別ラウドネスとを含む、
    請求項27ないし37いずれか一項に記載の装置。
  39. 前記1つ以上の知覚されるラウドネスパラメータは、オーディオデータの励起と、オーディオデータの個別ラウドネスとを含み、
    処理手段は、知覚されるラウドネス処理の実行が、ラウドネスレベリング、ゲインコントロール、ノイズ補正、及び/またはダイナミックイコライゼーションのうち1つ以上を含むように構成されている、
    請求項27ないし37いずれか一項に記載の装置。
  40. 前記変換はラップド変換である、
    請求項26ないし39いずれか一項に記載の装置。
  41. ラップド変換は短時間離散フーリエ変換(STDFT)である、
    請求項40に記載の装置。
  42. ラップド変換は修正離散余弦変換(MDCT)である、
    請求項40に記載の装置。
  43. ラップド変換は短時間離散正弦変換である、
    請求項40に記載の装置。
  44. 前記データは、2つ以上のブロックサイズを用いる知覚符号化器により符号化された符号化オーディオデータからのものである、
    請求項26ないし43いずれか一項に記載の装置。
  45. 前記データは、256時間領域サンプルの短いブロックサイズと、512時間領域サンプルの長いブロックサイズとを用いる知覚符号化器により符号化された符号化オーディオデータからのものである、
    請求項44に記載の装置。
  46. 前記データは、AC−3により符号化された符号化オーディオデータからのものである、
    請求項45に記載の装置。
  47. 前記受け取った周波数領域データは、256時間領域サンプルの短いブロックサイズと、2048時間領域サンプルの長いブロックサイズとを用いる知覚符号化器により符号化された符号化オーディオデータからのものである、
    請求項44に記載の装置。
  48. 前記データは、AAC符号化器により符号化された符号化オーディオデータからのものである、
    請求項44に記載の装置。
  49. 複数のブロックサイズでの変換により決まる周波数領域データを有するオーディオデータの知覚されるラウドネス処理をする装置であって、
    周波数領域オーディオデータブロックを受け取るように構成されたブロック結合器であって、各ブロックは複数のブロックサイズのうちの1つであり、最も長いブロックサイズより短い1つ以上のブロックサイズの短いブロックサイズであるデータブロックを受け取り、前記短いブロックサイズで受け取った複数の周波数領域データブロックを結合して、最も長いブロックサイズの周波数領域データブロックを形成する結合器と、
    最も長いブロックサイズの受け取ったブロックの知覚されるラウドネス処理を実行するように構成された周波数領域信号プロセッサと、を有し、
    前記周波数領域信号プロセッサによる前記知覚されるラウドネス処理の実行は、知覚されるラウドネスパラメータの決定を含む、
  50. 前記周波数領域信号プロセッサは、さらに、少なくとも1つのラウドネス修正を決定して、前記ブロック結合器が受け取った周波数領域データブロックまたはそれを遅延させたものに適用するように構成された、前記1つ以上の決定された知覚されるラウドネスパラメータを用いるラウドネス修正決定器を含み、
    前記装置はさらに、
    前記周波数領域信号プロセッサに結合し、形成された最も長いブロックサイズで決定した1つ以上のラウドネス修正について、決定された少なくとも1つのラウドネス修正を形成するために用いる短いブロックサイズの受け取ったデータブロックに適用するため、決定した少なくとも1つのラウドネス修正を補間するラウドネス修正補間器と、
    前記ラウドネス修正補間器と、前記ブロック結合器の入力と、または前記ブロック結合器の入力に結合した遅延素子に結合し、決定された少なくとも1つのラウドネス修正または補間した修正を、受け取った周波数領域データブロックまたはそれを遅延させたものに適用するように構成されたラウドネス修正器とを有する、
    請求項49に記載の装置。
  51. 前記ブロック結合器の入力に結合し、周波数領域オーディオデータブロックを遅延させるように構成された遅延要素であって、前記遅延要素の出力は前記ラウドネス修正器に結合し、少なくとも1つのラウドネス修正または補間した修正を前記周波数領域データブロックを遅延したものに適用する遅延要素をさらに有する、
    請求項50に記載の装置。
  52. 前記ラウドネス修正は一組のゲインを含み、前記ラウドネス修正補間器は補間したゲインを決定し、前記ラウドネス修正器は、一組のゲインまたは補間したゲインを適用するように構成された、
    請求項50ないし51いずれか一項に記載の装置。
  53. 前記ブロック結合器は、最も長いブロックサイズの周波数領域データを形成するために前記短いブロックサイズで前記複数の周波数領域データブロックを結合し、前記短いブロックサイズで周波数領域データをインターリーブする、インターリーバを含む、
    請求項49ないし52いずれか一項に記載の装置。
  54. 前記ブロック結合器は、最も長いブロックサイズの周波数領域データを形成するために前記短いブロックサイズで前記複数の周波数領域データブロックを結合し、前記短いブロックサイズで周波数領域データの値を反復して、前記最も長いブロックサイズ周波数領域データを生成する、データ複製器を含む、
    請求項50ないし52いずれか一項に記載の装置。
  55. 最新の短いブロックサイズのブロックの短いブロックサイズの周波数領域データを用いて、前記最も長いブロックサイズの周波数領域データを生成する、
    請求項54に記載の装置。
  56. 前記ブロック結合器は、最も長いブロックサイズの周波数領域データを形成するために前記短いブロックサイズで前記複数の周波数領域データブロックを結合し、前記短いブロックサイズで周波数領域データの値を補間して、前記最も長いブロックサイズ周波数領域データを生成する、補間器を含む、
    請求項50ないし52いずれか一項に記載の装置。
  57. 最も長いブロックサイズは短いブロックサイズの長さの3倍以上の長さであり、前記ブロック結合器は、エネルギー決定器と、複数の周波数領域データブロックの結合が次を含むように構成された処理回路とを含む、請求項50ないし52いずれか一項に記載の装置:
    複数のブロックの終わりに向けて現れる、所定閾値より高い総エネルギーを有する連続する周波数領域データブロックのサブグループを、インターリーブして結合し、中間サイズブロックの周波数領域データを形成する段階と、
    中間サイズブロックの周波数領域データを、前記所定閾値より高いエネルギーを持たない複数の周波数領域データブロックと、反復またはインターリーブして結合して、最も長いブロックサイズの周波数領域データを生成する段階。
  58. 前記ラウドネス修正は一組のゲインを含み、前記ラウドネス修正補間器は補間したゲインを決定し、前記ラウドネス修正器は、一組のゲインまたは補間したゲインを適用するように構成された、前記ラウドネス修正補間器は、決定されたゲイン値を補間する線形補間を用いるように構成された、
    請求項50ないし57いずれか一項に記載の装置。
  59. 前記ラウドネス修正は一組のゲインを含み、前記ラウドネス修正補間器は補間したゲインを決定し、前記ラウドネス修正器は、一組のゲインまたは補間したゲインを適用するように構成された、前記ラウドネス修正補間器は、2次以上の多項式補間を用いるように構成された、
    請求項50ないし57いずれか一項に記載の装置。
  60. 前記ラウドネス修正は一組のゲインを含み、前記ラウドネス修正補間器は補間したゲインを決定し、前記ラウドネス修正器は、一組のゲインまたは補間したゲインを適用するように構成された、前記ラウドネス修正補間器はスプライン補間を用いるように構成された、
    請求項50ないし57いずれか一項に記載の装置。
  61. 前記1つ以上の知覚されるラウドネスパラメータは、オーディオデータの励起と、オーディオデータの個別ラウドネスとを含む、
    請求項50ないし60いずれか一項に記載の装置。
  62. 前記1つ以上の知覚されるラウドネスパラメータは、オーディオデータの励起と、オーディオデータの個別ラウドネスとを含み、
    前記周波数領域信号プロセッサは、ラウドネスレベリング、ゲインコントロール、ノイズ補正、及び/またはダイナミックイコライゼーションのうち1つ以上を含む知覚されるラウドネス処理を実行する、
    請求項50ないし60いずれか一項に記載の装置。
  63. 前記変換はラップド変換である、
    請求項49ないし62いずれか一項に記載の装置。
  64. ラップド変換は短時間離散フーリエ変換(STDFT)である、
    請求項63に記載の装置。
  65. ラップド変換は修正離散余弦変換(MDCT)である、
    請求項63に記載の装置。
  66. ラップド変換は短時間離散正弦変換である、
    請求項63に記載の装置。
  67. 前記データは、2つ以上のブロックサイズを用いる知覚符号化器により符号化された符号化オーディオデータからのものである、
    請求項50ないし66いずれか一項に記載の装置。
  68. 前記データは、256時間領域サンプルの短いブロックサイズと、512時間領域サンプルの長いブロックサイズとを用いる知覚符号化器により符号化された符号化オーディオデータからのものである、
    請求項67に記載の装置。
  69. 前記データは、AC−3により符号化された符号化オーディオデータからのものである、
    請求項68に記載の装置。
  70. 前記受け取った周波数領域データは、256時間領域サンプルの短いブロックサイズと、2048時間領域サンプルの長いブロックサイズとを用いる知覚符号化器により符号化された符号化オーディオデータからのものである、
    請求項67に記載の装置。
  71. 前記データは、AAC符号化器により符号化された符号化オーディオデータからのものである、
    請求項67に記載の装置。
  72. 処理システムを含む装置であって、前記処理装置は、少なくとも1つのプロセッサと、コンピュータ読み取り可能媒体とを含み、前記処理システムは、複数のブロックサイズでラップド変換により決定された周波数領域データを含むオーディオデータの知覚ラウドネス処理を行う、請求項1ないし23、いずれか一項に記載の方法を実行する装置。
JP2011543637A 2008-12-24 2009-12-22 周波数領域におけるオーディオ信号ラウドネス決定と修正 Active JP5270006B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14079108P 2008-12-24 2008-12-24
US61/140,791 2008-12-24
PCT/US2009/069178 WO2010075377A1 (en) 2008-12-24 2009-12-22 Audio signal loudness determination and modification in the frequency domain

Publications (2)

Publication Number Publication Date
JP2012513729A true JP2012513729A (ja) 2012-06-14
JP5270006B2 JP5270006B2 (ja) 2013-08-21

Family

ID=41693219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011543637A Active JP5270006B2 (ja) 2008-12-24 2009-12-22 周波数領域におけるオーディオ信号ラウドネス決定と修正

Country Status (7)

Country Link
US (2) US8892426B2 (ja)
EP (1) EP2374211B1 (ja)
JP (1) JP5270006B2 (ja)
CN (2) CN102265513B (ja)
AT (1) ATE552651T1 (ja)
HK (1) HK1205372A1 (ja)
WO (1) WO2010075377A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021029054A (ja) * 2013-03-26 2021-02-25 ドルビー ラボラトリーズ ライセンシング コーポレイション ボリューム平準化器コントローラおよび制御方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8700410B2 (en) * 2009-06-18 2014-04-15 Texas Instruments Incorporated Method and system for lossless value-location encoding
US8437480B2 (en) * 2009-12-17 2013-05-07 Stmicroelectronics Asia Pacific Pte Ltd. Adaptive loudness levelling for digital audio signals
WO2012146757A1 (en) 2011-04-28 2012-11-01 Dolby International Ab Efficient content classification and loudness estimation
US20140278911A1 (en) * 2013-03-15 2014-09-18 Telemetry Limited Method and apparatus for determining digital media audibility
ES2617314T3 (es) * 2013-04-05 2017-06-16 Dolby Laboratories Licensing Corporation Aparato de compresión y método para reducir un ruido de cuantización utilizando una expansión espectral avanzada
EP2830058A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
US9608588B2 (en) * 2014-01-22 2017-03-28 Apple Inc. Dynamic range control with large look-ahead
CN109036441B (zh) 2014-03-24 2023-06-06 杜比国际公司 对高阶高保真立体声信号应用动态范围压缩的方法和设备
US9462381B2 (en) * 2014-05-28 2016-10-04 Apple Inc. Intelligent dynamics processing
WO2016007947A1 (en) * 2014-07-11 2016-01-14 Arizona Board Of Regents On Behalf Of Arizona State University Fast computation of excitation pattern, auditory pattern and loudness
CN106157978B (zh) * 2015-04-15 2020-04-07 宏碁股份有限公司 语音信号处理装置及语音信号处理方法
US10374564B2 (en) * 2017-04-20 2019-08-06 Dts, Inc. Loudness control with noise detection and loudness drop detection
US11856385B2 (en) * 2019-02-13 2023-12-26 MOZZAIK IO d.o.o. Audio signal processing method and device
CN112040373B (zh) * 2020-11-02 2021-04-23 统信软件技术有限公司 一种音频数据处理方法、计算设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0738443A (ja) * 1993-03-09 1995-02-07 Sony Corp 圧縮データ記録及び/又は再生若しくは伝送及び/又は受信装置、圧縮データ記録及び/又は再生若しくは伝送及び/又は受信方法、及び記録媒体
US5434922A (en) * 1993-04-08 1995-07-18 Miller; Thomas E. Method and apparatus for dynamic sound optimization
JP2002543703A (ja) * 1999-04-26 2002-12-17 ディーエスピーファクトリー・リミテッド デジタル補聴器用のラウドネス正常化制御
JP2009532728A (ja) * 2006-04-03 2009-09-10 トムソン ライセンシング プラズマディスプレイパネル内でビデオレベルを符号化するための方法および装置

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4460871A (en) * 1979-08-06 1984-07-17 Orban Associates, Inc. Multiband cross-coupled compressor with overshoot protection circuit
DE3943879B4 (de) * 1989-04-17 2008-07-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Digitales Codierverfahren
US5235623A (en) * 1989-11-14 1993-08-10 Nec Corporation Adaptive transform coding by selecting optimum block lengths according to variatons between successive blocks
US5247579A (en) * 1990-12-05 1993-09-21 Digital Voice Systems, Inc. Methods for speech transmission
US5291557A (en) 1992-10-13 1994-03-01 Dolby Laboratories Licensing Corporation Adaptive rematrixing of matrixed audio signals
US5699479A (en) 1995-02-06 1997-12-16 Lucent Technologies Inc. Tonality for perceptual audio compression based on loudness uncertainty
US5682463A (en) 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
JPH08223049A (ja) 1995-02-14 1996-08-30 Sony Corp 信号符号化方法及び装置、信号復号化方法及び装置、情報記録媒体並びに情報伝送方法
FI950917A (fi) * 1995-02-28 1996-08-29 Nokia Telecommunications Oy Puhekoodausparametrien käsittely tietoliikennejärjestelmässä
ATE192259T1 (de) * 1995-11-09 2000-05-15 Nokia Mobile Phones Ltd Verfahren zur synthetisierung eines sprachsignalblocks in einem celp-kodierer
SG54379A1 (en) * 1996-10-24 1998-11-16 Sgs Thomson Microelectronics A Audio decoder with an adaptive frequency domain downmixer
US6092040A (en) 1997-11-21 2000-07-18 Voran; Stephen Audio signal time offset estimation algorithm and measuring normalizing block algorithms for the perceptually-consistent comparison of speech signals
US6029126A (en) * 1998-06-30 2000-02-22 Microsoft Corporation Scalable audio coder and decoder
US6122619A (en) * 1998-06-17 2000-09-19 Lsi Logic Corporation Audio decoder with programmable downmixing of MPEG/AC-3 and method therefor
JP3739959B2 (ja) * 1999-03-23 2006-01-25 株式会社リコー デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7027982B2 (en) * 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
US7146313B2 (en) * 2001-12-14 2006-12-05 Microsoft Corporation Techniques for measurement of perceptual audio quality
DE60323331D1 (de) * 2002-01-30 2008-10-16 Matsushita Electric Ind Co Ltd Verfahren und vorrichtung zur audio-kodierung und -dekodierung
US20030223597A1 (en) 2002-05-29 2003-12-04 Sunil Puria Adapative noise compensation for dynamic signal enhancement
US7039204B2 (en) * 2002-06-24 2006-05-02 Agere Systems Inc. Equalization for audio mixing
DE10234130B3 (de) * 2002-07-26 2004-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals
KR100467020B1 (ko) 2002-07-26 2005-01-24 삼성전자주식회사 자기 정렬된 접합영역 콘택홀을 갖는 반도체 장치 및 그제조 방법
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
SG185134A1 (en) 2003-05-28 2012-11-29 Dolby Lab Licensing Corp Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal
US7471726B2 (en) * 2003-07-15 2008-12-30 Microsoft Corporation Spatial-domain lapped transform in digital media compression
US20050038579A1 (en) 2003-08-15 2005-02-17 Lewis Michael W. Interactive maintenance management alarm handling
US7912226B1 (en) * 2003-09-12 2011-03-22 The Directv Group, Inc. Automatic measurement of audio presence and level by direct processing of an MPEG data stream
US7639823B2 (en) 2004-03-03 2009-12-29 Agere Systems Inc. Audio mixing using magnitude equalization
US20080095385A1 (en) * 2004-06-30 2008-04-24 Koninklijke Philips Electronics, N.V. Method of and System for Automatically Adjusting the Loudness of an Audio Signal
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
EP1833163B1 (en) 2004-07-20 2019-12-18 Harman Becker Automotive Systems GmbH Audio enhancement system and method
JP4594681B2 (ja) 2004-09-08 2010-12-08 ソニー株式会社 音声信号処理装置および音声信号処理方法
DE102004047069A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks
US7924711B2 (en) * 2004-10-20 2011-04-12 Qualcomm Incorporated Method and apparatus to adaptively manage end-to-end voice over internet protocol (VolP) media latency
CA2581810C (en) 2004-10-26 2013-12-17 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US20070291960A1 (en) * 2004-11-10 2007-12-20 Adc Technology Inc. Sound Electronic Circuit and Method for Adjusting Sound Level Thereof
US7386445B2 (en) * 2005-01-18 2008-06-10 Nokia Corporation Compensation of transient effects in transform coding
FR2882458A1 (fr) * 2005-02-18 2006-08-25 France Telecom Procede de mesure de la gene due au bruit dans un signal audio
US8290181B2 (en) 2005-03-19 2012-10-16 Microsoft Corporation Automatic audio gain control for concurrent capture applications
TWI397903B (zh) * 2005-04-13 2013-06-01 Dolby Lab Licensing Corp 編碼音訊之節約音量測量技術
DE602005015426D1 (de) 2005-05-04 2009-08-27 Harman Becker Automotive Sys System und Verfahren zur Intensivierung von Audiosignalen
US20070007942A1 (en) 2005-07-08 2007-01-11 Microchip Technology Incorporated Automatic non-linear phase response calibration and compensation for a power measurement device
US7546240B2 (en) * 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
US20070121966A1 (en) * 2005-11-30 2007-05-31 Microsoft Corporation Volume normalization device
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US7715571B2 (en) * 2006-03-23 2010-05-11 Phonak Ag Method for individually fitting a hearing instrument
TWI517562B (zh) * 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
WO2007120452A1 (en) 2006-04-04 2007-10-25 Dolby Laboratories Licensing Corporation Audio signal loudness measurement and modification in the mdct domain
CN101421781A (zh) 2006-04-04 2009-04-29 杜比实验室特许公司 音频信号的感知响度和/或感知频谱平衡的计算和调整
CA2648237C (en) 2006-04-27 2013-02-05 Dolby Laboratories Licensing Corporation Audio gain control using specific-loudness-based auditory event detection
TWI312982B (en) * 2006-05-22 2009-08-01 Nat Cheng Kung Universit Audio signal segmentation algorithm
CN101155438B (zh) 2006-09-26 2011-12-28 张秀丽 音频设备的频率响应自适应均衡方法
JP4590389B2 (ja) 2006-11-30 2010-12-01 本田技研工業株式会社 能動型振動騒音制御装置
EP1986466B1 (en) * 2007-04-25 2018-08-08 Harman Becker Automotive Systems GmbH Sound tuning method and apparatus
US8103008B2 (en) * 2007-04-26 2012-01-24 Microsoft Corporation Loudness-based compensation for background noise
EP2048657B1 (en) * 2007-10-11 2010-06-09 Koninklijke KPN N.V. Method and system for speech intelligibility measurement of an audio transmission system
WO2009086174A1 (en) * 2007-12-21 2009-07-09 Srs Labs, Inc. System for adjusting perceived loudness of audio signals
US8447591B2 (en) * 2008-05-30 2013-05-21 Microsoft Corporation Factorization of overlapping tranforms into two block transforms
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
EP2372705A1 (en) * 2010-03-24 2011-10-05 Thomson Licensing Method and apparatus for encoding and decoding excitation patterns from which the masking levels for an audio signal encoding and decoding are determined

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0738443A (ja) * 1993-03-09 1995-02-07 Sony Corp 圧縮データ記録及び/又は再生若しくは伝送及び/又は受信装置、圧縮データ記録及び/又は再生若しくは伝送及び/又は受信方法、及び記録媒体
US5434922A (en) * 1993-04-08 1995-07-18 Miller; Thomas E. Method and apparatus for dynamic sound optimization
JP2002543703A (ja) * 1999-04-26 2002-12-17 ディーエスピーファクトリー・リミテッド デジタル補聴器用のラウドネス正常化制御
JP2009532728A (ja) * 2006-04-03 2009-09-10 トムソン ライセンシング プラズマディスプレイパネル内でビデオレベルを符号化するための方法および装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021029054A (ja) * 2013-03-26 2021-02-25 ドルビー ラボラトリーズ ライセンシング コーポレイション ボリューム平準化器コントローラおよび制御方法
JP2021145376A (ja) * 2013-03-26 2021-09-24 ドルビー ラボラトリーズ ライセンシング コーポレイション ボリューム平準化器コントローラおよび制御方法
US11218126B2 (en) 2013-03-26 2022-01-04 Dolby Laboratories Licensing Corporation Volume leveler controller and controlling method
JP7150939B2 (ja) 2013-03-26 2022-10-11 ドルビー ラボラトリーズ ライセンシング コーポレイション ボリューム平準化器コントローラおよび制御方法
US11711062B2 (en) 2013-03-26 2023-07-25 Dolby Laboratories Licensing Corporation Volume leveler controller and controlling method
JP7566835B2 (ja) 2013-03-26 2024-10-15 ドルビー ラボラトリーズ ライセンシング コーポレイション ボリューム平準化器コントローラおよび制御方法

Also Published As

Publication number Publication date
ATE552651T1 (de) 2012-04-15
US20110257982A1 (en) 2011-10-20
EP2374211B1 (en) 2012-04-04
WO2010075377A1 (en) 2010-07-01
JP5270006B2 (ja) 2013-08-21
US9306524B2 (en) 2016-04-05
CN102265513B (zh) 2014-12-31
US8892426B2 (en) 2014-11-18
CN104378075B (zh) 2017-05-31
CN104378075A (zh) 2015-02-25
US20150106083A1 (en) 2015-04-16
CN102265513A (zh) 2011-11-30
HK1205372A1 (en) 2015-12-11
EP2374211A1 (en) 2011-10-12

Similar Documents

Publication Publication Date Title
JP5270006B2 (ja) 周波数領域におけるオーディオ信号ラウドネス決定と修正
JP6728416B2 (ja) パラメトリック・マルチチャネル・エンコードのための方法
TWI417872B (zh) 修改型離散餘弦轉換領域之音訊信號響度測量及修改技術
RU2611986C2 (ru) Сигнальный процессор, формирователь окон, кодированный медиасигнал, способ обработки сигнала и способ формирования окон
JP6147337B2 (ja) サブバンド領域内での自由選択可能な周波数偏移のための装置、方法およびコンピュータプログラム
JP2010515106A (ja) 重み付けウィンドウを用いた低遅延変換符号化
US20240005931A1 (en) Downscaled decoding
US10332527B2 (en) Method and apparatus for encoding and decoding audio signal
TW202334938A (zh) 正交鏡像濾波器域中之沉浸式音訊及視訊服務空間重建濾波器庫

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121204

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130227

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130402

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130508

R150 Certificate of patent or registration of utility model

Ref document number: 5270006

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250