JP2016173597A - 高周波オーディオ内容の効率的な復元のための方法およびシステム - Google Patents

高周波オーディオ内容の効率的な復元のための方法およびシステム Download PDF

Info

Publication number
JP2016173597A
JP2016173597A JP2016102645A JP2016102645A JP2016173597A JP 2016173597 A JP2016173597 A JP 2016173597A JP 2016102645 A JP2016102645 A JP 2016102645A JP 2016102645 A JP2016102645 A JP 2016102645A JP 2016173597 A JP2016173597 A JP 2016173597A
Authority
JP
Japan
Prior art keywords
tone
determining
frequency
audio signal
bin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016102645A
Other languages
English (en)
Other versions
JP6334602B2 (ja
Inventor
テシン,ロビン
Thesing Robin
シュフーグ,ミヒャエル
Schug Michael
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of JP2016173597A publication Critical patent/JP2016173597A/ja
Application granted granted Critical
Publication of JP6334602B2 publication Critical patent/JP6334602B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】オーディオ信号の高周波成分を、低周波成分から効率的に復元する方法を提供する。
【解決手段】オーディオ信号の第一の周波数サブバンドについて第一の帯域化トーン性値312を決定する方法であって第一の帯域化トーン性値312は、オーディオ信号の低周波成分に基づいてオーディオ信号の高周波成分を近似するために使われる。方法は、オーディオ信号のブロックに基づいて、対応する一組の周波数ビンにおける一組の変換係数を決定する段階と、一組の変換係数を使って一組の周波数ビンについての一組のビン・トーン性値341をそれぞれ決定する段階と、第一の周波数サブバンド内にある一組の周波数ビンの二つ以上の対応する隣り合う周波数ビンについて一組のビン・トーン性値341の二つ以上からなる第一の部分集合を組み合わせて、第一の周波数サブバンドについての第一の帯域化トーン性値312を与える段階とを含む。
【選択図】図3b

Description

関連出願への相互参照
本願は2012年2月23日に出願された欧州特許出願第12156631.9号および2012年8月8日に出願された米国仮特許出願第61/680,805号の優先権の利益を主張するものである。両出願はここに参照によってその全体において組み込まれる。
発明の技術分野
本稿はオーディオ符号化、復号および処理の技術分野に関する。特にオーディオ信号の高周波内容を同じオーディオ信号の低周波内容から効率的な仕方で復元する方法に関する。
オーディオ信号の効率的な符号化および復号は、しばしばエンコード、伝送および/またはデコードされるべきオーディオ関係のデータの量を、音響心理学的な原理に基づいて減らすことを含む。これはたとえば、オーディオ信号中に存在しているが聴取者によって知覚可能ではない、いわゆるマスクされるオーディオ内容を破棄することを含む。代替的または追加的に、より高周波内容についてのいくらかの情報を、そのようなより高周波内容を実際に直接エンコードすることなく保持または計算しつつ、エンコードされるべきオーディオ信号の帯域幅が制限されることもある。次いで、帯域制限された信号は、前記より高周波の情報と一緒にエンコードおよび伝送(または記憶)される。このより高周波の情報は、前記より高周波の内容をも直接エンコードするよりも、要求する資源が少ない。
HE-AAC(High Efficiency - Advanced Audio Coding[高効率‐先進オーディオ符号化])におけるスペクトル帯域複製(SBR: Spectral Band Replication)およびドルビー・デジタル・プラス(Dolby Digital Plus)におけるスペクトル拡張(SPX: Spectral Extension)は、オーディオ信号の高周波成分を該オーディオ信号の低周波成分に基づいてかつ追加的な副情報(より高周波の情報とも称される)に基づいて近似または再構成するオーディオ符号化システムの二つの例である。以下では、ドルビー・デジタル・プラスのSPX方式が言及されるが、本稿に記載される方法およびシステムは、HE-AACにおけるSBRを含む高周波再構成技法一般に適用可能であることは注意しておくべきである。
SPXに基づくオーディオ・エンコーダにおける副情報の決定は、典型的には、かなりの計算量がかかる。たとえば、副情報の決定は、オーディオ・エンコーダの総計算資源の約50%を要求することがある。本稿は、SPXベースのオーディオ・エンコーダの計算量を減らすことを許容する方法およびシステムを記述する。特に、本稿は、SPXに基づくオーディオ・エンコーダのコンテキストにおいてトーン性(tonality)計算を実行するための計算量を減らすことを許容する方法およびシステムを記述する(ここで、トーン性計算は、副情報を決定するために使われる計算量の約80%に相当することがある)。
ある側面によれば、オーディオ信号の第一の周波数サブバンドについての第一の帯域化された(banded)トーン性値〔帯域化トーン性値〕を決定する方法が記述される。オーディオ信号は、多チャネル・オーディオ信号(たとえば、ステレオ、5.1または7.1の多チャネル信号)のチャネルのオーディオ信号であってもよい。オーディオ信号は、低信号周波数から高信号周波数にわたる帯域幅を有していてもよい。該帯域幅は、低周波数帯域および高周波数帯域を有していてもよい。第一の周波数サブバンドは、低周波数帯域内または高周波数帯域内にあってもよい。第一の帯域化されたトーン性値は、第一の周波数帯域内のオーディオ信号のトーン性を示していてもよい。オーディオ信号が周波数サブバンド内で比較的高いトーン性をもつと考えられるのは、その周波数サブバンドが比較的高い度合いの安定した正弦波内容を有する場合であってもよい。他方、オーディオ信号がその周波数サブバンド内で比較的低いトーン性をもつと考えられるのは、その周波数サブバンドが比較的高い度合いのノイズを有する場合であってもよい。第一の帯域化されたトーン性値は、第一の周波数サブバンド内のオーディオ信号の位相の変動に依存してもよい。
第一の帯域化されたトーン性値を決定する方法は、オーディオ信号のエンコーダのコンテキストにおいて使用されてもよい。エンコーダは、スペクトル帯域複製(SBR)(たとえば高効率‐先進オーディオ符号化器HE-AACのコンテキストで使われるような)またはスペクトル拡張(SPX)(たとえばドルビー・デジタル・プラス・エンコーダのコンテキストで使われるような)といった高周波再構成技法を利用してもよい。第一の帯域化されたトーン性値は、オーディオ信号の(高周波数帯域における)高周波成分を、オーディオ信号の(低周波数帯域における)低周波成分に基づいて近似するために使われてもよい。特に、第一の帯域化されたトーン性値は、オーディオ信号の受領された(復号された)低周波成分に基づいてオーディオ信号の高周波成分を再構成するために対応するオーディオ・デコーダによって使用されうる副情報を決定するために使用されてもよい。副情報は、たとえば、高周波成分のある周波数サブバンドを近似するために、低周波成分の並進された諸周波数サブバンドに加えられるべきノイズの量を指定してもよい。
本方法は、オーディオ信号のサンプルのブロックに基づいて、対応する一組の周波数ビン内の変換係数の組を決定することを含んでいてもよい。オーディオ信号のサンプルのシーケンスは、それぞれ所定数のサンプルを含むフレームのシーケンスにグループ化されてもよい。フレームのシーケンスのあるフレームは、サンプルの一つまたは複数のブロックに細分されてもよい。あるフレームの隣り合うブロックは、重複してもよい(たとえば50%まで)。サンプルのブロックは、修正離散コサイン変換(MDCT)および/または修正離散サイン変換(MDST)のような時間領域から周波数領域への変換を使って、時間領域から周波数領域に変換され、それにより変換係数の組を与えてもよい。MDSTおよびMDCTをサンプルのブロックに適用することによって、複素変換係数の組が与えられてもよい。典型的には、変換係数の数N(および周波数ビンの数N)はブロック内のサンプルの数Nに対応する(たとえばN=128またはN=256)。第一の周波数サブバンドは、前記N個の周波数ビンのうちの複数を含んでいてもよい。換言すれば、(比較的高い周波数分解能をもつ)N個の周波数ビンは、(相対的により低い周波数分解能をもつ)一つまたは複数の周波数サブバンドにグループ化されてもよい。結果として、低下した数の周波数サブバンドを与えることが可能となり(これは典型的には、エンコードされるオーディオ信号の低下したデータ・レートの点で有益である)、周波数サブバンドは互いの間で比較的高い周波数選択性をもつ(周波数サブバンドが複数の高分解能周波数ビンのグループ化によって得られるという事実のため)。
本方法はさらに、それぞれ変換係数の組を使って周波数ビンの組についてのビン・トーン性値の組を決定することを含んでいてもよい。ビン・トーン性値は典型的には、個々の周波数ビンについて(該個々の周波数ビンの変換係数を使って)決定される。よって、ビン・トーン性値は、個々の周波数ビン内のオーディオ信号のトーン性値を示す。例として、ビン・トーン性値は、対応する個々の周波数ビン内の変換係数の位相の変動に依存する。
本方法はさらに、前記第一の周波数サブバンド内にある周波数ビンの組の二つ以上の対応する隣り合う周波数ビンについて前記組のビン・トーン性値の二つ以上からなる第一の部分集合を組み合わせて、それにより前記第一の周波数サブバンドについての第一の帯域化されたトーン性値を与えることを含んでいてもよい。換言すれば、前記第一の帯域化されたトーン性値は、前記第一の周波数サブバンド内にある前記二つ以上の周波数ビンについての二つ以上のビン・トーン性値を組み合わせることによって決定されてもよい。前記組のビン・トーン性値の二つ以上からなる前記第一の部分集合の組み合わせは、前記二つ以上のビン・トーン性値を平均することおよび/または前記二つ以上のビン・トーン性値を合計することを含んでいてもよい。たとえば、前記第一の帯域化されたトーン性値は、前記第一の周波数サブバンド内にある周波数ビンのビン・トーン性値の和に基づいて決定されてもよい。
よって、第一の帯域化されたトーン性値を決定する方法は、第一の周波数サブバンド内にある周波数ビンのビン・トーン性値に基づいて(複数の周波数ビンを含む)第一の周波数サブバンド内の第一の帯域化されたトーン性値を決定することを指定する。換言すれば、第一の帯域化されたトーン性値を二段階で決定することが提案される。第一段階は、ビン・トーン性値の組を与え、第二段階はビン・トーン性値の組(の少なくともいくつかのビン・トーン性値)を組み合わせて、第一の帯域化されたトーン性値を与える。そのような二段階アプローチの結果として、ビン・トーン性値の同じ組に基づいて(異なるサブバンド構造について)異なる帯域化されたトーン性値を決定することが可能である。それにより、種々の帯域化されたトーン性値を利用するオーディオ・エンコーダの計算上の複雑さが軽減される。
ある実施形態では、本方法はさらに、第二の周波数サブバンド内にある周波数ビンの組の二つ以上の対応する隣り合う周波数ビンについて前記組のビン・トーン性値の二つ以上からなる第二の部分集合を組み合わせることによって、第二の周波数サブバンドにおける第二の帯域化されたトーン性値を決定することを含む。第一および第二の周波数サブバンドは、少なくとも一つの共通の周波数ビンを含んでいてもよく、第一および第二の部分集合は対応する少なくとも一つの共通のビン・トーン性値を含んでいてもよい。換言すれば、前記第一および第二の帯域化されたトーン性値は、少なくとも一つの共通のビン・トーン性値に基づいて決定されてもよく、それにより帯域化されたトーン性値の決定に結びつけられた計算上の複雑さの低下を許容する。たとえば、第一および第二の周波数サブバンドはオーディオ信号の高周波数帯域内にあってもよい。第一の周波数サブバンドは第二の周波数サブバンドより狭くてもよく、第二の周波数サブバンド内にあってもよい。第一のトーン性値は、SPXに基づくエンコーダの大分散減衰(Large Variance Attenuation)のコンテキストにおいて使われてもよく、第二のトーン性値はSPXに基づくエンコーダのノイズ・ブレンディングのコンテキストにおいて使われてもよい。
上記のように、本稿に記載される方法は、典型的には、高周波再構成(HFR: high frequency reconstruction)技法を利用するオーディオ・エンコーダのコンテキストにおいて使われる。そのようなHFR技法は、オーディオ信号の高周波成分を近似するために、オーディオ信号の低周波数帯域からの一つまたは複数の周波数ビンを高周波数帯域からの一つまたは複数の周波数ビンに並進させる。よって、オーディオ信号の低周波成分に基づいてオーディオ信号の高周波成分を近似することは、低周波成分に対応する低周波数帯域からの一つまたは複数の周波数ビンの一つまたは複数の低周波数変換係数を、オーディオ信号の高周波成分に対応する高周波数帯域にコピーすることを含んでいてもよい。この、あらかじめ決定されたコピー・プロセスは、帯域化されたトーン性値を決定するときに考慮に入れられてもよい。特に、ビン・トーン性値が該コピー・プロセスによって典型的には影響されず、それにより低周波数帯域内の周波数ビンについて決定されたビン・トーン性値が高周波数帯域内の対応するコピーされた周波数ビンについて使用されることが許容されることを考慮に入れてもよい。
ある実施形態では、第一の周波数サブバンドは低周波数帯域内にあり、第二の周波数サブバンドは高周波数帯域内にある。本方法はさらに、第二の周波数サブバンド内の第二の帯域化されたトーン性値を、第二の周波数サブバンドにコピーされた周波数ビンの二つ以上の対応する周波数ビンについてのビン・トーン性値の組の二つ以上のビン・トーン性値の第二の部分集合を組み合わせることによって、決定することを含んでいてもよい。換言すれば、(高周波数帯域内にある第二の周波数サブバンドについて)第二の帯域化されたトーン性値が、高周波数帯域にコピーされた周波数ビンのビン・トーン性値に基づいて決定されてもよい。第二の周波数サブバンドは、第一の周波数帯域内にある周波数ビンからコピーされた少なくとも一つの周波数ビンを含んでいてもよい。よって、第一および第二の部分集合は、対応する少なくとも一つの共通のビン・トーン性値を含んでいてもよく、それにより帯域化されたトーン性値の決定に結びつけられた計算上の複雑さを軽減する。
上記のように、オーディオ信号は典型的には(たとえばそれぞれNサンプルを含む)ブロックのシーケンスにグループ化される。本方法は、オーディオ信号のブロックの対応するシーケンスに基づいて変換係数の組〔諸セット〕のシーケンスを決定することを含んでいてもよい。結果として、各周波数ビンについて、変換係数のシーケンスが決定されてもよい。換言すれば、ある特定の周波数ビンについて、変換係数の組のシーケンスは、特定の諸変換係数のシーケンスを含んでいてもよい。特定の諸変換係数のシーケンスは、オーディオ信号のブロックのシーケンスについて、特定の周波数ビンについてのビン・トーン性値のシーケンスを決定するために使用されてもよい。
特定の周波数ビンについてのビン・トーン性値を決定することは、特定の諸変換係数のシーケンスに基づいて位相のシーケンスを決定し、位相のシーケンスに基づいて位相加速を決定することを含んでいてもよい。特定の周波数ビンについてのビン・トーン性値は典型的には位相加速の関数である。たとえば、オーディオ信号の現在ブロックについてのビン・トーン性値は現在の位相加速に基づいて決定されてもよい。現在の位相加速は、(現在ブロックの変換係数に基づいて決定される)現在の位相に基づいて、かつ(二つ以上の先行ブロックの二つ以上の変換係数に基づいて決定される)二つ以上の先行位相に基づいて決定されてもよい。上記のように、特定の周波数ビンについてのビン・トーン性値は典型的には、同じ特定の周波数ビンの変換係数にのみ基づいて決定される。換言すれば、ある周波数ビンについてのビン・トーン性値は典型的には、他の周波数ビンのビン・トーン性値とは独立である。
すでに上記で概説したように、第一の帯域化されたトーン性値は、スペクトル拡張(SPX)方式を使ってオーディオ信号の低周波成分に基づいてオーディオ信号の高周波成分を近似するために使用されてもよい。第一の帯域化されたトーン性値は、SPX座標再送戦略(coordinate resend strategy)、ノイズ・ブレンディング因子および/または大分散減衰を決定するために使われてもよい。
もう一つの側面によれば、ノイズ・ブレンディング因子を決定する方法が記述される。本稿において記述される異なる側面および方法は、任意の仕方で互いに組み合わされてもよいことを注意しておくべきである。ノイズ・ブレンディング因子は、オーディオ信号の低周波成分に基づいてオーディオ信号の高周波成分を近似するために使用されてもよい。上記で概説したように、高周波成分は典型的には、高周波数帯域におけるオーディオ信号の成分を含む。高周波数帯域は、一つまたは複数の高周波数サブバンド(たとえば上記の第一および/または第二の周波数サブバンド)に細分されてもよい。高周波数サブバンド内のオーディオ信号の成分は、高周波数サブバンド信号と称されてもよい。同様に、低周波成分は典型的には、低周波数帯域におけるオーディオ信号の成分を含み、低周波数帯域は、一つまたは複数の低周波数サブバンド(たとえば上記の第一および/または第二の周波数サブバンド)に細分されてもよい。低周波数サブバンド内のオーディオ信号の成分は、低周波数サブバンド信号と称されてもよい。換言すれば、高周波成分は高周波数帯域において一つまたは複数の(もとの)高周波数サブバンド信号を含んでいてもよく、低周波成分は低周波数帯域において一つまたは複数の低周波数サブバンド信号を含んでいてもよい。
上記で概説したように、高周波成分を近似することは、一つまたは複数の低周波数サブバンド信号を高周波数帯域にコピーし、それにより一つまたは複数の近似された高周波数サブバンド信号を与えることを含んでいてもよい。ノイズ・ブレンディング因子は、近似された高周波数サブバンド信号のトーン性を、オーディオ信号のもとの高周波数サブバンド信号のトーン性と揃えるために、一つまたは複数の近似された高周波数サブバンド信号に加えられるべきノイズの量を指示するために使用されてもよい。換言すれば、ノイズ・ブレンディング因子は、オーディオ信号の(もとの)高周波成分を近似するために一つまたは複数の近似された高周波数サブバンド信号に加えられるべきノイズの量を示していてもよい。
本方法は、一つまたは複数の(もとの)高周波数サブバンド信号に基づいて目標帯域化トーン性値を決定することを含んでいてもよい。さらに、本方法は、一つまたは複数の近似された高周波数サブバンド信号に基づいて源帯域化トーン性値を決定することを含んでいてもよい。トーン性値は、それぞれのサブバンド信号の位相の発展を示してもよい。さらに、トーン性値は、本稿で記述されるように決定されてもよい。特に、帯域化されたトーン性値は、本稿で概説された二段階アプローチに基づいて決定されていてもよい。すなわち、帯域化されたトーン性値は一組のビン・トーン性値に基づいて決定されてもよい。
本方法はさらに、目標および源帯域化トーン性値に基づいてノイズ・ブレンディング因子を決定することを含んでいてもよい。特に、本方法は、近似されるべき高周波成分の帯域幅が高周波成分を近似するために使われる低周波成分の帯域幅より小さい場合、源帯域化トーン性値に基づいてノイズ・ブレンディング因子を決定することを含んでいてもよい。結果として、ノイズ・ブレンディング因子を決定するための計算上の複雑さは、ノイズ・ブレンディング因子がオーディオ信号の低周波成分から導出される帯域化トーン性値に基づいて決定される方法に比べ、軽減できる。
ある実施形態では、低周波数帯域は、コピーするために利用可能な低周波数サブバンドの間で最も低い周波数をもつ低周波数サブバンドを示すスタート帯域(たとえば、SPXに基づくエンコーダの場合、spxstartパラメータによって指示される)を含む。さらに、高周波数帯域は、近似されるべき高周波数サブバンドのうち最も低い周波数をもつ高周波数サブバンドを示すビギン帯域(たとえば、SPXに基づくエンコーダの場合、spxbeginパラメータによって指示される)を含んでいてもよい。加えて、高周波数帯域は、近似されるべき高周波数サブバンドのうち最も高い周波数をもつ高周波数サブバンドを示すエンド帯域(たとえば、SPXに基づくエンコーダの場合、spxendパラメータによって指示される)を含んでいてもよい。
本方法は、スタート帯域(たとえばspxstartパラメータ)とビギン帯域(たとえばspxbeginパラメータ)の間の第一の帯域幅を決定することを含んでいてもよい。さらに、本方法は、ビギン帯域(たとえばspxbeginパラメータ)とエンド帯域(たとえばspxendパラメータ)の間の第二の帯域幅を決定することを含んでいてもよい。本方法は、第一の帯域幅が第二の帯域幅より大きい場合、目標および源帯域化トーン性値に基づいてノイズ・ブレンディング因子を決定することを含んでいてもよい。特に、第一の帯域幅が第二の帯域幅以上である場合、源帯域化トーン性値が、スタート帯域とスタート帯域に第二の帯域幅を加えたものとの間にある低周波数サブバンドの一つまたは複数の低周波数サブバンド信号に基づいて決定されてもよい。典型的には、これらの低周波数サブバンド信号は、高周波数帯域までコピーされる低周波数サブバンド信号である。結果として、第一の帯域幅が第二の帯域幅以上である状況では、計算上の複雑さが軽減できる。
他方、本方法は、第一の帯域幅が第二の帯域幅より小さい場合には、スタート帯域とビギン帯域の間の低周波数サブバンドの一つまたは複数の低周波数サブバンド信号に基づいて、低帯域化トーン性値を決定し、目標帯域化トーン性および低帯域化トーン性値に基づいてノイズ・ブレンディング因子を決定することを含んでいてもよい。第一および第二の帯域幅を比べることによって、ノイズ・ブレンディング因子(および帯域化トーン性値)が(第一および第二の帯域幅によらず)最少数のサブバンド上で決定されることが保証できる。それにより計算上の複雑さが軽減される。
ノイズ・ブレンディング因子は、目標および源帯域化トーン性値(または目標帯域化トーン性値および低帯域化トーン性値)の分散に基づいて決定されてもよい。特に、ノイズ・ブレンディング因子bは
b=Tcopy・(1−var{Tcopy,Thigh})+Thigh・(var{Tcopy,Thigh})
として決定されてもよい。ここで、var{Tcopy,Thigh}=((Tcopy−Thigh)/(Tcopy+Thigh))2は源トーン性値Tcopy(または低トーン性値)と目標トーン性値Thighの分散(variance)である。
上記のように、(源、目標または低)帯域化トーン性値は、本稿において記述される二段階アプローチを使って決定されてもよい。特に、ある周波数サブバンドにおける帯域化トーン性値は、オーディオ信号のサンプルのブロックに基づいて周波数ビンの対応する組における変換係数の組を決定することによって決定されてもよい。その後、周波数ビンの前記組についてのビン・トーン性値の組が、それぞれ変換係数の組を使って決定されてもよい。次いで、当該周波数サブバンドの帯域化トーン性値は、当該周波数サブバンド内にある周波数ビンの組の二つ以上の対応する隣り合う周波数ビンについてのビン・トーン性値の組の二つ以上のビン・トーン性値の第一の部分集合を組み合わせることによって決定されてもよい。
あるさらなる側面によれば、オーディオ信号の第一の周波数ビンについての第一のビン・トーン性値を決定する方法が記述される。第一のビン・トーン性値は本稿に記述される原理に基づいて決定されてもよい。特に、第一のビン・トーン性値は、第一の周波数ビンの変換係数の位相の分散に基づいて決定されてもよい。さらに、やはり本稿で概説したように、第一のビン・トーン性値は、オーディオ信号の低周波成分に基づいてオーディオ信号の高周波成分を近似するために使用されてもよい。よって、第一のビン・トーン性値を決定する方法は、HFR技法を使うオーディオ・エンコーダのコンテキストにおいて使われてもよい。
本方法は、オーディオ信号のサンプルのブロックの対応するシーケンスについて第一の周波数ビンにおける変換係数のシーケンスを与えることを含んでいてもよい。変換係数のシーケンスは、(上記のように)サンプルのブロックのシーケンスに、時間領域から周波数領域の変換を適用することによって決定されてもよい。さらに、本方法は、変換係数のシーケンスに基づいて位相のシーケンスを決定することを含んでいてもよい。変換係数は複素数であってもよく、変換係数の位相は、複素変換係数の実部および虚部に適用される逆正接関数に基づいて決定されてもよい。さらに、本方法は、位相のシーケンスに基づいて位相加速を決定することを含んでいてもよい。たとえば、サンプルの現在ブロックについての現在変換係数についての現在の位相加速が、現在の位相に基づき、かつ二つ以上の先行する位相に基づいて決定されてもよい。さらに、本方法は、変換係数のシーケンスからの現在の変換係数に基づいてビン・パワーを決定することを含んでいてもよい。現在の変換係数のパワーは、現在の変換係数の二乗絶対値に基づいていてもよい。
本方法はさらに、相続く変換係数のパワーの比の四乗根を示す重み付け因子を、対数近似を使って近似することを含んでいてもよい。すると、本方法は、近似された重み付け因子によっておよび/または現在の変換係数のパワーによって位相加速に重み付けし、第一のビン・トーン性値を与えることに進んでもよい。対数近似を使って重み付け因子を近似する結果として、正しい重み付け因子の高品質の近似が達成できる。一方で、同時に、相続く変換係数のパワーの比の四乗根の決定に関わる厳密な重み付け因子の決定に比べ、計算上の複雑さを著しく軽減する。対数近似は、対数関数の、線形関数によるおよび/または多項式(たとえば一次、二次、三次、四次または五次)による近似を含んでいてもよい。
変換係数のシーケンスは、(サンプルの現在ブロックについての)現在の変換係数と、(サンプルの直前ブロックについての)直前の変換係数とを含んでいてもよい。重み付け因子は、現在の変換係数および直前の変換係数のパワーの比の四乗根を示していてもよい。さらに、上記のように、変換係数は、実部および虚部を含む複素数であってもよい。現在の(前の)変換係数のパワーは、現在の(前の)変換係数の二乗した実部および二乗した虚部に基づいて決定されてもよい。さらに、現在の(前の)位相が、現在の(前の)変換係数の実部および虚部の逆正接関数に基づいて決定されてもよい。現在の位相加速は、現在の変換係数の位相に基づき、かつ二つ以上の直前の変換係数の位相に基づいて決定されてもよい。
重み付け因子を近似することは、相続く変換係数のシーケンスの現在のものを表わす現在の仮数および現在の指数を与えることを含んでいてもよい。さらに、重み付け因子を近似することは、現在の仮数および現在の指数に基づいて所定のルックアップテーブルについてのインデックス値を決定することを含んでいてもよい。ルックアップテーブルは典型的には、複数のインデックス値と、該複数のインデックス値の対応する複数の指数値との間の関係を与える。よって、ルックアップテーブルは指数関数を近似する効率的な手段を与えてもよい。ある実施形態では、ルックアップテーブルは64個以下のエントリー(すなわち、インデックス値と指数値との対)を有する。近似された重み付け因子は、インデックス値およびルックアップテーブルを使って決定されてもよい。
特に、本方法は、仮数および指数に基づいて実数値のインデックス値を決定することを含んでいてもよい。次いで、(整数値の)インデックス値が、実数値のインデックス値を打ち切るおよび/または丸めることによって決定されてもよい。系統的な打ち切りまたは丸め演算の結果として、近似に系統的なオフセットが導入されることがありうる。そのような系統的なオフセットは、本稿に記載されるビン・トーン性値を決定する方法を使ってエンコードされるオーディオ信号の知覚される品質に関して有益でありうる。
重み付け因子を近似することはさらに、現在の変換係数に先行する変換係数を表わす前の仮数および前の指数を与えることを含んでいてもよい。次いで、インデックス値は、現在の仮数、前の仮数、現在の指数および前の指数に適用される一つまたは複数の加算および/または減算演算に基づいて決定されてもよい。特に、インデックス値は、(ey−ez+2my−2mz)に対するモジュロ演算を実行することによって決定されてもよい。ここで、eyは現在の仮数、ezは前の仮数、myは現在の指数、mzは前の指数である。
上記のように、本稿に記載される諸方法は、多チャネル・オーディオ信号に適用可能である。特に、それらの方法は、多チャネル・オーディオ信号のチャネルに適用可能である。多チャネル・オーディオ信号のためのオーディオ・エンコーダは典型的には、多チャネル・オーディオ信号の複数のチャネルを合同してエンコードするために、チャネル結合(または単に結合)と称される符号化技法を適用する。これに鑑み、ある側面によれば、多チャネル・オーディオ信号の複数の結合されたチャネルについての複数のトーン性値を決定する方法が記述される。
本方法は、複数の結合されたチャネルの第一のチャネルのサンプルのブロックの対応するシーケンスについて、変換係数の第一のシーケンスを決定することを含んでいてもよい。あるいはまた、変換係数の第一のシーケンスは、複数の結合されたチャネルから導出される結合チャネル(coupling channel)のサンプルのブロックのシーケンスに基づいて決定されてもよい。本方法は、第一のチャネルについて(または結合チャネルについて)第一のトーン性値を決定することに進んでもよい。この目的のために、本方法は、第一の変換係数のシーケンスに基づいて位相の第一のシーケンスを決定し、第一の位相のシーケンスに基づいて第一の位相加速を決定することを含んでいてもよい。次いで、第一のチャネルについての(または結合チャネルについての)第一のトーン性値は第一の位相加速に基づいて決定されてもよい。さらに、前記複数の結合されたチャネルの第二のチャネルについてのトーン性値が、第一の位相加速に基づいて決定されてもよい。よって、前記複数の結合されたチャネルについての諸トーン性値は、結合されたチャネルの第一のもののみから決定される位相加速に基づいて決定されてもよく、それによりトーン性値の決定に結びつけられた計算上の複雑さが軽減される。これが可能なのは、結合の結果として、前記複数の結合されたチャネルの諸位相が揃えられることのためである。
もう一つの側面によれば、スペクトル拡張(SPX)に基づくエンコーダにおける多チャネル・オーディオ信号の第一のチャネルについての帯域化トーン性値を決定する方法が記述される。SPXに基づくエンコーダは、第一のチャネルの低周波成分から第一のチャネルの高周波成分を近似するよう構成されていてもよい。この目的のため、SPXに基づくエンコーダは、帯域化トーン性値を利用してもよい。特に、SPXに基づくエンコーダは、近似された高周波成分に加えられるべきノイズの量を示すノイズ・ブレンディング因子を決定するために帯域化トーン性値を使ってもよい。よって、帯域化されたトーン性値は、ノイズ・ブレンディングの前の近似された高周波成分のトーン性を示してもよい。第一のチャネルは、SPXに基づくエンコーダによって、多チャネル・オーディオ信号の一つまたは複数の他のチャネルと結合されてもよい。
本方法は、結合の前に、第一のチャネルに基づいて複数の変換係数を与えることを含んでいてもよい。さらに、本方法は、複数の変換係数に基づいて帯域化トーン性値を決定することを含んでいてもよい。よって、ノイズ・ブレンディング因子は、結合された/分離された第一のチャネルに基づいてではなく、もとの第一のチャネルの複数の変換係数に基づいて決定されてもよい。これはSPXに基づくオーディオ・エンコーダにおけるトーン性の決定に結びつけられた計算上の複雑さを軽減することを許容するので、有益である。
上記で概説したように、結合の前の第一のチャネルに基づいて(すなわち、もとの第一のチャネルに基づいて)決定された複数の変換係数は、SPX座標再送戦略を決定するためにおよび/またはSPXに基づくエンコーダの大分散減衰(LVA)を決定するために使われるビン・トーン性値および/または帯域化トーン性値を決定するために使われてもよい。(結合された/分離された第一のチャネルに基づくのではなく)もとの第一のチャネルに基づいて第一のチャネルのノイズ・ブレンディング因子を決定するための上述したアプローチを使うことによって、SPX座標再送戦略のためにおよび/または大分散減衰(LVA)のためにすでに決定されているビン・トーン性値が再利用されることができ、それによりSPXに基づくエンコーダの計算上の複雑さを軽減する。
もう一つの側面によれば、オーディオ信号の第一の周波数サブバンドについての第一の帯域化トーン性値を決定するよう構成されたシステムが記載される。第一の帯域化トーン性値は、オーディオ信号の低周波成分に基づいてオーディオ成分の高周波成分を近似するために使用されてもよい。本システムは、オーディオ信号のサンプルのブロックに基づいて周波数ビンの対応する組における変換係数の組を決定するよう構成されていてもよい。さらに、本システムは、それぞれ変換係数の組を使って周波数ビンの組についてのビン・トーン性値の組を決定するよう構成されていてもよい。さらに、本システムは、第一の周波数サブバンド内にある周波数ビンの組の二つ以上の対応する隣り合う周波数ビンについてのビン・トーン性値の組の二つ以上のビン・トーン性値の第一の部分集合を組み合わせ、それにより第一の周波数サブバンドについての第一の帯域化トーン性値を与えるよう構成されていてもよい。
もう一つの側面によれば、ノイズ・ブレンディング因子を決定するよう構成されたシステムが記述される。ノイズ・ブレンディング因子は、オーディオ信号の低周波成分に基づいてオーディオ信号の高周波成分を近似するために使用されてもよい。高周波成分は典型的には、高周波数帯域における一つまたは複数の高周波数サブバンド信号を含み、低周波成分は典型的には、低周波数帯域における一つまたは複数の低周波数サブバンド信号を含む。高周波成分を近似することは、一つまたは複数の低周波数サブバンド信号を高周波数帯域にコピーし、それにより一つまたは複数の近似された高周波数サブバンド信号を与えることを含んでいてもよい。本システムは、一つまたは複数の高周波数サブバンド信号に基づいて目標帯域化トーン性値を決定するよう構成されていてもよい。さらに、本システムは、一つまたは複数の近似された高周波数サブバンド信号に基づいて源帯域化トーン性値を決定するよう構成されていてもよい。さらに、本システムは、目標(322)および源(323)帯域化トーン性値に基づいてノイズ・ブレンディング因子を決定するよう構成されていてもよい。
あるさらなる側面によれば、オーディオ信号の第一の周波数ビンについての第一のビン・トーン性値を決定するよう構成されたシステムが記述される。第一の帯域化トーン性値は、オーディオ信号の低周波成分に基づいてオーディオ信号の高周波成分を近似するために使用されてもよい。本システムは、オーディオ信号のサンプルのブロックの対応するシーケンスについて第一の周波数ビンにおける変換係数のシーケンスを与えるよう構成されていてもよい。さらに、本システムは、変換係数のシーケンスに基づいて位相のシーケンスを決定し、位相のシーケンスに基づいて位相加速を決定するよう構成されていてもよい。さらに、本システムは、相続く変換係数のパワーの比の四乗根を示す重み付け因子を、対数近似を使って近似し、近似された重み付け因子によって位相加速に重み付けし、第一のビン・トーン性値を与えるよう構成されていてもよい。
もう一つの側面によれば、高周波再構成を使ってオーディオ信号をエンコードするよう構成されたオーディオ・エンコーダ(たとえば、HFRに基づくオーディオ・エンコーダ、特にSPXに基づくオーディオ・エンコーダ)が記述される。本オーディオ・エンコーダは、本稿に記載されるシステムの任意の一つまたは複数を有していてもよい。代替的または追加的に、本オーディオ・エンコーダは、本稿に記載される方法の任意の一つまたは複数を実行するよう構成されていてもよい。
あるさらなる側面によれば、ソフトウェア・プログラムが記述される。ソフトウェア・プログラムは、プロセッサ上での実行のために、該プロセッサで実行されたときに本稿で概説される方法段階を実行するために適応されていてもよい。
もう一つの側面によれば、記憶媒体が記述される。本記憶媒体は、プロセッサ上での実行のために、該プロセッサで実行されたときに本稿で概説される方法段階を実行するために適応されたソフトウェア・プログラムを有していてもよい。
あるさらなる側面によれば、コンピュータ・プログラム・プロダクトが記述される。コンピュータ・プログラムは、コンピュータ上で実行されたときに本稿で概説される方法段階を実行するための実行可能命令を有していてもよい。
本特許出願において概説される好ましい実施形態を含む方法およびシステムは単独で、または本稿で開示される他の方法およびシステムとの組み合わせにおいて使用されうることを注意しておくべきである。さらに、本特許出願において概説される方法およびシステムのあらゆる側面は任意に組み合わされうる。特に、請求項の特徴は、互いに、任意の仕方で組み合わされうる。
本発明は、付属の図面を参照して例示的に以下で説明される。
例示的なSPX方式を示す図である。 例示的なSPX方式を示す図である。 例示的なSPX方式を示す図である。 例示的なSPX方式を示す図である。 SPXに基づくエンコーダのさまざまな段におけるトーン性の使用を例解する図である。 SPXに基づくエンコーダのさまざまな段におけるトーン性の使用を例解する図である。 SPXに基づくエンコーダのさまざまな段におけるトーン性の使用を例解する図である。 SPXに基づくエンコーダのさまざまな段におけるトーン性の使用を例解する図である。 トーン性値の計算に関係する計算努力を軽減する例示的な方式を示す図である。 トーン性値の計算に関係する計算努力を軽減する例示的な方式を示す図である。 トーン性値の計算に関係する計算努力を軽減する例示的な方式を示す図である。 トーン性値の計算に関係する計算努力を軽減する例示的な方式を示す図である。 もとのオーディオ信号に基づくトーン性の決定および分離されたオーディオ信号に基づくトーン性の決定を比較する聴取試験の例示的な結果を示す図である。 トーン性値の計算のために使われる重み付け因子を決定するためのさまざまな方式を比較する聴取試験の例示的な結果を示す図である。 トーン性値の計算のために使われる重み付け因子の近似の例示的な度合いを示す図である。
図1a、1b、1c、1dはSPXに基づくオーディオ・エンコーダによって実行される例示的な段階を示している。図1aは、例示的なオーディオ信号の周波数スペクトル100を示している。周波数スペクトル100はベースバンド101(低周波数帯域101とも称される)および高周波数帯域102を含む。図示した例では、高周波数帯域102は、複数のサブバンドを含む。すなわち、SE帯域1からSE帯域5である(SE: Spectral Extension[スペクトル拡張])。ベースバンド101は、ベースバンド・カットオフ周波数103までのより低い周波数を含み、高周波数帯域102はベースバンド・カットオフ周波数103から上にオーディオ帯域幅周波数104までの高周波数を含む。ベースバンド101は、オーディオ信号の低周波成分のスペクトルに対応し、高周波数帯域102はオーディオ信号の高周波成分のスペクトルに対応する。換言すれば、オーディオ信号の低周波成分はベースバンド101内の周波数を含み、オーディオ信号の高周波成分は高周波数帯域102内の周波数を含む。
オーディオ・エンコーダは、時間領域オーディオ信号からスペクトル100を決定するために、典型的には時間領域から周波数領域への変換(たとえば、修正離散コサイン変換(MDCT)および/または修正離散サイン変換(MDST))を利用する。時間領域オーディオ信号は、オーディオ信号のサンプルのそれぞれのシーケンスを含む、オーディオ・フレームのシーケンスに細分されてもよい。各オーディオ・フレームは複数のブロック(たとえば6ブロックまでの複数のブロック)に細分されてもよい。各ブロックはオーディオ信号のたとえばNまたは2N個のサンプルを含む。フレームの複数のブロックは重なり合っていてもよい(たとえば50%の重複)。すなわち、第二のブロックがその先頭において、直前の第一のブロックの終わりにあるサンプルと同一のいくつかのサンプルを含んでいてもよい。たとえば、2N個のサンプルの第二のブロックは、Nサンプルのコア・セクションと、直前の第一のブロックおよび直後の第三のブロックそれぞれのコア・セクションと重なるN/2個のサンプルの後部/前部セクションとを含んでいてもよい。時間領域オーディオ信号のN(または2N)個のサンプルのブロックの、時間領域から周波数領域への変換は、典型的には、周波数ビンの対応する組についてのN個の変換係数(TC: transform coefficient)の組を与える。たとえば、N個のサンプルのコア・セクションおよびN/2個のサンプルの重複する後部/前部セクションを有する2N個のサンプルのブロックの時間領域から周波数領域への変換(たとえば、MDCTまたはMDST)は、N個のTCの組を与えうる。よって、50%の重複は、平均して時間領域サンプルとTCとの一対一の関係につながりえ、それにより臨界サンプリングされたシステムを与える。図1aに示した高周波数帯域102のサブバンドは、M個の周波数ビンをグループ化してサブバンドを形成することによって得られてもよい(たとえばM=12)。換言すれば、高周波数帯域102のあるサブバンドは、M個の周波数ビンを含むまたはカバーするのでもよい。サブバンドのスペクトル・エネルギーは、そのサブバンドをなすM個の周波数ビンのTCに基づいて決定されてもよい。たとえば、サブバンドのスペクトル・エネルギーは、そのサブバンドをなすM個の周波数ビンのTCの二乗された大きさの和に基づいて(たとえば、そのサブバンドをなすM個の周波数ビンのTCの二乗された大きさの平均に基づいて)決定されてもよい。特に、そのサブバンドをなすM個の周波数ビンのTCの二乗された大きさの和は、サブバンド・パワーを与えてもよく、そのサブバンド・パワーを周波数ビンの数Mで割ったものがパワー・スペクトル密度(PSD: power spectral density)を与えてもよい。よって、ベースバンド101および/または高周波数帯域102は複数のサブバンドを含んでいてもよく、それらのサブバンドは、それぞれ複数の周波数ビンから導出される。
上記のように、SPXに基づくエンコーダは、オーディオ信号のベースバンド101によってオーディオ信号の高周波数帯域102を近似する。この目的のために、SPXに基づくエンコーダは、対応するデコーダが、オーディオ信号のエンコードされデコードされたベースバンド101から高周波数帯域102を再構成することを許容する副情報を決定する。副情報は典型的には、高周波数帯域102の一つまたは複数のサブバンドのスペクトル・エネルギーの指標(たとえば、それぞれ高周波数帯域102の一つまたは複数のサブバンドについての一つまたは複数のエネルギー比)を含む。さらに、副情報は、典型的には、高周波数帯域102の一つまたは複数のサブバンドに加えられる(ノイズ・ブレンディングと称される)べきノイズの量の指標を含む。この後者の指標は、典型的には、高周波数帯域102の一つまたは複数のサブバンドのトーン性に関係している。換言すれば、高周波数帯域102の一つまたは複数のサブバンドに加えられるべきノイズの量の指標は、典型的には、高周波数帯域102の一つまたは複数のサブバンドのトーン性値の計算を利用する。
図1b、1c、1dは、ベースバンド101に基づいて高周波数帯域102を近似する例示的な段階を示している。図1bは、ベースバンド101のみを含むオーディオ信号の低周波成分のスペクトル110を示している。図1cは、ベースバンド101の一つまたは複数のサブバンド121、122の高周波数帯域102の周波数へのスペクトル並進(translation)を示している。スペクトル120から、サブバンド121、122が高周波数帯域102のそれぞれの周波数帯域123、124、125、126、127および128にコピーされることが見て取れる。図示した例では、高周波数帯域102を満たすために、サブバンド121、122が三回コピーされている。図1dは、オーディオ信号のもとの高周波数帯域102(図1a参照)がどのようにしてコピーされた(または並進された)サブバンド123、124、125、126、127および128に基づいて近似されるかを示している。SPXに基づくオーディオ・エンコーダは、コピーされたサブバンドにランダム・ノイズを加えて、近似されるサブバンド133、134、135、136、137および138が高周波数帯域102のもとのサブバンドのトーン性に対応するようにしてもよい。これは、適切なそれぞれのトーン性指標を決定することによって達成されてもよい。さらに、コピーされる(そしてノイズ・ブレンディングされる)サブバンド123、124、125、126、127および128のエネルギーは、近似されるサブバンド133、134、135、136、137および138のエネルギーが高周波数帯域102のもとのサブバンドのエネルギーに対応するよう、修正されてもよい。これは、適切なそれぞれのエネルギー指標を決定することによって達成されてもよい。結果として、スペクトル130は図1aに示したもとのオーディオ信号のスペクトル100を近似していることが見て取れる。
上記のように、ノイズ・ブレンディングのために使われる(そして典型的にはサブバンドのトーン性の決定を必要とする)指標の決定は、SPXに基づくオーディオ・エンコーダの計算上の複雑さに対して大きな影響をもつ。特に、SPXエンコード・プロセスの種々の段階において多様な目的のために種々の信号セグメント(周波数サブバンド)のトーン性値が必要とされることがある。典型的にトーン性値の決定を必要とする諸段階の概観が図2a、2b、2cおよび2dに示されている。
図2a、2b、2cおよび2dでは、(SPXサブバンド0〜16の形の)周波数が横軸に示されており、SPXスタート帯域(またはSPXスタート周波数)201(spxstartとして参照される)、SPXビギン帯域(またはSPXビギン周波数)202(spxbeginとして参照される)およびSPXエンド帯域(またはSPXエンド周波数)203(spxendとして参照される)についてマーカーがある。典型的には、SPXビギン周波数202はカットオフ周波数103に対応する。SPXエンド周波数203はもとのオーディオ信号の帯域幅102またはオーディオ帯域幅104より低い周波数に対応してもよい(図2a、2b、2cおよび2dに示されるように)。エンコード後、エンコードされた/デコードされたオーディオ信号の帯域幅は典型的にはSPXエンド周波数203に対応する。ある実施形態では、SPXスタート周波数201は周波数ビンNo.25に対応し、SPXエンド周波数203は周波数ビンNo.229に対応する。オーディオ信号のサブバンドは、SPXエンコード・プロセスの三つの異なる段階において示されている:もとのオーディオ信号(図2aの上および図2b)のスペクトル200(たとえばMDCTスペクトル)およびオーディオ信号の低周波成分のエンコード/デコード後のオーディオ信号のスペクトル210である(図2a中および図2c)。オーディオ信号の低周波成分のエンコード/デコードはたとえば、低周波成分のマトリクス処理(matrixing)および逆マトリクス処理(dematrixing)および/または結合(coupling)および分離(decoupling)を含んでいてもよい。さらに、ベースバンド101のサブバンドの高周波数帯域102へのスペクトル並進後のスペクトル220が示されている(図2a下および図2d)。オーディオ信号のもとの諸部分のスペクトル200は図2aの「オリジナル」行に示されている(すなわち、周波数サブバンド0〜16);結合/マトリクス処理によって修正されている信号の諸部分のスペクトル210は図2aの「逆マトリクス処理/分離された低域」の行に示されている(すなわち、図示した例では周波数サブバンド2〜6);スペクトル並進によって修正されている信号の諸部分のスペクトル220は図2aの「並進された高域」の行に示されている(すなわち、図示した例では周波数サブバンド7〜14)。SPXに基づくエンコーダの処理によって修正されたサブバンド206は暗い影付きで示されている。一方、SPXに基づくエンコーダによって未修正のまま残っているサブバンド205は明るい影付きで示されている。
サブバンドの下および/またはSPXサブバンドの諸グループの下のくくり線231、232、233は、どのサブバンドについてまたはどのサブバンドのグループについてトーン性値(トーン性尺度)が計算されるかを示している。さらに、トーン性値またはトーン性尺度がどの目的のために使われるかが示されている。SPXスタート帯域(spxstart)201とSPXエンド帯域(spxend)203の間のもとの入力信号の帯域化トーン性値231(すなわち、サブバンドについてまたはサブバンドのグループについてのトーン性値)は、典型的には、新しいSPX座標が送信される必要があるか否か(「再送戦略」)についてのエンコーダの判断を操るために使われる。SPX座標は典型的には、もとのオーディオ信号のスペクトル包絡線についての情報を、各SPX帯域についての利得因子の形で担持する。SPX再送戦略は、オーディオ信号のサンプルの新たなブロックについて新しいSPX座標が送信される必要があるかどうか、あるいはサンプルの(直)前のブロックについてのSPX座標が再利用できるかどうかを示していてもよい。さらに、spxbegin 202より上のSPX帯域についての帯域化されたトーン性値231は、図2aおよび図2bに示されるように、大分散減衰(LVA)計算への入力として使用されてもよい。大分散減衰は、スペクトル並進からの潜在的な誤差を減衰させるために使用されうるエンコーダ・ツールである。ベースバンドに対応する成分をもたない拡張帯域における強いスペクトル成分は(そしてその逆も)拡張誤差と考えられてもよい。LVA機構は、そのような拡張誤差を減衰させるために使われる。図2bのくくり線によって見て取れるように、トーン性値231は個々のサブバンドについて(たとえばサブバンド0,1,2など)および/またはサブバンドのグループについて(たとえばサブバンド11および12を含むグループについて)計算されてもよい。
上記のように、信号トーン性は、高周波数帯域102における再構成されたサブバンドに適用されるノイズ・ブレンディングの量を決定するために重要な役割を演ずる。図2cに描かれるように、トーン性値232は、デコードされた(たとえば逆マトリクス処理され分離された)低域およびもとの高域について別個に計算される。このコンテキストにおけるデコード(たとえば逆マトリクス処理および分離)とは、エンコーダの前に適用されたエンコード段階(たとえば、マトリクス処理および結合の段階)が、デコーダにおいてなされるのと同じ仕方で取り消されることを意味する。換言すれば、そのようなデコーダ機構は、エンコーダにおいてすでにシミュレートされる。よって、スペクトル210のサブバンド0〜6を含む低域は、デコーダが再生成するであろうスペクトルのシミュレーションである。図2cはさらに、トーン性がこの場合、二つの大きな帯域(のみ)について計算されることを示している。これは、もとの信号のトーン性がSPXサブバンド(これは12個の変換係数(TC)にまたがる)毎にまたはSPXサブバンドのグループ毎に計算されるのと対照的である。図2cにおけるくくり線で示されるように、トーン性値232はベースバンド101におけるサブバンドのグループ(たとえばサブバンド0〜6を含む)についておよび高周波数帯域102におけるサブバンドのグループ(たとえばサブバンド7〜14を含む)について計算される。
上記に加えて、大分散減衰(LVA)計算は典型的には、並進された変換係数(TC)に対して計算される別のトーン性入力を必要とする。トーン性は、図2aと同じスペクトル領域について、ただし異なるデータに対して、すなわちもとのサブバンドではなく並進された帯域サブバンドに対して測定される。これは、図2dに示されるスペクトル220に描かれている。トーン性値233は、並進されたサブバンドに基づいて、高周波数帯域102内のサブバンドおよび/またはサブバンドのグループについて決定されることが見て取れる。
全体として、典型的なSPXに基づくエンコーダは、もとのオーディオ信号のおよび/またはエンコード/デコード・プロセスの過程でもとのオーディオ信号から導出される信号のさまざまなサブバンド205、206および/またはサブバンドのグループに対して、トーン性値231、232、233を決定することが見て取れる。特に、トーン性値231、232、233は、もとのオーディオ信号の、オーディオ信号のエンコード/デコードされた低周波成分の、および/またはオーディオ信号の近似された高周波成分のサブバンドおよび/またはサブバンドのグループについて決定されてもよい。上記で概説したように、トーン性値231、232、233の決定は、典型的には、SPXに基づくエンコーダの全体的な計算努力のかなりの部分をなす。以下では、トーン性値231、232、233の決定に結びつけられた計算努力を著しく軽減し、それによりSPXに基づくエンコーダの計算上の複雑さを軽減することを許容する方法およびシステムが記述される。
サブバンド205、206のトーン性値は、時間tに沿ったサブバンド205、206の角速度ω(t)の発展を解析することによって決定されうる。角速度ω(t)は時間を追った角度または位相φの変動であってもよい。結果として、角加速度は、時間を追った角速度ω(t)の変動、すなわち角速度ω(t)の一階微分または位相φの二階微分として決定されてもよい。角速度ω(t)が時間に沿って一定であれば、サブバンド205、206はトーン性であり、角速度ω(t)が時間ともに変動するならば、サブバンド205、206はそれほどトーン性ではない。よって、角速度ω(t)の変化のレート(すなわち角加速度)は、トーン性の指標となる。たとえば、サブバンドqまたはサブバンドqのグループのトーン性値Tq 231、232、233は、次のように決定されてもよい。
Figure 2016173597
本稿では、サブバンドqまたはサブバンドのグループqのトーン性値Tq 231、232、233(帯域化トーン性値とも称される)の決定を、時間領域から周波数領域への変換によって得られる種々の変換係数TCについての(すなわち種々の周波数ビンnについての)トーン性値Tnの決定と、ビン・トーン性値Tnに基づいての帯域化トーン性値Tq 231、232、233のその後の決定とに分割することが提案される。下記に示すように、帯域化トーン性値Tq 231、232、233のこの二段階決定は、帯域化トーン性値Tq 231、232、233の計算に結びつけられた計算努力のかなりの削減を許容する。
離散時間領域では、周波数ビンnの、ブロック(または離散時点)kにおける変換係数TCについてのビン・トーン性値Tn,kはたとえば次の公式に基づいて決定されうる。
Figure 2016173597
ここで、φn,k、φn,k-1およびφn,k-2はそれぞれ時点k、k−1、k−2における周波数ビンnの変換係数TCの位相である。|TCn,k|2は時点kにおける周波数ビンnの変換係数TCの二乗された絶対値である。wn,kは時点kにおける周波数ビンnについての重み付け因子である。「anglenorm」関数は、2πの反復的な加算/減算によって、その引数を範囲(−π;π]に正規化する。「anglenorm」関数は表1に与えられる。
Figure 2016173597
時点kにおける(またはブロックkについての)サブバンドq 205、206またはサブバンドq 205、206のグループのトーン性値Tq,k 231、232、233は、サブバンドq 205、206内またはサブバンドq 205、206のグループ内に含まれる時点kにおける(またはブロックkについての)諸周波数ビンnのトーン性値Tn,kに基づいて(たとえば、トーン性値Tn,kの和または平均に基づいて)決定されてもよい。本稿では、時間インデックス(またはブロック・インデックス)kおよび/またはビン・インデックスn/サブバンド・インデックスqは、簡明のために省略したことがありうる。
(特定のビンnについての)位相φkは、複素TCの実部および虚部から決定されてもよい。複素TCは、エンコーダ側で、たとえばオーディオ信号のN個のサンプルのブロックのMDSTおよびMDCT変換を実行して、それぞれ複素TCの実部および虚部を与えることによって、決定されうる。あるいはまた、複素数の時間領域から周波数領域への変換が使用されて、それにより複素TCを与えてもよい。すると、位相φk
φk=atan2(Im{TCk},Re{TCk})、 −π<φk≦π
として決定されてもよい。atan2関数は、たとえばインターネット・リンク
http://de.wikipedia.org/wiki/Atan2#atan2
において特定されている。原理的には、atan2関数は、y=Im{TCk}および/またはx=Re{TCk})の負の値を考慮に入れる、y=Im{TCk}およびx=Re{TCk})の比の逆正接関数として記述することができる。図2a、2b、2c、2dのコンテキストで概説されるように、もとのオーディオ信号から導出される異なるスペクトル・データ200、210、220に基づいて異なる帯域化トーン性値231、232、233が決定される必要があることがある。図2aに示した概観に基づいて、発明者は、異なる帯域化トーン性の計算は実際には同じデータに基づいている、特に同じ変換係数(TC)に基づいていることに気がついた。
1.もとの高周波数帯域TCのトーン性は、SPX再送戦略およびLVAを決定するために、またノイズ・ブレンディング因子bを計算するために使われる。換言すれば、もとの高周波数帯域102のTCのビン・トーン性値Tnは、高周波数帯域102内の帯域化トーン性値231および帯域化トーン性値232を決定するために使われてもよい。
2.分離/逆マトリクス処理された低域TCのトーン性は、ノイズ・ブレンディング因子bを決定するために使われ、――高域への並進後に――LVA計算において使われる。換言すれば、オーディオ信号のエンコード/デコードされた低周波成分(スペクトル210)のTCに基づいて決定されるビン・トーン性値Tnは、ベースバンド101における帯域化トーン性値232を決定するためおよび高周波数帯域102内の帯域化トーン性値233を決定するために使われる。これは、スペクトル220の高周波数帯域102内のサブバンドのTCは、ベースバンド101における一つまたは複数のエンコード/デコードされたサブバンドの、高周波数帯域102における一つまたは複数のサブバンドへの並進によって得られるという事実による。この並進プロセスは、コピーされたTCのトーン性に影響せず、よって、オーディオ信号のエンコード/デコードされた低周波成分(スペクトル210)のTCに基づいて決定されるビン・トーン性値Tnの再利用を許容する。
3.分離された/逆マトリクス処理された低域TCは典型的には、もとのTCと、結合領域において異なるだけである(マトリクス処理は完全に可逆であるとする。つまり、逆マトリクス処理の演算はもとの変換係数を再現するとする)。SPXスタート周波数201と結合ビギン(cplbegin)周波数(図示した例ではサブバンド2にあるとしている)との間のサブバンドについての(またTCについての)トーン性計算は、未修正のもとのTC(図2aではスペクトル210におけるサブバンド0および1の明るい影によって示される)に基づき、よって分離された/逆マトリクス処理された低域TCについてともとのTCについてとで同じである。
上記の観察は、トーン性計算の一部は繰り返される必要がない、あるいは少なくとも完全に実行される必要がないことを示す。以前に計算された中間結果を共有、すなわち再利用することができるからである。多くの場合、以前に計算された値はこのように再利用されることができ、このことは計算コストを著しく軽減する。以下では、SPXに基づくエンコーダ内でのトーン性の決定に関係した計算コストを軽減することを許容するさまざまな施策が記述される。
図2aにおけるスペクトル200および210から見て取れるように、高周波数帯域102のサブバンド7〜14はスペクトル200および210において同じである。よって、高周波数帯域102についての帯域化トーン性値231を、帯域化トーン性値232についても再利用することが可能なはずである。残念ながら、図2aを見れば、根底にあるTCは同じであるとしても、トーン性は両方の場合において、異なる帯域構造について計算されていることが明らかになる。よって、トーン性値を再利用できるためには、トーン性計算を二つの部分に分割することが提案される。ここで、第一の部分の出力が帯域化トーン性値231および232を計算するために使用できる。
すでに上記で概説したように、帯域化トーン性Tqの計算は、各TCについてのビン毎のトーン性Tnを計算することと(ステップ1)、ビン・トーン性値Tnを平滑化し、帯域にグループ化するその後のプロセス(ステップ2)とに分離されることができる。これによりそれぞれのトーン性値Tq 231、232、233が与えられる。帯域化トーン性値Tq 231、232、233は、帯域化トーン性値の帯域またはサブバンド内に含まれるビンのビン・トーン性値Tnの和に基づいて、たとえば、ビン・トーン性値Tnの重み付けされた和に基づいて決定されてもよい。たとえば、帯域化トーン性値Tqは、関連するビン・トーン性値Tnの和を、対応する重み付け因子wnの和で割ったものに基づいて決定されてもよい。さらに、帯域化トーン性値Tqの決定は、前記の(重み付けされた)和を、あらかじめ決定された(たとえば[0,1]の)値範囲に伸張および/またはマッピングすることを含んでいてもよい。ステップ1の結果から、任意の帯域化トーン性値Tqが導出できる。計算上の複雑さは主としてステップ1に存在することを注意しておくべきである。よって、これが、この二段階アプローチの効率上の利得をなす。
帯域化トーン性値Tqを決定するための二段階アプローチは図3bにおいて、高周波数帯域102のサブバンド7〜14について示されている。図示した例では、各サブバンドが、12個の対応する周波数ビンにおける12個のTCから構成されることが見て取れる。第一段階(ステップ1)では、サブバンド7〜14の周波数ビンについて、ビン・トーン性値Tn 341が決定される。第二段階(ステップ2)では、(高周波数帯域102における帯域化トーン性値Tq 231に対応する)帯域化トーン性値Tq 312を決定するためおよび(高周波数帯域102における帯域化トーン性値Tq 232に対応する)帯域化トーン性値Tq 322を決定するために、ビン・トーン性値Tn 341は異なる仕方でグループ化される。
結果として、帯域化トーン性値322および帯域化トーン性値312を決定するための計算上の複雑さは、帯域化トーン性値312、322が同じビン・トーン性値341を利用するので、ほとんど50%削減できる。これは、図3aにおいて示されている。図3aは、もとの信号の高域トーン性をノイズ・ブレンディングにも再利用し、結果として余計(参照符号302)な計算をなくすことによって、トーン性計算の数が削減できることを示している。同じことは、結合ビギン(cplbegin)周波数303より下のサブバンド0、1についてのビン・トーン性値341にも当てはまる。これらのビン・トーン性値341は、(ベースバンド101における帯域化トーン性値Tq 231に対応する)帯域化トーン性値311を決定するために使用でき、(ベースバンド101における帯域化トーン性値Tq 232に対応する)帯域化トーン性値321を決定するために再利用できる。
帯域化トーン性値を決定するための二段階アプローチが、エンコーダ出力に関して透明であることを注意しておくべきである。換言すれば、帯域化トーン性値311、312、321および322は二段階計算によって影響されず、よって一段階計算において決定される帯域化トーン性値231、232と同一である。
ビン・トーン性値341の再利用は、スペクトル並進のコンテキストでも応用されうる。そのような再利用シナリオは、典型的には、スペクトル210のベースバンド101からの逆マトリクス処理された/分離されたサブバンドに関わる。これらのサブバンドの帯域化トーン性値321は、ノイズ・ブレンディング因子bを決定するときに計算される(図3a参照)。ここでもまた、帯域化トーン性値321を決定するために使われている同じTCの少なくともいくつかは、大分散減衰(LVA)を制御する帯域化トーン性値233を計算するために使われる。図3aおよび3bのコンテキストで概説した第一の再利用シナリオとの相違は、TCが、LVAトーン性値233の計算に使われる前にスペクトル並進を受けるということである。しかしながら、あるビンのビン毎トーン性Tn 341がその近隣のビンのトーン性とは独立であることを示すことができる。結果として、ビン毎トーン性値Tn 341は、TCについてしたのと同じ仕方で周波数において並進できる(図3d参照)。これは、ノイズ・ブレンディングのためにベースバンド101において計算されたビン・トーン性値Tn 341を、高周波数帯域102においてLVAの計算において再利用することを可能にする。これは図3cに示されている。図3cでは、再構成された高周波数帯域102におけるサブバンドがどのようにスペクトル210のベースバンド101からのサブバンド0〜5から導出されるかが示されている。スペクトル並進プロセスによれば、ベースバンド101からのサブバンド0〜5内に含まれる周波数ビンのビン・トーン性値Tn 341は、帯域化トーン性値Tq 233を決定するために再利用できる。結果として、帯域化トーン性値Tq 233を決定するための計算努力が、参照符号303によって示されるように、著しく軽減される。ここでもまた、エンコーダ出力は、拡張帯域トーン性233を導出するこの修正された仕方によって影響されないことを注意しておくべきである。
全体として、帯域化トーン性値Tqの決定を、ビン毎トーン性値Tnを決定する第一段階とビン毎トーン性値Tnから帯域化トーン性値Tqを決定するその後の第二段階を含む二段階アプローチに分解することによって、帯域化トーン性値Tqの計算に関係する全体的な計算上の複雑さが軽減できることが示された。特に、この二段階アプローチは、ビン毎トーン性値Tnを複数の帯域化トーン性値Tqの決定のために再利用することを許容し(再利用の可能性を示す参照符号301、302、303によって示されるように)、それにより全体的な計算上の複雑さを低減することが示された。
二段階アプローチおよびビン・トーン性値の再利用から帰結するパフォーマンス改善は、トーン性が典型的に計算されるビンの数を比較することによって定量化することができる。もとの方式は、
2(spxend−spxstart)+(sxpend−spxbegin)+6
個の周波数ビンについてトーン性を計算する(ここで、追加の6個のトーン性値は、SPXに基づくエンコーダ内での固有のノッチ・フィルタを構成するために使われる)。計算されたトーン性値を上記のように再利用することによって、トーン性値が決定されるビンの数は
spxend−spxstart−cplbegin+spxstart
+min(spxend−spxbegin+3, spxbegin−spxstart)
=spxend−cplbegin+min(spxend−spxbegin+3, spxbegin−spxstart)
に減る(ここで、追加の3個のトーン性値は、SPXに基づくエンコーダ内での固有のノッチ・フィルタを構成するために使われる)。この最適化前後にトーン性が計算されるビンの比は、トーン性アルゴリズムについてのパフォーマンス改善(および計算量削減)を与える。二段階アプローチは典型的には、帯域化トーン性値の直接計算よりやや複雑になることは注意しておくべきである。よって、完全なトーン性計算のためのパフォーマンス利得(すなわち、計算量削減)は、種々のビットレートについて表2に見出される計算されるトーン性ビンの比よりはやや低くなる。
Figure 2016173597
トーン値を計算するための計算上の複雑さの50%以上の削減が達成できることが見て取れる。
上記で概説したように、二段階アプローチはエンコーダの出力に影響しない。以下では、SPXベースのエンコーダの計算上の複雑さを軽減するためのさらなる施策が記述されるが、こちらはエンコーダの出力に影響しうる。しかしながら、知覚的な試験によれば――平均的には――これらのさらなる施策はエンコードされるオーディオ信号の知覚される品質に影響しないことが示されている。以下に記述される施策は、本稿に記載される他の施策の代わりにまたはそれに追加して使用されうる。
たとえば図3cのコンテキストにおいて示されるように、帯域化トーン性値Tlow 321およびThigh 322はノイズ・ブレンディング因子bの計算のための基礎となる。トーン性は、オーディオ信号に含まれるノイズの量と多かれ少なかれ逆の関係にある属性として解釈できる(つまり、よりノイズが多ければトーン性が低く、逆もまたしかり)。ノイズ・ブレンディング因子bは
b=Tlow・(1−var{Tlow,Thigh})+Thigh・(var{Tlow,Thigh})
として決定されてもよい。ここで、Tlow 321はデコーダ・シミュレートされた低域のトーン性であり、Thigh 322はもとの高域のトーン性であり、var{Tlow,Thigh}=((Tlow−Thigh)/(Tlow+Thigh))2は二つのトーン性値Tlow 321およびThigh 322の分散である。
ノイズ・ブレンディングの目的は、再生成される高域がもとの高域のように聞こえるようにするのに必要なだけのノイズを再生成される高域に挿入することである。源トーン性値(高周波数帯域102における並進されたサブバンドのトーン性を反映)および目標トーン性値(もとの高周波数帯域102におけるサブバンドのトーン性を反映)は、所望される目標ノイズ・レベルを決定するために考慮に入れられるべきである。発明者は、真の源トーン性は、デコーダ・シミュレートされる低域のトーン性値Tlow 321によっては正しく記述されず、並進された高域コピーのトーン性値Tcopy 323によって記述されることに気づいた(図3c参照)。トーン性値Tcopy 323は、図3cにおけるくくり線によって示されるように、高周波数帯域102のもとのサブバンド7〜14を近似するサブバンドに基づいて決定されてもよい。ノイズ・ブレンディングが実行されるのは並進された高域に対してであり、よって、高域に実際にコピーされている低域TCのトーン性のみが追加されるべきノイズの量に影響するべきである。
上記の公式によって示されるように、現在のところ、低域からのトーン性値Tlow 321が真の源トーン性の推定値として使われている。この推定値の精度に影響する二つの場合がありうる。
1.高域を近似するために使われる低域が、高域より小さいまたは高域と同じであり、エンコーダは帯域途中でのラップアラウンドに遭遇しない(すなわち、目標帯域がコピー領域(すなわち、spxstartとspxbeginの間の領域)の終わりにある利用可能な諸源帯域より大きい)。エンコーダは典型的には、目標SPX帯域内でのそのようなラップアラウンド状況を避けようとする。これは図3cに示されており、ここでは(目標SPX帯域内でのサブバンド0に続くサブバンド6のラップアラウンド状況を避けるために)並進されたサブバンド5にサブバンド0および1が続いている。この場合、低域は典型的には完全に上に、可能性としては複数回、高域にコピーされる。すべてのTCがコピーされるので、低域についてのトーン性推定値は、並進された高域のトーン性推定値にかなり近くなるはずである。
2.低域のほうが高域より大きい。この場合、低域の低いほうの部分のみが高域にコピーされる。トーン性値Tlow 321はすべての低域TCについて計算されるので、並進された高域のトーン性値Tcopy 323は、信号属性に依存し、かつ低域と高域のサイズ比に依存して、トーン性値Tlow 321から逸脱しうる。
よって、トーン性値Tlow 321の使用は、特にトーン性値Tlow 321を決定するために使われるサブバンド0〜6の全部は高周波数帯域102に並進されない場合(たとえば図3cに示される例でそうであるように)には、不正確なノイズ・ブレンディング因子bにつながりうる。高周波数帯域102にコピーされないサブバンド(たとえば図3cのサブバンド6)が有意なトーン性の内容を有している場合には、有意な不正確さが発生しうる。よって、並進された高域の帯域化トーン性値Tcopy 323(SPXスタート周波数201からSPXビギン周波数202まで進むデコーダ・シミュレートされた低域の帯域化トーン性値Tlow 321ではなく)に基づいてノイズ・ブレンディング因子bを決定することが提案される。特に、ノイズ・ブレンディング因子bは、
b=Tcopy・(1−var{Tcopy,Thigh})+Thigh・(var{Tcopy,Thigh})
として決定されてもよい。ここで、var{Tcopy,Thigh}=((Tcopy−Thigh)/(Tcopy+Thigh))2は二つのトーン性値Tcopy 323とThigh 322の分散である。
SPXに基づくエンコーダの改善された品質を提供する可能性に加えて、並進された高域の帯域化トーン性値Tcopy 323(デコーダ・シミュレートされた低域の帯域化トーン性値Tlow 321ではなく)の使用は、SPXに基づくオーディオ・エンコーダの低下した計算上の複雑さにつながりうる。これは、上述した、並進された高域が低域より狭い場合2について特に当てはまる。この恩恵は、低域と高域のサイズの不一致とともに大きくなる。源トーン性が計算される帯域の量は
min{spxbegin−spxstart, spxend−sxpbegin}
となりうる。ここで、数(spxbegin−spxstart)は、ノイズ・ブレンディング因子bがデコーダ・シミュレートされた低域の帯域化トーン性値Tlow 321に基づいて決定される場合に適用され、数(spxend−spxbegin)は、ノイズ・ブレンディング因子bが並進された高域の帯域化トーン性値Tcopy 323に基づいて決定される場合に適用される。よって、ある実施形態では、SPXに基づくエンコーダは、(spxbegin−spxstart)と(spxend−sxpbegin)のうちの最小に依存して、ノイズ・ブレンディング因子bの決定のモードを選択するよう構成されていてもよい(帯域化トーン性値Tlow 321に基づく第一のモードと帯域化トーン性値Tcopy 323に基づく第二のモード)。それにより、(特に(spxend−sxpbegin)が(spxbegin−spxstart)より小さい場合)計算上の複雑さが軽減される。
ノイズ・ブレンディング因子bを決定するための上記の修正された方式は、帯域化トーン性値Tcopy 323および/またはThigh 322を決定するための二段階アプローチと組み合わされてもよいことを注意しておくべきである。この場合、帯域化トーン性値Tcopy 323は、高周波数帯域102に並進された周波数ビンのビン・トーン性値Tn 341に基づいて決定される。再構成される高周波数帯域102に寄与する周波数ビンは、spxstart 201とspxbegin 202の間にある。計算上の複雑さに関する最悪ケースでは、spxstart 201とspxbegin 202の間のすべての周波数ビンが再構成される高周波数帯域102に寄与する。他方、他の多くの場合には(たとえば図3cに示されるような)、spxstart 201とspxbegin 202の間の周波数ビンの部分集合のみが再構成される高周波数帯域102にコピーされる。これに鑑み、ある実施形態では、ノイズ・ブレンディング因子bは、ビン・トーン性値Tn 341を使って、すなわち帯域化トーン性値Tcopy 323を決定するための上述した二段階アプローチを使って、帯域化トーン性値Tcopy 323に基づいて決定される。二段階アプローチを使うことによって、たとえ(spxbegin−spxstart)が(spxend−sxpbegin)より小さい場合であっても、計算上の複雑さが、spxstart 201とspxbegin 202の間の周波数範囲におけるビン・トーン性値Tn 341を決定するために必要とされる計算上の複雑さによって制限される。換言すれば、二段階アプローチは、たとえ(spxbegin−spxstart)が(spxend−sxpbegin)より小さい場合であっても、帯域化トーン性値Tcopy 323を決定するための計算量が(spxbegin−spxstart)の間に含まれるTCの数によって制限されることを保証する。よって、ノイズ・ブレンディング因子bは、帯域化トーン性値Tcopy 323に基づいて一貫して決定できる。それでも、トーン性値が決定されるべき結合領域(cplbeginからspxbegin)におけるサブバンドを決定するために、(spxbegin−spxstart)と(spxend−sxpbegin)の最小を決定することが有益でありうる。例として、(spxbegin−spxstart)が(spxend−sxpbegin)より大きい場合には、周波数領域(spxbegin−spxstart)のサブバンドの少なくともいくつかについてはトーン性値を決定することは要求されない。それにより計算上の複雑さが軽減される。
図3cで見て取れるように、ビン・トーン性値から帯域化トーン性値を決定するための二段階アプローチは、ビン・トーン性値のかなりの再利用を許容し、それにより計算上の複雑さを軽減する。ビン・トーン性値の決定は主として、もとのオーディオ信号のスペクトル200に基づくビン・トーン性値の決定に還元される。しかしながら、結合の場合、ビン・トーン性値は、cplbegin 303とspxbegin 202の間の周波数ビンの一部または全部について(図3cの暗い影付きのサブバンド2〜6について)結合された/分離されたスペクトル210に基づいて決定される必要があることがある。換言すれば、以前に計算されたビンごとのトーン性を再利用する上述した手段を活用したのちには、トーン性再計算を必要としうる帯域は結合状態にある帯域だけである(図3c参照)。
結合は、通例、多チャネル信号(たとえばステレオ信号または5.1多チャネル信号)の、結合状態にあるチャネルの間の位相差を除去する。結合座標の周波数共有および時間共有は結合されるチャネルの間の相関をさらに高める。上記で概説したように、トーン性値の決定は、(時点kにおける)サンプルの現在ブロックおよび(たとえば時点k−1、k−2における)サンプルの一つまたは複数の先行ブロックの位相およびエネルギーに基づく。結合状態にあるすべてのチャネルの位相角は(結合の結果として)同じなので、それらのチャネルのトーン性値は、もとの信号のトーン性値よりも相関している。
SPXに基づくエンコーダに対する対応するデコーダは、エンコードされたオーディオ・データを含む受領されたビット・ストリームから該デコーダが生成する分離された信号へのアクセスをもつのみである。エンコーダ側におけるノイズ・ブレンディングおよび大分散減衰(LVA)のようなエンコード・ツールは典型的には、転置された(transposed)分離された低域信号からもとの高域信号を再生することを意図する比を計算するとき、このことを考慮に入れる。換言すれば、SPXに基づくオーディオ・エンコーダは典型的には、対応するデコーダが(分離されたオーディオ信号を表わす)エンコードされたデータへのアクセスをもつだけであることを考慮に入れる。よって、ノイズ・ブレンディングおよびLVAのための源トーン性は典型的には、現在のSPXに基づくエンコーダでは、(たとえば図2aのスペクトル210に示されるような)分離された信号から計算される。しかしながら、分離された信号に基づいて(すなわち、スペクトル210に基づいて)トーン性を計算することは、概念的に意味をなすものの、その代わりにもとの信号からトーン性を計算することの知覚的な含意はそれほど明確ではない。さらに、分離された信号に基づくトーン性値の追加的な再計算が回避できる場合には、計算上の複雑さはさらに軽減されることができる。
この目的のために、(帯域化トーン性値321および233を決定するために)分離された信号のトーン性の代わりにもとの信号のトーン性を使うことの知覚上の影響を評価するために聴取実験を行なった。聴取実験の結果は、図4に示されている。複数の異なるオーディオ信号についてMUSHRA(MUltiple Stimuli with Hidden Reference and Anchor[隠された基準およびアンカーによる複数刺激])試験が実行された。複数の異なるオーディオ信号のそれぞれについて、(左側の)バー401は、分離された信号に基づいて(スペクトル210を使って)トーン性値を決定するときに得られた結果を示し、(右側の)バー402は、もとの信号に基づいて(スペクトル200を使って)トーン性値を決定するときに得られた結果を示す。見て取れるように、ノイズ・ブレンディングのためおよびLVAのためのトーン性値の決定のためにもとのオーディオ信号を使うときに得られるオーディオ品質は、平均的には、トーン性値の決定のために分離されたオーディオ信号を使うときに得られるオーディオ品質と同じである。
図4の聴取実験の結果は、トーン性値を決定するための計算上の複雑さは、(ノイズ・ブレンディングのために使われる)帯域化トーン性値321および/または帯域化トーン性値323および(LVAのために使われる)帯域化トーン性値233を決定するためにもとのオーディオ信号のビン・トーン性値341を再利用することによって、トーン性値を決定するための計算上の複雑さがさらに低減できることを示している。よって、エンコードされたオーディオ信号の知覚されるオーディオ品質に(平均的には)影響しないまま、SPXに基づくオーディオ・エンコーダの計算上の複雑さがさらに低減されることができる。
分離されたオーディオ信号に基づいて(すなわち、図3cのスペクトル210の暗い影付きのサブバンド2〜6に基づいて)帯域化トーン性値321および233を決定するときでさえ、結合に起因する位相の整列は、トーン性の決定に結びつけられた計算上の複雑さを軽減するために使用されてもよい。換言すれば、結合する帯域についてのトーン性の再計算が回避できない場合でさえ、分離された信号は、通常のトーン性計算を単純化するために使用されうる特別な属性を示す。特別な属性とは、結合されている(そしてその後分離される)チャネルすべてが同相であるということである。結合しているすべてのチャネルは結合する諸帯域について同じ位相φを共有するので、この位相φは、一つのチャネルについて一度計算されるだけでよく、その後は結合している他のチャネルのトーン性計算において再利用できる。特に、このことは、時点kにおける位相φkを決定するための上述した「atan2」演算が、結合状態にある多チャネル信号のチャネルすべてについて一度実行されるだけでよいことを意味する。
位相計算のために(分離されたチャネルの一つではなく)結合チャネル自身を使うことが、数値の観点から有益であると思われる。というのも、結合チャネルは結合状態にあるすべてのチャネルについての平均を表わすからである。結合状態にある諸チャネルについての位相再利用は、SPXエンコーダにおいて実装されている。位相値の再利用に起因するエンコーダ出力の変化はない。パフォーマンス利得は、256kbpsのビットレートの測定された構成について、(SPXエンコーダの計算努力の)約3%であるが、結合領域がSPXスタート周波数201のより近くで始まる(begin)、すなわち結合ビギン周波数303がSPXスタート周波数201のより近くにある、より低いビットレートについては、パフォーマンス利得が高まることが期待される。
以下では、トーン性の決定に結びつけられた計算上の複雑さを軽減するためのさらなるアプローチが記述される。このアプローチは、本稿において記述される他の方法の代わりにまたはそれに加えて使用されてもよい。必要とされるトーン性計算の数を減らすことに焦点を当てた上記で提示した最適化とは対照的に、以下のアプローチはトーン性計算自身を高速化することに向けられる。特に、以下のアプローチは、ブロックk(インデックスkはたとえば時点kに対応する)についての周波数ビンnのビン・トーン性値Tn,kを決定するための計算上の複雑さを軽減することに向けられる。
ブロックk内のビンnのSPXビン毎トーン性値Tn,kは、
Figure 2016173597
として計算されてもよい。ここで、
Yn,k=Re{TCn,k}2+Im{TCn,k}2
はビンnおよびブロックkのパワーであり、wn,kは重み付け因子であり、
φn,k=atan2(Re{TCn,k},Im{TCn,k})
はビンnおよびブロックkの位相角である。ビン・トーン性値Tn,kについての上述した公式は、(上記のビン・トーン性値Tn,kについて与えた公式のコンテキストにおいて概説したような)位相角の加速を示す。ビン・トーン性値Tn,kを決定するための他の公式が使用されてもよいことを注意しておくべきである。トーン性計算の加速(すなわち、計算上の複雑さの軽減)は、主として、重み付け因子wの決定に結びつけられた計算上の複雑さの低減に向けられる。
重み付け因子wは次式のように定義されてもよい。
Figure 2016173597
重み付け因子wは、四乗根を平方根およびバビロニア人/ヘロンの方法の最初の反復工程で置換することによって、すなわち次のように近似されてもよい。
Figure 2016173597
一つの平方根演算の除去はすでに効率を増しているが、まだブロック毎、チャネル毎および周波数ビン毎に一つの平方根演算および除算がある。計算上、より効果的な異なる近似が、重み因子wを次のように書き換えることによって、対数領域において導出できる。
Figure 2016173597
場合分けは、対数領域における差は(Yn,k≦Yn,k-1)または(Yn,k>Yn,k-1)のいずれであるかによらず常に負であることに留意することによって、廃止でき、それにより次式が得られる。
Figure 2016173597
記法の便のため、インデックスは落とされ、Yn,kおよびYn,k-1はそれぞれyおよびzで置換される。
Figure 2016173597
変数yおよびzは今やそれぞれ指数ey,ezと規格化された仮数my,mzに分離されることができ、それにより次式が得られる。
Figure 2016173597
すべて0の仮数という特殊な場合は別途扱われるとすると、規格化された仮数my,mzは区間[0.5;1]内である。この区間におけるlog2x関数は、線形関数log2x〜2x−2によって近似されてもよく、最大誤差0.0861、平均誤差0.0573となる。近似の精度および/または計算上の複雑さに依存して、他の近似(たとえば多項式近似)が可能であることもあることを注意しておくべきである。上述した近似を使うと、次式が得られる。
Figure 2016173597
仮数近似の差はいまだ0.0861の最大絶対誤差をもつが、平均誤差は0であり、よって最大誤差の範囲は[0;0.0861](正に偏っている)から[−0.0861;0.0861]に変わる。
4で割った結果を整数部と余りに分けると、次のようになる。
Figure 2016173597
ここで、int{…}演算は打ち切りによってそのオペランドの整数部分を返し、mod{a,b}演算はa/bの余りを返す。重み付け因子wの上記の近似では、第一の式
Figure 2016173597
は、固定小数点アーキテクチャ上で、
Figure 2016173597
による単純な右へのシフト演算に相当する。第二の式
Figure 2016173597
は、2の冪を含むあらかじめ決定されたルックアップテーブルを使って計算できる。ルックアップテーブルは、あらかじめ決定された近似誤差を与えるために、あらかじめ決定された数のエントリーを含んでいてもよい。
好適なルックアップテーブルを設計する目的のために、仮数の近似誤差をリコールすることが有用である。ルックアップテーブルの量子化によって導入される誤差は、0.0573である仮数の平均絶対近似誤差を4で割ったものより著しく低い必要はない。これは、0.0143より小さな所望される量子化誤差を与える。64エントリーのルックアップテーブルを使う線形量子化は、1/128=0.0078の好適な量子化誤差を与える。よって、あらかじめ決定されたルックアップテーブルは、総数64のエントリーを含んでいてもよい。一般に、あらかじめ決定されたルックアップテーブルにおけるエントリーの数は、対数関数の選択された近似と揃えられるべきである。特に、ルックアップテーブルによって与えられる量子化の精度は対数関数の近似の精度に基づくべきである。
上記の近似方法の知覚的な評価によれば、ビン・トーン性値の推定誤差が正に偏っているときに、すなわち近似が重み付け因子を過小評価するよりも重み付け因子を(よって結果として得られるトーン性値を)過大評価する可能性が高いときに、エンコードされるオーディオ信号の全体的な品質が改善されることが示された。
そのような過大評価を達成するために、ルックアップテーブルにバイアスが加えられてもよい。たとえば、量子化きざみの半分のバイアスが加えられてもよい。量子化きざみの半分のバイアスは、インデックスを四捨五入〔丸め〕する代わりに、インデックスを切り捨て〔打ち切り〕して量子化ルックアップテーブルに入れることによって実装されてもよい。バビロニア人/ヘロンの方法によって得られる近似にマッチするために、重み付け因子を0.5に制限することが有益であることもある。
対数領域近似関数から帰結する重み付け因子wの近似503は、その平均および最大誤差の限界とともに図5aに示されている。図5aはまた、四乗根を使った厳密な重み付け因子501およびバビロニア人近似を使って決定された重み付け因子502をも示している。対数領域近似の知覚的品質は、MUSHRA試験方式を使った聴取試験において検証された。図5bでは、対数近似を使った知覚される品質(左側のバー511)がバビロニア人の近似を使った知覚的品質(中央のバー512)および四乗根の場合(右側のバー513)と平均的に同様であることが見て取れる。他方、対数近似を使うことによって、全体的なトーン性計算の計算上の複雑さは約28%軽減されうる。
本稿では、SPXに基づくオーディオ・エンコーダの計算上の複雑さを軽減するためのさまざまな方式を記述してきた。トーン性計算は、SPXに基づくエンコーダの計算上の複雑さに対する主要な寄与因子と同定されている。記載される方法は、すでに計算されたトーン性値の再利用を許容し、それにより全体的な計算上の複雑さを軽減する。すでに計算されたトーン性値を再利用しても、典型的には、SPXに基づくオーディオ・エンコーダの出力は影響されないままである。さらに、ノイズ・ブレンディング因子bを決定するための代替的な諸方法が記述された。これは計算上の複雑さのさらなる削減を許容する。さらに、ビン毎トーン性重み付け因子についての効率的な近似方式が記述された。これは、知覚されるオーディオ品質を損なうことなく、トーン性計算自身を低減するために使用されうる。本稿に記載される諸方式の結果として、SPXに基づくオーディオ・エンコーダについての計算上の複雑さの、――構成およびビットレートに依存して――50%程度またはそれ以上の全体的な軽減が期待できる。
本稿に記載される方法およびシステムは、ソフトウェア、ファームウェアおよび/またはハードウェアとして実装されてもよい。ある種のコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントは、たとえば、ハードウェアとしておよび/または特定用途向け集積回路として実装されてもよい。記載される方法およびシステムにおいて遭遇する信号は、ランダム・アクセス・メモリまたは光記憶媒体のような媒体に記憶されてもよく、電波ネットワーク、衛星ネットワーク、無線ネットワークまたは有線ネットワーク、たとえばインターネットを介して転送されてもよい。本稿に記載される方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および/またはレンダリングするために使われるポータブル電子装置または他の消費者設備である。
当業者は、上記で概説したさまざまな概念を応用して、現在のオーディオ符号化要求に特に適合したさらなる実施形態に到達することができるであろう。
いくつかの態様を記載しておく。
〔態様1〕
オーディオ信号の第一の周波数サブバンド(205)について第一の帯域化トーン性値(311、312)を決定する方法であって、前記第一の帯域化トーン性値は、前記オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似するために使われ、当該方法は:
・前記オーディオ信号のサンプルのブロックに基づいて、対応する一組の周波数ビンにおける一組の変換係数を決定する段階と;
・前記一組の変換係数を使って前記一組の周波数ビンについての一組のビン・トーン性値(341)をそれぞれ決定する段階と;
・前記第一の周波数サブバンド内にある前記一組の周波数ビンの二つ以上の対応する隣り合う周波数ビンについて前記一組のビン・トーン性値の二つ以上からなる第一の部分集合を組み合わせて、それにより前記第一の周波数サブバンドについての前記第一の帯域化トーン性値(311、312)を与える段階とを含む、
方法。
〔態様2〕
態様1記載の方法であって、さらに:
・第二の周波数サブバンド内にある前記一組の周波数ビンの二つ以上の対応する隣り合う周波数ビンについて前記一組のビン・トーン性値の二つ以上からなる第二の部分集合を組み合わせることによって、前記第二の周波数サブバンドにおける第二の帯域化トーン性値(321、322)を決定する段階を含み、前記第一および第二の周波数サブバンドは、少なくとも一つの共通の周波数ビンを含み、前記第一および第二の部分集合は対応する少なくとも一つの共通のビン・トーン性値を含む、
方法。
〔態様3〕
態様1記載の方法であって、
・前記オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似することは、前記低周波成分に対応する低周波数帯域(101)からの一つまたは複数の周波数ビンの一つまたは複数の低周波数変換係数を、前記高周波成分に対応する高周波数帯域(102)にコピーすることを含んでおり、
・前記第一の周波数サブバンドは前記低周波数帯域内にあり;
・第二の周波数サブバンドが前記高周波数帯域内にあり;
・当該方法がさらに、前記第二の周波数サブバンドにコピーされた前記周波数ビンのうちの二つ以上の対応する周波数ビンについて前記一組のビン・トーン性値の二つ以上からなる第二の部分集合を組み合わせることによって、前記第二の周波数サブバンドにおける第二の帯域化トーン性値(233)を決定する段階を含み、
・前記第二の周波数サブバンドは、前記第一の周波数サブバンド内にある周波数ビンからコピーされた少なくとも一つの周波数ビンを含み、
・前記第一および第二の部分集合は対応する少なくとも一つの共通のビン・トーン性値を含む、
方法。
〔態様4〕
態様1ないし3のうちいずれか一項記載の方法であって、
・当該方法はさらに、前記オーディオ信号のブロックの対応するシーケンスに基づいて、変換係数の組のシーケンスを決定することを含み;
・特定の周波数ビンについて、変換係数の組の前記シーケンスは、特定の諸変換係数のシーケンスを含み;
・前記特定の周波数ビンについて前記ビン・トーン性値を決定することは:
・前記特定の諸変換係数のシーケンスに基づいて位相のシーケンスを決定し、
・前記位相のシーケンスに基づいて位相加速を決定することを含み;
・前記特定の周波数ビンについての前記ビン・トーン性値は前記位相加速の関数である、
方法。
〔態様5〕
態様1ないし4のうちいずれか一項記載の方法であって、前記一組のビン・トーン性値の二つ以上からなる第一の部分集合を組み合わせることが:
・前記二つ以上のビン・トーン性値を平均すること;または
・前記二つ以上のビン・トーン性値を合計することを含む、
方法。
〔態様6〕
態様1ないし5のうちいずれか一項記載の方法であって、ある周波数ビンについてのビン・トーン性値は、同じ周波数ビンの変換係数にのみ基づいて決定される、方法。
〔態様7〕
態様1ないし6のうちいずれか一項記載の方法であって、
・前記第一の帯域化トーン性値は、SPXと称されるスペクトル拡張の方式を使って前記オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似するために使われ;
・前記第一の帯域化トーン性値は、SPX座標再送戦略、ノイズ・ブレンディング因子および/または大分散減衰を決定するために使われる、
方法。
〔態様8〕
ノイズ・ブレンディング因子を決定する方法であって、前記ノイズ・ブレンディング因子は、オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似するために使用され、前記高周波成分は高周波数帯域における一つまたは複数の高周波数サブバンド信号を含み、前記低周波成分は低周波数帯域における一つまたは複数の低周波数サブバンド信号を含み、高周波成分を近似することは、一つまたは複数の低周波数サブバンド信号を高周波数帯域にコピーし、それにより一つまたは複数の近似された高周波数サブバンド信号を与えることを含み、当該方法は;
・前記一つまたは複数の高周波数サブバンド信号に基づいて目標帯域化トーン性値(322)を決定する段階と;
・前記一つまたは複数の近似された高周波数サブバンド信号に基づいて源帯域化トーン性値(323)を決定する段階と;
・前記目標および源帯域化トーン性値に基づいて前記ノイズ・ブレンディング因子を決定する段階とを含む、
方法。
〔態様9〕
態様8記載の方法であって、前記ノイズ・ブレンディング因子を、前記目標および源帯域化トーン性値の分散に基づいて決定することを含む、方法。
〔態様10〕
態様8または9記載の方法であって、前記ノイズ・ブレンディング因子bを
b=Tcopy・(1−var{Tcopy,Thigh})+Thigh・(var{Tcopy,Thigh})
として決定することを含み、ここで、var{Tcopy,Thigh}=((Tcopy−Thigh)/(Tcopy+Thigh))2は源トーン性値Tcopyと目標トーン性値Thighの分散である、方法。
〔態様11〕
態様8ないし10のうちいずれか一項記載の方法であって、前記ノイズ・ブレンディング因子は、前記オーディオ信号の前記高周波成分を近似するために前記一つまたは複数の近似された高周波数サブバンド信号に加えられるべきノイズの量を示す、方法。
〔態様12〕
態様8ないし11のうちいずれか一項記載の方法であって、
・前記低周波数帯域(101)は、コピーするために利用可能な低周波数サブバンドのうち最も低い周波数をもつ低周波数サブバンドを示すスタート帯域(201)を含み;
・前記高周波数帯域(101)は、近似されるべき高周波数サブバンドのうち最も低い周波数をもつ高周波数サブバンドを示すビギン帯域(202)を含み;
・前記高周波数帯域(102)は、近似されるべき高周波数サブバンドのうち最も高い周波数をもつ高周波数サブバンドを示すエンド帯域(203)を含み;
・当該方法は、前記スタート帯域と前記ビギン帯域の間の第一の帯域幅を決定することを含み:
・当該方法は、前記ビギン帯域と前記エンド帯域の間の第二の帯域幅を決定することを含む、
方法。
〔態様13〕
態様12記載の方法であって、さらに:
・前記第一の帯域幅が第二の帯域幅より小さい場合、前記スタート帯域と前記ビギン帯域の間の前記低周波数サブバンドの前記一つまたは複数の低周波数サブバンド信号(205)に基づいて、低帯域化トーン性値(321)を決定し、前記目標帯域化トーン性値(322)および前記低帯域化トーン性値(321)に基づいて前記ノイズ・ブレンディング因子を決定することを含む、
方法。
〔態様14〕
態様12記載の方法であって、さらに:
・前記一の帯域幅が前記第二の帯域幅以上である場合、前記スタート帯域と前記スタート帯域に前記第二の帯域幅を加えたものとの間にある前記低周波数サブバンドの前記一つまたは複数の低周波数サブバンド信号(205)に基づいて、前記源帯域化トーン性値(323)を決定することを含む、
方法。
〔態様15〕
態様8ないし14のうちいずれか一項記載の方法であって、ある周波数サブバンドの帯域化トーン性値を決定することが:
・前記オーディオ信号のサンプルのブロックに基づいて、対応する一組の周波数ビンにおける一組の変換係数を決定する段階と;
・前記一組の変換係数を使って前記一組の周波数ビンについての一組のビン・トーン性値(341)をそれぞれ決定する段階と;
・前記周波数サブバンド内にある前記一組の周波数ビンの二つ以上の対応する隣り合う周波数ビンについて前記一組のビン・トーン性値の二つ以上からなる第一の部分集合を組み合わせて、それにより前記周波数サブバンドの前記帯域化トーン性値(311、312)を与える段階とを含む、
方法。
〔態様16〕
オーディオ信号の第一の周波数ビンについての第一のビン・トーン性値を決定する方法であって、前記第一のビン・トーン性値は、前記オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似するために使用され、当該方法は:
・前記オーディオ信号のサンプルのブロックの対応するシーケンスについて前記第一の周波数ビンにおける変換係数のシーケンスを与える段階と;
・前記変換係数のシーケンスに基づいて位相のシーケンスを決定する段階と;
・前記位相のシーケンスに基づいて位相加速を決定する段階と;
・現在の変換係数に基づいてビン・パワーを決定する段階と;
・相続く変換係数のパワーの比の四乗根を示す重み付け因子を、対数近似を使って近似する段階と;
・前記ビン・パワーおよび前記近似された重み付け因子によって前記位相加速に重み付けし、前記第一のビン・トーン性値を与える段階とを含む、
方法。
〔態様17〕
態様16記載の方法であって、
・前記変換係数のシーケンスは、現在の変換係数と、直前の変換係数とを含み、
・前記重み付け因子は、前記現在の変換係数および前記直前の変換係数のパワーの比の四乗根を示す、
方法。
〔態様18〕
態様16または17記載の方法であって、
・前記変換係数は実部および虚部を含む複素数であり;
・現在の変換係数のパワーが、該現在の変換係数の二乗された実部および二乗された虚部に基づいて決定され;
・位相が、前記現在の変換係数の実部および虚部の逆正接関数に基づいて決定される、
方法。
〔態様19〕
態様16ないし18のうちいずれか一項記載の方法であって、
・現在の位相加速が、現在の変換係数の位相に基づき、かつ二つ以上の直前の変換係数の位相に基づいて決定される、方法。
〔態様20〕
態様16ないし19のうちいずれか一項記載の方法であって、前記重み付け因子を近似することは:
・相続く変換係数のシーケンスの現在のものを表わす現在の仮数および現在の指数を与える段階と;
・前記現在の仮数および前記現在の指数に基づいてあらかじめ決定されたルックアップテーブルについてのインデックス値を決定する段階であって、前記ルックアップテーブルは、複数のインデックス値と、該複数のインデックス値の対応する複数の指数関数値との間の関係を与えるものである、段階と;
・前記近似された重み付け因子を、前記インデックス値および前記ルックアップテーブルを使って決定する段階とを含む、
方法。
〔態様21〕
態様20記載の方法であって、前記対数近似は対数関数の線形近似を含む;および/または前記ルックアップテーブルが64個以下のエントリーを含む、方法。
〔態様22〕
態様20または21記載の方法であって、前記重み付け因子を近似することは:
・前記仮数および前記指数に基づいて実数値のインデックス値を決定する段階と;
・前記実数値のインデックス値を打ち切るおよび/または丸めることによって前記インデックス値を決定する段階とを含む、
方法。
〔態様23〕
態様16ないし22のうちいずれか一項記載の方法であって、前記重み付け因子を近似することは:
・現在の変換係数に先行する変換係数を表わす前の仮数および前の指数を与える段階と;
・前記現在の仮数、前記前の仮数、前記現在の指数および前記前の指数に適用される一つまたは複数の加算および/または減算演算に基づいて前記インデックス値を決定する段階とを含む、
方法。
〔態様24〕
態様23記載の方法であって、前記インデックス値が、(ey−ez+2my−2mz)に対するモジュロ演算を実行することによって決定され、ここで、eyは前記現在の仮数、ezは前記前の仮数、myは前記現在の指数、mzは前記前の指数である、方法。
〔態様25〕
多チャネル・オーディオ信号の複数の結合されたチャネルについての複数のトーン性値を決定する方法であって:
・前記複数の結合されたチャネルの第一のチャネルのサンプルのブロックの対応するシーケンスについて変換係数の第一のシーケンスを決定する段階と;
・前記第一の変換係数のシーケンスに基づいて位相の第一のシーケンスを決定する段階と;
・前記第一の位相のシーケンスに基づいて第一の位相加速を決定する段階と;
・前記第一のチャネルについての第一のトーン性値を、前記第一の位相加速に基づいて決定する段階と;
・前記複数の結合されたチャネルの第二のチャネルについてのトーン性値を、前記第一の位相加速に基づいて決定する段階とを含む、
方法。
〔態様26〕
SPXと称されるスペクトル拡張に基づくエンコーダにおける多チャネル・オーディオ信号の第一のチャネルについての帯域化トーン性値を決定する方法であって、前記SPXに基づくエンコーダは、前記第一のチャネルの低周波成分から前記第一のチャネルの高周波成分を近似するよう構成されており;前記第一のチャネルは、前記SPXに基づくエンコーダによって前記多チャネル・オーディオ信号の一つまたは複数の他のチャネルと結合されており;前記帯域化トーン性値はノイズ・ブレンディング因子を決定するために使用され;前記帯域化トーン性値は、ノイズ・ブレンディングの前の近似された高周波成分のトーン性を示し;当該方法は:
・結合の前に、前記第一のチャネルに基づいて複数の変換係数を与える段階と;
・前記複数の変換係数に基づいて前記帯域化トーン性値を決定する段階とを含む、
方法。
〔態様27〕
オーディオ信号の第一の周波数サブバンドについて第一の帯域化トーン性値を決定するよう構成されたシステムであって、前記第一の帯域化トーン性値は、前記オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似するために使われ、当該システムは:
・前記オーディオ信号のサンプルのブロックに基づいて、対応する一組の周波数ビンにおける一組の変換係数を決定する段階と;
・前記一組の変換係数を使って前記一組の周波数ビンについての一組のビン・トーン性値をそれぞれ決定する段階と;
・前記第一の周波数サブバンド内にある前記一組の周波数ビンの二つ以上の対応する隣り合う周波数ビンについて前記一組のビン・トーン性値の二つ以上からなる第一の部分集合を組み合わせて、それにより前記第一の周波数サブバンドについての前記第一の帯域化トーン性値を与える段階とを実行するよう構成されている、
システム。
〔態様28〕
ノイズ・ブレンディング因子を決定するシステムであって、前記ノイズ・ブレンディング因子は、オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似するために使用され、前記高周波成分は高周波数帯域における一つまたは複数の高周波数サブバンド信号を含み、前記低周波成分は低周波数帯域における一つまたは複数の低周波数サブバンド信号を含み、高周波成分を近似することは、一つまたは複数の低周波数サブバンド信号を高周波数帯域にコピーし、それにより一つまたは複数の近似された高周波数サブバンド信号を与えることを含み、当該システムは;
・前記一つまたは複数の高周波数サブバンド信号に基づいて目標帯域化トーン性値を決定する段階と;
・前記一つまたは複数の近似された高周波数サブバンド信号に基づいて源帯域化トーン性値を決定する段階と;
・前記目標および源帯域化トーン性値に基づいて前記ノイズ・ブレンディング因子を決定する段階とを実行するよう構成されている、
システム。
〔態様29〕
オーディオ信号の第一の周波数ビンについての第一のビン・トーン性値を決定するよう構成されたシステムであって、前記第一の帯域化トーン性値は、前記オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似するために使用され、当該システムは:
・前記オーディオ信号のサンプルのブロックの対応するシーケンスについて前記第一の周波数ビンにおける変換係数のシーケンスを与える段階と;
・前記変換係数のシーケンスに基づいて位相のシーケンスを決定する段階と;
・前記位相のシーケンスに基づいて位相加速を決定する段階と;
・現在の変換係数に基づいてビン・パワーを決定する段階と;
・相続く変換係数のパワーの比の四乗根を示す重み付け因子を、対数近似を使って近似する段階と;
・前記ビン・パワーおよび前記近似された重み付け因子によって前記位相加速に重み付けし、前記第一のビン・トーン性値を与える段階とを実行するよう構成されている、
システム。
〔態様30〕
高周波再構成を使ってオーディオ信号をエンコードするよう構成されたオーディオ・エンコーダであって、態様27ないし29記載のシステムの一つまたは複数を有する、オーディオ・エンコーダ。
〔態様31〕
プロセッサ上での実行のために、該プロセッサで実行されたときに態様1ないし26のうちいずれか一項記載の方法段階を実行するために適応されている、ソフトウェア・プログラム。
〔態様32〕
プロセッサ上での実行のために、コンピューティング装置で実行されたときに態様1ないし26のうちいずれか一項記載の方法段階を実行するために適応されているソフトウェア・プログラムを有する記憶媒体。
〔態様33〕
コンピュータ上で実行されたときに態様1ないし26のうちいずれか一項記載の方法段階を実行するための実行可能命令を有する、コンピュータ・プログラム・プロダクト。

Claims (15)

  1. ノイズ・ブレンディング因子を決定する方法であって、前記ノイズ・ブレンディング因子は、オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似するために使用され、前記高周波成分は高周波数帯域における一つまたは複数の高周波数サブバンド信号を含み、前記低周波成分は低周波数帯域における一つまたは複数の低周波数サブバンド信号を含み、高周波成分を近似することは、一つまたは複数の低周波数サブバンド信号を高周波数帯域にコピーし、それにより一つまたは複数の近似された高周波数サブバンド信号を与えることを含み、当該方法は;
    ・前記一つまたは複数の高周波数サブバンド信号に基づいて目標帯域化トーン性値(322)を決定する段階と;
    ・前記一つまたは複数の近似された高周波数サブバンド信号に基づいて源帯域化トーン性値(323)を決定する段階と;
    ・前記目標および源帯域化トーン性値に基づいて前記ノイズ・ブレンディング因子を決定する段階とを含む、
    方法。
  2. 請求項1記載の方法であって、前記ノイズ・ブレンディング因子bを
    b=Tcopy・(1−var{Tcopy,Thigh})+Thigh・(var{Tcopy,Thigh})
    として決定することを含み、ここで、var{Tcopy,Thigh}=((Tcopy−Thigh)/(Tcopy+Thigh))2は源トーン性値Tcopyと目標トーン性値Thighの分散である、方法。
  3. 請求項1または2記載の方法であって、
    ・前記低周波数帯域(101)は、コピーするために利用可能な低周波数サブバンドのうち最も低い周波数をもつ低周波数サブバンドを示すスタート帯域(201)を含み;
    ・前記高周波数帯域(101)は、近似されるべき高周波数サブバンドのうち最も低い周波数をもつ高周波数サブバンドを示すビギン帯域(202)を含み;
    ・前記高周波数帯域(102)は、近似されるべき高周波数サブバンドのうち最も高い周波数をもつ高周波数サブバンドを示すエンド帯域(203)を含み;
    ・当該方法は、前記スタート帯域と前記ビギン帯域の間の第一の帯域幅を決定することを含み:
    ・当該方法は、前記ビギン帯域と前記エンド帯域の間の第二の帯域幅を決定することを含む、
    方法。
  4. 請求項3記載の方法であって、さらに:
    ・前記第一の帯域幅が第二の帯域幅より小さい場合、前記スタート帯域と前記ビギン帯域の間の前記低周波数サブバンドの前記一つまたは複数の低周波数サブバンド信号(205)に基づいて、低帯域化トーン性値(321)を決定し、前記目標帯域化トーン性値(322)および前記低帯域化トーン性値(321)に基づいて前記ノイズ・ブレンディング因子を決定することを含む、
    方法。
  5. 請求項3記載の方法であって、さらに:
    ・前記一の帯域幅が前記第二の帯域幅以上である場合、前記スタート帯域と前記スタート帯域に前記第二の帯域幅を加えたものとの間にある前記低周波数サブバンドの前記一つまたは複数の低周波数サブバンド信号(205)に基づいて、前記源帯域化トーン性値(323)を決定することを含む、
    方法。
  6. 請求項1ないし5のうちいずれか一項記載の方法であって、ある周波数サブバンドの帯域化トーン性値を決定することが:
    ・前記オーディオ信号のサンプルのブロックに基づいて、対応する一組の周波数ビンにおける一組の変換係数を決定する段階と;
    ・前記一組の変換係数を使って前記一組の周波数ビンについての一組のビン・トーン性値(341)をそれぞれ決定する段階と;
    ・前記周波数サブバンド内にある前記一組の周波数ビンの二つ以上の対応する隣り合う周波数ビンについて前記一組のビン・トーン性値の二つ以上からなる第一の部分集合を組み合わせて、それにより前記周波数サブバンドの前記帯域化トーン性値(311、312)を与える段階とを含む、
    方法。
  7. オーディオ信号の第一の周波数ビンについての第一のビン・トーン性値を決定する方法であって、前記第一のビン・トーン性値は、前記オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似するために使用され、当該方法は:
    ・前記オーディオ信号のサンプルのブロックの対応するシーケンスについて前記第一の周波数ビンにおける変換係数のシーケンスを与える段階と;
    ・前記変換係数のシーケンスに基づいて位相のシーケンスを決定する段階と;
    ・前記位相のシーケンスに基づいて位相加速を決定する段階と;
    ・現在の変換係数に基づいてビン・パワーを決定する段階と;
    ・相続く変換係数のパワーの比の四乗根を示す重み付け因子を、対数近似を使って近似する段階と;
    ・前記ビン・パワーおよび前記近似された重み付け因子によって前記位相加速に重み付けし、前記第一のビン・トーン性値を与える段階とを含む、
    方法。
  8. 請求項7記載の方法であって、前記重み付け因子を近似することは:
    ・相続く変換係数のシーケンスの現在のものを表わす現在の仮数および現在の指数を与える段階と;
    ・前記現在の仮数および前記現在の指数に基づいてあらかじめ決定されたルックアップテーブルについてのインデックス値を決定する段階であって、前記ルックアップテーブルは、複数のインデックス値と、該複数のインデックス値の対応する複数の指数関数値との間の関係を与えるものである、段階と;
    ・前記近似された重み付け因子を、前記インデックス値および前記ルックアップテーブルを使って決定する段階とを含む、
    方法。
  9. 請求項8記載の方法であって、前記重み付け因子を近似することは:
    ・現在の変換係数に先行する変換係数を表わす前の仮数および前の指数を与える段階と;
    ・前記現在の仮数、前記前の仮数、前記現在の指数および前記前の指数に適用される一つまたは複数の加算および/または減算演算に基づいて前記インデックス値を決定する段階とを含む、
    方法。
  10. 請求項9記載の方法であって、前記インデックス値が、(ey−ez+2my−2mz)に対するモジュロ演算を実行することによって決定され、ここで、eyは前記現在の仮数、ezは前記前の仮数、myは前記現在の指数、mzは前記前の指数である、方法。
  11. 多チャネル・オーディオ信号の複数の結合されたチャネルについての複数のトーン性値を決定する方法であって:
    ・前記複数の結合されたチャネルの第一のチャネルのサンプルのブロックの対応するシーケンスについて変換係数の第一のシーケンスを決定する段階と;
    ・前記第一の変換係数のシーケンスに基づいて位相の第一のシーケンスを決定する段階と;
    ・前記第一の位相のシーケンスに基づいて第一の位相加速を決定する段階と;
    ・前記第一のチャネルについての第一のトーン性値を、前記第一の位相加速に基づいて決定する段階と;
    ・前記複数の結合されたチャネルの第二のチャネルについてのトーン性値を、前記第一の位相加速に基づいて決定する段階とを含む、
    方法。
  12. SPXと称されるスペクトル拡張に基づくエンコーダにおける多チャネル・オーディオ信号の第一のチャネルについての帯域化トーン性値を決定する方法であって、前記SPXに基づくエンコーダは、前記第一のチャネルの低周波成分から前記第一のチャネルの高周波成分を近似するよう構成されており;前記第一のチャネルは、前記SPXに基づくエンコーダによって前記多チャネル・オーディオ信号の一つまたは複数の他のチャネルと結合されており;前記帯域化トーン性値はノイズ・ブレンディング因子を決定するために使用され;前記帯域化トーン性値は、ノイズ・ブレンディングの前の近似された高周波成分のトーン性を示し;当該方法は:
    ・結合の前に、前記第一のチャネルに基づいて複数の変換係数を与える段階と;
    ・前記複数の変換係数に基づいて前記帯域化トーン性値を決定する段階とを含む、
    方法。
  13. オーディオ・デコード方法であって、
    オーディオ信号の第一の周波数サブバンドについての第一の帯域化トーン性値を決定するよう構成されたシステムを有しており、高周波再構成を使ってオーディオ信号をエンコードするよう構成されているオーディオ・エンコーダから、エンコードされたオーディオ信号を受領する段階であって、
    前記第一の帯域化トーン性値は、前記オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似するために使用され、前記オーディオ信号は、前記第一の帯域化トーン性値および低周波数成分を含み、
    前記システムは:
    ・前記オーディオ信号のサンプルのブロックに基づいて、対応する一組の周波数ビンにおける一組の変換係数を決定する段階と;
    ・前記一組の変換係数を使って前記一組の周波数ビンについての一組のビン・トーン性値をそれぞれ決定する段階と;
    ・前記第一の周波数サブバンド内にある前記一組の周波数ビンの二つ以上の対応する隣り合う周波数ビンについて前記一組のビン・トーン性値の二つ以上からなる第一の部分集合を組み合わせて、それにより前記第一の周波数サブバンドについての前記第一の帯域化トーン性値を与える段階とを実行するよう構成されており、
    ・前記システムはさらに、前記オーディオ信号のブロックの対応するシーケンスに基づいて、変換係数の組のシーケンスを決定するよう構成されており;
    ・特定の周波数ビンについて、変換係数の組の前記シーケンスは、特定の諸変換係数のシーケンスを含み;
    ・前記特定の周波数ビンについて前記ビン・トーン性値を決定することは:
    ・前記特定の諸変換係数のシーケンスに基づいて位相のシーケンスを決定し、
    ・前記位相のシーケンスに基づいて位相加速を決定することを含み;
    ・前記特定の周波数ビンについての前記ビン・トーン性値は前記位相加速の関数である、段階と;
    受領されたオーディオ信号をデコードする段階と;
    前記第一の帯域化トーン性値を使ってデコードされた低周波数成分に基づいて前記オーディオ信号の高周波数成分を再構成する段階とを含む、
    オーディオ・デコード方法。
  14. 請求項13記載の方法段階を実行するよう構成されているオーディオ・デコーダ。
  15. プロセッサ上での実行のために、該プロセッサで実行されたときに請求項1ないし13のうちいずれか一項記載の方法段階を実行するために適応されている、ソフトウェア・プログラム。
JP2016102645A 2012-02-23 2016-05-23 高周波オーディオ内容の効率的な復元のための方法およびシステム Active JP6334602B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP12156631.9 2012-02-23
EP12156631 2012-02-23
US201261680805P 2012-08-08 2012-08-08
US61/680,805 2012-08-08

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014558129A Division JP6046169B2 (ja) 2012-02-23 2013-02-22 高周波オーディオ内容の効率的な復元のための方法およびシステム

Publications (2)

Publication Number Publication Date
JP2016173597A true JP2016173597A (ja) 2016-09-29
JP6334602B2 JP6334602B2 (ja) 2018-05-30

Family

ID=49006324

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2014558129A Active JP6046169B2 (ja) 2012-02-23 2013-02-22 高周波オーディオ内容の効率的な復元のための方法およびシステム
JP2016102645A Active JP6334602B2 (ja) 2012-02-23 2016-05-23 高周波オーディオ内容の効率的な復元のための方法およびシステム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2014558129A Active JP6046169B2 (ja) 2012-02-23 2013-02-22 高周波オーディオ内容の効率的な復元のための方法およびシステム

Country Status (9)

Country Link
US (2) US9666200B2 (ja)
EP (3) EP3288033B1 (ja)
JP (2) JP6046169B2 (ja)
KR (2) KR101679209B1 (ja)
CN (2) CN107993673B (ja)
BR (2) BR122021018240B1 (ja)
ES (1) ES2568640T3 (ja)
RU (1) RU2601188C2 (ja)
WO (1) WO2013124445A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3435376A1 (en) 2017-07-28 2019-01-30 Fujitsu Limited Audio encoding apparatus and audio encoding method

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR122021018240B1 (pt) * 2012-02-23 2022-08-30 Dolby International Ab Método para codificar um sinal de áudio multicanal, método para decodificar um fluxo de bits de áudio codificado, sistema configurado para codificar um sinal de áudio, e sistema para decodificar um fluxo de bits de áudio codificado
KR20150056770A (ko) * 2012-09-13 2015-05-27 엘지전자 주식회사 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치
WO2014115225A1 (ja) * 2013-01-22 2014-07-31 パナソニック株式会社 帯域幅拡張パラメータ生成装置、符号化装置、復号装置、帯域幅拡張パラメータ生成方法、符号化方法、および、復号方法
EP3742440B1 (en) 2013-04-05 2024-07-31 Dolby International AB Audio decoder for interleaved waveform coding
US9542955B2 (en) * 2014-03-31 2017-01-10 Qualcomm Incorporated High-band signal coding using multiple sub-bands
EP2963646A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and method for decoding an audio signal, encoder and method for encoding an audio signal
JP2016038435A (ja) 2014-08-06 2016-03-22 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
WO2017125559A1 (en) 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatuses and methods for encoding or decoding an audio multi-channel signal using spectral-domain resampling
US10681679B1 (en) * 2017-06-21 2020-06-09 Nxp Usa, Inc. Resource unit detection in high-efficiency wireless system
US10187721B1 (en) * 2017-06-22 2019-01-22 Amazon Technologies, Inc. Weighing fixed and adaptive beamformers
CN107545900B (zh) * 2017-08-16 2020-12-01 广州广晟数码技术有限公司 带宽扩展编码和解码中高频弦信号生成的方法和装置
TWI702594B (zh) 2018-01-26 2020-08-21 瑞典商都比國際公司 用於音訊信號之高頻重建技術之回溯相容整合
CN109036457B (zh) * 2018-09-10 2021-10-08 广州酷狗计算机科技有限公司 恢复音频信号的方法和装置
CN110267082B (zh) * 2019-06-03 2020-05-05 李少锋 按语言最小单元自动切换音视频的播放控制方法及系统
CN116134834A (zh) * 2020-12-31 2023-05-16 深圳市韶音科技有限公司 生成音频的方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005104094A (ja) * 2003-10-02 2005-04-21 Sumitomo Heavy Ind Ltd 成形機の監視装置及び監視方法
US20100094638A1 (en) * 2007-11-21 2010-04-15 Tae-Jin Lee Apparatus and method for deciding adaptive noise level for bandwidth extension

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR920008063B1 (ko) * 1988-11-22 1992-09-22 마쯔시다덴기산교 가부시기가이샤 텔레비젼신호수신장치
US5699477A (en) * 1994-11-09 1997-12-16 Texas Instruments Incorporated Mixed excitation linear prediction with fractional pitch
US7012630B2 (en) 1996-02-08 2006-03-14 Verizon Services Corp. Spatial sound conference system and apparatus
US5913189A (en) * 1997-02-12 1999-06-15 Hughes Electronics Corporation Voice compression system having robust in-band tone signaling and related method
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
JP3654117B2 (ja) * 2000-03-13 2005-06-02 ヤマハ株式会社 時間軸方向における楽音波形信号の伸縮方法
EP1423847B1 (en) * 2001-11-29 2005-02-02 Coding Technologies AB Reconstruction of high frequency components
US6978001B1 (en) 2001-12-31 2005-12-20 Cisco Technology, Inc. Method and system for controlling audio content during multiparty communication sessions
DE60326782D1 (de) * 2002-04-22 2009-04-30 Koninkl Philips Electronics Nv Dekodiervorrichtung mit Dekorreliereinheit
TWI288915B (en) * 2002-06-17 2007-10-21 Dolby Lab Licensing Corp Improved audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
KR100463417B1 (ko) 2002-10-10 2004-12-23 한국전자통신연구원 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치
US20060100861A1 (en) 2002-10-14 2006-05-11 Koninkijkle Phillips Electronics N.V Signal filtering
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
KR100608062B1 (ko) * 2004-08-04 2006-08-02 삼성전자주식회사 오디오 데이터의 고주파수 복원 방법 및 그 장치
US7218240B2 (en) * 2004-08-10 2007-05-15 The Boeing Company Synthetically generated sound cues
US7545875B2 (en) 2004-11-03 2009-06-09 Nokia Corporation System and method for space-time-frequency coding in a multi-antenna transmission system
US7675873B2 (en) 2004-12-14 2010-03-09 Alcatel Lucent Enhanced IP-voice conferencing
US8082156B2 (en) * 2005-01-11 2011-12-20 Nec Corporation Audio encoding device, audio encoding method, and audio encoding program for encoding a wide-band audio signal
CN101180676B (zh) * 2005-04-01 2011-12-14 高通股份有限公司 用于谱包络表示的向量量化的方法和设备
US7630882B2 (en) 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
JP4736812B2 (ja) * 2006-01-13 2011-07-27 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
KR101240261B1 (ko) 2006-02-07 2013-03-07 엘지전자 주식회사 이동통신 단말기의 영상 통화 장치 및 방법
CN101149918B (zh) * 2006-09-22 2012-03-28 鸿富锦精密工业(深圳)有限公司 具练唱功能的声音处理装置
JP2008096567A (ja) 2006-10-10 2008-04-24 Matsushita Electric Ind Co Ltd オーディオ符号化装置およびオーディオ符号化方法ならびにプログラム
DE602008001787D1 (de) * 2007-02-12 2010-08-26 Dolby Lab Licensing Corp Verbessertes verhältnis von sprachlichen zu nichtsprachlichen audio-inhalten für ältere oder hörgeschädigte zuhörer
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
US8121535B2 (en) 2007-03-02 2012-02-21 Qualcomm Incorporated Configuration of a repeater
WO2009039897A1 (en) 2007-09-26 2009-04-02 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
US8509454B2 (en) 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
US8223851B2 (en) 2007-11-23 2012-07-17 Samsung Electronics Co., Ltd. Method and an apparatus for embedding data in a media stream
CN101471072B (zh) * 2007-12-27 2012-01-25 华为技术有限公司 高频重建方法、编码装置和解码装置
US8532998B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Selective bandwidth extension for encoding/decoding audio/speech signal
US20110254913A1 (en) 2008-12-24 2011-10-20 Panasonic Corporation Conferencing apparatus and communication setting method
UA99878C2 (ru) * 2009-01-16 2012-10-10 Долби Интернешнл Аб Гармоническое преобразование, усовершенствованное перекрестным произведением
CN101527141B (zh) * 2009-03-10 2011-06-22 苏州大学 基于径向基神经网络的耳语音转换为正常语音的方法
EP2239732A1 (en) * 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
US8223943B2 (en) 2009-04-14 2012-07-17 Citrix Systems Inc. Systems and methods for computer and voice conference audio transmission during conference call via PSTN phone
US8351589B2 (en) 2009-06-16 2013-01-08 Microsoft Corporation Spatial audio for audio conferencing
US8427521B2 (en) 2009-10-21 2013-04-23 At&T Intellectual Property I, L.P. Method and apparatus for providing a collaborative workspace
WO2011059432A1 (en) * 2009-11-12 2011-05-19 Paul Reed Smith Guitars Limited Partnership Precision measurement of waveforms
US8774787B2 (en) 2009-12-01 2014-07-08 At&T Intellectual Property I, L.P. Methods and systems for providing location-sensitive conference calling
SI2510515T1 (sl) 2009-12-07 2014-06-30 Dolby Laboratories Licensing Corporation Dekodiranje večkanalnih avdio kodiranih bitnih prenosov s pomočjo adaptivne hibridne transformacije
US20110182415A1 (en) 2010-01-28 2011-07-28 Jacobstein Mark Williams Methods and apparatus for providing call conferencing services
MX2012001696A (es) * 2010-06-09 2012-02-22 Panasonic Corp Metodo de extension de ancho de banda, aparato de extension de ancho de banda, programa, circuito integrado, y aparato de descodificacion de audio.
JP6010539B2 (ja) * 2011-09-09 2016-10-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置、符号化方法および復号方法
BR122021018240B1 (pt) * 2012-02-23 2022-08-30 Dolby International Ab Método para codificar um sinal de áudio multicanal, método para decodificar um fluxo de bits de áudio codificado, sistema configurado para codificar um sinal de áudio, e sistema para decodificar um fluxo de bits de áudio codificado

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005104094A (ja) * 2003-10-02 2005-04-21 Sumitomo Heavy Ind Ltd 成形機の監視装置及び監視方法
US20100094638A1 (en) * 2007-11-21 2010-04-15 Tae-Jin Lee Apparatus and method for deciding adaptive noise level for bandwidth extension

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3435376A1 (en) 2017-07-28 2019-01-30 Fujitsu Limited Audio encoding apparatus and audio encoding method
US10896684B2 (en) 2017-07-28 2021-01-19 Fujitsu Limited Audio encoding apparatus and audio encoding method

Also Published As

Publication number Publication date
EP3288033B1 (en) 2019-04-10
EP3288033A1 (en) 2018-02-28
US20150003632A1 (en) 2015-01-01
EP3029672B1 (en) 2017-09-13
EP2817803A2 (en) 2014-12-31
CN107993673B (zh) 2022-09-27
JP6334602B2 (ja) 2018-05-30
JP6046169B2 (ja) 2016-12-14
BR122021018240B1 (pt) 2022-08-30
WO2013124445A2 (en) 2013-08-29
EP2817803B1 (en) 2016-02-03
RU2601188C2 (ru) 2016-10-27
BR112014020562A2 (ja) 2017-06-20
WO2013124445A3 (en) 2013-11-21
CN107993673A (zh) 2018-05-04
ES2568640T3 (es) 2016-05-03
CN104541327B (zh) 2018-01-12
US20170221491A1 (en) 2017-08-03
RU2014134317A (ru) 2016-04-20
JP2015508186A (ja) 2015-03-16
EP3029672A2 (en) 2016-06-08
EP3029672A3 (en) 2016-06-29
KR20160134871A (ko) 2016-11-23
KR101679209B1 (ko) 2016-12-06
CN104541327A (zh) 2015-04-22
KR20140116520A (ko) 2014-10-02
US9984695B2 (en) 2018-05-29
KR101816506B1 (ko) 2018-01-09
BR112014020562B1 (pt) 2022-06-14
US9666200B2 (en) 2017-05-30

Similar Documents

Publication Publication Date Title
JP6334602B2 (ja) 高周波オーディオ内容の効率的な復元のための方法およびシステム
JP5539573B2 (ja) Sbrビットストリームパラメータダウンミックス
JP2024147632A (ja) パラメトリック・マルチチャネル・エンコードのための方法
CN105900168B (zh) 使用估计的空间参数的音频信号增强
CA2944927C (en) Apparatus and method for generating a plurality of spectral patterns
JP6061121B2 (ja) オーディオ符号化装置、オーディオ符号化方法、およびプログラム
US9230551B2 (en) Audio encoder or decoder apparatus
EP2353160A1 (en) An apparatus
AU2014314477B2 (en) Frequency band table design for high frequency reconstruction algorithms

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180426

R150 Certificate of patent or registration of utility model

Ref document number: 6334602

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250