JP2016173597A

JP2016173597A - 高周波オーディオ内容の効率的な復元のための方法およびシステム

Info

Publication number: JP2016173597A
Application number: JP2016102645A
Authority: JP
Inventors: テシン，ロビン; Thesing Robin; シュフーグ，ミヒャエル; Schug Michael
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2012-02-23
Filing date: 2016-05-23
Publication date: 2016-09-29
Anticipated expiration: 2033-02-22
Also published as: EP3288033B1; EP3288033A1; US20150003632A1; EP3029672B1; EP2817803A2; CN107993673B; JP6334602B2; JP6046169B2; BR122021018240B1; WO2013124445A2; EP2817803B1; RU2601188C2; BR112014020562A2; WO2013124445A3; CN107993673A; ES2568640T3; CN104541327B; US20170221491A1; RU2014134317A; JP2015508186A

Abstract

【課題】オーディオ信号の高周波成分を、低周波成分から効率的に復元する方法を提供する。
【解決手段】オーディオ信号の第一の周波数サブバンドについて第一の帯域化トーン性値３１２を決定する方法であって第一の帯域化トーン性値３１２は、オーディオ信号の低周波成分に基づいてオーディオ信号の高周波成分を近似するために使われる。方法は、オーディオ信号のブロックに基づいて、対応する一組の周波数ビンにおける一組の変換係数を決定する段階と、一組の変換係数を使って一組の周波数ビンについての一組のビン・トーン性値３４１をそれぞれ決定する段階と、第一の周波数サブバンド内にある一組の周波数ビンの二つ以上の対応する隣り合う周波数ビンについて一組のビン・トーン性値３４１の二つ以上からなる第一の部分集合を組み合わせて、第一の周波数サブバンドについての第一の帯域化トーン性値３１２を与える段階とを含む。
【選択図】図３ｂ

Description

関連出願への相互参照
本願は2012年2月23日に出願された欧州特許出願第12156631.9号および2012年8月8日に出願された米国仮特許出願第61/680,805号の優先権の利益を主張するものである。両出願はここに参照によってその全体において組み込まれる。

発明の技術分野
本稿はオーディオ符号化、復号および処理の技術分野に関する。特にオーディオ信号の高周波内容を同じオーディオ信号の低周波内容から効率的な仕方で復元する方法に関する。

オーディオ信号の効率的な符号化および復号は、しばしばエンコード、伝送および／またはデコードされるべきオーディオ関係のデータの量を、音響心理学的な原理に基づいて減らすことを含む。これはたとえば、オーディオ信号中に存在しているが聴取者によって知覚可能ではない、いわゆるマスクされるオーディオ内容を破棄することを含む。代替的または追加的に、より高周波内容についてのいくらかの情報を、そのようなより高周波内容を実際に直接エンコードすることなく保持または計算しつつ、エンコードされるべきオーディオ信号の帯域幅が制限されることもある。次いで、帯域制限された信号は、前記より高周波の情報と一緒にエンコードおよび伝送（または記憶）される。このより高周波の情報は、前記より高周波の内容をも直接エンコードするよりも、要求する資源が少ない。

HE-AAC（High Efficiency - Advanced Audio Coding［高効率‐先進オーディオ符号化］）におけるスペクトル帯域複製（SBR: Spectral Band Replication）およびドルビー・デジタル・プラス（Dolby Digital Plus）におけるスペクトル拡張（SPX: Spectral Extension）は、オーディオ信号の高周波成分を該オーディオ信号の低周波成分に基づいてかつ追加的な副情報（より高周波の情報とも称される）に基づいて近似または再構成するオーディオ符号化システムの二つの例である。以下では、ドルビー・デジタル・プラスのSPX方式が言及されるが、本稿に記載される方法およびシステムは、HE-AACにおけるSBRを含む高周波再構成技法一般に適用可能であることは注意しておくべきである。

SPXに基づくオーディオ・エンコーダにおける副情報の決定は、典型的には、かなりの計算量がかかる。たとえば、副情報の決定は、オーディオ・エンコーダの総計算資源の約50%を要求することがある。本稿は、SPXベースのオーディオ・エンコーダの計算量を減らすことを許容する方法およびシステムを記述する。特に、本稿は、SPXに基づくオーディオ・エンコーダのコンテキストにおいてトーン性（tonality）計算を実行するための計算量を減らすことを許容する方法およびシステムを記述する（ここで、トーン性計算は、副情報を決定するために使われる計算量の約80%に相当することがある）。

ある側面によれば、オーディオ信号の第一の周波数サブバンドについての第一の帯域化された（banded）トーン性値〔帯域化トーン性値〕を決定する方法が記述される。オーディオ信号は、多チャネル・オーディオ信号（たとえば、ステレオ、5.1または7.1の多チャネル信号）のチャネルのオーディオ信号であってもよい。オーディオ信号は、低信号周波数から高信号周波数にわたる帯域幅を有していてもよい。該帯域幅は、低周波数帯域および高周波数帯域を有していてもよい。第一の周波数サブバンドは、低周波数帯域内または高周波数帯域内にあってもよい。第一の帯域化されたトーン性値は、第一の周波数帯域内のオーディオ信号のトーン性を示していてもよい。オーディオ信号が周波数サブバンド内で比較的高いトーン性をもつと考えられるのは、その周波数サブバンドが比較的高い度合いの安定した正弦波内容を有する場合であってもよい。他方、オーディオ信号がその周波数サブバンド内で比較的低いトーン性をもつと考えられるのは、その周波数サブバンドが比較的高い度合いのノイズを有する場合であってもよい。第一の帯域化されたトーン性値は、第一の周波数サブバンド内のオーディオ信号の位相の変動に依存してもよい。

第一の帯域化されたトーン性値を決定する方法は、オーディオ信号のエンコーダのコンテキストにおいて使用されてもよい。エンコーダは、スペクトル帯域複製（SBR）（たとえば高効率‐先進オーディオ符号化器HE-AACのコンテキストで使われるような）またはスペクトル拡張（SPX）（たとえばドルビー・デジタル・プラス・エンコーダのコンテキストで使われるような）といった高周波再構成技法を利用してもよい。第一の帯域化されたトーン性値は、オーディオ信号の（高周波数帯域における）高周波成分を、オーディオ信号の（低周波数帯域における）低周波成分に基づいて近似するために使われてもよい。特に、第一の帯域化されたトーン性値は、オーディオ信号の受領された（復号された）低周波成分に基づいてオーディオ信号の高周波成分を再構成するために対応するオーディオ・デコーダによって使用されうる副情報を決定するために使用されてもよい。副情報は、たとえば、高周波成分のある周波数サブバンドを近似するために、低周波成分の並進された諸周波数サブバンドに加えられるべきノイズの量を指定してもよい。

本方法は、オーディオ信号のサンプルのブロックに基づいて、対応する一組の周波数ビン内の変換係数の組を決定することを含んでいてもよい。オーディオ信号のサンプルのシーケンスは、それぞれ所定数のサンプルを含むフレームのシーケンスにグループ化されてもよい。フレームのシーケンスのあるフレームは、サンプルの一つまたは複数のブロックに細分されてもよい。あるフレームの隣り合うブロックは、重複してもよい（たとえば50%まで）。サンプルのブロックは、修正離散コサイン変換（MDCT）および／または修正離散サイン変換（MDST）のような時間領域から周波数領域への変換を使って、時間領域から周波数領域に変換され、それにより変換係数の組を与えてもよい。MDSTおよびMDCTをサンプルのブロックに適用することによって、複素変換係数の組が与えられてもよい。典型的には、変換係数の数N（および周波数ビンの数N）はブロック内のサンプルの数Nに対応する（たとえばN＝128またはN＝256）。第一の周波数サブバンドは、前記N個の周波数ビンのうちの複数を含んでいてもよい。換言すれば、（比較的高い周波数分解能をもつ）N個の周波数ビンは、（相対的により低い周波数分解能をもつ）一つまたは複数の周波数サブバンドにグループ化されてもよい。結果として、低下した数の周波数サブバンドを与えることが可能となり（これは典型的には、エンコードされるオーディオ信号の低下したデータ・レートの点で有益である）、周波数サブバンドは互いの間で比較的高い周波数選択性をもつ（周波数サブバンドが複数の高分解能周波数ビンのグループ化によって得られるという事実のため）。

本方法はさらに、それぞれ変換係数の組を使って周波数ビンの組についてのビン・トーン性値の組を決定することを含んでいてもよい。ビン・トーン性値は典型的には、個々の周波数ビンについて（該個々の周波数ビンの変換係数を使って）決定される。よって、ビン・トーン性値は、個々の周波数ビン内のオーディオ信号のトーン性値を示す。例として、ビン・トーン性値は、対応する個々の周波数ビン内の変換係数の位相の変動に依存する。

本方法はさらに、前記第一の周波数サブバンド内にある周波数ビンの組の二つ以上の対応する隣り合う周波数ビンについて前記組のビン・トーン性値の二つ以上からなる第一の部分集合を組み合わせて、それにより前記第一の周波数サブバンドについての第一の帯域化されたトーン性値を与えることを含んでいてもよい。換言すれば、前記第一の帯域化されたトーン性値は、前記第一の周波数サブバンド内にある前記二つ以上の周波数ビンについての二つ以上のビン・トーン性値を組み合わせることによって決定されてもよい。前記組のビン・トーン性値の二つ以上からなる前記第一の部分集合の組み合わせは、前記二つ以上のビン・トーン性値を平均することおよび／または前記二つ以上のビン・トーン性値を合計することを含んでいてもよい。たとえば、前記第一の帯域化されたトーン性値は、前記第一の周波数サブバンド内にある周波数ビンのビン・トーン性値の和に基づいて決定されてもよい。

よって、第一の帯域化されたトーン性値を決定する方法は、第一の周波数サブバンド内にある周波数ビンのビン・トーン性値に基づいて（複数の周波数ビンを含む）第一の周波数サブバンド内の第一の帯域化されたトーン性値を決定することを指定する。換言すれば、第一の帯域化されたトーン性値を二段階で決定することが提案される。第一段階は、ビン・トーン性値の組を与え、第二段階はビン・トーン性値の組（の少なくともいくつかのビン・トーン性値）を組み合わせて、第一の帯域化されたトーン性値を与える。そのような二段階アプローチの結果として、ビン・トーン性値の同じ組に基づいて（異なるサブバンド構造について）異なる帯域化されたトーン性値を決定することが可能である。それにより、種々の帯域化されたトーン性値を利用するオーディオ・エンコーダの計算上の複雑さが軽減される。

ある実施形態では、本方法はさらに、第二の周波数サブバンド内にある周波数ビンの組の二つ以上の対応する隣り合う周波数ビンについて前記組のビン・トーン性値の二つ以上からなる第二の部分集合を組み合わせることによって、第二の周波数サブバンドにおける第二の帯域化されたトーン性値を決定することを含む。第一および第二の周波数サブバンドは、少なくとも一つの共通の周波数ビンを含んでいてもよく、第一および第二の部分集合は対応する少なくとも一つの共通のビン・トーン性値を含んでいてもよい。換言すれば、前記第一および第二の帯域化されたトーン性値は、少なくとも一つの共通のビン・トーン性値に基づいて決定されてもよく、それにより帯域化されたトーン性値の決定に結びつけられた計算上の複雑さの低下を許容する。たとえば、第一および第二の周波数サブバンドはオーディオ信号の高周波数帯域内にあってもよい。第一の周波数サブバンドは第二の周波数サブバンドより狭くてもよく、第二の周波数サブバンド内にあってもよい。第一のトーン性値は、SPXに基づくエンコーダの大分散減衰（Large Variance Attenuation）のコンテキストにおいて使われてもよく、第二のトーン性値はSPXに基づくエンコーダのノイズ・ブレンディングのコンテキストにおいて使われてもよい。

上記のように、本稿に記載される方法は、典型的には、高周波再構成（HFR: high frequency reconstruction）技法を利用するオーディオ・エンコーダのコンテキストにおいて使われる。そのようなHFR技法は、オーディオ信号の高周波成分を近似するために、オーディオ信号の低周波数帯域からの一つまたは複数の周波数ビンを高周波数帯域からの一つまたは複数の周波数ビンに並進させる。よって、オーディオ信号の低周波成分に基づいてオーディオ信号の高周波成分を近似することは、低周波成分に対応する低周波数帯域からの一つまたは複数の周波数ビンの一つまたは複数の低周波数変換係数を、オーディオ信号の高周波成分に対応する高周波数帯域にコピーすることを含んでいてもよい。この、あらかじめ決定されたコピー・プロセスは、帯域化されたトーン性値を決定するときに考慮に入れられてもよい。特に、ビン・トーン性値が該コピー・プロセスによって典型的には影響されず、それにより低周波数帯域内の周波数ビンについて決定されたビン・トーン性値が高周波数帯域内の対応するコピーされた周波数ビンについて使用されることが許容されることを考慮に入れてもよい。

ある実施形態では、第一の周波数サブバンドは低周波数帯域内にあり、第二の周波数サブバンドは高周波数帯域内にある。本方法はさらに、第二の周波数サブバンド内の第二の帯域化されたトーン性値を、第二の周波数サブバンドにコピーされた周波数ビンの二つ以上の対応する周波数ビンについてのビン・トーン性値の組の二つ以上のビン・トーン性値の第二の部分集合を組み合わせることによって、決定することを含んでいてもよい。換言すれば、（高周波数帯域内にある第二の周波数サブバンドについて）第二の帯域化されたトーン性値が、高周波数帯域にコピーされた周波数ビンのビン・トーン性値に基づいて決定されてもよい。第二の周波数サブバンドは、第一の周波数帯域内にある周波数ビンからコピーされた少なくとも一つの周波数ビンを含んでいてもよい。よって、第一および第二の部分集合は、対応する少なくとも一つの共通のビン・トーン性値を含んでいてもよく、それにより帯域化されたトーン性値の決定に結びつけられた計算上の複雑さを軽減する。

上記のように、オーディオ信号は典型的には（たとえばそれぞれNサンプルを含む）ブロックのシーケンスにグループ化される。本方法は、オーディオ信号のブロックの対応するシーケンスに基づいて変換係数の組〔諸セット〕のシーケンスを決定することを含んでいてもよい。結果として、各周波数ビンについて、変換係数のシーケンスが決定されてもよい。換言すれば、ある特定の周波数ビンについて、変換係数の組のシーケンスは、特定の諸変換係数のシーケンスを含んでいてもよい。特定の諸変換係数のシーケンスは、オーディオ信号のブロックのシーケンスについて、特定の周波数ビンについてのビン・トーン性値のシーケンスを決定するために使用されてもよい。

特定の周波数ビンについてのビン・トーン性値を決定することは、特定の諸変換係数のシーケンスに基づいて位相のシーケンスを決定し、位相のシーケンスに基づいて位相加速を決定することを含んでいてもよい。特定の周波数ビンについてのビン・トーン性値は典型的には位相加速の関数である。たとえば、オーディオ信号の現在ブロックについてのビン・トーン性値は現在の位相加速に基づいて決定されてもよい。現在の位相加速は、（現在ブロックの変換係数に基づいて決定される）現在の位相に基づいて、かつ（二つ以上の先行ブロックの二つ以上の変換係数に基づいて決定される）二つ以上の先行位相に基づいて決定されてもよい。上記のように、特定の周波数ビンについてのビン・トーン性値は典型的には、同じ特定の周波数ビンの変換係数にのみ基づいて決定される。換言すれば、ある周波数ビンについてのビン・トーン性値は典型的には、他の周波数ビンのビン・トーン性値とは独立である。

すでに上記で概説したように、第一の帯域化されたトーン性値は、スペクトル拡張（SPX）方式を使ってオーディオ信号の低周波成分に基づいてオーディオ信号の高周波成分を近似するために使用されてもよい。第一の帯域化されたトーン性値は、SPX座標再送戦略（coordinate resend strategy）、ノイズ・ブレンディング因子および／または大分散減衰を決定するために使われてもよい。

もう一つの側面によれば、ノイズ・ブレンディング因子を決定する方法が記述される。本稿において記述される異なる側面および方法は、任意の仕方で互いに組み合わされてもよいことを注意しておくべきである。ノイズ・ブレンディング因子は、オーディオ信号の低周波成分に基づいてオーディオ信号の高周波成分を近似するために使用されてもよい。上記で概説したように、高周波成分は典型的には、高周波数帯域におけるオーディオ信号の成分を含む。高周波数帯域は、一つまたは複数の高周波数サブバンド（たとえば上記の第一および／または第二の周波数サブバンド）に細分されてもよい。高周波数サブバンド内のオーディオ信号の成分は、高周波数サブバンド信号と称されてもよい。同様に、低周波成分は典型的には、低周波数帯域におけるオーディオ信号の成分を含み、低周波数帯域は、一つまたは複数の低周波数サブバンド（たとえば上記の第一および／または第二の周波数サブバンド）に細分されてもよい。低周波数サブバンド内のオーディオ信号の成分は、低周波数サブバンド信号と称されてもよい。換言すれば、高周波成分は高周波数帯域において一つまたは複数の（もとの）高周波数サブバンド信号を含んでいてもよく、低周波成分は低周波数帯域において一つまたは複数の低周波数サブバンド信号を含んでいてもよい。

上記で概説したように、高周波成分を近似することは、一つまたは複数の低周波数サブバンド信号を高周波数帯域にコピーし、それにより一つまたは複数の近似された高周波数サブバンド信号を与えることを含んでいてもよい。ノイズ・ブレンディング因子は、近似された高周波数サブバンド信号のトーン性を、オーディオ信号のもとの高周波数サブバンド信号のトーン性と揃えるために、一つまたは複数の近似された高周波数サブバンド信号に加えられるべきノイズの量を指示するために使用されてもよい。換言すれば、ノイズ・ブレンディング因子は、オーディオ信号の（もとの）高周波成分を近似するために一つまたは複数の近似された高周波数サブバンド信号に加えられるべきノイズの量を示していてもよい。

本方法は、一つまたは複数の（もとの）高周波数サブバンド信号に基づいて目標帯域化トーン性値を決定することを含んでいてもよい。さらに、本方法は、一つまたは複数の近似された高周波数サブバンド信号に基づいて源帯域化トーン性値を決定することを含んでいてもよい。トーン性値は、それぞれのサブバンド信号の位相の発展を示してもよい。さらに、トーン性値は、本稿で記述されるように決定されてもよい。特に、帯域化されたトーン性値は、本稿で概説された二段階アプローチに基づいて決定されていてもよい。すなわち、帯域化されたトーン性値は一組のビン・トーン性値に基づいて決定されてもよい。

本方法はさらに、目標および源帯域化トーン性値に基づいてノイズ・ブレンディング因子を決定することを含んでいてもよい。特に、本方法は、近似されるべき高周波成分の帯域幅が高周波成分を近似するために使われる低周波成分の帯域幅より小さい場合、源帯域化トーン性値に基づいてノイズ・ブレンディング因子を決定することを含んでいてもよい。結果として、ノイズ・ブレンディング因子を決定するための計算上の複雑さは、ノイズ・ブレンディング因子がオーディオ信号の低周波成分から導出される帯域化トーン性値に基づいて決定される方法に比べ、軽減できる。

ある実施形態では、低周波数帯域は、コピーするために利用可能な低周波数サブバンドの間で最も低い周波数をもつ低周波数サブバンドを示すスタート帯域（たとえば、SPXに基づくエンコーダの場合、spxstartパラメータによって指示される）を含む。さらに、高周波数帯域は、近似されるべき高周波数サブバンドのうち最も低い周波数をもつ高周波数サブバンドを示すビギン帯域（たとえば、SPXに基づくエンコーダの場合、spxbeginパラメータによって指示される）を含んでいてもよい。加えて、高周波数帯域は、近似されるべき高周波数サブバンドのうち最も高い周波数をもつ高周波数サブバンドを示すエンド帯域（たとえば、SPXに基づくエンコーダの場合、spxendパラメータによって指示される）を含んでいてもよい。

本方法は、スタート帯域（たとえばspxstartパラメータ）とビギン帯域（たとえばspxbeginパラメータ）の間の第一の帯域幅を決定することを含んでいてもよい。さらに、本方法は、ビギン帯域（たとえばspxbeginパラメータ）とエンド帯域（たとえばspxendパラメータ）の間の第二の帯域幅を決定することを含んでいてもよい。本方法は、第一の帯域幅が第二の帯域幅より大きい場合、目標および源帯域化トーン性値に基づいてノイズ・ブレンディング因子を決定することを含んでいてもよい。特に、第一の帯域幅が第二の帯域幅以上である場合、源帯域化トーン性値が、スタート帯域とスタート帯域に第二の帯域幅を加えたものとの間にある低周波数サブバンドの一つまたは複数の低周波数サブバンド信号に基づいて決定されてもよい。典型的には、これらの低周波数サブバンド信号は、高周波数帯域までコピーされる低周波数サブバンド信号である。結果として、第一の帯域幅が第二の帯域幅以上である状況では、計算上の複雑さが軽減できる。

他方、本方法は、第一の帯域幅が第二の帯域幅より小さい場合には、スタート帯域とビギン帯域の間の低周波数サブバンドの一つまたは複数の低周波数サブバンド信号に基づいて、低帯域化トーン性値を決定し、目標帯域化トーン性および低帯域化トーン性値に基づいてノイズ・ブレンディング因子を決定することを含んでいてもよい。第一および第二の帯域幅を比べることによって、ノイズ・ブレンディング因子（および帯域化トーン性値）が（第一および第二の帯域幅によらず）最少数のサブバンド上で決定されることが保証できる。それにより計算上の複雑さが軽減される。

ノイズ・ブレンディング因子は、目標および源帯域化トーン性値（または目標帯域化トーン性値および低帯域化トーン性値）の分散に基づいて決定されてもよい。特に、ノイズ・ブレンディング因子bは
b＝T_copy・（1−var{T_copy,T_high}）＋T_high・（var{T_copy,T_high}）
として決定されてもよい。ここで、var{T_copy,T_high}＝（(T_copy−T_high)／(T_copy＋T_high)）²は源トーン性値T_copy（または低トーン性値）と目標トーン性値T_highの分散（variance）である。

上記のように、（源、目標または低）帯域化トーン性値は、本稿において記述される二段階アプローチを使って決定されてもよい。特に、ある周波数サブバンドにおける帯域化トーン性値は、オーディオ信号のサンプルのブロックに基づいて周波数ビンの対応する組における変換係数の組を決定することによって決定されてもよい。その後、周波数ビンの前記組についてのビン・トーン性値の組が、それぞれ変換係数の組を使って決定されてもよい。次いで、当該周波数サブバンドの帯域化トーン性値は、当該周波数サブバンド内にある周波数ビンの組の二つ以上の対応する隣り合う周波数ビンについてのビン・トーン性値の組の二つ以上のビン・トーン性値の第一の部分集合を組み合わせることによって決定されてもよい。

あるさらなる側面によれば、オーディオ信号の第一の周波数ビンについての第一のビン・トーン性値を決定する方法が記述される。第一のビン・トーン性値は本稿に記述される原理に基づいて決定されてもよい。特に、第一のビン・トーン性値は、第一の周波数ビンの変換係数の位相の分散に基づいて決定されてもよい。さらに、やはり本稿で概説したように、第一のビン・トーン性値は、オーディオ信号の低周波成分に基づいてオーディオ信号の高周波成分を近似するために使用されてもよい。よって、第一のビン・トーン性値を決定する方法は、HFR技法を使うオーディオ・エンコーダのコンテキストにおいて使われてもよい。

本方法は、オーディオ信号のサンプルのブロックの対応するシーケンスについて第一の周波数ビンにおける変換係数のシーケンスを与えることを含んでいてもよい。変換係数のシーケンスは、（上記のように）サンプルのブロックのシーケンスに、時間領域から周波数領域の変換を適用することによって決定されてもよい。さらに、本方法は、変換係数のシーケンスに基づいて位相のシーケンスを決定することを含んでいてもよい。変換係数は複素数であってもよく、変換係数の位相は、複素変換係数の実部および虚部に適用される逆正接関数に基づいて決定されてもよい。さらに、本方法は、位相のシーケンスに基づいて位相加速を決定することを含んでいてもよい。たとえば、サンプルの現在ブロックについての現在変換係数についての現在の位相加速が、現在の位相に基づき、かつ二つ以上の先行する位相に基づいて決定されてもよい。さらに、本方法は、変換係数のシーケンスからの現在の変換係数に基づいてビン・パワーを決定することを含んでいてもよい。現在の変換係数のパワーは、現在の変換係数の二乗絶対値に基づいていてもよい。

本方法はさらに、相続く変換係数のパワーの比の四乗根を示す重み付け因子を、対数近似を使って近似することを含んでいてもよい。すると、本方法は、近似された重み付け因子によっておよび／または現在の変換係数のパワーによって位相加速に重み付けし、第一のビン・トーン性値を与えることに進んでもよい。対数近似を使って重み付け因子を近似する結果として、正しい重み付け因子の高品質の近似が達成できる。一方で、同時に、相続く変換係数のパワーの比の四乗根の決定に関わる厳密な重み付け因子の決定に比べ、計算上の複雑さを著しく軽減する。対数近似は、対数関数の、線形関数によるおよび／または多項式（たとえば一次、二次、三次、四次または五次）による近似を含んでいてもよい。

変換係数のシーケンスは、（サンプルの現在ブロックについての）現在の変換係数と、（サンプルの直前ブロックについての）直前の変換係数とを含んでいてもよい。重み付け因子は、現在の変換係数および直前の変換係数のパワーの比の四乗根を示していてもよい。さらに、上記のように、変換係数は、実部および虚部を含む複素数であってもよい。現在の（前の）変換係数のパワーは、現在の（前の）変換係数の二乗した実部および二乗した虚部に基づいて決定されてもよい。さらに、現在の（前の）位相が、現在の（前の）変換係数の実部および虚部の逆正接関数に基づいて決定されてもよい。現在の位相加速は、現在の変換係数の位相に基づき、かつ二つ以上の直前の変換係数の位相に基づいて決定されてもよい。

重み付け因子を近似することは、相続く変換係数のシーケンスの現在のものを表わす現在の仮数および現在の指数を与えることを含んでいてもよい。さらに、重み付け因子を近似することは、現在の仮数および現在の指数に基づいて所定のルックアップテーブルについてのインデックス値を決定することを含んでいてもよい。ルックアップテーブルは典型的には、複数のインデックス値と、該複数のインデックス値の対応する複数の指数値との間の関係を与える。よって、ルックアップテーブルは指数関数を近似する効率的な手段を与えてもよい。ある実施形態では、ルックアップテーブルは64個以下のエントリー（すなわち、インデックス値と指数値との対）を有する。近似された重み付け因子は、インデックス値およびルックアップテーブルを使って決定されてもよい。

特に、本方法は、仮数および指数に基づいて実数値のインデックス値を決定することを含んでいてもよい。次いで、（整数値の）インデックス値が、実数値のインデックス値を打ち切るおよび／または丸めることによって決定されてもよい。系統的な打ち切りまたは丸め演算の結果として、近似に系統的なオフセットが導入されることがありうる。そのような系統的なオフセットは、本稿に記載されるビン・トーン性値を決定する方法を使ってエンコードされるオーディオ信号の知覚される品質に関して有益でありうる。

重み付け因子を近似することはさらに、現在の変換係数に先行する変換係数を表わす前の仮数および前の指数を与えることを含んでいてもよい。次いで、インデックス値は、現在の仮数、前の仮数、現在の指数および前の指数に適用される一つまたは複数の加算および／または減算演算に基づいて決定されてもよい。特に、インデックス値は、(e_y−e_z＋2m_y−2m_z)に対するモジュロ演算を実行することによって決定されてもよい。ここで、e_yは現在の仮数、e_zは前の仮数、m_yは現在の指数、m_zは前の指数である。

上記のように、本稿に記載される諸方法は、多チャネル・オーディオ信号に適用可能である。特に、それらの方法は、多チャネル・オーディオ信号のチャネルに適用可能である。多チャネル・オーディオ信号のためのオーディオ・エンコーダは典型的には、多チャネル・オーディオ信号の複数のチャネルを合同してエンコードするために、チャネル結合（または単に結合）と称される符号化技法を適用する。これに鑑み、ある側面によれば、多チャネル・オーディオ信号の複数の結合されたチャネルについての複数のトーン性値を決定する方法が記述される。

本方法は、複数の結合されたチャネルの第一のチャネルのサンプルのブロックの対応するシーケンスについて、変換係数の第一のシーケンスを決定することを含んでいてもよい。あるいはまた、変換係数の第一のシーケンスは、複数の結合されたチャネルから導出される結合チャネル（coupling channel）のサンプルのブロックのシーケンスに基づいて決定されてもよい。本方法は、第一のチャネルについて（または結合チャネルについて）第一のトーン性値を決定することに進んでもよい。この目的のために、本方法は、第一の変換係数のシーケンスに基づいて位相の第一のシーケンスを決定し、第一の位相のシーケンスに基づいて第一の位相加速を決定することを含んでいてもよい。次いで、第一のチャネルについての（または結合チャネルについての）第一のトーン性値は第一の位相加速に基づいて決定されてもよい。さらに、前記複数の結合されたチャネルの第二のチャネルについてのトーン性値が、第一の位相加速に基づいて決定されてもよい。よって、前記複数の結合されたチャネルについての諸トーン性値は、結合されたチャネルの第一のもののみから決定される位相加速に基づいて決定されてもよく、それによりトーン性値の決定に結びつけられた計算上の複雑さが軽減される。これが可能なのは、結合の結果として、前記複数の結合されたチャネルの諸位相が揃えられることのためである。

もう一つの側面によれば、スペクトル拡張（SPX）に基づくエンコーダにおける多チャネル・オーディオ信号の第一のチャネルについての帯域化トーン性値を決定する方法が記述される。SPXに基づくエンコーダは、第一のチャネルの低周波成分から第一のチャネルの高周波成分を近似するよう構成されていてもよい。この目的のため、SPXに基づくエンコーダは、帯域化トーン性値を利用してもよい。特に、SPXに基づくエンコーダは、近似された高周波成分に加えられるべきノイズの量を示すノイズ・ブレンディング因子を決定するために帯域化トーン性値を使ってもよい。よって、帯域化されたトーン性値は、ノイズ・ブレンディングの前の近似された高周波成分のトーン性を示してもよい。第一のチャネルは、SPXに基づくエンコーダによって、多チャネル・オーディオ信号の一つまたは複数の他のチャネルと結合されてもよい。

本方法は、結合の前に、第一のチャネルに基づいて複数の変換係数を与えることを含んでいてもよい。さらに、本方法は、複数の変換係数に基づいて帯域化トーン性値を決定することを含んでいてもよい。よって、ノイズ・ブレンディング因子は、結合された／分離された第一のチャネルに基づいてではなく、もとの第一のチャネルの複数の変換係数に基づいて決定されてもよい。これはSPXに基づくオーディオ・エンコーダにおけるトーン性の決定に結びつけられた計算上の複雑さを軽減することを許容するので、有益である。

上記で概説したように、結合の前の第一のチャネルに基づいて（すなわち、もとの第一のチャネルに基づいて）決定された複数の変換係数は、SPX座標再送戦略を決定するためにおよび／またはSPXに基づくエンコーダの大分散減衰（LVA）を決定するために使われるビン・トーン性値および／または帯域化トーン性値を決定するために使われてもよい。（結合された／分離された第一のチャネルに基づくのではなく）もとの第一のチャネルに基づいて第一のチャネルのノイズ・ブレンディング因子を決定するための上述したアプローチを使うことによって、SPX座標再送戦略のためにおよび／または大分散減衰（LVA）のためにすでに決定されているビン・トーン性値が再利用されることができ、それによりSPXに基づくエンコーダの計算上の複雑さを軽減する。

もう一つの側面によれば、オーディオ信号の第一の周波数サブバンドについての第一の帯域化トーン性値を決定するよう構成されたシステムが記載される。第一の帯域化トーン性値は、オーディオ信号の低周波成分に基づいてオーディオ成分の高周波成分を近似するために使用されてもよい。本システムは、オーディオ信号のサンプルのブロックに基づいて周波数ビンの対応する組における変換係数の組を決定するよう構成されていてもよい。さらに、本システムは、それぞれ変換係数の組を使って周波数ビンの組についてのビン・トーン性値の組を決定するよう構成されていてもよい。さらに、本システムは、第一の周波数サブバンド内にある周波数ビンの組の二つ以上の対応する隣り合う周波数ビンについてのビン・トーン性値の組の二つ以上のビン・トーン性値の第一の部分集合を組み合わせ、それにより第一の周波数サブバンドについての第一の帯域化トーン性値を与えるよう構成されていてもよい。

もう一つの側面によれば、ノイズ・ブレンディング因子を決定するよう構成されたシステムが記述される。ノイズ・ブレンディング因子は、オーディオ信号の低周波成分に基づいてオーディオ信号の高周波成分を近似するために使用されてもよい。高周波成分は典型的には、高周波数帯域における一つまたは複数の高周波数サブバンド信号を含み、低周波成分は典型的には、低周波数帯域における一つまたは複数の低周波数サブバンド信号を含む。高周波成分を近似することは、一つまたは複数の低周波数サブバンド信号を高周波数帯域にコピーし、それにより一つまたは複数の近似された高周波数サブバンド信号を与えることを含んでいてもよい。本システムは、一つまたは複数の高周波数サブバンド信号に基づいて目標帯域化トーン性値を決定するよう構成されていてもよい。さらに、本システムは、一つまたは複数の近似された高周波数サブバンド信号に基づいて源帯域化トーン性値を決定するよう構成されていてもよい。さらに、本システムは、目標（３２２）および源（３２３）帯域化トーン性値に基づいてノイズ・ブレンディング因子を決定するよう構成されていてもよい。

あるさらなる側面によれば、オーディオ信号の第一の周波数ビンについての第一のビン・トーン性値を決定するよう構成されたシステムが記述される。第一の帯域化トーン性値は、オーディオ信号の低周波成分に基づいてオーディオ信号の高周波成分を近似するために使用されてもよい。本システムは、オーディオ信号のサンプルのブロックの対応するシーケンスについて第一の周波数ビンにおける変換係数のシーケンスを与えるよう構成されていてもよい。さらに、本システムは、変換係数のシーケンスに基づいて位相のシーケンスを決定し、位相のシーケンスに基づいて位相加速を決定するよう構成されていてもよい。さらに、本システムは、相続く変換係数のパワーの比の四乗根を示す重み付け因子を、対数近似を使って近似し、近似された重み付け因子によって位相加速に重み付けし、第一のビン・トーン性値を与えるよう構成されていてもよい。

もう一つの側面によれば、高周波再構成を使ってオーディオ信号をエンコードするよう構成されたオーディオ・エンコーダ（たとえば、HFRに基づくオーディオ・エンコーダ、特にSPXに基づくオーディオ・エンコーダ）が記述される。本オーディオ・エンコーダは、本稿に記載されるシステムの任意の一つまたは複数を有していてもよい。代替的または追加的に、本オーディオ・エンコーダは、本稿に記載される方法の任意の一つまたは複数を実行するよう構成されていてもよい。

あるさらなる側面によれば、ソフトウェア・プログラムが記述される。ソフトウェア・プログラムは、プロセッサ上での実行のために、該プロセッサで実行されたときに本稿で概説される方法段階を実行するために適応されていてもよい。

もう一つの側面によれば、記憶媒体が記述される。本記憶媒体は、プロセッサ上での実行のために、該プロセッサで実行されたときに本稿で概説される方法段階を実行するために適応されたソフトウェア・プログラムを有していてもよい。

あるさらなる側面によれば、コンピュータ・プログラム・プロダクトが記述される。コンピュータ・プログラムは、コンピュータ上で実行されたときに本稿で概説される方法段階を実行するための実行可能命令を有していてもよい。

本特許出願において概説される好ましい実施形態を含む方法およびシステムは単独で、または本稿で開示される他の方法およびシステムとの組み合わせにおいて使用されうることを注意しておくべきである。さらに、本特許出願において概説される方法およびシステムのあらゆる側面は任意に組み合わされうる。特に、請求項の特徴は、互いに、任意の仕方で組み合わされうる。

本発明は、付属の図面を参照して例示的に以下で説明される。
例示的なSPX方式を示す図である。例示的なSPX方式を示す図である。例示的なSPX方式を示す図である。例示的なSPX方式を示す図である。 SPXに基づくエンコーダのさまざまな段におけるトーン性の使用を例解する図である。 SPXに基づくエンコーダのさまざまな段におけるトーン性の使用を例解する図である。 SPXに基づくエンコーダのさまざまな段におけるトーン性の使用を例解する図である。 SPXに基づくエンコーダのさまざまな段におけるトーン性の使用を例解する図である。トーン性値の計算に関係する計算努力を軽減する例示的な方式を示す図である。トーン性値の計算に関係する計算努力を軽減する例示的な方式を示す図である。トーン性値の計算に関係する計算努力を軽減する例示的な方式を示す図である。トーン性値の計算に関係する計算努力を軽減する例示的な方式を示す図である。もとのオーディオ信号に基づくトーン性の決定および分離されたオーディオ信号に基づくトーン性の決定を比較する聴取試験の例示的な結果を示す図である。トーン性値の計算のために使われる重み付け因子を決定するためのさまざまな方式を比較する聴取試験の例示的な結果を示す図である。トーン性値の計算のために使われる重み付け因子の近似の例示的な度合いを示す図である。

図１ａ、１ｂ、１ｃ、１ｄはSPXに基づくオーディオ・エンコーダによって実行される例示的な段階を示している。図１ａは、例示的なオーディオ信号の周波数スペクトル１００を示している。周波数スペクトル１００はベースバンド１０１（低周波数帯域１０１とも称される）および高周波数帯域１０２を含む。図示した例では、高周波数帯域１０２は、複数のサブバンドを含む。すなわち、SE帯域１からSE帯域５である（SE: Spectral Extension［スペクトル拡張］）。ベースバンド１０１は、ベースバンド・カットオフ周波数１０３までのより低い周波数を含み、高周波数帯域１０２はベースバンド・カットオフ周波数１０３から上にオーディオ帯域幅周波数１０４までの高周波数を含む。ベースバンド１０１は、オーディオ信号の低周波成分のスペクトルに対応し、高周波数帯域１０２はオーディオ信号の高周波成分のスペクトルに対応する。換言すれば、オーディオ信号の低周波成分はベースバンド１０１内の周波数を含み、オーディオ信号の高周波成分は高周波数帯域１０２内の周波数を含む。

オーディオ・エンコーダは、時間領域オーディオ信号からスペクトル１００を決定するために、典型的には時間領域から周波数領域への変換（たとえば、修正離散コサイン変換（MDCT）および／または修正離散サイン変換（MDST））を利用する。時間領域オーディオ信号は、オーディオ信号のサンプルのそれぞれのシーケンスを含む、オーディオ・フレームのシーケンスに細分されてもよい。各オーディオ・フレームは複数のブロック（たとえば６ブロックまでの複数のブロック）に細分されてもよい。各ブロックはオーディオ信号のたとえばNまたは2N個のサンプルを含む。フレームの複数のブロックは重なり合っていてもよい（たとえば50%の重複）。すなわち、第二のブロックがその先頭において、直前の第一のブロックの終わりにあるサンプルと同一のいくつかのサンプルを含んでいてもよい。たとえば、2N個のサンプルの第二のブロックは、Nサンプルのコア・セクションと、直前の第一のブロックおよび直後の第三のブロックそれぞれのコア・セクションと重なるN/2個のサンプルの後部／前部セクションとを含んでいてもよい。時間領域オーディオ信号のN（または2N）個のサンプルのブロックの、時間領域から周波数領域への変換は、典型的には、周波数ビンの対応する組についてのN個の変換係数（TC: transform coefficient）の組を与える。たとえば、N個のサンプルのコア・セクションおよびN/2個のサンプルの重複する後部／前部セクションを有する2N個のサンプルのブロックの時間領域から周波数領域への変換（たとえば、MDCTまたはMDST）は、N個のTCの組を与えうる。よって、50%の重複は、平均して時間領域サンプルとTCとの一対一の関係につながりえ、それにより臨界サンプリングされたシステムを与える。図１ａに示した高周波数帯域１０２のサブバンドは、M個の周波数ビンをグループ化してサブバンドを形成することによって得られてもよい（たとえばM＝12）。換言すれば、高周波数帯域１０２のあるサブバンドは、M個の周波数ビンを含むまたはカバーするのでもよい。サブバンドのスペクトル・エネルギーは、そのサブバンドをなすM個の周波数ビンのTCに基づいて決定されてもよい。たとえば、サブバンドのスペクトル・エネルギーは、そのサブバンドをなすM個の周波数ビンのTCの二乗された大きさの和に基づいて（たとえば、そのサブバンドをなすM個の周波数ビンのTCの二乗された大きさの平均に基づいて）決定されてもよい。特に、そのサブバンドをなすM個の周波数ビンのTCの二乗された大きさの和は、サブバンド・パワーを与えてもよく、そのサブバンド・パワーを周波数ビンの数Mで割ったものがパワー・スペクトル密度（PSD: power spectral density）を与えてもよい。よって、ベースバンド１０１および／または高周波数帯域１０２は複数のサブバンドを含んでいてもよく、それらのサブバンドは、それぞれ複数の周波数ビンから導出される。

上記のように、SPXに基づくエンコーダは、オーディオ信号のベースバンド１０１によってオーディオ信号の高周波数帯域１０２を近似する。この目的のために、SPXに基づくエンコーダは、対応するデコーダが、オーディオ信号のエンコードされデコードされたベースバンド１０１から高周波数帯域１０２を再構成することを許容する副情報を決定する。副情報は典型的には、高周波数帯域１０２の一つまたは複数のサブバンドのスペクトル・エネルギーの指標（たとえば、それぞれ高周波数帯域１０２の一つまたは複数のサブバンドについての一つまたは複数のエネルギー比）を含む。さらに、副情報は、典型的には、高周波数帯域１０２の一つまたは複数のサブバンドに加えられる（ノイズ・ブレンディングと称される）べきノイズの量の指標を含む。この後者の指標は、典型的には、高周波数帯域１０２の一つまたは複数のサブバンドのトーン性に関係している。換言すれば、高周波数帯域１０２の一つまたは複数のサブバンドに加えられるべきノイズの量の指標は、典型的には、高周波数帯域１０２の一つまたは複数のサブバンドのトーン性値の計算を利用する。

図１ｂ、１ｃ、１ｄは、ベースバンド１０１に基づいて高周波数帯域１０２を近似する例示的な段階を示している。図１ｂは、ベースバンド１０１のみを含むオーディオ信号の低周波成分のスペクトル１１０を示している。図１ｃは、ベースバンド１０１の一つまたは複数のサブバンド１２１、１２２の高周波数帯域１０２の周波数へのスペクトル並進（translation）を示している。スペクトル１２０から、サブバンド１２１、１２２が高周波数帯域１０２のそれぞれの周波数帯域１２３、１２４、１２５、１２６、１２７および１２８にコピーされることが見て取れる。図示した例では、高周波数帯域１０２を満たすために、サブバンド１２１、１２２が三回コピーされている。図１ｄは、オーディオ信号のもとの高周波数帯域１０２（図１ａ参照）がどのようにしてコピーされた（または並進された）サブバンド１２３、１２４、１２５、１２６、１２７および１２８に基づいて近似されるかを示している。SPXに基づくオーディオ・エンコーダは、コピーされたサブバンドにランダム・ノイズを加えて、近似されるサブバンド１３３、１３４、１３５、１３６、１３７および１３８が高周波数帯域１０２のもとのサブバンドのトーン性に対応するようにしてもよい。これは、適切なそれぞれのトーン性指標を決定することによって達成されてもよい。さらに、コピーされる（そしてノイズ・ブレンディングされる）サブバンド１２３、１２４、１２５、１２６、１２７および１２８のエネルギーは、近似されるサブバンド１３３、１３４、１３５、１３６、１３７および１３８のエネルギーが高周波数帯域１０２のもとのサブバンドのエネルギーに対応するよう、修正されてもよい。これは、適切なそれぞれのエネルギー指標を決定することによって達成されてもよい。結果として、スペクトル１３０は図１ａに示したもとのオーディオ信号のスペクトル１００を近似していることが見て取れる。

上記のように、ノイズ・ブレンディングのために使われる（そして典型的にはサブバンドのトーン性の決定を必要とする）指標の決定は、SPXに基づくオーディオ・エンコーダの計算上の複雑さに対して大きな影響をもつ。特に、SPXエンコード・プロセスの種々の段階において多様な目的のために種々の信号セグメント（周波数サブバンド）のトーン性値が必要とされることがある。典型的にトーン性値の決定を必要とする諸段階の概観が図２ａ、２ｂ、２ｃおよび２ｄに示されている。

図２ａ、２ｂ、２ｃおよび２ｄでは、（SPXサブバンド0〜16の形の）周波数が横軸に示されており、SPXスタート帯域（またはSPXスタート周波数）２０１（spxstartとして参照される）、SPXビギン帯域（またはSPXビギン周波数）２０２（spxbeginとして参照される）およびSPXエンド帯域（またはSPXエンド周波数）２０３（spxendとして参照される）についてマーカーがある。典型的には、SPXビギン周波数２０２はカットオフ周波数１０３に対応する。SPXエンド周波数２０３はもとのオーディオ信号の帯域幅１０２またはオーディオ帯域幅１０４より低い周波数に対応してもよい（図２ａ、２ｂ、２ｃおよび２ｄに示されるように）。エンコード後、エンコードされた／デコードされたオーディオ信号の帯域幅は典型的にはSPXエンド周波数２０３に対応する。ある実施形態では、SPXスタート周波数２０１は周波数ビンNo.25に対応し、SPXエンド周波数２０３は周波数ビンNo.229に対応する。オーディオ信号のサブバンドは、SPXエンコード・プロセスの三つの異なる段階において示されている：もとのオーディオ信号（図２ａの上および図２ｂ）のスペクトル２００（たとえばMDCTスペクトル）およびオーディオ信号の低周波成分のエンコード／デコード後のオーディオ信号のスペクトル２１０である（図２ａ中および図２ｃ）。オーディオ信号の低周波成分のエンコード／デコードはたとえば、低周波成分のマトリクス処理（matrixing）および逆マトリクス処理（dematrixing）および／または結合（coupling）および分離（decoupling）を含んでいてもよい。さらに、ベースバンド１０１のサブバンドの高周波数帯域１０２へのスペクトル並進後のスペクトル２２０が示されている（図２ａ下および図２ｄ）。オーディオ信号のもとの諸部分のスペクトル２００は図２ａの「オリジナル」行に示されている（すなわち、周波数サブバンド0〜16）；結合／マトリクス処理によって修正されている信号の諸部分のスペクトル２１０は図２ａの「逆マトリクス処理／分離された低域」の行に示されている（すなわち、図示した例では周波数サブバンド2〜6）；スペクトル並進によって修正されている信号の諸部分のスペクトル２２０は図２ａの「並進された高域」の行に示されている（すなわち、図示した例では周波数サブバンド7〜14）。SPXに基づくエンコーダの処理によって修正されたサブバンド２０６は暗い影付きで示されている。一方、SPXに基づくエンコーダによって未修正のまま残っているサブバンド２０５は明るい影付きで示されている。

サブバンドの下および／またはSPXサブバンドの諸グループの下のくくり線２３１、２３２、２３３は、どのサブバンドについてまたはどのサブバンドのグループについてトーン性値（トーン性尺度）が計算されるかを示している。さらに、トーン性値またはトーン性尺度がどの目的のために使われるかが示されている。SPXスタート帯域（spxstart）２０１とSPXエンド帯域（spxend）２０３の間のもとの入力信号の帯域化トーン性値２３１（すなわち、サブバンドについてまたはサブバンドのグループについてのトーン性値）は、典型的には、新しいSPX座標が送信される必要があるか否か（「再送戦略」）についてのエンコーダの判断を操るために使われる。SPX座標は典型的には、もとのオーディオ信号のスペクトル包絡線についての情報を、各SPX帯域についての利得因子の形で担持する。SPX再送戦略は、オーディオ信号のサンプルの新たなブロックについて新しいSPX座標が送信される必要があるかどうか、あるいはサンプルの（直）前のブロックについてのSPX座標が再利用できるかどうかを示していてもよい。さらに、spxbegin ２０２より上のSPX帯域についての帯域化されたトーン性値２３１は、図２ａおよび図２ｂに示されるように、大分散減衰（LVA）計算への入力として使用されてもよい。大分散減衰は、スペクトル並進からの潜在的な誤差を減衰させるために使用されうるエンコーダ・ツールである。ベースバンドに対応する成分をもたない拡張帯域における強いスペクトル成分は（そしてその逆も）拡張誤差と考えられてもよい。LVA機構は、そのような拡張誤差を減衰させるために使われる。図２ｂのくくり線によって見て取れるように、トーン性値２３１は個々のサブバンドについて（たとえばサブバンド0,1,2など）および／またはサブバンドのグループについて（たとえばサブバンド11および12を含むグループについて）計算されてもよい。

上記のように、信号トーン性は、高周波数帯域１０２における再構成されたサブバンドに適用されるノイズ・ブレンディングの量を決定するために重要な役割を演ずる。図２ｃに描かれるように、トーン性値２３２は、デコードされた（たとえば逆マトリクス処理され分離された）低域およびもとの高域について別個に計算される。このコンテキストにおけるデコード（たとえば逆マトリクス処理および分離）とは、エンコーダの前に適用されたエンコード段階（たとえば、マトリクス処理および結合の段階）が、デコーダにおいてなされるのと同じ仕方で取り消されることを意味する。換言すれば、そのようなデコーダ機構は、エンコーダにおいてすでにシミュレートされる。よって、スペクトル２１０のサブバンド0〜6を含む低域は、デコーダが再生成するであろうスペクトルのシミュレーションである。図２ｃはさらに、トーン性がこの場合、二つの大きな帯域（のみ）について計算されることを示している。これは、もとの信号のトーン性がSPXサブバンド（これは12個の変換係数（TC）にまたがる）毎にまたはSPXサブバンドのグループ毎に計算されるのと対照的である。図２ｃにおけるくくり線で示されるように、トーン性値２３２はベースバンド１０１におけるサブバンドのグループ（たとえばサブバンド0〜6を含む）についておよび高周波数帯域１０２におけるサブバンドのグループ（たとえばサブバンド7〜14を含む）について計算される。

上記に加えて、大分散減衰（LVA）計算は典型的には、並進された変換係数（TC）に対して計算される別のトーン性入力を必要とする。トーン性は、図２ａと同じスペクトル領域について、ただし異なるデータに対して、すなわちもとのサブバンドではなく並進された帯域サブバンドに対して測定される。これは、図２ｄに示されるスペクトル２２０に描かれている。トーン性値２３３は、並進されたサブバンドに基づいて、高周波数帯域１０２内のサブバンドおよび／またはサブバンドのグループについて決定されることが見て取れる。

全体として、典型的なSPXに基づくエンコーダは、もとのオーディオ信号のおよび／またはエンコード／デコード・プロセスの過程でもとのオーディオ信号から導出される信号のさまざまなサブバンド２０５、２０６および／またはサブバンドのグループに対して、トーン性値２３１、２３２、２３３を決定することが見て取れる。特に、トーン性値２３１、２３２、２３３は、もとのオーディオ信号の、オーディオ信号のエンコード／デコードされた低周波成分の、および／またはオーディオ信号の近似された高周波成分のサブバンドおよび／またはサブバンドのグループについて決定されてもよい。上記で概説したように、トーン性値２３１、２３２、２３３の決定は、典型的には、SPXに基づくエンコーダの全体的な計算努力のかなりの部分をなす。以下では、トーン性値２３１、２３２、２３３の決定に結びつけられた計算努力を著しく軽減し、それによりSPXに基づくエンコーダの計算上の複雑さを軽減することを許容する方法およびシステムが記述される。

サブバンド２０５、２０６のトーン性値は、時間tに沿ったサブバンド２０５、２０６の角速度ω(t)の発展を解析することによって決定されうる。角速度ω(t)は時間を追った角度または位相φの変動であってもよい。結果として、角加速度は、時間を追った角速度ω(t)の変動、すなわち角速度ω(t)の一階微分または位相φの二階微分として決定されてもよい。角速度ω(t)が時間に沿って一定であれば、サブバンド２０５、２０６はトーン性であり、角速度ω(t)が時間ともに変動するならば、サブバンド２０５、２０６はそれほどトーン性ではない。よって、角速度ω(t)の変化のレート（すなわち角加速度）は、トーン性の指標となる。たとえば、サブバンドqまたはサブバンドqのグループのトーン性値T_q ２３１、２３２、２３３は、次のように決定されてもよい。

本稿では、サブバンドqまたはサブバンドのグループqのトーン性値T_q ２３１、２３２、２３３（帯域化トーン性値とも称される）の決定を、時間領域から周波数領域への変換によって得られる種々の変換係数TCについての（すなわち種々の周波数ビンnについての）トーン性値T_nの決定と、ビン・トーン性値T_nに基づいての帯域化トーン性値T_q ２３１、２３２、２３３のその後の決定とに分割することが提案される。下記に示すように、帯域化トーン性値T_q ２３１、２３２、２３３のこの二段階決定は、帯域化トーン性値T_q ２３１、２３２、２３３の計算に結びつけられた計算努力のかなりの削減を許容する。

離散時間領域では、周波数ビンnの、ブロック（または離散時点）kにおける変換係数TCについてのビン・トーン性値T_n,kはたとえば次の公式に基づいて決定されうる。

ここで、φ_n,k、φ_n,k-1およびφ_n,k-2はそれぞれ時点k、k−1、k−2における周波数ビンnの変換係数TCの位相である。|TC_n,k|²は時点kにおける周波数ビンnの変換係数TCの二乗された絶対値である。w_n,kは時点kにおける周波数ビンnについての重み付け因子である。「anglenorm」関数は、2πの反復的な加算／減算によって、その引数を範囲(−π;π]に正規化する。「anglenorm」関数は表１に与えられる。

時点kにおける（またはブロックkについての）サブバンドq ２０５、２０６またはサブバンドq ２０５、２０６のグループのトーン性値T_q,k ２３１、２３２、２３３は、サブバンドq ２０５、２０６内またはサブバンドq ２０５、２０６のグループ内に含まれる時点kにおける（またはブロックkについての）諸周波数ビンnのトーン性値T_n,kに基づいて（たとえば、トーン性値T_n,kの和または平均に基づいて）決定されてもよい。本稿では、時間インデックス（またはブロック・インデックス）kおよび／またはビン・インデックスn／サブバンド・インデックスqは、簡明のために省略したことがありうる。

（特定のビンnについての）位相φ_kは、複素TCの実部および虚部から決定されてもよい。複素TCは、エンコーダ側で、たとえばオーディオ信号のN個のサンプルのブロックのMDSTおよびMDCT変換を実行して、それぞれ複素TCの実部および虚部を与えることによって、決定されうる。あるいはまた、複素数の時間領域から周波数領域への変換が使用されて、それにより複素TCを与えてもよい。すると、位相φ_kは
φ_k＝atan2(Im{TC_k},Re{TC_k})、 −π＜φ_k≦π
として決定されてもよい。atan2関数は、たとえばインターネット・リンク
http://de.wikipedia.org/wiki/Atan2#atan2
において特定されている。原理的には、atan2関数は、y＝Im{TC_k}および／またはx＝Re{TC_k})の負の値を考慮に入れる、y＝Im{TC_k}およびx＝Re{TC_k})の比の逆正接関数として記述することができる。図２ａ、２ｂ、２ｃ、２ｄのコンテキストで概説されるように、もとのオーディオ信号から導出される異なるスペクトル・データ２００、２１０、２２０に基づいて異なる帯域化トーン性値２３１、２３２、２３３が決定される必要があることがある。図２ａに示した概観に基づいて、発明者は、異なる帯域化トーン性の計算は実際には同じデータに基づいている、特に同じ変換係数（TC）に基づいていることに気がついた。

１．もとの高周波数帯域TCのトーン性は、SPX再送戦略およびLVAを決定するために、またノイズ・ブレンディング因子bを計算するために使われる。換言すれば、もとの高周波数帯域１０２のTCのビン・トーン性値T_nは、高周波数帯域１０２内の帯域化トーン性値２３１および帯域化トーン性値２３２を決定するために使われてもよい。

２．分離／逆マトリクス処理された低域TCのトーン性は、ノイズ・ブレンディング因子bを決定するために使われ、――高域への並進後に――LVA計算において使われる。換言すれば、オーディオ信号のエンコード／デコードされた低周波成分（スペクトル２１０）のTCに基づいて決定されるビン・トーン性値T_nは、ベースバンド１０１における帯域化トーン性値２３２を決定するためおよび高周波数帯域１０２内の帯域化トーン性値２３３を決定するために使われる。これは、スペクトル２２０の高周波数帯域１０２内のサブバンドのTCは、ベースバンド１０１における一つまたは複数のエンコード／デコードされたサブバンドの、高周波数帯域１０２における一つまたは複数のサブバンドへの並進によって得られるという事実による。この並進プロセスは、コピーされたTCのトーン性に影響せず、よって、オーディオ信号のエンコード／デコードされた低周波成分（スペクトル２１０）のTCに基づいて決定されるビン・トーン性値T_nの再利用を許容する。

３．分離された／逆マトリクス処理された低域TCは典型的には、もとのTCと、結合領域において異なるだけである（マトリクス処理は完全に可逆であるとする。つまり、逆マトリクス処理の演算はもとの変換係数を再現するとする）。SPXスタート周波数２０１と結合ビギン（cplbegin）周波数（図示した例ではサブバンド2にあるとしている）との間のサブバンドについての（またTCについての）トーン性計算は、未修正のもとのTC（図２ａではスペクトル２１０におけるサブバンド0および1の明るい影によって示される）に基づき、よって分離された／逆マトリクス処理された低域TCについてともとのTCについてとで同じである。

上記の観察は、トーン性計算の一部は繰り返される必要がない、あるいは少なくとも完全に実行される必要がないことを示す。以前に計算された中間結果を共有、すなわち再利用することができるからである。多くの場合、以前に計算された値はこのように再利用されることができ、このことは計算コストを著しく軽減する。以下では、SPXに基づくエンコーダ内でのトーン性の決定に関係した計算コストを軽減することを許容するさまざまな施策が記述される。

図２ａにおけるスペクトル２００および２１０から見て取れるように、高周波数帯域１０２のサブバンド7〜14はスペクトル２００および２１０において同じである。よって、高周波数帯域１０２についての帯域化トーン性値２３１を、帯域化トーン性値２３２についても再利用することが可能なはずである。残念ながら、図２ａを見れば、根底にあるTCは同じであるとしても、トーン性は両方の場合において、異なる帯域構造について計算されていることが明らかになる。よって、トーン性値を再利用できるためには、トーン性計算を二つの部分に分割することが提案される。ここで、第一の部分の出力が帯域化トーン性値２３１および２３２を計算するために使用できる。

すでに上記で概説したように、帯域化トーン性T_qの計算は、各TCについてのビン毎のトーン性T_nを計算することと（ステップ１）、ビン・トーン性値T_nを平滑化し、帯域にグループ化するその後のプロセス（ステップ２）とに分離されることができる。これによりそれぞれのトーン性値T_q ２３１、２３２、２３３が与えられる。帯域化トーン性値T_q ２３１、２３２、２３３は、帯域化トーン性値の帯域またはサブバンド内に含まれるビンのビン・トーン性値T_nの和に基づいて、たとえば、ビン・トーン性値T_nの重み付けされた和に基づいて決定されてもよい。たとえば、帯域化トーン性値T_qは、関連するビン・トーン性値T_nの和を、対応する重み付け因子w_nの和で割ったものに基づいて決定されてもよい。さらに、帯域化トーン性値T_qの決定は、前記の（重み付けされた）和を、あらかじめ決定された（たとえば[0,1]の）値範囲に伸張および／またはマッピングすることを含んでいてもよい。ステップ１の結果から、任意の帯域化トーン性値T_qが導出できる。計算上の複雑さは主としてステップ１に存在することを注意しておくべきである。よって、これが、この二段階アプローチの効率上の利得をなす。

帯域化トーン性値T_qを決定するための二段階アプローチは図３ｂにおいて、高周波数帯域１０２のサブバンド7〜14について示されている。図示した例では、各サブバンドが、12個の対応する周波数ビンにおける12個のTCから構成されることが見て取れる。第一段階（ステップ１）では、サブバンド7〜14の周波数ビンについて、ビン・トーン性値T_n ３４１が決定される。第二段階（ステップ２）では、（高周波数帯域１０２における帯域化トーン性値T_q ２３１に対応する）帯域化トーン性値T_q ３１２を決定するためおよび（高周波数帯域１０２における帯域化トーン性値T_q ２３２に対応する）帯域化トーン性値T_q ３２２を決定するために、ビン・トーン性値T_n ３４１は異なる仕方でグループ化される。

結果として、帯域化トーン性値３２２および帯域化トーン性値３１２を決定するための計算上の複雑さは、帯域化トーン性値３１２、３２２が同じビン・トーン性値３４１を利用するので、ほとんど50%削減できる。これは、図３ａにおいて示されている。図３ａは、もとの信号の高域トーン性をノイズ・ブレンディングにも再利用し、結果として余計（参照符号３０２）な計算をなくすことによって、トーン性計算の数が削減できることを示している。同じことは、結合ビギン（cplbegin）周波数３０３より下のサブバンド0、1についてのビン・トーン性値３４１にも当てはまる。これらのビン・トーン性値３４１は、（ベースバンド１０１における帯域化トーン性値T_q ２３１に対応する）帯域化トーン性値３１１を決定するために使用でき、（ベースバンド１０１における帯域化トーン性値T_q ２３２に対応する）帯域化トーン性値３２１を決定するために再利用できる。

帯域化トーン性値を決定するための二段階アプローチが、エンコーダ出力に関して透明であることを注意しておくべきである。換言すれば、帯域化トーン性値３１１、３１２、３２１および３２２は二段階計算によって影響されず、よって一段階計算において決定される帯域化トーン性値２３１、２３２と同一である。

ビン・トーン性値３４１の再利用は、スペクトル並進のコンテキストでも応用されうる。そのような再利用シナリオは、典型的には、スペクトル２１０のベースバンド１０１からの逆マトリクス処理された／分離されたサブバンドに関わる。これらのサブバンドの帯域化トーン性値３２１は、ノイズ・ブレンディング因子bを決定するときに計算される（図３ａ参照）。ここでもまた、帯域化トーン性値３２１を決定するために使われている同じTCの少なくともいくつかは、大分散減衰（LVA）を制御する帯域化トーン性値２３３を計算するために使われる。図３ａおよび３ｂのコンテキストで概説した第一の再利用シナリオとの相違は、TCが、LVAトーン性値２３３の計算に使われる前にスペクトル並進を受けるということである。しかしながら、あるビンのビン毎トーン性T_n ３４１がその近隣のビンのトーン性とは独立であることを示すことができる。結果として、ビン毎トーン性値T_n ３４１は、TCについてしたのと同じ仕方で周波数において並進できる（図３ｄ参照）。これは、ノイズ・ブレンディングのためにベースバンド１０１において計算されたビン・トーン性値T_n ３４１を、高周波数帯域１０２においてLVAの計算において再利用することを可能にする。これは図３ｃに示されている。図３ｃでは、再構成された高周波数帯域１０２におけるサブバンドがどのようにスペクトル２１０のベースバンド１０１からのサブバンド0〜5から導出されるかが示されている。スペクトル並進プロセスによれば、ベースバンド１０１からのサブバンド0〜5内に含まれる周波数ビンのビン・トーン性値T_n ３４１は、帯域化トーン性値T_q ２３３を決定するために再利用できる。結果として、帯域化トーン性値T_q ２３３を決定するための計算努力が、参照符号３０３によって示されるように、著しく軽減される。ここでもまた、エンコーダ出力は、拡張帯域トーン性２３３を導出するこの修正された仕方によって影響されないことを注意しておくべきである。

全体として、帯域化トーン性値T_qの決定を、ビン毎トーン性値T_nを決定する第一段階とビン毎トーン性値T_nから帯域化トーン性値T_qを決定するその後の第二段階を含む二段階アプローチに分解することによって、帯域化トーン性値T_qの計算に関係する全体的な計算上の複雑さが軽減できることが示された。特に、この二段階アプローチは、ビン毎トーン性値T_nを複数の帯域化トーン性値T_qの決定のために再利用することを許容し（再利用の可能性を示す参照符号３０１、３０２、３０３によって示されるように）、それにより全体的な計算上の複雑さを低減することが示された。

二段階アプローチおよびビン・トーン性値の再利用から帰結するパフォーマンス改善は、トーン性が典型的に計算されるビンの数を比較することによって定量化することができる。もとの方式は、
2(spxend−spxstart)＋(sxpend−spxbegin)＋6
個の周波数ビンについてトーン性を計算する（ここで、追加の6個のトーン性値は、SPXに基づくエンコーダ内での固有のノッチ・フィルタを構成するために使われる）。計算されたトーン性値を上記のように再利用することによって、トーン性値が決定されるビンの数は
spxend−spxstart−cplbegin＋spxstart
＋min(spxend−spxbegin＋3, spxbegin−spxstart)
=spxend−cplbegin＋min(spxend−spxbegin＋3, spxbegin−spxstart)
に減る（ここで、追加の3個のトーン性値は、SPXに基づくエンコーダ内での固有のノッチ・フィルタを構成するために使われる）。この最適化前後にトーン性が計算されるビンの比は、トーン性アルゴリズムについてのパフォーマンス改善（および計算量削減）を与える。二段階アプローチは典型的には、帯域化トーン性値の直接計算よりやや複雑になることは注意しておくべきである。よって、完全なトーン性計算のためのパフォーマンス利得（すなわち、計算量削減）は、種々のビットレートについて表２に見出される計算されるトーン性ビンの比よりはやや低くなる。

トーン値を計算するための計算上の複雑さの50%以上の削減が達成できることが見て取れる。

上記で概説したように、二段階アプローチはエンコーダの出力に影響しない。以下では、SPXベースのエンコーダの計算上の複雑さを軽減するためのさらなる施策が記述されるが、こちらはエンコーダの出力に影響しうる。しかしながら、知覚的な試験によれば――平均的には――これらのさらなる施策はエンコードされるオーディオ信号の知覚される品質に影響しないことが示されている。以下に記述される施策は、本稿に記載される他の施策の代わりにまたはそれに追加して使用されうる。

たとえば図３ｃのコンテキストにおいて示されるように、帯域化トーン性値T_low ３２１およびT_high ３２２はノイズ・ブレンディング因子bの計算のための基礎となる。トーン性は、オーディオ信号に含まれるノイズの量と多かれ少なかれ逆の関係にある属性として解釈できる（つまり、よりノイズが多ければトーン性が低く、逆もまたしかり）。ノイズ・ブレンディング因子bは
b＝T_low・（1−var{T_low,T_high}）＋T_high・（var{T_low,T_high}）
として決定されてもよい。ここで、T_low ３２１はデコーダ・シミュレートされた低域のトーン性であり、T_high ３２２はもとの高域のトーン性であり、var{T_low,T_high}＝（(T_low−T_high)／(T_low＋T_high)）²は二つのトーン性値T_low ３２１およびT_high ３２２の分散である。

ノイズ・ブレンディングの目的は、再生成される高域がもとの高域のように聞こえるようにするのに必要なだけのノイズを再生成される高域に挿入することである。源トーン性値（高周波数帯域１０２における並進されたサブバンドのトーン性を反映）および目標トーン性値（もとの高周波数帯域１０２におけるサブバンドのトーン性を反映）は、所望される目標ノイズ・レベルを決定するために考慮に入れられるべきである。発明者は、真の源トーン性は、デコーダ・シミュレートされる低域のトーン性値T_low ３２１によっては正しく記述されず、並進された高域コピーのトーン性値T_copy ３２３によって記述されることに気づいた（図３ｃ参照）。トーン性値T_copy ３２３は、図３ｃにおけるくくり線によって示されるように、高周波数帯域１０２のもとのサブバンド7〜14を近似するサブバンドに基づいて決定されてもよい。ノイズ・ブレンディングが実行されるのは並進された高域に対してであり、よって、高域に実際にコピーされている低域TCのトーン性のみが追加されるべきノイズの量に影響するべきである。

上記の公式によって示されるように、現在のところ、低域からのトーン性値T_low ３２１が真の源トーン性の推定値として使われている。この推定値の精度に影響する二つの場合がありうる。

１．高域を近似するために使われる低域が、高域より小さいまたは高域と同じであり、エンコーダは帯域途中でのラップアラウンドに遭遇しない（すなわち、目標帯域がコピー領域（すなわち、spxstartとspxbeginの間の領域）の終わりにある利用可能な諸源帯域より大きい）。エンコーダは典型的には、目標SPX帯域内でのそのようなラップアラウンド状況を避けようとする。これは図３ｃに示されており、ここでは（目標SPX帯域内でのサブバンド0に続くサブバンド6のラップアラウンド状況を避けるために）並進されたサブバンド5にサブバンド0および1が続いている。この場合、低域は典型的には完全に上に、可能性としては複数回、高域にコピーされる。すべてのTCがコピーされるので、低域についてのトーン性推定値は、並進された高域のトーン性推定値にかなり近くなるはずである。

２．低域のほうが高域より大きい。この場合、低域の低いほうの部分のみが高域にコピーされる。トーン性値T_low ３２１はすべての低域TCについて計算されるので、並進された高域のトーン性値T_copy ３２３は、信号属性に依存し、かつ低域と高域のサイズ比に依存して、トーン性値T_low ３２１から逸脱しうる。

よって、トーン性値T_low ３２１の使用は、特にトーン性値T_low ３２１を決定するために使われるサブバンド0〜6の全部は高周波数帯域１０２に並進されない場合（たとえば図３ｃに示される例でそうであるように）には、不正確なノイズ・ブレンディング因子bにつながりうる。高周波数帯域１０２にコピーされないサブバンド（たとえば図３ｃのサブバンド6）が有意なトーン性の内容を有している場合には、有意な不正確さが発生しうる。よって、並進された高域の帯域化トーン性値T_copy ３２３（SPXスタート周波数２０１からSPXビギン周波数２０２まで進むデコーダ・シミュレートされた低域の帯域化トーン性値T_low ３２１ではなく）に基づいてノイズ・ブレンディング因子bを決定することが提案される。特に、ノイズ・ブレンディング因子bは、
b＝T_copy・（1−var{T_copy,T_high}）＋T_high・（var{T_copy,T_high}）
として決定されてもよい。ここで、var{T_copy,T_high}＝（(T_copy−T_high)／(T_copy＋T_high)）²は二つのトーン性値T_copy ３２３とT_high ３２２の分散である。

SPXに基づくエンコーダの改善された品質を提供する可能性に加えて、並進された高域の帯域化トーン性値T_copy ３２３（デコーダ・シミュレートされた低域の帯域化トーン性値T_low ３２１ではなく）の使用は、SPXに基づくオーディオ・エンコーダの低下した計算上の複雑さにつながりうる。これは、上述した、並進された高域が低域より狭い場合２について特に当てはまる。この恩恵は、低域と高域のサイズの不一致とともに大きくなる。源トーン性が計算される帯域の量は
min{spxbegin−spxstart, spxend−sxpbegin}
となりうる。ここで、数(spxbegin−spxstart)は、ノイズ・ブレンディング因子bがデコーダ・シミュレートされた低域の帯域化トーン性値T_low ３２１に基づいて決定される場合に適用され、数(spxend−spxbegin)は、ノイズ・ブレンディング因子bが並進された高域の帯域化トーン性値T_copy ３２３に基づいて決定される場合に適用される。よって、ある実施形態では、SPXに基づくエンコーダは、(spxbegin−spxstart)と(spxend−sxpbegin)のうちの最小に依存して、ノイズ・ブレンディング因子bの決定のモードを選択するよう構成されていてもよい（帯域化トーン性値T_low ３２１に基づく第一のモードと帯域化トーン性値T_copy ３２３に基づく第二のモード）。それにより、（特に(spxend−sxpbegin)が(spxbegin−spxstart)より小さい場合）計算上の複雑さが軽減される。

ノイズ・ブレンディング因子bを決定するための上記の修正された方式は、帯域化トーン性値T_copy ３２３および／またはT_high ３２２を決定するための二段階アプローチと組み合わされてもよいことを注意しておくべきである。この場合、帯域化トーン性値T_copy ３２３は、高周波数帯域１０２に並進された周波数ビンのビン・トーン性値T_n ３４１に基づいて決定される。再構成される高周波数帯域１０２に寄与する周波数ビンは、spxstart ２０１とspxbegin ２０２の間にある。計算上の複雑さに関する最悪ケースでは、spxstart ２０１とspxbegin ２０２の間のすべての周波数ビンが再構成される高周波数帯域１０２に寄与する。他方、他の多くの場合には（たとえば図３ｃに示されるような）、spxstart ２０１とspxbegin ２０２の間の周波数ビンの部分集合のみが再構成される高周波数帯域１０２にコピーされる。これに鑑み、ある実施形態では、ノイズ・ブレンディング因子bは、ビン・トーン性値T_n ３４１を使って、すなわち帯域化トーン性値T_copy ３２３を決定するための上述した二段階アプローチを使って、帯域化トーン性値T_copy ３２３に基づいて決定される。二段階アプローチを使うことによって、たとえ(spxbegin−spxstart)が(spxend−sxpbegin)より小さい場合であっても、計算上の複雑さが、spxstart ２０１とspxbegin ２０２の間の周波数範囲におけるビン・トーン性値T_n ３４１を決定するために必要とされる計算上の複雑さによって制限される。換言すれば、二段階アプローチは、たとえ(spxbegin−spxstart)が(spxend−sxpbegin)より小さい場合であっても、帯域化トーン性値T_copy ３２３を決定するための計算量が(spxbegin−spxstart)の間に含まれるTCの数によって制限されることを保証する。よって、ノイズ・ブレンディング因子bは、帯域化トーン性値T_copy ３２３に基づいて一貫して決定できる。それでも、トーン性値が決定されるべき結合領域（cplbeginからspxbegin）におけるサブバンドを決定するために、(spxbegin−spxstart)と(spxend−sxpbegin)の最小を決定することが有益でありうる。例として、(spxbegin−spxstart)が(spxend−sxpbegin)より大きい場合には、周波数領域(spxbegin−spxstart)のサブバンドの少なくともいくつかについてはトーン性値を決定することは要求されない。それにより計算上の複雑さが軽減される。

図３ｃで見て取れるように、ビン・トーン性値から帯域化トーン性値を決定するための二段階アプローチは、ビン・トーン性値のかなりの再利用を許容し、それにより計算上の複雑さを軽減する。ビン・トーン性値の決定は主として、もとのオーディオ信号のスペクトル２００に基づくビン・トーン性値の決定に還元される。しかしながら、結合の場合、ビン・トーン性値は、cplbegin ３０３とspxbegin ２０２の間の周波数ビンの一部または全部について（図３ｃの暗い影付きのサブバンド2〜6について）結合された／分離されたスペクトル２１０に基づいて決定される必要があることがある。換言すれば、以前に計算されたビンごとのトーン性を再利用する上述した手段を活用したのちには、トーン性再計算を必要としうる帯域は結合状態にある帯域だけである（図３ｃ参照）。

結合は、通例、多チャネル信号（たとえばステレオ信号または5.1多チャネル信号）の、結合状態にあるチャネルの間の位相差を除去する。結合座標の周波数共有および時間共有は結合されるチャネルの間の相関をさらに高める。上記で概説したように、トーン性値の決定は、（時点kにおける）サンプルの現在ブロックおよび（たとえば時点k−1、k−2における）サンプルの一つまたは複数の先行ブロックの位相およびエネルギーに基づく。結合状態にあるすべてのチャネルの位相角は（結合の結果として）同じなので、それらのチャネルのトーン性値は、もとの信号のトーン性値よりも相関している。

SPXに基づくエンコーダに対する対応するデコーダは、エンコードされたオーディオ・データを含む受領されたビット・ストリームから該デコーダが生成する分離された信号へのアクセスをもつのみである。エンコーダ側におけるノイズ・ブレンディングおよび大分散減衰（LVA）のようなエンコード・ツールは典型的には、転置された（transposed）分離された低域信号からもとの高域信号を再生することを意図する比を計算するとき、このことを考慮に入れる。換言すれば、SPXに基づくオーディオ・エンコーダは典型的には、対応するデコーダが（分離されたオーディオ信号を表わす）エンコードされたデータへのアクセスをもつだけであることを考慮に入れる。よって、ノイズ・ブレンディングおよびLVAのための源トーン性は典型的には、現在のSPXに基づくエンコーダでは、（たとえば図２ａのスペクトル２１０に示されるような）分離された信号から計算される。しかしながら、分離された信号に基づいて（すなわち、スペクトル２１０に基づいて）トーン性を計算することは、概念的に意味をなすものの、その代わりにもとの信号からトーン性を計算することの知覚的な含意はそれほど明確ではない。さらに、分離された信号に基づくトーン性値の追加的な再計算が回避できる場合には、計算上の複雑さはさらに軽減されることができる。

この目的のために、（帯域化トーン性値３２１および２３３を決定するために）分離された信号のトーン性の代わりにもとの信号のトーン性を使うことの知覚上の影響を評価するために聴取実験を行なった。聴取実験の結果は、図４に示されている。複数の異なるオーディオ信号についてMUSHRA（MUltiple Stimuli with Hidden Reference and Anchor［隠された基準およびアンカーによる複数刺激］）試験が実行された。複数の異なるオーディオ信号のそれぞれについて、（左側の）バー４０１は、分離された信号に基づいて（スペクトル２１０を使って）トーン性値を決定するときに得られた結果を示し、（右側の）バー４０２は、もとの信号に基づいて（スペクトル２００を使って）トーン性値を決定するときに得られた結果を示す。見て取れるように、ノイズ・ブレンディングのためおよびLVAのためのトーン性値の決定のためにもとのオーディオ信号を使うときに得られるオーディオ品質は、平均的には、トーン性値の決定のために分離されたオーディオ信号を使うときに得られるオーディオ品質と同じである。

図４の聴取実験の結果は、トーン性値を決定するための計算上の複雑さは、（ノイズ・ブレンディングのために使われる）帯域化トーン性値３２１および／または帯域化トーン性値３２３および（LVAのために使われる）帯域化トーン性値２３３を決定するためにもとのオーディオ信号のビン・トーン性値３４１を再利用することによって、トーン性値を決定するための計算上の複雑さがさらに低減できることを示している。よって、エンコードされたオーディオ信号の知覚されるオーディオ品質に（平均的には）影響しないまま、SPXに基づくオーディオ・エンコーダの計算上の複雑さがさらに低減されることができる。

分離されたオーディオ信号に基づいて（すなわち、図３ｃのスペクトル２１０の暗い影付きのサブバンド2〜6に基づいて）帯域化トーン性値３２１および２３３を決定するときでさえ、結合に起因する位相の整列は、トーン性の決定に結びつけられた計算上の複雑さを軽減するために使用されてもよい。換言すれば、結合する帯域についてのトーン性の再計算が回避できない場合でさえ、分離された信号は、通常のトーン性計算を単純化するために使用されうる特別な属性を示す。特別な属性とは、結合されている（そしてその後分離される）チャネルすべてが同相であるということである。結合しているすべてのチャネルは結合する諸帯域について同じ位相φを共有するので、この位相φは、一つのチャネルについて一度計算されるだけでよく、その後は結合している他のチャネルのトーン性計算において再利用できる。特に、このことは、時点kにおける位相φkを決定するための上述した「atan2」演算が、結合状態にある多チャネル信号のチャネルすべてについて一度実行されるだけでよいことを意味する。

位相計算のために（分離されたチャネルの一つではなく）結合チャネル自身を使うことが、数値の観点から有益であると思われる。というのも、結合チャネルは結合状態にあるすべてのチャネルについての平均を表わすからである。結合状態にある諸チャネルについての位相再利用は、SPXエンコーダにおいて実装されている。位相値の再利用に起因するエンコーダ出力の変化はない。パフォーマンス利得は、256kbpsのビットレートの測定された構成について、（SPXエンコーダの計算努力の）約3%であるが、結合領域がSPXスタート周波数２０１のより近くで始まる（begin）、すなわち結合ビギン周波数３０３がSPXスタート周波数２０１のより近くにある、より低いビットレートについては、パフォーマンス利得が高まることが期待される。

以下では、トーン性の決定に結びつけられた計算上の複雑さを軽減するためのさらなるアプローチが記述される。このアプローチは、本稿において記述される他の方法の代わりにまたはそれに加えて使用されてもよい。必要とされるトーン性計算の数を減らすことに焦点を当てた上記で提示した最適化とは対照的に、以下のアプローチはトーン性計算自身を高速化することに向けられる。特に、以下のアプローチは、ブロックk（インデックスkはたとえば時点kに対応する）についての周波数ビンnのビン・トーン性値T_n,kを決定するための計算上の複雑さを軽減することに向けられる。

ブロックk内のビンnのSPXビン毎トーン性値T_n,kは、

として計算されてもよい。ここで、
Y_n,k＝Re{TC_n,k}²＋Im{TC_n,k}²
はビンnおよびブロックkのパワーであり、w_n,kは重み付け因子であり、
φ_n,k＝atan2(Re{TC_n,k},Im{TC_n,k})
はビンnおよびブロックkの位相角である。ビン・トーン性値T_n,kについての上述した公式は、（上記のビン・トーン性値T_n,kについて与えた公式のコンテキストにおいて概説したような）位相角の加速を示す。ビン・トーン性値T_n,kを決定するための他の公式が使用されてもよいことを注意しておくべきである。トーン性計算の加速（すなわち、計算上の複雑さの軽減）は、主として、重み付け因子wの決定に結びつけられた計算上の複雑さの低減に向けられる。

重み付け因子wは次式のように定義されてもよい。

重み付け因子wは、四乗根を平方根およびバビロニア人／ヘロンの方法の最初の反復工程で置換することによって、すなわち次のように近似されてもよい。

一つの平方根演算の除去はすでに効率を増しているが、まだブロック毎、チャネル毎および周波数ビン毎に一つの平方根演算および除算がある。計算上、より効果的な異なる近似が、重み因子wを次のように書き換えることによって、対数領域において導出できる。

場合分けは、対数領域における差は(Y_n,k≦Y_n,k-1)または(Y_n,k＞Y_n,k-1)のいずれであるかによらず常に負であることに留意することによって、廃止でき、それにより次式が得られる。

記法の便のため、インデックスは落とされ、Y_n,kおよびY_n,k-1はそれぞれyおよびzで置換される。

変数yおよびzは今やそれぞれ指数e_y,e_zと規格化された仮数m_y,m_zに分離されることができ、それにより次式が得られる。

すべて0の仮数という特殊な場合は別途扱われるとすると、規格化された仮数m_y,m_zは区間[0.5;1]内である。この区間におけるlog₂x関数は、線形関数log₂x〜2x−2によって近似されてもよく、最大誤差0.0861、平均誤差0.0573となる。近似の精度および／または計算上の複雑さに依存して、他の近似（たとえば多項式近似）が可能であることもあることを注意しておくべきである。上述した近似を使うと、次式が得られる。

仮数近似の差はいまだ0.0861の最大絶対誤差をもつが、平均誤差は0であり、よって最大誤差の範囲は[0;0.0861]（正に偏っている）から[−0.0861;0.0861]に変わる。

4で割った結果を整数部と余りに分けると、次のようになる。

ここで、int{…}演算は打ち切りによってそのオペランドの整数部分を返し、mod{a,b}演算はa/bの余りを返す。重み付け因子wの上記の近似では、第一の式

は、固定小数点アーキテクチャ上で、

による単純な右へのシフト演算に相当する。第二の式

は、2の冪を含むあらかじめ決定されたルックアップテーブルを使って計算できる。ルックアップテーブルは、あらかじめ決定された近似誤差を与えるために、あらかじめ決定された数のエントリーを含んでいてもよい。

好適なルックアップテーブルを設計する目的のために、仮数の近似誤差をリコールすることが有用である。ルックアップテーブルの量子化によって導入される誤差は、0.0573である仮数の平均絶対近似誤差を4で割ったものより著しく低い必要はない。これは、0.0143より小さな所望される量子化誤差を与える。64エントリーのルックアップテーブルを使う線形量子化は、1/128＝0.0078の好適な量子化誤差を与える。よって、あらかじめ決定されたルックアップテーブルは、総数64のエントリーを含んでいてもよい。一般に、あらかじめ決定されたルックアップテーブルにおけるエントリーの数は、対数関数の選択された近似と揃えられるべきである。特に、ルックアップテーブルによって与えられる量子化の精度は対数関数の近似の精度に基づくべきである。

上記の近似方法の知覚的な評価によれば、ビン・トーン性値の推定誤差が正に偏っているときに、すなわち近似が重み付け因子を過小評価するよりも重み付け因子を（よって結果として得られるトーン性値を）過大評価する可能性が高いときに、エンコードされるオーディオ信号の全体的な品質が改善されることが示された。

そのような過大評価を達成するために、ルックアップテーブルにバイアスが加えられてもよい。たとえば、量子化きざみの半分のバイアスが加えられてもよい。量子化きざみの半分のバイアスは、インデックスを四捨五入〔丸め〕する代わりに、インデックスを切り捨て〔打ち切り〕して量子化ルックアップテーブルに入れることによって実装されてもよい。バビロニア人／ヘロンの方法によって得られる近似にマッチするために、重み付け因子を0.5に制限することが有益であることもある。

対数領域近似関数から帰結する重み付け因子wの近似５０３は、その平均および最大誤差の限界とともに図５ａに示されている。図５ａはまた、四乗根を使った厳密な重み付け因子５０１およびバビロニア人近似を使って決定された重み付け因子５０２をも示している。対数領域近似の知覚的品質は、MUSHRA試験方式を使った聴取試験において検証された。図５ｂでは、対数近似を使った知覚される品質（左側のバー５１１）がバビロニア人の近似を使った知覚的品質（中央のバー５１２）および四乗根の場合（右側のバー５１３）と平均的に同様であることが見て取れる。他方、対数近似を使うことによって、全体的なトーン性計算の計算上の複雑さは約28%軽減されうる。

本稿では、SPXに基づくオーディオ・エンコーダの計算上の複雑さを軽減するためのさまざまな方式を記述してきた。トーン性計算は、SPXに基づくエンコーダの計算上の複雑さに対する主要な寄与因子と同定されている。記載される方法は、すでに計算されたトーン性値の再利用を許容し、それにより全体的な計算上の複雑さを軽減する。すでに計算されたトーン性値を再利用しても、典型的には、SPXに基づくオーディオ・エンコーダの出力は影響されないままである。さらに、ノイズ・ブレンディング因子bを決定するための代替的な諸方法が記述された。これは計算上の複雑さのさらなる削減を許容する。さらに、ビン毎トーン性重み付け因子についての効率的な近似方式が記述された。これは、知覚されるオーディオ品質を損なうことなく、トーン性計算自身を低減するために使用されうる。本稿に記載される諸方式の結果として、SPXに基づくオーディオ・エンコーダについての計算上の複雑さの、――構成およびビットレートに依存して――50%程度またはそれ以上の全体的な軽減が期待できる。

本稿に記載される方法およびシステムは、ソフトウェア、ファームウェアおよび／またはハードウェアとして実装されてもよい。ある種のコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントは、たとえば、ハードウェアとしておよび／または特定用途向け集積回路として実装されてもよい。記載される方法およびシステムにおいて遭遇する信号は、ランダム・アクセス・メモリまたは光記憶媒体のような媒体に記憶されてもよく、電波ネットワーク、衛星ネットワーク、無線ネットワークまたは有線ネットワーク、たとえばインターネットを介して転送されてもよい。本稿に記載される方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および／またはレンダリングするために使われるポータブル電子装置または他の消費者設備である。

当業者は、上記で概説したさまざまな概念を応用して、現在のオーディオ符号化要求に特に適合したさらなる実施形態に到達することができるであろう。

いくつかの態様を記載しておく。
〔態様１〕
オーディオ信号の第一の周波数サブバンド（２０５）について第一の帯域化トーン性値（３１１、３１２）を決定する方法であって、前記第一の帯域化トーン性値は、前記オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似するために使われ、当該方法は：
・前記オーディオ信号のサンプルのブロックに基づいて、対応する一組の周波数ビンにおける一組の変換係数を決定する段階と；
・前記一組の変換係数を使って前記一組の周波数ビンについての一組のビン・トーン性値（３４１）をそれぞれ決定する段階と；
・前記第一の周波数サブバンド内にある前記一組の周波数ビンの二つ以上の対応する隣り合う周波数ビンについて前記一組のビン・トーン性値の二つ以上からなる第一の部分集合を組み合わせて、それにより前記第一の周波数サブバンドについての前記第一の帯域化トーン性値（３１１、３１２）を与える段階とを含む、
方法。
〔態様２〕
態様１記載の方法であって、さらに：
・第二の周波数サブバンド内にある前記一組の周波数ビンの二つ以上の対応する隣り合う周波数ビンについて前記一組のビン・トーン性値の二つ以上からなる第二の部分集合を組み合わせることによって、前記第二の周波数サブバンドにおける第二の帯域化トーン性値（３２１、３２２）を決定する段階を含み、前記第一および第二の周波数サブバンドは、少なくとも一つの共通の周波数ビンを含み、前記第一および第二の部分集合は対応する少なくとも一つの共通のビン・トーン性値を含む、
方法。
〔態様３〕
態様１記載の方法であって、
・前記オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似することは、前記低周波成分に対応する低周波数帯域（１０１）からの一つまたは複数の周波数ビンの一つまたは複数の低周波数変換係数を、前記高周波成分に対応する高周波数帯域（１０２）にコピーすることを含んでおり、
・前記第一の周波数サブバンドは前記低周波数帯域内にあり；
・第二の周波数サブバンドが前記高周波数帯域内にあり；
・当該方法がさらに、前記第二の周波数サブバンドにコピーされた前記周波数ビンのうちの二つ以上の対応する周波数ビンについて前記一組のビン・トーン性値の二つ以上からなる第二の部分集合を組み合わせることによって、前記第二の周波数サブバンドにおける第二の帯域化トーン性値（２３３）を決定する段階を含み、
・前記第二の周波数サブバンドは、前記第一の周波数サブバンド内にある周波数ビンからコピーされた少なくとも一つの周波数ビンを含み、
・前記第一および第二の部分集合は対応する少なくとも一つの共通のビン・トーン性値を含む、
方法。
〔態様４〕
態様１ないし３のうちいずれか一項記載の方法であって、
・当該方法はさらに、前記オーディオ信号のブロックの対応するシーケンスに基づいて、変換係数の組のシーケンスを決定することを含み；
・特定の周波数ビンについて、変換係数の組の前記シーケンスは、特定の諸変換係数のシーケンスを含み；
・前記特定の周波数ビンについて前記ビン・トーン性値を決定することは：
・前記特定の諸変換係数のシーケンスに基づいて位相のシーケンスを決定し、
・前記位相のシーケンスに基づいて位相加速を決定することを含み；
・前記特定の周波数ビンについての前記ビン・トーン性値は前記位相加速の関数である、
方法。
〔態様５〕
態様１ないし４のうちいずれか一項記載の方法であって、前記一組のビン・トーン性値の二つ以上からなる第一の部分集合を組み合わせることが：
・前記二つ以上のビン・トーン性値を平均すること；または
・前記二つ以上のビン・トーン性値を合計することを含む、
方法。
〔態様６〕
態様１ないし５のうちいずれか一項記載の方法であって、ある周波数ビンについてのビン・トーン性値は、同じ周波数ビンの変換係数にのみ基づいて決定される、方法。
〔態様７〕
態様１ないし６のうちいずれか一項記載の方法であって、
・前記第一の帯域化トーン性値は、SPXと称されるスペクトル拡張の方式を使って前記オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似するために使われ；
・前記第一の帯域化トーン性値は、SPX座標再送戦略、ノイズ・ブレンディング因子および／または大分散減衰を決定するために使われる、
方法。
〔態様８〕
ノイズ・ブレンディング因子を決定する方法であって、前記ノイズ・ブレンディング因子は、オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似するために使用され、前記高周波成分は高周波数帯域における一つまたは複数の高周波数サブバンド信号を含み、前記低周波成分は低周波数帯域における一つまたは複数の低周波数サブバンド信号を含み、高周波成分を近似することは、一つまたは複数の低周波数サブバンド信号を高周波数帯域にコピーし、それにより一つまたは複数の近似された高周波数サブバンド信号を与えることを含み、当該方法は；
・前記一つまたは複数の高周波数サブバンド信号に基づいて目標帯域化トーン性値（３２２）を決定する段階と；
・前記一つまたは複数の近似された高周波数サブバンド信号に基づいて源帯域化トーン性値（３２３）を決定する段階と；
・前記目標および源帯域化トーン性値に基づいて前記ノイズ・ブレンディング因子を決定する段階とを含む、
方法。
〔態様９〕
態様８記載の方法であって、前記ノイズ・ブレンディング因子を、前記目標および源帯域化トーン性値の分散に基づいて決定することを含む、方法。
〔態様１０〕
態様８または９記載の方法であって、前記ノイズ・ブレンディング因子bを
b＝T_copy・（1−var{T_copy,T_high}）＋T_high・（var{T_copy,T_high}）
として決定することを含み、ここで、var{T_copy,T_high}＝（(T_copy−T_high)／(T_copy＋T_high)）²は源トーン性値T_copyと目標トーン性値T_highの分散である、方法。
〔態様１１〕
態様８ないし１０のうちいずれか一項記載の方法であって、前記ノイズ・ブレンディング因子は、前記オーディオ信号の前記高周波成分を近似するために前記一つまたは複数の近似された高周波数サブバンド信号に加えられるべきノイズの量を示す、方法。
〔態様１２〕
態様８ないし１１のうちいずれか一項記載の方法であって、
・前記低周波数帯域（１０１）は、コピーするために利用可能な低周波数サブバンドのうち最も低い周波数をもつ低周波数サブバンドを示すスタート帯域（２０１）を含み；
・前記高周波数帯域（１０１）は、近似されるべき高周波数サブバンドのうち最も低い周波数をもつ高周波数サブバンドを示すビギン帯域（２０２）を含み；
・前記高周波数帯域（１０２）は、近似されるべき高周波数サブバンドのうち最も高い周波数をもつ高周波数サブバンドを示すエンド帯域（２０３）を含み；
・当該方法は、前記スタート帯域と前記ビギン帯域の間の第一の帯域幅を決定することを含み：
・当該方法は、前記ビギン帯域と前記エンド帯域の間の第二の帯域幅を決定することを含む、
方法。
〔態様１３〕
態様１２記載の方法であって、さらに：
・前記第一の帯域幅が第二の帯域幅より小さい場合、前記スタート帯域と前記ビギン帯域の間の前記低周波数サブバンドの前記一つまたは複数の低周波数サブバンド信号（２０５）に基づいて、低帯域化トーン性値（３２１）を決定し、前記目標帯域化トーン性値（３２２）および前記低帯域化トーン性値（３２１）に基づいて前記ノイズ・ブレンディング因子を決定することを含む、
方法。
〔態様１４〕
態様１２記載の方法であって、さらに：
・前記一の帯域幅が前記第二の帯域幅以上である場合、前記スタート帯域と前記スタート帯域に前記第二の帯域幅を加えたものとの間にある前記低周波数サブバンドの前記一つまたは複数の低周波数サブバンド信号（２０５）に基づいて、前記源帯域化トーン性値（３２３）を決定することを含む、
方法。
〔態様１５〕
態様８ないし１４のうちいずれか一項記載の方法であって、ある周波数サブバンドの帯域化トーン性値を決定することが：
・前記オーディオ信号のサンプルのブロックに基づいて、対応する一組の周波数ビンにおける一組の変換係数を決定する段階と；
・前記一組の変換係数を使って前記一組の周波数ビンについての一組のビン・トーン性値（３４１）をそれぞれ決定する段階と；
・前記周波数サブバンド内にある前記一組の周波数ビンの二つ以上の対応する隣り合う周波数ビンについて前記一組のビン・トーン性値の二つ以上からなる第一の部分集合を組み合わせて、それにより前記周波数サブバンドの前記帯域化トーン性値（３１１、３１２）を与える段階とを含む、
方法。
〔態様１６〕
オーディオ信号の第一の周波数ビンについての第一のビン・トーン性値を決定する方法であって、前記第一のビン・トーン性値は、前記オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似するために使用され、当該方法は：
・前記オーディオ信号のサンプルのブロックの対応するシーケンスについて前記第一の周波数ビンにおける変換係数のシーケンスを与える段階と；
・前記変換係数のシーケンスに基づいて位相のシーケンスを決定する段階と；
・前記位相のシーケンスに基づいて位相加速を決定する段階と；
・現在の変換係数に基づいてビン・パワーを決定する段階と；
・相続く変換係数のパワーの比の四乗根を示す重み付け因子を、対数近似を使って近似する段階と；
・前記ビン・パワーおよび前記近似された重み付け因子によって前記位相加速に重み付けし、前記第一のビン・トーン性値を与える段階とを含む、
方法。
〔態様１７〕
態様１６記載の方法であって、
・前記変換係数のシーケンスは、現在の変換係数と、直前の変換係数とを含み、
・前記重み付け因子は、前記現在の変換係数および前記直前の変換係数のパワーの比の四乗根を示す、
方法。
〔態様１８〕
態様１６または１７記載の方法であって、
・前記変換係数は実部および虚部を含む複素数であり；
・現在の変換係数のパワーが、該現在の変換係数の二乗された実部および二乗された虚部に基づいて決定され；
・位相が、前記現在の変換係数の実部および虚部の逆正接関数に基づいて決定される、
方法。
〔態様１９〕
態様１６ないし１８のうちいずれか一項記載の方法であって、
・現在の位相加速が、現在の変換係数の位相に基づき、かつ二つ以上の直前の変換係数の位相に基づいて決定される、方法。
〔態様２０〕
態様１６ないし１９のうちいずれか一項記載の方法であって、前記重み付け因子を近似することは：
・相続く変換係数のシーケンスの現在のものを表わす現在の仮数および現在の指数を与える段階と；
・前記現在の仮数および前記現在の指数に基づいてあらかじめ決定されたルックアップテーブルについてのインデックス値を決定する段階であって、前記ルックアップテーブルは、複数のインデックス値と、該複数のインデックス値の対応する複数の指数関数値との間の関係を与えるものである、段階と；
・前記近似された重み付け因子を、前記インデックス値および前記ルックアップテーブルを使って決定する段階とを含む、
方法。
〔態様２１〕
態様２０記載の方法であって、前記対数近似は対数関数の線形近似を含む；および／または前記ルックアップテーブルが64個以下のエントリーを含む、方法。
〔態様２２〕
態様２０または２１記載の方法であって、前記重み付け因子を近似することは：
・前記仮数および前記指数に基づいて実数値のインデックス値を決定する段階と；
・前記実数値のインデックス値を打ち切るおよび／または丸めることによって前記インデックス値を決定する段階とを含む、
方法。
〔態様２３〕
態様１６ないし２２のうちいずれか一項記載の方法であって、前記重み付け因子を近似することは：
・現在の変換係数に先行する変換係数を表わす前の仮数および前の指数を与える段階と；
・前記現在の仮数、前記前の仮数、前記現在の指数および前記前の指数に適用される一つまたは複数の加算および／または減算演算に基づいて前記インデックス値を決定する段階とを含む、
方法。
〔態様２４〕
態様２３記載の方法であって、前記インデックス値が、(e_y−e_z＋2m_y−2m_z)に対するモジュロ演算を実行することによって決定され、ここで、e_yは前記現在の仮数、e_zは前記前の仮数、m_yは前記現在の指数、m_zは前記前の指数である、方法。
〔態様２５〕
多チャネル・オーディオ信号の複数の結合されたチャネルについての複数のトーン性値を決定する方法であって：
・前記複数の結合されたチャネルの第一のチャネルのサンプルのブロックの対応するシーケンスについて変換係数の第一のシーケンスを決定する段階と；
・前記第一の変換係数のシーケンスに基づいて位相の第一のシーケンスを決定する段階と；
・前記第一の位相のシーケンスに基づいて第一の位相加速を決定する段階と；
・前記第一のチャネルについての第一のトーン性値を、前記第一の位相加速に基づいて決定する段階と；
・前記複数の結合されたチャネルの第二のチャネルについてのトーン性値を、前記第一の位相加速に基づいて決定する段階とを含む、
方法。
〔態様２６〕
SPXと称されるスペクトル拡張に基づくエンコーダにおける多チャネル・オーディオ信号の第一のチャネルについての帯域化トーン性値を決定する方法であって、前記SPXに基づくエンコーダは、前記第一のチャネルの低周波成分から前記第一のチャネルの高周波成分を近似するよう構成されており；前記第一のチャネルは、前記SPXに基づくエンコーダによって前記多チャネル・オーディオ信号の一つまたは複数の他のチャネルと結合されており；前記帯域化トーン性値はノイズ・ブレンディング因子を決定するために使用され；前記帯域化トーン性値は、ノイズ・ブレンディングの前の近似された高周波成分のトーン性を示し；当該方法は：
・結合の前に、前記第一のチャネルに基づいて複数の変換係数を与える段階と；
・前記複数の変換係数に基づいて前記帯域化トーン性値を決定する段階とを含む、
方法。
〔態様２７〕
オーディオ信号の第一の周波数サブバンドについて第一の帯域化トーン性値を決定するよう構成されたシステムであって、前記第一の帯域化トーン性値は、前記オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似するために使われ、当該システムは：
・前記オーディオ信号のサンプルのブロックに基づいて、対応する一組の周波数ビンにおける一組の変換係数を決定する段階と；
・前記一組の変換係数を使って前記一組の周波数ビンについての一組のビン・トーン性値をそれぞれ決定する段階と；
・前記第一の周波数サブバンド内にある前記一組の周波数ビンの二つ以上の対応する隣り合う周波数ビンについて前記一組のビン・トーン性値の二つ以上からなる第一の部分集合を組み合わせて、それにより前記第一の周波数サブバンドについての前記第一の帯域化トーン性値を与える段階とを実行するよう構成されている、
システム。
〔態様２８〕
ノイズ・ブレンディング因子を決定するシステムであって、前記ノイズ・ブレンディング因子は、オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似するために使用され、前記高周波成分は高周波数帯域における一つまたは複数の高周波数サブバンド信号を含み、前記低周波成分は低周波数帯域における一つまたは複数の低周波数サブバンド信号を含み、高周波成分を近似することは、一つまたは複数の低周波数サブバンド信号を高周波数帯域にコピーし、それにより一つまたは複数の近似された高周波数サブバンド信号を与えることを含み、当該システムは；
・前記一つまたは複数の高周波数サブバンド信号に基づいて目標帯域化トーン性値を決定する段階と；
・前記一つまたは複数の近似された高周波数サブバンド信号に基づいて源帯域化トーン性値を決定する段階と；
・前記目標および源帯域化トーン性値に基づいて前記ノイズ・ブレンディング因子を決定する段階とを実行するよう構成されている、
システム。
〔態様２９〕
オーディオ信号の第一の周波数ビンについての第一のビン・トーン性値を決定するよう構成されたシステムであって、前記第一の帯域化トーン性値は、前記オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似するために使用され、当該システムは：
・前記オーディオ信号のサンプルのブロックの対応するシーケンスについて前記第一の周波数ビンにおける変換係数のシーケンスを与える段階と；
・前記変換係数のシーケンスに基づいて位相のシーケンスを決定する段階と；
・前記位相のシーケンスに基づいて位相加速を決定する段階と；
・現在の変換係数に基づいてビン・パワーを決定する段階と；
・相続く変換係数のパワーの比の四乗根を示す重み付け因子を、対数近似を使って近似する段階と；
・前記ビン・パワーおよび前記近似された重み付け因子によって前記位相加速に重み付けし、前記第一のビン・トーン性値を与える段階とを実行するよう構成されている、
システム。
〔態様３０〕
高周波再構成を使ってオーディオ信号をエンコードするよう構成されたオーディオ・エンコーダであって、態様２７ないし２９記載のシステムの一つまたは複数を有する、オーディオ・エンコーダ。
〔態様３１〕
プロセッサ上での実行のために、該プロセッサで実行されたときに態様１ないし２６のうちいずれか一項記載の方法段階を実行するために適応されている、ソフトウェア・プログラム。
〔態様３２〕
プロセッサ上での実行のために、コンピューティング装置で実行されたときに態様１ないし２６のうちいずれか一項記載の方法段階を実行するために適応されているソフトウェア・プログラムを有する記憶媒体。
〔態様３３〕
コンピュータ上で実行されたときに態様１ないし２６のうちいずれか一項記載の方法段階を実行するための実行可能命令を有する、コンピュータ・プログラム・プロダクト。

Claims

ノイズ・ブレンディング因子を決定する方法であって、前記ノイズ・ブレンディング因子は、オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似するために使用され、前記高周波成分は高周波数帯域における一つまたは複数の高周波数サブバンド信号を含み、前記低周波成分は低周波数帯域における一つまたは複数の低周波数サブバンド信号を含み、高周波成分を近似することは、一つまたは複数の低周波数サブバンド信号を高周波数帯域にコピーし、それにより一つまたは複数の近似された高周波数サブバンド信号を与えることを含み、当該方法は；
・前記一つまたは複数の高周波数サブバンド信号に基づいて目標帯域化トーン性値（３２２）を決定する段階と；
・前記一つまたは複数の近似された高周波数サブバンド信号に基づいて源帯域化トーン性値（３２３）を決定する段階と；
・前記目標および源帯域化トーン性値に基づいて前記ノイズ・ブレンディング因子を決定する段階とを含む、
方法。
請求項１記載の方法であって、前記ノイズ・ブレンディング因子bを
b＝T_copy・（1−var{T_copy,T_high}）＋T_high・（var{T_copy,T_high}）
として決定することを含み、ここで、var{T_copy,T_high}＝（(T_copy−T_high)／(T_copy＋T_high)）²は源トーン性値T_copyと目標トーン性値T_highの分散である、方法。
請求項１または２記載の方法であって、
・前記低周波数帯域（１０１）は、コピーするために利用可能な低周波数サブバンドのうち最も低い周波数をもつ低周波数サブバンドを示すスタート帯域（２０１）を含み；
・前記高周波数帯域（１０１）は、近似されるべき高周波数サブバンドのうち最も低い周波数をもつ高周波数サブバンドを示すビギン帯域（２０２）を含み；
・前記高周波数帯域（１０２）は、近似されるべき高周波数サブバンドのうち最も高い周波数をもつ高周波数サブバンドを示すエンド帯域（２０３）を含み；
・当該方法は、前記スタート帯域と前記ビギン帯域の間の第一の帯域幅を決定することを含み：
・当該方法は、前記ビギン帯域と前記エンド帯域の間の第二の帯域幅を決定することを含む、
方法。
請求項３記載の方法であって、さらに：
・前記第一の帯域幅が第二の帯域幅より小さい場合、前記スタート帯域と前記ビギン帯域の間の前記低周波数サブバンドの前記一つまたは複数の低周波数サブバンド信号（２０５）に基づいて、低帯域化トーン性値（３２１）を決定し、前記目標帯域化トーン性値（３２２）および前記低帯域化トーン性値（３２１）に基づいて前記ノイズ・ブレンディング因子を決定することを含む、
方法。
請求項３記載の方法であって、さらに：
・前記一の帯域幅が前記第二の帯域幅以上である場合、前記スタート帯域と前記スタート帯域に前記第二の帯域幅を加えたものとの間にある前記低周波数サブバンドの前記一つまたは複数の低周波数サブバンド信号（２０５）に基づいて、前記源帯域化トーン性値（３２３）を決定することを含む、
方法。
請求項１ないし５のうちいずれか一項記載の方法であって、ある周波数サブバンドの帯域化トーン性値を決定することが：
・前記オーディオ信号のサンプルのブロックに基づいて、対応する一組の周波数ビンにおける一組の変換係数を決定する段階と；
・前記一組の変換係数を使って前記一組の周波数ビンについての一組のビン・トーン性値（３４１）をそれぞれ決定する段階と；
・前記周波数サブバンド内にある前記一組の周波数ビンの二つ以上の対応する隣り合う周波数ビンについて前記一組のビン・トーン性値の二つ以上からなる第一の部分集合を組み合わせて、それにより前記周波数サブバンドの前記帯域化トーン性値（３１１、３１２）を与える段階とを含む、
方法。
オーディオ信号の第一の周波数ビンについての第一のビン・トーン性値を決定する方法であって、前記第一のビン・トーン性値は、前記オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似するために使用され、当該方法は：
・前記オーディオ信号のサンプルのブロックの対応するシーケンスについて前記第一の周波数ビンにおける変換係数のシーケンスを与える段階と；
・前記変換係数のシーケンスに基づいて位相のシーケンスを決定する段階と；
・前記位相のシーケンスに基づいて位相加速を決定する段階と；
・現在の変換係数に基づいてビン・パワーを決定する段階と；
・相続く変換係数のパワーの比の四乗根を示す重み付け因子を、対数近似を使って近似する段階と；
・前記ビン・パワーおよび前記近似された重み付け因子によって前記位相加速に重み付けし、前記第一のビン・トーン性値を与える段階とを含む、
方法。
請求項７記載の方法であって、前記重み付け因子を近似することは：
・相続く変換係数のシーケンスの現在のものを表わす現在の仮数および現在の指数を与える段階と；
・前記現在の仮数および前記現在の指数に基づいてあらかじめ決定されたルックアップテーブルについてのインデックス値を決定する段階であって、前記ルックアップテーブルは、複数のインデックス値と、該複数のインデックス値の対応する複数の指数関数値との間の関係を与えるものである、段階と；
・前記近似された重み付け因子を、前記インデックス値および前記ルックアップテーブルを使って決定する段階とを含む、
方法。
請求項８記載の方法であって、前記重み付け因子を近似することは：
・現在の変換係数に先行する変換係数を表わす前の仮数および前の指数を与える段階と；
・前記現在の仮数、前記前の仮数、前記現在の指数および前記前の指数に適用される一つまたは複数の加算および／または減算演算に基づいて前記インデックス値を決定する段階とを含む、
方法。
請求項９記載の方法であって、前記インデックス値が、(e_y−e_z＋2m_y−2m_z)に対するモジュロ演算を実行することによって決定され、ここで、e_yは前記現在の仮数、e_zは前記前の仮数、m_yは前記現在の指数、m_zは前記前の指数である、方法。
多チャネル・オーディオ信号の複数の結合されたチャネルについての複数のトーン性値を決定する方法であって：
・前記複数の結合されたチャネルの第一のチャネルのサンプルのブロックの対応するシーケンスについて変換係数の第一のシーケンスを決定する段階と；
・前記第一の変換係数のシーケンスに基づいて位相の第一のシーケンスを決定する段階と；
・前記第一の位相のシーケンスに基づいて第一の位相加速を決定する段階と；
・前記第一のチャネルについての第一のトーン性値を、前記第一の位相加速に基づいて決定する段階と；
・前記複数の結合されたチャネルの第二のチャネルについてのトーン性値を、前記第一の位相加速に基づいて決定する段階とを含む、
方法。
SPXと称されるスペクトル拡張に基づくエンコーダにおける多チャネル・オーディオ信号の第一のチャネルについての帯域化トーン性値を決定する方法であって、前記SPXに基づくエンコーダは、前記第一のチャネルの低周波成分から前記第一のチャネルの高周波成分を近似するよう構成されており；前記第一のチャネルは、前記SPXに基づくエンコーダによって前記多チャネル・オーディオ信号の一つまたは複数の他のチャネルと結合されており；前記帯域化トーン性値はノイズ・ブレンディング因子を決定するために使用され；前記帯域化トーン性値は、ノイズ・ブレンディングの前の近似された高周波成分のトーン性を示し；当該方法は：
・結合の前に、前記第一のチャネルに基づいて複数の変換係数を与える段階と；
・前記複数の変換係数に基づいて前記帯域化トーン性値を決定する段階とを含む、
方法。
オーディオ・デコード方法であって、
オーディオ信号の第一の周波数サブバンドについての第一の帯域化トーン性値を決定するよう構成されたシステムを有しており、高周波再構成を使ってオーディオ信号をエンコードするよう構成されているオーディオ・エンコーダから、エンコードされたオーディオ信号を受領する段階であって、
前記第一の帯域化トーン性値は、前記オーディオ信号の低周波成分に基づいて前記オーディオ信号の高周波成分を近似するために使用され、前記オーディオ信号は、前記第一の帯域化トーン性値および低周波数成分を含み、
前記システムは：
・前記オーディオ信号のサンプルのブロックに基づいて、対応する一組の周波数ビンにおける一組の変換係数を決定する段階と；
・前記一組の変換係数を使って前記一組の周波数ビンについての一組のビン・トーン性値をそれぞれ決定する段階と；
・前記第一の周波数サブバンド内にある前記一組の周波数ビンの二つ以上の対応する隣り合う周波数ビンについて前記一組のビン・トーン性値の二つ以上からなる第一の部分集合を組み合わせて、それにより前記第一の周波数サブバンドについての前記第一の帯域化トーン性値を与える段階とを実行するよう構成されており、
・前記システムはさらに、前記オーディオ信号のブロックの対応するシーケンスに基づいて、変換係数の組のシーケンスを決定するよう構成されており；
・特定の周波数ビンについて、変換係数の組の前記シーケンスは、特定の諸変換係数のシーケンスを含み；
・前記特定の周波数ビンについて前記ビン・トーン性値を決定することは：
・前記特定の諸変換係数のシーケンスに基づいて位相のシーケンスを決定し、
・前記位相のシーケンスに基づいて位相加速を決定することを含み；
・前記特定の周波数ビンについての前記ビン・トーン性値は前記位相加速の関数である、段階と；
受領されたオーディオ信号をデコードする段階と；
前記第一の帯域化トーン性値を使ってデコードされた低周波数成分に基づいて前記オーディオ信号の高周波数成分を再構成する段階とを含む、
オーディオ・デコード方法。
請求項１３記載の方法段階を実行するよう構成されているオーディオ・デコーダ。
プロセッサ上での実行のために、該プロセッサで実行されたときに請求項１ないし１３のうちいずれか一項記載の方法段階を実行するために適応されている、ソフトウェア・プログラム。