JP6185457B2

JP6185457B2 - 効率的なコンテンツ分類及びラウドネス推定

Info

Publication number: JP6185457B2
Application number: JP2014506898A
Authority: JP
Inventors: ミュント，ハーラルト; ビスワス，アリジット; マイスナー，ロルフ
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2011-04-28
Filing date: 2012-04-27
Publication date: 2017-08-23
Anticipated expiration: 2032-04-27
Also published as: WO2012146757A1; EP2702589B1; US9135929B2; CN103582913A; EP2702589A1; US20140039890A1; JP2014515124A; CN103582913B

Description

本明細書は、音声信号の効率的なコンテンツ分類及びラウドネス推定のための方法及びシステムに関する。特に、それは、オーディオエンコーダ内の効率的なコンテンツ分類及びゲート化ラウドネス推定に関する。

ＰＤＡ、スマートフォン、携帯電話及びポータブルメディアプレーヤーなどのポータブル携帯装置は、典型的には、オーディオ及び／又はビデオレンダリング機能を有し、重要なエンターテイメントプラットフォームになっている。この開発は、無線又は有線伝送機能の当該装置への普及の拡大によって促進される。Ｈｉｇｈ−ＥｆｆｉｃｉｅｎｃｙＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ（ＨＥ−ＡＡＣ）フォーマットなどのメディア伝送及び／又はストレージプロトコルのサポートによって、メディアコンテンツは、ポータブル携帯装置に連続的にダウンロード及び格納可能であり、これにより、メディアコンテンツの実質的に無制限の量を提供することができる。

ＨＥ−ＡＡＣは、ＩＳＯ／ＩＥＣ１４４９６−３のＭＰＥＧ−４オーディオプロファイルとして規定されるデジタルオーディオの不可逆データ圧縮方式である。それは、ストリーミングオーディオなどの低ビットレートアプリケーションについて最適化されたＬｏｗＣｏｍｐｌｅｘｉｔｙＡＡＣ（ＡＡＣＬＣ）の拡張である。ＨＥ−ＡＡＣバージョン１プロファイル（ＨＥ−ＡＡＣｖ１）は、スペクトルバンド複製（ＳＢＲ）を利用して、周波数領域における圧縮効率を向上させる。ＨＥ−ＡＡＣバージョン２プロファイル（ＨＥ−ＡＡＣｖ２）は、ステレオ信号の圧縮効率を向上させるため、ＳＢＲとパラメトリックステレオ（ＰＳ）とを結び付ける。それは、ＡＡＣｐｌｕｓコーデックの標準化された改良バージョンである。

デジタルブロードキャストの導入によって、特定の聴取環境にコンテンツを調整するため、受信側でゲイン値を制御することを可能にする時間可変的メタデータのコンセプトが確立された。一例として、対話についての全体的なラウドネス正規化情報（ｄｉａｌｎｏｒｍ）を含むドルビーデジタルに含まれるメタデータがある。本明細書及び請求項において、ドルビーデジタルという表現はドルビーデジタル及びドルビーデジタルプラス符号化システムの双方を含むと理解されることに留意すべきである。

異なるコンテンツタイプ及びメディアフォーマットにおけるラウドネスレベルの一貫性を保証するための１つの可能性は、ラウドネス正規化である。ラウドネス正規化の必須条件は、信号のラウドネスの推定である。ラウドネス推定の１つのアプローチが、ＩＴＵ−ＲＢＳ．１７７０−１勧告に提案されている。

ＩＴＵ−ＲＢＳ．１７７０−１勧告は、人間の聴力の心理音響モデルを考慮しながら、デジタルオーディオファイルのラウドネスを測定するためのアプローチである。それは、ヘッドエフェクトをモデル化するためのフィルタ及びハイパスフィルタにより各チャネルのオーディオ信号を前処理することを提案している。このとき、フィルタリングされた信号のパワーが、測定区間において推定される。マルチチャネルオーディオ信号について、ラウドネスは、すべてのチャネルの推定されたパワー値の加重和の対数として計算される。

ＩＴＵ−ＲＢＳ．１７７０−１勧告の１つの問題点は、すべての信号タイプが等しく扱われることである。長時間のサイレンスは、ラウドネスの結果を低下されることになるが、このサイレンスは主観的なラウドネスの印象に影響を与えない可能性がある。このようなポーズの一例は、２つの楽曲の間のサイレンスであり得る。

この問題に対処するシンプルであるが効率的な方法は、信号の主観的に有意な部分のみを考慮することである。この方法は、ゲート処理と呼ばれる。信号の各部分の優位性は、最小エネルギー、ラウドネスレベル閾値又は他の基準に基づき決定されてもよい。異なるゲート処理方法の具体例は、サイレンスゲート処理、適応的閾値ゲート処理及びスピーチゲート処理である。

ゲート処理のため、オーディオ信号に対する離散フーリエ変換（ＤＦＴ）及び多の処理が、典型的には実行される。しかしながら、これは、望ましくない追加的な処理努力を生じさせる。さらに、ラウドネス計算をゲート処理するためのオーディオ信号の異なるクラスへの分類は、典型的には不完全であり、ラウドネス計算に影響を与える分類ミスを生じさせる。

従って、ゲート処理及びラウドネス計算を向上させるためオーディオ分類を向上させる必要がある。さらに、ゲート処理における計算努力を低下させることが望ましい。

本出願は、デジタルオーディオ信号におけるスピーチ／非スピーチセグメントの検出に関する。検出結果は、デジタルオーディオ信号のラウドネスレベル値を計算するのに利用されてもよい。典型的には、スピーチ／非スピーチセグメントの検出は、デジタルオーディオ信号から抽出される複数の特徴の集約に依拠する。すなわち、デジタルオーディオ信号セグメントがスピーチ又は非スピーチセグメントであるか判断するため、多数の基準が利用される。

典型的には、これらの特徴の少なくとも一部は、セグメントのスペクトルの計算に基づき。スペクトルを計算するため、符号化システムに大きな計算負担を課すＤＦＴが利用されてもよい。しかしながら、最近の研究は、ＤＦＴを利用したスペクトルの明示的な計算は、例えば、ＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）データを代用することによって回避可能である。すなわち、ＭＤＣＴ係数が、デジタルオーディオ信号セグメントのスペクトルの計算に基づく特徴を決定するのに利用可能である。これは、特にデジタルオーディオ信号の符号化中にＭＤＣＴデータを生成するデジタルオーディオ信号エンコーダに関して効果的である。このケースでは、符号化方式からのＭＤＣＴデータは、スピーチ／非スピーチ検出のため利用されてもよく、これにより、デジタルオーディオ信号セグメントのＤＦＴを回避することができる。これによって、デジタルオーディオ信号セグメントに対するＤＦＴを不要にするすでに利用可能なＭＤＣＴデータが再利用されるため、全体的な計算複雑さが低減できる。上述した例では、ＭＤＣＴデータはデジタルオーディオ信号セグメントのＤＦＴを回避するのに効果的に利用可能であるが、エンコーダにおける変換表現はスペクトル表現として利用されてもよいことに留意すべきである。従って、変換表現は、例えば、ＭＤＳＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＳｉｎｅＴｒａｎｓｆｏｒｍ）又はＭＬＴ（ＭｏｄｉｆｉｅｄＬａｐｐｅｄＴｒａｎｓｆｏｒｍ）の実部若しくは虚部などであってもよい。さらに、スペクトル表現は、オーディオ信号のＱｕａｄｒａｔｕｒｅＭｉｒｒｏｒフィルタ、ＱＭＦ、フィルタバンク表現を含むものであってもよい。

符号化方式がスケールファクタバンドエネルギーを生成するケースでは、スケールファクタバンドエネルギーは、スペクトルティルトに基づく特徴を決定するため利用されてもよい。さらに、符号化方式が１以上のブロックなどのデジタルオーディオ信号のセグメントのエネルギー値を生成する場合、時間領域におけるセグメントのエネルギーに基づくエネルギー特徴は、エネルギー自体を明示的に計算する代わりに当該情報を利用してもよい。

さらにスペクトルバンド複製（ＳＢＲ）データが利用可能である場合、ＳＢＲペイロード量が信号開始の表示として効果的に利用されてもよく、スピーチ／非スピーチへの信号分類は、リズム情報を提供するＳＢＲペイロード量の処理されたバージョンに基づくものであってもよい。従って、すでに利用可能なＳＢＲデータはさらに、デジタルオーディオ信号におけるスピーチ／非スピーチセグメントの検出のためリズムベース特徴を決定するのに利用されてもよい。

概して、以下でより詳細に説明される提案される情報の再利用は、システムの全体的な計算複雑さを低減し、シナジー効果を提供する。

ある態様によると、オーディオ信号を符号化する方法が説明される。本方法は、オーディオ信号のスペクトル表現を決定することを含む、当該スペクトル表現の決定は、ＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）係数を決定することを含むものであってもよい。一般に、エンコーダにおける何れかの変換表現がスペクトル表現として利用可能である。変換表現は、例えば、ＭＤＳＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＳｉｎｅＴｒａｎｓｆｏｒｍ）又はＭＬＴ（ＭｏｄｉｆｉｅｄＬａｐｐｅｄＴｒａｎｓｆｏｒｍ）の実部若しくは虚部などであってもよい。さらに、スペクトル表現は、オーディオ信号のＱＭＦ（ＱｕａｄｒａｔｕｒｅＭｉｒｒｏｒＦｉｌｔｅｒ）フィルタバンク表現を有してもよい。

本方法はさらに、決定されたスペクトル表現を利用してオーディオ信号を符号化することを含む。オーディオ信号の部分は、決定されたスペクトル表現に基づきスピーチ又は非スピーチに分類されてもよく、オーディオ信号のラウドネス指標は、分類されたスピーチ部分に基づき決定され、特定された非スピーチ部分を無視してもよい。従って、オーディオ信号のスピーチ部分に着目したゲート化ラウドネス指標が、オーディオ信号を符号化するのに利用されるスペクトル表現から決定される。ラウドネス推定のため、オーディオ信号の別々のスペクトル表現は計算されず。ゲート化されたラウドネス指標の計算のためエンコーダにおける計算労力が低減される。

本方法はさらに、ＭＤＣＴ係数から擬似スペクトルを決定することを含むものであってもよい。スピーチ／非スピーチ部分の分類は、決定された擬似スペクトルの値に少なくとも部分的に基づくものであってもよい。ＭＤＣＴ係数から導出される擬似スペクトルは、ラウドネス推定においてスピーチ部分の分類に通常利用されるＤＦＴスペクトルに対する近似として利用可能である。あるいは、ＭＤＣＴ係数は、スピーチ／非スピーチ分類の特徴として直接利用されてもよい。

本方法はさらに、スペクトルフラックス分散を決定することを含むものであってもよい。スピーチ／非スピーチ部分の分類は、スペクトルフラックス分散がスピーチ／非スピーチ分類のための良好な特徴であることが証明されているため、決定されたスペクトルフラックス分散に少なくとも部分的に基づくものであってもよい。スペクトルフラックス分散は、擬似スペクトルから決定されてもよい。また、スペクトルフラックス分散は、ＭＤＣＴ係数から決定され、有用な分類特徴であると証明されてもよい。

本方法はさらに、ＭＤＣＴ係数からスケールファクタバンドエネルギーを決定することを含むものであってもよい。スピーチ／非スピーチ部分の分類は、決定されたスケールファクタバンドエネルギーに少なくとも部分的に基づくものであってもよい。スケールファクタバンドエネルギーは、典型的には、オーディオ信号を符号化するエンコーダにおいて利用される。ここでは、スケールファクタバンドエネルギーは、オーディオ信号のスピーチ／非スピーチ部分の分類のための特徴として示唆される。

本方法はさらに、スケールファクタバンドエネルギーから平均スペクトルティルトを決定することを含むものであってもよい。スピーチ／非スピーチ部分の分類は、平均スペクトルティルトに少なくとも部分的に基づくものであってもよい。従って、スケールファクタバンドエネルギーに基づきスピーチの分類に利用される平均スペクトルティルト特徴を計算することが提案され、それは、極めて効率的な計算方法であり、追加的なスペクトル信号表現の計算を必要としない。

本方法はさらに、オーディオ信号のブロックのエネルギー値を決定することを含むものであってもよい。本方法は、ブロックエネルギーに基づきオーディオ信号におけるトランジェントを決定することにより継続され、これに応答してオーディオ信号の符号化ブロック長を決定してもよい。さらに、エネルギーベース特徴が、ブロックエネルギーに基づき決定される。スピーチ／非スピーチ部分の分類は、エネルギーベース特徴に少なくとも部分的に基づくものであってもよい。従って、オーディオ信号を符号化するのに適したブロックサイズを決定するため（ブロックスイッチング）エンコーダにおいて計算されるエネルギー値は、ポーズカウントメトリック、ショート及びロングリズム指標などのエネルギーベース分類特徴の計算において直接利用される。

スピーチ／非スピーチ部分の分類は、特にＡｄａＢｏｏｓｔアルゴリズムなどの機械学習アルゴリズムに基づくものであってもよい。もちろん、ニューラルネットワークなどの他の機械学習アルゴリズムがまた利用可能である。

本方法はさらに、スピーチデータ及び非スピーチデータに基づく機械学習アルゴリズムのトレーニングを有してもよく、これにより、エラー関数を最小化するため、機械学習アルゴリズムのパラメータを調整する。トレーニング中、機械学習アルゴリズムは、スペクトルフラックスや平均スペクトルティルトなどの個別の特徴の重要性を学習し、分類中にこれらの特徴を評価するのに利用されるそれの内部的なウェイトを適応してもよい。

スペクトル表現は、ショートブロック及び／又はロングブロックについて決定されてもよい。ＡＡＣエンコーダなどの多くのエンコーダが、オーディオ信号を符号化するため異なるブロック長を利用し、入力信号の性質にブロック長を調整するため、入力信号に基づき異なるブロック長の間でスイッチすることが可能である。本方法はさらに、所定数のショートブロックに対応するロングブロック表現のフレームとショートブロック表現とを整合させることを含むものであってもよく、これにより、所定数のショートブロックのＭＤＣＴ係数をロングブロックのフレームにリオーダリングする。すなわち、ショートブロックはロングブロックに変換される。これは、分類及びラウドネス計算のための以降のモジュールが１つのブロックタイプしか処理する必要がないため、効果的であるかもしれない。さらに、それは、分類及びラウドネスの計算においてロングブロックに基づく固定時間構造を可能にする。

スペクトル表現がオーディオ信号のＱｕａｄｒａｔｕｒｅＭｉｒｒｏｒフィルタバンク表現を有する場合、本方法はさらに、決定されたスペクトル表現を利用してオーディオ信号のスペクトルバンド複製パラメータを符号化し、決定されたスペクトル表現に基づきスピーチ又は非スピーチにオーディオ信号の部分を分類することを含むものであってもよい。その後、スピーチ部分に基づくオーディオ信号のゲート化ラウドネス指標が決定されてもよい。上記と同様に、これは、高周波数再構成又はスペクトルバンド複製技術に基づき信号の高周波数部分を符号化するため、オーディオ信号を符号化するのに利用されるスペクトル表現に基づくゲート化ラウドネス計算を可能にする。

本方法はさらに、決定されたスペクトル表現を利用してオーディオ信号をビットストリームに符号化し、決定されたラウドネス指標をビットストリームに符号化することを含むものであってもよい。従って、オーディオ信号と共にダイヤルノーム又はプログラムリファレンスレベルなどのラウドネス指標を効率的に計算及び符号化するエンコーダが説明される。

オーディオ信号はマルチチャネル信号であってもよく、本方法はさらに、マルチチャネルオーディオ信号をダウンミキシングし、ダウンミキシングされた信号に対して分類ステップを実行することを含むものであってもよい。これは、モノ信号に基づく信号分類及び／又はラウドネス測定のための計算を行うことを可能にする。

本方法はさらに、オーディオ信号をダウンサンプリングし、ダウンサンプリングされた信号に対して分類ステップを実行することを含むものであってもよい。従って、ダウンサンプリングされた信号に基づく信号分類及び／又はラウドネス測定のための計算を行うことはさらに、要求される計算労力を低減する。

他の態様によると、上述された方法を実行するシステム、特にオーディオ信号をビットストリームに符号化するオーディオエンコーダが開示される。オーディオ信号は、ＨＥ−ＡＡＣ、ＭＰ３、ＡＡＣ、ドルビーデジタル、ドルビーデジタルプラス、ＡＡＣに基づく他の何れかのコーデック又は上述された変換に基づく他の何れかのコーデックの１つに従って符号化されてもよい。

本システムは、スペクトルバンド複製又は高周波数再構成のためのスペクトル表現を決定するため、ＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）係数に基づきオーディオ信号のスペクトル表現を決定するためのＭＤＣＴ計算ユニット及び／又はＱＭＦ（ＱｕａｄｒａｔｕｒｅＭｉｒｒｏｒＦｉｌｔｅｒ）フィルタバンクを含むＳＢＲ計算ユニットを有してもよい。

ある態様によると、オーディオ信号のスピーチ部分を分類する方法が説明される。オーディオ信号は、スピーチ信号及び／又は他の非スピーチ信号を有してもよい。当該分類は、オーディオ信号がスピーチであるか、及び／又はオーディオ信号の何れの部分がスピーチ信号であるかを決定することである。この分類は、オーディオ信号のゲート化ラウドネス指標の計算に効果的に利用されてもよい。スペクトルバンド複製（ＳＢＲ）ペイロードは信号の開始の良好な指標であるため、信号分類はリズム情報を提供するＳＢＲペイロードの処理されたバージョンに基づくものであってもよい。

本方法は、オーディオ信号の時間区間のスペクトルバンド複製データの量に関するペイロード量を決定するステップを有してもよい。スペクトルバンド複製ペイロード量は、オーディオ信号スペクトルの変化のための指標として利用可能であり、リズム情報を提供する。ペイロード量は、ＳＢＲエンベロープデータ、時間／周波数（Ｔ／Ｆ）グリッドデータ、トーンコンポーネントデータ及びノイズフロアデータ又はこれらの何れかの組み合わせを含むものであってもよい。特に、ＳＢＲエンベロープデータと共にこれらのコンポーネントの何れかの組み合わせが可能である。

典型的には、ペイロード量の決定ステップは、オーディオ信号のスペクトルバンド複製データを決定する際に、オーディオ信号の符号化中に実行される。この場合、スペクトルバンド複製データの量に関するペイロード量が、エンコーダのスペクトルバンド複製コンポーネントから直接受信可能である。スペクトルバンド複製ペイロード量は、オーディオ信号の時間区間についてスペクトルバンド複製コンポーネントにより生成されたスペクトルバンド複製データの量を示すものであってもよい。すなわち、ペイロード量は、符号化されたビットストリームに含まれるべき時間区間のスペクトルバンド複製データの量を示す。

生成されたスペクトルバンド複製データを含むオーディオ信号は、好ましくは、格納又は伝送のためビットストリームに符号化される。符号化されたビットストリームは、例えば、ＨＥ−ＡＡＣビットストリーム又はＭＰ３ＰＲＯビットストリームなどであってもよい。他のビットストリームフォーマットもまた可能であり、当業者の到達範囲内である。

本方法は、オーディオ信号の連続的な時間区間について上述した決定するステップを繰り返すさらなるステップを有してもよく、これにより、ペイロード量のシーケンスを決定してもよい。

さらなるステップでは、本方法は、ペイロード量のシーケンスにおける周期性を特定してもよい。これは、ペイロード量のシーケンスにおけるピーク又は繰り返しパターンの周期性を特定することによって実行されてもよい。周期性の特定は、パワー値のセット及び対応する周波数を生じさせるペイロード量のシーケンスに対してスペクトル解析を実行することによって実行されてもよい。周期性は、パワー値のセットにおける相対的な最大値を決定し、対応する周波数として周期性を選択することによって、ペイロード量のシーケンスにおいて特定されてもよい。ある実施例では、絶対的な最大値が決定される。

スペクトル解析は、典型的には、ペイロード量のシーケンスの時間軸に沿って実行される。さらに、スペクトル解析は、典型的には、ペイロード量のシーケンスの複数のサブシーケンスに対して実行され、これにより、パワー値の複数のセットが生成される。例えば、サブシーケンスは、２秒などのオーディオ信号の特定の長さをカバーしてもよい。さらに、サブシーケンスは、５０％などだけ互いにオーバラップしてもよい。また、パワー値の複数のセットが取得されてもよく、パワー値の各セットはオーディオ信号の特定の抜粋に対応する。完全なオーディオ信号のパワー値の全体的なセットは、パワー値の複数のセットを平均化することによって取得されてもよい。“平均化”という用語は、平均値の計算やメディアン値の決定などの各種タイプの数学演算をカバーすることが理解されるべきである。すなわち、パワー値の全体的なセットは、パワー値の複数のセットの平均パワー値又はメディアパワー値のセットを計算することによって取得されてもよい。ある実施例では、スペクトル解析の実行は、フーリエ変換（ＦＴ）や高速フーリエ変換（ＦＦＴ）などの周波数変換の実行を含む。

パワー値のセットは、さらなる処理に送信されてもよい。ある実施例では、パワー値のセットは、それらの対応する周波数の人間の知覚的嗜好に関連するウェイトと乗算される。例えば、このような知覚的ウェイトは、人間によってより頻繁に検出されるテンポに対応する周波数を強調してもよく、人間により頻繁には検出されないテンポに対応する周波数は減衰される。

次に、本方法は、スピーチ又は非スピーチ信号を含むようオーディオ信号の少なくとも一部を分類するステップを有してもよい。当該分類は、好ましくは、抽出されたリズム情報に基づく。抽出されたリズム情報は、オーディオ信号の部分についてスピーチ／非スピーチ判定を行うための何れかのタイプの分類手段において、おそらく他の特徴と共にある特徴として利用されてもよい。

このとき、スピーチ／非スピーチ分類は、オーディオ信号のゲート化ラウドネスの計算に利用されてもよく、ラウドネスの計算はオーディオ信号のスピーチ部分に制限される。従って、オーディオ信号の知覚的に関連するスピーチ部分のみを考慮し、非スピーチ部分を無視するより知覚的に正確なラウドネスが提供される。ラウドネスデータは、符号化されたビットストリームに含まれてもよい。

本方法は、オーディオ信号のラウドネス値を提供するステップを有してもよい。ラウドネス関連値はまた、レベル化情報と呼ばれてもよい。ラウドネス値を決定するための手順又はアルゴリズムは、オーディオ信号の知覚的なラウドネス、すなわち、知覚されたエネルギーを表現するラウドネス関連値を決定するため、オーディオ信号の操作セットであってもよい。当該手順又はアルゴリズムは、オーディオプログラムのラウドネスを測定するためのＩＴＵ−ＲＢＳ．１７７０−１及び／又はリプレイゲインラウドネス計算方式であってもよい。ある実施例では、ラウドネスは、オーディオ信号のサイレンス及び／又は非スピーチ期間を無視するＩＴＵ−ＲＢＳ．１７７０−１に従って決定される。

当該分類は、ＡｄａＢｏｏｓｔアルゴリズムなどの機械学習アルゴリズムにおいて１つの特徴としてＳＢＲペイロードから抽出されるリズム情報を利用して、スピーチ信号と非スピーチ信号とを区別してもよい。もちろん、ニューラルネットワークなどの他の機械学習アルゴリズムがまた利用されてもよい。リズム情報を最大限利用するため、分類手段が、スピーチ信号と非スピーチ信号とを区別するためトレーニングデータに対してトレーニングされる。分類手段は、トレーニングデータに対するエラー指標を低下させるため、分離のため入力信号として抽出されたリズム情報を利用し、それの内部パラメータ（ウェイトなど）を適応させるようにしてもよい。提案されたリズム情報は、ＨＥ−ＡＡＣエンコーダにおいて利用される“古典的”な特徴などの他の特徴と共に分類手段により利用されてもよい。機械学習アルゴリズムは、分類のため提供された特徴を合成するためウェイトを決定してもよい。

ある実施例では、オーディオ信号は、時間軸に沿って後続するサブバンド係数ブロックのシーケンスにより表される。このようなサブバンド係数は例えば、ＭＰ３、ＡＡＣ、ＨＥ−ＡＡＣ、ドルビーデジタル及びドルビーデジタルプラスコーデックすのケースと同様にＭＤＣＴ係数などであってもよい。

ある実施例では、オーディオ信号は、スペクトルバンド複製データと時間軸に沿った複数の以降のフレームとを有する符号化されたビットストリームにより表される。例えば、符号化されたビットストリームは、ＨＥ−ＡＡＣ又はＭＰ３ＰＲＯビットストリームであってもよい。

本方法は、オーディオ信号に関するメタデータにラウドネス関連値を格納するステップを有してもよい。メタデータは、所定のシンタックス又はフォーマットであってもよい。ある実施例では、所定のフォーマットは、リプレイゲインシンタックスを利用する。あるいは又は加えて、所定のフォーマットはｉＴｕｎｅｓスタイルメタデータ又はＩＤ３ｖ２タグに準拠してもよい。他の実施例では、ラウドネス関連値は、ＭＰＥＧ規格ＩＳＯ１４４９６−３による“プログラムリファレンスレベル”パラメータのフィルエレメントとしてドルビープラス又はＨＥ−ＡＡＣビットストリームにより送信されてもよい。

本方法は、メディアプレーヤーにメタデータを提供するステップを有してもよい。メタデータは、オーディオ信号と共に提供されてもよい。ある実施例では、オーディオ信号及びメタデータは１以上のファイルに格納されてもよい。これらのファイルは、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）又はコンパクトディスクなどの記憶媒体に格納されてもよい。ある実施例では、オーディオ信号及びメタデータは、ＨＥ−ＡＡＣなどのメディアビットストリーム内などにおいてメディアプレーヤーに送信されてもよい。

さらなる態様によると、計算装置上で実行されると、プロセッサ上で実行され、本明細書に概略された方法のステップを実行するよう構成されるソフトウェアプログラムが説明される。

他の態様によると、計算装置上で実行されると、プロセッサ上で実行され、本明細書に概略された方法のステップを実行するよう構成されるソフトウェアプログラムを有する記憶媒体が説明される。

他の態様によると、コンピュータ上で実行されると、本明細書に概略される方法を実行するための実行可能命令を有するコンピュータプログラムが説明される。

他の態様によると、オーディオ信号のスピーチ部分を分類するよう構成されるシステムが説明される。本システムは、オーディオ信号の時間区間のスペクトルバンド複製データの量に関するペイロード量を決定する手段、オーディオ信号の連続する時間区間について上記決定する処理を繰り返し、これによりペイロード量のシーケンスを決定する手段、ペイロード量のシーケンスにおいて周期性を特定する手段、及び／又は特定された周期性からオーディオ信号のリズム情報を抽出する手段を有してもよい。本システムはさらに、抽出されたリズム情報に基づきスピーチ又は非スピーチを含むオーディオ信号の少なくとも一部を分類する手段を有する。さらに、スピーチ及び非スピーチ部分におけるオーディオ信号の分類に基づきオーディオ信号のラウドネスデータを決定する手段が提供される。特に、ラウドネスデータの決定は、分類手段により特定されるオーディオ信号のスピーチ部分に限定されてもよい。

他の態様によると、オーディオ信号のメタデータを有する符号化されたビットストリームを生成する方法が説明される。本方法は、オーディオ信号をペイロードデータのシーケンスに符号化するステップを有し、これにより、符号化されたビットストリームを生成してもよい。例えば、オーディオ信号は、ＨＥ−ＡＡＣ、ＭＰ３、ＡＡＣ、ドルビーデジタル又はドルビーデジタルプラスビットストリームに符号化されてもよい。本方法は、オーディオ信号のラウドネスに関するメタデータを決定し、メタデータを符号化されたビットストリームに挿入するステップを有してもよい。好ましくは、ラウドネスデータは、オーディオ信号についてリズム情報に基づき分類手段により決定されるように、オーディオ信号のスピーチ部分のみに対して決定される。オーディオ信号のリズム情報は本明細書に概略される方法の何れかに従って決定されてもよいことに留意すべきである。

さらなる態様によると、メタデータを有するオーディオ信号の符号化されたビットストリームが説明される。符号化されたビットストリームは、ＨＥ−ＡＡＣ、ＭＰ３、ＡＡＣ、ドルビーデジタル又はドルビーデジタルプラスビットストリームであってもよい。メタデータは、オーディオ信号のゲート化ラウドネス指標を表すデータを有してもよく、当該ゲート化ラウドネス指標は、本明細書に概略される分類手段の何れかによってオーディオ信号のスピーチ部分から導出される。

他の態様によると、オーディオ信号のメタデータを有する符号化されたビットストリームを生成するよう構成されるオーディオエンコーダが説明される。エンコーダは、オーディオ信号をペイロードデータのシーケンスに符号化し、これにより符号化されたビットストリームを生成する手段、オーディオ信号のラウドネスメタデータを決定する手段、及びメタデータを符号化されたビットストリームに挿入する手段を有してもよい。上述された方法と同様にして、エンコーダは、オーディオ信号のリズム情報を決定するための基礎として、オーディオ信号について計算されたスペクトルバンド複製データに依拠してもよい（特に、ビットストリームに挿入されるスペクトルバンド複製データのペイロード量）。その後、リズム情報は、ラウドネス推定をゲート化するため、オーディオ信号をスピーチ部分及び非スピーチ部分に分類するのに利用されてもよい。

さらなる態様によると、オーディオ信号の符号化されたビットストリームを復号化する対応する方法とオーディオ信号の符号化されたビットストリームを復号化するよう構成される対応するデコーダとが説明される。本方法及びデコーダは、符号化されたビットストリームから各メタデータ、特にリズム情報に関するメタデータを抽出するよう構成される。

予備的な複雑さの解析は、従来技術に対する提案されたスピーチ／非スピーチ分類の複雑さの低減の可能性が重要であることを示した。提案された実現形態がリサンプラを必要とせず、別々のスペクトル解析を利用しないことを想定する理論的アプローチによると、９８％まで節約される。

本明細書に説明される実施例及び態様は、多数の異なる方法により組み合わせ可能であることに留意すべきである。特に、システムに関して概略される態様及び特徴はまた対応する方法に関して適用可能であることに留意すべきである。さらに、本明細書の開示はまた従属形式の請求項のバックリファレンスにより明示的に与えられる請求項の組み合わせ以外の他の請求項の組み合わせをカバーし、すなわち、請求項及びそれらの技術的特徴は何れかの順序及び形式により組み合わせ可能である。

本発明が、添付した図面を参照して、本発明の範囲又は趣旨を限定しない例示的な具体例により説明される。
図１は、入力オーディオ信号からラウドネスレベル情報を有する符号化出力オーディオ信号を生成するシステムを概略的に示す。図２は、入力オーディオ信号からラウドネスレベル情報を推定するシステムを概略的に示す。図３は、オーディオエンコーダからの情報を利用して入力オーディオ信号からラウドネスレベル情報を推定するシステムを概略的に示す。図４は、ショートブロックのためＭＤＣＴ係数をインタリーブする例を示す。図５ａは、異なるスペクトル変換により生成される一例となるオーディオ信号のスペクトル表現を示す。図５ｂは、異なるスペクトル変換により計算される一例となるオーディオ信号のスペクトルフラックスを示す。図６は、加重関数の一例を示す。図７ａは、ＳＢＲペイロードサイズの一例となるシーケンスと結果となる変調スペクトルを示す。図７ｂは、ＳＢＲペイロードサイズの一例となるシーケンスと結果となる変調スペクトルを示す。図７ｃは、ＳＢＲペイロードサイズの一例となるシーケンスと結果となる変調スペクトルを示す。図７ｄは、ＳＢＲペイロードサイズの一例となるシーケンスと結果となる変調スペクトルを示す。

後述される実施例は、リズム特徴抽出、スピーチ分類及びラウドネス推定のための方法及びシステムの原理について単に例示される。ここに開示される構成及び詳細の改良及び変形は他の当業者に明らかであることが理解されるであろう。従って、係属中の特許請求項の範囲のみにより限定され、ここでの実施例の開示及び説明により提供される具体的な詳細によって限定されるものでないことは意図される。

一定の知覚レベルによりオーディオ出力を提供するアプローチは、オーディオコンテンツがレンダリングされるべきターゲット出力レベルを規定することである。このようなターゲット出力レベルは、例えば、−１１ｄＢＦＳ（ｄｅｃｉｂｅｌｓｒｅｌａｔｉｖｅｔｏＦｕｌｌＳｃａｌｅ）などであってもよい。特に、ターゲット出力レベルは、現在の聴取環境に依存してもよい。さらに、リファレンスレベルとも呼ばれるオーディオコンテンツの実際のラウドネスレベルが決定されてもよい。ラウドネスレベルは、好ましくは、メディアコンテンツに関して提供されるメタデータなどとして、メディアコンテンツと共に提供される。オーディオコンテンツをターゲット出力レベルで再生するため、再生中にマッチングゲイン値が適用されてもよい。マッチングゲイン値は、ターゲット出力レベルと実際のラウドネスレベルとの間の差分として決定されてもよい。

上述されたように、ドルビーデジタルなどのストリーミング及びブロードキャスティングのためのシステムは、典型的には、現在のプログラムのラウドネスレベルを示す“ダイヤルノーム（ｄｉａｌｎｏｒｍ）”値を有するメタデータを復号化装置に送信することに依拠する。ダイヤルノーム値は、典型的には、異なるプログラムについて異なる。ダイヤルノーム値がエンコーダにおいて決定されるという事実に関して、コンテンツ所有者は実際のデコーダまでの完全な信号チェーンを制御することが可能とされる。さらに、復号化装置における計算複雑さは、デコーダにおける現在のプログラムのラウドネス値を決定することが要求されていないため、低減可能である。代わりに、ラウドネス値が、現在のプログラムに関連するメタデータにおいて提供される。

オーディオ信号と共にメタデータを含めることは、ユーザの聴取体感の有意な向上を可能にした。快適なユーザ体感のため、異なるプログラムの全体的なサウンドレベル又はラウドネスが一貫していることが一般に望ましい。しかしながら、異なるプログラムのオーディオ信号は、通常は異なるソースからのものであり、異なる作成者によりマスタリングされ、スピーチの対話から音楽から低周波数効果の映画サウンドトラックまでにわたる多様なコンテンツを含むものであってもよい。このサウンドレベルの変化の可能性は、再生中に各種プログラムにおいて同一の全体的なサウンドレベルを維持することを困難にする。実際的な問題において、リスナが異なるプログラムの近くされたサウンドレベルの相違のため、あるプログラムを他のプログラムに関して音量を大きく又は小さくするよう調整するため、１つのプログラムから他のプログラムにスイッチするとき、再生ボリュームを調整する必要性を感じすることは望ましくない。プログラム間で一貫したサウンドレベルを維持するため、オーディオ信号を変更する技術は、一般に信号レベリングとして知られている。ダイアログのオーディオトラックに関して、知覚したサウンドレベルに関する指標は、オーディオ信号の加重平均されたレベルに基づくダイアログレベルとして知られている。ダイアログレベルは、しばしばデジタルフルスケールに関してデシベル（ｄＢ）のレベルを示す“ダイヤルノーム”パラメータを用いて指定される。

オーディオ符号化の範囲内において、いくつかのメタデータタイプが、ダイナミックレンジ圧縮及びラウドネスの説明を含むＡＣ−３又はＨＥ−ＡＡＣなどのコーデックにおいて進化してきた。例えば、ＡＣ−３は、“ダイヤルノーム”と呼ばれる値を利用して、符号化されたオーディオ信号のラウドネス情報を提供する。ＨＥ−ＡＡＣでは、等価な値は、データストリーム要素に含まれる“プログラムリファレンスレベル”と呼ばれる。再生装置はラウドネス値を読み、これに対応してゲインファクタにより出力信号を調整する。この方法では、オリジナルのオーディオ信号は変化しない。従って、メタデータモデルは非破壊的（ｎｏｎ−ｄｅｓｔｒｕｃｔｉｖｅ）と呼ばれる。

以下において、オーディオ信号をスピーチ及び非スピーチ部分に分類する方法が説明される。この分類は、参照することにより援用されるＩＴＵ−Ｒ勧告ＢＳ．１７７−１などに従って、ラウドネス推定の計算をゲート化するのに利用されてもよい。その後、ラウドネス計算は、例えば、ＨＥ−ＡＡＣフォーマットなどに従って、符号化されたビットストリームに挿入するための“ダイヤルノーム”値を決定するため、スピーチコンテンツを含むオーディオ部分に集中させることができる。一方では、オーディオの分類は、良好なラウドネス推定を実現するため可能な限り正確であるべきである。他方、ラウドネス計算と、特にスピーチ／非スピーチ分類とは効率的であるべきであり、可能な限りエンコーダに対する計算負荷を小さくする。従って、本明細書の一態様によると、ラウドネス計算と、特にスピーチ／非スピーチ分類とをエンコーダの処理に統合し、ラウドネス推定のため類似した値を再計算する代わりに、既存の計算とすでに生成されたデータとを利用することが提案されている。

上述されるように、ラウドネス推定の計算をオーディオ信号のスピーチ部分に限定することが効果的である。スピーチの以下の特徴の一部は、他の信号タイプと区別するのに重要である。スピーチは、摩擦音及び母音としても知られるボイス部分及び非ボイス部分を合成したものである。摩擦音は２つのサブカテゴリに分離可能である。“ｋ”及び“ｔ”などのサウンドは極めて一時的なものである一方、“ｓ”及び“ｆ”などのサウンドはノイズに類似したスペクトルを有する。スピーチのボイス部分と非ボイス部分とは、単語とセンテンスとの間の短い中断と共に、オーディオ信号の一定に変化するスペクトルを生じさせる。他方、音楽はスペクトルにおいてはるかにゆっくりとした小さな変動を有している。信号のスペクトルの大きさを観察すると、低エネルギーの極めて短い部分を観察することができる。これらの短い中断はスピーチコンテンツの指標である。

知覚のため信号のスピーチコンテンツの関連性の結果として、スピーチ部分を認識し、信号のこれらの部分のみからラウドネスを計算することが提案されている。このスピーチラウドネス値は、記述されるメタデータタイプの何れかにおいて利用可能である。

実施例によると、ゲート化されたラウドネス指標を計算するシステムは、４つのコンポーネントを有する。第１コンポーネントは、信号前処理に関し、リサンプラ及びミキサを有する。入力信号からモノ信号をダウンミキシングした後、信号は１６ｋＨｚでリサンプリングされる。第２コンポーネントは、スピーチを特定するのに役立つ信号の異なる基準をカバーする７つの特徴を計算する。この７つの特徴は、スペクトルフラックスなどのスペクトル特徴と、ポーズカウントやゼロクロスレートなどの時間領域特徴との２つのグループに分類可能である。第３コンポーネントは、７つの特徴の特徴ベクトルに基づきバイナリ判定を行うＡｄａＢｏｏｓｔと呼ばれる機械学習アルゴリズムである。すべての特徴が、１６ｋＨｚのサンプリングレートによりモノ信号に基づき計算される。時間分解能は、各特徴が可能なベストな結果を実現するため個別に設定されてもよい。従って、すべての特徴は自らのブロック長を有してもよい。これに関して、ブロックは、特徴により処理される特定の時間サンプル量である。最後のコンポーネントは、ＩＴＵ−Ｒ勧告に従う初期的なサンプリングレートにより実行されるラウドネス測定値を計算する。ラウドネス測定値は、分類手段からの現在の信号状態（スピーチ／その他）により０．５秒毎に更新される。従って、スピーチと全体的なラウドネスとを計算することが可能である。

上記のラウドネス測定値は、例えば、ＭＤＣＴフィルタバンクを有するＡＡＣコアエンコーダを有するＨＥ−ＡＡＣ符号化方式などにおいて適用されてもよい。ＳＢＲエンコーダは、より低いビットレートについて利用され、ＱＭＦフィルタバンクを含む。ある実施例によると、ＭＤＣＴフィルタバンク及び／又はＱＭＦフィルタバンクにより提供されるスペクトル表現が、信号分類に利用される。スピーチ／その他の分類は、ＭＤＣＴフィルタバンクの直後のＡＡＣコアに配置されてもよい。時間信号及びＭＤＣＴ係数がそこから抽出できる。これはまた、１２８個のサンプルのブロックにおける信号のエネルギーを計算しているウィンドウスイッチングのための場所である。特定の周波数帯域のエネルギーを含むスケールファクタ帯域が、信号の量子化について必要とされる精度を推定するのに利用されてもよい。

図１は、入力オーディオ信号からラウドネスレベル情報を有する符号化された出力オーディオ信号を生成するシステム１００を概略的に示す。本システムは、エンコーダ１０１及びラウドネス推定モジュール１０２を有する。さらに、本システムはゲート処理モジュール１０３を有する。

エンコーダ１０１は、信号ソースからオーディオ信号を受信する。例えば、信号ソースは、電子デバイスのメモリにオーディオデータを格納する電子デバイスであってもよい。オーディオ信号は、１以上のチャネルを有してもよい。例えば、オーディオ信号は、モノオーディオ信号、ステレオオーディオ信号又は５．１チャネルオーディオ信号であってもよい。オーディオ信号は、スピーチ、音楽又は他の何れかのタイプのオーディオ信号コンテンツから構成されてもよい。

さらに、オーディオ信号は、何れか適切なフォーマットにより電子デバイスのメモリに格納されてもよい。例えば、オーディオ信号は、ＷＡＶ、ＡＩＦＦ、ＡＵ又はｒａｗｈｅａｄｅｒ−ｌｅｓｓＰＣＭファイルに格納されてもよい。あるいは、オーディオ信号は、ＦＬＡＣ、Ｍｏｎｋｅｙ‘ｓＡｕｄｉｏ（ファイル名の拡張子ＡＰＥ）、ＷａｖＰａｃｋ（ファイル名の拡張子ＷＶ）、Ｓｈｏｒｔｅｎ、ＴＴＡ、ＡＴＲＡＣＡｄｖａｎｃｅｄＬｏｓｓｌｅｓｓ、ＡｐｐｌｅＬｏｓｓｌｅｓｓ（ファイル名の拡張子ｍ４ａ）、ＭＰＥＧ−４ＳＬＳ、ＭＰＥＧ−４ＡＬＳ、ＭＰＥＧ−４ＤＳＴ、ＷｉｎｄｏｗｓＭｅｄｉａＡｕｄｉｏＬｏｓｓｌｅｓｓ（ＷＭＡＬｏｓｓｌｅｓｓ）及びＳＨＮファイルに格納されてもよい。さらに、オーディオ信号は、ＭＰ３、Ｖｏｒｂｉｓ、Ｍｕｓｅｐａｃｋ、ＡＡＣ、ＡＴＲＡＣ及びＷｉｎｄｏｗｓＭｅｄｉａＡｕｄｉｏＬｏｓｓｙ（ＷＭＡｌｏｓｓｙ）ファイルに格納されてもよい。

オーディオ信号は、有線又は無線接続を介し信号ソースからシステム１００に送信されてもよい。あるいは、信号ソースはシステムの一部であってもよく、すなわち、システム１００は、オーディオファイルを格納するコンピュータ上でホストされてもよい。システム１００をホストするコンピュータは、インターネットやアクセスネットワークなどの有線又は無線ネットワークを介し他のコンピュータに接続されるデスクトップコンピュータ又はサーバであってもよい。

エンコーダ１０１は、特定の符号化技術に従ってオーディオ信号を符号化してもよい。特定の符号化技術は、ＤＤ＋であってもよい。あるいは、特定の符号化技術は、ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ（ＡＡＣ）であってもよい。さらに、特定の符号化技術は、ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＡＡＣ（ＨＥ−ＡＡＣ）であってもよい。ＨＥ−ＡＡＣ符号化技術は、ＡＡＣ符号化技術及びＳＢＲ符号化技術に基づくものであってもよい。ＡＡＣ符号化技術は、少なくとも部分的にＭＤＣＴフィルタバンクに基づくものであってもよい。ＳＢＲ符号化技術は、少なくとも部分的にはＱＭＦ（ＱｕａｄｒａｔｕｒｅＭｉｒｒｏｒＦｉｌｔｅｒ）フィルタバンクに基づくものであってもよい。

ラウドネス推定モジュール１０２は、特定のラウドネス推定技術によるとオーディオ信号のラウドネスを推定する。特定のラウドネス推定技術は、ＩＴＵ−ＲＢＳ．１７７０−１勧告に従うものであってもよい。あるいは、特定のラウドネス推定技術は、ＤａｖｉｄＲｏｂｉｎｓｏｎによりＲｅｐｌａｙＧａｉｎプロポーザルに従うものであってもよい（ｈｔｔｐ：／／ｗｗｗ．ｒｅｐｌａｙｇａｉｎ．ｏｒｇ／を参照されたい）。特定のラウドネス推定がＩＴＵ−ＲＢＳ．１７７０−１に従うとき、ラウドネスは、サイレンス以外のコンテンツを有する入力オーディオ信号のセグメントに対して推定される。例えば、ラウドネスは、スピーチを有する入力オーディオ信号のセグメントに対して推定されてもよい。従来、ラウドネス推定モジュールは、ゲート処理モジュール１０３からラウドネス推定モジュールが現在のオーディオ入力サンプルに基づきラウドネスを推定すべきか示すゲート化信号を受信するかもしれない。例えば、ゲート化モジュール１０３は、オーディオ信号の現在のサンプル又は一部がスピーチを有することを示す信号をラウドネス推定モジュール１０２に送信するなど提供してもよい。当該信号は、１ビットから構成されるデジタル信号であってもよい。例えば、ビットがハイである場合、当該信号は、現在のオーディオサンプルがスピーチを有し、オーディオ入力信号のラウドネスを推定するためラウドネス推定モジュール１０２により処理されるべきであることを示すものであってもよい。ビットがローである場合、当該信号は、現在のオーディオ信号がスピーチを有さず、オーディオ入力信号のラウドネスを推定するためラウドネス推定モジュール１０２により処理されるべきでないことを示すものであってもよい。

ゲート処理モジュール１０３は、入力オーディオ信号を異なるコンテンツカテゴリに分類する。例えば、ゲート処理モジュール１０３は、入力オーディオ信号を非サイレンス及びサイレンスセグメントに、又はスピーチ及び非スピーチセグメントに分類してもよい。入力オーディオ信号をスピーチ及び非スピーチセグメントに分類するため、ゲート処理モジュール１０３は、入力オーディオ信号からラウドネスレベル情報を推定するシステム２００を概略的に示す図２に示されるような各種技術を利用してもよい。例えば、ゲート処理モジュール１０３は、特徴の計算のための以下のサブモジュールの１以上を有してもよい。

以下の説明では、“特徴”、“ブロック”及び“フレーム”という用語が簡単に接続される。信号におけるスピーチ部分などの信号における特定のクラスの有無を示すことが可能な信号から特定の特徴を導出する指標である。すべての特徴は、２つの処理レベルで機能できる。短い信号の要約はブロック単位で処理される。ある特徴の長期の推定は、２秒の長さによるフレームにおいて行われる。ブロックは、すべての特徴の低レベル情報を計算するのに利用されるデータ量である。それは、信号の時間サンプル又はスペクトルデータを保持する。以下の式において、Ｍはブロックサイズとして定義される。フレームは、ある個数のブロックに基づく長期の指標である。更新レートは、典型的には、２秒の時間ウィンドウによると０．５秒である。以下の式では、Ｎはフレームサイズとして定義される。

ゲート処理モジュール１０３は、スペクトルフラックス分散（ＳＦＶ）サブモジュール２０３を有してもよい。ＳＦＶサブモジュール２０３は、変換領域において機能し、スピーチ信号のスペクトルにおける速い変化を考慮するよう構成される。スペクトルのフラックスのメトリックとして、Ｆ_１（ｔ）が、フレームｔのスペクトルフラックスの平均二乗ｌ_２ノルムとして計算される（Ｍはフレームのブロック数である）。

ＳＦＶサブモジュール２０３は、２つのブロックｍ及びｍ−１との間の重み付けされたユークリッド距離

を計算してもよい。

ここで、Ｗ_ｍはブロックｍのウェイトであり、

である。ここで、Ｘ［ｋ］は周波数２πｋ／Ｎにおける複素スペクトルの振幅及び位相を示す。従って、スペクトルフラックスを重み付けするため、現在及び以前のスペクトルエネルギーが計算される。ユークリッド距離とも呼ばれるｌ_２ノルムは、２つのスペクトルの大きさの差分から計算される。重み付けは、２つのブロックＸ_ｍ及びＸ_ｍ−１の全体的なエネルギーへの依存を除去するのに必要である。ブースティングアルゴリズムにわたされる結果は、１２８個の合計されたｌ_２ノルム値から計算されてもよい。

ゲート処理モジュール１０３は、平均スペクトルティルト（ＡＳＴ）サブモジュール２０４を有してもよい。平均スペクトルティルトは、上述されたような類似する原理に基づくだけでなく、スペクトルのティルトを考慮して機能する。音楽は、通常はスペクトルの負のティルトを導く音調部分（ｔｏｎａｌｐａｒｔ）を大部分含む。スピーチもまた音調部分を含むが、これらは摩擦音により定期的に間欠的である。これらのノイズ状の信号は、より低いスペクトルにおける低エネルギーレベルのため正の傾きを導く。スピーチを含む信号部分について、速く変化するティルトが観察できる。他の信号タイプについて、ティルトは、典型的には同じレンジに留まる。スペクトルにおけるＡＳＴのメトリックＦ_２（ｔ）として、ＡＳＴサブモジュール２０４は、

を計算してもよく、ここで、

であり、Ｇ_ｍはブロックｍの回帰係数である。対数領域におけるスペクトルパワー密度の和が累積され、重み付けされたスペクトルパワー密度と比較される。対数領域への収束は、

による。

ゲート処理モジュール１０３は、ポーズカウントメトリック（ＰＣＭ）サブモジュール２０５を有してもよい。ＰＣＭは、スピーチに対して極めて特徴的な小さな中断を認識する。当該特徴の低レベル部分は、Ｎ＝１２８個のサンプル／ブロックについてエネルギーを計算する。ＰＣＭの値Ｆ_３（ｔ）は、現在のフレームの平均エネルギーを計算し、フレームの各ブロック

の平均エネルギーと現在のフレームの平均エネルギーとを比較することによって決定されてもよい。ブロックエネルギーが現在のフレームの平均エネルギー値の２５％より低い場合、それはポーズとしてカウントされ、Ｆ_３（ｔ）の数値がインクリメントされてもよい。この基準に適合する複数の連続的なブロックのみが１回のポーズとしてカウントされる。

ゲート処理モジュール１０３は、ゼロクロッシングスキュー（ＺＣＳ）サブモジュール２０６を有してもよい。ゼロクロッシングスキューは、ゼロクロッシングレート、すなわち、時間信号がゼロラインをクロスする回数に関する。それはまた、所与の時間フレームにおいて信号がどの程度の頻度で符号を変更するかにより記述できる。ＺＣＳは、少数の低周波数のみとの組み合わせにおける高周波数の有無の良好な指標である。所与のフレームのスキューは、ボイススピーチと非ボイススピーチとを分類することを可能にする信号値の速い変化の指標である。ＺＣＳの値Ｆ_４（ｔ）は、

を計算することによって決定されてもよく、Ｚ_ｍはブロックｍにおけるゼロクロッシングカウントである。

ゲート処理モジュール１０３は、ゼロクロッシングメジアン対平均レシオ（ＺＣＭ）サブモジュール２０７を有してもよい。当該特徴はまた、１２８個のゼロクロッシング値を抽出し、メディアン対平均レシオを計算する。メディアン値は、現在のフレームのすべてのゼロクロスカウントブロックをソートすることによって計算される。その後、それは、ソートされたアレイの中心点を抽出する。高いゼロクロッシングレートのブロックは、メディアンでなく平均値に影響を与える。ＺＣＳの値Ｆ_５（ｔ）は、

を計算することによって決定されてもよく、ここで、Ｚ_{ｍｅｄｉａｎ}はフレームｔのすべてのブロックのブロックゼロクロッシングレートのメディアンである。

ゲート処理モジュール１０３は、ショートリズム指標（ＳＲＭ）サブモジュール２０８を有してもよい。上述された特徴は、かなりリズミカルな音楽では困難となる。例えば、ヒップホップ及びテクノ音楽は、誤った分類を導く可能性がある。これら２つのジャンルは、かなりリズミカルな部分を有し、当該部分はＳＲＭ及びＬＲＭ特徴と共に容易に検出可能である。ＳＲＭの値Ｆ_６（ｔ）は、

を計算することによって決定されてもよく、ここで、

であり、ｄ［ｍ］はブロックｍのゼロ平均シーケンスにおける要素であり、Ａｔ［ｌ］はｌのブロックラグによるフレームｔの自己相関値である。ＳＲＭは、分散ブロックの現在のフレームについて自己相関を計算する。その後、Ａ_Ｔのサーチ範囲において最も大きなインデックスがサーチされる。

ゲート処理モジュール１０３は、ロングリズム指標（ＬＲＭ）サブモジュール２０９を有してもよい。ＬＲＭの値Ｆ_７（ｔ）は、エネルギーエンベロープの自己相関を計算することによって決定されてもよく、

ここで、

であり、ＡＬ_ｔ［ｌ］はフレームのｔの自己相関スコアである。

Ｆ_１（ｔ）〜Ｆ_７（ｔ）の特徴の少なくとも１つは、入力オーディオ信号をスピーチ及び非スピーチセグメントに分類するのに利用されてもよい。Ｆ_１（ｔ）〜Ｆ_７（ｔ）の特徴の２以上が利用される場合、各値は利用される特徴からバイナリ判定を導出可能な機械学習アルゴリズムにより処理されてもよい。機械学習アルゴリズムはさらに、ゲート処理モジュール１０３におけるさらなるサブモジュールであってもよい。例えば、機械学習アルゴリズムは、ＡｄａＢｏｏｓｔであってもよい。ＡｄａＢｏｏｓｔアルゴリズムは、参照することにより援用されるＹｏａｖＦｒｅｕｎｄａｎｄＲｏｂｅｒｔＥ．Ｓｃｈａｐｉｒｅ，Ａｓｈｏｒｔｉｎｔｒｏｄｕｃｔｉｏｎｔｏｂｏｏｓｔｉｎｇ，ＪｏｕｒｎａｌｏｆＪａｐａｎｅｓｅＳｏｃｉｅｔｙｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，１４（５），ｐａｇｅｓ７７１−７８０，１９９９に記載される。

ＡｄａＢｏｏｓｔは、いわゆる、弱学習アルゴリズムを強学習アルゴリズムにブースティングするのに利用されてもよい。上述されたシステム上で適用されると、ＡｄａＢｏｏｓｔは、Ｆ_１（ｔ）〜Ｆ_７（ｔ）の７つの値からバイナリ判定を導出するのに利用されてもよい。

ＡｄａＢｏｏｓｔは、具体例のデータベース上で訓練される。それは、入力として上記特徴の正しくラベル付けされた出力ベクトルを提供することによって訓練されてもよい。その後、それは、分類手段としてＡｄａＢｏｏｓｔの実際の適用中に利用するためブースティングベクトルを提供することができる。ブースティングベクトルは、各特徴について閾値とウェイトとのセットであってもよい。それは、何れの特徴がスピーチ又は非スピーチ判定を行い、訓練中に決定された値によりそれを重み付けするかの情報を提供してもよい。

オーディオ信号から抽出された特徴は、“弱”学習アルゴリズムを表す。これらの“弱”学習アルゴリズムのそれぞれはシンプルな分類手段であり、その後、それは閾値と比較され、所与のウェイトによりファクタ化される。出力は、入力オーディオがスピーチであるか否かを判断するバイナリ分類である。

例えば、出力ベクトルは、スピーチ又は非スピーチについてＹ＝−１，＋１を仮定してもよい。ＡｄａＢｏｏｓｔは、いわゆるブースティングラウンドにおいて弱学習手段を複数回呼び出す。それは、ウェイト分布Ｄ_ｔを維持し、それは、弱仮説が誤って分類される毎により高くランク付けされる。このようにして、仮説はトレーニングセットの困難な具体例に着目される必要がある。弱仮説の品質は、分布Ｄ_ｔから計算可能である。

例えば、２０ラウンドのブースティングの実行後、トレーニングアルゴリズムは、ブースティングベクトルを返す。ブースティングのラウンド数は固定されず、２０回など経験的に選択されてもよい。それを適用する労力が、やや小さい上述された訓練によるベクトルの利用と比較される。アルゴリズムは、各Ｆ_ｉ（ｔ）について１つである７つの値を有するベクトルを受信する。各ラウンドによって、アルゴリズムは当該ベクトルについて繰り返され、１つの特徴の結果を抽出し、それを閾値と比較し、符号の形式によりそれの意味を導出する。

以下は、バイナリスピーチ／他の分類のための一例となるコードである。

エンコーダを訓練するため、スピーチの抜粋と非スピーチの抜粋とを有するトレーニングデータベースが符号化される。各抜粋は、正しい判定が何れであるかトレーニングアルゴリズムに通知するため、ラベル付けされる必要がある。その後、エンコーダは、入力としてのトレーニングファイルにより呼び出される。符号化処理中、すべての特徴結果が記録される。その後、トレーニングアルゴリズムは入力ベクトルに適用される。この結果をテストするため、異なるオーディオデータを有するテストデータベースが利用される。当該特徴が良好に機能した場合、各ブースティングラウンド後、トレーニング及びテストエラーは徐々に小さくなることを観察できる。このエラーは、誤って分類された入力ベクトルから計算される。

アルゴリズムは、可能な最小のエラーを生じさせる閾値を各特徴について選択している。その後、それはすべての誤って分類されたスタンプ（ｓｔｕｍｐ）をより大きく重み付けするようにしてもよい。次のブースティングラウンドにおいて、アルゴリズムは、可能な最小のエラーを有する閾値と他の特徴とを選択してもよい。ある時間後、異なるスタンプ（具体例／ベクトル）はもはや等しくは重み付けされないかもしれない。これは、この時点までの誤って分類されたすべての具体例がアルゴリズムからより注目されるようになっていることを意味する。これは、異なって重み付けされた分布により新たな閾値を考慮することによって、以降のブースティングラウンドにおいて再び特徴をコールすることを可能にする。

図３は、オーディオエンコーダからの情報を利用して入力オーディオ信号からラウドネスレベル情報を推定するシステム３００を概略的に示す。

システム３００は、エンコーダ１０１のサブモジュール、ラウドネス推定モジュール１０２及びゴート処理モジュール１０３を有する。例えば、システム３００は、図２に関して説明されたサブモジュール２０３〜２０９の少なくとも１つを有する。さらに、システム３０１は、ブロックスイッチングサブモジュール３１１、ＭＤＣＴ変換サブモジュール３１２、スケールファクタバンドエネルギーサブモジュール３１３及びさらなるサブモジュールの少なくとも１つを有する。さらに、システム３０１は、オーディオ入力信号がマルチチャネル信号である場合、複数のダウンミキササブモジュール３２１〜２２３と、ショートブロックハンドリング及び擬似スペクトル生成のためのサブモジュール３３０とを有してもよい。オーディオ入力信号がマルチチャネル信号である場合、サブモジュール３３０はまたダウンミキサを有してもよい。

サブモジュール２０３〜２０９は、上述されるようなラウドネス推定を実行するラウドネス推定モジュール１０２にそれらの値Ｆ_１（ｔ）〜Ｆ_７（ｔ）を送信する。ラウドネス指標などのラウドネス推定モジュール１０２のラウドネス情報が、符号化されたオーディオ信号を搬送するビットストリームに符号化されてもよい。ラウドネス指標は、例えば、ドルビーデジタルダイヤルノーム値などであってもよい。

あるいは、ラウドネス指標は、リプレイゲイン値として格納されてもよい。リプレイゲイン値は、ｉＴｕｎｅｓスタイルメタデータ又はＩＤ３ｖ２タグに格納されてもよい。さらなる代替では、ラウドネス指標は、ＭＰＥＧの“プログラムリファレンスレベル”を上書きするのに利用されてもよい。ＭＰＥＧの“プログラムリファレンスレベル”は、ダイナミックレンジ圧縮（ＤＲＣ）情報構造の一部としてＭＰＥＧ４ＡＡＣビットストリームのフィルエレメントに配置されてもよい（ＩＳＯ／ＩＥＣ１４４９６−３Ｓｕｂｐａｒｔ４）。

ＭＤＣＴ変換サブモジュール３１２に関連するブロックスイッチングサブモジュール３１１の処理が以下で説明される。

ＨＥ−ＡＡＣによると、いくつかのＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）係数を含むフレームが符号化中に生成される。典型的には、ロングブロックとショートブロックとの２つのタイプのブロックが区別されてもよい。ある実施例では、ロングブロックはフレームのサイズに等しい（すなわち、ある時間分解能に対応する１０２４個のスペクトル係数）。ショートブロックは、時間に関してオーディオ信号の特徴を適切に表現するため８倍以上の時間分解能（１０２４／１２８）を実現し、エコー前アーチファクトを回避するため、１２８個のスペクトル値を有する。この結果、フレームは、同じファクタ８だけの周波数分解能の低減を犠牲にして、８つのショートブロックにより構成される。この方式は、通常はブロックスイッチングサブモジュール３１１において実行可能な“ＡＡＣブロックスイッチング方式”と呼ばれる。すなわち、ブロックスイッチングモジュール３１１は、ロングブロック又はショートブロックを生成するか判断する。ショートブロックがより低い周波数分解能を有する間、ショートブロックは、オーディオ信号における開始を決定するのに貴重な情報とリズム情報とを提供する。これは、多数の急な開始と、高品質の表現のための多数のショートブロックとを含むオーディオ及びスピーチ信号について特に関連する。

ショートブロックを有するフレームについて、ＭＤＣＴ係数をロングブロックにインタリーブすることが提案され、当該インタリーブはサブモジュール３３０により実行される。当該インタリーブは図４に示され、ここでは、８つのショートブロックの各自の係数が再グループ化され、すなわち、８つのブロック４０１〜４０８の第１ＭＤＣＴ係数が再グループ化され、８つのブロック４０１〜４０８の第２のＭＤＣＴ係数に続き、以下同様となるように、８つのショートブロック４０１〜４０８のＭＤＣＴ係数がインタリーブされる。これを実行することによって、対応するＭＤＣＴ係数、すなわち、同じ周波数に対応するＭＤＣＴ係数が一緒にグループ化される。フレーム内のショートブロックのインタリーブは、フレーム内で周波数分解能を“人工的”に増加させるための処理として理解されてもよい。周波数分解能を増加させるための他の手段が想定されてもよいことに留意すべきである。

図示された具体例では、１０２４個のＭＤＣＴ係数を有するブロック４１０が、８つのショートブロックのシーケンスについて取得される。ロングブロックがまた１０２４個のＭＤＣＴ係数を有するという事実のため、１０２４個のＭＤＣＴ係数を有する完全なブロックシーケンスがオーディオ信号について取得される。すなわち、８つの連続するショートブロック４０１〜４０８からロングブロック４１０を構成することによって、ロングブロックのシーケンスが取得される。

エンコーダは、異なるタイプのオーディオ信号を処理するため、２つの異なるウィンドウを利用してもよい。ウィンドウは、ＭＤＣＴ解析のために利用されるデータサンプルの個数を記述する。１つの符号化方法は、１０２４個のサンプルのブロックサイズによるロングブロックを利用するものであってもよい。一時的なデータのケースでは、エンコーダは、８つのショートブロックのセットを構成してもよい。各ショートブロックは１２８個のサンプルを有し、従って２＊１２８個のサンプルのＭＤＣＴ長を有してもよい。ショートブロックは、プレエコーと呼ばれる減少を回避するのに利用される。これは、１０２４個のサンプルを予想するため、スペクトル特徴の計算において問題を生じさせる。ショートブロックのグループの出現が低いため、あるタイプの回避方法がこの問題について利用可能である。８つのショートブロックのすべてのセットは、１つのロングブロックに類似されてもよい。ロングブロックの最初の８つのインデックスは、図４に示されるように、８つのショートブロックのそれぞれから１つのインデックス番号から得られる。８つの第２インデックスは、８つのショートブロックのそれぞれの第２インデックスから得られ、以下同様である。

オーディオ信号においてトランジェント（ｔｒａｎｓｉｅｎｔ）を検出するブロックスイッチングサブモジュール３１１は、１２８個の時間サンプルのブロックのエネルギーを計算することにより動作してもよい。

ＰＣＭとＬＲＭという２つの特徴が信号のエネルギーにより機能する。さらに、ＳＲＭ特徴は、信号の分散により機能する。信号のエネルギーと分散との相違は、当該分散がオフセットフリーな時間信号から計算されているということである。エンコーダは、フィルタバンクにわたす前にオフセットをすでに除去しているため、エンコーダにおいて分散とエネルギーとを計算する際の相違はほとんど不要である。ある実施例では、ブロックエネルギー推定値を利用してＬＲＭ、ＰＣＭ及びＲＰＭ特徴を計算することが可能である。

ＡｄａＢｏｏｓｔアルゴリズムは、すべてのサンプリングレートについて特定のベクトルを必要とし、これに従って開始される。このため、実装の精度は利用されるサンプルレートに依存するかもしれない。

計算されるエネルギーは、任意的なダウンミキサモジュール３２２を介しブロックスイッチングモジュール３１１からＳＲＭサブモジュール２０８、ＬＲＭサブモジュール２０９及びＰＣＭサブモジュール２０５に提供されてもよい。

ＬＲＭサブモジュール２０９及びＰＣＭサブモジュール２０５は、上述されるように、信号エネルギーに対して機能する一方、ＳＲＭサブモジュール２０８は、信号の分散により機能する。上述されるように、分散とエネルギーとの間の差分が無視できるように、信号オフセットが除去される。

図３に戻って、サブモジュール３３０の処理が以下においてさらに説明される。サブモジュール３３０は、ＭＤＣＴ変換サブモジュール３１２からＭＤＣＴ係数を受信し、上述されたように、ショートブロックを処理する。ＭＤＣＴ係数は、擬似スペクトルを計算するのに利用されてもよい。擬似スペクトルＹ_ｍは、

としてＭＤＣＴ係数から計算されてもよい。

上記の式は、隣接するビンにより実際のビンを平均化することによって、ＤＦＴによるスペクトル解析に接近するように、ＭＤＣＴ係数から擬似スペクトルを計算する方法を説明する。ＤＦＴ、ＭＤＣＴ係数及び擬似スペクトルにより生成されるスペクトルの具体例が図５ａに示される。

擬似スペクトルは、サブモジュール３３０により提供される擬似スペクトルに基づきスペクトルフラックス分散を計算するＳＦＶサブモジュール２０３に提供されてもよい。あるいは、ＭＤＣＴは、Ｆ_１（ｔ）がＤＦＴデータ、ＭＤＣＴデータ及び擬似スペクトルデータから計算される図５ｂに示されるように利用されてもよい。他の代替では、ＱＭＦデータが、例えば、ＨＥ−ＡＡＣを用いて入力オーディオ信号を符号化するときに利用されてもよい。この場合、ＳＦＶサブモジュール２０３は、ＳＢＲサブモジュールからＱＭＦデータを受信してもよい。

スピーチ／非スピーチ分類がエンコーダに関して図３において説明されたが、サブモジュールからの関連する情報が提供される限り、スピーチ／非スピーチ分類はまた他のコンテクストにおいて実現されてもよいことに留意すべきである。

ある実施例では、ＤＦＴスペクトル表現をＭＤＣＴ表現及びＳＦＶとＡＳＴ特徴の計算に置換するため、追加的な処理が実行される。例えば、フィルタバンクデータが、左右のチャネルとしてダイヤルノーム計算モジュールにわたされてもよい。双方のチャネルのシンプルなダウンミックスは、左右のチャネルを加えることによって、すなわち、Ｘ_{ｋｍｏｎｏ}＝Ｘ_{ｋｌｅｆｔ}＋Ｘ_{ｋｒｉｇｈｔ}によって実行されてもよい。

ダウンミックス後、スペクトルフラックスの計算にデータを提供するためのいくつかの可能性がある。１つのアプローチは、ＭＤＣＴ計算の大きさを計算することによって、ＳＦＶのスペクトル解析のためＭＤＣＴ係数を利用することである。他のアプローチは、ＭＤＣＴ係数から擬似スペクトルを導出することである。

さらに、ＭＤＣＴ係数から計算される擬似スペクトルは、平均的なスペクトルティルトを計算するのに利用されてもよい。この場合、擬似スペクトルは、サブモジュール３３０からＡＳＴサブモジュール２０４に提供されてもよい。あるいは、ＭＤＣＴ係数が、平均的なスペクトルティルトを計算するのに利用されてもよい。この場合、ＭＤＣＴ係数は、サブモジュール３１２からＡＳＴサブモジュール２０４に提供されてもよい。さらなる代替では、スケールファクタバンドエネルギーが、平均的なスペクトルティルトを計算するのに利用されてもよい。この場合、スケールファクタバンドエネルギーサブモジュール３１３は、スケールファクタバンドエネルギーから平均的なスペクトルティルトの指標を計算するＡＳＴサブモジュール２０４にスケールファクタバンドエネルギーを提供してもよい。従来、スケールファクタバンドエネルギーはＭＤＣＴスペクトルから導出される周波数帯域からのエネルギー推定値であることに留意すべきである。

ある実施例によると、スケールファクタバンドエネルギーは、上述されるように、平均的なスペクトルティルトを計算するのに利用されるスペクトルパワー密度を置換するのに利用される。４８ｋＨｚのサンプルレートのためのＭＤＣＴインデックスｏ＿ｓｅｔｓ（Ｎｍ）の一例となるテーブルが、以下のテーブルに示される。スケールファクタエネルギーの計算は、以下のとおりである。

対数領域への変換は、１０２４個のビンの代わりに４６個のｓｆｂエネルギーのみを利用する相違により上述された変換と等しい。

すなわち、ＡＳＴは、以下のようにして上述されたＤＦＴベース式を変更することから導出されてもよい。
・スケールファクタバンドレベルＺ［ｋ］によりＤＦＴレベルＸ［ｋ］を置換（ｍ〜ｋを設定）
・ｋは１〜４６まで実行される（使用されるスケールファクタバンドの個数）
・ｍは時間ブロックインデックス（ブロックサイズは１０２４個のサンプル）
・ファクタＮ／２が利用されるスケールファクタバンドの個数（４６）と置換される必要がある
・Ｍは２秒の時間ウィンドウにおけるブロック数（１０２４個のサンプルのサイズの）に対応する
・ｔは現在の推定時間（過去２秒間をカバーする）に対応する
・ＡＳＴが０．５秒毎に計算された場合、ｔのサンプリング区間は０．５秒である。

異なる信号設定についてスケールファクタバンドエネルギーを変換する他の具体例は、本明細書の範囲内において当業者に明らかである。

スケールファクタバンド（ＳＦＢ）は、当該特徴の複雑さの低減のため、効果的に利用されてもよい。１０２４個のビンのフルＭＤＣＴスペクトルと比較して、４６個のスケールファクタバンドを考慮することは複雑さが低い。スケールファクタバンドエネルギーは、ＭＤＣＴスペクトルから導出される異なる周波数帯域からのエネルギー推定値である。これらの推定値は、各スケールファクタバンドにおける許容される量子化エラーを導出するため、エンコーダの心理音響モデルについてエンコーダにおいて利用される。

本明細書の他の態様によると、オーディオコンテンツのスピーチ／非スピーチ部分の分類のための新たな特徴が提案される。提案された特徴は、オーディオ信号の当該性質がスピーチ又は非スピーチの分類に有用な情報を搬送するため、オーディオ信号のリズム情報の推定に関連する。提案されたリズム特徴は、その後、オーディオの部分又はセグメントに対する判定を行うため、ＡｄａＢｏｏｓｔ分類手段などの分類手段において他の特徴に加えて利用可能である。

効率化のため、オーディオ信号から直接的に又はビットストリームへの挿入用にエンコーダにより計算されたデータからリズム情報を抽出することが望ましいかもしれない。以下において、オーディオ信号のリズム情報をどのように決定するに関する方法が説明される。ＨＥ−ＡＡＣエンコーダが着目される。

ＨＥ−ＡＡＣ符号化は、高周波数再構成（ＨＦＲ）又はスペクトルバンド複製（ＳＢＲ）技術を利用する。ＳＢＲ符号化処理は、トランジェント検出段階、適切な表現のための適応的Ｔ／Ｆ（時間／周波数）グリッド選択、エンベロープ推定段階及び信号の低周波数部分と高周波数部分との間の信号特性のミスマッチを訂正するための追加的な方法を有する。

ＳＢＲエンコーダにより生成されるペイロードの大部分はエンベロープのパラメータ表現から生じていることが観察された。信号特性に依存して、エンコーダは、オーディオセグメントの適切な表現とプレエコーアーチファクトを回避するのに適した時間周波数分解能を決定する。典型的には、時間について擬似静的セグメントに対してより高い周波数分解能が選択され、動的な推移に対してより高い時間分解能が選択される。

この結果、より長い時間セグメントはより短い時間セグメントより効率的に符号化可能であるという事実により、時間周波数分解能の選択は、ＳＢＲビットレートに対して有意な影響を有する。同時に、高速に変化するコンテンツに対して、すなわち、典型的にはより高いリズムを有するオーディオコンテンツに対して、オーディオ信号の適切な表現のため送信されるエンベロープの個数とエンベロープ係数の個数とは、低速に変化するコンテンツに対してより高くなる。選択された時間分解能の影響に加えて、この効果はさらにＳＢＲデータのサイズに影響を与える。実際、基礎となるオーディオ信号のテンポ又はリズムの変化に対するＳＢＲデータレートの感度は、ｍｐ３コーデックに関して利用されるハフマンコード長のサイズの感度より高いことが観察された。従って、ＳＢＲデータのビットレートの変化は、符号化されたビットストリームからリズムコンポーネントを直接的に決定するのに利用可能な貴重な情報として特定された。従って、ＳＢＲペイロードは、オーディオ信号における開始を推定するための良好なプロキシである。このとき、ＳＢＲにより導出されるリズム情報は、例えば、ラウドネスの計算をゲート化するためなど、スピーチ／非スピーチ分類のための特徴として利用可能である。

ＳＢＲペイロードのサイズは、リズム情報について利用可能である。ＳＢＲペイロードの大きさは、エンコーダのＳＢＲコンポーネントから直接的に受信されてもよい。

図７ａにおいて、ＳＢＲペイロードデータの具体例が提供される。ｘ軸はフレーム番号を示し、ｙ軸は対応するフレームのＳＢＲペイロードデータのサイズを示す。ＳＢＲペイロードデータのサイズはフレーム毎に変化することが観察できる。以下において、ＳＢＲペイロードデータサイズのみが参照される。リズム情報が、ＳＢＲペイロードデータのサイズの周期性を特定することによって、ＳＢＲペイロードデータのサイズのシーケンス７０１から抽出されてもよい。特に、ＳＢＲペイロードデータのサイズのピークの周期性又は繰り返しパターンが特定されてもよい。これは、例えば、ＳＢＲペイロードデータのサイズの重複したサブシーケンスに対してＦＦＴを適用するなどによって実行可能である。サブシーケンスは、６秒間など特定の信号長に対応してもよい。連続するサブシーケンスの重複は、５０％のオーバラップであってもよい。その後、サブシーケンスのＦＦＴ係数が、完全なオーディオトラックの長さに対して平均化されてもよい。これは、図７ｂに示される変調スペクトル７１１として表現されてもよい完全なオーディオトラックについて平均化されたＦＦＴ係数を生成する。ＳＢＲペイロードデータのサイズの周期性を特定するための他の方法が想定されてもよいことに留意すべきである。

変調スペクトル７１１のピーク７１２、７１３、７１４は、繰り返しパターン、すなわち、ある生起頻度によるリズムパターンを示す。生起頻度はまた、変調頻度と呼ばれてもよい。可能な最大変調周波数は基礎となるコアオーディオコーデックの時間分解能により制限されることに留意すべきである。ＨＥ−ＡＡＣは１／２のサンプリング周波数で動作するＡＡＣコアコーデックを有するデュアルレートッステムであると定義されるため、６秒長のシーケンス（１２８フレーム）及びサンプリング周波数Ｆ_ｓ＝４４１００Ｈｚについて、約２１．７４Ｈｚ／２〜１１Ｈｚの可能な最大変調周波数が取得される。この可能な最大変調周波数は、スピーチのテンポ／リズムとほぼすべての音楽部分をカバーする約６６０ＢＰＭに対応する。便宜上、正確な処理を保証しながら、最大変調周波数は、６００ＢＰＭに対応する１０Ｈｚに限定されてもよい。

図７ｂの変調スペクトルはさらにエンハンスされてもよい。例えば、図６に示される重み付け曲線６００を利用した知覚的重み付けが、人間のテンポ／リズムの嗜好をモデル化するため、ＳＢＲペイロードデータ変調スペクトル７１１に適用されてもよい。図７ｃにおいて、結果として得られる知覚的に重み付けされたＳＢＲペイロードデータ変調スペクトル７２１が示される。極めて低い及び極めて高いテンポが抑制されることが観察できる。特に、初期的なピーク７１２及び７１４とそれぞれ比較して、低周波数ピーク７２２及び高周波数ピーク７２４が低減されていることが理解できる。他方、中程度の周波数ピーク７２３は維持されている。

ＳＢＲペイロードデータに基づくリズム推定のための提案されたアプローチは、入力信号のビットレートから独立していることに留意すべきである。ＨＥ−ＡＡＣ符号化ビットストリームのビットレートを変更するとき、エンコーダは、当該ビットレートにおいて実現可能な最高の出力品質に従ってＳＢＲスタート及びストップ頻度を自動設定し、すなわち、ＳＢＲクロスオーバ頻度が変更される。にもかかわらず、ＳＢＲペイロードは、オーディオトラックの繰り返しのトランジェントコンポーネントに関して情報を有する。これは、ＳＢＲペイロード変調スペクトルが異なるビットレートについて示される図７ｄにおいて観察できる（１６〜６４ｋｂｉｔｓ／ｓ）。オーディオ信号の繰り返し部分（すなわち、ピーク７３３などの変調スペクトルのピーク）がすべてのビットレートに対して優位であり続けることが観察できる。また、エンコーダはビットレートを減少させながら、ＳＢＲ部分のビットを節約しようとするため、異なる変調スペクトルにおいて変動があることが観察されてもよい。

結果としてのリズム特徴は、スピーチ／非スピーチ分類のための良好な特徴である。音声信号がスピーチ信号であるか、又は他の信号タイプに関するものであるか判断するため、異なるタイプの分類手段が適用されてもよい。例えば、ＡｄａＢｏｏｓｔ分類手段は、リズム特徴と分類のための他の特徴とを重み付けするため利用されてもよい。リズム特徴は、例えば、ＨＥ−ＡＡＣエンコーダのダイヤルノーム計算に利用されるショートリズム指標（ＳＲＭ）及び／又はロングリズム指標（ＬＲＭ）などのリズムに関する類似した特徴の代わりに又は加えて適用されてもよい。

本明細書におけるリズム特徴推定及びスピーチ分類について概略された方法はＨＥ−ＡＡＣのダイヤルノームなどのラウドネス値の分類をゲート処理するため適用されてもよいことに留意すべきである。提案された方法は、エンコーダのＳＢＲコンポーネントにおける計算を利用し、大きな計算負荷を加えるものでない。

さらなる態様として、オーディオ信号のスピーチ／非スピーチ分類及び／又はラウドネス情報がメタデータの形態により符号化されたビットストリームに書き込まれてもよいことに留意すべきである。このようなメタデータは、メディアプレーヤーにより抽出及び利用されてもよい。

本明細書では、スピーチ／非スピーチ分類手段及びゲート化ラウドネス推定方法及びシステムが説明された。当該推定は、エンコーダにより決定されるようなＨＥ−ＡＡＣＳＢＲペイロードに基づき実行されてもよい。これは、極めて低い複雑さによりリズム特徴の決定を可能にする。ＳＢＲペイロードデータを利用して、リズム特徴が抽出されてもよい。提案された方法は、ビットレート及びＳＢＲクロスオーバ周波数変動に対してロウバストであり、モノ及びマルチチャネル符号化オーディオ信号に適用可能である。それはまた、ｍｐ３ＰＲＯなどの他のＳＢＲエンハンスされたオーディオコーダに適用可能であり、コアコーデックアグノスティック（ｃｏｒｅｃｏｄｅｃａｇｎｏｓｔｉｃ）であるとみなすことができる。

本明細書に説明される方法及びシステムは、ソフトウェア、ファームウェア及び／又はハードウェアとして実現されてもよい。特定のコンポーネントは、デジタル信号プロセッサ又はマイクロプロセッサ上で実行されるソフトウェアとして実現されてもよい。他のコンポーネントは、例えば、ハードウェア及び／又は特定用途向け集積回路として実現されてもよい。説明された方法及びシステムに出現する信号は、ＲＡＭや光記憶媒体などの媒体に格納されてもよい。それらは、ラジオネットワーク、衛星ネットワーク、無線ネットワーク又は有線ネットワークなどのインターネットなどのネットワークを介し伝送されてもよい。本明細書に説明される方法及びシステムを利用する典型的な装置は、オーディオ信号を格納及び／又は再生するのに利用されるポータブル電子装置又は他のコンシューマ装置である。本方法及びシステムはまた、ダウンロード用の音楽信号などのオーディオ信号を格納及び提供するインターネットウェブサーバなどのコンピュータシステム上で利用されてもよい。

Claims

オーディオ信号を符号化する装置により実行される方法であって、
前記オーディオ信号のスペクトル表現を決定するステップであって、ＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）係数を決定することを含む、前記決定するステップと、
前記決定されたスペクトル表現を利用して前記オーディオ信号をビットストリームに符号化するステップと、
前記ＭＤＣＴ係数から擬似スペクトルを決定するステップであって、前記擬似スペクトルを決定するステップは、特定の周波数ビンｍの特定のＭＤＣＴ係数Ｘ _ｍについて、前記擬似スペクトルの対応する係数Ｙ _ｍをＹ _ｍ＝（Ｘ _ｍ ^２＋（Ｘ _ｍ−１ −Ｘ _ｍ＋１） ^２） ^１／２として決定することを含み、Ｘ _ｍ−１及びＸ _ｍ＋１はそれぞれ前記特定の周波数ビンｍに隣接する周波数ビン（ｍ−１）及び（ｍ＋１）のＭＤＣＴ係数である、決定するステップと、
前記決定された擬似スペクトルの値に基づき前記オーディオ信号の部分をスピーチ又は非スピーチであると分類するステップと、
前記スピーチ部分に基づき前記オーディオ信号のラウドネス指標を決定するステップと、
前記決定されたラウドネス指標を前記ビットストリームに符号化するステップと、
を有する方法。
前記スペクトル表現を決定するステップは、ＱＭＦ（ＱｕａｄｒａｔｕｒｅＭｉｒｒｏｒＦｉｌｔｅｒ）フィルタバンク表現を決定することを含む、請求項１記載の方法。
スペクトルフラックス分散を決定するステップをさらに有し、
前記スピーチ／非スピーチ部分の分類は、前記決定されたスペクトルフラックス分散に少なくとも部分的に基づく、請求項１又は２記載の方法。
前記ＭＤＣＴ係数からスケールファクタバンドエネルギーを決定するステップをさらに有し、
前記スピーチ／非スピーチ部分の分類は、前記決定されたスケールファクタバンドエネルギーに少なくとも部分的に基づく、請求項１乃至３何れか一項記載の方法。
前記スケールファクタバンドエネルギーから平均スペクトルティルトを決定するステップをさらに有し、
前記スピーチ／非スピーチ部分の分類は、前記平均スペクトルティルトに少なくとも部分的に基づく、請求項４記載の方法。
前記オーディオ信号のブロックのエネルギー値を決定するステップと、
前記オーディオ信号のブロックのエネルギー値に基づきエネルギーベース特徴を決定するステップと、
をさらに有し、
前記スピーチ／非スピーチ部分の分類は、前記エネルギーベース特徴に少なくとも部分的に基づく、請求項１乃至５何れか一項記載の方法。
前記スピーチ／非スピーチ部分の分類は、機械学習アルゴリズム、特にＡｄａＢｏｏｓｔアルゴリズムに基づく、請求項１乃至６何れか一項記載の方法。
スピーチデータ及び非スピーチデータに基づき前記機械学習アルゴリズムをトレーニングするステップをさらに有し、これにより、エラー関数を最小化するため前記機械学習アルゴリズムのパラメータを調整する、請求項７記載の方法。
前記スペクトル表現は、ショートブロック及び／又はロングブロックについて決定され、
当該方法はさらに、所定数のショートブロックに対応するロングブロック表現のフレームとショートブロック表現とを整合させるステップを有し、これにより、前記所定数のショートブロックのＭＤＣＴ係数をロングブロックの前記フレームにリオーダリングする、請求項１乃至８何れか一項記載の方法。
前記オーディオ信号は、マルチチャネル信号であり、
当該方法はさらに、前記マルチチャネル信号をダウンミキシングし、前記ダウンミキシングされた信号に対して前記分類するステップを実行するステップを有する、請求項１乃至９何れか一項記載の方法。
前記オーディオ信号をダウンサンプリングし、前記ダウンサンプリングされた信号に対して前記分類するステップを実行するステップをさらに有する、請求項１乃至１０何れか一項記載の方法。
前記オーディオ信号は、ＨＥ−ＡＡＣ、ＭＰ３、ＡＡＣ、ドルビーデジタル又はドルビーデジタルプラスの１つに従って符号化される、請求項１乃至１１何れか一項記載の方法。
コンピュータ装置上のプロセッサに請求項１乃至１２何れか一項記載の方法のステップを実行させるためのソフトウェアプログラム。
コンピュータ装置上のプロセッサに請求項１乃至１２何れか一項記載の方法のステップを実行させるためのソフトウェアプログラムを記憶するコンピュータ可読記憶媒体。
コンピュータ装置上のプロセッサに請求項１乃至１２何れか一項記載の方法を実行させるためのコンピュータプログラム。
オーディオ信号を符号化するシステムであって、
前記オーディオ信号のスペクトル表現を決定する手段であって、ＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）係数を決定するよう構成される前記決定する手段と、
前記決定されたスペクトル表現を利用して前記オーディオ信号をビットストリームに符号化する手段と、
前記ＭＤＣＴ係数から擬似スペクトルを決定する手段であって、前記擬似スペクトルを決定する手段は、特定の周波数ビンｍの特定のＭＤＣＴ係数Ｘ _ｍについて、前記擬似スペクトルの対応する係数Ｙ _ｍをＹ _ｍ＝（Ｘ _ｍ ^２＋（Ｘ _ｍ−１ −Ｘ _ｍ＋１） ^２） ^１／２として決定することを含み、Ｘ _ｍ−１及びＸ _ｍ＋１はそれぞれ前記特定の周波数ビンｍに隣接する周波数ビン（ｍ−１）及び（ｍ＋１）のＭＤＣＴ係数である、決定する手段と、
前記決定された擬似スペクトルの値に基づきスピーチ又は非スピーチであると前記オーディオ信号の部分を分類する手段と、
前記スピーチ部分に基づき前記オーディオ信号のラウドネス指標を決定する手段と、
前記決定されたラウドネス指標を前記ビットストリームに符号化する手段と、
を有するシステム。