JP2020525853A

JP2020525853A - 密集性の過渡事象の検出及び符号化の複雑さの低減

Info

Publication number: JP2020525853A
Application number: JP2019572693A
Authority: JP
Inventors: ビスワス，アリジット; シューク，ミヒャエル; ムント，ハラルト
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2017-07-03
Filing date: 2018-07-03
Publication date: 2020-08-27
Anticipated expiration: 2038-07-03
Also published as: CN110998722B; EP3649640A1; US20200126572A1; CN110998722A; JP7257975B2; US11232804B2

Abstract

本開示はオーディオ符号化のための方法及び装置に関連する。オーディオ信号の一部分をエンコードする方法は、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かを決定するステップ、及びオーディオ信号の一部分が密集性の過渡事象を含んでいそうであると決定された場合に、実質的に一定の信号対雑音比を、オーディオ信号の一部分の周波数にわたって適用する量子化モードを利用して、オーディオ信号の一部分を量子化するステップを含む。本開示はオーディオ信号の一部分における密集性の過渡事象を検出する方法にも更に関連する。［図７］

Description

関連出願のクロス・リファレンス
本願は以下の出願：２０１７年７月３日付で出願された米国仮出願第６２／５２８，１９８号、及び２０１７年７月３日付で出願された欧州出願第１７１７９３１６．９号に基づく優先権を主張しており、これらは本願に援用される。

技術分野
本開示はオーディオ信号をエンコードする方法に関連する。本開示はオーディオ信号の一部分における密集性の過渡事象（ｄｅｎｓｅｔｒａｎｓｉｅｎｔｅｖｅｎｔｓ）を検出する方法に更に関連する。本開示はまた、例えばエンコーダ等の対応する装置にも関連している。

背景技術
知覚性又は損失性オーディオ・コーデック（例えば、ＭＰ３，ＡＡＣ，ＨＥ−ＡＡＣ，ＡＣ−４等）は、例えば拍手、パチパチと音を立てている炎、又は雨などの密集性の過渡事象を含むオーディオ信号を、知覚されるオーディオ品質の損失なしに圧縮することに伴う問題を有することが知られている。圧縮効率を増加させる従来の努力は、典型的には、エンコーダ側で大幅に増大する演算の複雑化、及び／又は知覚されるオーディオ品質の損失を招く傾向がある。

本開示は、例えば拍手、パチパチと音を立てている炎、又は雨などの密集性の過渡事象を含むオーディオ信号の音声符号化に関する上記の問題に対処し、そのようなオーディオ信号の改善された符号化のための方法及び装置を述べている。本開示は、オーディオ信号中の密集性の過渡事象を検出し、それらの適切な取り扱いを可能にすることを更に取り扱う。

本開示の態様によれば、オーディオ信号の一部分（例えば、フレーム）をエンコードする方法が開示される。方法はオーディオ信号の一部分の知覚エントロピー（ａｐｅｒｃｅｐｔｕａｌｅｎｔｒｏｐｙ：ＰＥ）に関連する第１特徴値を取得（例えば、決定、計算、又は演算）するステップを含むことができる。ＰＥは、特定のオーディオ信号中に含まれる知覚的に関連する情報の尺度として、また特定のオーディオ信号の圧縮性に関する理論的限界を表現するものとして、音声符号化の分野で知られている。本方法は、（取得した）第１特徴値に基づいてオーディオ信号の一部分を量子化するための（例えば、ＭＤＣＴ係数などの、オーディオ信号の一部分の周波数係数を量子化するための）量子化モードを選択するステップを更に含むことができる。本方法は選択された量子化モードを利用してオーディオ信号の一部分を量子化するステップを更に含むことができる。量子化モードを選択するステップは、（取得した）第１特徴値に少なくとも部分的に基づいて、周波数にわたって（例えば、周波数バンドにわたって）（実質的に）一定の信号対雑音比（ＳＮＲ）を適用する（例えば、強制する）量子化モードが、オーディオ信号の一部分に使用されることとするか否かを決定するステップを含んでもよい。この量子化モードは、コンスタントＳＮＲモード又はコンスタントＳＮＲ量子化モードと言及されてもよい。周波数にわたって一定のＳＮＲを適用することは、ノイズ・シェーピング（例えば、量子化ノイズ・シェーピング）を含んでもよい（例えば、関連してもよい）。このことは次に（例えば、量子化ステップ・サイズ、マスキング閾値などの）量子化パラメータの適切な選択又は修正を含み得る。量子化はバンド毎に実行されてもよい。更に、量子化は知覚モデル（例えば、心理音響モデル）に従って実行されてもよい。そのようなケースでは、例えば、量子化を実行する場合に、周波数にわたって実質的に一定のＳＮＲを達成するために、スケール因子バンドのためのスケール因子、及び／又はマスキング閾値が選択又は修正されてもよい。

量子化で周波数にわたって一定のＳＮＲを強制することにより、密集性の過渡事象（例えば、拍手、パチパチと音を立てる炎、雨、等々）含むオーディオ信号は、デコーディング後の音声の改善された知覚品質を達成する方法でエンコードされることが可能である。このコンスタントＳＮＲ量子化モードは、オーディオ信号をエンコードするためにはむしろ異例であり、他のタイプのオーディオ信号には適切でないかもしれないので、オーディオ信号の知覚エントロピーを参照することにより、オーディオ信号中の密集性の過渡事象の存在が先ず検出され、検出結果に従って量子化モードが選択される。これにより、密集性の過渡事象を含まない、又は密集性の過渡事象を含むだけではないオーディオ信号（例えば、音楽、会話、音楽及び／又は喝采に混ざった拍手など）の劣化は確実に回避され得る。知覚エントロピーは量子化の目的で最先端のオーディオ・コーデック（例えば、ＭＰ３，ＡＡＣ，ＨＥ−ＡＡＣ，ＡＣ−４等）において何らかの方法で決定されるので、上記の検出を実行することは、演算の複雑さ、遅延、及びメモリ・フットプリントを著しく増やすことにはならない。全体的に、提案される方法は、エンコーダ側で複雑さ及びメモリ・フットプリントを著しく増大させることなく、デコーディング後の音声知覚品質を改善する。

実施形態において、本方法は、第１特徴の時間平滑化された値を得るために、時間にわたって第１特徴値を平滑化するステップを更に含むことができる。従って、決定するステップは時間平滑化された第１特徴値に基づくことができる。

これにより、トグル（切り替え）が可聴アーチファクトを招き得る場合に、使用する量子化モードを決定することについての不要なトグルを回避することができる。それに応じて、オーディオ出力の知覚品質を更に向上させることが可能である。

実施形態において、決定するステップは、第１特徴値を、第１特徴値についての所定の閾値と比較するステップを含んでもよい。実質的に一定の信号対雑音比を周波数にわたって適用する（例えば、強制する）量子化モードは、比較結果に応じて条件付きで選択されてもよい。例えば、実質的に一定の信号対雑音比を周波数にわたって適用する（例えば、強制する）量子化モードは、第１特徴値が第１特徴値についての所定の閾値を上回る場合に（例えば、その場合に限って）選択されてもよい。

理解されているように、所定の閾値を上回る知覚エントロピーは、オーディオ信号中の密集性の過渡事象を示すことができる。従って、第１特徴値と閾値との比較は、オーティオ信号の一部分が、コンスタントＳＮＲ量子化モードを利用して量子化することに適しているか否かについての簡易且つ確実な判断を提示する。

実施形態において、決定するステップは、第１特徴値の時間変動に（更に）基づいてもよい。例えば、決定するステップは、経時的な標準偏差、平均値からの経時的な最大変位などの時間変動に基づいてもよい。例えば、決定するステップは、第１特徴値の経時的な変動と、変動についての所定の閾値とを比較するステップを含んでもよい。実質的に一定な信号対雑音比を周波数にわたって適用（例えば、強制）する量子化モードは、比較結果に従って条件付きで選択されてもよい。例えば、実質的に一定な信号対雑音比を周波数にわたって適用（例えば、強制）する量子化モードは、第１特徴値の変動が、変動についての所定の閾値未満である場合に（例えば、その場合に限って）選択されてもよい。所定の実装において、実質的に一定な信号対雑音比を周波数にわたって適用（例えば、強制）する量子化モードは、第１特徴値の比較と第１特徴値の経時的な変動の比較との結果に応じて条件付きで選択されてもよい。例えば、実質的に一定な信号対雑音比を周波数にわたって適用（例えば、強制）する量子化モードは、第１特徴値がそれぞれの閾値を上回っていること、及び第１特徴の経時的な変動がそれぞれの閾値を下回っていることの双方の場合に（例えば、その場合に限って）選択されてもよい。

理解されているように、平均より高いが時間変動が比較的少ない知覚エントロピーは、オーディオ信号中に密集性の過渡事象を示しているかもしれない。従って、第１特徴値の経時的な変動と閾値との比較は、オーディオ信号の一部分がコンスタントＳＮＲ量子化モードを用いて量子化することに適しているか否かの簡易且つ確実な判断を提示する。第１特徴値に関する双方の判断基準を組み合わせることは、コンスタントＳＮＲ量子化モードが適用されることとなるか否かについての更に確実な判断をもたらし得る。

実施形態において、第１特徴は知覚エントロピーに比例することができる。代替的に、第１特徴は知覚エントロピーの因子（成分）に比例することができる。第１特徴値は周波数ドメイン（例えば、ＭＤＣＴドメイン）で取得されてもよい。

最先端のコーデックは何らかの方法で知覚エントロピーを計算するので、知覚エントロピーを第１特徴として参照することは、計算結果を再利用することを許容し、それにより、コンスタントＳＮＲ量子化モードが適用されることとなるか否かについての提案される判断に関し、複雑さ及びメモリ・フットプリントの著しい増大を回避することを許容する。

実施形態において、本方法は、オーディオ信号の一部分の周波数ドメイン（例えば、ＭＤＣＴドメイン）における（スペクトルの）疎性の尺度（ａｍｅａｓｕｒｅｏｆ（ｓｐｅｃｔｒａｌ）ｓｐａｒｓｉｔｙ）に関する第２特徴値を取得するステップを更に含むことができる。疎性の尺度は、フォーム・ファクタにより与えられてもよいし、又はそれに関連していてもよい。例えば、疎性の尺度は、フォーム・ファクタ又は知覚的に重み付けされたフォーム・ファクタに比例してもよい。決定するステップは、第２特徴値に（更に）基づいていてもよい。

疎性の尺度もまた参照することは、コンスタントＳＮＲ量子化モードを適用することが有利である場合と、そうではない場合とのよりいっそう改善された区別を許容する。

実施形態において、本方法は、第２特徴の時間平滑化された値を得るために、時間にわたって第２特徴値を平滑化するステップを更に含むことができる。決定するステップは時間平滑化された第２特徴値に基づくことができる。

実施形態において、決定するステップは、第２特徴値を、第２特徴値についての所定の閾値と比較するステップを含んでもよい。実質的に一定の信号対雑音比を周波数にわたって適用する（例えば、強制する）量子化モードは、比較結果に応じて条件付きで選択されてもよい。例えば、実質的に一定の信号対雑音比を周波数にわたって適用する（例えば、強制する）量子化モードは、第２特徴値が第２特徴値についての所定の閾値を上回る場合に（例えば、その場合に限って）選択されてもよい。特に、第２特徴値が上記の判断でその閾値を上回る（即ち、超える）か否かの条件を参照することは、第２特徴が、スペクトル密度を増やす場合にその値が増加するように決められることを仮定しており（例えば、フォーム・ファクタの場合はそのようなケースである）；逆のケースでは（即ち、第２特徴がスペクトル密度を増やす場合にその値が減少するように決められる場合）、実質的に一定の信号対雑音比を周波数にわたって適用する（例えば、強制する）量子化モードは、第２特徴値が第２特徴値についての所定の閾値未満である場合に（例えば、その場合に限って）選択されるであろう。

理解されているように、所定の閾値を上回る疎性の尺度（フォーム・ファクタ、知覚的に重み付けされたフォーム・ファクタ、又はゼロに量子化されていない周波数係数（周波数ライン）の推定数）は、オーディオ信号中の密集性の過渡事象、更にはコンスタントＳＮＲ量子化モードを適用することが有利である場合を示すことができる。従って、第２特徴値の閾値との比較は、オーディオ信号の一部分がコンスタントＳＮＲ量子化モードを用いる量子化に適しているか否かの判断についての簡易且つ確実な確証を提示する。

開示の別の態様は、オーディオ信号の一部分における密集性の過渡事象（例えば、拍手、パチパチと音を立てる炎、雨、等々）を検出する方法に関連する。本方法は、オーディオ信号の一部分の知覚エントロピーに関連する第１特徴値を取得（決定、計算、又は演算）するステップを含むことができる。本方法は、オーディオ信号の一部分が第１特徴値に少なくとも部分的に基づいて密集性の過渡事象を含む傾向があるか否かを決定するステップを更に含むことができる。

これにより、オーディオ信号の一部分は、複雑さ及びメモリ・フットプリントを著しく増やすことなく、密集性の過渡事象の内容に関して分類されることが可能である。

実施形態において、本方法は、オーディオ信号の一部分に関するメタデータを生成するステップを更に含むことができる。メタデータは、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かの指標であってもよい。

そのようなメタデータを提供することは、オーディオ信号についてのより効率的且つ改善された後処理を可能にする。

実施形態において、決定するステップは、第１特徴値を、第１特徴値についての所定の閾値と比較するステップを含んでもよい。従って、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かが、比較結果に応じて判断されてもよい。例えば、第１特徴値が第１特徴値の所定の閾値を上回る場合に（例えば、その場合に限って）、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであると判断されてもよい。

実施形態において、決定するステップは第１特徴値の経時的な変動に（更に）基づいてもよい。例えば、決定するステップは、経時的な標準偏差、平均値からの経時的な最大変位などの時間変動に基づいてもよい。例えば、決定するステップは、第１特徴値の経時的な変動と、変動についての所定の閾値とを比較するステップを含んでもよい。次いで、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かが、比較結果に基づいて判断されてもよい。例えば、第１特徴値の変動が変動の所定の閾値未満である場合に（例えば、その場合に限って）、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであると判断されてもよい。所定の実装において、第１特徴値に対する比較と、第１特徴値の経時的な変動に関する比較との結果に従って、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かが判断されてもよい。例えば、第１特徴値が夫々の閾値を上回っていること、及び第１特徴の経時的な変動が夫々の閾値を下回っていることの双方の場合に（例えば、その場合に限って）、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであると判断されてもよい。

実施形態において、第１特徴は知覚エントロピーであってもよい。代替的に、第１特徴は知覚エントロピーのファクタ（コンポーネント）であってもよい。第１特徴値は周波数ドメイン（例えば、ＭＤＣＴドメイン）で取得されてもよい。

実施形態において、本方法は、オーディオ信号の一部分の周波数ドメイン（例えば、ＭＤＣＴドメイン）における（スペクトルの）疎性の尺度に関する第２特徴値を取得するステップを更に含むことができる。疎性の尺度は、フォーム・ファクタにより与えられてもよいし、又はそれに関連していてもよい。例えば、疎性の尺度は、フォーム・ファクタ又は知覚的に重み付けされたフォーム・ファクタに比例してもよい。決定するステップは、第２特徴値に（更に）基づいていてもよい。

実施形態において、決定するステップは、第２特徴値を、第２特徴値についての所定の閾値と比較するステップを含むことができる。次いで、比較結果に従って、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであるか否かが判断されてもよい。例えば、第２特徴値が第２特徴値についての所定の閾値を上回る場合に（例えば、その場合に限って）、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであると判断されてもよい。特に、上記の判断で第２特徴値がその閾値を上回る（即ち、超える）か否かの条件を参照することは、第２特徴が、スペクトル密度の増大とともにその値が増加するように決められていることを仮定しており（例えば、フォーム・ファクタの場合はそのケースである）；逆のケースでは（即ち、第２特徴が、スペクトル密度の増大とともにその値が減少するように決められている場合）、第２特徴値が第２特徴値の所定の閾値未満である場合に（例えば、その場合に限って）、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであると決定されるであろう。

本開示の別の態様は、オーディオ信号の一部分をエンコードする方法に関連する。本方法は、オーディオ信号の一部分が密集性の過渡事象（例えば、拍手、パチパチと音を立てる炎、雨、等々）を含んでいそうであるか否かを決定するステップを含むことができる。本方法は、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであると判断される場合に（例えば、その場合に限って）、（実質的に）一定の信号対雑音比を、オーディオ信号の一部分の周波数にわたって（例えば、周波数バンドにわたって）適用する（例えば、強制する）量子化モードを使用して、オーディオ信号の一部分を量子化するステップを更に含むことができる。

このコンスタントＳＮＲ量子化モードを使用することにより、密集性の過渡事象を含むオーディオ信号は、デコードされた出力音声の改善された知覚される音声品質を達成する方法でエンコードされることが可能である。一方、コンスタントＳＮＲ量子化モードを、密集性の過渡事象を含むと判断されるオーディオ信号の部分に（即ち、密集性の過渡事象が検出されている部分に）条件付きで適用することは、他のクラスのオーディオ信号（例えば、音楽及び／又はスピーチ等）の劣化を回避することを許容する。

実施形態において、本方法は、オーディオ信号の一部分の知覚エントロピーに関する第１特徴値を取得（例えば、決定、計算、又は演算）するステップを更に含むことができる。次いで、決定するステップは（取得した）第１特徴値に少なくとも部分的に基づくことができる。

実施形態において、決定するステップは、第１特徴値を、第１特徴値についての所定の閾値と比較するステップを含んでもよい。次いで、比較結果に従って、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであるか否かが判断されてもよい。例えば、第１特徴値が第１特徴値の所定の閾値を上回る場合に（例えば、その場合に限って）、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであると判断されてもよい。

実施形態において、決定するステップは第１特徴値の経時的な変動に（更に）基づいていてもよい。例えば、決定するステップは、経時的な標準偏差、平均値からの経時的な最大変位などの時間変動に基づいていてもよい。例えば、決定するステップは、第１特徴値の経時的な変動を、変動についての所定の閾値と比較するステップを含むことができる。次いで、比較結果に従って、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであるか否かが判断されてもよい。例えば、第１特徴値の経時的な変動が変動についての所定の閾値を下回る場合に（例えば、その場合に限って）、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであると判断されてもよい。所定の実装において、第１特徴値に対する比較、及び第１特徴値の経時的な変動に対する比較の結果に従って、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かが判断されてもよい。例えば、第１特徴値が夫々の閾値を上回っていること、及び第１特徴の経時的な変動が夫々の閾値を下回っていることの双方の場合に（例えば、その場合に限って）、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであると判断されてもよい。

実施形態において、第１特徴は知覚エントロピーに比例することができる。代替的に、第１特徴は知覚エントロピーのファクター（コンポーネント）に比例することができる。第１特徴値は周波数ドメイン（例えば、ＭＤＣＴドメイン）で取得されてもよい。

実施形態において、本方法は、オーディオ信号の一部分の周波数ドメイン（例えば、ＭＤＣＴドメイン）における（スペクトルの）疎性の尺度に関する第２特徴値を取得するステップを更に含むことができる。疎性の尺度はフォーム・ファクタにより与えられてもよいし又はそれに関連してもよい。例えば、疎性の尺度はフォーム・ファクタ又は知覚的に重み付けされたフォーム・ファクタに比例してもよい。決定するステップは第２特徴値に（更に）基づいていてもよい。

実施形態において、本方法は、第２特徴の時間平滑化された値を得るために、時間にわたって第２特徴値を平滑化するステップを更に含むことができる。従って、決定するステップは時間平滑化された第２特徴値に基づくことができる。

実施形態において、決定するステップは、第２特徴値を、第２特徴値についての所定の閾値と比較するステップを含むことができる。次いで、比較結果に従って、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであるか否かが判断されてもよい。例えば、第２特徴値が第２特徴値についての所定の閾値を上回る場合に（例えば、その場合に限って）、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであると判断されてもよい。特に、上記の判断で第２特徴値がその閾値を上回る（即ち、超える）か否かの条件を参照することは、第２特徴が、スペクトル密度の増大とともにその値が増加するように決められていることを仮定しており（例えば、フォーム・ファクタの場合はそのケースである）；逆のケースでは（即ち、第２特徴が、スペクトル密度の増大とともにその値が減少するように決められている場合）、第２特徴値が第２特徴値の所定の閾値を下回る場合に（例えば、その場合に限って）、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであると決定されるであろう。

別の態様は装置（例えば、オーディオ信号の一部分をエンコードするエンコーダ）に関連する。装置（例えば、エンコーダ）はプロセッサを含むことができる。装置は、プロセッサに結合され、プロセッサによる実行のための命令を格納するメモリを更に含むことができる。プロセッサは上記の態様及び実施形態のうちの任意の何れかの方法を実行するように構成されることが可能である。

別の態様はソフトウェア・プログラムに関連する。ソフトウェア・プログラムは、プロセッサにおける実行に適合させられており、コンピュータ・デバイスでの実行に備えて、本開示で説明される方法ステップを実行するように適合されていてもよい。

別の態様は記憶媒体に関連する。記憶媒体は、プロセッサでの実行に備えて、コンピュータ・デバイスで実行される場合に、本開示で説明される方法ステップを実行するように適合されていてもよい。

更に別の態様はコンピュータ・プログラム・プロダクトに関連する。コンピュータ・プログラムは、コンピュータで実行される場合に、本開示で説明される方法ステップを実行するための実行可能命令を含んでいてもよい。

本開示で説明されるような好ましい実施形態を含む方法及び装置は、スタンド・アローンで、又は本開示で開示される他の方法及びシステムとの組み合わせで使用されてもよいことに留意すべきである。更に、本開示で説明される方法及び装置の総ての態様は任意に組み合わせられることが可能である。特に、請求項の特徴は任意の方法で互いに組み合わせられることが可能である。

以下、本開示の例示的な実施形態が添付図面に関連して説明される：
本開示の実施形態が適用され得るエンコーダを概略的に示すブロック図である。図１のエンコーダに対応するデコーダを概略的に示すブロック図である。オーディオ信号の一部分をエンコードする本開示の実施形態による方法例を示すフローチャートである。図３の方法の変形例を示すフローチャートである。オーディオ信号の一部分における密集性の過渡事象を検出する本開示の実施形態による方法例を示すフローチャートである。図５の方法の変形例を示すフローチャートである。オーディオ信号の一部分をエンコードする本開示の実施形態による別の方法例を示すフローチャートである。本開示の実施形態による方法の実現性を示すヒストグラムである。本開示の実施形態による方法の実現性を示すヒストグラムである。本開示の実施形態による方法の実現性を示すヒストグラムである。本開示の実施形態による方法の実現性を示すヒストグラムである。本開示の実施形態による方法の実現性を示すグラフである。本開示の実施形態による方法の実現性を示すグラフである。本開示の実施形態による方法の実現性を示すグラフである。本開示の実施形態による方法の実現性を示すグラフである。

本開示は上記の問題に対処するための２つの方式（方法）を述べる。密集性の過渡事象を検出すること、及び密集性の過渡事象を含むオーディオ信号の一部分をエンコードすることにそれぞれ関連するこれらの方式は、個々に又は互いに関連して使用されることが可能である。

広義に言えば、本開示は、（拍手、パチパチと音を立てる炎、雨、等々の）密集性の過渡事象のオーディオ信号のオーディオ品質を、他のクラスのオーディオ信号のオーディオ品質に不都合に影響することなく改善することに関連している。本開示は、このゴールを達成することを、エンコーダ側での少ない複雑さで、無視できるメモリ・フットプリント及び遅延とともに更に追求する。この目的のため、本開示は、音声信号（の一部分）における密集性の過渡事象を検出する方法を、知覚オーディオ・エンコーダで既に算出されている特徴を利用しながら説明する。本開示は、特殊な一定の信号対雑音比の量子化ノイズ・シェーピング・モードを利用して、密集性・過渡事象オーディオ信号を量子化し、これらの密集性の過渡的なオーディオ信号のオーディオ品質を改善する方法を更に説明する。他のクラスのオーディオ信号の劣化を回避するために、本開示は、オーディオ信号中の密集性の過渡事象の検出結果に従って、この特殊な一定の信号対雑音比の量子化ノイズ・シェーピング・モードを条件付きで適用することを更に提案する。本開示はＡＣ−４オーディオ・コーデックに特に、ただし排他的にではなく、適用可能である。

本開示を通じて、オーディオ信号の一部分は、オーディオ信号のうちの所定の長さ部分（例えば、時間ドメインにおけるもの、又は周波数ドメインにおけるもの）を意味するものとする。一部分は、所定数のサンプル（例えば、パルス符号変調（ＰＣＭ）サンプル）、所定数のフレームに関連してもよいし、所定長の時間に広がるように（例えば、所定数のｍｓに広がるように）定められてもよいし、所定数の周波数係数（例えば、ＭＤＣＴ係数）に関連してもよい。例えば、オーディオ信号の一部分は、オーディオ信号のフレーム、又はオーディオ信号のサブ・フレームを示してもよい。更に、オーディオ信号は１つより多いチャネル（例えば、ステレオ構成における２チャネル、又は５．１チャネル、７．１チャネル等）を含んでもよい。この場合において、オーディオ信号の一部分は、上述したように、オーディオ信号のチャネルの所与のものにおける、オーディオ信号のうちの所定長のセクションを意味するものとする。特に、本開示はマルチ・チャネル・オーディオ信号のうちの任意の又は各々のチャネルに適用可能である。複数のチャネルは並列的又は逐次的に処理されることが可能である。更に、本開示は一連の複数の部分に適用されてもよいし、それぞれの部分は、提案される方法及び装置により逐次的に処理されてもよい。

更に、本開示を通じて、密集性の過渡事象は、（例えば、瞬間的な）ノイズ・バーストとして持続する一連の個々の短い（測定可能な）複数のイベント（例えば、拍手の手を叩く音、炎がパチパチと音を立てること、雨の跳ね返る音、等々）を意味するものとする。本開示の意味に属する密集性の過渡的な信号（密集性の過渡事象の信号）（及びその信号に関して、密集性の過渡事象のための提案ディテクタはターンＯＮされるであろう）は、毎秒２０ないし６０回の測定可能な過渡的なイベントを含み、例えば、毎秒３０ないし５０回、典型的には４０回の測定可能なイベントを含むものとする。密集性の過渡事象における以後の過渡的なイベントの間の時間インターバルは変動し得る。密集性の過渡事象は、（音楽などの）トーナルな（ｔｏｎａｌ）オーディオ信号、スピーチ（例えば、カスタネット）、及び疎らな（ｓｐａｒｓｅ）過渡事象とは異なる。更に、密集性の過渡事象はノイズが多く（即ち、強い安定的で周期的な成分を有しない）且つ粗いものであり得る（即ち、２０−６０Ｈｚのレンジで変調される振幅を有する）。密集性の過渡事象はまた、サウンド・テクスチャ（ｓｏｕｎｄｔｅｘｔｕｒｅｓ）と言及されてもよい。密集性の過渡事象の具体例は、拍手、パチパチと音を立てる炎、雨、流水、泡、及び機械、等々を含む。

図１は開示の実施形態が適用され得るエンコーダ１００（例えば、ＡＣ−４エンコーダ）のブロック図である。図２は対応するデコーダ２００（例えば、ＡＣ−４デコーダ）のブロック図である。

エンコーダ１００は、フィルタバンク分析ブロック１１０と、パラメトリック・コーディング・ブロック１２０と、フィルタバンク合成ブロック１３０と、時間−周波数変換ブロック１４０と、量子化ブロック１５０と、コーディング・ブロック１６０と、心理音響モデリング・ブロック１７０と、ビット割当ブロック１９０とを有する。パラメトリック・コーディング・ブロック１２０は、（不図示の）パラメトリック帯域幅拡張コーディング・ツール（Ａ−ＳＰＸ）と、パラメトリック・マルチ・チャネル・コーディング・ツールと、時間ノイズ・シェーピングのためのコンパンディング・ツールとを有することができる。時間−周波数変換ブロック１４０と、量子化ブロック１５０と、心理音響モデリング・ブロック１７０と、ビット割当ブロック１９０とは、エンコーダ１００のオーディオ・スペクトル・フロントエンド（ＡＳＦ）を形成すると言ってもよい。本開示はエンコーダ１００のＡＳＦの実装（修正）に関連すると言ってもよい。特に、本開示は、密集性の過渡事象を検出するためにＡＳＦに配置される追加的なディテクタによりガイドされる異なるノイズ・シェーピングを実行するために、（例えば、ＡＣ−４の）ＡＦＣにおける心理音響モデルを修正することに関連すると言ってもよい。しかしながら、本開示はそのように限定されず、他のエンコーダに同様に適用されてもよい。

エンコーダ１００は入力として入力オーディオ信号１０（例えば、ＰＣＭサンプル等のオーディオ信号のサンプル、等々）を受信する。入力オーディオ信号１０は１つ以上のチャネルを有することができ、例えば一対のチャネルを有するステレオ信号、又は５．１チャネル信号であってもよい。しかしながら、本開示は何らかの特定のチャネル数に限定されないものとする。入力オーディオ信号１０（例えば、オーディオ信号のサンプル）は、オーディオ信号のフィルタバンク表現を得るために、フィルタバンク分析ブロック１１０におけるフィルタバンク分析（例えば、ＱＭＦ分析）の影響を受ける。意図的な限定なしに、本開示の残りの部分において、ＱＭＦフィルタバンクが参照されるであろう。次いで、帯域幅拡張及び／又はチャネル拡張を含み得るパラメトリック・コーディングが、パラメトリック・コーディング・ブロック１２０で実行される。フィルタバンク合成ブロック１３０におけるフィルタバンク合成（例えば、ＱＭＦ合成）の後に、オーディオ信号は、時間−周波数分析（例えば、ＭＤＣＴ分析）が実行される時間−周波数変換ブロック１４０に提供される。意図的な限定なしに、本開示の残りの部分において、時間−周波数変換の具体例としてＭＤＣＴが参照されるであろう。ＭＤＣＴは（ＭＤＣＴ係数などの）周波数係数のブロックのシーケンスを生成する。周波数係数の各ブロックはオーディオ信号のサンプルのブロックに対応する。オーディオ信号のサンプルの各ブロックにおけるサンプル数は、ＭＤＣＴによって使用される変換長によって与えられる。

次いで、心理音響モデリング・ブロック１７０において心理音響モデルがＭＤＣＴ係数に適用される。心理音響モデルは、ＭＤＣＴ係数を周波数バンド（例えば、スケールファクタ・バンド）にグループ化することができ、周波数バンド各々の帯域幅は、周波数バンドの中心周波数における人間の聴覚感度の感度に依存する可能性がある。心理音響モデリングの後に、マスキング閾値１８０（例えば、心理音響閾値）がＭＤＣＴ係数に適用され、ビット割当ブロック１９０において、各周波数バンドのビット割り当てが決定される。周波数バンドに割り当てられるビット数は、量子化ステップ・サイズ（例えば、スケールファクタ）に変換され得る。次いで、各周波数バンドにおける（マスクされた）ＭＤＣＴ係数は、各々の周波数バンドに対して決定されたビット割り当てに従って、量子化ブロック１５０で量子化され、即ちＭＤＣＴ係数は心理音響モデルに従って量子化される。次いで、量子化されたＭＤＣＴ係数はコーディング・ブロック１６０においてエンコードされる。最終的に、エンコーダ１００はビットストリーム（例えば、ＡＣ−４ビットストリーム）２０を出力し、ビットストリームは保存又はデコーダへの送信のために使用されることが可能である。特に、各ブロックにおける上記のオペレーションは、オーディオ信号の各チャネルについて実行され得る。

対応するデコーダ２００（例えば、ＡＣ−４デコーダ）は、図２に示されており、インバース・コーディング・ブロック２６０と、インバース量子化ブロック２５０と、ステレオ及びマルチ・チャネル（ＭＣ）オーディオ処理ブロック２４５と、インバース時間−周波数変換ブロック２４０と、フィルタバンク分析ブロック２３０と、インバース・パラメトリック・コーディング・ブロック２２０と、フィルタバンク分析ブロック２１０とを有する。インバース・パラメトリック・コーディング・ブロック２２０は、コンパンディング・ブロック２２２と、Ａ−ＳＰＸブロック２２４と、パラメトリック・マルチ・チャネル・コーディング・ブロック２２６とを有する。デコーダ２００は、入力ビットストリーム（例えば、ＡＣ−４ビットストリーム）２０を受信し、１つ以上のチャネルに対する出力信号（例えば、ＰＣＭサンプル）を出力する。デコーダ２００のブロックは、エンコーダ１００のブロックの夫々のオペレーションを逆にしている。

特に、以下に説明される何れの方法も、時間−周波数変換をオーディオ信号の一部分に適用することを含むことができる。ＡＣ−４オーディオ・コーデックの例では、ＭＤＣＴがオーディオ信号（の一部分）に適用される。時間−周波数変換（例えば、ＭＤＣＴ）は、（予め）選択された変換長に従ってオーディオ信号（の一部分）（のサンプル）に適用されることが可能である（例えば、変換長によって決定される分析ウィンドウを利用する；ＭＤＣＴのケースの場合、分析ウィンドウは、以前の、現在の、及び次のＭＤＣＴの変換長によって決定される）。出力として、これは周波数係数（例えば、ＭＤＣＴ係数）のブロックのシーケンスを生成する。シーケンス中の周波数係数の各ブロックはサンプルの各ブロックに対応し、サンプルの各ブロックのサンプル数は変換長によって与えられる。更に、周波数係数のブロックのシーケンスに対応するサンプルのブロックは、関連するオーディオ・コーデックに依存してフレーム又はハーフ・フレームに対応する可能性がある。更に、以下で説明される何れの方法においても、周波数バンドについて（例えば、所謂スケールファクタ・バンドについて、周波数サブ・バンドのグループ、例えばＭＤＣＴラインのグループ）、心理音響モデルが計算され得る。心理音響モデルによれば、周波数バンド（例えば、スケールファクタ・バンド）の総ての周波数係数（例えば、ＭＤＣＴ係数）は、同じスケールファクタで量子化されてもよく、スケールファクタは量子化器のステップ・サイズ（量子化ステップ・サイズ）を決定する。実際の量子化の前に、マスキング閾値が周波数バンドに適用され、所与の周波数バンドにおける周波数係数がどのように量子化されることとなるかを決定することができる。例えば、マスキング閾値は、おそらくは他の要因とともに、量子化のための量子化ステップ・サイズを決定することができる。以下に説明される方法のうちの少なくとも一部は、量子化のための量子化パラメータ（例えば、マスキング閾値及びスケールファクタ）を選択又は修正することに関連する。所定の条件が充足される場合、特定のノイズ・シェーピング方式が適用されるように（例えば、周波数にわたって一定のＳＮＲが強制されるように）、量子化パラメータが選択又は修正される。

図３はオーディオ信号の一部分（例えば、フレーム）をエンコードする本開示の実施形態による方法例３００を示すフローチャートである。この方法は、例えば拍手、パチパチと音を立てる炎、雨などの密集性の過渡事象を含むオーディオ信号の一部分をエンコードするために有利に適用されることが可能である。

ステップＳ３１０において、オーディオ信号の一部分の知覚エントロピーに関する第１特徴値が取得される。例えば、第１特徴値は、おそらくはオーディオ信号の一部分についての分析の後に決定、計算、又は演算されることが可能である。第１特徴値は周波数ドメイン（例えば、ＭＤＣＴドメイン）で取得されてもよい。例えば、オーディオ信号の一部分は周波数ドメイン（例えば、ＭＤＣＴドメイン）で分析されてもよい。代替的に、第１特徴値はまた時間ドメインで取得されてもよい。例えば、スピーチ・コーデックは典型的には線形予測に基づく時間ドメイン・コーデックである。線形予測フィルタ係数モデル信号スペクトル及びスピーチ・コーデックのマスキング・モデルは線形予測係数から導出され、その結果、知覚エントロピーに関連する特徴は時間ドメイン・コーデックにおいても導出されることが可能である。

知覚エントロピーの尺度を決定するアプローチは、ＪａｍｅｓＤ．Ｊｏｈｎｓｔｏｎ，Ｅｓｔｉｍａｔｉｏｎｏｆｐｅｒｃｅｐｔｕａｌｅｎｔｒｏｐｙｕｓｉｎｇｎｏｉｓｅｍａｓｋｉｎｇｃｒｉｔｅｒｉａ，ＩＣＡＳＳＰ，１９８８で説明されており、これは全体的に本願で援用される。ここで説明される任意のアプローチが目下の目的に使用され得る。しかしながら、本開示はこれらのアプローチに限定されないものとし、他のアプローチもまた実現可能である。

第１特徴はオーディオ信号の所与の部分の知覚エントロピーによって与えられてもよいし、又はそれに比例してもよい。

一般に、知覚エントロピーは、所与のオーディオ信号（の一部分）に含まれる知覚的に関連する情報量の尺度である。これは所与のオーディオ信号の圧縮性に関する理論的な限界を示す（ただし、オーディオ品質における知覚可能な損失は回避されるものと仮定する）。以下で詳述されるように、知覚エントロピーは、オーディオ信号の一部分のＭＤＣＴ表現における各々の周波数バンドに関して決定されることが可能であり、一般に、所与の周波数バンド（例えば、スケールファクタ・バンド）に関し、所与の周波数バンドのエネルギ・スペクトル（エネルギ）と所与の周波数バンドに関する適用可能な心理音響モデルにおける心理音響閾値との間の比率に依存すると言うことができる。

より詳細には、第１特徴値は、例えば３ＧＰＰＴＳ２６．４０３（Ｖ１．０．０），セクション５．６．１．１．３で説明されている方法で心理音響モデルにより計算されることが可能であり、このセクションは全体的に本願に援用される。この心理音響モデルでは、知覚エントロピーは次のようにして決定される。

先ず、知覚エントロピーは次式により（周波数バンドの具体例として）各スケールファクタ・バンドについて決定される：

ここで、ｃ１＝ｌｏｇ_２（８），ｃ２＝ｌｏｇ_２（２．５），ｃ３＝１−ｃ２／ｃ１である。ｎ番目のスケールファクタ・バンドに対するエネルギ・スペクトル（又はエネルギ）ｅｎは、次式で与えられる：

ここで、ｎは各々のスケールファクタ・バンドのインデックスを示し、Ｘ（ｋ）はインデックスｋに対する周波数係数（例えば、ＭＤＣＴライン）の値であり、ｋＯｆｆｓｅｔ（ｎ）はｎ番目のスケールファクタの最低周波数（即ち、第１）ＭＤＣＴラインのインデックスである。数ｎｌは、量子化後にゼロにならないスケールファクタ・バンド内のライン数の推定を示す。この数は次式によりフォーム・ファクタｆｆａｃ（ｎ）から導出されることが可能である。

フォーム・ファクタｆｆａｃ（ｎ）は次のように定義される：

上記において、ｔｈｒ（ｎ）は、ｎ番目のスケールファクタ・バンドに対する心理音響閾値を示す。心理音響閾値ｔｈｒ（ｎ）を決定する１つの方法は文献３ＧＰＰＴＳ２６．４０３（Ｖ１．０．０）のセクション５．４．２に記載されており、このセクションは全体的に本願に援用される。

オーディオ信号の所与の部分（例えば、フレーム）の全体の知覚エントロピーは、スケールファクタ・バンド知覚エントロピーの合計である：

ここで、ｐｅＯｆｆｓｅｔは、オーディオ信号の一部分（例えば、フレーム）をエンコードするために必要なビット数と知覚エントロピーとの間でより線形な関係を達成するように追加されることが可能な（幾つかの実装ではゼロになり得る）一定値である。

知覚エントロピーについての上記の表現は幾つかのコンポーネント（例えば、項および／または因子）に分割されることが可能であることが理解される。第１特徴値を取得する知覚エントロピーの完全な表現の代わりに、これらのコンポーネントのうちの何れか、幾つか、又は総ての組み合わせが使用されてもよいことが考えられる。

一般に、本開示の文脈で所与の周波数バンド（例えば、スケールファクタ・バンド）の知覚エントロピーは、所与の周波数バンドのエネルギ・スペクトル（エネルギ）ｅｎと所与の周波数バンドに対する心理音響閾値ｔｈｒとの間の比率に依存すると言うことができる。従って、第１特徴は、所与の周波数バンドのエネルギ・スペクトル（エネルギ）ｅｎと所与の周波数バンドに対する心理音響閾値ｔｈｒとの間の比率に依存すると言うことができる。

ステップＳ３２０において、オーディオ信号の一部分を量子化する量子化モードが、第１特徴値に基づいて選択される。一般に、量子化モードは第１特徴に基づいて選択されると言うことができる。これは、第１特徴値に少なくとも部分的に基づいて、実質的に一定の信号対雑音比を周波数にわたって（例えば、総ての周波数バンドについて）適用する（例えば、強制する）量子化モードが、オーディオ信号の一部分について（例えば、オーディオ信号の一部分を表す周波数ドメインの、ＭＤＣＴ係数などの周波数係数について）使用されることとするか否かの決定を含むことができる。この量子化モードは、コンスタントＳＮＲモード、コンスタントＳＮＲ量子化モード、又はコンスタントＳＮＲ量子化ノイズ・シェーピング・モードと言及されてもよい。コンスタントＳＮＲ量子化モードを適用することは、密集性過渡事象・改善（例えば、拍手の改善）、あるいは単に改善をオーディオ信号の一部分に適用することと言及されてもよい。意図的な限定なしに、この改善を適用することはまた、本開示の残りの部分で処置（ｆｉｘ）を適用することとして言及されてもよく、この用語は改善が時間的な性質のみであることを意味してはいない。

特に、コンスタントＳＮＲ量子化モードを適用することは、オーディオ信号をエンコードするためにはむしろ異常な選択肢である。理解されているように、コンスタントＳＮＲ量子化モードは、密集性の過渡事象の一部分を量子化することに適しており、そのようなオーディオ信号の心地良い聴覚的結果をもたらし得る。しかしながら、環境を考慮すると、コンスタントＳＮＲ量子化モードを適用することは、音楽やスピーチ等の他のオーディオ信号、あるいは密集性の過渡事象と音楽やスピーチとの結合を劣化させてしまうかもしれず、その場合、典型的には、最良の知覚品質のために、一定でないＳＮＲを必要とする。この問題はステップＳ３２０における量子化モードの選択プロセスにより対処される。

ステップＳ３２０における量子化モードの選択は、量子化プロセスで異なるノイズ・シェーピングを適用（例えば、強制）するために、オーディオ信号を量子化するのに使用される心理音響モデルを修正すること（例えば、周波数係数、又はＭＤＣＴ係数を修正すること）に対応すると言うことができる。

選択的に、このステップにおいて、取得された第１特徴値は、ステップ３２０における選択の不要な切り替え（トグル）を回避するために、時間にわたって平滑化されてもよい。特に、第１特徴値の時間平滑化されたバージョンを考慮することにより、選択のフレーム間スイッチングを回避することができる。この場合、選択（例えば、決定）は、時間平滑化された第１特徴値に少なくとも部分的に基づくであろう。

理解されているように、知覚エントロピーは、密集性の過渡事象（例えば、拍手、パチパチと音を立てる炎、雨、等々）を含むオーディオ信号の部分を、スピーチや音楽を含む部分から区別するのに適した特徴である。これは図８のヒストグラムに示されている。このヒストグラム、及び本開示で議論される残りのヒストグラムは正規化されており、その結果、バーの高さは足すと１になり、均等なビン幅が使用される。このヒストグラムでは、水平軸は知覚エントロピーの（時間平滑化された）尺度を示し、縦軸は知覚エントロピー尺度のビン当たりの（正規化された）アイテム・カウントを示す。このヒストグラム関し、及び本開示における知覚エントロピーに関する残りのヒストグラムに関し、（エンコードされた）ＡＣ−４フレーム当たりの推定される合計ビット数が、知覚エントロピーの尺度として使用される。しかしながら、本開示による方法は、そのような知覚エントロピーの尺度を考慮することに限定されず、知覚エントロピーの他の尺度もまた実現可能である。ヒストグラム中のビン・カウント８１０（濃い灰色）は、拍手のアイテム（特に、処置により改善される拍手のアイテム）としてマニュアルで分類されている一群のオーディオ・アイテムに関連する一方、ビン・カウント８２０（白色）は、拍手でないアイテム（例えば、スピーチ又は音楽）としてマニュアルで分類されている一群のオーディオ・アイテムに関連する。ヒストグラムから分かるように、知覚エントロピーは、非・拍手アイテムに対するよりも、拍手アイテムに対して一貫して高くなっており、その結果、知覚エントロピーはオーディオ・アイテムの２クラス間の適切な区別をもたらすことができる。

更に、知覚エントロピーはまた、密集性の過渡事象を含み且つ処置により改善されるオーディオ信号の部分と、密集性の過渡事象を含むが処置により改善しないかもしれないオーディオ信号の部分（例えば、密集性の過渡事象を含むが、スピーチ及び／又は音楽も含む部分）とを識別するのに適した特徴である。これは図９のヒストグラムに示されており、この図では水平軸が知覚エントロピーの（時間平滑化された）尺度を示し、縦軸は知覚エントロピー尺度のビン当たりの（正規化された）アイテム・カウントを示す。ヒストグラム中のビン・カウント９１０（濃い灰色）は処置により改善される拍手アイテムとしてマニュアルで分類されている一群のオーディオ・アイテムに関連する一方、ビン・カウント９２０（白色）は処置により改善されない拍手アイテムとしてマニュアルで分類されている一群のオーディオ・アイテムに関連する。ヒストグラムから分かるように、知覚エントロピーは、処置により改善されない拍手アイテムに対するよりも、処置により改善される拍手アイテムに対して一貫して高くなっており、その結果、知覚エントロピーはオーディオ・アイテムの２クラス間の適切な区別をもたらすことができる。換言すると、（時間平滑化された）知覚エントロピーはまた、密集性の過渡事象（拍手、パチパチと音を立てる炎、雨、等々）に関連するオーディオ・アイテムを細分類するために使用されることも可能である。

従って、実質的に一定の信号対雑音比を周波数にわたって適用（例えば、強制）する量子化モードがオーディオ信号の一部分に使用されることとするか否かの決定は、第１特徴値（又は、利用可能ならば時間平滑化された第１特徴値）を、第１特徴値に対する所定の閾値と比較することを含むことができる。この閾値は、例えば、オーディオ・アイテムの拍手アイテム（又は、処置により改善される拍手アイテム）及び非・拍手アイテムへの確実な分類を保証する値を有するように、マニュアルで決定されてもよい。実質的に一定の信号対雑音比を周波数にわたって適用（例えば、強制）する量子化モードは、この比較結果に従って（例えば、依存して）条件付きで選択されてもよい。例えば、実質的に一定の信号対雑音比を周波数にわたって適用（例えば、強制）する量子化モードは、第１特徴値（又は、時間平滑化された第１特徴値）が、第１特徴に対する所定の閾値を上回る場合に（例えば、その場合に限って）選択されてもよい。なお、意図的な限定なしに、密集性の過渡事象を含むオーディオ・アイテムの具体例として、拍手が参照されているが、本開示はこの参照によって如何なる方法によっても限定されるように解釈されないものとする。

代替的又は追加的に、決定は第１特徴値の経時的な変動に基づいていてもよい（特に、経時的な変動は、第１特徴値の平滑化されていないバージョンから決定されるであろう）。この経時的な変動は、例えば、経時的な標準偏差、又は経時的な平均値からの最大変位であってもよい。一般に、時間変動は、第１特徴値の時間変動、又は時間的な尖度を示してもよい。

理解されているように、知覚エントロピーの時間変動もまた、密集性の過渡事象（例えば、拍手、パチパチと音を立てる炎、雨、等々）を含むオーディオ信号の部分を、スピーチ及び／又は音楽を含む部分から区別するのに適している。これは図１２Ａ、１２Ｂ、及び図１３Ａ、図１３Ｂのグラフに示されている。

図１２Ａは（密集性の過渡事象のオーディオ信号の具体例として）拍手オーディオ信号の様々なチャネルに対するブロード・バンド・エネルギ（ｄＢ）を時間の関数として示し、図１２Ｂは拍手オーディオ信号の様々なチャネルに対する知覚エントロピーを時間の関数として示し、図１３Ａは音楽オーディオ信号の様々なチャネルに対するブロード・バンド・エネルギ（ｄＢ）を時間の関数として示し、図１３Ｂは音楽オーディオ信号の様々なチャネルに対する知覚エントロピーを時間の関数として示す。これらのグラフから分かるように、密集性の過渡事象の信号（例えば、拍手信号）は、高い平均知覚エントロピーにおいて、知覚エントロピーの一貫して非常に低い標準偏差（時間に関して）を有する一方、非・密集性の過渡事象の信号は、知覚エントロピーの高いバーストを有し得るが、より低い平均知覚エントロピーにおけるものである。従って、知覚エントロピーの時間変動又は時間劣度を示す知覚エントロピーから導出される如何なる特徴もまた、密集性の過渡事象を検出し且つ例えば密集性の過渡事象を音楽及び／又はスピーチから区別するために使用されることが可能である。

従って、実質的に一定の信号対雑音比を周波数にわたって適用（例えば、強制）する量子化モードがオーディオ信号の一部分に使用されることとするか否かの判断は、第１特徴値の経時的な変動を、第１特徴値の経時的な変動に対する所定の閾値と比較することを含んでもよい。この閾値はまた、例えば第１特徴値に対する閾値に関して上述した基準に従ってマニュアルで決定されてもよい。次いで、実質的に一定の信号対雑音比を周波数にわたって適用（例えば、強制）する量子化モードを選択するか否かの決定は、この比較の結果に従って（例えば、それに応じて）行われてもよい。例えば、実質的に一定の信号対雑音比を周波数にわたって適用（例えば、強制）する量子化モードは、第１特徴値の経時的な変動が、第１特徴値の経時的な変動に対する所定の閾値を下回る場合に（例えば、その場合に限って）選択されてもよい。

上述したように、（時間平滑化された）第１特徴値、及び第１特徴値の経時的な変動のうちの双方又は一方が、コンスタントＳＮＲ量子化モードを使用するか否かを判断するために参照されてもよい。双方が参照される場合、実質的に一定の信号対雑音比を周波数にわたって適用（例えば、強制）する量子化モードを選択するか否かの判断は、それぞれの閾値に対する上記の比較双方の結果に従って（例えば、それらに応じて）行われてもよい。例えば、実質的に一定の信号対雑音比を周波数にわたって適用（例えば、強制）する量子化モードが、オーディオ信号の一部分に使用されることとなるのは、（時間平滑化される）第１特徴値が第１特徴値に対する所定の閾値を上回り、且つ第１特徴値の時間変動が第１特徴値の経時的な変動に対する所定の閾値を下回る場合に（例えば、その場合に限って）選択されてもよい。

一方、上記の判断基準が充足されない場合、実質的に一定のＳＮＲを周波数にわたって適用しない（即ち、異なる周波数又は異なるバンドに異なるＳＮＲを適用する）量子化モードが、この時点で選択され得る。換言すれば、コンスタントＳＮＲ量子化モードは、上記の判断基準が充足されるか否かに応じて条件付きで適用される。

ステップＳ３３０において、選択された量子化モードを利用してオーディオ信号の一部分が量子化される。より具体的には、オーディオ信号の一部分の周波数係数（例えば、ＭＤＣＴ係数）がこのステップで量子化されてもよい。量子化は心理音響モデルに従って実行されてもよい。更に、量子化はノイズ・シェーピング（即ち、量子化ノイズの整形）を含んでもよい。選択された量子化モードが、（実質的に）一定のＳＮＲを周波数にわたって（例えば、周波数バンドにわたって）適用（例えば、強制）する量子化モードである場合、これは、実質的にＳＮＲを周波数にわたって（例えば、スケールファクタ・バンド等の周波数バンドにわたって）達成するために、マスキング閾値及び／又は量子化ステップ・サイズ（例えば、スケールファクタ）等の適切な量子化パラメータを選択するステップ、又は量子化パラメータを適切に修正するステップを含むことができる。

特に、オーディオ信号（の一部分）の知覚エントロピーが、例えばＡＣ−４等の最先端のオーディオ・エンコーダの通常の符号化動作の間に算出される。従って、量子化モードを選択する目的で知覚エントロピーを当てにすることは、符号化プロセスの複雑さ、遅延、及びメモリ・フットプリントを著しくは増大させない。

図４は図３の方法３００の変形例４００を示すフローチャートである。

変形例４００におけるステップＳ４１０は図３の方法３００のステップＳ３１０に対応し、このステップに関して為された任意の記述はここでも適用される。

ステップＳ４１５において、オーディオ信号の一部分についての周波数ドメインにおける疎性の尺度（例えば、スペクトルの希薄さ）に関する第２特徴値が取得される。例えば、第２特徴値は、おそらくはオーディオ信号の一部分の分析の後に決定、算出、又は計算されてもよい。第２特徴値は周波数ドメインで（例えば、ＭＤＣＴドメインで）取得されてもよい。例えば、オーディオ信号の一部分は周波数ドメインで（例えば、ＭＤＣＴドメインで）分析されてもよい。代替的に、第２特徴値はまた時間ドメインで取得されてもよい。幾つかの疎性尺度は、ＮｉａｌｌＰ．ＨｕｒｌｅｙａｎｄＳｃｏｔｔＴ．Ｒｉｃｋａｒｄ，ＣｏｍｐａｒｉｎｇＭｅａｓｕｒｅｓｏｆＳｐａｒｓｉｔｙ，ｈｔｔｐ：／／ｉｅｅｅｘｐｌｏｒｅ．ｉｅｅｅ．ｏｒｇ／ｘｐｌ／ＲｅｃｅｎｔＩｓｓｕｅ．ｊｓｐ？ｐｕｎｕｍｂｅｒ＝１８，ｖｏｌ．５５，ｉｓｓｕｅ１０，２００９に記載されており、これは全体的に本願で援用される。そこに記載されている任意の疎性尺度が本願の目的に使用されてもよい。しかしながら、本開示はこれらの疎性尺度に限定されないものとし、他の疎性尺度もまた実現可能である。

疎性の尺度はフォーム・ファクタによって与えられてもよいし、又はそれに関連してもよい。即ち、第２特徴値はオーディオ信号の一部分に関する（周波数ドメインにおける）フォーム・ファクタによって与えられてもよいし、又はそれに関連してもよい。例えば、第２特徴値はフォーム・ファクタ又は知覚的に重み付けされたフォーム・ファクタに比例してもよい。知覚的に重み付けされたフォーム・ファクタは、ゼロに量子化されない（と予測される）（例えば、周波数バンド当たりの）幾つかの周波数係数の推定であると言うことができる。

一般に、フォーム・ファクタは、オーディオ信号の一部分を表す周波数ドメインの（例えば、各々の周波数バンドに対する）周波数係数の絶対値の平方根の総和に依存する。全体的なフォーム・ファクタは、総ての周波数バンドについてフォーム・ファクタを合計することによって取得されることが可能である。ＡＣ−４の知覚モデルの文脈でフォーム・ファクタを計算する仕方はステップＳ３１０の説明の文脈で上述されている。代替的に、知覚的に重み付けされたフォーム・ファクタが、疎性の尺度として（例えば、第２特徴として）使用されてもよい。知覚的に重み付けされたフォーム・ファクタの具体例は、Ｓ３１０の文脈で上述されている数ｎｌにより与えられる。全体的な知覚的に重み付けされたフォーム・ファクタは、総ての周波数バンドについて、知覚的に重み付けされたフォーム・ファクタを合計することによって取得されてもよい。特に、本開示の残りの部分に関し、第２特徴は、オーディオ信号の（一部分の）スペクトル的により密集した表現に関してより高い値を有し、オーディオ信号の（一部分の）スペクトル的により疎らな表現に関してより低い値を有するように仮定される。

ステップＳ４２０において、オーディオ信号の一部分を量子化する量子化モードが、第１特徴値及び第２特徴値に（少なくとも部分的に）基づいて選択される。一般に、量子化モードは、第１特徴及び第２特徴に基づいて選択されると言うことができる。これは、第１特徴値及び第２特徴値に（少なくとも部分的に）基づいて、実質的に一定の信号対雑音比を周波数にわたって（例えば、総ての周波数バンドについて）適用する（例えば、強制する）量子化モードが、オーディオ信号の一部分について（例えば、オーディオ信号の一部分を表す周波数ドメインの、ＭＤＣＴ係数などの周波数係数について）使用されることとするか否かの決定を含むことができる。

ステップＳ４２０における量子化モードの選択は、量子化プロセスにおいて異なるノイズ・シェーピングを適用（例えば、強制）するために、オーディオ信号を量子化するために使用される心理音響モデルを修正すること（例えば、周波数係数、又はＭＤＣＴ係数を修正すること）に対応すると言うことができる。

選択的に、このステップにおいて、取得された第２特徴値は、ステップ４２０における選択の不要な切り替え（トグル）を回避するために、時間にわたって平滑化されてもよい。特に、第２特徴値の時間平滑化されたバージョンを考慮することにより、選択のフレーム間スイッチングを回避することができる。この場合、選択（例えば、決定）は、（利用可能であれば、時間平滑化された）第１特徴値と時間平滑化された第２特徴値とに少なくとも部分的に基づくであろう。

第２特徴値をも考慮する理由は以下のとおりである。理解されているように、（時間平滑化された）知覚エントロピーだけでは、処置により改善される密集性の過渡事象のオーディオ・アイテム（例えば、拍手のアイテム等）と、（喝采を含む）スピーチ及び／又は音楽と一緒に密集性の過渡事象を含む（及び処置により改善されないかもしれない）オーディオ・アイテムとを区別するために、総ての状況下で十分ではないかもしれない。これは図１０のヒストグラムに示されており、この図では、水平軸が知覚エントロピーの（時間平滑化された）尺度を示し、縦軸は知覚エントロピー尺度のビン当たりの（正規化された）アイテム・カウントを示す。ヒストグラム中のビン・カウント１０１０（濃い灰色）は処置により改善される拍手アイテムとしてマニュアルで分類されている一群のオーディオ・アイテムに関連する一方、ビン・カウント１１２０（白色）は（喝采を含む）スピーチ及び／又は音楽を含む拍手としてマニュアルで分類されている一群のオーディオ・アイテムに関連する。ヒストグラムから分かるように、オーディオ・アイテムのこれら２クラス間の区別は、状況によっては困難になり得る。

しかしながら、更に見受けられるように、周波数ドメインにおける疎性（スペクトル疎性）は、密集性の過渡事象（例えば、拍手、パチパチと音を立てる炎、雨、等々）を含み且つ処置により改善されるオーディオ信号の一部分を、（喝采を含む）スピーチ又は音楽と共にある密集性の過渡事象を含む部分（処置によって改善されないかもしれない部分）から区別するのに適した特徴である。これは図１１のヒストグラムに示されており、この図では、水平軸が周波数ドメインにおける疎性の（時間平滑化された）尺度を示し、縦軸は周波数ドメインにおける疎性の尺度のビン当たりの（正規化された）アイテム・カウントを示す。このヒストグラムでは、ゼロに量子化されない周波数係数（例えば、ＭＤＣＴライン）の推定数が、周波数ドメインにおける疎性の尺度として使用される。しかしながら、本開示による方法は、周波数ドメインにおけるそのような疎性尺度を考慮することに限定されず、周波数ドメインにおける他の疎性尺度もまた実現可能である。ヒストグラム中のビン・カウント１１１０（濃い灰色）は処置により改善される拍手アイテムとしてマニュアルで分類されている一群のオーディオ・アイテムに関連する一方、ビン・カウント１１２０（白色）は（喝采を含む）スピーチ及び／又は音楽を含む拍手としてマニュアルで分類されている一群のオーディオ・アイテムに関連する。ヒストグラムから分かるように、周波数ドメインにおける疎性の尺度は、（喝采を含む）スピーチ及び／又は音楽を含む拍手に関するアイテムに対するよりも、拍手のアイテムに対して一貫してより高くなっており、その結果、周波数ドメインにおける疎性は、オーディオ・アイテムの２クラス間の適切な区別をもたらすことができる。

従って、実質的に一定の信号対雑音比を周波数にわたって適用（例えば、強制）する量子化モードがオーディオ信号の一部分に使用されることとするか否かの決定は、第１特徴値に基づく決定に加えて（例えば、上記のステップＳ３２０参照）、第２特徴値（又は、利用可能ならば時間平滑化された第２特徴値）を、第２特徴値に対する所定の閾値と比較することを含むことができる。この閾値は、例えば、オーディオ・アイテムを、処置により改善される拍手アイテムと、（喝采を含む）スピーチ及び／又は音楽を含む拍手に関連するアイテムとに確実に分類することを保証する値を有するように、マニュアルで決定されてもよい。実質的に一定の信号対雑音比を周波数にわたって適用（例えば、強制）する量子化モードは、比較結果に従って（例えば、依存して）条件付きで選択されてもよい。例えば、実質的に一定の信号対雑音比を周波数にわたって適用（例えば、強制）する量子化モードは、第２特徴値（又は、時間平滑化された第２特徴値）が、第２特徴に対する所定の閾値を上回る場合に（例えば、その場合に限って）選択されてもよい。なお、意図的な限定なしに、密集性の過渡事象を含むオーディオ・アイテムの具体例として、拍手が参照されているが、本開示はこの参照によって如何なる方法によっても限定されるように解釈されないものとする。

換言すれば、所定の実装において、実質的に一定の信号対雑音比を周波数にわたって適用（例えば、強制）する量子化モード選択するか否かの判断は、（時間平滑化された）第１特徴値と各自の閾値との比較の結果、及び／又は第１特徴値の時間変動と各自の閾値との比較の結果、及び（時間平滑化された）第２特徴値と各自の閾値との比較の結果に基づいていてもよい。例えば、（時間平滑化された）第１特徴値が第１特徴値の所定の閾値を上回り、及び／又は第１特徴値の時間変動が第１特徴値の時間変動に対する所定の閾値を下回り、及び（時間平滑化された）第２特徴値が第２特徴値の所定の閾値を上回る場合に（その場合に限って）、実質的に一定の信号対雑音比を周波数にわたって適用（例えば、強制）する量子化モードがオーディオ信号の一部分に使用されることとする、と決定されてもよい。

一方、上記の判断基準が充足されない場合、実質的に一定のＳＮＲを周波数にわたって適用しない（即ち、異なる周波数又は周波数バンドに異なるＳＮＲを適用する）量子化モードがこの時点で選択されてもよい。換言すれば、コンスタントＳＮＲ量子化モードは、上記の判断基準が満たされるか否かに応じて条件付きで適用される。

上記にもかかわらず、（例えば、方法３００のステップＳ３２０で行われるように）ステップＳ４２０で第１特徴値だけを当てにすることは、密集性の過渡事象をエンコードする従来技術を上回る改善として全体的に知覚される聴覚的結果を依然としてもたらし得る。

変形例４００のステップＳ４３０は、図３の方法３００のステップＳ３３０に対応し、このステップに関して為された任意の記述はここでも適用される。

特に、オーディオ信号の（一部分の）フォーム・ファクタ及び知覚的に重み付けされたフォーム・ファクタはまた、例えばＡＣ−４等の最先端のオーディオ・エンコーダの通常の符号化動作の間に算出される。従って、量子化モードを選択する目的で周波数ドメインで疎性尺度などのこれらの特徴を当てにすることは、符号化プロセスの複雑さ、遅延、及びメモリ・フットプリントを著しくは増大させない。

次に、図５を参照しながら、本開示の実施形態に従ってオーディオ信号の一部分における密集性の過渡事象（例えば、拍手、パチパチと音を立てる炎、雨、等々）を検出する（例えば、その部分が密集性の過渡事象を含んでいそうであるか否かに関し、オーディオ信号の一部分を分類する）方法５００が説明される。ここで、その部分が密集性の過渡事象を含む確率が所定の確率閾値を超えることが判明した場合に（例えば、その場合に限って）、その部分は密集性の過渡事象を含んでいそうであると分類されることが理解される。

変形例５００におけるステップＳ５１０は、図３の方法３００のステップＳ３１０に対応し、このステップに関して為された任意の記述はここでも適用される。

ステップＳ５２０において、第１特徴値に少なくとも部分的に基づいて、オーティオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かが判断される。このステップは、第１特徴値に少なくとも部分的に基づいて、実質的に一定の信号対雑音比を周波数に（例えば、総ての周波数バンドに）適用（例えば、強制）する量子化モードが図３の方法３００のステップＳ３２０におけるオーティオ信号の一部分に使用されるものとするか否かを決定することに対応するが、この決定は、第１特徴値に少なくとも部分的に基づいて、オーディオ信号の一部分は密集性の過渡事象を含んでいそうであるか否かの決定で置換される。それ以外に関し、判断の詳細、特に判断基準は図３の方法３００のステップＳ３２０におけるものと同じであり、このステップに関して為された任意の記述はここでも適用される。

ステップＳ５１０及びＳ５２０を実行する装置又はモジュールは、密集性の過渡事象を検出するディテクタとして言及されてもよい。

選択的なステップＳ５３０において、オーディオ信号の一部分に対するメタデータが生成される。メタデータは、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かの（例えば、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるとステップＳ５２０で決定されたか否かの）指標であり得る。この目的のため、メタデータはオーディオ信号の一部分それぞれに対するバイナリ判定ビット（例えば、フラグ）を含んでもよく、そのビットは、オーディオ信号の一部分が密集性の過渡事象を含んでいそうである（と判断された）場合にセットされてもよい。

この種のメタデータを提供することは、密集性の過渡事象に関するより効率的な及び／又は改善された後処理を下流のデバイスが実行できるようにする。例えば、密集性の過渡事象に対する特定の後処理は、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであることをメタデータが示している場合に（例えば、その場合に限って、あるいはその場合であってその場合に限り）、オーディオ信号の所与の部分について実行されてもよい。

しかしながら、ステップＳ５２０の判断（分類）の結果は、メタデータを生成することとは別に他の目的で使用されてもよく、本開示は判断（分類）の結果を示すメタデータを生成することに限定されるように解釈されないものとする。

図６は図５の方法５００の変形例６００を示すフローチャートである。

変形例６００のステップＳ６１０は図５の方法５００のステップＳ５１０に対応し（従って、図３の方法３００のステップＳ３１０、及び図４の変形例４００のステップＳ４１０に対応し）、このステップ（これらのステップ）に関して為された任意の記述はここでも適用される。

変形例６００のステップＳ６１５は図４の変形例４００のステップＳ４１５に対応し、このステップに関して為された任意の記述はここでも適用される。

ステップＳ６２０において、第１特徴値及び第２特徴値に（少なくとも部分的に）基づいて、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かが判断される。このステップは、図４の変形例４００のステップＳ４２０において、第１特徴値及び第２特徴値に少なくとも部分的に基づいて、実質的に一定の信号対雑音比を周波数にわたって（例えば、総ての周波数バンドにわたって）適用（例えば、強制）する量子化モードがオーディオ信号の一部分に使用されることとなるか否かの判断に対応するが、ただし、その判断は第１特徴値及び第２特徴値に（少なくとも部分的に）基づいて、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かの判断に置換される。それ以外に関し、判断の詳細、特に判断基準は図４の方法４００のステップＳ４２０におけるものと同じであり、このステップに関して為された任意の記述はここでも適用される。

変形例６００のステップＳ６３０は図５のステップＳ５３０に対応し、このステップに関して為された任意の記述はここでも適用される。

次に、本開示の実施形態によるオーディオ信号の一部分（例えば、フレーム）をエンコードする別の方法例７００が、図７のフローチャートに関連して説明される。この方法は、例えば拍手、パチパチと音を立てる炎、又は雨のような密集性の過渡事象を含むオーディオ信号の一部分をエンコードするために有利に適用され得る。

ステップＳ７１０において、オーディオ信号の一部分が密集性の過渡事象（例えば拍手、パチパチと音を立てる炎、雨、等々）を含んでいそうであるか否かが判断される。この判断は、図３の方法３００のステップＳ３２０において、第１特徴値に少なくとも部分的に基づいて、実質的に一定の信号対雑音比を周波数にわたって適用する量子化モードがオーディオ信号の一部分に使用されることとなるか否かの判断、又は図４の変形例４００のステップＳ４２０において、第１特徴値及び第２特徴値に少なくとも部分的に基づいて、実質的に一定の信号対雑音比を周波数にわたって適用する量子化モードがオーディオ信号の一部分に使用されることとなるか否かの判断と、同じ基準及び決定を含んでいてもよい。従って、このステップは、（図３の方法３００のステップＳ３１０に関連して説明した方式で）第１特徴値を取得するステップ、及び／又は（図４の変形例４００のステップＳ４１５に関連して説明した方式で）第２特徴値を取得するステップを含むことができる。しかしながら、本開示はこれらの判断に限定されず、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであるか否かを判断する他のプロセスも実現可能である。

ステップＳ７２０において、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであると判断された場合に（例えば、その場合に限って）、オーディオ信号の一部分は、（実質的に）一定の信号対雑音比をオーディオ信号の一部分の周波数にわたって適用する量子化モードを使用して量子化される。換言すると、コンスタントＳＮＲ量子化モードは、オーディオ信号の一部分が密集性の過渡事象を含んでいそうであると判断されるか否かに応じて条件付きで適用される。（実質的に）一定のＳＮＲを適用する量子化モードは、例えば図３の方法３００のステップＳ３３０に関連して説明されている。

上述したように、（実質的に）一定の信号対雑音比をオーディオ信号の一部分の周波数にわたって適用する量子化モード（コンスタントＳＮＲ量子化モード）は、密集性の過渡事象を含むオーディオ信号の一部分を量子化することに特に適している。ステップ７１０における判断は、コンスタントＳＮＲ量子化モードが相応しくないオーディオ信号の一部分が、この量子化モードを用いて量子化されないことを保証し、これによりそのような部分の劣化を回避する。

オーディオ信号の一部分をエンコードする提案方法、及びオーディオ信号の一部分における密集性の過渡事象を検出する提案方法は、それぞれ適切な装置（例えば、オーディオ信号の一部分をエンコードするエンコーダ）により実装され得ることが理解される。そのような装置（例えば、エンコーダ）は上記の個々のステップを実行するように構成された個々のユニットを含むことができる。例えば、方法３００を実行するそのような装置は、上記のステップＳ３１０（及び同様に上記のステップＳ４１０、Ｓ５１０、及びＳ６１０）を実行するように構成された第１特徴決定ユニットと、上記のステップＳ３２０を実行するように構成された量子化モード選択ユニットと、上記のステップＳ３３０（及び同様に上記のステップＳ４３０及びＳ７２０）を実行するように構成された量子化ユニットとを含むことができる。同様に、方法３００の変形例４００を実行する装置は、第１特徴決定ユニットと、上記のステップＳ４１５を実行するように構成された第２特徴決定ユニットと、上記のステップＳ４２０を実行するように構成された修正量子化モード選択ユニットと、量子化ユニットとを含むことができる。方法５００を実行する装置は、第１特徴決定ユニットと、上記のステップＳ５２０を実行するように構成されたオーディオ・コンテンツ決定ユニットと、選択的に上記のステップＳ５３０（及び同様に上記のステップＳ６３０）を実行するように構成されたメタデータ生成ユニットとを含むことができる。方法５００の変形例６００を実行する装置は、第１特徴決定ユニットと、第２特徴決定ユニットと、上記のステップＳ６２０を実行するように構成された修正オーディオ・コンテンツ決定ユニットと、選択的にメタデータ生成ユニットとを含むことができる。方法７００を実行する装置は、上記のステップＳ７１０を実行するように構成された密集性過渡事象検出ユニットと、量子化ユニットとを含むことができる。そのような装置（例えば、エンコーダ）の個々のユニットは、個々のユニットそれぞれにより実行される処理を実行するように構成される、即ち上記の方法それぞれを実行するように構成されるコンピュータ・デバイスのプロセッサにより具現化されてもよいことが、更に理解される。このプロセッサはプロセッサのための個々の命令を格納するメモリに結合されていてもよい。

説明及び図面は提案される方法及び装置の原理を単に示しているに過ぎないことに留意すべきである。従って、本願で明示的には説明も図示もされていないが、本発明の原理を具現化し、且つ本願の精神及び範囲に包含される様々なアレンジを当業者は施し得るであろうということが、認められるであろう。更に、本願で記載されている総ての具体例は、技術を進歩させるように発明者等が貢献した提案される方法、装置、及び概念の原理を理解する際に読者を支援するような教育的な目的でしか原則として意図されておらず、そのように具体的に記載された具体例及び条件に限定することなく解釈されるべきである。更に、本願の原理、態様、及び実施形態、並びにそれらの具体例を記載する本願における総ての記述は、それらの均等物を包含するように意図されている。

本開示で説明される方法及び装置はソフトウェア、ファームウェア、及び／又はハードウェアとして実装されてもよい。所定のコンポーネントは、例えば、ディジタル信号プロセッサ又はマイクロプロセッサで動作するソフトウェアとして実装されてもよい。他のコンポーネントは、例えば、ハードウェアとして及び／又は特定用途向け集積回路として実装されてもよい。説明される方法及び装置において出くわす信号は、ランダム・アクセス・メモリ又は光記憶媒体などのメディアに格納されてもよい。それらは、無線ネットワーク、衛星ネットワーク、ワイヤレス・ネットワーク又は有線ネットワーク（例えば、インターネット）等のネットワークを介して転送されてもよい。

Claims

オーディオ信号の一部分をエンコードする方法であって：
前記オーディオ信号の前記一部分が密集性の過渡事象を含んでいそうであるか否かを決定するステップ；及び
前記オーディオ信号の前記一部分が密集性の過渡事象を含んでいそうであると決定された場合に、実質的に一定の信号対雑音比を、前記オーディオ信号の前記一部分の周波数にわたって適用する量子化モードを利用して、前記オーディオ信号の前記一部分を量子化するステップ；
を含む方法。
前記オーディオ信号の前記一部分の知覚エントロピーに関する第１特徴値を取得するステップを更に有し、
前記決定するステップは前記第１特徴値に少なくとも部分的に基づいている、請求項１に記載の方法。
前記オーディオ信号の前記一部分の周波数ドメインにおける疎性の尺度に関する第２特徴値を取得するステップを更に有し、
前記決定するステップは前記第２特徴値に更に基づいている、請求項１又は２に記載の方法。
時間平滑化された第１特徴値を得るために、前記第１特徴値を時間に関して平滑化するステップを更に含み、
前記決定するステップは平滑化された第１特徴値に基づいている、請求項２又は請求項２に従属する場合の請求項３に記載の方法。
前記決定するステップは、前記第１特徴値と、前記第１特徴値についての所定の閾値とを比較するステップを含み、及び
前記実質的に一定の信号対雑音比を周波数にわたって適用する前記量子化モードは、前記第１特徴値が前記第１特徴値についての所定の閾値を上回っている場合に選択される、請求項２又は請求項２に従属する場合の請求項３又は４に記載の方法。
前記決定するステップは、前記第１特徴値の経時的な変動に基づいている、請求項２又は請求項２に従属する場合の請求項３−５のうちの何れか１項に記載の方法。
前記決定するステップは、前記第１特徴値の経時的な前記変動と、前記変動についての所定の閾値とを比較するステップを含み、及び
前記実質的に一定の信号対雑音比を周波数にわたって適用する前記量子化モードは、前記第１特徴値の前記変動が前記変動についての所定の閾値を下回っている場合に選択される、請求項６に記載の方法。
時間平滑化された第２特徴値を得るために、前記第２特徴値を時間に関して平滑化するステップを更に含み、
前記決定するステップは平滑化された第２特徴値に基づいている、請求項３又は請求項３に従属する場合の請求項４−７のうちの何れか１項に記載の方法。
前記決定するステップは、前記第２特徴値と、前記第２特徴値についての所定の閾値とを比較するステップを含み、及び
前記実質的に一定の信号対雑音比を周波数にわたって適用する前記量子化モードは、前記第２特徴値が前記第２特徴値についての所定の閾値を上回っている場合に選択される、請求項３又は請求項３に従属する場合の請求項４−８のうちの何れか１項に記載の方法。
前記第１特徴は前記知覚エントロピーに比例し、及び
選択的に、前記第１特徴値は周波数ドメインで取得される、請求項２又は請求項２に従属する場合の請求項３−９のうちの何れか１項に記載の方法。
オーディオ信号の一部分をエンコードする方法であって：
前記オーディオ信号の前記一部分の知覚エントロピーに関連する第１特徴値を取得するステップ；
前記第１特徴値に基づいて前記オーディオ信号の前記一部分を量子化する量子化モードを選択するステップ；及び
選択された前記量子化モードを利用して前記オーディオ信号の一部分を量子化するステップ；
を含み、前記量子化モードを選択するステップは、前記第１特徴値に少なくとも部分的に基づいて、実質的に一定の信号対雑音比を周波数にわたって適用する量子化モードが前記オーディオ信号の前記一部分に使用されることとするか否かを決定するステップを含む、方法。
前記オーディオ信号の前記一部分の周波数ドメインにおける疎性の尺度に関連する第２特徴値を取得するステップを更に有し、
前記決定するステップは前記第２特徴値に更に基づいている、請求項１１に記載の方法。
前記決定するステップは前記第１特徴値の経時的な変動に基づいている、請求項１１又は１２に記載の方法。
前記第１特徴は前記知覚エントロピーに比例し、及び
選択的に、前記第１特徴値は周波数ドメインで取得される、請求項１１−１３のうちの何れか１項に記載の方法。
オーディオ信号の一部分における密集性の過渡事象を検出する方法であって：
前記オーディオ信号の前記一部分の知覚エントロピーに関する第１特徴値を取得するステップ；及び
前記第１特徴値に少なくとも部分的に基づいて、前記オーディオ信号の前記一部分は密集性の過渡事象を含んでいそうであるか否かを決定するステップ；
を有する方法。
前記オーディオ信号の前記一部分のメタデータを生成するステップを更に含み、
前記メタデータは、前記オーディオ信号の前記一部分は密集性の過渡事象を含んでいそうであるか否かの指標である、請求項１５に記載の方法。
前記オーディオ信号の前記一部分の周波数ドメインにおける疎性の尺度に関連する第２特徴値を取得するステップを更に有し、
前記決定するステップは前記第２特徴値に更に基づいている、請求項１５又は１６に記載の方法。
前記決定するステップは、前記第１特徴値の経時的な変動に基づいている、請求項１５−１７のうちの何れか１項に記載の方法。
前記第１特徴は前記知覚エントロピーに比例し、
選択的に、前記第１特徴値は周波数ドメインで取得される、請求項１５−１８のうちの何れか１項に記載の方法。
プロセッサと、前記プロセッサに結合され且つ前記プロセッサによる実行のための命令を格納するメモリとを含む装置であって、前記プロセッサは請求項１−１９のうちの何れか１項に記載の方法を実行するように構成されている、装置。