JP7125447B2

JP7125447B2 - 方法、コンピュータプログラム、エンコーダ、及びモニタリングデバイス

Info

Publication number: JP7125447B2
Application number: JP2020095195A
Authority: JP
Inventors: メルサドイエラチッチ，; マルクステデンバル，; マルクスゲラルト，; ファン，シンダニエルソン; リカールワンデルレフ，
Original assignee: アクシスアーベー
Priority date: 2019-06-10
Filing date: 2020-06-01
Publication date: 2022-08-24
Anticipated expiration: 2040-06-01
Also published as: KR20200141379A; US20200388290A1; EP3751567A1; KR102433582B1; US11545160B2; TW202105363A; JP2021006898A; EP3751567B1; CN112151043B; TWI820333B; CN112151043A

Description

本発明は、一般的に、オーディオ信号のエンコーディングに関し、より具体的には、可変ビットレートでのオーディオ信号のエンコーディングに関する。

オーディオコーデックは、オーディオデータをデジタル的にエンコードし、結果として得られるビットストリームを圧縮し得、それが効率よく保存される、又は、送信されるようにし得る。保存又は送信後、同オーディオコーデックは、デコーディングに使用され得、オーディオが再現され得るようにする。いくつかのオーディオコーデックは、例えば、２５６Ｋｂｐｓの一定のビットレート（ｃｏｎｓｔａｎｔｂｉｔｒａｔｅ又はＣＢＲ）を使用して、オーディオデータを圧縮する。他のオーディオコーデックは、可変ビットレート（ｖａｒｉａｂｌｅｂｉｔｒａｔｅ又はＶＢＲ）を使用しての、オーディオデータの圧縮をサポートする。ＶＢＲエンコーディングでは、エンコードされるオーディオデータのビットレートは、動的に変化し得る。例えば、ビットレートは、オーディオデータが、個別の周波数をどれだけ含むかに依存して変わり得、いくらかの個別の周波数は、複雑な信号に対するものよりも少ないビットを必要とする。ビットレートは、したがって、時間と共に、例えば、６５Ｋｂｐｓ及び３２０Ｋｂｐｓの間を変化し得る。ＶＢＲエンコーディングの利点は、ＣＢＲエンコーディングよりも少ないデータを通常生成することである。したがって、保存されるオーディオデータに対する保存スペース要件が減らされてよい。同様に、転送されるオーディオデータに対する帯域幅要件が減らされてよい。

しかし、出力データのサイズをさらに減らすオーディオエンコーディングの分野において、改善の余地がある。

本発明の目的は、オーディオデータの、改善されたエンコーディングを提供することである。本発明のさらなる目的は、転送されるオーディオデータに対する帯域幅要件を減らすこと、及び／又は、保存されるオーディオデータに対する保存スペース要件を減らすことである。

本発明のこれら及び他の目的は、独立請求項において画定されるように、本発明により少なくとも部分的に満たされる。好ましい実施形態が、従属請求項に提示される。

本発明の第１の態様によると、可変ビットレートを用いてオーディオ信号をエンコーディングする方法が提供される。この方法は、
エンコードされるオーディオ信号であって、複数の連続するオーディオフレームを含むオーディオ信号を受信することと、
オーディオ信号の連続するオーディオフレームのそれぞれに対して、
オーディオフレームを、複数の周波数サブバンドに関する周波数ドメインにて表すことと、
オーディオフレームを、周波数サブバンドのそれぞれにて、周波数サブバンドに特有の背景モデルを使用して、背景又は前景のいずれかとして分類することと、
オーディオ信号の連続するオーディオフレームのそれぞれをエンコーディングすることと、を含み、オーディオフレームの周波数サブバンドのそれぞれに対してビット数が割り当てられ、周波数サブバンドに対して割り当てられたビット数は、オーディオフレームが、周波数サブバンドにて前景として分類された場合の方が、オーディオフレームが、周波数サブバンドにて背景として分類された場合よりも多い。

オーディオ信号は、いずれのタイプのオーディオ信号であってよく、それは、例えば、監視カメラなどのモニタリングデバイス又はマイクロフォンにより記録されたオーディオ信号であってよいことが理解されるべきである。オーディオ信号の連続するオーディオフレームのそれぞれは、例えば、２０ｍｓ、６０ｍｓ、又は１５０ｍｓの持続時間を有してよい。オーディオフレームは、圧縮されなくとも、圧縮されてもよい。

オーディオフレームは、例えば、フーリエ変換（Ｆｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）を行うことにより、周波数ドメインにて表されてよいことも理解されるべきである。これは、例えば、高速フーリエ変換（ｆａｓｔＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ又はＦＦＴ）又は変形離散コサイン変換（ｍｏｄｉｆｉｅｄｄｉｓｃｒｅｔｅｃｏｓｉｎｅｔｒａｎｓｆｏｒｍ又はＭＤＣＴ）を使用して行われてよい。周波数ドメインでは、オーディオフレームの特定の周波数サブバンドが、音などを表してよい。これは、オーディオフレームにおいて、その特定の周波数サブバンド内にて、多数の周波数成分として生じる。周波数成分の大きさは、オーディオフレームにおけるその周波数成分の音量を表してよい。複数の周波数サブバンドは、例えば、２、３、５、８、１６などの周波数サブバンドを含んでよい。周波数サブバンドの境界の間隔は、等距離であってもよいし、そうでなくともよい。周波数サブバンドは、対数的に間隔があけられてよく、ここでは、サブバンドのそれぞれは、前のものより２倍広い。一例では、８つの周波数サブバンドがある。これらは、対数的に間隔があけられている。ここでは、最も低い周波数レンジを有する周波数サブバンドは、２０から４０Ｈｚをカバーし得る。別の例では、最も低い周波数レンジは、０Ｈｚにて始まる。

背景モデルは、オーディオフレームの周波数サブバンドを、オーディオフレームの周波数サブバンドが含む、音の重要度にしたがって分類するよう構成されてよいことも理解されるべきである。重要な音は、ここでは、前景として分類されてよい。一方、重要でない音は、背景として分類される。例えば、オーディオフレームの周波数サブバンドが、重要な音を含む場合、オーディオフレームの周波数サブバンドは、前景として分類されてよい。別の例では、オーディオフレームの周波数サブバンドは、それが重要でない音を主に含む場合、背景として分類される。音の重要度は、この特定の音が、前のオーディオフレームにおける周波数サブバンドにどれほどの頻度にて含まれているか、に基づいて判定されてよい。

背景モデルは、オーディオフレームの周波数サブバンドを、オーディオフレームの周波数サブバンドが含む音に対する期待値にしたがって分類するよう構成されてよいことも理解されるべきである。予期しない音は、ここでは、前景として分類されてよい。一方、予期した音は、背景として分類される。例えば、オーディオフレームの周波数サブバンドが、予期した音、若しくは、一般的な音を含む、又は、音をまったく含まない場合、オーディオフレームの周波数サブバンドは、背景として分類されてよい。別の例では、オーディオフレームの周波数サブバンドは、周波数サブバンドの内容が、背景分類のための要件に合わない場合に、前景として分類される。

オーディオフレームの周波数サブバンドを前景又は背景として分類するための背景モデル条件は、背景モデルが、周波数サブバンドに特有であることにより、１つの周波数サブバンドから別の周波数サブバンドに変化し得ることも理解されるべきである。例えば、モニタリングデバイスは、第１の機械が稼働中であり得る、又は、第１及び第２の機械が稼働中であり得る、のいずれかであるワークショップを監視してよい。特定の周波数サブバンド内では、第１のレベルにある音量は、第１の機械が稼働中であることを表してよく、第２のレベルにある音量は、第１及び第２の機械が稼働中であることを表してよい。したがって、その周波数サブバンドにおけるオーディオフレームが、低レベル、第１のレベル、又は第２のレベルにある音量を表す場合、オーディオフレームの周波数サブバンドは、背景として分類されてよい。これは、重要でない音、又は、予期した音をなしてよい。しかし、その周波数サブバンドにおけるオーディオフレームが、これらのレベルの間の音量、又は、これらのレベルを超える音量を表す場合、これは、前景として分類されてよい。これは、例えば、オーディオフレームにおける、１つ又はそれ以上のサブバンドにおける異なる音量をもたらす、稼働中である第１の機械の音の上に重ね合わせられた話し声、又は、稼働中に障害が発生している機械の音などの、重要な音又は予期しない音をなしてよい。異なる周波数サブバンドでは、音量レベルのそれぞれは異なるように選ばれ、何が、その周波数サブバンド内の前景音及び背景音をなすべきかを反映してよい。背景モデルは、音量レベルとは別の他の特徴に関して、周波数サブバンドに特有であってもよい。例えば、オーディオフレームの周波数サブバンドの周波数成分の相対的な大きさが、重要でない音又は予期した音のスペクトルに対応する場合、これは、背景分類となってよい。別の例では、１つ又はいくらかの主な周波数成分の、特定の周波数サブバンド内での出現は、オーディオフレームにおけるその周波数サブバンドの前景分類をトリガしてよい。例えば、サイレンは通常、３つの隣り合う全音から構成される三全音を使用する。３つの対応する周波数成分の出現は、したがって、サイレンが鳴り、前景分類をトリガすることを示す、スペクトルの明確な特徴とみなされてよい。

本発明が実現するものは、オーディオフレームの周波数サブバンドのそれぞれに対して、ビット数を割り当てることにより、オーディオ信号の効率的なエンコーディングが促進され、重要な事象又は予期しない事象が発生していない周波数サブバンドに、少ないビットが与えられ／割り当てられ、これにより高レベルに圧縮され得るようにすることである。異なる周波数サブバンドに対してビット数を個々に設定できる場合、オーディオフレーム全体に割り当てられる合計ビット数は少なくなり得る。一方、合計ビット数がフレーム毎に、異なる周波数サブバンドの間を区別することなく判定される場合、多くの合計ビット数が必要となり得る。

本発明がさらに実現するものは、各周波数サブバンドのそれぞれに対して特定の背景モデルを使用して、それらの各分類を判定し、ビット割り当て条件が、周波数サブバンドのそれぞれに対してカスタマイズされ得るにしたがって、オーディオ信号の効率的なエンコーディングをさらに促進することである。

この方法の利点は、したがって、それが、転送されるオーディオデータに対する、帯域幅要件の削減を促進すること、及び／又は、保存されるオーディオデータに対する、保存スペース要件の削減を促進することである。

別の利点は、デコードされるオーディオ信号の、認識される品質が高いことである。この方法は、内容に基づく圧縮を提供してよい。ここでは、重要な性質又は予期しない性質のものであり得る前景音は、重要でない性質又は予期した性質のものであり得る背景音よりも大きく圧縮され得ない。この方法は、したがって、所与の帯域幅又は保存スペースリソースを、オーディオ信号の、高品質が最も重要とされる各部に集中し得る。これにより、オーディオ信号がデコードされると、その高く認識された品質が提供される。

エンコーディングすることのステップは、ビットを、オーディオ信号の周波数スパンに割り当ててよく、ここでは、周波数スパンは、分類することのステップの周波数サブバンドと同じ、又は、それとは異なる、のいずれかであることが理解されるべきである。第１の例では、エンコーディングすることのステップにおける、２つの隣り合う周波数スパンが、分類することのステップにおける、単一の周波数サブバンドに対応する。この場合、単一の周波数サブバンドが、前景として分類される場合、隣り合う周波数スパンの双方には、同じビット数が与えられてよい。ここでは、このビット数は、単一の周波数サブバンドの前景分類により判定されたビット数に対応する。第２の例では、エンコーディングすることのステップにおける、単一の周波数スパンは、分類することのステップにおける、２つの異なる周波数サブバンドに対応する。この場合、周波数サブバンドのどちらかの前景分類、又は、周波数サブバンドの双方の前景分類により、エンコーディングすることのステップの周波数スパンには、前景分類により判定されたビット数に対応するビット数が与えられることとなってよい。

分類することのステップの周波数サブバンドと、エンコーディングすることのステップの周波数スパンと、が異なる場合、分類することのステップの周波数サブバンド、又は、エンコーディングすることのステップの周波数スパンのいずれが分解されてよいことも理解されるべきである。第１の例では、周波数サブバンドが、前景として分類される場合、これは分解され、エンコーディングすることのステップの周波数スパンに合う、分解された周波数サブバンドを使用して再分析されてよい。これは、エンコーダの周波数スパンのどれに、前景分類に対応するビット数が割り当てられるべきかを判定するために行われてよい。分類することのステップにおいて、エンコーダにおけるものと同じ周波数サブバンドを使用しないことの理由は、異なる周波数サブバンドの割り当てにより、よりよい分類結果となることであり得る。第２の例では、エンコーダが、エンコーダのステップの周波数スパンを分解する可能性を与える場合、分類することのステップの前景サブバンドに合う、分解された周波数スパンにビットを割り当てることのみが可能であってよい。

エンコーディングすることのステップは、ビットを、オーディオフレームに割り当ててよく、ここでは、エンコーディングすることのステップのオーディオフレーム持続時間は、分類することのステップのオーディオフレーム持続時間と同じ、又は、異なる、のいずれかであることも理解されるべきである。例えば、分類のステップは、６０ｍｓのオーディオフレーム持続時間を有してよい。一方、エンコーディングすることのステップは、２０ｍｓのオーディオフレーム持続時間を有する。

オーディオフレームの、背景に分類された周波数サブバンドをエンコーディングするために割り当てられるビット数は、オーディオフレームの、背景に分類された周波数サブバンドの周波数レンジに依存してよい。代替的に又は追加的に、オーディオフレームの、前景に分類された周波数サブバンドをエンコーディングするために割り当てられるビット数は、オーディオフレームの、前景に分類された周波数サブバンドの周波数レンジに依存してよい。

一例として、２０から４０Ｈｚの周波数レンジをカバーする周波数サブバンドは、それが前景として分類される場合には、５ビット／サンプルが割り当てられてよく、それが背景として分類される場合には、１ビット／サンプルが割り当てられてよい。一方、８０から１６０Ｈｚの周波数レンジは、それが前景として分類される場合には、７ビット／サンプルが割り当てられてよく、それが背景として分類される場合には、２ビット／サンプルが割り当てられてよい。

割り当てビット数に対して、周波数への依存性を使用することの利点は、それが、オーディオ信号の効率的なエンコーディングを促進することである。例えば、他よりも重要な周波数サブバンドには、さらに多くのビットが割り当てられてよい。例えば、周波数サブバンドを表す、又は、周波数サブバンドの一部を表す周波数レンジ内に、重要な音が出現すると予期される周波数サブバンドには、それが前景として分類される場合に、多くのビット数が割り当てられてよい。割り当てられるビット数は、周波数サブバンドを表す周波数レンジのサイズに依存してもよい。例えば、周波数レンジが狭い場合と比較して、周波数レンジが広い場合には、前景分類及び背景分類に対応するビット数の双方は、多くともよい。

オーディオフレームの異なる周波数サブバンドに割り当てるために、固定合計ビット数が利用可能であってよい。固定合計ビット数は、１つのフレームから連続するフレームまで一定であってよい。一例では、背景分類とされた周波数サブバンドには、最小ビット数又はゼロビットが割り当てられてよい。固定合計ビット数の残りは、前景に分類された、残りの周波数サブバンドのそれぞれに分配されてよい。

オーディオ信号がエンコードされ、第１のオーディオフレームの、背景に分類された第１の周波数サブバンドに割り当てられるビット数は、第１のオーディオフレームに先ずるオーディオフレームにおける同じ第１の周波数サブバンドが前景として分類された場合の方が、第１のオーディオフレームに先ずるオーディオフレームにおける同じ第１の周波数サブバンドが背景として分類された場合と比較して、より多くなるようになってよい。

一例として、ゼロ番目のオーディオフレームにおける周波数サブバンドには、それが前景として分類される場合には、４００ビットが割り当てられてよく、それが背景として分類される場合には、５０ビットが割り当てられてよい。ゼロ番目のオーディオフレームにおける周波数サブバンドが、背景として分類され、後続の第１のオーディオフレームにおける同じ周波数サブバンドが、背景として分類された場合には、第１のオーディオフレームにおける同じ周波数サブバンドには、５０ビットが割り当てられてもよい。その代わりに、ゼロ番目のオーディオフレームにおける周波数サブバンドが、前景として分類され、後続の第１のオーディオフレームにおける同じ周波数サブバンドが、背景として分類された場合には、第１のオーディオフレームにおける同じ周波数サブバンドには、例えば、３５０ビットが割り当てられてよい。

現在のオーディオフレームの周波数サブバンドの分類だけでなく、先のオーディオフレームの周波数サブバンドの分類にも依存して、ビット数を割り当てることの利点は、それが、健全なエンコーディングを促進することである。誤った背景分類の結果は、先のオーディオフレームの周波数サブバンドの分類が考慮される場合には、それほど深刻でない場合がある。先の分類が前景だった場合には、それが背景だった場合よりも、背景分類が誤っている可能性が高い場合がある。したがって、前景分類から背景分類への切り替えが生じると、割り当てられるビット数は、即座にではないが、段階的に減らされてよい。これは、誤った分類に基づく高レベルの圧縮による、重要なオーディオ成分のロスを減らし得る。

別の利点は、エンコードされたオーディオ信号が聞きやすくなることであってよい。圧縮レベルにおける急激な変化は、デコーディング後に再現される信号の認知におけるエラーに関して、信号における副作用を生成する場合がある。

割り当てビット数は、直前のオーディオフレームの分類のみに依存し得ないことが理解されるべきである。それは、さらに前のオーディオフレームの分類に依存してもよい。例えば、背景から前景への遷移は、割り当てられるビット数の、低い値から高い値への即時の変化をトリガしてよい。一方、前景から背景への遷移は、割り当てられるビット数の段階的な減少をトリガしてよい。最後の前景分類の後、割り当てビットの減少は、例えば、低い値に到達するまで、新たな背景分類のそれぞれに対して、同じであってよい。

オーディオフレームの周波数サブバンドをエンコーディングするために割り当てられるビット数は、さらに、心理音響的モデルに依存してよい。

心理音響的モデルは、人が音を認知するモデルであってよいことが理解されるべきである。

心理音響的モデルは、例えば、音量スケールに関しての、認知限界を反映してよい。心理音響的モデルは、ここでは、例えば、周波数に応じての音圧などを表す等音量曲線であってよい。ここでは、等音量曲線上の異なるトーンが、人の耳により、それらの音圧が異なるものの、同じ音量を有するものと認識される。オーディオフレームの周波数サブバンドをエンコーディングするために割り当てられるビット数は、ここでは、周波数サブバンドが、人の耳の感度が最も高い周波数に近い場合には、それが離れている場合より多くともよい。オーディオフレームの周波数サブバンドをエンコーディングするために割り当てられるビット数は、この実施形態では、周波数サブバンドが、等音量曲線の下限に近い場合には、それが離れている場合より多くともよい。音量スケールに関しての、人の耳の認知限界を反映する他のスケールが使用されてもよいことが理解されるべきである。

心理音響的モデルは、例えば、マスキング効果を反映してよい。ここでは、人の耳が、特定の大きさの第１の周波数成分を検出できるかどうかは、第２の異なる周波数成分が存在するか否かに依存する。第２の周波数成分が存在する場合、第１の周波数成分はマスクされ、人の耳による検出が不可能であってよい。オーディオフレームの周波数サブバンドをエンコーディングするために割り当てられるビット数は、この実施形態によると、周波数サブバンドの内容がマスクされている場合には、それがマスクされていない場合より少なくともよい。

心理音響的モデルにしたがってビット数を割り当てることの利点は、それが、高品質の圧縮を提供することであってよい。オーディオ信号の、人の耳が容易に認識しない各部は、人の耳の感度が高い各部よりも高いレベルに圧縮されてよい。

オーディオフレームの周波数サブバンドをエンコーディングするために割り当てられるビット数は、心理音響的モデルにしたがうオーディオフレームの周波数サブバンドの周波数レンジに依存してよい。

心理音響的モデルは、例えば、周波数スケールに関しての、人の耳の認知限界を反映してよい。心理音響的モデルは、例えば、バーク（Ｂａｒｋ）スケールであってよい。バークスケールは、人の聴覚システムの分解能をモデル化する、非線形の周波数スケールであってよい。バークスケールでの１バーク距離は、ここでは、いくらかの周波数に対して、周波数に対数的に比例する、臨界帯域幅と呼ばれるものに等しくともよい。オーディオフレームの周波数サブバンドをエンコーディングするために割り当てられるビット数は、ここでは、バーク距離にて測定される周波数レンジに比例してよい。周波数スケールに関しての、人の耳の認知限界を反映する他のスケールが使用されてもよいことが理解されるべきである。

心理音響的モデルにしたがう、オーディオフレームの周波数サブバンドの周波数レンジに基づいて、ビット数を割り当てることの利点は、それが、高品質の圧縮を提供することであってよい。人の耳が、高い周波数分解能を有する周波数サブバンドには、人の耳が、低い周波数分解能を有する周波数サブバンドと比較して、より多くのビットが割り当てられてよい。

オーディオフレームの、背景に分類された周波数サブバンドをエンコーディングするために割り当てられるビット数は、オーディオフレームの、背景に分類された周波数サブバンドが表す周波数レンジには依存しなくともよい。オーディオフレームの、前景に分類された周波数サブバンドをエンコーディングするために割り当てられるビット数は、オーディオフレームの、前景に分類された周波数サブバンドが属する周波数レンジには依存しなくともよい。

この実施形態の利点は、それが、迅速なエンコーディングを促進することであってよい。同じ少ないビット数を、オーディオフレームの、背景に分類された周波数サブバンドのすべてに割り当てることは、例えば、背景に分類された周波数サブバンドのそれぞれに対して個々に割り当てられるべきビットがどれほどかを判定することより迅速に行われ得る。さらに、同じ多くのビット数を、オーディオフレームの、前景に分類された周波数サブバンドのすべてに割り当てることは、例えば、前景に分類された周波数サブバンドのそれぞれに対して個々に割り当てられるべきビットがどれほどかを判定することより迅速に行われ得る。

この方法は、
オーディオ信号のオーディオフレームに対して、
オーディオフレームの周波数サブバンドに対して、
オーディオフレームの周波数サブバンドに対応する、周波数サブバンドに特有の背景モデルを、オーディオフレームの周波数サブバンドの周波数コンテンツに基づいて更新することも含んでよい。

周波数コンテンツは、ここでは、周波数サブバンドにて表される、音の性質であってよい。周波数コンテンツは、例えば、周波数サブバンド全体のパワースペクトル密度（ｐｏｗｅｒｓｐｅｃｔｒａｌｄｅｎｓｉｔｙ又はＰＳＤ）、周波数サブバンド内のパワースペクトル密度の測定値、周波数サブバンド内の各周波数成分の大きさ、周波数サブバンド内の複数の周波数成分の大きさ、周波数サブバンド内の周波数成分それぞれの分布、又は、周波数サブバンドのエナジーレベル（フレームｘのバンドｂのサブバンドエナジー）であってよい。

背景モデルを更新することの利点は、それが、エンコードされたオーディオ信号を転送させるための帯域幅要件のさらなる削減、及び／又は、エンコードされたオーディオ信号を保存するための保存スペース要件のさらなる削減を促進すること、及び／又は、デコーディング後に認識されるオーディオ信号の品質を改善することであってよい。

背景モデルを更新することは、時間と共に変わり得る、適応性の高い背景モデルをもたらしてよい。背景モデルは、したがって、オーディオ信号の記録中の環境の変化に適応してよい。例えば、新たな音が導入されると、それは前景として分類され、その新たな音をエンコーディングするために、多くのビットが割り当てられるようになってよい。しかし、後続のオーディオフレームにおいてその音が依然として生じている場合、その音は、関心の対象でない可能性があり得る。このモデルは続いて更新され、その音が、後のオーディオフレームにて背景として識別されるようになってよい。これは、その音が、より高いレベルに圧縮されるようになり得、各リソースを節約し得る。

背景モデルを更新することが、背景モデルの展開中に各リソースを節約してもよい。静的モデルが使用される場合、それが、異なる音を正確に分類できるようになる前に、それは、訓練される必要があってよい。訓練データを集めて選ぶことは、時間又は経費のいずれかに関して大きな捻出となり得る。周波数サブバンドの、それが分類する内容に基づいて更新される背景モデルは、それ自身を訓練してよい。これは、例えば包括的なモデルとして展開され、続いて、それが機能する環境に適応してよい。これにより、時間及び経費を節約する。

周波数サブバンドに特有の背景モデルは、ガウス混合モデル（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ又はＧＭＭ）を含んでよい。ＧＭＭは、複数のガウス分布を含む。それらのそれぞれは、周波数サブバンドにおけるエナジーレベルに対する確率分布を表す。

エナジーレベル、又は、サブバンドエナジーは、ここでは、周波数サブバンドにて表される音の音量の性質であってよい。エナジーレベルは、例えば、周波数サブバンド全体のＰＳＤ、周波数サブバンド内のＰＳＤの測定値、周波数サブバンドにおける音のウェーブレットエナジー、周波数サブバンド内の各周波数成分の大きさ、周波数サブバンド内の複数の周波数成分の合計した大きさ、又は、周波数サブバンド内の周波数成分すべての合計した大きさであってよい。ガウス分布は、ここでは、例えば、平均値及び標準偏差、又は、平均値及び差異により表されてよい。ガウス分布は、正規化されてもよく、されなくともよい。ここでは、正規化されたガウス分布は、１に等しい整数を有する。ガウス分布により表される確率分布は、ここでは、周波数サブバンドにおけるエナジーレベルの測定値の結果が異なり得る確率を提供してよい。複数のガウス分布は、例えば、３から６のガウス分布、又は、２から１０のガウス分布からなってよい。

例示のための一例では、各ガウス分布は、特定の音に対する、周波数サブバンド全体のＰＳＤに対する確率分布である。第１のガウス分布は、例えば、稼働中である第１の機械の音などの、第１の背景音を表してよい。オーディオフレームの周波数サブバンド全体のＰＳＤが、第１のガウス分布の平均値と同じ値を有する場合、これは、オーディオフレームの周波数サブバンドの内容が、第１の機械の音であることを示すものと、高い確率をもってみなしてよい。オーディオフレームの周波数サブバンド全体のＰＳＤが、第１のガウス分布の平均値より少し高い、又は、少し低い値を有する場合、これは、周波数サブバンドの内容が第１の音である確率が、少し低いことを示してよい。したがって、確率分布は、周波数サブバンドに対して測定されたエナジーレベルを、周波数サブバンドが特定の内容を有する確率、例えば、第１の機械の音を含む確率、に変換する関数であってよい。内容が背景音である確率が高いということはつまり、周波数サブバンドの背景分類が保証され得る、ということを示してよい。しかし、分類の判定を示す他のものがあってもよいことが理解されるべきである。

そのような背景モデルを使用することは、周波数サブバンドの内容を識別する効率的な方法であってよい。分類に必要な処理能力がしたがって、低くともよい。

そのような背景モデルは、周波数サブバンドの内容を識別する正確な方法でもある。確率分布は、例えば、測定されたエナジーレベルを閾値と単に比較することと比較して、内容を判定する、より正確な方法であり得る連続関数であってよい。複数のガウス分布を使用することにより、周波数サブバンドの異なる内容を表す複数の背景モデルが含まれてよい。ガウス分布の混合は、したがって、例えば、周波数サブバンドの内容が、複数の異なる音のいずれの１つのである確率を説明してよい複雑な確率分布を表してよい。

そのような背景モデルは、適応性の高いモデルを実施する効率的な方法であってもよい。オーディオフレームの周波数サブバンドは、共通の異なる音がその周波数サブバンド内にどのように存在するかの統計を構築するサンプルとみなされてよい。例えば、測定されたＰＳＤ値が、特定の周波数サブバンドに特有のガウス分布の平均値よりも少し低い場合、そのガウス分布に対する平均値は、以降のオーディオフレームに対して少し減らされてよい。

オーディオフレームの周波数サブバンドは、オーディオフレームの周波数サブバンドのエナジーレベルが、周波数サブバンドに特有の背景モデルのＧＭＭのガウス分布の内の１つの平均値前後の所定の標準偏差数内にある場合、及び、そのガウス分布の重みであって、オーディオフレームの周波数サブバンドのエナジーレベルが、そのガウス分布の平均値前後の所定の標準偏差数内となる確率を表す重みが、閾値を超えている場合に、背景として分類されてよい。

所定の標準偏差数は、例えば、２、２．５、又は３の標準偏差の、いずれの適切な数値であってよい。

この実施形態の利点は、それが、周波数サブバンドの分類における高精度を促進することであってよい。種々の音は、ここでは、例えば、それらの音が時間と共に変化しても、正確に分類されてよい。例えば、特定の背景音の音量は変化してよい。背景音は、例えば、部屋の背景での、働いている人たちの話し声であってよい。その背景音の音量は続いて、それらの人たちの数に依存して変化してよい。ここでは、音量が特定の範囲内にある場合には、それらの話し声は背景として分類されるのが望ましい。予期した範囲の音量レベルは続いて、平均値及び標準偏差に関してのガウス分布により画定されてよい。オーディオフレームの周波数サブバンドのエナジーレベルが、平均値前後の所定の標準偏差数内にある場合、これは、周波数サブバンドの内容が背景音であることの可能性を示してよい。しかし、これは、背景分類をトリガするには十分でなくともよい。そのガウス分布により表される背景モデルは、例えば、不確実なものであってよい。ガウス分布は、したがって、不確実性を説明する重みを有してよい。背景モデルが、周波数サブバンドの内容が特定の背景音であることの可能性を示すものであるべき制約がどれほどかが、続いて、所定の標準偏差数により規制されてよい。周波数サブバンドの内容が特定の背景音であることの可能性を示すものが、背景分類をもたらすべきか否かは、続いて、重みにより規制されてよい。背景モデルを更新する際には、第１のガウス分布の平均値前後の所定の標準偏差数内にある、測定されたＰＳＤ値は、第１のガウス分布の重みを、例えば、所定の値により増やしてよい。代替的に又は追加的に、ＧＭＭの残りのガウス分布の重みは、所定の値により減らされてよい。

エナジーレベルは、パワースペクトル密度（ｐｏｗｅｒｓｐｅｃｔｒａｌｄｅｎｓｉｔｙ又はＰＳＤ）の測定値であってよい。

ＰＳＤは、ここでは、パワーがどのように、オーディオ信号の周波数成分のそれぞれに分配されるかを表してよい。ＰＳＤは、例えば、ユールウォーカー自己回帰（Ｙｕｌｅ－Ｗａｌｋｅｒａｕｔｏｒｅｇｒｅｓｓｉｖｅ）法、又は、バートレット（Ｂａｒｔｌｅｔｔ）法を使用して測定されてよい。ＰＳＤは、例えば、周波数サブバンド全体のＰＳＤ測定値、又は、周波数サブバンド内の、１つの周波数成分、若しくは、多数の周波数成分に対する、周波数サブバンド内のＰＳＤ測定値、であってよい。

エナジーレベルのそのような定義を使用することの利点は、それが、周波数サブバンドの分類における高精度を促進することである。ＰＳＤ値は、音量を正確に表すものであってよい。さらに、ＰＳＤ値をフーリエ変換から計算することは、コンピュータ的に容易であり得る。分類に必要な計算能力は、これにより、低くともよい。

この方法は、
オーディオ信号のエンコードされたオーディオフレームを、メタデータであって、オーディオフレームの周波数サブバンドの分類を表すメタデータと共に送信することをさらに含んでよい。

メタデータを、エンコードされたオーディオフレームと共に送信することの利点は、それが、効率的なデコーディングを促進することであってよい。例えば、異なる方法を使用して、前景及び背景の周波数サブバンドをデコードしてよい。周波数サブバンドの分類が、メタデータを使用してマークされる場合、どの方法がどの周波数サブバンドに適用されるべきであるかが容易に判定され得る。これは、各処理リソースを節約し得る。

オーディオ信号のエンコーディングは、オーパス（Ｏｐｕｓ）オーディオコーデックにより行われてよい。

オーパスオーディオコーデックは、ビットの、エンコーダによりエンコードされる、異なる周波数サブバンドへの割り当てを内部的に判定してよい。例えば、オーパスでは、最大割り当てベクトルと呼ばれるメカニズムが、この目的に使用されてよい。本発明は、続いて、ビットの割り当てを変更し、背景とみなされている周波数バンドにおけるビット数を、前景とみなされている周波数バンドにおいてビットを使用するために、減らしてよい。オーパス以外のコーデックが使用されてよいことも理解されるべきである。

本発明に関するコンセプトの第２の態様によると、プロセッシングユニット上にて実行されると、そのプロセッシングユニットに、先の特許請求の範囲のいずれか一項に係る方法を実行させるコンピュータ可読命令を保存するコンピュータ可読媒体を含む、コンピュータプログラム製品が提供される。

この第２の態様の効果及び特徴は、一般的に、第１の態様に関連するそれら上記の説明に類似する。第１の態様に関連して言及する実施形態は、一般的に、第２の態様と両立する。

そのようなコンピュータプログラム製品は、したがって、この方法の上述する利点を得るためのプログラムをインストールして実行する可能性を提供し得る。

本発明に関するコンセプトの第３の態様によると、可変ビットレートを用いてオーディオ信号をエンコーディングするためのエンコーダが提供される。エンコーダは、レシーバと、１つ又はそれ以上のプロセッサと、を含む。
レシーバは、エンコードされるオーディオ信号を受信するよう構成されている。オーディオ信号は、複数の連続するオーディオフレームを含む。
１つ又はそれ以上のプロセッサは、
オーディオ信号の連続するオーディオフレームのそれぞれに対して、
オーディオフレームを、複数の周波数サブバンドに関する周波数ドメインにて表し、
オーディオフレームを、周波数サブバンドのそれぞれにて、周波数サブバンドに特有の背景モデルを使用して、背景又は前景のいずれかとして分類し、
オーディオ信号の連続するオーディオフレームのそれぞれをエンコードするよう構成されている。オーディオフレームの周波数サブバンドのそれぞれに対して、ビット数が割り当てられる。周波数サブバンドに対して割り当てられたビット数は、オーディオフレームが、周波数サブバンドにて前景として分類された場合の方が、オーディオフレームが、周波数サブバンドにて背景として分類された場合よりも多い。

この第３の態様の効果及び特徴は、一般的に、第１の態様に関連するそれら上記の説明に類似する。第１の態様に関連して言及する実施形態は、一般的に、第３の態様と両立する。

エンコーダは、オーディオ信号を記録するデバイスに物理的に接続されてよいことが理解されるべきである。しかし、エンコーダは、オーディオ信号を記録するデバイスにワイヤレスにて接続されてよく、エンコーダは、例えば、サーバー内に設置されてよく、サーバーは、オーディオ信号を記録するデバイスと通信することも理解されるべきである。

本発明に関するコンセプトの第４の態様によると、モニタリングデバイスが提供される。モニタリングデバイスは、
オーディオ信号を記録するよう構成されているマイクロフォンと、
オーディオ信号を、マイクロフォンから受信し、可変ビットレートを用いてオーディオ信号をエンコードするよう構成されている、第３の態様に係るエンコーダと、を含む。

この第４の態様の効果及び特徴は、一般的に、第１の態様に関連するそれら上記の説明に類似する。第１の態様に関連して言及する実施形態は、一般的に、第４の態様と両立する。

マイクロフォンとエンコーダとを組み合わせることの利点は、モニタリングデバイスが自立して動作できる程度が大きくなることである。例えば、モニタリングデバイスは、エンコードされたオーディオ信号を、ネットワーク上に、他のデバイス又はサーバーのサポートなく送信してよい。

上記の、そしてさらなる目的も同様に、本発明に関するコンセプトの特徴及び利点は、添付の図面を参照しての、以下に例示する、非限定の、詳細な説明を通してよく理解されるであろう。図中、特に明記しない限り、同様の構成要素には同様の参照符号が使用される。

図１は、モニタリングデバイス内のエンコーダの図である。図２は、マイクロフォンにワイヤレスにて接続されたエンコーダの図である。図３は、可変ビットレートを用いてオーディオ信号をエンコーディングする方法のフローチャートである。図４は、周波数ドメインにて表されて分類されたオーディオ信号である。図５は、ガウス混合モデルである。図６は、ビットレートが段階的に減少する圧縮の模式図である。

添付の図面を参照して、本発明の技術的内容及び詳細な説明を、好適であり、特許請求の範囲を限定することに使用されない実施形態にしたがって、以下に記載する。本発明は、多くの異なる形態にて体現されてよく、以下に示す実施形態に限定されるものとして理解すべきでない。むしろこれらの実施形態は、完璧性及び完全性のために、そして、本発明の範囲を当業者に十分に伝えるために提供される。

図１及び図２は、レシーバ１２と、プロセッサ１４と、を含むエンコーダ１０の模式図である。図１では、エンコーダ１０はモニタリングデバイス１内に設置されている。モニタリングデバイス１は、レシーバ１２を通過したオーディオ信号３０を記録するよう構成されているマイクロフォン２をさらに含む。モニタリングデバイス１は、ビデオ信号を追加的に記録できてもよいし、できなくともよい。図２では、エンコーダ１０は、複数のマイクロフォン２をサポートする。エンコーダ１０は、したがって、ネットワークビデオレコーダやネットワークオーディオレコーダなどの、スタンドアローン型モニタリングデバイスの一部、又は、中央サポートユニットの一部であってよい。

エンコーダ１０は、例えば、マイクロフォン２からオーディオ信号３０を受信し、そのオーディオ信号３０を、プロセッサ１４を使用してその信号を処理することにより、エンコードする。エンコードされたオーディオ信号は、続いて、例えば、ローカルエリアネットワークを経由して送信されてよい。エンコードされたオーディオ信号は、モニタリングデバイス１上にローカルに、又は、リモートストレージメディア上に保存されてもよい。

マイクロフォン２からエンコーダ１０に通過したオーディオ信号３０は、マイクロフォン２に当たる音波をアナログ又はデジタルにて表すものであってよい。受信したオーディオ信号３０は、複数の連続するオーディオフレーム３２を含む。オーディオ信号３０の、連続するオーディオフレーム３２のそれぞれは、６０ｍｓなどの、特定の持続時間のオーディオ信号の、時間セグメントを表してよい。オーディオフレーム３２は、例えば、ビットストリングにより表される時間セグメントのそれぞれにより、明確に画定されてよい。オーディオフレーム３２は、例えば、オーディオフレーム３２のそれぞれの開始を画定するフレームクロックにより、暗に画定されてもよい。オーディオフレーム３２は、圧縮されなくともよい。しかし、オーディオフレーム３２は、圧縮されてもよい。オーディオ信号３０は、例えば、予め圧縮されてよい。エンコーダ１０は、続いて、さらなる圧縮を加えてよい。

図１は、マイクロフォン２及びエンコーダ１０の間の、オーディオ信号３０がエンコーダ１０に通過する有線接続を示す。図２は、エンコーダ１０及びマイクロフォン２の間の無線接続を示す。

図３は、可変ビットレートを用いてオーディオ信号３０をエンコーディングする方法１００を示すフローチャートを示す。方法１００は、例えば、エンコーダ１０により使用され、可変ビットレートを用いてオーディオ信号３０をエンコードしてよい。図３は、方法１００のステップのそれぞれについての特定の順序を画定しないことが理解されるべきである。

方法１００によると、Ｓ１０２にて、オーディオ信号３０が受信される。オーディオ信号３０は、複数の連続するオーディオフレーム３２を含む。

連続するオーディオフレーム３２のそれぞれは、続いて、Ｓ１０４にて、複数の周波数サブバンド３４に関する周波数ドメインにて表される（図４とあわせて以下をさらに参照されたい）。これは、例えば、高速フーリエ変換（ｆａｓｔＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ又はＦＦＴ）又は変形離散コサイン変換（ｍｏｄｉｆｉｅｄｄｉｓｃｒｅｔｅｃｏｓｉｎｅｔｒａｎｓｆｏｒｍ又はＭＤＣＴ）を使用して行われてよい。オーディオフレーム３２が周波数ドメインにて表されると、周波数サブバンド３４のそれぞれは、１つ又はそれ以上の周波数成分を含み得る。周波数成分のそれぞれは、ここでは、例えば、周波数成分により表される周波数スパンのエナジーレベルであってよい。周波数ドメインでは、オーディオフレーム３２は、したがって、スペクトルであってよい。ここでは、エナジーレベルは、オーディオ信号のパワーがどのように、異なる周波数サブバンド３４の周波数成分のそれぞれにわたって分配されるかを説明する。エナジーレベル値は、ここでは、周波数成分の周波数スパンに関して正規化され、それが、スペクトル分解能には依存しなくなってよい。

連続するオーディオフレーム３２のそれぞれは、以下に説明するように、Ｓ１０６にて、周波数サブバンド３４のそれぞれにて、周波数サブバンド３４に特有の背景モデルを使用して、背景又は前景のいずれかとして、さらに分類される。

オーディオ信号の連続するオーディオフレーム３２のそれぞれは、Ｓ１０８にて、さらにエンコードされる。ここでは、オーディオフレーム３２の周波数サブバンド３４のそれぞれに対して、ビット数が割り当てられる。ここでは、周波数サブバンド３４に対して割り当てられたビット数は、オーディオフレーム３２が、周波数サブバンド３４にて前景として分類された場合の方が、オーディオフレーム３２が、周波数サブバンド３４にて背景として分類された場合よりも多い。Ｓ１０８でのエンコーディングすることを、以下にさらに説明する。

Ｓ１０４での表すことと、Ｓ１０６での分類することと、Ｓ１０８でのエンコーディングすることと、の各ステップが、オーディオフレーム３２のそれぞれに対して順次行われてよい。しかし、すべてのステップは、次のオーディオフレーム３２に移動する前に、１つのオーディオフレーム３２に対して必ずしも完了されなくともよい。例えば、Ｓ１０４での表すことと、Ｓ１０６での分類することと、は、オーディオフレーム３２のそれぞれに対して順次行われてよい。多くのフレームが分類されてバッファされると、バッファされたオーディオフレーム３２が、Ｓ１０８にてエンコードされてよい。

方法１００は、Ｓ１１０での、背景モデルを更新する任意のステップをさらに含む。ここでは、背景モデルが、オーディオフレーム３２の周波数サブバンド３４に対して、オーディオフレーム３２の周波数サブバンド３４の周波数コンテンツに基づいて、更新される。

方法１００は、Ｓ１１２での、オーディオ信号３０のエンコードされたオーディオフレーム３２を、メタデータと共に送信する任意のステップをさらに含む。ここでは、メタデータは、オーディオフレーム３２の周波数サブバンド３４の分類３６を表す。

図４は、Ｓ１０４にて周波数ドメインにて表され、Ｓ１０６にて分類された、オーディオ信号３０の一例を模式的に示す。オーディオ信号３０は、ここでは、時間ドメインにて、多くのオーディオフレーム３２に分割され、周波数ドメインにて、多くの周波数サブバンド３４に分割されたものとみなされてよい。オーディオフレーム３２のそれぞれの周波数サブバンド３４のそれぞれは、分類３６を有する。分類３６は、Ｓ１０８でのエンコーディングするステップにて、周波数サブバンド３４に対して割り当てられるビット数の判定に使用される。この図及び以降の図では、前景分類は、ＦＧとマークされており、背景分類は、ＢＧとマークされている。

ここでは、Ｓ１０６での、オーディオフレーム３２の周波数サブバンド３４を分類することのステップをさらに詳細に説明する。図５は、周波数サブバンド３４に特有の背景モデルとしていくつかの実施形態にて使用されるＧＭＭ５０を示す。オーディオフレームに対する背景モデルを、ＧＭＭを使用して判定することのコンセプトは、「複雑なオーディオ環境に対する、オンラインでのオーディオ背景の判定（Ｏｎ－ｌｉｎｅＡｕｄｉｏＢａｃｋｇｒｏｕｎｄＤｅｔｅｒｍｉｎａｔｉｏｎｆｏｒＣｏｍｐｌｅｘＡｕｄｉｏＥｎｖｉｒｏｎｍｅｎｔｓ）」［マルチメディアコンピューティング通信及びアプリケーションにおけるＡＣＭトランザクション：２００７年５月（ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＭｕｌｔｉｍｅｄｉａＣｏｍｐｕｔｉｎｇＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓＭａｙ２００７）］モンクリフ（Ｍｏｎｃｒｉｅｆｆ）ら、にさらに説明されている。これは、背景モデル化技術を使用して、オーディオを前景／背景に分離する方法を説明する。

ここに描くＧＭＭ５０は、３つのガウス分布５２を含む。それらのそれぞれは、周波数サブバンドにおける、エナジーレベルに対する確率分布を表す。周波数サブバンド３４のそれぞれは、ここでは、その周波数サブバンド３４内の音がどのように分類されるべきであるかをモデル化する、それ自身のガウス分布５２を有してよい。図中のガウス分布５２のそれぞれは、平均値及び標準偏差を有する。ここでは、平均値前後の、あらかじめ定められた標準偏差数５４が、ガウス分布５２のそれぞれのエナジーレベルの範囲を画定する。いくつかの実施形態では、ガウス分布５２のそれぞれは、さらに、重みと関連付けられている。重みは、オーディオフレーム３２の周波数サブバンド３４のエナジーレベルが、そのガウス分布５２の平均値前後の所定の標準偏差数５４内となる確率を表す。ガウス分布の重みのそれぞれは、正規化されてもよく、されなくともよい。

いくつかの実施形態では、オーディオフレーム３２の周波数サブバンド３４は、２つの条件が満たされる場合に、背景として分類される。第１の条件は、周波数サブバンド３４の測定されたエナジーレベル５６が、ガウス分布５２の内の１つの、あらかじめ定められた標準偏差数５４により画定された、エナジーレベルの範囲内に収まることである。図４では、周波数サブバンド３４の測定されたエナジーレベル５６が、真ん中のガウス分布５２の平均値前後の、あらかじめ定められた標準偏差数５４内に収まる。第２の条件は、そのガウス分布５２が、閾値を超える重みを有することである。いくつかの実施形態では、周波数サブバンド３４の測定されたエナジーレベル５６は、ガウス分布５４の内の１つを超える、あらかじめ定められた標準偏差数５４により画定された、エナジーレベルの範囲内に収まってよい。これらの場合では、周波数サブバンド３４は、ガウス分布５２に対応する分類を、最も高い重みと共に受信してよい。最も高い重みが、閾値としての重みを超える場合、周波数サブバンド３４は、背景として分類される。

いくつかの実施形態では、背景モデルは、オーディオフレーム３２の周波数サブバンド３４の周波数コンテンツに基づいて更新される。例えば、図５のＧＭＭ５０は、いくつかの実施形態にて、それが、オーディオフレーム３２の周波数サブバンド３４に使用された後に、更新され得る。更新されたガウス分布５３が、したがって、ガウス分布５２及び測定されたエナジーレベル５６に基づいて形成されてよい。図５は、更新されたガウス分布５３を示す。更新されたガウス分布５３は、真ん中のガウス分布５２の代わりに、後続のオーディオフレームに使用される。

以下に、更新の例の包括的でないリストを説明する。測定されたエナジーレベル５６が、ガウス分布５２に適合する場合、つまり、ガウス分布５２の平均値前後の、あらかじめ定められた標準偏差数５４内に収まる場合、適合するガウス分布５２が更新されてよい。例えば、適合するガウス分布５２の平均値及び／又は標準偏差は、調整されてよい。平均値は、例えば、測定されたエナジーレベル５６が、適合するガウス分布５２の平均値未満であった場合には、減らされてよい。適合するガウス分布５２の重みも、調整されてよい。適合するガウス分布５２の重みは、増えてよい。測定されたエナジーレベル５６に適合しなかったガウス分布５２の重みは、減ってよい。測定されたエナジーレベル５６が、いずれのガウス分布５２にも適合しなかった場合、最も低い重みを有するガウス分布５２が、測定されたエナジーレベル５６に等しい平均値と、あらかじめ定められた標準偏差と、あらかじめ定められた（低い）重みと、を有する新たなガウス分布５２と置き換えられてよい。適合するガウス分布５２の重みは、更新が行われる際に考慮されてもよいことが理解されるべきである。複数のガウス分布５２が、１つの測定されたエナジーレベル５６に適合してよいことも理解されるべきである。複数のガウス分布５２も、背景モデルの単一の更新において調整されてよい。

ここでは、Ｓ１０８での、オーディオフレーム３２をエンコーディングするステップをさらに詳細に説明する。Ｓ１０８での、オーディオフレーム３２をエンコーディングすることは、異なる周波数サブバンド３４に対して異なるビット数を割り当てることをサポートするオーディオコーデックを使用して行われてよい。そのようなオーディオコーデックは、例えば、オーパスオーディオコーデックである。ＭＰ３コーデックやＭＰＥＧコーデックなどの他のコーデック、又は、ＶＢＲをサポートする他のコーデックが採用されてよい。Ｓ１０８にて、オーディオフレーム３２がエンコードされると、オーディオフレーム３２の周波数サブバンド３４に対して割り当てられるビット数は、オーディオフレーム３２が、周波数サブバンド３４にて前景として分類された場合の方が、オーディオフレーム３２が、周波数サブバンド３４にて背景として分類された場合よりも多い。

割り当てビット数は、例えば、ビットレートが段階的に減少する圧縮５８において、現在のオーディオフレーム３２の分類、及び、先のオーディオフレーム３２の分類、の双方に依存してよい。図６は、周波数サブバンド３４に対する、ビットレートが段階的に減少する圧縮５８を模式的に示す。この図は、割り当てビット数が、先のオーディオフレーム３２の分類３６に依存する場合の、時間に応じての割り当てビット数を示す。ここに示す状況では、前景分類から背景分類への切り替えにより、割り当てられるビット数は、即座にではないが、段階的に減らされることとなる。前景分類から背景分類への切り替え後、割り当てられるビット数は、周波数サブバンド３４における、オーディオフレーム３２の後続の背景分類のそれぞれに対して、予め設定された低い値に到達するまで、減らされる。一方、背景分類から前景分類への切り替えにより、割り当てられるビット数は、高い値へと即座に増やされることとなってよい。

割り当てビット数は、先のオーディオフレーム３２の分類には依存しなくともよい。割り当てビット数は、例えば、前景として分類された、オーディオフレーム３２の周波数サブバンド３４のそれぞれに対して、高い値に設定されてよい。割り当てビット数は、例えば、背景として分類された、オーディオフレーム３２の周波数サブバンド３４のそれぞれに対して、低い値に設定されてよい。

いくつかの実施形態では、低い値及び高い値をなすものが、すべての周波数サブバンドにて同じである。いくつかの実施形態では、低い値及び高い値をなすものは、１つの周波数サブバンドから別の周波数サブバンドのそれぞれの間にて、異なる。オーディオフレーム３２の、背景に分類された周波数サブバンド３４をエンコーディングするために割り当てられるビット数は、例えば、オーディオフレーム３２の、背景に分類された周波数サブバンド３４の周波数レンジに依存してよい。オーディオフレーム３２の、前景に分類された周波数サブバンド３４をエンコーディングするために割り当てられるビット数は、例えば、オーディオフレーム３２の、前景に分類された周波数サブバンド３４の周波数レンジに依存してよい。前景又は背景に分類された周波数サブバンド３４をエンコーディングするために割り当てられるビット数は、心理音響的モデルに依存してもよい。

オーディオフレーム３２がエンコードされると、それらは送信されてよく、例えば、エンコーダ１０により送信されてよい。オーディオフレーム３２は、例えば、有線接続を経由、又は、ワイヤレス、のいずれかにて、ネットワークに送信されてよい。オーディオフレーム３２の周波数サブバンド３４の分類は、ここでは、エンコードされたオーディオフレームと共に、メタデータとして送信されてよい。

これまで、本発明に関するコンセプトを、限られた例を参照して主に説明した。しかし、当業者にただちに明白であるように、上記に開示するものとは異なる他の実施例も、特許請求の範囲に規定されるように、本発明に関するコンセプトの範囲内にて等しく可能である。

Claims

可変ビットレートを用いてオーディオ信号（３０）をエンコーディングする方法（１００）であって、
エンコードされる前記オーディオ信号（３０）であって、複数の連続するオーディオフレーム（３２）を含む前記オーディオ信号（３０）を受信すること（Ｓ１０２）と、
前記オーディオ信号（３０）の連続する前記オーディオフレーム（３２）のそれぞれに対して、
前記オーディオフレーム（３２）を、複数の周波数サブバンド（３４）に関する周波数ドメインにて表すこと（Ｓ１０４）と、
前記オーディオフレーム（３２）を、前記周波数サブバンド（３４）のそれぞれにて、前記周波数サブバンド（３４）に特有の背景モデルを使用して、背景又は前景のいずれかとして分類すること（Ｓ１０６）と、
前記オーディオ信号（３０）の連続する前記オーディオフレーム（３２）のそれぞれをエンコーディングすること（Ｓ１０８）と、を含み、
前記オーディオフレーム（３２）の前記周波数サブバンド（３４）のそれぞれに対してビット数が割り当てられ、
前記周波数サブバンド（３４）に対して割り当てられた前記ビット数は、前記オーディオフレーム（３２）が、前記周波数サブバンド（３４）にて前景として分類された場合の方が、前記オーディオフレーム（３２）が、前記周波数サブバンド（３４）にて背景として分類された場合よりも多い、方法（１００）。
前記オーディオフレーム（３２）の、背景に分類された前記周波数サブバンド（３４）をエンコーディングするために割り当てられるビット数は、前記オーディオフレーム（３２）の、背景に分類された前記周波数サブバンド（３４）の周波数レンジに依存する、及び／又は、
前記オーディオフレーム（３２）の、前景に分類された前記周波数サブバンド（３４）をエンコーディングするために割り当てられるビット数は、前記オーディオフレーム（３２）の、前景に分類された前記周波数サブバンド（３４）の前記周波数レンジに依存する、請求項１に記載の方法（１００）。
前記オーディオ信号（３０）がエンコードされ、第１のオーディオフレームの、背景に分類された第１の周波数サブバンドに割り当てられるビット数は、前記第１のオーディオフレームに先ずる前記オーディオフレームにおける同じ第１の周波数サブバンドが前景として分類された場合の方が、前記第１のオーディオフレームに先ずる前記オーディオフレームにおける前記同じ第１の周波数サブバンドが背景として分類された場合と比較して、より多くなる、請求項１から請求項２のいずれか一項に記載の方法（１００）。
前記オーディオフレーム（３２）の前記周波数サブバンド（３４）をエンコーディングする（Ｓ１０８）ために割り当てられるビット数は、さらに、心理音響的モデルに依存する、請求項１から請求項３のいずれか一項に記載の方法（１００）。
前記オーディオフレーム（３２）の前記周波数サブバンド（３４）をエンコーディングする（Ｓ１０８）ために割り当てられるビット数は、心理音響的モデルにしたがう前記オーディオフレーム（３２）の前記周波数サブバンド（３４）の前記周波数レンジに依存する、請求項２に記載の方法（１００）。
前記オーディオフレーム（３２）の、背景に分類された前記周波数サブバンド（３４）をエンコーディングする（Ｓ１０８）ために割り当てられるビット数は、前記オーディオフレーム（３２）の、背景に分類された前記周波数サブバンド（３４）が表す周波数レンジには依存せず、
前記オーディオフレーム（３２）の、前景に分類された前記周波数サブバンド（３４）をエンコーディングする（Ｓ１０８）ために割り当てられるビット数は、前記オーディオフレーム（３２）の、前景に分類された前記周波数サブバンド（３４）が属する周波数レンジには依存しない、請求項１に記載の方法（１００）。
請求項１から請求項６のいずれか一項に記載の方法（１００）であって、
前記オーディオ信号（３０）の前記オーディオフレーム（３２）に対して、
前記オーディオフレーム（３２）の前記周波数サブバンド（３４）に対して、
前記オーディオフレーム（３２）の前記周波数サブバンド（３４）に対応する、前記周波数サブバンド（３４）に特有の背景モデルを、前記オーディオフレーム（３２）の前記周波数サブバンド（３４）の周波数コンテンツに基づいて更新すること（Ｓ１１０）をさらに含む、方法（１００）。
前記周波数サブバンド（３４）に特有の前記背景モデルは、ガウス混合モデル（５０）（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ又はＧＭＭ）を含み、前記ＧＭＭ（５０）は、複数のガウス分布（５２）を含み、前記複数のガウス分布（５２）のそれぞれは、前記周波数サブバンド（３４）におけるエナジーレベルに対する確率分布を表す、請求項１から請求項７のいずれか一項に記載の方法（１００）。
前記オーディオフレーム（３２）の前記周波数サブバンド（３４）は、前記オーディオフレーム（３２）の前記周波数サブバンド（３４）の前記エナジーレベルが、前記周波数サブバンド（３４）に特有の前記背景モデルの前記ＧＭＭ（５０）の前記ガウス分布（５２）の内の１つの平均値前後の所定の標準偏差数（５４）内にある場合、及び、前記ガウス分布（５２）の重みであって、前記オーディオフレーム（３２）の前記周波数サブバンド（３４）の前記エナジーレベルが、前記ガウス分布（５２）の前記平均値前後の前記所定の標準偏差数（５４）内となる確率を表す前記重みが、閾値を超えている場合に、背景として分類される、請求項８に記載の方法（１００）。
前記エナジーレベルは、パワースペクトル密度（ｐｏｗｅｒｓｐｅｃｔｒａｌｄｅｎｓｉｔｙ又はＰＳＤ）の測定値である、請求項８から請求項９のいずれか一項に記載の方法（１００）。
請求項１から請求項１０のいずれか一項に記載の方法（１００）であって、
前記オーディオ信号（３０）のエンコードされた前記オーディオフレーム（３２）を、メタデータであって、前記オーディオフレーム（３２）の前記周波数サブバンド（３４）の分類（３６）を示す前記メタデータと共に送信すること（Ｓ１１２）をさらに含む、方法。
プロセッサ（１４）上にて実行されると、前記プロセッサ（１４）に、請求項１から請求項１１のいずれか一項に記載の方法（１００）を実行させるコンピュータ可読命令を保存するコンピュータ可読媒体。
可変ビットレートを用いてオーディオ信号（３０）をエンコーディングするためのエンコーダ（１０）であって、
レシーバ（１２）と、
１つ又はそれ以上のプロセッサ（１４）と、を含むエンコーダ（１０）であって、
前記レシーバ（１２）は、エンコードされる前記オーディオ信号（３０）であって、複数の連続するオーディオフレーム（３２）を含む前記オーディオ信号（３０）を受信するよう構成されており、
前記１つ又はそれ以上のプロセッサ（１４）は、
前記オーディオ信号（３０）の連続する前記オーディオフレーム（３２）のそれぞれに対して、
前記オーディオフレーム（３２）を、複数の周波数サブバンド（３４）に関する周波数ドメインにて表し、
前記オーディオフレーム（３２）を、前記周波数サブバンド（３４）のそれぞれにて、前記周波数サブバンド（３４）に特有の背景モデルを使用して、背景又は前景のいずれかとして分類し、
前記オーディオ信号（３０）の連続する前記オーディオフレーム（３２）のそれぞれをエンコードするよう構成されており、前記オーディオフレーム（３２）の前記周波数サブバンド（３４）のそれぞれに対してビット数が割り当てられ、前記周波数サブバンド（３４）に対して割り当てられた前記ビット数は、前記オーディオフレーム（３２）が、前記周波数サブバンド（３４）にて前景として分類された場合の方が、前記オーディオフレーム（３２）が、前記周波数サブバンド（３４）にて背景として分類された場合よりも多い、エンコーダ（１０）。
オーディオ信号（３０）を記録するよう構成されているマイクロフォン（２）と、
前記オーディオ信号（３０）を、前記マイクロフォン（２）から受信し、可変ビットレートを用いて前記オーディオ信号（３０）をエンコードするよう構成されている、請求項１３に記載のエンコーダ（１０）と、を含む、モニタリングデバイス（１）。