JP2004520627A

JP2004520627A - 圧縮オーディオにおける信号電力の推定

Info

Publication number: JP2004520627A
Application number: JP2002590144A
Authority: JP
Inventors: アレッシオステラ; ジャンエイディネスヴァドバ; バルビエリ　マウロ; フリーディスナイデル
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-05-11
Filing date: 2002-05-08
Publication date: 2004-07-08
Anticipated expiration: 2022-05-08
Also published as: CN1462426A; US7617095B2; WO2002093552A1; CN100348034C; KR20030015385A; KR100916959B1; US7356464B2; CN1462427A; EP1393301B1; ATE438968T1; EP1393301A1; DE60233223D1; EP1393480A2; JP4560269B2; US20040138880A1; DE60217484D1; DE60217484T2; WO2002093801A2; WO2002093801A3; EP1393480B1

Abstract

圧縮オーディオ信号［Ａ］における信号電力の推定が提供されており、前記オーディオ信号は量子化サンプルを有し、所与のブロックはスケールファクタのセットを具備する。前記推定は、前記圧縮オーディオ信号から前記スケールファクタのセットを導出し、前記スケールファクタの組合せに基づいて前記所与のブロックにおける信号電力を推定することにより行なわれる。好ましくは、導出するステップ及び推定するステップが、前記スケールファクタのセットのサブセットにおいてしか行なわれない。前記信号電力推定は、受信機（１）用の無音検出器（１１）において用いられ得る。

Description

【０００１】
【発明の属する技術分野】
本発明は、圧縮オーディオ信号における信号電力の推定に関する。更に、本発明は、無音検出及びこのような無音検出を用いる受信機に関する。
【０００２】
【従来の技術】
国際特許出願公開第ＷＯ９６／３２７１Ａ１号は、補助データが、復号され得るように、オーディオデータと共に多重化及び符号化され、並びに送信され得るデジタル伝送のためのオーディオ信号の圧縮及び解凍のためのシステムを開示している。この文献は、音声があるかどうか調べるべく別のチャネル中を探すための最小スケールファクタ値（ｍｉｎｉｍｕｍｓｃａｌｅｆａｃｔｏｒｖａｌｕｅ）の計算を１５９ページにおいて、開示している。
【０００３】
【課題を解決するための手段】
本発明の目的は、圧縮オーディオ信号における有利な信号電力推定を提供することにある。このため、本発明は、独立項において規定されているような、信号電力を推定する方法及び装置と、無音検出器と、受信機とを提供する。有利な実施例は、従属項において規定されている。
【０００４】
本発明の第１の特徴によれば、信号電力は、所与のブロックがスケールファクタのセットを具備する量子化サンプルのブロックを有する圧縮オーディオ信号において推定される。前記スケールファクタのセットは、前記圧縮オーディオ信号から導出され、前記信号電力は、前記スケールファクタの組合せに基づいて前記所与のブロックにおいて推定される。前記所与のブロックは、一つ以上のオーディオフレーム又はオーディオフレームの一部であっても良い。スケールファクタは、前記圧縮オーディオ信号から容易に導出され得る。本発明は、スケールファクタは該スケールファクタが関連するサンプルのあり得る最大値（ｍａｘｉｍｕｍｐｏｓｓｉｂｌｅｖａｌｕｅ）を表わすという洞察に基づく。それ故、前記スケールファクタの組合せ、例えば２乗されたスケールファクタの和は、限られた計算負荷（ｃｏｍｐｕｔａｔｉｏｎａｌｌｏａｄ）しか必要とせずに前記信号電力の大雑把な推定（ｒｏｕｇｈｅｓｔｉｍａｔｉｏｎ）を与える。前記大雑把な推定は、例えばコマーシャル検出器における無音検出などの幾つかのアプリケーションには全く十分である。
【０００５】
好ましい実施例においては、スケールファクタのサブセットしか用いられない。スケールファクタの全セットのうちサブセットしか用いないことにより、計算負荷は更に低減される。これはより低い精度をもたらし得るが、これはコマーシャル検出器などにおける無音検出のような幾つかのアプリケーションにとっては許容可能である。
【０００６】
スケールファクタのサブセットの形成は、時間方向及び／又は周波数方向においてスケールファクタを省略することによって行なわれ得る。例えば、前記サブセットは、圧縮オーディオ信号において利用可能な複数の狭帯域副信号のサブセットしか含まなくても良く、好ましくは前記サブセットは多数の低周波副信号のスケールファクタを含む。
【０００７】
前記圧縮オーディオ信号がステレオ又はマルチチャネル信号である場合には、利用可能なチャネルのサブセットのみが用いられ得る。
【０００８】
添付図面を参照して本発明のこれら及び他の特徴を説明し、明らかにする。
【０００９】
図面は、本発明の実施例を理解するための助けとなる要素しか示していない。
【００１０】
【発明の実施の形態】
図１は、圧縮オーディオ信号［Ａ］を受け取るための本発明の実施例による受信機１を示している。受信機１は、圧縮オーディオ信号［Ａ］を得るための入力部１０を有する。入力部１０は、アンテナ、ネットワーク接続部、読出装置などであり得る。更に、受信機１は、圧縮オーディオ信号中の無音を検出する無音検出器１１、及び無音の検出に依存してオーディオ信号に作用する作用ブロック（ｉｎｆｌｕｅｎｃｉｎｇｂｌｏｃｋ）１２を有する。ブロック１２は、例えば、圧縮オーディオ信号を復号する復号器であっても良く、この復号器においては、復号が検出される無音に依存する。ブロック１２はまた、圧縮オーディオの検出される無音に依存する部分をスキップするスキップブロックであっても良い。無音検出器１１は、コマーシャル検出器を形成するために強化され得る。検出されるコマーシャルは、復号中にスキップされ得る。復号された又は依然として圧縮されている作用されたオーディオ信号Ａは、出力部１３に出力され得る。出力部１３は、ネットワーク接続部、再生装置又は記録装置であり得る。圧縮オーディオ信号［Ａ］はプログラムストリーム中に含まれていても良く、このプログラムストリームは更にビデオ信号を含む。この場合には、プログラム信号は、圧縮オーディオ信号中の検出される無音に少なくとも部分的に依存するブロック１２において作用され得る。有利なアプリケーションは、コマーシャルではないコンテンツしか記憶しない記憶装置である。
【００１１】
本発明の実施例は、例えばコマーシャル検出用の無音検出との関連において記載されている。欧州特許出願公開第ＥＰ１００６６８５Ａ２号が、テレビ信号を処理し、テレビ信号中のコマーシャルの存在を検出するための方法及び装置を開示していることに注意されたい。コマーシャル候補区間検出器は、静音区間及びシーンチェンジポイントに基づいてコマーシャル候補区間を検出する。コマーシャル特徴量検出器は、コマーシャル候補区間がコマーシャルの様々な特徴を持っているか否かを判定し、この判定結果に基づいてコマーシャル特徴値に所定の値を付加する。コマーシャル特徴量検出器は、最終的なコマーシャル特徴値を所定の閾値と比較し、比較結果に基づいてコマーシャル候補区間がコマーシャル区間であるか否かを判定する。静音区間検出器は、静音区間を検出するためにデジタル化オーディオ信号のレベルを閾値と比較し、比較結果をシーンチェンジ検出器に出力する。更に、欧州特許出願公開第ＥＰ１０８７５５７Ａ２号に対する参照がなされる。
【００１２】
本発明の実施例によるコマーシャル検出器は、オーディオビジュアルストリーム中のコマーシャルブロックを自動的に検出する。これは、キーフレーム抽出（ｋｅｙ−ｆｒａｍｅｅｘｔｒａｃｔｉｏｎ）、編集又は再生などの如何なる種類の処理の間にもコマーシャルをスキップすることを可能にする。幾つかのオーディオフィーチャについては、局所統計値が、スライドウィンドウ（ｓｌｉｄｉｎｇｗｉｎｄｏｗ）において測定され、コマーシャルの統計モデルと比較される。この比較によって、オーディオ信号がどのように局所的にコマーシャルと類似しているのかを表わす正規化尤度関数（ｎｏｒｍａｌｉｚｅｄｌｉｋｅｌｉｈｏｏｄｆｕｎｃｔｉｏｎ）が導出される。尤度関数は、コマーシャル検出のために適切にトリガされ得る。統計ウインドウは、局所分析において細部に渡り、且つ検出に影響を及ぼさない局所的な不規則性及び変動（ｆｌｕｃｔｕａｔｉｏｎ）に対して強い（ｒｏｂｕｓｔ）ように選ばれる。アルゴリズムは、単一のストリームに沿って変化し得る、又は或るストリームと別のストリームとの間で変化し得る幾つかの条件に適応可能である。このアルゴリズムはビデオに依存しない。それにもかかわらず、ビデオ分析が、分類を強化又は拡張するために含まれ得る。このアルゴリズムは、幾つかの種類の記憶システムに適用され得る。
【００１３】
多くのオーディオ符号器（例えばＭＰＥＧ−１レイヤ１／２／３、ＭＰＥＧ−２レイヤ１／２／３、ＭＰＥＧ−２ＡＡＣ、ＭＰＥＧ−４ＡＡＣ、ＡＣ−３）は周波数領域符号器である。これらは、ソーススペクトルを多数の狭帯域副信号に分割し、別々に各周波数成分又は各サンプルを量子化する。周波数成分又はサンプルは、スケールファクタ及びビット割当（ｂｉｔａｌｌｏｃａｔｉｏｎ）に基づいて量子化される。これらのスケールファクタは、周波数成分又はサンプルの最大値のインジケータとみなされ得る。
【００１４】
ＡＣ−３においては、周波数成分が仮数．２^（− ^べき指数 ^）によって表される。ここで、べき指数は、２^（− ^べき指数 ^）と等しい各仮数に対するスケールファクタとして作用する。
【００１５】
ＭＰＥＧ−１レイヤ２において、狭帯域副信号は１２量子化サンプルのグループに分割され、ここで、各グループは対応スケールファクタを持つ。このスケールファクタは、該スケールファクタが関連するサンプルの最大値に対応する。
【００１６】
検出アルゴリズムは、好ましくはスケールファクタのサブセットを用いる。狭帯域副信号の全て又はサブセットにおいて、信号電力の上限は、スケールファクタを二乗することにより算出される。
【００１７】
ＭＰＥＧオーディオ圧縮を用いる実施例を以下により詳細に記載する。ＭＰＥＧ−１レイヤ２においては、オーディオ信号が、各々４８ｋＨｚ、４４．１ｋＨｚ又は３２ｋＨｚのサンプリングレートに対して２４ｍｓｅｃ、２６．１ｍｓｅｃ又は３６ｍｓｅｃの時間間隔に分割される。これらの時間間隔の各々において、信号がフレームにおいて符号化される。図２を参照すると、各フレーム間隔が３つの部分（Ｐａｒｔ）に分割され、信号が３２個のサブバンド（Ｓｕｂｂａｎｄ）成分に分解されている。各サブバンド成分且つフレームの各３分の１（図２における１つの長方形）に対して、１２サンプルが、スケールファクタ及び適切に選ばれる多数のビットに基づいて量子化される。スケールファクタは、１２サンプルの絶対値の上限推定を与える。この推定はあまり正確ではないかもしれないが、これはコマーシャル検出には必要とされない。スケールファクタは、フレームにおいて疑似対数の指数（ｐｓｅｕｄｏｌｏｇａｒｉｔｈｍｉｃｉｎｄｅｘ）として直接的に入手可能であるので、スケールファクタは、ごくわずかな計算負荷で各オーディオフレームから導出され得る。幾つかの限られたフレームヘッダの復号しか必要とされない。解凍は必要ない。
【００１８】
ステレオモードにおいて、各チャネルは、フレーム毎に各チャネル固有の９６個のスケールファクタ（ＳｃａｌｅＦ）を持つ。検出アルゴリズムは、左又は右のチャネルの各サブバンド（Ｓｕｂｂ）において最大スケールファクタのみを選択し（図３参照）、３２個の値が、バッファされ、（対数フォーマットではない）線形フォーマットに変換される。例えば、４８ｋＨｚのオーディオサンプリングレートに対しては、規格に基づいてサブバンド０… ２６しか用いられず、これは、２４ｍｓｅｃ毎に２７サンプル、即ち、コマーシャル検出器にとって非常に適度の入力データレートの１１２５サンプル／秒を与える。サブバンド信号電力における上限を得るために、バッファされたスケールファクタの二乗が算出される。次いで、これらは、
（１）これら二乗の和が総短時間電力（ｔｏｔａｌｓｈｏｒｔｔｉｍｅｐｏｗｅｒ）における上限を与え、
（２）これら二乗が短時間帯域幅推定を算出するために用いられ得るというように用いられる。
【００１９】
下表は、ＭＰＥＧ−１レイヤ２におけるスケールファクタ（ｓｃａｌｅｆａｃｔｏｒ）に対する疑似対数の指数（ｉｎｄｅｘ）のほんの一部を示している（ＩＳＯ／ＩＥＣ１１１７２−３：１９９３の表Ｂ．１を参照）。
【００２０】
【表１】

オーディオフレーム（ａｕｄｉｏｆｒａｍｅ）ｊのための短時間電力（ｓｈｏｒｔｔｉｍｅｐｏｗｅｒ）の推定が以下に示されている。
【数１】

他の例においては、スケールファクタを見出すためにルックアップテーブルを用いることが可能である。前記和は、所与の時点におけるサブバンドの数にわたって行なわれるべきである。サブバンドのサブセットが用いられる場合、この和は、アプリケーションに依存して用いられるサブバンドの数又はサブバンドの総数にわたって行なわれなければならない。
【００２１】
無音検出は、
１）例えば上記のようなＦｒａｍｅ＿ｐｏｗｅｒを用いることによる局所信号電力レベル、
２）無音持続期間、並びに
３）無音の間の局所電力線形偏差、
４）無音開始前の局所電力低下率（ｌｏｃａｌｐｏｗｅｒｆａｌｌｒａｔｅ）、及び
５）無音終了時の局所電力上昇率というパラメータのうちの少なくとも１つにおけるネストされたしきい値（ｎｅｓｔｅｄｔｈｒｅｓｈｏｌｄ）に基づく。
【００２２】
信号電力の特徴は、無音検出器が動作する環境に非常に依存することから、好ましくは検出器は適応可能である。それ故、適応可能であるために、局所電力レベル関連のパラメータ（即ち、１）、３）及び／又は４））が、遅れずにこれらパラメータの平均値と比較される。局所信号電力に対する典型的なしきい値は０．０１であり、即ち、局所信号電力は信号電力の時間平均の１パーセント未満でなければならない。時間平均は、長さｗのフレームを備える適応ウインドウ（ａｄａｐｔａｔｉｏｎｗｉｎｄｏｗ）を用いることにより算出される。実際的な解法は以下の通りである。
【数２】

ここで、ｊはフレームインデックス（ｆｌａｍｅｉｎｄｅｘ）である。
【００２３】
無音持続期間は、局所信号電力レベルが所与の固定の又は適応可能なしきい電力レベル未満である持続期間である。線形偏差は、少なくとも無音持続期間の部分にわたっての（平均フレーム電力を引いたフレーム電力）の和である。線形偏差及び低下／上昇率は、知覚し得るがコマーシャル検出に関連しない無音の部分にフィルタをかけるために用いられる。局所信号電力レベルは、好ましくは、例えばオーディオフレーム毎又はオーディオフレームの部分毎に、上記のようにスケールファクタを用いることによって決定される。
【００２４】
コマーシャルブロックにおけるコマーシャルの間の切れ目（ｂｒｅａｋ）の無音持続期間の実際的な範囲は、３／２５秒乃至２０／２５秒である。
【００２５】
無音開始時間、無音持続期間及び無音の局所電力レベルの値は、下記の統計計算のためにバッファされる。コマーシャルは、
１）２つの連続的な検出される無音の間の時間間隔、
２）（絶対的な及び／又は相対的な）前記検出される無音の局所信号電力レベル、
３）無音持続期間、及び
４）オーディオ信号の局所帯域幅といったフィーチャの局所統計モデルで特徴付けられる。
【００２６】
オーディオフレームｊの局所帯域幅（ｌｏｃａｌｂａｎｄｗｉｄｔｈ）は、以下のようにスケールファクタから算出され得る。
【数３】

各フィーチャに対して、０と１との間の値で、０．５で正規化された尤度関数（０．５−ｎｏｒｍａｌｉｚｅｄｌｉｋｅｌｉｈｏｏｄｆｕｎｃｔｉｏｎ）が得られる。これは、このフィーチャの局所統計がどの程度コマーシャルの局所統計と類似しているかを表す。次いで、一度に全情報を利用するやはり０．５で正規化された大域尤度関数（ｇｌｏｂａｌｌｉｋｅｌｉｈｏｏｄｆｕｎｃｔｉｏｎ）を得るために、種々の尤度関数が種々の重みと組み合わされる。大域尤度関数は、無音開始時点としてバッファされた時間軸の各ポイントにおいて算出される。値０．５は、基本的に「全くの不確実性（ｔｏｔａｌｕｎｃｅｒｔａｉｎｔｙ）」又は「コマーシャルブロック内である確率０．５」を意味する。尤度関数は種々の方法で用いられ得る。尤度関数は、コマーシャルの境界を検出するために適切にトリガされ得る。尤度関数は、任意にビデオフィーチャも利用して更なる分析及び分類を行なうアルゴリズムによって、（コマーシャルとコマーシャルではないもの（ｎｏｎ−ｃｏｍｍｅｒｃｉａｌｓ）との間の正規化されたソフトな分類（ｎｏｒｍａｌｉｚｅｄｓｏｆｔｃｌａｓｓｉｆｉｃａｔｉｏｎ）として）用いられ得る。（単輝度（ｍｏｎｏ−ｌｕｍｉｎａｎｃｅ）、単色フレーム検出（ｍｏｎｏ−ｃｈｒｏｍｉｎａｎｃｅｆｒａｍｅｄｅｔｅｃｔｉｏｎ）、シーンチェンジ検出のような）種々のレベルのビデオフィーチャは、同じ尤度法又は他の方法を適用してオーディオフィーチャと共に統計的に分析され得る。補充（ｒｅｆｉｌｌｉｎｇ）を備えてトリガされるコマーシャル検出が、上記のオーディオ分析に基づいて開発され、試験された。０．５正規化尤度関数Ｌ（ｔ）は、検出される無音がコマーシャルブロックに属するか否か決定するために用いられ得る。これは以下のように規定される関数Ｑ（Ｌ（ｔ））によってなされ得る。
Ｌ（ｔ）＞０．５の場合Ｑ（Ｌ（ｔ））＝１
Ｌ（ｔ） ≦ ０．５の場合Ｑ（Ｌ（ｔ））＝０
ここで、０の値及び１の値は、各々、検出される無音がコマーシャルではないブロックに属すること及び検出される無音がコマーシャルブロックに属することを意味する。
【００２７】
実際的な実施例において、コマーシャルのシーケンスは、該シーケンスが少なくとも６０秒続く場合にしか検出されない。４５秒未満の短い間隔に対してしか尤度関数が０．５未満にならない場合には、Ｑ（ｔ）は１に設定される。このプロシージャは、「内部補充（ｉｎｔｅｒｎａｌｒｅｆｉｌｌｉｎｇ）」と呼ばれている。内部補充は、散発的な内部の検出の欠落（ｓｐｏｒａｄｉｃｉｎｔｅｒｎａｌｍｉｓｓｉｎｇｄｅｔｅｃｔｉｏｎｓ）を解消する。「外部補充（ｅｘｔｅｒｎａｌｒｅｆｉｌｌｉｎｇ）」は、コマーシャルの始め及び終わりにおいて、適用される。例えば、
ｔ_ｉ、ｔ_ｉ＋１、…、ｔ_ｉ＋Ｎ、…が、検出される無音が始まる時点のシーケンスであり、Ｌ（ｔ_ｉ）＝０．２
Ｌ（ｔ_ｉ＋１）＝０．４
Ｌ（ｔ_ｉ＋２）＝０．６
各ｊ＝ｉ＋３、…、ｉ＋Ｎに対してＬ（ｔ_ｊ）＞０．５
ｊ＞ｉ＋Ｎに対してＬ（ｔ_ｊ）＜０．５であり、且つ
ｔ_ｉ＋２ − ｔ_ｉ＋１＜４５．０秒
ｔ_{ｉ＋Ｎ＋１} − ｔ_ｉ＋Ｎ＜４５．０秒である場合には、
Ｑ（Ｌ（ｔ_ｉ））＝０
Ｑ（Ｌ（ｔ_ｉ＋１））＝１
Ｑ（Ｌ（ｔ_ｉ＋２））＝１
…
Ｑ（Ｌ（ｔ_{ｉ＋Ｎ＋１}））＝１
ｊ＞ｉ＋Ｎ＋１に対してＱ（Ｌ（ｔ_ｊ））＝０となる。
外部補充は、最初の地点及び最後の箇所の分類ミス（ｓｙｓｔｅｍａｔｉｃｍｉｓｓ）の回避に有効である。この事実は、ウィンドウ処理の細部（ｗｉｎｄｏｗｉｎｇｄｅｔａｉｌｓ）と関連付けられる。外部補充及び内部補充は上方駆動（ｕｐｐｅｒｄｒｉｖｅｎ）の特別な非線形フィルタリングとみなされ得る。コマーシャルブロックの汎用統計モデルが用いられ得る。異なる日時及び／又は異なる種類の番組（メロドラマ、トークショー、フットボールの試合など）及び／又は異なるチャネルに対して異なるコマーシャルブロックモデルを用いて統計の細部を精緻化することは可能である。これは、十分なパフォーマンスを得るためには必要ではないが、当然、パフォーマンスを改善し得る。これは、対象システム（ｔａｒｇｅｔｓｙｓｔｅｍ）の複雑さと該対象システムのパフォーマンスとの間のトレードオフの問題である。単一のチャネルについて遅れずに条件を変更するような検出の適応性（ａｄａｐｔａｂｉｌｉｔｙ）は好ましい。更に、チャネル切替えに対する適応性は好ましい。とりわけ、局所最小雑音レベルは、単一のチャネルについて遅れずに変化するかもしれず、或るチャネルから別のチャネルへは大いに変化し得る。これは、無音検出にとって極めて重要である。更に、コマーシャルブロックの統計モデルにおける適応性は、極めて重要というわけではないが、有用である。システムは、局所最小雑音レベルにおいて十分にセルフトレーニング（ｓｅｌｆ−ｔｒａｉｎｉｎｇ）する（適応可能である）ように実施され得る。唯一の制約は、チャネルが切り替えられるたびごとのアルゴリズムのリセットの適用である。これは、適応性と精度との間のトレードオフの問題のために、適応性が、最初の期間において速く、続いてゆっくりになるからである。コマーシャルブロック内の相対的に速い適応は精度を低下させるであろうことから、アルゴリズムがいつでも速く適応できるようにされる場合には、検出の精度は低下するであろう。実際的な実施例においては、切替え適応性（ｓｗｉｔｃｈ−ａｄａｐｔａｂｉｌｉｔｙ）（即ち、あらゆる連続的な切替えに対するリセット）は、最初の数分しか適用されない一方で、単一チャネルに沿った適応性（ａｌｏｎｇ−ａ−ｓｉｎｇｌｅ−ｃｈａｎｎｅｌａｄａｐｔａｂｉｌｉｔｙ）は常に保持する。適応性の安定性は、非対称方式によって確実にされる。最小雑音レベルが減少している場合の適応性は、最小雑音レベルが増大している場合の適応性より速い。これは、例えば、前に検出された無音より低い局所電力エネルギを備える無音が検出される場合に無音検出のための局所電力エネルギしきい値が相対的に急速に減少することを意味する。起こり得る２種類のエラー、即ち、コマーシャル検出欠落又は誤ったコマーシャル検出（ｆａｌｓｅｃｏｍｍｅｒｃｉａｌｄｅｔｅｃｔｉｏｎ）のいずれかがある。両方とも、相対的に少なく、且つコマーシャルブロックの開始部分又は終了部分に限定される。いずれにせよアルゴリズムはフレキシブルであり、決定パラメータは、どちらがより適切であるかに依存してこれら２つのエラーの割合の間のトレードオフを変えることが出来る。例えば、コマーシャルブロック検出が自動キーフレーム抽出のための前処理である場合には、検出欠落率が低いことがより重要である。単純な再生の場合には誤った検出が少ないことがより適切である。（他のフィーチャが付加され得るが）選ばれたフィーチャに関して、サブバンド分析なしに局所電力エネルギ及び局所帯域幅を別々に評価することは可能である。２分（他の値が選ばれても良い）の対称スライドウィンドウにおいて低いサンプリングレートを備える帯域幅の値が必要とされる。それ故、この値は、例えば、少数のポイント（ｐｏｉｎｔ）を持つ連続する短い区間（ｉｎｔｅｒｖａｌ）の高速フーリエ変換（ＦＦＴ’ｓ）の平均によって推定され得る。項（ｔｅｒｍ）ごとに又は一括して、様々な種類の正規化及び１つ又は幾つかの尤度関数の組合せを実施することは可能である。実際的な実施は、くりこみ（ｒｅｎｏｒｍａｌｉｚａｔｉｏｎ）との一括又は項ごとの積の組合せ（ｐｒｏｄｕｃｔｃｏｍｂｉｎａｔｉｏｎ）に基づく。この積は、基本的にブールのセット（Ｂｏｏｌｅａｎｓｅｔ）｛０、１｝から連続的な区間［０、１］まで拡張されたブールのＡＮＤ（ＢｏｏｌｅａｎＡＮＤ）である。これは、良好な選択性を確実にする。大雑把に言って、種々の条件が同時に全てをソフトに（ｓｏｆｔｌｙ）課される。これらの条件は、全てを完全に満たされる必要はないが、全てをほとんど満たされる必要がある。その代わり加算の組合せは、十分な選択性を確実なものとしないブールのＯＲの拡張の一種となろう。更なる選択性及び強さ（ｒｏｂｕｓｔｎｅｓｓ）は、持続期間しきい値を備える尤度についてのハードな決定によって確実にされる。尤度−雑音公差は、同様に内部補充によって確実にされる。
【００２８】
以下の例においては、３６分の録画が考えられている。この録画は、映画の最後の部分から始まる。［６４６、８６６］秒はコマーシャルを含む。８６６秒において、テレビ番組が始まる。他のコマーシャルは、［１４０９、１７３５］秒の区間中にある。図４は、各検出された無音の間の算出された局所信号電力（ｓｉｌ−ｐｏｗｅｒ（ｔ））を円でプロットしている。ばつ印は、これらの値の後退平均（ｂａｃｋｗａｒｄａｖｅｒａｇｅ）（ａｖｅｒａｇｅ［ｓｉｌ−ｐｏｗｅｒ］（ｔ））を表す。（区間［６４６、８６６］及び区間［１４０９、１７３５］における）コマーシャルの無音が、主により低い電力を備えるカット無音（ｃｕｔｓｉｌｅｎｃｅｓ）であることは明らかである。大雑把に、コマーシャル内の無音の異なる分布に気付かされ得る。例えば、これらの無音のほとんどは、１０秒乃至３０秒離れている。図示されている詳細のような統計の詳細が、尤度関数推定において用いられる。図５は、得られた尤度関数をプロットしている。満たされたトリガ（ｆｉｌｌｅｄｔｒｉｇｇｅｒｉｎｇ）は［６４８、８６６］及び［１４０８、１７３５］を検出する。
【００２９】
あり得る変形例
１）より大きな部分のスケールファクタをバッファすることは可能である。前記スケールファクタをサブサンプリングすることも可能である。現在の９６個の残されているチャネルスケールファクタ（９６ｌｅｆｔｓｃａｌｅｆａｃｔｏｒ）からの３２個の選択が有効であることが分かった。
２）異なるオーディオフィーチャのセットを選ぶことは可能である。当然、他のフィーチャを取り入れる前には入念な調査が必要とされる。
３）上記のように、様々な種類の正規化及び１つ又は幾つかの尤度関数の組合せを実施することは可能である。本実施例は、くりこみとの積の組合せに基づく。この積は、基本的にブールのセット｛０、１｝から連続的な区間［０、１］まで拡張されたブールのＡＮＤである。これは、良好な選択性を確実にする。セミ和（ｓｅｍｉ−ｓｕｍ）はブールのＯＲの拡張の一種であるが、前記セミ和は十分な選択性を確実なものとしない。
４）補充を備える大域尤度関数のトリガの選択は、例えば、異なるウィンドウ処理様式（ｗｉｎｄｏｗｉｎｇｍｏｄａｌｉｔｉｅｓ）及び／又は異なるオーディオフィーチャが用いられる場合に変更され得る。
５）多くのブロードキャスタ（ｂｒｏａｄｃａｓｔｅｒ）によってコマーシャルブロックの始め及び／又は終わりに規則正しく置かれるような特定のオーディオシーケンスの認識も、直接的にスケールファクタを処理することにより達成され得る。
【００３０】
送信機側では、カット無音がよりよく検出されるようにカット無音を適応させることによって、例えば、前記カット無音の信号電力を低下させることによって、無音持続期間を適応させることによって、信号電力低下率を増大させることによって、及び／又は前記無音の間の電力偏差を減少させることによって、尤度関数の助けとなることが可能である。これに反して、カット無音の信号電力を増大させることによって、例えば、前記無音の間、雑音を差し込むことによって、無音持続期間を適応させることによって、信号電力低下率を減少させることによって、及び／又は電力偏差を増大させることによって、カット無音の検出性（ｄｅｔｅｃｔａｂｉｌｉｔｙ）を低下させることも可能である。更に、信号中に偽のカット無音を差し込むことも可能である。実際的な実施例において、カット無音の電力と同様の低い電力及び３０秒の間隔を備える０．１５秒の偽のカット無音は、おそらくコマーシャルブロック検出を害するであろう。偽のカット無音は、好ましくは音声の無音（ｓｐｅｅｃｈｓｉｌｅｎｃｅｓ）などの既存の無音中に挿入される。この場合には、これらの偽の無音は、平均的なユーザによってほとんど気づかれ得ないであろう。
【００３１】
アルゴリズムは、オーディオビジュアル材料中のコマーシャルブロックを検出し、該コマーシャルブロックの境界に印をつける。次いで、コマーシャルブロックは、閲覧（ｂｒｏｗｓｉｎｇ）、自動予告編（ｔｒａｉｌｅｒ）作成、編集又は単なる再生のような如何なる種類の処理の間にもスキップされ得る。この機能は、非常に低い追加コストで幾つかの種類の記憶装置に組み込まれ得る。前記機能は、データの取得中の実時間において、又はオフラインにおいて、記憶された材料に適用され得る。
【００３２】
上記の実施例は、本発明を限定するものではなく、例示するものであること、及び当業者は、添付されている特許請求の範囲の範囲から外れることなしに、多くの他の実施例を設計することが出来るであろうことに注意されたい。特許請求の範囲において、括弧の間に配置されている如何なる参照符号も、特許請求の範囲を限定するものとして解釈されるべきではない。「有する」という用語は、請求項において列挙されている要素又はステップ以外の要素又はステップの存在を除外しない。本発明は、幾つかの別個の素子を有するハードウェアによって、及び適当にプログラムされたコンピュータにより実施され得る。幾つかの手段を列挙している装置の請求項において、これらの手段の幾つかは、ハードウェアの同一アイテムにより実施され得る。単に、或る方策が互いに異なる従属項において列挙されているという事実は、これらの方策の組合せが有利となるようには用いられ得ないことを示すものではない。
【図面の簡単な説明】
【図１】本発明の実施例による受信機を示す。
【図２】各サブバンドが、３つのブロックに細分されており、各ブロックが、１２量子化サンプルを含み、スケールファクタを具備している３２個のサブバンドを含む一例としてのオーディオフレームを示す。
【図３】各サブバンドに対して最大スケールファクタが選択されており、あり得る選択が灰色で強調されている図２の一例としてのオーディオフレームを示す。
【図４】円が検出された無音の局所信号電力を表し、ばつ印がこれらの局所信号電力の平均を表す一例としての図を示す。
【図５】図４に関する一例としての尤度関数を示す。

Claims

圧縮オーディオ信号において信号電力を推定する方法であって、前記オーディオ信号が量子化サンプルのブロックを有し、所与のブロックがスケールファクタのセットを具備し、当該方法が、
前記圧縮オーディオ信号から前記スケールファクタのセットを導出するステップ、及び
前記スケールファクタの組合せに基づいて、前記所与のブロックにおける信号電力を推定するステップを有する方法。
前記導出するステップ及び前記推定するステップが、前記スケールファクタのセットのサブセットにおいてしか行なわれないことを特徴とする請求項１に記載の方法。
前記オーディオ信号が複数の狭帯域副信号を有し、各狭帯域副信号は信号ブロックに細分され、各ブロックは量子化サンプルを含み、各ブロックは一つ以上のスケールファクタを具備し、前記導出するステップが前記副信号のうちの一つ以上において行なわれることを特徴とする請求項１又は２に記載の方法。
前記導出するステップが前記複数の副信号のサブセットにおいてしか行なわれないことを特徴とする請求項３に記載の方法。
前記サブセットが、主として、多数の低周波副信号のスケールファクタを含むことを特徴とする請求項４に記載の方法。
前記ブロックが少なくとも２つの副ブロックに細分され、各副ブックはスケールファクタを具備し、前記推定するステップにおいて用いるためにブロック毎に最大スケールファクタのみが導出されることを特徴とする請求項２、３、４又は５に記載の方法。
前記圧縮オーディオ信号がステレオ信号又はマルチチャネル信号であり、前記導出するステップが利用可能なチャネルのサブセットにおいてしか行なわれないことを特徴とする請求項１乃至６のいずれか一項に記載の方法。
圧縮オーディオ信号において信号電力を推定する装置であって、前記オーディオ信号が量子化サンプルのブロックを有し、所与のブロックがスケールファクタのセットを具備し、当該装置が、
前記圧縮オーディオ信号から前記スケールファクタのセットを導出する手段、及び
前記スケールファクタの組合せに基づいて、前記所与のブロックにおける信号電力を推定する手段を有する装置。
圧縮オーディオ信号の信号電力の推定を得るための請求項８に記載の装置、及び
前記オーディオ信号中の無音を検出するために前記信号電力の推定を評価する手段を有する無音検出器。
圧縮オーディオ信号を受け取る受信機であって、当該受信機は、
圧縮オーディオ信号を得るための入力部、
前記圧縮オーディオ信号における無音を検出するための請求項９に記載の無音検出器、及び
前記オーディオ信号に作用するための手段を有し、前記作用する手段において、前記作用は、少なくとも部分的に前記無音の検出に依存する受信機。