JP4365103B2

JP4365103B2 - 圧縮オーディオにおける信号電力の推定

Info

Publication number: JP4365103B2
Application number: JP2002590144A
Authority: JP
Inventors: アレッシオステラ; ジャンエイディネスヴァドバ; マウロバルビエリ; フリーディスナイデル
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-05-11
Filing date: 2002-05-08
Publication date: 2009-11-18
Anticipated expiration: 2022-05-08
Also published as: CN100380441C; US7356464B2; DE60233223D1; EP1393480B1; DE60217484D1; JP4560269B2; US20040125961A1; CN1462426A; CN1244900C; JP2004531766A; EP1393301A1; US7617095B2; WO2002093552A1; CN1462427A; KR20030027938A; EP1393480A2; WO2002093801A2; DE60217484T2; KR20030015385A; KR100916959B1

Description

【０００１】
【発明の属する技術分野】
本発明は、圧縮オーディオ信号における信号電力の推定に関する。更に、本発明は、無音検出及びこのような無音検出を用いる受信機に関する。
【０００２】
【従来の技術】
国際特許出願公開第WO96/3271A1号は、補助データが、復号され得るように、オーディオデータと共に多重化及び符号化され、並びに送信され得るデジタル伝送のためのオーディオ信号の圧縮及び解凍のためのシステムを開示している。この文献は、音声があるかどうか調べるべく別のチャネル中を探すための最小スケールファクタ値(minimum scale factor value)の計算を159ページにおいて、開示している。
【０００３】
【課題を解決するための手段】
本発明の目的は、圧縮オーディオ信号における有利な信号電力推定を提供することにある。このため、本発明は、独立項において規定されているような、信号電力を推定する方法及び装置と、無音検出器と、受信機とを提供する。有利な実施例は、従属項において規定されている。
【０００４】
本発明の第１の特徴によれば、信号電力は、所与のブロックがスケールファクタのセットを具備する量子化サンプルのブロックを有する圧縮オーディオ信号において推定される。前記スケールファクタのセットは、前記圧縮オーディオ信号から導出され、前記信号電力は、前記スケールファクタの組合せに基づいて前記所与のブロックにおいて推定される。前記所与のブロックは、一つ以上のオーディオフレーム又はオーディオフレームの一部であっても良い。スケールファクタは、前記圧縮オーディオ信号から容易に導出され得る。本発明は、スケールファクタは該スケールファクタが関連するサンプルのあり得る最大値(maximum possible value)を表わすという洞察に基づく。それ故、前記スケールファクタの組合せ、例えば2乗されたスケールファクタの和は、限られた計算負荷(computational load)しか必要とせずに前記信号電力の大雑把な推定(rough estimation)を与える。前記大雑把な推定は、例えばコマーシャル検出器における無音検出などの幾つかのアプリケーションには全く十分である。
【０００５】
好ましい実施例においては、スケールファクタのサブセットしか用いられない。スケールファクタの全セットのうちサブセットしか用いないことにより、計算負荷は更に低減される。これはより低い精度をもたらし得るが、これはコマーシャル検出器などにおける無音検出のような幾つかのアプリケーションにとっては許容可能である。
【０００６】
スケールファクタのサブセットの形成は、時間方向及び／又は周波数方向においてスケールファクタを省略することによって行なわれ得る。例えば、前記サブセットは、圧縮オーディオ信号において利用可能な複数の狭帯域副信号のサブセットしか含まなくても良く、好ましくは前記サブセットは多数の低周波副信号のスケールファクタを含む。
【０００７】
前記圧縮オーディオ信号がステレオ又はマルチチャネル信号である場合には、利用可能なチャネルのサブセットのみが用いられ得る。
【０００８】
添付図面を参照して本発明のこれら及び他の特徴を説明し、明らかにする。
【０００９】
図面は、本発明の実施例を理解するための助けとなる要素しか示していない。
【００１０】
【発明の実施の形態】
図1は、圧縮オーディオ信号[A]を受け取るための本発明の実施例による受信機1を示している。受信機1は、圧縮オーディオ信号[A]を得るための入力部10を有する。入力部10は、アンテナ、ネットワーク接続部、読出装置などであり得る。更に、受信機1は、圧縮オーディオ信号中の無音を検出する無音検出器11、及び無音の検出に依存してオーディオ信号に作用する作用ブロック(influencing block)12を有する。ブロック12は、例えば、圧縮オーディオ信号を復号する復号器であっても良く、この復号器においては、復号が検出される無音に依存する。ブロック12はまた、圧縮オーディオの検出される無音に依存する部分をスキップするスキップブロックであっても良い。無音検出器11は、コマーシャル検出器を形成するために強化され得る。検出されるコマーシャルは、復号中にスキップされ得る。復号された又は依然として圧縮されている作用されたオーディオ信号Aは、出力部13に出力され得る。出力部13は、ネットワーク接続部、再生装置又は記録装置であり得る。圧縮オーディオ信号[A]はプログラムストリーム中に含まれていても良く、このプログラムストリームは更にビデオ信号を含む。この場合には、プログラム信号は、圧縮オーディオ信号中の検出される無音に少なくとも部分的に依存するブロック12において作用され得る。有利なアプリケーションは、コマーシャルではないコンテンツしか記憶しない記憶装置である。
【００１１】
本発明の実施例は、例えばコマーシャル検出用の無音検出との関連において記載されている。欧州特許出願公開第EP1006685A2号が、テレビ信号を処理し、テレビ信号中のコマーシャルの存在を検出するための方法及び装置を開示していることに注意されたい。コマーシャル候補区間検出器は、静音区間及びシーンチェンジポイントに基づいてコマーシャル候補区間を検出する。コマーシャル特徴量検出器は、コマーシャル候補区間がコマーシャルの様々な特徴を持っているか否かを判定し、この判定結果に基づいてコマーシャル特徴値に所定の値を付加する。コマーシャル特徴量検出器は、最終的なコマーシャル特徴値を所定の閾値と比較し、比較結果に基づいてコマーシャル候補区間がコマーシャル区間であるか否かを判定する。静音区間検出器は、静音区間を検出するためにデジタル化オーディオ信号のレベルを閾値と比較し、比較結果をシーンチェンジ検出器に出力する。更に、欧州特許出願公開第EP1087557A2号に対する参照がなされる。
【００１２】
本発明の実施例によるコマーシャル検出器は、オーディオビジュアルストリーム中のコマーシャルブロックを自動的に検出する。これは、キーフレーム抽出(key-frame extraction)、編集又は再生などの如何なる種類の処理の間にもコマーシャルをスキップすることを可能にする。幾つかのオーディオフィーチャについては、局所統計値が、スライドウィンドウ(sliding window)において測定され、コマーシャルの統計モデルと比較される。この比較によって、オーディオ信号がどのように局所的にコマーシャルと類似しているのかを表わす正規化尤度関数(normalized likelihood function)が導出される。尤度関数は、コマーシャル検出のために適切にトリガされ得る。統計ウインドウは、局所分析において細部に渡り、且つ検出に影響を及ぼさない局所的な不規則性及び変動(fluctuation)に対して強い(robust)ように選ばれる。アルゴリズムは、単一のストリームに沿って変化し得る、又は或るストリームと別のストリームとの間で変化し得る幾つかの条件に適応可能である。このアルゴリズムはビデオに依存しない。それにもかかわらず、ビデオ分析が、分類を強化又は拡張するために含まれ得る。このアルゴリズムは、幾つかの種類の記憶システムに適用され得る。
【００１３】
多くのオーディオ符号器（例えばMPEG-1レイヤ1/2/3、MPEG-2レイヤ1/2/3、MPEG-2 AAC、MPEG-4 AAC、AC-3）は周波数領域符号器である。これらは、ソーススペクトルを多数の狭帯域副信号に分割し、別々に各周波数成分又は各サンプルを量子化する。周波数成分又はサンプルは、スケールファクタ及びビット割当(bit allocation)に基づいて量子化される。これらのスケールファクタは、周波数成分又はサンプルの最大値のインジケータとみなされ得る。
【００１４】
AC-3においては、周波数成分が仮数.2^(- ^べき指数 ⁾によって表される。ここで、べき指数は、2^(- ^べき指数 ⁾と等しい各仮数に対するスケールファクタとして作用する。
【００１５】
MPEG-1レイヤ2において、狭帯域副信号は12量子化サンプルのグループに分割され、ここで、各グループは対応スケールファクタを持つ。このスケールファクタは、該スケールファクタが関連するサンプルの最大値に対応する。
【００１６】
検出アルゴリズムは、好ましくはスケールファクタのサブセットを用いる。狭帯域副信号の全て又はサブセットにおいて、信号電力の上限は、スケールファクタを二乗することにより算出される。
【００１７】
MPEGオーディオ圧縮を用いる実施例を以下により詳細に記載する。MPEG-1レイヤ2においては、オーディオ信号が、各々48kHz、44.1kHz又は32kHzのサンプリングレートに対して24msec、26.1msec又は36msecの時間間隔に分割される。これらの時間間隔の各々において、信号がフレームにおいて符号化される。図2を参照すると、各フレーム間隔が3つの部分（Part）に分割され、信号が32個のサブバンド(Subband)成分に分解されている。各サブバンド成分且つフレームの各3分の1（図2における1つの長方形）に対して、12サンプルが、スケールファクタ及び適切に選ばれる多数のビットに基づいて量子化される。スケールファクタは、12サンプルの絶対値の上限推定を与える。この推定はあまり正確ではないかもしれないが、これはコマーシャル検出には必要とされない。スケールファクタは、フレームにおいて疑似対数の指数(pseudo logarithmic index)として直接的に入手可能であるので、スケールファクタは、ごくわずかな計算負荷で各オーディオフレームから導出され得る。幾つかの限られたフレームヘッダの復号しか必要とされない。解凍は必要ない。
【００１８】
ステレオモードにおいて、各チャネルは、フレーム毎に各チャネル固有の96個のスケールファクタ（ScaleF）を持つ。検出アルゴリズムは、左又は右のチャネルの各サブバンド（Subb）において最大スケールファクタのみを選択し(図3参照)、32個の値が、バッファされ、（対数フォーマットではない）線形フォーマットに変換される。例えば、48kHzのオーディオサンプリングレートに対しては、規格に基づいてサブバンド0… 26しか用いられず、これは、24msec毎に27サンプル、即ち、コマーシャル検出器にとって非常に適度の入力データレートの1125サンプル/秒を与える。サブバンド信号電力における上限を得るために、バッファされたスケールファクタの二乗が算出される。次いで、これらは、
(1) これら二乗の和が総短時間電力(total short time power)における上限を与え、
(2) これら二乗が短時間帯域幅推定を算出するために用いられ得るというように用いられる。
【００１９】
下表は、MPEG-1レイヤ2におけるスケールファクタ(scalefactor)に対する疑似対数の指数(index)のほんの一部を示している（ISO/IEC 11172-3：1993の表B.1を参照）。
【００２０】
【表１】

オーディオフレーム(audio frame)jのための短時間電力(short time power)の推定が以下に示されている。
【数１】

他の例においては、スケールファクタを見出すためにルックアップテーブルを用いることが可能である。前記和は、所与の時点におけるサブバンドの数にわたって行なわれるべきである。サブバンドのサブセットが用いられる場合、この和は、アプリケーションに依存して用いられるサブバンドの数又はサブバンドの総数にわたって行なわれなければならない。
【００２１】
無音検出は、
1) 例えば上記のようなFrame_powerを用いることによる局所信号電力レベル、
2) 無音持続期間、並びに
3) 無音の間の局所電力線形偏差、
4）無音開始前の局所電力低下率(local power fall rate)、及び
5）無音終了時の局所電力上昇率というパラメータのうちの少なくとも1つにおけるネストされたしきい値(nested threshold)に基づく。
【００２２】
信号電力の特徴は、無音検出器が動作する環境に非常に依存することから、好ましくは検出器は適応可能である。それ故、適応可能であるために、局所電力レベル関連のパラメータ（即ち、1）、3）及び／又は4））が、遅れずにこれらパラメータの平均値と比較される。局所信号電力に対する典型的なしきい値は0.01であり、即ち、局所信号電力は信号電力の時間平均の1パーセント未満でなければならない。時間平均は、長さwのフレームを備える適応ウインドウ(adaptation window)を用いることにより算出される。実際的な解法は以下の通りである。
【数２】

ここで、jはフレームインデックス(flame index)である。
【００２３】
無音持続期間は、局所信号電力レベルが所与の固定の又は適応可能なしきい電力レベル未満である持続期間である。線形偏差は、少なくとも無音持続期間の部分にわたっての(平均フレーム電力を引いたフレーム電力)の和である。線形偏差及び低下／上昇率は、知覚し得るがコマーシャル検出に関連しない無音の部分にフィルタをかけるために用いられる。局所信号電力レベルは、好ましくは、例えばオーディオフレーム毎又はオーディオフレームの部分毎に、上記のようにスケールファクタを用いることによって決定される。
【００２４】
コマーシャルブロックにおけるコマーシャルの間の切れ目(break)の無音持続期間の実際的な範囲は、3/25秒乃至20/25秒である。
【００２５】
無音開始時間、無音持続期間及び無音の局所電力レベルの値は、下記の統計計算のためにバッファされる。コマーシャルは、
1) 2つの連続的な検出される無音の間の時間間隔、
2) （絶対的な及び／又は相対的な）前記検出される無音の局所信号電力レベル、
3) 無音持続期間、及び
4）オーディオ信号の局所帯域幅といったフィーチャの局所統計モデルで特徴付けられる。
【００２６】
オーディオフレームjの局所帯域幅(local bandwidth)は、以下のようにスケールファクタから算出され得る。
【数３】

各フィーチャに対して、0と1との間の値で、0.5で正規化された尤度関数(0.5-normalized likelihood function)が得られる。これは、このフィーチャの局所統計がどの程度コマーシャルの局所統計と類似しているかを表す。次いで、一度に全情報を利用するやはり0.5で正規化された大域尤度関数(global likelihood function)を得るために、種々の尤度関数が種々の重みと組み合わされる。大域尤度関数は、無音開始時点としてバッファされた時間軸の各ポイントにおいて算出される。値0.5は、基本的に「全くの不確実性(total uncertainty)」又は「コマーシャルブロック内である確率0.5」を意味する。尤度関数は種々の方法で用いられ得る。尤度関数は、コマーシャルの境界を検出するために適切にトリガされ得る。尤度関数は、任意にビデオフィーチャも利用して更なる分析及び分類を行なうアルゴリズムによって、（コマーシャルとコマーシャルではないもの(non-commercials)との間の正規化されたソフトな分類(normalized soft classification)として）用いられ得る。（単輝度(mono-luminance)、単色フレーム検出(mono-chrominance frame detection)、シーンチェンジ検出のような）種々のレベルのビデオフィーチャは、同じ尤度法又は他の方法を適用してオーディオフィーチャと共に統計的に分析され得る。補充(refilling)を備えてトリガされるコマーシャル検出が、上記のオーディオ分析に基づいて開発され、試験された。0.5正規化尤度関数L(t)は、検出される無音がコマーシャルブロックに属するか否か決定するために用いられ得る。これは以下のように規定される関数Q(L(t))によってなされ得る。
L(t) > 0.5の場合Q(L(t)) = 1
L(t) ≦ 0.5の場合Q(L(t)) = 0
ここで、0の値及び1の値は、各々、検出される無音がコマーシャルではないブロックに属すること及び検出される無音がコマーシャルブロックに属することを意味する。
【００２７】
実際的な実施例において、コマーシャルのシーケンスは、該シーケンスが少なくとも60秒続く場合にしか検出されない。45秒未満の短い間隔に対してしか尤度関数が0.5未満にならない場合には、Q(t)は1に設定される。このプロシージャは、「内部補充(internal refilling)」と呼ばれている。内部補充は、散発的な内部の検出の欠落(sporadic internal missing detections)を解消する。「外部補充(external refilling)」は、コマーシャルの始め及び終わりにおいて、適用される。例えば、
t_i、t_i+1、…、t_i+N、…が、検出される無音が始まる時点のシーケンスであり、
L(t_i) = 0.2
L(t_i+1) = 0.4
L(t_i+2) = 0.6
各j = i+3、…、i+Nに対してL(t_j) > 0.5
j > i+Nに対してL(t_j) < 0.5であり、且つ
t_i+2 - t_i+1 < 45.0秒
t_i+N+1 - t_i+N < 45.0秒である場合には、
Q(L(t_i))= 0
Q(L(t_i+1)) = 1
Q(L(t_i+2)) = 1
…
Q(L(t_i+N+1)) = 1
j > i+N+1に対してQ(L(t_j)) = 0となる。
外部補充は、最初の地点及び最後の箇所の分類ミス(systematic miss)の回避に有効である。この事実は、ウィンドウ処理の細部(windowing details)と関連付けられる。外部補充及び内部補充は上方駆動(upper driven)の特別な非線形フィルタリングとみなされ得る。コマーシャルブロックの汎用統計モデルが用いられ得る。異なる日時及び／又は異なる種類の番組（メロドラマ、トークショー、フットボールの試合など）及び／又は異なるチャネルに対して異なるコマーシャルブロックモデルを用いて統計の細部を精緻化することは可能である。これは、十分なパフォーマンスを得るためには必要ではないが、当然、パフォーマンスを改善し得る。これは、対象システム(target system)の複雑さと該対象システムのパフォーマンスとの間のトレードオフの問題である。単一のチャネルについて遅れずに条件を変更するような検出の適応性(adaptability)は好ましい。更に、チャネル切替えに対する適応性は好ましい。とりわけ、局所最小雑音レベルは、単一のチャネルについて遅れずに変化するかもしれず、或るチャネルから別のチャネルへは大いに変化し得る。これは、無音検出にとって極めて重要である。更に、コマーシャルブロックの統計モデルにおける適応性は、極めて重要というわけではないが、有用である。システムは、局所最小雑音レベルにおいて十分にセルフトレーニング（self-training）する（適応可能である）ように実施され得る。唯一の制約は、チャネルが切り替えられるたびごとのアルゴリズムのリセットの適用である。これは、適応性と精度との間のトレードオフの問題のために、適応性が、最初の期間において速く、続いてゆっくりになるからである。コマーシャルブロック内の相対的に速い適応は精度を低下させるであろうことから、アルゴリズムがいつでも速く適応できるようにされる場合には、検出の精度は低下するであろう。実際的な実施例においては、切替え適応性(switch-adaptability) (即ち、あらゆる連続的な切替えに対するリセット)は、最初の数分しか適用されない一方で、単一チャネルに沿った適応性(along-a-single-channel adaptability)は常に保持する。適応性の安定性は、非対称方式によって確実にされる。最小雑音レベルが減少している場合の適応性は、最小雑音レベルが増大している場合の適応性より速い。これは、例えば、前に検出された無音より低い局所電力エネルギを備える無音が検出される場合に無音検出のための局所電力エネルギしきい値が相対的に急速に減少することを意味する。起こり得る2種類のエラー、即ち、コマーシャル検出欠落又は誤ったコマーシャル検出(false commercial detection)のいずれかがある。両方とも、相対的に少なく、且つコマーシャルブロックの開始部分又は終了部分に限定される。いずれにせよアルゴリズムはフレキシブルであり、決定パラメータは、どちらがより適切であるかに依存してこれら2つのエラーの割合の間のトレードオフを変えることが出来る。例えば、コマーシャルブロック検出が自動キーフレーム抽出のための前処理である場合には、検出欠落率が低いことがより重要である。単純な再生の場合には誤った検出が少ないことがより適切である。（他のフィーチャが付加され得るが）選ばれたフィーチャに関して、サブバンド分析なしに局所電力エネルギ及び局所帯域幅を別々に評価することは可能である。2分（他の値が選ばれても良い）の対称スライドウィンドウにおいて低いサンプリングレートを備える帯域幅の値が必要とされる。それ故、この値は、例えば、少数のポイント(point)を持つ連続する短い区間(interval)の高速フーリエ変換（FFT’s）の平均によって推定され得る。項(term)ごとに又は一括して、様々な種類の正規化及び1つ又は幾つかの尤度関数の組合せを実施することは可能である。実際的な実施は、くりこみ(renormalization)との一括又は項ごとの積の組合せ(product combination)に基づく。この積は、基本的にブールのセット(Boolean set)｛0、1｝から連続的な区間[0、1]まで拡張されたブールのAND(Boolean AND)である。これは、良好な選択性を確実にする。大雑把に言って、種々の条件が同時に全てをソフトに(softly)課される。これらの条件は、全てを完全に満たされる必要はないが、全てをほとんど満たされる必要がある。その代わり加算の組合せは、十分な選択性を確実なものとしないブールのORの拡張の一種となろう。更なる選択性及び強さ(robustness)は、持続期間しきい値を備える尤度についてのハードな決定によって確実にされる。尤度-雑音公差は、同様に内部補充によって確実にされる。
【００２８】
以下の例においては、36分の録画が考えられている。この録画は、映画の最後の部分から始まる。[646、866]秒はコマーシャルを含む。866秒において、テレビ番組が始まる。他のコマーシャルは、[1409、1735]秒の区間中にある。図4は、各検出された無音の間の算出された局所信号電力(sil-power(t))を円でプロットしている。ばつ印は、これらの値の後退平均(backward average)(average[sil-power] (t))を表す。（区間[646、866]及び区間[1409、1735]における）コマーシャルの無音が、主により低い電力を備えるカット無音(cut silences)であることは明らかである。大雑把に、コマーシャル内の無音の異なる分布に気付かされ得る。例えば、これらの無音のほとんどは、10秒乃至30秒離れている。図示されている詳細のような統計の詳細が、尤度関数推定において用いられる。図5は、得られた尤度関数をプロットしている。満たされたトリガ(filled triggering)は[648、866]及び[1408、1735]を検出する。
【００２９】
あり得る変形例
1)より大きな部分のスケールファクタをバッファすることは可能である。前記スケールファクタをサブサンプリングすることも可能である。現在の96個の残されているチャネルスケールファクタ(96 left scale factor)からの32個の選択が有効であることが分かった。
2) 異なるオーディオフィーチャのセットを選ぶことは可能である。当然、他のフィーチャを取り入れる前には入念な調査が必要とされる。
3) 上記のように、様々な種類の正規化及び1つ又は幾つかの尤度関数の組合せを実施することは可能である。本実施例は、くりこみとの積の組合せに基づく。この積は、基本的にブールのセット｛0、1｝から連続的な区間[0、1]まで拡張されたブールのANDである。これは、良好な選択性を確実にする。セミ和(semi-sum)はブールのORの拡張の一種であるが、前記セミ和は十分な選択性を確実なものとしない。
4) 補充を備える大域尤度関数のトリガの選択は、例えば、異なるウィンドウ処理様式(windowing modalities)及び／又は異なるオーディオフィーチャが用いられる場合に変更され得る。
5) 多くのブロードキャスタ(broadcaster)によってコマーシャルブロックの始め及び／又は終わりに規則正しく置かれるような特定のオーディオシーケンスの認識も、直接的にスケールファクタを処理することにより達成され得る。
【００３０】
送信機側では、カット無音がよりよく検出されるようにカット無音を適応させることによって、例えば、前記カット無音の信号電力を低下させることによって、無音持続期間を適応させることによって、信号電力低下率を増大させることによって、及び／又は前記無音の間の電力偏差を減少させることによって、尤度関数の助けとなることが可能である。これに反して、カット無音の信号電力を増大させることによって、例えば、前記無音の間、雑音を差し込むことによって、無音持続期間を適応させることによって、信号電力低下率を減少させることによって、及び／又は電力偏差を増大させることによって、カット無音の検出性（detectability）を低下させることも可能である。更に、信号中に偽のカット無音を差し込むことも可能である。実際的な実施例において、カット無音の電力と同様の低い電力及び30秒の間隔を備える0.15秒の偽のカット無音は、おそらくコマーシャルブロック検出を害するであろう。偽のカット無音は、好ましくは音声の無音(speech silences)などの既存の無音中に挿入される。この場合には、これらの偽の無音は、平均的なユーザによってほとんど気づかれ得ないであろう。
【００３１】
アルゴリズムは、オーディオビジュアル材料中のコマーシャルブロックを検出し、該コマーシャルブロックの境界に印をつける。次いで、コマーシャルブロックは、閲覧(browsing)、自動予告編(trailer)作成、編集又は単なる再生のような如何なる種類の処理の間にもスキップされ得る。この機能は、非常に低い追加コストで幾つかの種類の記憶装置に組み込まれ得る。前記機能は、データの取得中の実時間において、又はオフラインにおいて、記憶された材料に適用され得る。
【００３２】
上記の実施例は、本発明を限定するものではなく、例示するものであること、及び当業者は、添付されている特許請求の範囲の範囲から外れることなしに、多くの他の実施例を設計することが出来るであろうことに注意されたい。特許請求の範囲において、括弧の間に配置されている如何なる参照符号も、特許請求の範囲を限定するものとして解釈されるべきではない。「有する」という用語は、請求項において列挙されている要素又はステップ以外の要素又はステップの存在を除外しない。本発明は、幾つかの別個の素子を有するハードウェアによって、及び適当にプログラムされたコンピュータにより実施され得る。幾つかの手段を列挙している装置の請求項において、これらの手段の幾つかは、ハードウェアの同一アイテムにより実施され得る。単に、或る方策が互いに異なる従属項において列挙されているという事実は、これらの方策の組合せが有利となるようには用いられ得ないことを示すものではない。
【図面の簡単な説明】
【図１】本発明の実施例による受信機を示す。
【図２】各サブバンドが、3つのブロックに細分されており、各ブロックが、12量子化サンプルを含み、スケールファクタを具備している32個のサブバンドを含む一例としてのオーディオフレームを示す。
【図３】各サブバンドに対して最大スケールファクタが選択されており、あり得る選択が灰色で強調されている図2の一例としてのオーディオフレームを示す。
【図４】円が検出された無音の局所信号電力を表し、ばつ印がこれらの局所信号電力の平均を表す一例としての図を示す。
【図５】図4に関する一例としての尤度関数を示す。

Claims

圧縮オーディオ信号内のコマーシャル検出用の無音を識別する方法であって、前記圧縮オーディオ信号が量子化サンプルのブロックを有し、所与のブロックがスケールファクタのセットを具備し、当該方法が、
前記圧縮オーディオ信号から前記スケールファクタのセットを導出するステップと、
前記スケールファクタの組合せに基づいて、前記所与のブロックにおける信号電力を推定するステップと、
前記所与のブロックにおける信号電力に対応する局所信号電力レベルと、前記局所信号電力レベルが閾値未満である無音持続期間と、無音の間の局所電力線形偏差、無音開始前の局所電力低下率、及び、無音終了時の局所電力上昇率のうち少なくとも１つに基づいて決定されるパラメータとに基づいて、前記コマーシャル検出用の無音を識別するステップとを有する方法。
前記導出するステップ、前記推定するステップ及び前記識別するステップが、前記スケールファクタのセットの一部においてしか行なわれないことを特徴とする請求項１に記載の方法。
前記圧縮オーディオ信号が周波数方向において細分された複数の狭帯域副信号を有し、各狭帯域副信号は、量子化サンプルを含み、一つ以上のスケールファクタを具備する前記ブロックであり、前記導出するステップが前記複数の狭帯域副信号のうちの一つ以上において行なわれることを特徴とする請求項１又は請求項２に記載の方法。
前記導出するステップが前記複数の狭帯域副信号の一部においてしか行なわれないことを特徴とする請求項３に記載の方法。
前記複数の狭帯域副信号の一部が、主として、多数の低周波副信号のスケールファクタを含むことを特徴とする請求項４に記載の方法。
前記ブロックが時間方向において少なくとも２つに細分された副ブロックを有し、各副ブロックはスケールファクタを具備し、前記推定するステップにおいて用いるために前記ブロック毎に最大スケールファクタのみが導出されることを特徴とする請求項３乃至５のいずれか一項に記載の方法。
前記圧縮オーディオ信号がステレオ信号又はマルチチャネル信号であり、前記導出するステップが利用可能なチャネルの一部においてしか行なわれないことを特徴とする請求項１乃至６のいずれか一項に記載の方法。
圧縮オーディオ信号内のコマーシャル検出用の無音を識別する装置であって、前記圧縮オーディオ信号が量子化サンプルのブロックを有し、所与のブロックがスケールファクタのセットを具備し、当該装置が、
前記圧縮オーディオ信号から前記スケールファクタのセットを導出する手段と、
前記スケールファクタの組合せに基づいて、前記所与のブロックにおける信号電力を推定する手段と、
前記所与のブロックにおける信号電力に対応する局所信号電力レベルと、前記局所信号電力レベルが閾値未満である無音持続期間と、無音の間の局所電力線形偏差、無音開始前の局所電力低下率、及び、無音終了時の局所電力上昇率のうち少なくとも１つに基づいて決定されるパラメータとに基づいて、前記コマーシャル検出用の無音を識別する手段とを有する装置。
請求項８に記載の装置、及び
前記圧縮オーディオ信号中の前記コマーシャル検出用の無音を検出するために前記信号電力の推定を評価する手段を有する無音検出器。
圧縮オーディオ信号を受け取る受信機であって、当該受信機は、
前記圧縮オーディオ信号を得るための入力部、
前記圧縮オーディオ信号における前記コマーシャル検出用の無音を検出するための請求項９に記載の無音検出器、及び
前記圧縮オーディオ信号に作用するための手段を有し、前記作用する手段において、前記作用は、少なくとも部分的に前記コマーシャル検出用の無音の検出に依存する受信機。