JP2004520627A - 圧縮オーディオにおける信号電力の推定 - Google Patents

圧縮オーディオにおける信号電力の推定 Download PDF

Info

Publication number
JP2004520627A
JP2004520627A JP2002590144A JP2002590144A JP2004520627A JP 2004520627 A JP2004520627 A JP 2004520627A JP 2002590144 A JP2002590144 A JP 2002590144A JP 2002590144 A JP2002590144 A JP 2002590144A JP 2004520627 A JP2004520627 A JP 2004520627A
Authority
JP
Japan
Prior art keywords
audio signal
signal
silence
compressed audio
scale factors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002590144A
Other languages
English (en)
Other versions
JP4365103B2 (ja
Inventor
アレッシオ ステラ
ジャン エイ ディ ネスヴァドバ
バルビエリ マウロ
フリーディ スナイデル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2004520627A publication Critical patent/JP2004520627A/ja
Application granted granted Critical
Publication of JP4365103B2 publication Critical patent/JP4365103B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/58Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/426Internal components of the client ; Characteristics thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • H04N5/602Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals for digital sound signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Systems (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Amplifiers (AREA)
  • Air Bags (AREA)
  • Control Of Stepping Motors (AREA)

Abstract

圧縮オーディオ信号[A]における信号電力の推定が提供されており、前記オーディオ信号は量子化サンプルを有し、所与のブロックはスケールファクタのセットを具備する。前記推定は、前記圧縮オーディオ信号から前記スケールファクタのセットを導出し、前記スケールファクタの組合せに基づいて前記所与のブロックにおける信号電力を推定することにより行なわれる。好ましくは、導出するステップ及び推定するステップが、前記スケールファクタのセットのサブセットにおいてしか行なわれない。前記信号電力推定は、受信機(1)用の無音検出器(11)において用いられ得る。

Description

【0001】
【発明の属する技術分野】
本発明は、圧縮オーディオ信号における信号電力の推定に関する。更に、本発明は、無音検出及びこのような無音検出を用いる受信機に関する。
【0002】
【従来の技術】
国際特許出願公開第WO96/3271A1号は、補助データが、復号され得るように、オーディオデータと共に多重化及び符号化され、並びに送信され得るデジタル伝送のためのオーディオ信号の圧縮及び解凍のためのシステムを開示している。この文献は、音声があるかどうか調べるべく別のチャネル中を探すための最小スケールファクタ値(minimum scale factor value)の計算を159ページにおいて、開示している。
【0003】
【課題を解決するための手段】
本発明の目的は、圧縮オーディオ信号における有利な信号電力推定を提供することにある。このため、本発明は、独立項において規定されているような、信号電力を推定する方法及び装置と、無音検出器と、受信機とを提供する。有利な実施例は、従属項において規定されている。
【0004】
本発明の第1の特徴によれば、信号電力は、所与のブロックがスケールファクタのセットを具備する量子化サンプルのブロックを有する圧縮オーディオ信号において推定される。前記スケールファクタのセットは、前記圧縮オーディオ信号から導出され、前記信号電力は、前記スケールファクタの組合せに基づいて前記所与のブロックにおいて推定される。前記所与のブロックは、一つ以上のオーディオフレーム又はオーディオフレームの一部であっても良い。スケールファクタは、前記圧縮オーディオ信号から容易に導出され得る。本発明は、スケールファクタは該スケールファクタが関連するサンプルのあり得る最大値(maximum possible value)を表わすという洞察に基づく。それ故、前記スケールファクタの組合せ、例えば2乗されたスケールファクタの和は、限られた計算負荷(computational load)しか必要とせずに前記信号電力の大雑把な推定(rough estimation)を与える。前記大雑把な推定は、例えばコマーシャル検出器における無音検出などの幾つかのアプリケーションには全く十分である。
【0005】
好ましい実施例においては、スケールファクタのサブセットしか用いられない。スケールファクタの全セットのうちサブセットしか用いないことにより、計算負荷は更に低減される。これはより低い精度をもたらし得るが、これはコマーシャル検出器などにおける無音検出のような幾つかのアプリケーションにとっては許容可能である。
【0006】
スケールファクタのサブセットの形成は、時間方向及び/又は周波数方向においてスケールファクタを省略することによって行なわれ得る。例えば、前記サブセットは、圧縮オーディオ信号において利用可能な複数の狭帯域副信号のサブセットしか含まなくても良く、好ましくは前記サブセットは多数の低周波副信号のスケールファクタを含む。
【0007】
前記圧縮オーディオ信号がステレオ又はマルチチャネル信号である場合には、利用可能なチャネルのサブセットのみが用いられ得る。
【0008】
添付図面を参照して本発明のこれら及び他の特徴を説明し、明らかにする。
【0009】
図面は、本発明の実施例を理解するための助けとなる要素しか示していない。
【0010】
【発明の実施の形態】
図1は、圧縮オーディオ信号[A]を受け取るための本発明の実施例による受信機1を示している。受信機1は、圧縮オーディオ信号[A]を得るための入力部10を有する。入力部10は、アンテナ、ネットワーク接続部、読出装置などであり得る。更に、受信機1は、圧縮オーディオ信号中の無音を検出する無音検出器11、及び無音の検出に依存してオーディオ信号に作用する作用ブロック(influencing block)12を有する。ブロック12は、例えば、圧縮オーディオ信号を復号する復号器であっても良く、この復号器においては、復号が検出される無音に依存する。ブロック12はまた、圧縮オーディオの検出される無音に依存する部分をスキップするスキップブロックであっても良い。無音検出器11は、コマーシャル検出器を形成するために強化され得る。検出されるコマーシャルは、復号中にスキップされ得る。復号された又は依然として圧縮されている作用されたオーディオ信号Aは、出力部13に出力され得る。出力部13は、ネットワーク接続部、再生装置又は記録装置であり得る。圧縮オーディオ信号[A]はプログラムストリーム中に含まれていても良く、このプログラムストリームは更にビデオ信号を含む。この場合には、プログラム信号は、圧縮オーディオ信号中の検出される無音に少なくとも部分的に依存するブロック12において作用され得る。有利なアプリケーションは、コマーシャルではないコンテンツしか記憶しない記憶装置である。
【0011】
本発明の実施例は、例えばコマーシャル検出用の無音検出との関連において記載されている。欧州特許出願公開第EP1006685A2号が、テレビ信号を処理し、テレビ信号中のコマーシャルの存在を検出するための方法及び装置を開示していることに注意されたい。コマーシャル候補区間検出器は、静音区間及びシーンチェンジポイントに基づいてコマーシャル候補区間を検出する。コマーシャル特徴量検出器は、コマーシャル候補区間がコマーシャルの様々な特徴を持っているか否かを判定し、この判定結果に基づいてコマーシャル特徴値に所定の値を付加する。コマーシャル特徴量検出器は、最終的なコマーシャル特徴値を所定の閾値と比較し、比較結果に基づいてコマーシャル候補区間がコマーシャル区間であるか否かを判定する。静音区間検出器は、静音区間を検出するためにデジタル化オーディオ信号のレベルを閾値と比較し、比較結果をシーンチェンジ検出器に出力する。更に、欧州特許出願公開第EP1087557A2号に対する参照がなされる。
【0012】
本発明の実施例によるコマーシャル検出器は、オーディオビジュアルストリーム中のコマーシャルブロックを自動的に検出する。これは、キーフレーム抽出(key−frame extraction)、編集又は再生などの如何なる種類の処理の間にもコマーシャルをスキップすることを可能にする。幾つかのオーディオフィーチャについては、局所統計値が、スライドウィンドウ(sliding window)において測定され、コマーシャルの統計モデルと比較される。この比較によって、オーディオ信号がどのように局所的にコマーシャルと類似しているのかを表わす正規化尤度関数(normalized likelihood function)が導出される。尤度関数は、コマーシャル検出のために適切にトリガされ得る。統計ウインドウは、局所分析において細部に渡り、且つ検出に影響を及ぼさない局所的な不規則性及び変動(fluctuation)に対して強い(robust)ように選ばれる。アルゴリズムは、単一のストリームに沿って変化し得る、又は或るストリームと別のストリームとの間で変化し得る幾つかの条件に適応可能である。このアルゴリズムはビデオに依存しない。それにもかかわらず、ビデオ分析が、分類を強化又は拡張するために含まれ得る。このアルゴリズムは、幾つかの種類の記憶システムに適用され得る。
【0013】
多くのオーディオ符号器(例えばMPEG−1レイヤ1/2/3、MPEG−2レイヤ1/2/3、MPEG−2 AAC、MPEG−4 AAC、AC−3)は周波数領域符号器である。これらは、ソーススペクトルを多数の狭帯域副信号に分割し、別々に各周波数成分又は各サンプルを量子化する。周波数成分又はサンプルは、スケールファクタ及びビット割当(bit allocation)に基づいて量子化される。これらのスケールファクタは、周波数成分又はサンプルの最大値のインジケータとみなされ得る。
【0014】
AC−3においては、周波数成分が仮数.2(− べき指数 によって表される。ここで、べき指数は、2(− べき指数 と等しい各仮数に対するスケールファクタとして作用する。
【0015】
MPEG−1レイヤ2において、狭帯域副信号は12量子化サンプルのグループに分割され、ここで、各グループは対応スケールファクタを持つ。このスケールファクタは、該スケールファクタが関連するサンプルの最大値に対応する。
【0016】
検出アルゴリズムは、好ましくはスケールファクタのサブセットを用いる。狭帯域副信号の全て又はサブセットにおいて、信号電力の上限は、スケールファクタを二乗することにより算出される。
【0017】
MPEGオーディオ圧縮を用いる実施例を以下により詳細に記載する。MPEG−1レイヤ2においては、オーディオ信号が、各々48kHz、44.1kHz又は32kHzのサンプリングレートに対して24msec、26.1msec又は36msecの時間間隔に分割される。これらの時間間隔の各々において、信号がフレームにおいて符号化される。図2を参照すると、各フレーム間隔が3つの部分(Part)に分割され、信号が32個のサブバンド(Subband)成分に分解されている。各サブバンド成分且つフレームの各3分の1(図2における1つの長方形)に対して、12サンプルが、スケールファクタ及び適切に選ばれる多数のビットに基づいて量子化される。スケールファクタは、12サンプルの絶対値の上限推定を与える。この推定はあまり正確ではないかもしれないが、これはコマーシャル検出には必要とされない。スケールファクタは、フレームにおいて疑似対数の指数(pseudo logarithmic index)として直接的に入手可能であるので、スケールファクタは、ごくわずかな計算負荷で各オーディオフレームから導出され得る。幾つかの限られたフレームヘッダの復号しか必要とされない。解凍は必要ない。
【0018】
ステレオモードにおいて、各チャネルは、フレーム毎に各チャネル固有の96個のスケールファクタ(ScaleF)を持つ。検出アルゴリズムは、左又は右のチャネルの各サブバンド(Subb)において最大スケールファクタのみを選択し(図3参照)、32個の値が、バッファされ、(対数フォーマットではない)線形フォーマットに変換される。例えば、48kHzのオーディオサンプリングレートに対しては、規格に基づいてサブバンド0… 26しか用いられず、これは、24msec毎に27サンプル、即ち、コマーシャル検出器にとって非常に適度の入力データレートの1125サンプル/秒を与える。サブバンド信号電力における上限を得るために、バッファされたスケールファクタの二乗が算出される。次いで、これらは、
(1) これら二乗の和が総短時間電力(total short time power)における上限を与え、
(2) これら二乗が短時間帯域幅推定を算出するために用いられ得るというように用いられる。
【0019】
下表は、MPEG−1レイヤ2におけるスケールファクタ(scalefactor)に対する疑似対数の指数(index)のほんの一部を示している(ISO/IEC 11172−3:1993の表B.1を参照)。
【0020】
【表1】
Figure 2004520627
オーディオフレーム(audio frame)jのための短時間電力(short time power)の推定が以下に示されている。
【数1】
Figure 2004520627
他の例においては、スケールファクタを見出すためにルックアップテーブルを用いることが可能である。前記和は、所与の時点におけるサブバンドの数にわたって行なわれるべきである。サブバンドのサブセットが用いられる場合、この和は、アプリケーションに依存して用いられるサブバンドの数又はサブバンドの総数にわたって行なわれなければならない。
【0021】
無音検出は、
1) 例えば上記のようなFrame_powerを用いることによる局所信号電力レベル、
2) 無音持続期間、並びに
3) 無音の間の局所電力線形偏差、
4)無音開始前の局所電力低下率(local power fall rate)、及び
5)無音終了時の局所電力上昇率というパラメータのうちの少なくとも1つにおけるネストされたしきい値(nested threshold)に基づく。
【0022】
信号電力の特徴は、無音検出器が動作する環境に非常に依存することから、好ましくは検出器は適応可能である。それ故、適応可能であるために、局所電力レベル関連のパラメータ(即ち、1)、3)及び/又は4))が、遅れずにこれらパラメータの平均値と比較される。局所信号電力に対する典型的なしきい値は0.01であり、即ち、局所信号電力は信号電力の時間平均の1パーセント未満でなければならない。時間平均は、長さwのフレームを備える適応ウインドウ(adaptation window)を用いることにより算出される。実際的な解法は以下の通りである。
【数2】
Figure 2004520627
ここで、jはフレームインデックス(flame index)である。
【0023】
無音持続期間は、局所信号電力レベルが所与の固定の又は適応可能なしきい電力レベル未満である持続期間である。線形偏差は、少なくとも無音持続期間の部分にわたっての(平均フレーム電力を引いたフレーム電力)の和である。線形偏差及び低下/上昇率は、知覚し得るがコマーシャル検出に関連しない無音の部分にフィルタをかけるために用いられる。局所信号電力レベルは、好ましくは、例えばオーディオフレーム毎又はオーディオフレームの部分毎に、上記のようにスケールファクタを用いることによって決定される。
【0024】
コマーシャルブロックにおけるコマーシャルの間の切れ目(break)の無音持続期間の実際的な範囲は、3/25秒乃至20/25秒である。
【0025】
無音開始時間、無音持続期間及び無音の局所電力レベルの値は、下記の統計計算のためにバッファされる。コマーシャルは、
1) 2つの連続的な検出される無音の間の時間間隔、
2) (絶対的な及び/又は相対的な)前記検出される無音の局所信号電力レベル、
3) 無音持続期間、及び
4)オーディオ信号の局所帯域幅といったフィーチャの局所統計モデルで特徴付けられる。
【0026】
オーディオフレームjの局所帯域幅(local bandwidth)は、以下のようにスケールファクタから算出され得る。
【数3】
Figure 2004520627
各フィーチャに対して、0と1との間の値で、0.5で正規化された尤度関数(0.5−normalized likelihood function)が得られる。これは、このフィーチャの局所統計がどの程度コマーシャルの局所統計と類似しているかを表す。次いで、一度に全情報を利用するやはり0.5で正規化された大域尤度関数(global likelihood function)を得るために、種々の尤度関数が種々の重みと組み合わされる。大域尤度関数は、無音開始時点としてバッファされた時間軸の各ポイントにおいて算出される。値0.5は、基本的に「全くの不確実性(total uncertainty)」又は「コマーシャルブロック内である確率0.5」を意味する。尤度関数は種々の方法で用いられ得る。尤度関数は、コマーシャルの境界を検出するために適切にトリガされ得る。尤度関数は、任意にビデオフィーチャも利用して更なる分析及び分類を行なうアルゴリズムによって、(コマーシャルとコマーシャルではないもの(non−commercials)との間の正規化されたソフトな分類(normalized soft classification)として)用いられ得る。(単輝度(mono−luminance)、単色フレーム検出(mono−chrominance frame detection)、シーンチェンジ検出のような)種々のレベルのビデオフィーチャは、同じ尤度法又は他の方法を適用してオーディオフィーチャと共に統計的に分析され得る。補充(refilling)を備えてトリガされるコマーシャル検出が、上記のオーディオ分析に基づいて開発され、試験された。0.5正規化尤度関数L(t)は、検出される無音がコマーシャルブロックに属するか否か決定するために用いられ得る。これは以下のように規定される関数Q(L(t))によってなされ得る。
L(t) > 0.5の場合Q(L(t)) = 1
L(t) ≦ 0.5の場合Q(L(t)) = 0
ここで、0の値及び1の値は、各々、検出される無音がコマーシャルではないブロックに属すること及び検出される無音がコマーシャルブロックに属することを意味する。
【0027】
実際的な実施例において、コマーシャルのシーケンスは、該シーケンスが少なくとも60秒続く場合にしか検出されない。45秒未満の短い間隔に対してしか尤度関数が0.5未満にならない場合には、Q(t)は1に設定される。このプロシージャは、「内部補充(internal refilling)」と呼ばれている。内部補充は、散発的な内部の検出の欠落(sporadic internal missing detections)を解消する。「外部補充(external refilling)」は、コマーシャルの始め及び終わりにおいて、適用される。例えば、
、ti+1、…、ti+N、…が、検出される無音が始まる時点のシーケンスであり、L(t) = 0.2
L(ti+1) = 0.4
L(ti+2) = 0.6
各j = i+3、…、i+Nに対してL(t) > 0.5
j > i+Nに対してL(t) < 0.5であり、且つ
i+2 − ti+1 < 45.0秒
i+N+1 − ti+N < 45.0秒である場合には、
Q(L(t))= 0
Q(L(ti+1)) = 1
Q(L(ti+2)) = 1

Q(L(ti+N+1)) = 1
j > i+N+1に対してQ(L(t)) = 0となる。
外部補充は、最初の地点及び最後の箇所の分類ミス(systematic miss)の回避に有効である。この事実は、ウィンドウ処理の細部(windowing details)と関連付けられる。外部補充及び内部補充は上方駆動(upper driven)の特別な非線形フィルタリングとみなされ得る。コマーシャルブロックの汎用統計モデルが用いられ得る。異なる日時及び/又は異なる種類の番組(メロドラマ、トークショー、フットボールの試合など)及び/又は異なるチャネルに対して異なるコマーシャルブロックモデルを用いて統計の細部を精緻化することは可能である。これは、十分なパフォーマンスを得るためには必要ではないが、当然、パフォーマンスを改善し得る。これは、対象システム(target system)の複雑さと該対象システムのパフォーマンスとの間のトレードオフの問題である。単一のチャネルについて遅れずに条件を変更するような検出の適応性(adaptability)は好ましい。更に、チャネル切替えに対する適応性は好ましい。とりわけ、局所最小雑音レベルは、単一のチャネルについて遅れずに変化するかもしれず、或るチャネルから別のチャネルへは大いに変化し得る。これは、無音検出にとって極めて重要である。更に、コマーシャルブロックの統計モデルにおける適応性は、極めて重要というわけではないが、有用である。システムは、局所最小雑音レベルにおいて十分にセルフトレーニング(self−training)する(適応可能である)ように実施され得る。唯一の制約は、チャネルが切り替えられるたびごとのアルゴリズムのリセットの適用である。これは、適応性と精度との間のトレードオフの問題のために、適応性が、最初の期間において速く、続いてゆっくりになるからである。コマーシャルブロック内の相対的に速い適応は精度を低下させるであろうことから、アルゴリズムがいつでも速く適応できるようにされる場合には、検出の精度は低下するであろう。実際的な実施例においては、切替え適応性(switch−adaptability) (即ち、あらゆる連続的な切替えに対するリセット)は、最初の数分しか適用されない一方で、単一チャネルに沿った適応性(along−a−single−channel adaptability)は常に保持する。適応性の安定性は、非対称方式によって確実にされる。最小雑音レベルが減少している場合の適応性は、最小雑音レベルが増大している場合の適応性より速い。これは、例えば、前に検出された無音より低い局所電力エネルギを備える無音が検出される場合に無音検出のための局所電力エネルギしきい値が相対的に急速に減少することを意味する。起こり得る2種類のエラー、即ち、コマーシャル検出欠落又は誤ったコマーシャル検出(false commercial detection)のいずれかがある。両方とも、相対的に少なく、且つコマーシャルブロックの開始部分又は終了部分に限定される。いずれにせよアルゴリズムはフレキシブルであり、決定パラメータは、どちらがより適切であるかに依存してこれら2つのエラーの割合の間のトレードオフを変えることが出来る。例えば、コマーシャルブロック検出が自動キーフレーム抽出のための前処理である場合には、検出欠落率が低いことがより重要である。単純な再生の場合には誤った検出が少ないことがより適切である。(他のフィーチャが付加され得るが)選ばれたフィーチャに関して、サブバンド分析なしに局所電力エネルギ及び局所帯域幅を別々に評価することは可能である。2分(他の値が選ばれても良い)の対称スライドウィンドウにおいて低いサンプリングレートを備える帯域幅の値が必要とされる。それ故、この値は、例えば、少数のポイント(point)を持つ連続する短い区間(interval)の高速フーリエ変換(FFT’s)の平均によって推定され得る。項(term)ごとに又は一括して、様々な種類の正規化及び1つ又は幾つかの尤度関数の組合せを実施することは可能である。実際的な実施は、くりこみ(renormalization)との一括又は項ごとの積の組合せ(product combination)に基づく。この積は、基本的にブールのセット(Boolean set){0、1}から連続的な区間[0、1]まで拡張されたブールのAND(Boolean AND)である。これは、良好な選択性を確実にする。大雑把に言って、種々の条件が同時に全てをソフトに(softly)課される。これらの条件は、全てを完全に満たされる必要はないが、全てをほとんど満たされる必要がある。その代わり加算の組合せは、十分な選択性を確実なものとしないブールのORの拡張の一種となろう。更なる選択性及び強さ(robustness)は、持続期間しきい値を備える尤度についてのハードな決定によって確実にされる。尤度−雑音公差は、同様に内部補充によって確実にされる。
【0028】
以下の例においては、36分の録画が考えられている。この録画は、映画の最後の部分から始まる。[646、866]秒はコマーシャルを含む。866秒において、テレビ番組が始まる。他のコマーシャルは、[1409、1735]秒の区間中にある。図4は、各検出された無音の間の算出された局所信号電力(sil−power(t))を円でプロットしている。ばつ印は、これらの値の後退平均(backward average)(average[sil−power] (t))を表す。(区間[646、866]及び区間[1409、1735]における)コマーシャルの無音が、主により低い電力を備えるカット無音(cut silences)であることは明らかである。大雑把に、コマーシャル内の無音の異なる分布に気付かされ得る。例えば、これらの無音のほとんどは、10秒乃至30秒離れている。図示されている詳細のような統計の詳細が、尤度関数推定において用いられる。図5は、得られた尤度関数をプロットしている。満たされたトリガ(filled triggering)は[648、866]及び[1408、1735]を検出する。
【0029】
あり得る変形例
1)より大きな部分のスケールファクタをバッファすることは可能である。前記スケールファクタをサブサンプリングすることも可能である。現在の96個の残されているチャネルスケールファクタ(96 left scale factor)からの32個の選択が有効であることが分かった。
2) 異なるオーディオフィーチャのセットを選ぶことは可能である。当然、他のフィーチャを取り入れる前には入念な調査が必要とされる。
3) 上記のように、様々な種類の正規化及び1つ又は幾つかの尤度関数の組合せを実施することは可能である。本実施例は、くりこみとの積の組合せに基づく。この積は、基本的にブールのセット{0、1}から連続的な区間[0、1]まで拡張されたブールのANDである。これは、良好な選択性を確実にする。セミ和(semi−sum)はブールのORの拡張の一種であるが、前記セミ和は十分な選択性を確実なものとしない。
4) 補充を備える大域尤度関数のトリガの選択は、例えば、異なるウィンドウ処理様式(windowing modalities)及び/又は異なるオーディオフィーチャが用いられる場合に変更され得る。
5) 多くのブロードキャスタ(broadcaster)によってコマーシャルブロックの始め及び/又は終わりに規則正しく置かれるような特定のオーディオシーケンスの認識も、直接的にスケールファクタを処理することにより達成され得る。
【0030】
送信機側では、カット無音がよりよく検出されるようにカット無音を適応させることによって、例えば、前記カット無音の信号電力を低下させることによって、無音持続期間を適応させることによって、信号電力低下率を増大させることによって、及び/又は前記無音の間の電力偏差を減少させることによって、尤度関数の助けとなることが可能である。これに反して、カット無音の信号電力を増大させることによって、例えば、前記無音の間、雑音を差し込むことによって、無音持続期間を適応させることによって、信号電力低下率を減少させることによって、及び/又は電力偏差を増大させることによって、カット無音の検出性(detectability)を低下させることも可能である。更に、信号中に偽のカット無音を差し込むことも可能である。実際的な実施例において、カット無音の電力と同様の低い電力及び30秒の間隔を備える0.15秒の偽のカット無音は、おそらくコマーシャルブロック検出を害するであろう。偽のカット無音は、好ましくは音声の無音(speech silences)などの既存の無音中に挿入される。この場合には、これらの偽の無音は、平均的なユーザによってほとんど気づかれ得ないであろう。
【0031】
アルゴリズムは、オーディオビジュアル材料中のコマーシャルブロックを検出し、該コマーシャルブロックの境界に印をつける。次いで、コマーシャルブロックは、閲覧(browsing)、自動予告編(trailer)作成、編集又は単なる再生のような如何なる種類の処理の間にもスキップされ得る。この機能は、非常に低い追加コストで幾つかの種類の記憶装置に組み込まれ得る。前記機能は、データの取得中の実時間において、又はオフラインにおいて、記憶された材料に適用され得る。
【0032】
上記の実施例は、本発明を限定するものではなく、例示するものであること、及び当業者は、添付されている特許請求の範囲の範囲から外れることなしに、多くの他の実施例を設計することが出来るであろうことに注意されたい。特許請求の範囲において、括弧の間に配置されている如何なる参照符号も、特許請求の範囲を限定するものとして解釈されるべきではない。「有する」という用語は、請求項において列挙されている要素又はステップ以外の要素又はステップの存在を除外しない。本発明は、幾つかの別個の素子を有するハードウェアによって、及び適当にプログラムされたコンピュータにより実施され得る。幾つかの手段を列挙している装置の請求項において、これらの手段の幾つかは、ハードウェアの同一アイテムにより実施され得る。単に、或る方策が互いに異なる従属項において列挙されているという事実は、これらの方策の組合せが有利となるようには用いられ得ないことを示すものではない。
【図面の簡単な説明】
【図1】本発明の実施例による受信機を示す。
【図2】各サブバンドが、3つのブロックに細分されており、各ブロックが、12量子化サンプルを含み、スケールファクタを具備している32個のサブバンドを含む一例としてのオーディオフレームを示す。
【図3】各サブバンドに対して最大スケールファクタが選択されており、あり得る選択が灰色で強調されている図2の一例としてのオーディオフレームを示す。
【図4】円が検出された無音の局所信号電力を表し、ばつ印がこれらの局所信号電力の平均を表す一例としての図を示す。
【図5】図4に関する一例としての尤度関数を示す。

Claims (10)

  1. 圧縮オーディオ信号において信号電力を推定する方法であって、前記オーディオ信号が量子化サンプルのブロックを有し、所与のブロックがスケールファクタのセットを具備し、当該方法が、
    前記圧縮オーディオ信号から前記スケールファクタのセットを導出するステップ、及び
    前記スケールファクタの組合せに基づいて、前記所与のブロックにおける信号電力を推定するステップを有する方法。
  2. 前記導出するステップ及び前記推定するステップが、前記スケールファクタのセットのサブセットにおいてしか行なわれないことを特徴とする請求項1に記載の方法。
  3. 前記オーディオ信号が複数の狭帯域副信号を有し、各狭帯域副信号は信号ブロックに細分され、各ブロックは量子化サンプルを含み、各ブロックは一つ以上のスケールファクタを具備し、前記導出するステップが前記副信号のうちの一つ以上において行なわれることを特徴とする請求項1又は2に記載の方法。
  4. 前記導出するステップが前記複数の副信号のサブセットにおいてしか行なわれないことを特徴とする請求項3に記載の方法。
  5. 前記サブセットが、主として、多数の低周波副信号のスケールファクタを含むことを特徴とする請求項4に記載の方法。
  6. 前記ブロックが少なくとも2つの副ブロックに細分され、各副ブックはスケールファクタを具備し、前記推定するステップにおいて用いるためにブロック毎に最大スケールファクタのみが導出されることを特徴とする請求項2、3、4又は5に記載の方法。
  7. 前記圧縮オーディオ信号がステレオ信号又はマルチチャネル信号であり、前記導出するステップが利用可能なチャネルのサブセットにおいてしか行なわれないことを特徴とする請求項1乃至6のいずれか一項に記載の方法。
  8. 圧縮オーディオ信号において信号電力を推定する装置であって、前記オーディオ信号が量子化サンプルのブロックを有し、所与のブロックがスケールファクタのセットを具備し、当該装置が、
    前記圧縮オーディオ信号から前記スケールファクタのセットを導出する手段、及び
    前記スケールファクタの組合せに基づいて、前記所与のブロックにおける信号電力を推定する手段を有する装置。
  9. 圧縮オーディオ信号の信号電力の推定を得るための請求項8に記載の装置、及び
    前記オーディオ信号中の無音を検出するために前記信号電力の推定を評価する手段を有する無音検出器。
  10. 圧縮オーディオ信号を受け取る受信機であって、当該受信機は、
    圧縮オーディオ信号を得るための入力部、
    前記圧縮オーディオ信号における無音を検出するための請求項9に記載の無音検出器、及び
    前記オーディオ信号に作用するための手段を有し、前記作用する手段において、前記作用は、少なくとも部分的に前記無音の検出に依存する受信機。
JP2002590144A 2001-05-11 2002-05-08 圧縮オーディオにおける信号電力の推定 Expired - Fee Related JP4365103B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP01201730 2001-05-11
PCT/IB2002/001561 WO2002093552A1 (en) 2001-05-11 2002-05-08 Estimating signal power in compressed audio

Publications (2)

Publication Number Publication Date
JP2004520627A true JP2004520627A (ja) 2004-07-08
JP4365103B2 JP4365103B2 (ja) 2009-11-18

Family

ID=8180284

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2002590144A Expired - Fee Related JP4365103B2 (ja) 2001-05-11 2002-05-08 圧縮オーディオにおける信号電力の推定
JP2002590554A Expired - Fee Related JP4560269B2 (ja) 2001-05-11 2002-05-10 無音検出

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2002590554A Expired - Fee Related JP4560269B2 (ja) 2001-05-11 2002-05-10 無音検出

Country Status (8)

Country Link
US (2) US7356464B2 (ja)
EP (2) EP1393301B1 (ja)
JP (2) JP4365103B2 (ja)
KR (2) KR100916959B1 (ja)
CN (3) CN100380441C (ja)
AT (1) ATE438968T1 (ja)
DE (2) DE60217484T2 (ja)
WO (2) WO2002093552A1 (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3870193B2 (ja) 2001-11-29 2007-01-17 コーディング テクノロジーズ アクチボラゲット 高周波再構成に用いる符号器、復号器、方法及びコンピュータプログラム
SE0202770D0 (sv) 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
US7116716B2 (en) * 2002-11-01 2006-10-03 Microsoft Corporation Systems and methods for generating a motion attention model
US20040088723A1 (en) * 2002-11-01 2004-05-06 Yu-Fei Ma Systems and methods for generating a video summary
US7260261B2 (en) * 2003-02-20 2007-08-21 Microsoft Corporation Systems and methods for enhanced image adaptation
EP1531478A1 (en) * 2003-11-12 2005-05-18 Sony International (Europe) GmbH Apparatus and method for classifying an audio signal
JP4675884B2 (ja) * 2004-04-06 2011-04-27 パナソニック株式会社 特定番組検出装置及び方法並びにプログラム
JP4387408B2 (ja) * 2004-06-18 2009-12-16 パナソニック株式会社 Avコンテンツ処理装置、avコンテンツ処理方法、avコンテンツ処理プログラムおよびavコンテンツ処理装置に用いる集積回路
US9053754B2 (en) * 2004-07-28 2015-06-09 Microsoft Technology Licensing, Llc Thumbnail generation and presentation for recorded TV programs
US7986372B2 (en) * 2004-08-02 2011-07-26 Microsoft Corporation Systems and methods for smart media content thumbnail extraction
WO2007039998A1 (ja) * 2005-09-30 2007-04-12 Pioneer Corporation 本編外シーン抽出装置およびそのプログラム
US20070112811A1 (en) * 2005-10-20 2007-05-17 Microsoft Corporation Architecture for scalable video coding applications
US7773813B2 (en) 2005-10-31 2010-08-10 Microsoft Corporation Capture-intention detection for video content analysis
US8180826B2 (en) * 2005-10-31 2012-05-15 Microsoft Corporation Media sharing and authoring on the web
US8196032B2 (en) * 2005-11-01 2012-06-05 Microsoft Corporation Template-based multimedia authoring and sharing
US7599918B2 (en) 2005-12-29 2009-10-06 Microsoft Corporation Dynamic search with implicit user intention mining
JP4698453B2 (ja) * 2006-02-28 2011-06-08 三洋電機株式会社 コマーシャル検出装置、映像再生装置
TWI312981B (en) * 2006-11-30 2009-08-01 Inst Information Industr Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically
GB2482444B (en) * 2007-03-30 2012-08-01 Wolfson Microelectronics Plc Pattern detection circuitry
GB2447985B (en) 2007-03-30 2011-12-28 Wolfson Microelectronics Plc Pattern detection circuitry
US8081313B2 (en) * 2007-05-24 2011-12-20 Airbus Operations Limited Method and apparatus for monitoring gas concentration in a fluid
JP2008009442A (ja) * 2007-07-23 2008-01-17 Video Research:Kk 音声データ処理方法
CN101393744B (zh) * 2007-09-19 2011-09-14 华为技术有限公司 调整声音激活检测门限值的方法及装置
KR20100006492A (ko) * 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
GB0813715D0 (en) * 2008-07-28 2008-09-03 Airbus Uk Ltd A monitor and a method for measuring oxygen concentration
PA8847501A1 (es) * 2008-11-03 2010-06-28 Telefonica Sa Metodo y sistema de identificacion en tiempo real de un anuncio audiovisual en un flujo de datos
WO2010103422A2 (en) 2009-03-10 2010-09-16 Koninklijke Philips Electronics N.V. Apparatus and method for rendering content
US20100319015A1 (en) * 2009-06-15 2010-12-16 Richard Anthony Remington Method and system for removing advertising content from television or radio content
US8340964B2 (en) * 2009-07-02 2012-12-25 Alon Konchitsky Speech and music discriminator for multi-media application
US8606569B2 (en) * 2009-07-02 2013-12-10 Alon Konchitsky Automatic determination of multimedia and voice signals
US10116902B2 (en) * 2010-02-26 2018-10-30 Comcast Cable Communications, Llc Program segmentation of linear transmission
US9047878B2 (en) * 2010-11-24 2015-06-02 JVC Kenwood Corporation Speech determination apparatus and speech determination method
FI20145493A (fi) 2014-05-28 2015-11-29 Exaget Oy Sisällön lisääminen mediavirtaan
CN105741835B (zh) * 2016-03-18 2019-04-16 腾讯科技(深圳)有限公司 一种音频信息处理方法及终端
CN108665657B (zh) * 2017-03-30 2019-12-10 国基电子(上海)有限公司 传感器及应用该传感器的监控系统
CN107424620B (zh) * 2017-07-27 2020-12-01 苏州科达科技股份有限公司 一种音频解码方法和装置
CN116417015B (zh) * 2023-04-03 2023-09-12 广州市迪士普音响科技有限公司 一种压缩音频的静默检测方法及装置

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0127718B1 (fr) * 1983-06-07 1987-03-18 International Business Machines Corporation Procédé de détection d'activité dans un système de transmission de la voix
US4696039A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with silence suppression
JPS63118197A (ja) * 1986-11-06 1988-05-23 松下電器産業株式会社 音声検出装置
JPH0636158B2 (ja) * 1986-12-04 1994-05-11 沖電気工業株式会社 音声分析合成方法及び装置
JPH03253899A (ja) * 1990-03-05 1991-11-12 Ricoh Co Ltd 音声区間検出方式
JPH0666738B2 (ja) * 1990-04-06 1994-08-24 株式会社ビデオ・リサーチ Cm自動確認装置
WO1996003271A1 (fr) 1993-01-25 1996-02-08 Jean Alphonse David Procede de fabrication de caissons a parois multicellulaires en materiaux composites thermodurcissables realises par enroulement filamentaire
US5334947A (en) * 1993-07-06 1994-08-02 Aphex Systems, Ltd. Logic enhanced noise gate
JPH07225593A (ja) * 1994-02-10 1995-08-22 Fuji Xerox Co Ltd 音処理装置
JPH0854895A (ja) * 1994-08-11 1996-02-27 Matsushita Electric Ind Co Ltd 再生装置
JPH08237135A (ja) * 1994-10-28 1996-09-13 Nippon Steel Corp 符号化データ復号装置およびそれを用いた画像オーディオ多重化データ復号装置
KR0171840B1 (ko) * 1995-02-04 1999-04-15 김광호 스케일 팩터 분리회로
WO1996032710A1 (en) * 1995-04-10 1996-10-17 Corporate Computer Systems, Inc. System for compression and decompression of audio signals for digital transmission
JPH09152894A (ja) * 1995-11-30 1997-06-10 Denso Corp 有音無音判別器
US5890109A (en) * 1996-03-28 1999-03-30 Intel Corporation Re-initializing adaptive parameters for encoding audio signals
GB9606680D0 (en) * 1996-03-29 1996-06-05 Philips Electronics Nv Compressed audio signal processing
JPH1055150A (ja) * 1996-08-12 1998-02-24 Syst Works:Kk 音声割り込み方法及びその装置
CN1189664A (zh) * 1997-01-29 1998-08-05 合泰半导体股份有限公司 语音编码的子音识别方法
EP0867856B1 (fr) * 1997-03-25 2005-10-26 Koninklijke Philips Electronics N.V. "Méthode et dispositif de detection d'activité vocale"
KR100302370B1 (ko) * 1997-04-30 2001-09-29 닛폰 호소 교카이 음성구간검출방법과시스템및그음성구간검출방법과시스템을이용한음성속도변환방법과시스템
US6324188B1 (en) * 1997-06-12 2001-11-27 Sharp Kabushiki Kaisha Voice and data multiplexing system and recording medium having a voice and data multiplexing program recorded thereon
JP2000029486A (ja) * 1998-07-09 2000-01-28 Hitachi Ltd 音声認識システムおよび方法
US6801895B1 (en) * 1998-12-07 2004-10-05 At&T Corp. Method and apparatus for segmenting a multi-media program based upon audio events
CN1094280C (zh) * 1998-08-17 2002-11-13 英业达股份有限公司 网络电话中的静音检测方法
JP2000165806A (ja) 1998-11-30 2000-06-16 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2000172283A (ja) * 1998-12-01 2000-06-23 Nec Corp 有音検出方式及び方法
JP2000214872A (ja) * 1999-01-20 2000-08-04 Matsushita Electric Ind Co Ltd 音声検出装置
GB9912577D0 (en) * 1999-05-28 1999-07-28 Mitel Corp Method of detecting silence in a packetized voice stream
JP4287545B2 (ja) * 1999-07-26 2009-07-01 パナソニック株式会社 サブバンド符号化方式
US6658027B1 (en) * 1999-08-16 2003-12-02 Nortel Networks Limited Jitter buffer management
JP3697967B2 (ja) * 1999-09-22 2005-09-21 松下電器産業株式会社 オーディオ送信装置及びオーディオ受信装置
EP1087557A3 (en) 1999-09-22 2005-01-19 Matsushita Electric Industrial Co., Ltd. Apparatus for transmitting digital audio data and receiving apparatus for receiving the digital audio data
US6993245B1 (en) * 1999-11-18 2006-01-31 Vulcan Patents Llc Iterative, maximally probable, batch-mode commercial detection for audiovisual content
JP4300697B2 (ja) * 2000-04-24 2009-07-22 ソニー株式会社 信号処理装置及び方法
JP2001344905A (ja) * 2000-05-26 2001-12-14 Fujitsu Ltd データ再生装置、その方法及び記録媒体

Also Published As

Publication number Publication date
CN1462426A (zh) 2003-12-17
US7617095B2 (en) 2009-11-10
WO2002093552A1 (en) 2002-11-21
CN100348034C (zh) 2007-11-07
KR20030015385A (ko) 2003-02-20
KR100916959B1 (ko) 2009-09-14
US7356464B2 (en) 2008-04-08
CN1462427A (zh) 2003-12-17
EP1393301B1 (en) 2007-01-10
ATE438968T1 (de) 2009-08-15
EP1393301A1 (en) 2004-03-03
DE60233223D1 (de) 2009-09-17
EP1393480A2 (en) 2004-03-03
JP4560269B2 (ja) 2010-10-13
US20040138880A1 (en) 2004-07-15
DE60217484D1 (de) 2007-02-22
DE60217484T2 (de) 2007-10-25
WO2002093801A2 (en) 2002-11-21
WO2002093801A3 (en) 2003-01-30
EP1393480B1 (en) 2009-08-05
CN1612607A (zh) 2005-05-04
JP4365103B2 (ja) 2009-11-18
US20040125961A1 (en) 2004-07-01
KR20030027938A (ko) 2003-04-07
CN1244900C (zh) 2006-03-08
CN100380441C (zh) 2008-04-09
JP2004531766A (ja) 2004-10-14

Similar Documents

Publication Publication Date Title
JP4365103B2 (ja) 圧縮オーディオにおける信号電力の推定
US7346517B2 (en) Method of inserting additional data into a compressed signal
JP3762579B2 (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
US7451091B2 (en) Method for determining time borders and frequency resolutions for spectral envelope coding
US20050015259A1 (en) Constant bitrate media encoding techniques
US20040186735A1 (en) Encoder programmed to add a data payload to a compressed digital audio frame
JP5440051B2 (ja) コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置
US20040181403A1 (en) Coding apparatus and method thereof for detecting audio signal transient
US6772111B2 (en) Digital audio coding apparatus, method and computer readable medium
US7835915B2 (en) Scalable stereo audio coding/decoding method and apparatus
US7197454B2 (en) Audio coding
EP0612158B1 (en) A block size determination method of a transform coder
JP2003216188A (ja) オーディオ信号符号化方法、符号化装置、及び記憶媒体
US20070192086A1 (en) Perceptual quality based automatic parameter selection for data compression
US20040133420A1 (en) Method of analysing a compressed signal for the presence or absence of information content
JP3813025B2 (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP2020525853A (ja) 密集性の過渡事象の検出及び符号化の複雑さの低減

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041118

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081014

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090723

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090820

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120828

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120828

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130828

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees