JP4365103B2 - 圧縮オーディオにおける信号電力の推定 - Google Patents
圧縮オーディオにおける信号電力の推定 Download PDFInfo
- Publication number
- JP4365103B2 JP4365103B2 JP2002590144A JP2002590144A JP4365103B2 JP 4365103 B2 JP4365103 B2 JP 4365103B2 JP 2002590144 A JP2002590144 A JP 2002590144A JP 2002590144 A JP2002590144 A JP 2002590144A JP 4365103 B2 JP4365103 B2 JP 4365103B2
- Authority
- JP
- Japan
- Prior art keywords
- silence
- compressed audio
- audio signal
- signal
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 claims abstract description 37
- 230000005236 sound signal Effects 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 13
- 238000009795 derivation Methods 0.000 claims 1
- 238000013179 statistical model Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000009469 supplementation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000010257 thawing Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/56—Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
- H04H60/58—Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/426—Internal components of the client ; Characteristics thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/60—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
- H04N5/602—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals for digital sound signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/812—Monomedia components thereof involving advertisement data
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereo-Broadcasting Methods (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Television Systems (AREA)
- Mobile Radio Communication Systems (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Air Bags (AREA)
- Control Of Stepping Motors (AREA)
- Amplifiers (AREA)
Description
【発明の属する技術分野】
本発明は、圧縮オーディオ信号における信号電力の推定に関する。更に、本発明は、無音検出及びこのような無音検出を用いる受信機に関する。
【0002】
【従来の技術】
国際特許出願公開第WO96/3271A1号は、補助データが、復号され得るように、オーディオデータと共に多重化及び符号化され、並びに送信され得るデジタル伝送のためのオーディオ信号の圧縮及び解凍のためのシステムを開示している。この文献は、音声があるかどうか調べるべく別のチャネル中を探すための最小スケールファクタ値(minimum scale factor value)の計算を159ページにおいて、開示している。
【0003】
【課題を解決するための手段】
本発明の目的は、圧縮オーディオ信号における有利な信号電力推定を提供することにある。このため、本発明は、独立項において規定されているような、信号電力を推定する方法及び装置と、無音検出器と、受信機とを提供する。有利な実施例は、従属項において規定されている。
【0004】
本発明の第1の特徴によれば、信号電力は、所与のブロックがスケールファクタのセットを具備する量子化サンプルのブロックを有する圧縮オーディオ信号において推定される。前記スケールファクタのセットは、前記圧縮オーディオ信号から導出され、前記信号電力は、前記スケールファクタの組合せに基づいて前記所与のブロックにおいて推定される。前記所与のブロックは、一つ以上のオーディオフレーム又はオーディオフレームの一部であっても良い。スケールファクタは、前記圧縮オーディオ信号から容易に導出され得る。本発明は、スケールファクタは該スケールファクタが関連するサンプルのあり得る最大値(maximum possible value)を表わすという洞察に基づく。それ故、前記スケールファクタの組合せ、例えば2乗されたスケールファクタの和は、限られた計算負荷(computational load)しか必要とせずに前記信号電力の大雑把な推定(rough estimation)を与える。前記大雑把な推定は、例えばコマーシャル検出器における無音検出などの幾つかのアプリケーションには全く十分である。
【0005】
好ましい実施例においては、スケールファクタのサブセットしか用いられない。スケールファクタの全セットのうちサブセットしか用いないことにより、計算負荷は更に低減される。これはより低い精度をもたらし得るが、これはコマーシャル検出器などにおける無音検出のような幾つかのアプリケーションにとっては許容可能である。
【0006】
スケールファクタのサブセットの形成は、時間方向及び/又は周波数方向においてスケールファクタを省略することによって行なわれ得る。例えば、前記サブセットは、圧縮オーディオ信号において利用可能な複数の狭帯域副信号のサブセットしか含まなくても良く、好ましくは前記サブセットは多数の低周波副信号のスケールファクタを含む。
【0007】
前記圧縮オーディオ信号がステレオ又はマルチチャネル信号である場合には、利用可能なチャネルのサブセットのみが用いられ得る。
【0008】
添付図面を参照して本発明のこれら及び他の特徴を説明し、明らかにする。
【0009】
図面は、本発明の実施例を理解するための助けとなる要素しか示していない。
【0010】
【発明の実施の形態】
図1は、圧縮オーディオ信号[A]を受け取るための本発明の実施例による受信機1を示している。受信機1は、圧縮オーディオ信号[A]を得るための入力部10を有する。入力部10は、アンテナ、ネットワーク接続部、読出装置などであり得る。更に、受信機1は、圧縮オーディオ信号中の無音を検出する無音検出器11、及び無音の検出に依存してオーディオ信号に作用する作用ブロック(influencing block)12を有する。ブロック12は、例えば、圧縮オーディオ信号を復号する復号器であっても良く、この復号器においては、復号が検出される無音に依存する。ブロック12はまた、圧縮オーディオの検出される無音に依存する部分をスキップするスキップブロックであっても良い。無音検出器11は、コマーシャル検出器を形成するために強化され得る。検出されるコマーシャルは、復号中にスキップされ得る。復号された又は依然として圧縮されている作用されたオーディオ信号Aは、出力部13に出力され得る。出力部13は、ネットワーク接続部、再生装置又は記録装置であり得る。圧縮オーディオ信号[A]はプログラムストリーム中に含まれていても良く、このプログラムストリームは更にビデオ信号を含む。この場合には、プログラム信号は、圧縮オーディオ信号中の検出される無音に少なくとも部分的に依存するブロック12において作用され得る。有利なアプリケーションは、コマーシャルではないコンテンツしか記憶しない記憶装置である。
【0011】
本発明の実施例は、例えばコマーシャル検出用の無音検出との関連において記載されている。欧州特許出願公開第EP1006685A2号が、テレビ信号を処理し、テレビ信号中のコマーシャルの存在を検出するための方法及び装置を開示していることに注意されたい。コマーシャル候補区間検出器は、静音区間及びシーンチェンジポイントに基づいてコマーシャル候補区間を検出する。コマーシャル特徴量検出器は、コマーシャル候補区間がコマーシャルの様々な特徴を持っているか否かを判定し、この判定結果に基づいてコマーシャル特徴値に所定の値を付加する。コマーシャル特徴量検出器は、最終的なコマーシャル特徴値を所定の閾値と比較し、比較結果に基づいてコマーシャル候補区間がコマーシャル区間であるか否かを判定する。静音区間検出器は、静音区間を検出するためにデジタル化オーディオ信号のレベルを閾値と比較し、比較結果をシーンチェンジ検出器に出力する。更に、欧州特許出願公開第EP1087557A2号に対する参照がなされる。
【0012】
本発明の実施例によるコマーシャル検出器は、オーディオビジュアルストリーム中のコマーシャルブロックを自動的に検出する。これは、キーフレーム抽出(key-frame extraction)、編集又は再生などの如何なる種類の処理の間にもコマーシャルをスキップすることを可能にする。幾つかのオーディオフィーチャについては、局所統計値が、スライドウィンドウ(sliding window)において測定され、コマーシャルの統計モデルと比較される。この比較によって、オーディオ信号がどのように局所的にコマーシャルと類似しているのかを表わす正規化尤度関数(normalized likelihood function)が導出される。尤度関数は、コマーシャル検出のために適切にトリガされ得る。統計ウインドウは、局所分析において細部に渡り、且つ検出に影響を及ぼさない局所的な不規則性及び変動(fluctuation)に対して強い(robust)ように選ばれる。アルゴリズムは、単一のストリームに沿って変化し得る、又は或るストリームと別のストリームとの間で変化し得る幾つかの条件に適応可能である。このアルゴリズムはビデオに依存しない。それにもかかわらず、ビデオ分析が、分類を強化又は拡張するために含まれ得る。このアルゴリズムは、幾つかの種類の記憶システムに適用され得る。
【0013】
多くのオーディオ符号器(例えばMPEG-1レイヤ1/2/3、MPEG-2レイヤ1/2/3、MPEG-2 AAC、MPEG-4 AAC、AC-3)は周波数領域符号器である。これらは、ソーススペクトルを多数の狭帯域副信号に分割し、別々に各周波数成分又は各サンプルを量子化する。周波数成分又はサンプルは、スケールファクタ及びビット割当(bit allocation)に基づいて量子化される。これらのスケールファクタは、周波数成分又はサンプルの最大値のインジケータとみなされ得る。
【0014】
AC-3においては、周波数成分が仮数.2(- べき指数 )によって表される。ここで、べき指数は、2(- べき指数 )と等しい各仮数に対するスケールファクタとして作用する。
【0015】
MPEG-1レイヤ2において、狭帯域副信号は12量子化サンプルのグループに分割され、ここで、各グループは対応スケールファクタを持つ。このスケールファクタは、該スケールファクタが関連するサンプルの最大値に対応する。
【0016】
検出アルゴリズムは、好ましくはスケールファクタのサブセットを用いる。狭帯域副信号の全て又はサブセットにおいて、信号電力の上限は、スケールファクタを二乗することにより算出される。
【0017】
MPEGオーディオ圧縮を用いる実施例を以下により詳細に記載する。MPEG-1レイヤ2においては、オーディオ信号が、各々48kHz、44.1kHz又は32kHzのサンプリングレートに対して24msec、26.1msec又は36msecの時間間隔に分割される。これらの時間間隔の各々において、信号がフレームにおいて符号化される。図2を参照すると、各フレーム間隔が3つの部分(Part)に分割され、信号が32個のサブバンド(Subband)成分に分解されている。各サブバンド成分且つフレームの各3分の1(図2における1つの長方形)に対して、12サンプルが、スケールファクタ及び適切に選ばれる多数のビットに基づいて量子化される。スケールファクタは、12サンプルの絶対値の上限推定を与える。この推定はあまり正確ではないかもしれないが、これはコマーシャル検出には必要とされない。スケールファクタは、フレームにおいて疑似対数の指数(pseudo logarithmic index)として直接的に入手可能であるので、スケールファクタは、ごくわずかな計算負荷で各オーディオフレームから導出され得る。幾つかの限られたフレームヘッダの復号しか必要とされない。解凍は必要ない。
【0018】
ステレオモードにおいて、各チャネルは、フレーム毎に各チャネル固有の96個のスケールファクタ(ScaleF)を持つ。検出アルゴリズムは、左又は右のチャネルの各サブバンド(Subb)において最大スケールファクタのみを選択し(図3参照)、32個の値が、バッファされ、(対数フォーマットではない)線形フォーマットに変換される。例えば、48kHzのオーディオサンプリングレートに対しては、規格に基づいてサブバンド0… 26しか用いられず、これは、24msec毎に27サンプル、即ち、コマーシャル検出器にとって非常に適度の入力データレートの1125サンプル/秒を与える。サブバンド信号電力における上限を得るために、バッファされたスケールファクタの二乗が算出される。次いで、これらは、
(1) これら二乗の和が総短時間電力(total short time power)における上限を与え、
(2) これら二乗が短時間帯域幅推定を算出するために用いられ得るというように用いられる。
【0019】
下表は、MPEG-1レイヤ2におけるスケールファクタ(scalefactor)に対する疑似対数の指数(index)のほんの一部を示している(ISO/IEC 11172-3:1993の表B.1を参照)。
【0020】
【表1】
オーディオフレーム(audio frame)jのための短時間電力(short time power)の推定が以下に示されている。
【数1】
他の例においては、スケールファクタを見出すためにルックアップテーブルを用いることが可能である。前記和は、所与の時点におけるサブバンドの数にわたって行なわれるべきである。サブバンドのサブセットが用いられる場合、この和は、アプリケーションに依存して用いられるサブバンドの数又はサブバンドの総数にわたって行なわれなければならない。
【0021】
無音検出は、
1) 例えば上記のようなFrame_powerを用いることによる局所信号電力レベル、
2) 無音持続期間、並びに
3) 無音の間の局所電力線形偏差、
4)無音開始前の局所電力低下率(local power fall rate)、及び
5)無音終了時の局所電力上昇率というパラメータのうちの少なくとも1つにおけるネストされたしきい値(nested threshold)に基づく。
【0022】
信号電力の特徴は、無音検出器が動作する環境に非常に依存することから、好ましくは検出器は適応可能である。それ故、適応可能であるために、局所電力レベル関連のパラメータ(即ち、1)、3)及び/又は4))が、遅れずにこれらパラメータの平均値と比較される。局所信号電力に対する典型的なしきい値は0.01であり、即ち、局所信号電力は信号電力の時間平均の1パーセント未満でなければならない。時間平均は、長さwのフレームを備える適応ウインドウ(adaptation window)を用いることにより算出される。実際的な解法は以下の通りである。
【数2】
ここで、jはフレームインデックス(flame index)である。
【0023】
無音持続期間は、局所信号電力レベルが所与の固定の又は適応可能なしきい電力レベル未満である持続期間である。線形偏差は、少なくとも無音持続期間の部分にわたっての(平均フレーム電力を引いたフレーム電力)の和である。線形偏差及び低下/上昇率は、知覚し得るがコマーシャル検出に関連しない無音の部分にフィルタをかけるために用いられる。局所信号電力レベルは、好ましくは、例えばオーディオフレーム毎又はオーディオフレームの部分毎に、上記のようにスケールファクタを用いることによって決定される。
【0024】
コマーシャルブロックにおけるコマーシャルの間の切れ目(break)の無音持続期間の実際的な範囲は、3/25秒乃至20/25秒である。
【0025】
無音開始時間、無音持続期間及び無音の局所電力レベルの値は、下記の統計計算のためにバッファされる。コマーシャルは、
1) 2つの連続的な検出される無音の間の時間間隔、
2) (絶対的な及び/又は相対的な)前記検出される無音の局所信号電力レベル、
3) 無音持続期間、及び
4)オーディオ信号の局所帯域幅といったフィーチャの局所統計モデルで特徴付けられる。
【0026】
オーディオフレームjの局所帯域幅(local bandwidth)は、以下のようにスケールファクタから算出され得る。
【数3】
各フィーチャに対して、0と1との間の値で、0.5で正規化された尤度関数(0.5-normalized likelihood function)が得られる。これは、このフィーチャの局所統計がどの程度コマーシャルの局所統計と類似しているかを表す。次いで、一度に全情報を利用するやはり0.5で正規化された大域尤度関数(global likelihood function)を得るために、種々の尤度関数が種々の重みと組み合わされる。大域尤度関数は、無音開始時点としてバッファされた時間軸の各ポイントにおいて算出される。値0.5は、基本的に「全くの不確実性(total uncertainty)」又は「コマーシャルブロック内である確率0.5」を意味する。尤度関数は種々の方法で用いられ得る。尤度関数は、コマーシャルの境界を検出するために適切にトリガされ得る。尤度関数は、任意にビデオフィーチャも利用して更なる分析及び分類を行なうアルゴリズムによって、(コマーシャルとコマーシャルではないもの(non-commercials)との間の正規化されたソフトな分類(normalized soft classification)として)用いられ得る。(単輝度(mono-luminance)、単色フレーム検出(mono-chrominance frame detection)、シーンチェンジ検出のような)種々のレベルのビデオフィーチャは、同じ尤度法又は他の方法を適用してオーディオフィーチャと共に統計的に分析され得る。補充(refilling)を備えてトリガされるコマーシャル検出が、上記のオーディオ分析に基づいて開発され、試験された。0.5正規化尤度関数L(t)は、検出される無音がコマーシャルブロックに属するか否か決定するために用いられ得る。これは以下のように規定される関数Q(L(t))によってなされ得る。
L(t) > 0.5の場合Q(L(t)) = 1
L(t) ≦ 0.5の場合Q(L(t)) = 0
ここで、0の値及び1の値は、各々、検出される無音がコマーシャルではないブロックに属すること及び検出される無音がコマーシャルブロックに属することを意味する。
【0027】
実際的な実施例において、コマーシャルのシーケンスは、該シーケンスが少なくとも60秒続く場合にしか検出されない。45秒未満の短い間隔に対してしか尤度関数が0.5未満にならない場合には、Q(t)は1に設定される。このプロシージャは、「内部補充(internal refilling)」と呼ばれている。内部補充は、散発的な内部の検出の欠落(sporadic internal missing detections)を解消する。「外部補充(external refilling)」は、コマーシャルの始め及び終わりにおいて、適用される。例えば、
ti、ti+1、…、ti+N、…が、検出される無音が始まる時点のシーケンスであり、
L(ti) = 0.2
L(ti+1) = 0.4
L(ti+2) = 0.6
各j = i+3、…、i+Nに対してL(tj) > 0.5
j > i+Nに対してL(tj) < 0.5であり、且つ
ti+2 - ti+1 < 45.0秒
ti+N+1 - ti+N < 45.0秒である場合には、
Q(L(ti))= 0
Q(L(ti+1)) = 1
Q(L(ti+2)) = 1
…
Q(L(ti+N+1)) = 1
j > i+N+1に対してQ(L(tj)) = 0となる。
外部補充は、最初の地点及び最後の箇所の分類ミス(systematic miss)の回避に有効である。この事実は、ウィンドウ処理の細部(windowing details)と関連付けられる。外部補充及び内部補充は上方駆動(upper driven)の特別な非線形フィルタリングとみなされ得る。コマーシャルブロックの汎用統計モデルが用いられ得る。異なる日時及び/又は異なる種類の番組(メロドラマ、トークショー、フットボールの試合など)及び/又は異なるチャネルに対して異なるコマーシャルブロックモデルを用いて統計の細部を精緻化することは可能である。これは、十分なパフォーマンスを得るためには必要ではないが、当然、パフォーマンスを改善し得る。これは、対象システム(target system)の複雑さと該対象システムのパフォーマンスとの間のトレードオフの問題である。単一のチャネルについて遅れずに条件を変更するような検出の適応性(adaptability)は好ましい。更に、チャネル切替えに対する適応性は好ましい。とりわけ、局所最小雑音レベルは、単一のチャネルについて遅れずに変化するかもしれず、或るチャネルから別のチャネルへは大いに変化し得る。これは、無音検出にとって極めて重要である。更に、コマーシャルブロックの統計モデルにおける適応性は、極めて重要というわけではないが、有用である。システムは、局所最小雑音レベルにおいて十分にセルフトレーニング(self-training)する(適応可能である)ように実施され得る。唯一の制約は、チャネルが切り替えられるたびごとのアルゴリズムのリセットの適用である。これは、適応性と精度との間のトレードオフの問題のために、適応性が、最初の期間において速く、続いてゆっくりになるからである。コマーシャルブロック内の相対的に速い適応は精度を低下させるであろうことから、アルゴリズムがいつでも速く適応できるようにされる場合には、検出の精度は低下するであろう。実際的な実施例においては、切替え適応性(switch-adaptability) (即ち、あらゆる連続的な切替えに対するリセット)は、最初の数分しか適用されない一方で、単一チャネルに沿った適応性(along-a-single-channel adaptability)は常に保持する。適応性の安定性は、非対称方式によって確実にされる。最小雑音レベルが減少している場合の適応性は、最小雑音レベルが増大している場合の適応性より速い。これは、例えば、前に検出された無音より低い局所電力エネルギを備える無音が検出される場合に無音検出のための局所電力エネルギしきい値が相対的に急速に減少することを意味する。起こり得る2種類のエラー、即ち、コマーシャル検出欠落又は誤ったコマーシャル検出(false commercial detection)のいずれかがある。両方とも、相対的に少なく、且つコマーシャルブロックの開始部分又は終了部分に限定される。いずれにせよアルゴリズムはフレキシブルであり、決定パラメータは、どちらがより適切であるかに依存してこれら2つのエラーの割合の間のトレードオフを変えることが出来る。例えば、コマーシャルブロック検出が自動キーフレーム抽出のための前処理である場合には、検出欠落率が低いことがより重要である。単純な再生の場合には誤った検出が少ないことがより適切である。(他のフィーチャが付加され得るが)選ばれたフィーチャに関して、サブバンド分析なしに局所電力エネルギ及び局所帯域幅を別々に評価することは可能である。2分(他の値が選ばれても良い)の対称スライドウィンドウにおいて低いサンプリングレートを備える帯域幅の値が必要とされる。それ故、この値は、例えば、少数のポイント(point)を持つ連続する短い区間(interval)の高速フーリエ変換(FFT’s)の平均によって推定され得る。項(term)ごとに又は一括して、様々な種類の正規化及び1つ又は幾つかの尤度関数の組合せを実施することは可能である。実際的な実施は、くりこみ(renormalization)との一括又は項ごとの積の組合せ(product combination)に基づく。この積は、基本的にブールのセット(Boolean set){0、1}から連続的な区間[0、1]まで拡張されたブールのAND(Boolean AND)である。これは、良好な選択性を確実にする。大雑把に言って、種々の条件が同時に全てをソフトに(softly)課される。これらの条件は、全てを完全に満たされる必要はないが、全てをほとんど満たされる必要がある。その代わり加算の組合せは、十分な選択性を確実なものとしないブールのORの拡張の一種となろう。更なる選択性及び強さ(robustness)は、持続期間しきい値を備える尤度についてのハードな決定によって確実にされる。尤度-雑音公差は、同様に内部補充によって確実にされる。
【0028】
以下の例においては、36分の録画が考えられている。この録画は、映画の最後の部分から始まる。[646、866]秒はコマーシャルを含む。866秒において、テレビ番組が始まる。他のコマーシャルは、[1409、1735]秒の区間中にある。図4は、各検出された無音の間の算出された局所信号電力(sil-power(t))を円でプロットしている。ばつ印は、これらの値の後退平均(backward average)(average[sil-power] (t))を表す。(区間[646、866]及び区間[1409、1735]における)コマーシャルの無音が、主により低い電力を備えるカット無音(cut silences)であることは明らかである。大雑把に、コマーシャル内の無音の異なる分布に気付かされ得る。例えば、これらの無音のほとんどは、10秒乃至30秒離れている。図示されている詳細のような統計の詳細が、尤度関数推定において用いられる。図5は、得られた尤度関数をプロットしている。満たされたトリガ(filled triggering)は[648、866]及び[1408、1735]を検出する。
【0029】
あり得る変形例
1)より大きな部分のスケールファクタをバッファすることは可能である。前記スケールファクタをサブサンプリングすることも可能である。現在の96個の残されているチャネルスケールファクタ(96 left scale factor)からの32個の選択が有効であることが分かった。
2) 異なるオーディオフィーチャのセットを選ぶことは可能である。当然、他のフィーチャを取り入れる前には入念な調査が必要とされる。
3) 上記のように、様々な種類の正規化及び1つ又は幾つかの尤度関数の組合せを実施することは可能である。本実施例は、くりこみとの積の組合せに基づく。この積は、基本的にブールのセット{0、1}から連続的な区間[0、1]まで拡張されたブールのANDである。これは、良好な選択性を確実にする。セミ和(semi-sum)はブールのORの拡張の一種であるが、前記セミ和は十分な選択性を確実なものとしない。
4) 補充を備える大域尤度関数のトリガの選択は、例えば、異なるウィンドウ処理様式(windowing modalities)及び/又は異なるオーディオフィーチャが用いられる場合に変更され得る。
5) 多くのブロードキャスタ(broadcaster)によってコマーシャルブロックの始め及び/又は終わりに規則正しく置かれるような特定のオーディオシーケンスの認識も、直接的にスケールファクタを処理することにより達成され得る。
【0030】
送信機側では、カット無音がよりよく検出されるようにカット無音を適応させることによって、例えば、前記カット無音の信号電力を低下させることによって、無音持続期間を適応させることによって、信号電力低下率を増大させることによって、及び/又は前記無音の間の電力偏差を減少させることによって、尤度関数の助けとなることが可能である。これに反して、カット無音の信号電力を増大させることによって、例えば、前記無音の間、雑音を差し込むことによって、無音持続期間を適応させることによって、信号電力低下率を減少させることによって、及び/又は電力偏差を増大させることによって、カット無音の検出性(detectability)を低下させることも可能である。更に、信号中に偽のカット無音を差し込むことも可能である。実際的な実施例において、カット無音の電力と同様の低い電力及び30秒の間隔を備える0.15秒の偽のカット無音は、おそらくコマーシャルブロック検出を害するであろう。偽のカット無音は、好ましくは音声の無音(speech silences)などの既存の無音中に挿入される。この場合には、これらの偽の無音は、平均的なユーザによってほとんど気づかれ得ないであろう。
【0031】
アルゴリズムは、オーディオビジュアル材料中のコマーシャルブロックを検出し、該コマーシャルブロックの境界に印をつける。次いで、コマーシャルブロックは、閲覧(browsing)、自動予告編(trailer)作成、編集又は単なる再生のような如何なる種類の処理の間にもスキップされ得る。この機能は、非常に低い追加コストで幾つかの種類の記憶装置に組み込まれ得る。前記機能は、データの取得中の実時間において、又はオフラインにおいて、記憶された材料に適用され得る。
【0032】
上記の実施例は、本発明を限定するものではなく、例示するものであること、及び当業者は、添付されている特許請求の範囲の範囲から外れることなしに、多くの他の実施例を設計することが出来るであろうことに注意されたい。特許請求の範囲において、括弧の間に配置されている如何なる参照符号も、特許請求の範囲を限定するものとして解釈されるべきではない。「有する」という用語は、請求項において列挙されている要素又はステップ以外の要素又はステップの存在を除外しない。本発明は、幾つかの別個の素子を有するハードウェアによって、及び適当にプログラムされたコンピュータにより実施され得る。幾つかの手段を列挙している装置の請求項において、これらの手段の幾つかは、ハードウェアの同一アイテムにより実施され得る。単に、或る方策が互いに異なる従属項において列挙されているという事実は、これらの方策の組合せが有利となるようには用いられ得ないことを示すものではない。
【図面の簡単な説明】
【図1】本発明の実施例による受信機を示す。
【図2】各サブバンドが、3つのブロックに細分されており、各ブロックが、12量子化サンプルを含み、スケールファクタを具備している32個のサブバンドを含む一例としてのオーディオフレームを示す。
【図3】各サブバンドに対して最大スケールファクタが選択されており、あり得る選択が灰色で強調されている図2の一例としてのオーディオフレームを示す。
【図4】円が検出された無音の局所信号電力を表し、ばつ印がこれらの局所信号電力の平均を表す一例としての図を示す。
【図5】図4に関する一例としての尤度関数を示す。
Claims (10)
- 圧縮オーディオ信号内のコマーシャル検出用の無音を識別する方法であって、前記圧縮オーディオ信号が量子化サンプルのブロックを有し、所与のブロックがスケールファクタのセットを具備し、当該方法が、
前記圧縮オーディオ信号から前記スケールファクタのセットを導出するステップと、
前記スケールファクタの組合せに基づいて、前記所与のブロックにおける信号電力を推定するステップと、
前記所与のブロックにおける信号電力に対応する局所信号電力レベルと、前記局所信号電力レベルが閾値未満である無音持続期間と、無音の間の局所電力線形偏差、無音開始前の局所電力低下率、及び、無音終了時の局所電力上昇率のうち少なくとも1つに基づいて決定されるパラメータとに基づいて、前記コマーシャル検出用の無音を識別するステップとを有する方法。 - 前記導出するステップ、前記推定するステップ及び前記識別するステップが、前記スケールファクタのセットの一部においてしか行なわれないことを特徴とする請求項1に記載の方法。
- 前記圧縮オーディオ信号が周波数方向において細分された複数の狭帯域副信号を有し、各狭帯域副信号は、量子化サンプルを含み、一つ以上のスケールファクタを具備する前記ブロックであり、前記導出するステップが前記複数の狭帯域副信号のうちの一つ以上において行なわれることを特徴とする請求項1又は請求項2に記載の方法。
- 前記導出するステップが前記複数の狭帯域副信号の一部においてしか行なわれないことを特徴とする請求項3に記載の方法。
- 前記複数の狭帯域副信号の一部が、主として、多数の低周波副信号のスケールファクタを含むことを特徴とする請求項4に記載の方法。
- 前記ブロックが時間方向において少なくとも2つに細分された副ブロックを有し、各副ブロックはスケールファクタを具備し、前記推定するステップにおいて用いるために前記ブロック毎に最大スケールファクタのみが導出されることを特徴とする請求項3乃至5のいずれか一項に記載の方法。
- 前記圧縮オーディオ信号がステレオ信号又はマルチチャネル信号であり、前記導出するステップが利用可能なチャネルの一部においてしか行なわれないことを特徴とする請求項1乃至6のいずれか一項に記載の方法。
- 圧縮オーディオ信号内のコマーシャル検出用の無音を識別する装置であって、前記圧縮オーディオ信号が量子化サンプルのブロックを有し、所与のブロックがスケールファクタのセットを具備し、当該装置が、
前記圧縮オーディオ信号から前記スケールファクタのセットを導出する手段と、
前記スケールファクタの組合せに基づいて、前記所与のブロックにおける信号電力を推定する手段と、
前記所与のブロックにおける信号電力に対応する局所信号電力レベルと、前記局所信号電力レベルが閾値未満である無音持続期間と、無音の間の局所電力線形偏差、無音開始前の局所電力低下率、及び、無音終了時の局所電力上昇率のうち少なくとも1つに基づいて決定されるパラメータとに基づいて、前記コマーシャル検出用の無音を識別する手段とを有する装置。 - 請求項8に記載の装置、及び
前記圧縮オーディオ信号中の前記コマーシャル検出用の無音を検出するために前記信号電力の推定を評価する手段を有する無音検出器。 - 圧縮オーディオ信号を受け取る受信機であって、当該受信機は、
前記圧縮オーディオ信号を得るための入力部、
前記圧縮オーディオ信号における前記コマーシャル検出用の無音を検出するための請求項9に記載の無音検出器、及び
前記圧縮オーディオ信号に作用するための手段を有し、前記作用する手段において、前記作用は、少なくとも部分的に前記コマーシャル検出用の無音の検出に依存する受信機。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP01201730 | 2001-05-11 | ||
PCT/IB2002/001561 WO2002093552A1 (en) | 2001-05-11 | 2002-05-08 | Estimating signal power in compressed audio |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004520627A JP2004520627A (ja) | 2004-07-08 |
JP4365103B2 true JP4365103B2 (ja) | 2009-11-18 |
Family
ID=8180284
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002590144A Expired - Fee Related JP4365103B2 (ja) | 2001-05-11 | 2002-05-08 | 圧縮オーディオにおける信号電力の推定 |
JP2002590554A Expired - Fee Related JP4560269B2 (ja) | 2001-05-11 | 2002-05-10 | 無音検出 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002590554A Expired - Fee Related JP4560269B2 (ja) | 2001-05-11 | 2002-05-10 | 無音検出 |
Country Status (8)
Country | Link |
---|---|
US (2) | US7356464B2 (ja) |
EP (2) | EP1393301B1 (ja) |
JP (2) | JP4365103B2 (ja) |
KR (2) | KR100916959B1 (ja) |
CN (3) | CN100380441C (ja) |
AT (1) | ATE438968T1 (ja) |
DE (2) | DE60217484T2 (ja) |
WO (2) | WO2002093552A1 (ja) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1423847B1 (en) | 2001-11-29 | 2005-02-02 | Coding Technologies AB | Reconstruction of high frequency components |
SE0202770D0 (sv) | 2002-09-18 | 2002-09-18 | Coding Technologies Sweden Ab | Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks |
US20040088723A1 (en) * | 2002-11-01 | 2004-05-06 | Yu-Fei Ma | Systems and methods for generating a video summary |
US7116716B2 (en) * | 2002-11-01 | 2006-10-03 | Microsoft Corporation | Systems and methods for generating a motion attention model |
US7260261B2 (en) * | 2003-02-20 | 2007-08-21 | Microsoft Corporation | Systems and methods for enhanced image adaptation |
EP1531478A1 (en) * | 2003-11-12 | 2005-05-18 | Sony International (Europe) GmbH | Apparatus and method for classifying an audio signal |
US8014882B2 (en) * | 2004-04-06 | 2011-09-06 | Panasonic Corporation | Particular program detection device, method, and program |
WO2005124782A1 (ja) * | 2004-06-18 | 2005-12-29 | Matsushita Electric Industrial Co., Ltd. | Avコンテンツ処理装置、avコンテンツ処理方法、avコンテンツ処理プログラムおよびavコンテンツ処理装置に用いる集積回路 |
US9053754B2 (en) | 2004-07-28 | 2015-06-09 | Microsoft Technology Licensing, Llc | Thumbnail generation and presentation for recorded TV programs |
US7986372B2 (en) * | 2004-08-02 | 2011-07-26 | Microsoft Corporation | Systems and methods for smart media content thumbnail extraction |
WO2007039998A1 (ja) * | 2005-09-30 | 2007-04-12 | Pioneer Corporation | 本編外シーン抽出装置およびそのプログラム |
US20070112811A1 (en) * | 2005-10-20 | 2007-05-17 | Microsoft Corporation | Architecture for scalable video coding applications |
US7773813B2 (en) | 2005-10-31 | 2010-08-10 | Microsoft Corporation | Capture-intention detection for video content analysis |
US8180826B2 (en) * | 2005-10-31 | 2012-05-15 | Microsoft Corporation | Media sharing and authoring on the web |
US8196032B2 (en) * | 2005-11-01 | 2012-06-05 | Microsoft Corporation | Template-based multimedia authoring and sharing |
US7599918B2 (en) | 2005-12-29 | 2009-10-06 | Microsoft Corporation | Dynamic search with implicit user intention mining |
JP4698453B2 (ja) * | 2006-02-28 | 2011-06-08 | 三洋電機株式会社 | コマーシャル検出装置、映像再生装置 |
TWI312981B (en) * | 2006-11-30 | 2009-08-01 | Inst Information Industr | Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically |
GB2482444B (en) * | 2007-03-30 | 2012-08-01 | Wolfson Microelectronics Plc | Pattern detection circuitry |
GB2447985B (en) * | 2007-03-30 | 2011-12-28 | Wolfson Microelectronics Plc | Pattern detection circuitry |
US8081313B2 (en) * | 2007-05-24 | 2011-12-20 | Airbus Operations Limited | Method and apparatus for monitoring gas concentration in a fluid |
JP2008009442A (ja) * | 2007-07-23 | 2008-01-17 | Video Research:Kk | 音声データ処理方法 |
CN101393744B (zh) * | 2007-09-19 | 2011-09-14 | 华为技术有限公司 | 调整声音激活检测门限值的方法及装置 |
KR20100006492A (ko) * | 2008-07-09 | 2010-01-19 | 삼성전자주식회사 | 부호화 방식 결정 방법 및 장치 |
GB0813715D0 (en) * | 2008-07-28 | 2008-09-03 | Airbus Uk Ltd | A monitor and a method for measuring oxygen concentration |
PA8847501A1 (es) * | 2008-11-03 | 2010-06-28 | Telefonica Sa | Metodo y sistema de identificacion en tiempo real de un anuncio audiovisual en un flujo de datos |
WO2010103422A2 (en) | 2009-03-10 | 2010-09-16 | Koninklijke Philips Electronics N.V. | Apparatus and method for rendering content |
US20100319015A1 (en) * | 2009-06-15 | 2010-12-16 | Richard Anthony Remington | Method and system for removing advertising content from television or radio content |
US8340964B2 (en) * | 2009-07-02 | 2012-12-25 | Alon Konchitsky | Speech and music discriminator for multi-media application |
US8606569B2 (en) * | 2009-07-02 | 2013-12-10 | Alon Konchitsky | Automatic determination of multimedia and voice signals |
US10116902B2 (en) * | 2010-02-26 | 2018-10-30 | Comcast Cable Communications, Llc | Program segmentation of linear transmission |
JP5874344B2 (ja) * | 2010-11-24 | 2016-03-02 | 株式会社Jvcケンウッド | 音声判定装置、音声判定方法、および音声判定プログラム |
FI20145493A (fi) | 2014-05-28 | 2015-11-29 | Exaget Oy | Sisällön lisääminen mediavirtaan |
CN105741835B (zh) * | 2016-03-18 | 2019-04-16 | 腾讯科技(深圳)有限公司 | 一种音频信息处理方法及终端 |
CN108665657B (zh) * | 2017-03-30 | 2019-12-10 | 国基电子(上海)有限公司 | 传感器及应用该传感器的监控系统 |
CN107424620B (zh) * | 2017-07-27 | 2020-12-01 | 苏州科达科技股份有限公司 | 一种音频解码方法和装置 |
CN116417015B (zh) * | 2023-04-03 | 2023-09-12 | 广州市迪士普音响科技有限公司 | 一种压缩音频的静默检测方法及装置 |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0127718B1 (fr) * | 1983-06-07 | 1987-03-18 | International Business Machines Corporation | Procédé de détection d'activité dans un système de transmission de la voix |
US4696039A (en) * | 1983-10-13 | 1987-09-22 | Texas Instruments Incorporated | Speech analysis/synthesis system with silence suppression |
JPS63118197A (ja) * | 1986-11-06 | 1988-05-23 | 松下電器産業株式会社 | 音声検出装置 |
JPH0636158B2 (ja) * | 1986-12-04 | 1994-05-11 | 沖電気工業株式会社 | 音声分析合成方法及び装置 |
JPH03253899A (ja) * | 1990-03-05 | 1991-11-12 | Ricoh Co Ltd | 音声区間検出方式 |
JPH0666738B2 (ja) * | 1990-04-06 | 1994-08-24 | 株式会社ビデオ・リサーチ | Cm自動確認装置 |
WO1996003271A1 (fr) | 1993-01-25 | 1996-02-08 | Jean Alphonse David | Procede de fabrication de caissons a parois multicellulaires en materiaux composites thermodurcissables realises par enroulement filamentaire |
US5334947A (en) * | 1993-07-06 | 1994-08-02 | Aphex Systems, Ltd. | Logic enhanced noise gate |
JPH07225593A (ja) * | 1994-02-10 | 1995-08-22 | Fuji Xerox Co Ltd | 音処理装置 |
JPH0854895A (ja) * | 1994-08-11 | 1996-02-27 | Matsushita Electric Ind Co Ltd | 再生装置 |
JPH08237135A (ja) * | 1994-10-28 | 1996-09-13 | Nippon Steel Corp | 符号化データ復号装置およびそれを用いた画像オーディオ多重化データ復号装置 |
KR0171840B1 (ko) * | 1995-02-04 | 1999-04-15 | 김광호 | 스케일 팩터 분리회로 |
WO1996032710A1 (en) * | 1995-04-10 | 1996-10-17 | Corporate Computer Systems, Inc. | System for compression and decompression of audio signals for digital transmission |
JPH09152894A (ja) * | 1995-11-30 | 1997-06-10 | Denso Corp | 有音無音判別器 |
US5890109A (en) * | 1996-03-28 | 1999-03-30 | Intel Corporation | Re-initializing adaptive parameters for encoding audio signals |
GB9606680D0 (en) * | 1996-03-29 | 1996-06-05 | Philips Electronics Nv | Compressed audio signal processing |
JPH1055150A (ja) * | 1996-08-12 | 1998-02-24 | Syst Works:Kk | 音声割り込み方法及びその装置 |
CN1189664A (zh) * | 1997-01-29 | 1998-08-05 | 合泰半导体股份有限公司 | 语音编码的子音识别方法 |
DE69831991T2 (de) * | 1997-03-25 | 2006-07-27 | Koninklijke Philips Electronics N.V. | Verfahren und Vorrichtung zur Sprachdetektion |
EP1944753A3 (en) * | 1997-04-30 | 2012-08-15 | Nippon Hoso Kyokai | Method and device for detecting voice sections, and speech velocity conversion method and device utilizing said method and device |
US6324188B1 (en) * | 1997-06-12 | 2001-11-27 | Sharp Kabushiki Kaisha | Voice and data multiplexing system and recording medium having a voice and data multiplexing program recorded thereon |
JP2000029486A (ja) * | 1998-07-09 | 2000-01-28 | Hitachi Ltd | 音声認識システムおよび方法 |
US6801895B1 (en) * | 1998-12-07 | 2004-10-05 | At&T Corp. | Method and apparatus for segmenting a multi-media program based upon audio events |
CN1094280C (zh) * | 1998-08-17 | 2002-11-13 | 英业达股份有限公司 | 网络电话中的静音检测方法 |
JP2000165806A (ja) | 1998-11-30 | 2000-06-16 | Sony Corp | 情報処理装置および方法、並びに提供媒体 |
JP2000172283A (ja) * | 1998-12-01 | 2000-06-23 | Nec Corp | 有音検出方式及び方法 |
JP2000214872A (ja) * | 1999-01-20 | 2000-08-04 | Matsushita Electric Ind Co Ltd | 音声検出装置 |
GB9912577D0 (en) * | 1999-05-28 | 1999-07-28 | Mitel Corp | Method of detecting silence in a packetized voice stream |
JP4287545B2 (ja) * | 1999-07-26 | 2009-07-01 | パナソニック株式会社 | サブバンド符号化方式 |
US6658027B1 (en) * | 1999-08-16 | 2003-12-02 | Nortel Networks Limited | Jitter buffer management |
EP1087557A3 (en) | 1999-09-22 | 2005-01-19 | Matsushita Electric Industrial Co., Ltd. | Apparatus for transmitting digital audio data and receiving apparatus for receiving the digital audio data |
JP3697967B2 (ja) * | 1999-09-22 | 2005-09-21 | 松下電器産業株式会社 | オーディオ送信装置及びオーディオ受信装置 |
US6993245B1 (en) * | 1999-11-18 | 2006-01-31 | Vulcan Patents Llc | Iterative, maximally probable, batch-mode commercial detection for audiovisual content |
JP4300697B2 (ja) * | 2000-04-24 | 2009-07-22 | ソニー株式会社 | 信号処理装置及び方法 |
JP2001344905A (ja) * | 2000-05-26 | 2001-12-14 | Fujitsu Ltd | データ再生装置、その方法及び記録媒体 |
-
2002
- 2002-05-08 DE DE60217484T patent/DE60217484T2/de not_active Expired - Lifetime
- 2002-05-08 WO PCT/IB2002/001561 patent/WO2002093552A1/en active IP Right Grant
- 2002-05-08 JP JP2002590144A patent/JP4365103B2/ja not_active Expired - Fee Related
- 2002-05-08 CN CNB028015509A patent/CN100380441C/zh not_active Expired - Fee Related
- 2002-05-08 EP EP02726366A patent/EP1393301B1/en not_active Expired - Lifetime
- 2002-05-08 US US10/476,965 patent/US7356464B2/en not_active Expired - Fee Related
- 2002-05-08 KR KR1020037000456A patent/KR100916959B1/ko active IP Right Grant
- 2002-05-10 US US10/476,967 patent/US7617095B2/en not_active Expired - Fee Related
- 2002-05-10 KR KR10-2003-7000454A patent/KR20030027938A/ko not_active Application Discontinuation
- 2002-05-10 WO PCT/IB2002/001639 patent/WO2002093801A2/en active Application Filing
- 2002-05-10 CN CNB028015444A patent/CN1244900C/zh not_active Expired - Fee Related
- 2002-05-10 AT AT02727889T patent/ATE438968T1/de not_active IP Right Cessation
- 2002-05-10 CN CNB2004100956810A patent/CN100348034C/zh not_active Expired - Fee Related
- 2002-05-10 JP JP2002590554A patent/JP4560269B2/ja not_active Expired - Fee Related
- 2002-05-10 EP EP02727889A patent/EP1393480B1/en not_active Expired - Lifetime
- 2002-05-10 DE DE60233223T patent/DE60233223D1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
CN100380441C (zh) | 2008-04-09 |
US7356464B2 (en) | 2008-04-08 |
DE60233223D1 (de) | 2009-09-17 |
EP1393480B1 (en) | 2009-08-05 |
DE60217484D1 (de) | 2007-02-22 |
JP4560269B2 (ja) | 2010-10-13 |
US20040125961A1 (en) | 2004-07-01 |
CN1462426A (zh) | 2003-12-17 |
CN1244900C (zh) | 2006-03-08 |
JP2004531766A (ja) | 2004-10-14 |
EP1393301A1 (en) | 2004-03-03 |
US7617095B2 (en) | 2009-11-10 |
WO2002093552A1 (en) | 2002-11-21 |
CN1462427A (zh) | 2003-12-17 |
KR20030027938A (ko) | 2003-04-07 |
EP1393480A2 (en) | 2004-03-03 |
WO2002093801A2 (en) | 2002-11-21 |
DE60217484T2 (de) | 2007-10-25 |
KR20030015385A (ko) | 2003-02-20 |
KR100916959B1 (ko) | 2009-09-14 |
CN100348034C (zh) | 2007-11-07 |
ATE438968T1 (de) | 2009-08-15 |
US20040138880A1 (en) | 2004-07-15 |
WO2002093801A3 (en) | 2003-01-30 |
CN1612607A (zh) | 2005-05-04 |
EP1393301B1 (en) | 2007-01-10 |
JP2004520627A (ja) | 2004-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4365103B2 (ja) | 圧縮オーディオにおける信号電力の推定 | |
US7548850B2 (en) | Techniques for measurement of perceptual audio quality | |
US8645133B2 (en) | Adaptation of voice activity detection parameters based on encoding modes | |
US7328160B2 (en) | Encoding device and decoding device | |
US7451091B2 (en) | Method for determining time borders and frequency resolutions for spectral envelope coding | |
US20090279840A1 (en) | Image Digesting Apparatus | |
KR20010021226A (ko) | 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체 | |
US6772111B2 (en) | Digital audio coding apparatus, method and computer readable medium | |
EP2198424B1 (en) | A method and an apparatus for processing a signal | |
EP0612158B1 (en) | A block size determination method of a transform coder | |
US20080161952A1 (en) | Audio data processing apparatus | |
JP2003216188A (ja) | オーディオ信号符号化方法、符号化装置、及び記憶媒体 | |
WO2007095247A2 (en) | Perceptual quality based automatic parameter selection for data compression | |
US20040133420A1 (en) | Method of analysing a compressed signal for the presence or absence of information content | |
US20080004870A1 (en) | Method of detecting for activating a temporal noise shaping process in coding audio signals | |
JP2020525853A (ja) | 密集性の過渡事象の検出及び符号化の複雑さの低減 | |
US20200265846A1 (en) | Audio Decoder Supporting a Set of Different Loss Concealment Tools |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20041118 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081014 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090326 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090625 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090723 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090820 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120828 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120828 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130828 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |