JP4906230B2 - オーディトリーイベントに基づく特徴付けを使ったオーディオ信号の時間調整方法 - Google Patents
オーディトリーイベントに基づく特徴付けを使ったオーディオ信号の時間調整方法 Download PDFInfo
- Publication number
- JP4906230B2 JP4906230B2 JP2003500892A JP2003500892A JP4906230B2 JP 4906230 B2 JP4906230 B2 JP 4906230B2 JP 2003500892 A JP2003500892 A JP 2003500892A JP 2003500892 A JP2003500892 A JP 2003500892A JP 4906230 B2 JP4906230 B2 JP 4906230B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- characterization
- signal
- event
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 163
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012512 characterization method Methods 0.000 title claims description 51
- 238000012937 correction Methods 0.000 claims description 42
- 238000004458 analytical method Methods 0.000 claims description 32
- 238000012550 audit Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 20
- 230000008859 change Effects 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 5
- 230000001360 synchronised effect Effects 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 abstract description 39
- 238000012545 processing Methods 0.000 description 26
- 230000008569 process Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 16
- 238000001228 spectrum Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 7
- 239000008186 active pharmaceutical agent Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000010183 spectrum analysis Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/04—Synchronising
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43072—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8455—Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/60—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Auxiliary Devices For Music (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Stereophonic System (AREA)
- Stereo-Broadcasting Methods (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Description
入力データのブロック化に引き続き(図示せず)、入力信号はオーディトリーイベントに分割され、各々は、図1Aの処理2(「オーディトリーシーンアナリシス」)において別のものと認識される傾向にある。オーディトリーシーンアナリシスは、前述のオーディトリーシーンアナリシス(ASA)処理により実行される。しかし、オーディトリーシーンアナリシスを実施するのに適当な1つの方法が、以下に詳細に述べられる。本発明は、ASAを実行するための他の有効な技術を採用してもよい。
N =入力信号のサンプル数
M =スペクトルプロファイルの計算に使われる窓内のサンプル数
P =スペクトル計算の重複サンプル数
Q =計算されたスペクトル窓/領域数
原則として、どんな整数を上記変数として使ってもよい。しかし、スペクトルプロファイルの計算に標準的なFFTを使うことができるように、Mは2の累乗にしておけば、計算はもっと効率的になる。オーディトリーシーンアナリシス処理における実際の実施例では、上掲の変数は以下のように定められる。
M =512サンプル(又は、44.1kHzで11.6msec)
P =0サンプル
上掲の変数は実験により求められたもので、おおむね、オーディトリーイベントの位置と継続時間について十分な精度を満たすとみなされることが分かった。しかし、Pの値を256サンプル(50%重複)にすることは、見つけにくいイベントを特定するのに有益であることが分かっている。窓関数に起因するスペクトラルアーティファクトを最小限にするために多くの異なるタイプの窓関数が使われるが、スペクトラルプロファイルの計算に使われる窓関数は、Mポイント・ハニング、カイザー・ベッセルその他の適当なもので、非方形の窓関数が望ましい。広範囲にわたる試験の結果、広い範囲のオーディオ素材にわたって優れた成果をあげたことから、上記値とハニング窓を選択した。非方形の窓は、低周波の内容が優勢なオーディオ信号の処理に望ましい。方形窓は、イベントの不適切な検出の原因になるスペクトルアーティファクトを作る。全体として重複/付加する処理を、制限を一定レベルで設けるようなコーディックでないアプリケーションは、ここでは適用されず、窓は時間/周波数分解能やストップバンドの排除のような特徴により選ぶことができる。
各ブロックに対し、ASA処理(図2に示す)において任意に付加されたステップはブロック(各ブロックにおけるデータの周波数領域への変換は、周波数サブ帯域に分割された情報をもたらす)の優勢な「サブ帯域」であることを示すオーディオ信号から情報を引き出す。このブロック毎の情報はオーディトリーイベント毎の情報に変換され、優勢な周波数のサブ帯域が各オーディトリーイベントにおいて特定される。各オーディトリーイベントに対するこの情報は、オーディトリーイベントの境界に加えて他の情報とともに(以下に説明する)相関処理を提供する。優勢な(最も振幅の大きい)サブ帯域は、人間の耳がもっとも感度の高い周波数帯域又は範囲内の、例えば3又は4の複数のサブ帯域から選ぶことができる。代案的に、他の条件をサブ帯域の選定に使ってもよい。
サブ帯域1 301Hzから560Hz
サブ帯域2 560Hzから1938Hz
サブ帯域3 1938Hzから9948Hz
である。
11222211133333311 (優勢なサブ帯域)
ほとんどの場合、優勢なサブ帯域は、この例に示すように、各オーディトリーイベント内において同じとなるか、又は、イベント内のすべてのブロックが一様でない場合は、平均値となる。このように、優勢なサブ帯域は、各オーディトリーイベント内で決定され、配列DS(q)は、同じ優勢なサブ帯域がイベント内の各ブロックに割り当てられるように修正され得る。
抽出したサインの出力(図1A)は、前述のような、サインとして保存されるオーディトリーシーンアナリシス情報の1以上の配列である。時間補正計算機能(図1B)は、2つのサインを取り上げ、それらの時間のずれの程度を計算する。これは、既知の相互相関法を用いて算出される。
時間調整機能6(図1B)は、2つのオーディオ信号における時間調整のために時間差を計算するために用いられる。これは、オーディオ信号入力S1とS2(2つのサインを生成するために用いられる)を取り上げ、両方が時間的に緊密に整列するよう、他方に対して一方を補正する。2つの調整された信号はオーディオ信号3と4として出力される。適用された遅れ又は補正の量は、サインS1とS2間の相対サイン遅れlpeakによる生成物であり、サインのサンプルにおける分解能M−Pである。
補正計算に必要なコンピュータの計算能力はサイン配列Q1とQ2に比例する。ここに記載された処理はある補正誤差を持つので、本発明による時間調整処理は、サインよりむしろオーディオ信号に直接作用する細かい分解能を持った従来からの処理によるだろう。例えば、時間調整されたオーディオ信号の一部を受け取り、この部分を正確なサンプル誤差又は細かい補正を決定するために、相互相関計算するであろう。サイン配列はサインの補正計算に用いられるので、時間調整方法の精度は、512個のサンプル数であるこの実施例では、サインを生成するオーディオブロックのサイズに制限される。言い換えれば、この方法は、サンプル補正において、プラスマイナスブロックサイズの約半分、この実施例では±256個のサンプル数の誤差を持つ。
透かしを入れるためには、しるしをつけた信号を作るために他の信号を付加することも含め、何らかのあらかじめ定められた方法によりサインを変更することにより、サインの中に情報を埋め込むことを必要とする。埋め込まれた情報の検出又は抽出は、透かしの入った信号と元の信号源との比較に頼ることになる。また、透かしの入った信号は、オーディオコーディングやスピーカー/マイクロフォンの音響機器への伝達を含む処理を受ける。本発明は、透かしの入った信号の元の信号源に対する時間調整の方法を提供し、埋め込まれた情報の抽出を容易にする。
Claims (13)
- 一方の信号が他方の信号から導き出され、又は、両方の信号がもう1つ別の信号から導き出された第1のオーディオ信号と第2のオーディオ信号の時間調整方法であって、
前記オーディオ信号の縮減された情報による特徴付けを導き出すステップであって、
該特徴付けは前記オーディオ信号自身の持つ情報より少ない情報からなり、前記縮減された情報による特徴付けは、少なくとも、各オーディトリーイベントが別のものと識別されるようなオーディトリーイベントに、前記オーディオ信号を分割した結果できたオーディトリーイベントの境界を表現し、
各オーディオ信号は、
該オーディオ信号における時間に関する信号特性の変化を検出し、
時間に関する信号特性の閾値を越える変化が境界を定義し、各オーディトリーイベントは、隣り合う境界で挟まれたオーディオ部分であり、このような隣り合う境界で挟まれた部分には1つだけオーディトリーイベントが存在し、各境界は、連続するオーディトリーイベントが得られるように、先行するオーディトリーイベントの終端となり後続するオーディトリーイベントの先端となっており、どのオーディトリーイベントの境界も、オーディトリーイベントも、オーディトリーイベントの特性も、連続するオーディトリーイベントの境界を特定して該連続するオーディトリーイベントを取得する前には知られていない状況で、前記オーディオ信号における連続するオーディトリーイベントの境界を特定することにより、
オーディトリーイベントに分割されることを特徴とする、
前記オーディオ信号の縮減された情報による特徴付けを導き出すステップと、
前記特徴付けは、その元となるオーディオ信号と実質的に同じ相対的時間関係を有し、 他の特徴付けに対する一方の特徴付けの時間補正を計算するステップと、
前記時間補正に応答して、前記オーディオ信号を同期化又はほぼ同期化させるために、前記オーディオ信号の一方を他方に対して時間移動させるか又は両方を時間移動させるステップと、
を具備することを特徴とする、第1のオーディオ信号と第2のオーディオ信号の時間調整方法。 - 前記各オーディオ信号は各々他の信号を伴い、前記計算するステップと前記修正するステップとを行う前に、前記縮減された情報による特徴付けを導き出す前記オーディオ信号に伴う前記他の信号のそれぞれに、前記縮減された情報による特徴付けの各々が埋め込まれることを特徴とする、請求項1に記載の方法。
- 前記他の信号は、ビデオ信号であることを特徴とする、請求項2に記載の方法。
- 1つのオーディオ信号と他の1つの信号との時間調整方法であって、
前記オーディオ信号の縮減された情報による特徴付けを導き出し、当該オーディオ信号と他の信号が実質的に同期化されているとき前記他の信号に前記特徴付けを埋め込むステップであって、
該特徴付けは前記オーディオ信号自身の持つ情報より少ない情報からなり、前記特徴付けは、少なくとも、各オーディトリーイベントが別のものと識別されるようなオーディトリーイベントに、前記オーディオ信号を分割した結果できたオーディトリーイベントの境界を表現し、
前記オーディオ信号は、
該オーディオ信号における時間に関する信号特性の変化を検出し、
時間に関する信号特性の閾値を越える変化が境界を定義し、各オーディトリーイベントは、隣り合う境界で挟まれたオーディオ部分であり、このような隣り合う境界で挟まれた部分には1つだけオーディトリーイベントが存在し、各境界は、連続するオーディトリーイベントが得られるように、先行するオーディトリーイベントの終端となり後続するオーディトリーイベントの先端となっており、どのオーディトリーイベントの境界も、オーディトリーイベントも、オーディトリーイベントの特性も、連続するオーディトリーイベントの境界を特定して該連続するオーディトリーイベントを取得する前には知られていない状況で、前記オーディオ信号における連続するオーディトリーイベントの境界を特定することにより、
オーディトリーイベントに分割されることを特徴とする、前記他の信号に前記特徴付けを埋め込むステップと、
前記オーディオ信号と前記他の信号が時間補正の対象となった後、前記他の信号から前記オーディオ信号の埋め込まれた特徴付けを復元し、オーディトリーシーンアナリシスに基づいて前記オーディオ信号の埋め込まれた特徴付けが導き出されたのと同じ方法で、前記オーディオ信号から前記オーディオ信号の縮減された情報による特徴付けを導き出すステップと、
他方の特徴付けに対する1方の特徴付けの時間補正を計算するステップと、
前記時間補正に応答して、前記オーディオ信号を同期化又はほぼ同期化させるために、前記オーディオ信号の一方を他方に対して時間移動させるか又は両方を時間移動させるステップと、
を具備することを特徴とする、1つのオーディオ信号と他の1つの信号との時間調整方法。 - 前記他の信号がビデオ信号であることを特徴とする、請求項4に記載の方法。
- 時間補正の計算には前記特徴付けの相互相関計算を含むことを特徴とする、請求項1に記載の方法。
- 時間補正の計算には前記特徴付けの相互相関計算を含むことを特徴とする、請求項4に記載の方法。
- 前記縮減された情報による特徴付けは、前記オーディトリーイベントの各々の優勢な周波数サブ帯域をも表現することを特徴とする、請求項1乃至請求項7のいずれか1項に記載の方法。
- オーディオ信号と他の1つのオーディオ信号の時間調整方法であって、これらの信号は、保存又は伝達時に時間補正の対象となり、
前記オーディオ信号と前記他の1つのオーディオ信号とが時間補正の対象となる前に、前記オーディオ信号の第1の縮減された情報による特徴付けを導き出し、前記第1の特徴付けを前記他の1つのオーディオ信号に埋め込むステップであって、
前記第1の特徴付けは、少なくとも、前記オーディオ信号を、各オーディトリーイベントが別のものと識別されるようなオーディトリーイベントに分割した結果できたオーディトリーイベントの境界を表現し、
前記オーディオ信号は、
該オーディオ信号における時間に関する信号特性の変化を検出し、
時間に関する信号特性の閾値を越える変化が境界を定義し、各オーディトリーイベントは、隣り合う境界で挟まれたオーディオ部分であり、このような隣り合う境界で挟まれた部分には1つだけオーディトリーイベントが存在し、各境界は、連続するオーディトリーイベントが得られるように、先行するオーディトリーイベントの終端となり後続するオーディトリーイベントの先端となっており、どのオーディトリーイベントの境界も、オーディトリーイベントも、オーディトリーイベントの特性も、連続するオーディトリーイベントの境界を特定して該連続するオーディトリーイベントを取得する前には知られていない状況で、前記オーディオ信号における連続するオーディトリーイベントの境界を特定することにより、
オーディトリーイベントに分割されることを特徴とする、該第1の特徴付けを前記他の1つのオーディオ信号に埋め込むステップと、
前記オーディオ信号と前記他の1つのオーディオ信号とが時間補正の対象となった後に、前記他のオーディオ信号から埋め込まれた前記オーディオ信号の第1の特徴付けを復元し、オーディトリーシーンアナリシスに基づいて前記オーディオ信号の第1の特徴付けが導き出されたのと同じ方法で、前記オーディオ信号から前記オーディオ信号の縮減された情報による第2の特徴付けを復元するステップであって、前記第1の特徴付けと前記第2の特徴付けは、その元となるオーディオ信号より少ない情報により成り立つようにすることを特徴とする、ステップと、
前記第2の特徴付けに対する前記第1の特徴付けとの時間差を調整するステップと、
前記時間補正値に応答して、前記オーディオ信号を同期化又はほぼ同期化させるために、前記オーディオ信号の一方を他方に対して時間移動させるか又は両方を時間移動させるステップと、
を具備することを特徴とする、オーディオ信号と他の1つのオーディオ信号の時間調整方法。 - オーディオ信号と他のオーディオ信号の時間調整方法であって、これらの信号は、第1の縮減された情報による特徴付けが前記オーディオ信号から導き出され前記他のオーディオ信号に埋め込まれた後に、保存又は伝達時に時間補正の対象となっていたものであり、前記特徴付けは、少なくとも、前記オーディオ信号を、各オーディトリーイベントが別のものと識別されるようなオーディトリーイベントに分割した結果できたオーディトリーイベントの境界を表現し、
前記オーディオ信号は、
該オーディオ信号における時間に関する信号特性の変化を検出し、
時間に関する信号特性の閾値を越える変化が境界を定義し、各オーディトリーイベントは、隣り合う境界で挟まれたオーディオ部分であり、このような隣り合う境界で挟まれた部分には1つだけオーディトリーイベントが存在し、各境界は、連続するオーディトリーイベントが得られるように、先行するオーディトリーイベントの終端となり後続するオーディトリーイベントの先端となっており、どのオーディトリーイベントの境界も、オーディトリーイベントも、オーディトリーイベントの特性も、連続するオーディトリーイベントの境界を特定して該連続するオーディトリーイベントを取得する前には知られていない状況で、前記オーディオ信号における連続するオーディトリーイベントの境界を特定することにより、
オーディトリーイベントに分割されることを特徴とし、
前記時間調整方法は、
前記他のオーディオ信号から埋め込まれた前記オーディオ信号の第1の特徴付けを復元し、オーディトリーシーンアナリシスに基づいて前記オーディオ信号の第1の特徴付けが導き出されたのと同じ方法で、前記オーディオ信号から前記オーディオ信号の縮減された情報による第2の特徴付けを導き出すステップであって、前記第1の特徴付けと前記第2の特徴付けは、その元となるオーディオ信号より少ない情報により成り立つようにすることを特徴とするステップと、
前記第2の特徴付けに対する前記第1の特徴付けのむだ時間補正値を計算するステップと、
前記時間補正値に応答して、前記オーディオ信号を同期化又はほぼ同期化させるために、前記オーディオ信号の一方を他方に対して時間移動させるか又は両方を時間移動させるステップと、
を具備することを特徴とするオーディオ信号と他のオーディオ信号の時間調整方法。 - 前記他の信号がビデオ信号であることを特徴とする、請求項9又は請求項10に記載の方法。
- 時間補正の計算には前記特徴付けの相互相関計算を含むことを特徴とする、請求項9又は請求項10に記載の方法。
- 前記縮減された情報による特徴付けは、前記オーディトリーイベントの各々の優勢な周波数サブ帯域をも表現することを特徴とする、請求項9又は請求項10に記載の方法。
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US29382501P | 2001-05-25 | 2001-05-25 | |
US60/293,825 | 2001-05-25 | ||
US4564402A | 2002-01-11 | 2002-01-11 | |
US10/045,644 | 2002-01-11 | ||
US35149802P | 2002-01-23 | 2002-01-23 | |
US60/351,498 | 2002-01-23 | ||
USPCT/US02/04317 | 2002-02-12 | ||
PCT/US2002/004317 WO2002084645A2 (en) | 2001-04-13 | 2002-02-12 | High quality time-scaling and pitch-scaling of audio signals |
PCT/US2002/005806 WO2002097791A1 (en) | 2001-05-25 | 2002-02-25 | Method for time aligning audio signals using characterizations based on auditory events |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004528600A JP2004528600A (ja) | 2004-09-16 |
JP2004528600A5 JP2004528600A5 (ja) | 2005-12-22 |
JP4906230B2 true JP4906230B2 (ja) | 2012-03-28 |
Family
ID=39362827
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003500892A Expired - Fee Related JP4906230B2 (ja) | 2001-05-25 | 2002-02-25 | オーディトリーイベントに基づく特徴付けを使ったオーディオ信号の時間調整方法 |
JP2003500893A Expired - Lifetime JP4763965B2 (ja) | 2001-05-25 | 2002-02-26 | オーディオ信号の聴覚的イベントへの分割 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003500893A Expired - Lifetime JP4763965B2 (ja) | 2001-05-25 | 2002-02-26 | オーディオ信号の聴覚的イベントへの分割 |
Country Status (11)
Country | Link |
---|---|
EP (2) | EP1390942B1 (ja) |
JP (2) | JP4906230B2 (ja) |
KR (3) | KR100873396B1 (ja) |
CN (2) | CN1272765C (ja) |
AT (1) | ATE470927T1 (ja) |
DE (1) | DE60236648D1 (ja) |
DK (1) | DK1393300T3 (ja) |
ES (1) | ES2400700T3 (ja) |
HK (2) | HK1066087A1 (ja) |
MX (2) | MXPA03010751A (ja) |
WO (1) | WO2002097791A1 (ja) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7610205B2 (en) | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7283954B2 (en) | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
US7711123B2 (en) | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
US7461002B2 (en) | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
DE60225130T2 (de) | 2001-05-10 | 2009-02-26 | Dolby Laboratories Licensing Corp., San Francisco | Verbesserung der transientenleistung bei kodierern mit niedriger bitrate durch unterdrückung des vorgeräusches |
US7502743B2 (en) * | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
WO2005086139A1 (en) | 2004-03-01 | 2005-09-15 | Dolby Laboratories Licensing Corporation | Multichannel audio coding |
US7508947B2 (en) | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
CA2581982C (en) | 2004-09-27 | 2013-06-18 | Nielsen Media Research, Inc. | Methods and apparatus for using location information to manage spillover in an audience monitoring system |
CA2610430C (en) | 2005-06-03 | 2016-02-23 | Dolby Laboratories Licensing Corporation | Channel reconfiguration with side information |
US7948557B2 (en) * | 2005-06-22 | 2011-05-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating a control signal for a film event system |
JP4940588B2 (ja) * | 2005-07-27 | 2012-05-30 | ソニー株式会社 | ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法 |
TWI396188B (zh) * | 2005-08-02 | 2013-05-11 | Dolby Lab Licensing Corp | 依聆聽事件之函數控制空間音訊編碼參數的技術 |
US7539616B2 (en) * | 2006-02-20 | 2009-05-26 | Microsoft Corporation | Speaker authentication using adapted background models |
KR101200615B1 (ko) | 2006-04-27 | 2012-11-12 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어 |
BRPI0712894A2 (pt) * | 2006-06-13 | 2012-10-09 | Koninkl Philips Electronics Nv | impressão digital para um fluxo de vìdeo, aparelho operável para gera uma impressão digital, métodos para gerar uma impressão digital e para sincronizar uma mìdia secundária com um fluxo de vìdeo em um aparelho, software, estrutura de dados para um script ambilight, uso de uma impressão digital de um fluxo de vìdeo, sinal para comunicar a identidade de um fluxo de vìdeo |
JP5040425B2 (ja) * | 2007-05-10 | 2012-10-03 | カシオ計算機株式会社 | コンテンツ再生方法、再生装置、及びプログラム |
GB2457694B (en) | 2008-02-21 | 2012-09-26 | Snell Ltd | Method of Deriving an Audio-Visual Signature |
JP2010017216A (ja) * | 2008-07-08 | 2010-01-28 | Ge Medical Systems Global Technology Co Llc | 音声データ処理装置,音声データ処理方法、および、イメージング装置 |
EP2425426B1 (en) * | 2009-04-30 | 2013-03-13 | Dolby Laboratories Licensing Corporation | Low complexity auditory event boundary detection |
US8855101B2 (en) | 2010-03-09 | 2014-10-07 | The Nielsen Company (Us), Llc | Methods, systems, and apparatus to synchronize actions of audio source monitors |
CN102142257B (zh) * | 2010-12-28 | 2013-07-03 | 北大方正集团有限公司 | 一种音频信号处理方法及装置 |
CN103548079B (zh) * | 2011-08-03 | 2015-09-30 | Nds有限公司 | 音频水印 |
WO2012163013A1 (zh) * | 2011-10-19 | 2012-12-06 | 华为技术有限公司 | 音乐查询方法和装置 |
CA2855845A1 (en) | 2011-11-18 | 2013-05-23 | Sirius Xm Radio Inc. | Systems and methods for implementing cross-fading, interstitials and other effects downstream |
WO2013134567A1 (en) | 2012-03-06 | 2013-09-12 | Sirius Xm Radio Inc. | Systems and methods for audio attribute mapping |
EP2648418A1 (en) | 2012-04-05 | 2013-10-09 | Thomson Licensing | Synchronization of multimedia streams |
CA2870865C (en) | 2012-04-17 | 2020-08-18 | Sirius Xm Radio Inc. | Server side crossfading for progressive download media |
WO2014018652A2 (en) | 2012-07-24 | 2014-01-30 | Adam Polak | Media synchronization |
US20140114456A1 (en) * | 2012-10-22 | 2014-04-24 | Arbitron Inc. | Methods and Systems for Clock Correction and/or Synchronization for Audio Media Measurement Systems |
US9021516B2 (en) | 2013-03-01 | 2015-04-28 | The Nielsen Company (Us), Llc | Methods and systems for reducing spillover by measuring a crest factor |
US9118960B2 (en) * | 2013-03-08 | 2015-08-25 | The Nielsen Company (Us), Llc | Methods and systems for reducing spillover by detecting signal distortion |
US9191704B2 (en) | 2013-03-14 | 2015-11-17 | The Nielsen Company (Us), Llc | Methods and systems for reducing crediting errors due to spillover using audio codes and/or signatures |
US9979829B2 (en) | 2013-03-15 | 2018-05-22 | Dolby Laboratories Licensing Corporation | Normalization of soundfield orientations based on auditory scene analysis |
EP3100458B1 (en) | 2014-01-31 | 2018-08-15 | Thomson Licensing | Method and apparatus for synchronizing the playback of two electronic devices |
CN104036794A (zh) * | 2014-06-27 | 2014-09-10 | 广东远峰汽车电子有限公司 | 可识别车载多媒体设备工作频道的加装设备、车载多媒体设备工作频道识别方法及装置 |
US9924224B2 (en) | 2015-04-03 | 2018-03-20 | The Nielsen Company (Us), Llc | Methods and apparatus to determine a state of a media presentation device |
US9848222B2 (en) | 2015-07-15 | 2017-12-19 | The Nielsen Company (Us), Llc | Methods and apparatus to detect spillover |
US10394518B2 (en) * | 2016-03-10 | 2019-08-27 | Mediatek Inc. | Audio synchronization method and associated electronic device |
EP3497697B1 (en) * | 2016-11-04 | 2024-01-31 | Hewlett-Packard Development Company, L.P. | Dominant frequency processing of audio signals |
GB2556058A (en) * | 2016-11-16 | 2018-05-23 | Nokia Technologies Oy | Distributed audio capture and mixing controlling |
WO2019088853A1 (en) * | 2017-11-03 | 2019-05-09 | Klaps Limited | Live audio replacement in a digital stream |
CN110476960B (zh) * | 2019-09-19 | 2021-06-15 | 河北省农林科学院植物保护研究所 | 噻虫胺薄膜缓释型种子处理悬浮剂及其制备方法与应用 |
CN111489759A (zh) * | 2020-03-23 | 2020-08-04 | 天津大学 | 基于光纤语音时域信号波形对齐的噪声评估方法 |
CN112651429B (zh) * | 2020-12-09 | 2022-07-12 | 歌尔股份有限公司 | 一种音频信号时序对齐方法和装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4624009A (en) | 1980-05-02 | 1986-11-18 | Figgie International, Inc. | Signal pattern encoder and classifier |
US5040081A (en) * | 1986-09-23 | 1991-08-13 | Mccutchen David | Audiovisual synchronization signal generator using audio signature comparison |
US5055939A (en) * | 1987-12-15 | 1991-10-08 | Karamon John J | Method system & apparatus for synchronizing an auxiliary sound source containing multiple language channels with motion picture film video tape or other picture source containing a sound track |
WO1991019989A1 (en) * | 1990-06-21 | 1991-12-26 | Reynolds Software, Inc. | Method and apparatus for wave analysis and event recognition |
US5175769A (en) * | 1991-07-23 | 1992-12-29 | Rolm Systems | Method for time-scale modification of signals |
JPH05181464A (ja) * | 1991-12-27 | 1993-07-23 | Sony Corp | 楽音認識装置 |
US6002776A (en) | 1995-09-18 | 1999-12-14 | Interval Research Corporation | Directional acoustic signal processor and method therefor |
KR100236974B1 (ko) * | 1996-12-13 | 2000-02-01 | 정선종 | 동화상과 텍스트/음성변환기 간의 동기화 시스템 |
JP3379624B2 (ja) * | 1997-02-17 | 2003-02-24 | 日本電信電話株式会社 | 波形同期方法 |
US6211919B1 (en) * | 1997-03-28 | 2001-04-03 | Tektronix, Inc. | Transparent embedment of data in a video signal |
JP3511360B2 (ja) * | 1998-03-09 | 2004-03-29 | 日本電信電話株式会社 | 音楽音響信号分離方法、その装置およびそのプログラム記録媒体 |
JP2000181449A (ja) * | 1998-12-15 | 2000-06-30 | Sony Corp | 情報処理装置および方法、並びに提供媒体 |
US6321200B1 (en) * | 1999-07-02 | 2001-11-20 | Mitsubish Electric Research Laboratories, Inc | Method for extracting features from a mixture of signals |
JP4458581B2 (ja) * | 1999-08-17 | 2010-04-28 | 大日本印刷株式会社 | 信号監視用音楽演奏装置 |
-
2002
- 2002-02-12 MX MXPA03010751A patent/MXPA03010751A/es active IP Right Grant
- 2002-02-12 MX MXPA03010750A patent/MXPA03010750A/es active IP Right Grant
- 2002-02-22 AT AT02706372T patent/ATE470927T1/de not_active IP Right Cessation
- 2002-02-22 DE DE60236648T patent/DE60236648D1/de not_active Expired - Lifetime
- 2002-02-22 CN CNB028106709A patent/CN1272765C/zh not_active Expired - Fee Related
- 2002-02-22 KR KR1020037015333A patent/KR100873396B1/ko not_active IP Right Cessation
- 2002-02-25 EP EP02707896A patent/EP1390942B1/en not_active Expired - Lifetime
- 2002-02-25 KR KR1020037015335A patent/KR100871607B1/ko not_active IP Right Cessation
- 2002-02-25 JP JP2003500892A patent/JP4906230B2/ja not_active Expired - Fee Related
- 2002-02-25 CN CNB028106725A patent/CN1264137C/zh not_active Expired - Fee Related
- 2002-02-25 WO PCT/US2002/005806 patent/WO2002097791A1/en active IP Right Grant
- 2002-02-26 KR KR1020037015336A patent/KR100911679B1/ko active IP Right Grant
- 2002-02-26 ES ES02721201T patent/ES2400700T3/es not_active Expired - Lifetime
- 2002-02-26 DK DK02721201.8T patent/DK1393300T3/da active
- 2002-02-26 EP EP12189110.5A patent/EP2549475B1/en not_active Expired - Lifetime
- 2002-02-26 JP JP2003500893A patent/JP4763965B2/ja not_active Expired - Lifetime
-
2004
- 2004-11-10 HK HK04108859A patent/HK1066087A1/xx not_active IP Right Cessation
- 2004-12-14 HK HK04109871.1A patent/HK1066902A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
EP2549475B1 (en) | 2019-07-31 |
JP2004528600A (ja) | 2004-09-16 |
HK1066902A1 (en) | 2005-04-01 |
EP1390942B1 (en) | 2012-08-01 |
MXPA03010750A (es) | 2004-07-01 |
EP1390942A1 (en) | 2004-02-25 |
KR100871607B1 (ko) | 2008-12-02 |
KR100873396B1 (ko) | 2008-12-11 |
CN1264137C (zh) | 2006-07-12 |
ES2400700T3 (es) | 2013-04-11 |
DK1393300T3 (da) | 2013-03-18 |
HK1066087A1 (en) | 2005-03-11 |
KR20040004646A (ko) | 2004-01-13 |
CN1272765C (zh) | 2006-08-30 |
KR100911679B1 (ko) | 2009-08-10 |
KR20040004648A (ko) | 2004-01-13 |
KR20040004647A (ko) | 2004-01-13 |
JP2004528601A (ja) | 2004-09-16 |
WO2002097791A1 (en) | 2002-12-05 |
JP4763965B2 (ja) | 2011-08-31 |
DE60236648D1 (de) | 2010-07-22 |
CN1511311A (zh) | 2004-07-07 |
MXPA03010751A (es) | 2005-03-07 |
CN1620684A (zh) | 2005-05-25 |
ATE470927T1 (de) | 2010-06-15 |
EP2549475A1 (en) | 2013-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4906230B2 (ja) | オーディトリーイベントに基づく特徴付けを使ったオーディオ信号の時間調整方法 | |
JP4272050B2 (ja) | オーディトリーイベントに基づく特徴付けを使ったオーディオの比較 | |
US7461002B2 (en) | Method for time aligning audio signals using characterizations based on auditory events | |
US9165562B1 (en) | Processing audio signals with adaptive time or frequency resolution | |
US7283954B2 (en) | Comparing audio using characterizations based on auditory events | |
AU2002242265A1 (en) | Method for time aligning audio signals using characterizations based on auditory events | |
AU2002240461A1 (en) | Comparing audio using characterizations based on auditory events | |
AU2002252143A1 (en) | Segmenting audio signals into auditory events |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041206 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070807 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20071101 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20071108 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090527 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090525 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090723 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20090729 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20100319 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100929 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20101005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20101202 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110802 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111201 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20111226 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120110 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150120 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |