JP4906230B2 - オーディトリーイベントに基づく特徴付けを使ったオーディオ信号の時間調整方法 - Google Patents

オーディトリーイベントに基づく特徴付けを使ったオーディオ信号の時間調整方法 Download PDF

Info

Publication number
JP4906230B2
JP4906230B2 JP2003500892A JP2003500892A JP4906230B2 JP 4906230 B2 JP4906230 B2 JP 4906230B2 JP 2003500892 A JP2003500892 A JP 2003500892A JP 2003500892 A JP2003500892 A JP 2003500892A JP 4906230 B2 JP4906230 B2 JP 4906230B2
Authority
JP
Japan
Prior art keywords
audio signal
characterization
signal
event
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003500892A
Other languages
English (en)
Other versions
JP2004528600A (ja
JP2004528600A5 (ja
Inventor
クロケット、ブレット・ジー
スミザズ、マイケル・ジェイ
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/US2002/004317 external-priority patent/WO2002084645A2/en
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2004528600A publication Critical patent/JP2004528600A/ja
Publication of JP2004528600A5 publication Critical patent/JP2004528600A5/ja
Application granted granted Critical
Publication of JP4906230B2 publication Critical patent/JP4906230B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8455Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Auxiliary Devices For Music (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Stereophonic System (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

本発明は、オーディオ信号に関する。とりわけ、本発明は、オーディオ信号の特徴づけと、特徴付けを使って、ひとつのオーディオ信号が別のオーディオ信号から生成されたオーディオ信号同士、又は、2つのオーディオ信号が同じオーディオ信号から生成されたオーディオ信号同士の時間調整又は同期化を行うことに関する。このような同期化は、例えば、テレビジョン音声を映像と同期させて再生する(lip-sync)ときや、オーディオ信号に埋め込まれた透かしを検出するときに役に立つ(透かしのある信号は、透かし無し信号版と比較される)。本発明は、低い処理労力による処理でこのような2つのオーディオ信号を実質的に時間調整させるために実施される。
サウンドを別の音として感じる単位に分割することは、「オーディトリーイベントアナリシス」又は「オーディトリーシーンアナリシス」(「ASA」)と呼ばれることもある。オーディトリーシーンアナリシスの幅広い議論は、Albert S. Bregmanの「Auditory Scene Analysis - The Perceptual Organization of Sound」マサチューセッツ工科大学、1991年、第4版、2001年、第2MITプレスペーパーバック版に公開されている。加えて、Bhadkamkar他の米国特許6,002,776,1999年12月14日付でも、1976年に発行された「prior art work related to sound separation by auditory scene analysis」を引用している。しかし、Bhadkamkar他の特許は、オーディトリーシーンアナリシスの実用的な採用の意欲を失わせるものであり、「オーディトリーシーンアナリシスを必要とする技術は、人間の聴覚処理のモデルという観点から科学的には興味があるものの、現時点ではコンピュータに対する要望が非常に強すぎ、特別なものなので、基本的な処理がなされるまでオーディオ分割の実用的な技術と考えることはできない。」と結論付けている。
Bregmanは文中に「オーディオが音色、高さ、大きさ、又は(小さい範囲で)空間的な位置が突然変化したとき、別々の単位として聞こえる。」(Auditory Scene Analysis - The perceptual Organization of Sound, 469ページ)と書いている。Bregmanは、例えば周波数が別々であるとき、たくさんのオーディオが同時に流れたときのオーディオの認知について議論している。
オーディオからの特性や特徴を抽出する多くの異なった方法がある。特徴や特性が適切に定義されているという条件で、これらの抽出は、自動的な処理工程にて実行される。例えば「ISO/IEC JTC1/SC 29/WG 11」(MPEG)は、現時点ではMPEG-7標準の一部としてのさまざまなオーディオ記述子の標準となりつつある。このような方法に共通する欠点は、ASAを無視していることである。このような方法は、高さ、大きさ、パワー、和音構成、及びスペクトルフラットネスのような古典的な信号処理変数を繰り返し探求するものである。このような変数は、有益な情報をもたらすものではあるが、人間の認知により別のものと知覚される成分に分けて信号を個性化するものではない。
オーディトリーシーンアナリシスは、成分を人間の認知に従って別のものと識別することで、人間の聴覚と似た方法でオーディオ信号を個性化する試みである。このような方法を開発することで、これまで人間の補助を必要としていた仕事を正確に自動的な処理工程で実行することができる。
別のものと認識される成分を特定することで、信号そのもの全てより実質的には少ない情報を用いてオーディオ信号の一意的な識別が可能となる。オーディトリーイベントに基づくコンパクトで一意的な識別は、例えば、もうひとつ別の信号からコピーされた(又は、同じ音源の信号から別の信号としてコピーされた)信号の識別のために採用され得る。
オーディオ信号を特定するために用いることができるオーディオ信号の、一意的で縮減された情報による特徴付けを発生させる方法が記載されている。特徴付けは、オーディオ信号の「サイン」又は「指紋」と考えることもできる。本発明によれば、オーディトリーシーンアナリシス(ASA)は、オーディオ信号の特徴付けの基準として、オーディトリーイベントの特定を実行する。理想的には、オーディトリーシーンアナリシスは、オーディオについて、低ビットレートのコーディングやラウドスピーカーを通じて音響的に伝達されるような処理がなされた後でも、人間のリスナーに認識されると思われるオーディトリーイベントを特定する。オーディオ信号は、オーディトリーイベントの境界域や、代案的に、各オーディトリーイベントの優勢な周波数サブ帯域により特徴付けられる。その結果得られた情報パターンは、速く及び/又は低い労力で元のオーディオ信号同士の時間差を決定するために、オーディオの指紋やサインと比較することができるコンパクトなオーディオの指紋やサインを構成する。縮減された情報による特徴は、オーディオ信号の相対的なタイミングと実質的に同じタイミングを持つ。
本発明によるオーディトリーシーンアナリシスの方法は、オーディトリーイベント情報を含んだサインを比較することにより、特に音楽についての2つのオーディオ信号の速くて正確な時間調整方法を提供する。ASAは、オーディオ信号の間の類似性認識におけるそれほど本質的でない(高さ、大きさ、音量、調波構成のような)特徴を抽出する従来の特徴抽出法と比べて、類似性認識におけるより本質的な情報又は特徴を抽出する。ASAの使用は、低ビットコーディングやラウドスピーカーを通して伝達されるアコースティックのような、かなり処理を施された材料における類似性を見つける機会、従って時間調整をする機会、を向上する。
以下に論ずる実施例において、論議の対象となる2つのオーディオ信号は共通の音源から由来するものと想定する。本発明による方法は、お互いに関してほぼ同期状態にすることができるように、このようなオーディオ信号を他の信号に対する時間補正を決定する。
本発明は、アナログ領域でもディジタル領域でも(又はこの2つの組み合わせでも)原則として実施可能であるが、本発明の実際の実施例では、オーディオ信号はデータのブロックにおけるサンプルとして表現され、ディジタル領域において処理される。
図1Aを参照すると、オーディトリーシーンアナリシス2は、オーディオ信号に関する「サイン」又は「指紋」を生成するために、そのオーディオ信号に適用される。ここに、関心のある2つのオーディオ信号がある。これらは、一方は他方から得られたものであるか、又は両方とも前もって同じ音源から得られたものであり類似する。このように、オーディトリーシーンアナリシスは両方の信号に適用される。簡単のために図1AではASAを1つの信号にのみ適用した場合を示す。図1Bに示すように、2つの信号に対するサインであるサイン1とサイン2は、2つのサイン間における相対時間の補正の程度である「補正」出力を計算する時間補正計算機能4に適用される。
サインはオーディオ信号を表すが実質的にはその源となるオーディオ信号より短いので、サイン同士の時間補正を、オーディオ信号同士の時間補正を決定するのに比べてかなり速く決定することができる。さらに、サインは、その源となるオーディオ信号と実質的に同じ相対的な時間関係を保持するので、サイン同士の時間補正の計算は元のオーディオ信号の時間調整に使用できる。このように、機能4の補正出力は時間調整機能6に適用される。時間調整機能は、2つのオーディオ信号、すなわちオーディオ信号1とオーディオ信号2(サイン1とサイン2がここから導き出される)も受け取り、2つのオーディオ信号出力、すなわちオーディオ信号3とオーディオ信号4を供給する。時間調整(同期化)又はほぼ同期化させるためには、オーディオ信号1のオーディオ信号2に対する相対的タイミングを調整することが望ましい。これを実行するために一方を他方に対して時間移動させてもよいし、あるいは、原則として、両方時間移動させてもよい。実際には、オーディオ信号の内の1つは、オーディオ信号1又はオーディオ信号2が「通り抜けたもの」であり(すなわち、実質的に同じ信号)、他は、補正計算と時間調整機能の分解能の精度に応じて、オーディオ信号3とオーディオ信号4が、時間同期化又はほぼ時間同期化されるよう時間的に修正された他方の信号の時間移動版となる。もしさらに大きな時間調整の精度が要求される場合は、本発明を構成しない1以上の工程により、さらなる処理がオーディオ信号3及び/又はオーディオ信号4に適用されよう。
信号の時間調整は、例えば、テレビジョン音声を映像と同期させて再生する(lip-sync)ときや、オーディオ信号埋め込まれた透かしを検出するときに役に立つ。前者の場合は、オーディオのサインは、音声や映像が同期はずれを起こすかもしれないビデオ信号に、伝達又は保存に先立って埋め込まれる。再生ポイントにおいて、サインは、オーディオ信号から生成され、同期して再生するためにビデオ信号に埋め込まれたサインと比較される。オーディトリーシーンアナリシスに基づく特徴付けを採用しないタイプのシステムはアメリカ合衆国特許33.535、5,202,761、6,211,919、及び6,246,439に記載されており、これらの特許は、全体的に参照用としてここに組み込まれる。第2の場合は、オーディオ信号の元のバージョンは、透かしを回復させるためにオーディオ信号の透かしを入れたバージョンと比較される。このような回復のためには、2つのオーディオ信号に緊密な時間調整を要求する。これは、ここに述べるように、元のオーディオ信号の時間調整を手助けするために各オーディオ信号のサインを生成することで第1級の調整が実行される。さらに図1Aと1Bの詳細が以下に述べられる。
ある用途には、図1Aと1Bの処理は実時間で行われなければならない。他の用途に対しては、実時間である必要はない。実時間での応用例においては、この処理は、各入力信号に対する(例えば、数秒間の)オーディトリーシーンアナリシスの履歴を保存する。周期的に、このイベント履歴が適用され、時間調整を連続的に修正するために、補正計算の更新を行う。各入力信号に対するオーディトリーシーンアナリシス情報は実時間で生成され、又は、いずれかの入力信号情報はすでに存在しているかもしれない(あるオフラインのオーディトリーシーンアナリシス処理はすでに実行されていることを前提とする)。実時間システムの1つの用途は、例えば、上述のような音声/映像位置調整である。連続したイベント境界は、オーディオから生成される。他の連続したイベント境界は、ビデオから再生される(いくつかのオーディトリーイベントの境界が前もってビデオに埋め込まれていることを前提とする)。2つのイベント境界の順序は、例えばlip-syncを改善するために、音声と映像の間の時間補正を決定するために、周期的に比較される。
このようにサインの時間補正が計算され、実質的な同時性を達成するようにオーディオ信号の時間調整に用いられるのと同時に、2つのサインが生成される。代案として、比較されるべき1つのサインが、例えば、先に説明したような音声と映像の位置調整の場合の映像信号のように、もう一方の信号に埋め込むことによって生成されたオーディオ信号と一緒に生成することとしてもよい。更なる代案として、両方のサインが前もって生成されるようにし、比較と時間修正のみを実時間で行うこととしてもよい。例えば、(音声と映像のある)同じテレビジョンプログラムの2つの信号源の場合、両方とも埋め込まれたサインで、各テレビジョン信号(音声信号を含む)は、再生されたサインを比較することで同期化される(音声と映像の両方)。各テレビジョン信号における音声と映像の相対的なタイミング関係は変わらないままである。テレビジョン信号の同期化は実時間で行われるが、サインの生成は実時間でも同時でもない。
本発明の特徴によれば、オーディオを、別のものと認識される「オーディトリーイベント」又は時間的な区分に分割するためのコンピュータによる効率的な処理が提供される。
認識されたオーディトリーイベントの開始点又は終点の説得力のある識別は、スペクトル内容の変化であるとみられる。音色と高さ(スペクトル内容)の変化と、補助的な結果として、振幅の変化を検出するために、本発明の特徴によるオーディオイベントの検出過程で、時間に対するスペクトル内容の変化を検出する。追加的に、本発明の更なる特徴により、この処理の過程で、時間に対するスペクトル内容の変化の検出では検出できない時間に対する振幅の変化をも検出することも可能である。
コンピュータに最小限の負荷しか与えない実施においては、周波数帯域全体又は実質的に周波数帯域の全体を分析することで、この処理はオーディオ(全帯域のオーディオ)を、時間区分に分割する(現実の実施例では、スペクトルの終端で帯域制限のフィルターがしばしば適用される)。この方法は、短い時間スケール(20msec以下)では耳は、その時間において単一のオーディトリーイベントに集中する傾向にあることを利用するものである。これは、同時に複数のイベントが起こったとき、ひとつの要素が聴覚的にもっとも優勢になる傾向があり、それが発生したただ1つのイベントであるかのように処理される可能性がある。この効果を利用することはオーディトリーイベントの検出が複雑なオーディオの処理に対応することを可能にする。例えば、もし入力オーディオ信号が単一の楽器で演奏されていたならば、特定されるオーディオイベントは、おそらく単一の調子で演奏されたものとなるだろう。入力音声信号も同様に、発話の各成分、例えば母音と子音は、おそらく単一のオーディオ成分として特定されるだろう。ドラムビートや多数の楽器と音声による音楽のように、オーディオの複雑性が増大したとき、オーディトリーイベントは、その時々の最も顕著な(すなわち、音の大きい)オーディオ成分を特定する。代わりに、この「最も顕著な」オーディオ成分は、聴覚閾値や周波数応答を考慮に入れて決めてもよい。
状況に応じて、本発明のさらなる特徴に従い、コンピュータが非常に複雑になるが、処理において、全帯域幅より、離散的な周波数帯域(固定又は動的に決定された又は固定と動的な決定の両方の帯域)における時間に関してスペクトル構成の変化を考慮に入れてもよい。この代案的な方法は、単一のオーディオの流れが特定の時間で認識されるとみなすより、異なる周波数帯域の1つ以上のオーディオの流れを考慮に入れるものである。
オーディオを区分するための本発明の特徴に従った、コンピュータを使った効率的で単純な方法ではあるが、この方法は、オーディトリーイベントを特定するのに有益であることが分かった。
本発明によるオーディトリーイベントの検出方法を、オーディオ波形の時間領域を時間間隔又はブロックに分割することにより実行し、分割の後、離散フーリエ変換(DFT)(スピードを加速するため高速フーリエ変換(FFT)として実行される)のような、フィルターバンク又は時間−周波数変換を用いて、各ブロックのデータを周波数領域に変換してもよい。各ブロックのスペクトル内容の振幅は、振幅の変化による影響を削除又は縮減するために正規化しておくことができる。結果として現れる各周波数領域は、特定のブロックにおけるオーディオのスペクトル内容(周波数の関数としての振幅)の表示を提供する。連続するブロックにおけるスペクトル内容は、比較され、閾値より大きな変化は、オーディトリーイベントの時間的開始点又は時間的終点を表示するとみなすことができる。
コンピュータの複雑化を最低限に抑えるために、好ましくは全周波数帯域のスペクトラム(平均的な質のミュージックシステムでは50Hzから15kHzまでとなるだろう)又は、実質的に全周波数帯域(例えば、非常に低周波や高周波の部分を除外するフィルターにより定義される帯域)について、時間領域におけるオーディオ波形のただ1つの周波数帯域を処理してもよい。
以下に述べるように周波数領域におけるデータは正規化されることが好ましい。周波数領域のデータが正規化されるために必要とする程度により、振幅の表示が与えられる。従って、もし、この程度を変化させたとき、あらかじめ定められた閾値を超えると、イベントの境界とみなされる部分が多くなりすぎてしまう。スペクトルの変化により決められたイベントの開始点と終点と振幅の変化により決められた開始点と終点とは、OR条件により結合し、両方のタイプの変化から得られたイベントの境界を特定してもよい。
実際の実施例では、サンプル値により表現されるオーディオはブロックに分けられ、各オーディトリーイベントの時間的開始点及び時間的終点の境界は、時間領域におけるオーディオ波形が分割されるブロックの境界と一致する必要がある。実時間処理からの要求(ブロックを大きくすれば処理負荷は低くなる)とイベント位置の分解能(ブロックが小さいほうが、オーディトリーイベントの位置に関する詳細な情報が得られる)との間には二律背反の関係がある。
さらなる選択として、前に示唆したように、コンピュータによる処理が複雑となってしまうが、時間領域における単一の周波数帯域における波形のスペクトル内容に対して処理を行う代わりに、時間領域の波形のスペクトルを周波数領域に変換する前に、2以上の周波数帯域に分割してもよい。周波数帯域の各々について周波数領域に変換し、そしてそれが独立のチャンネルであるかのように処理することができる。そして、得られたイベントの境界は、OR条件で結合し、そのチャンネルにおけるイベントの境界を定義することができる。多数の周波数帯域は、固定しても、状況に応じて変更することとしても、あるいは固定と状況に応じての変更とを組み合わせてもよい。例えば、オーディオノイズ低減その他の技術に用いられるトラッキングフィルター技術を、状況に応じて周波数帯域を決めるため(例えば、800Hzと2kHzにおける同時的な主正弦波を、この2つの周波数を中心にした、状況適応的な帯域とする)に採用してもよい。
オーディトリーシーンアナリシスをもたらす他の技術を、本発明におけるオーディトリーイベントを特定するために採用してもよい。
本発明の実用的な実施例では、44.1kHzのサンプリングレートの入力オーディオにおいて約11.6msecに相当する、512個のサンプルからなるブロック内で処理されるサンプルにより、オーディオ信号が表現される。最短の認識可能なオーディトリーイベント(約20msec)より短い継続時間のブロック長さが望ましい。本発明の特徴は、このような実用的な実施例に限定されないことは了解されている。本発明は本質的に、オーディトリーイベントに先立ってオーディオをサンプルブロックに編成したり、一定長さのブロックを提供したりすることを必要としない。しかし、複雑性を最低限にするために、512個のサンプル(又は他の2の累乗個のサンプル)からなる固定長さのブロックが、3つの主な理由により有効である。第1に、実時間処理のアプリケーションにとって受け入れ可能な、十分短い待ち時間を提供するからである。第2に、フーリエ変換(FFT)分析に有効な2の累乗個のサンプルだからである。第3に、役に立つオーディトリーシーンアナリシスを実施するために適当な大きさの窓サイズを提供するからである。
以下の議論で、この入力信号は、〔−1,1〕の範囲の振幅を持つデータであると仮定する。
〈オーディトリーシーンアナリシス(図1A)〉
入力データのブロック化に引き続き(図示せず)、入力信号はオーディトリーイベントに分割され、各々は、図1Aの処理2(「オーディトリーシーンアナリシス」)において別のものと認識される傾向にある。オーディトリーシーンアナリシスは、前述のオーディトリーシーンアナリシス(ASA)処理により実行される。しかし、オーディトリーシーンアナリシスを実施するのに適当な1つの方法が、以下に詳細に述べられる。本発明は、ASAを実行するための他の有効な技術を採用してもよい。
図2は、図1Aのオーディトリーシーンアナリシス処理として用いられる本発明の技術に従った処理の概要を示す。ASAステップ又はプロセスは3つの概略サブステップからなる。最初のサブステップ2−1(「スペクトル分析の実行」)は、オーディオ信号を取り上げ、それをブロックに分割し、ブロックのそれぞれについてスペクトルプロファイル又はスペクトル内容を計算する。スペクトル分析により、オーディオ信号を短時間の周波数領域内に変換する。これは、変換又は帯域パスフィルターの列のどちらかを基礎として、(人間の耳の特性によく近似させた、バークスケールやクリティカルバンドのような)直線的又は曲線的周波数空間のどちらかにおいて、フィルターバンクを用いて実行される。どんなフィルターバンクであっても、時間と周波数との間には二律背反関係が存在する。時間分解能を大きくし、従って時間間隔を短くすれば、周波数分解能が低くなる。周波数分解能を大きくし、従ってサブ帯域を小さくすれば、時間間隔が長くなる。
第1のサブステップでは、連続するオーディオ信号の時間区分におけるスペクトル内容の計算を行う。実用的な実施例では、以下に述べるように、ASAブロックサイズは512個のサンプルの入力オーディオ信号である(図3)。第2のサブステップ2−2では、ブロックとブロックとの間のスペクトル内容の違いを決定する(「スペクトルプロファイルの差異の計測」)。このように、第2のサブステップは、連続するオーディオ信号の時間区分同士のスペクトル内容の違いを計算する。第3のサブステップ2−3(「オーディトリーイベントの境界位置の特定」)では、あるスペクトラルプロファイルのブロックと次のスペクトラルプロファイルのブロックとの差が閾値より大きいとき、そのブロックの境界はオーディトリーイベントの境界と見なす。このようにして、連続する時間区分間でスペクトラルプロファイルの内容同士の差が閾値を超えたとき、第3のサブステップは、この連続する時間区分間にオーディトリーイベントの境界を設定する。上記で論じた通り、認識されたオーディトリーイベントの開始点又は終点の強力な指標はスペクトル内容の変更点であると考えられる。イベント境界の位置はサインとして保存される。随意的な処理ステップ2−4(「優勢なサブ帯域の特定」)では、スペクトル分析を用い、これもまたサインの一部として保存される優勢な周波数のサブ帯域を特定する。
この実施例では、オーディトリーイベントの境界は最低限のスペクトラルプロファイルブロック長さ(この例では512個のサンプル)を持ったスペクトラルプロファイルのブロックの整数倍の長さを持ったオーディトリーイベントとして定義する。原則的には、イベント境界をそのように限定する必要はない。オーディオ区分の重複する部分又は重複しない部分のいずれか一方は、窓化され入力オーディオのスペクトラルプロファイルを解散するために用いられる。重複によりオーディトリーイベントの位置の細かい分解能が得られ、また、トランジエントのようなイベントを見逃すことが少なくなると思われる。しかし、時間分解能があがるにつれて、周波数分解能は下がる。また重複により、コンピューターの複雑性は増大する。図3は、窓化され離散フーリエ変換(DFT)により周波数領域に変換された、重複のない512個のサンプルブロックを概念的に表したものである。各ブロックは窓化され、例えばDFT、好ましくは速度を上げるため高速フーリエ変換(FFT)を用いて周波数領域に変換される。
以下の変数を入力ブロックのスペクトルプロファイルの計算に使うことができる。

N =入力信号のサンプル数
M =スペクトルプロファイルの計算に使われる窓内のサンプル数
P =スペクトル計算の重複サンプル数
Q =計算されたスペクトル窓/領域数

原則として、どんな整数を上記変数として使ってもよい。しかし、スペクトルプロファイルの計算に標準的なFFTを使うことができるように、Mは2の累乗にしておけば、計算はもっと効率的になる。オーディトリーシーンアナリシス処理における実際の実施例では、上掲の変数は以下のように定められる。

M =512サンプル(又は、44.1kHzで11.6msec)
P =0サンプル

上掲の変数は実験により求められたもので、おおむね、オーディトリーイベントの位置と継続時間について十分な精度を満たすとみなされることが分かった。しかし、Pの値を256サンプル(50%重複)にすることは、見つけにくいイベントを特定するのに有益であることが分かっている。窓関数に起因するスペクトラルアーティファクトを最小限にするために多くの異なるタイプの窓関数が使われるが、スペクトラルプロファイルの計算に使われる窓関数は、Mポイント・ハニング、カイザー・ベッセルその他の適当なもので、非方形の窓関数が望ましい。広範囲にわたる試験の結果、広い範囲のオーディオ素材にわたって優れた成果をあげたことから、上記値とハニング窓を選択した。非方形の窓は、低周波の内容が優勢なオーディオ信号の処理に望ましい。方形窓は、イベントの不適切な検出の原因になるスペクトルアーティファクトを作る。全体として重複/付加する処理を、制限を一定レベルで設けるようなコーディックでないアプリケーションは、ここでは適用されず、窓は時間/周波数分解能やストップバンドの排除のような特徴により選ぶことができる。
サブステップ2−1(図2)で、M個のサンプルのブロックは、Mポイント・ハニング、カイザー・ベッセルその他の適当な窓関数にてデータが窓化されて計算することができ、M・ポイント高速フーリエ変換を用いて周波数領域に変換され、FFT係数の振幅が計算される。結果出てきたデータは、最大振幅を単位と定めるように正規化され、正規化されたM個の数値は対数領域に変換される。これらの数値群は対数領域に変換する必要はないが、変換することはサブステップ2−2での差異の大きさの計算を簡単にする。さらに、対数領域は人間の聴覚システムの対数領域での特性と親密な整合性がある。対数領域における値はマイナス無限大からゼロまでである。実際の実施例では、最小リミット値がこのレンジに重ねあわされる。すなわち、リミット値を例えば−60dBに固定、あるいは、高周波数では小さい静かな音の可聴性が低いことを反映して、周波数に依存した値にすることができる。(正の周波数と同様に負も示すFFTにおいて、数値群をM/2個のサイズに減らすことも可能なことに注意すべきである)。
サブステップ2−2では、隣り合うサブブロックのスペクトル間の差異の大きさの計算を行う。各ロックについて、サブステップ2−1からのM(対数)個のスペクトル係数の各々を先行するサブブロックの対応する係数から減算し、その差異の大きさを計算する(符号は無視する)。これらのM個の差異は加算されひとつの数となる。すべてのオーディオ信号に対して、結果はQ個の正数群となり、数値が大きければ大きいほど、サブブロックのスペクトルが、先のサブブロックとは異なっている。差異の大きさの計算値は、和の計算で用いたスペクトル係数の数で、この差異の計算値を割ることによりスペクトル係数ごとの平均差異を示させることも可能である(この場合はM個の係数)。
サブステップ2−3では、サブステップ2−2で計算した差異の数値群に閾値を適用することでオーディトリーイベントの境界の位置を定義する。差異が閾値を上回っていると判断したとき、スペクトルの変化は新しいイベントの信号を送るのに十分だと判断され、ブロック数の変化はイベントの境界として記録される。上記で与えられたM及びPと(サブステップ2−1の)dB単位で表した対数領域での値に対して、閾値は、FFT強度全体と比較する場合(鏡像部分も含む)は、2500に設定され、FFT強度の半分と比較される場合(先に注記したように、FFTは正の周波数と同様に負も示す。従って、FFTの強度については、一方は他方の鏡像となる)は、1250に設定される。この値は、試験的に選ばれたものであり、好適なオーディトリーイベントの検出をもたらす。この変数値はイベントの検出を減らしたり(閾値を増大する)、増やしたり(閾値を減少する)することために変更が可能である。
この現実的な実施例の詳細は必須条件ではない。連続する時間区分間の相違を計算し、このような連続する時間区分間でのスペクトルプロファイルの内容の相違が閾値を超えたとき、連続する時間区分間の各々の境界にオーディトリーイベントの境界を設定するような、連続するオーディオ信号の時間区分のスペクトルの内容を計算する他の方法を適用してもよい。
(大きさがM個のサンプルで)Q個のブロックから構成されるオーディオ信号に対する、図1Aの2の機能であるオーディトリーシーンアナリシス処理の出力は、q=0,1,...,Q−1からなるオーディトリーイベントの境界の位置を示す情報の配列B(q)となる。ブロックサイズM=512サンプル、重複がP=0サンプルそして、信号サンプリングレートが44.1kHzに対して、オーディトリーシーンアナリシス処理2は、1秒間に約86の値を出力する。配列B(q)は、基本的な形では優勢なサブ帯域情報を任意に付加しないで、オーディオ信号のサインがオーディトリーイベントの境界の列を代表する配列B(q)となるように、サインとして保存される。
2つの異なった信号に対するオーディトリーシーンアナリシスの結果の一例を図4Aと4Bに示す。上図、図4Aは、オーディトリーイベントの境界がサンプル1024個目と1536個目のところに特定されたオーディトリーシーン処理の結果を示している。下図、4Bは、イベントの境界がサンプル1024個目、2048個目および3072個目のところに特定されたものを示している。
〈優勢なサブ帯域の特定(任意的)〉
各ブロックに対し、ASA処理(図2に示す)において任意に付加されたステップはブロック(各ブロックにおけるデータの周波数領域への変換は、周波数サブ帯域に分割された情報をもたらす)の優勢な「サブ帯域」であることを示すオーディオ信号から情報を引き出す。このブロック毎の情報はオーディトリーイベント毎の情報に変換され、優勢な周波数のサブ帯域が各オーディトリーイベントにおいて特定される。各オーディトリーイベントに対するこの情報は、オーディトリーイベントの境界に加えて他の情報とともに(以下に説明する)相関処理を提供する。優勢な(最も振幅の大きい)サブ帯域は、人間の耳がもっとも感度の高い周波数帯域又は範囲内の、例えば3又は4の複数のサブ帯域から選ぶことができる。代案的に、他の条件をサブ帯域の選定に使ってもよい。
スペクトルは例えば3つのサブ帯域に分割される。好ましいサブ帯域の周波数範囲は、
サブ帯域1 301Hzから560Hz
サブ帯域2 560Hzから1938Hz
サブ帯域3 1938Hzから9948Hz
である。
優勢なサブ帯域を決定するために、スペクトル振幅の自乗(又はスペクトルのパワーマグニチュード)が各サブ帯域において加算される。このサブ帯域毎の加算結果が算出されてもっとも大きなものが選ばれる。重み付けは、各サブ帯域での合計をそのサブ帯域のスペクトル値の数で割るという形式を取る。あるいは、その代わり、他より重要な帯域を強調するために、付加又は乗算するような形をとってもよい。これは、あるサブ帯域が他のサブ帯域より平均的にはエネルギーを持っているが、聴覚的には重要ではない場合に有効である。
Q個のブロックからなるオーディオ信号を考える、優勢なサブ帯域処理の出力は、各ブロック(q=0,1,...,Q−1)の優勢なサブ帯域を表す情報の配列DS(q)となる。配列DS(q)は、配列B(q)と共にサインの中に保存されることが好ましい。このようにして、任意的な優勢なサブ帯域の情報と共に、オーディオ信号のサインは、各々オーディトリーイベントの境界の列と各ブロック内の優勢な周波数サブ帯域の列を表す配列B(q)と配列DS(q)の2つとなる。このように、理想的な例では、2つの配列は(3つの優勢なサブ帯域があるケースでは)以下のような値となる。
10100010010000010 (イベント境界)
11222211133333311 (優勢なサブ帯域)
ほとんどの場合、優勢なサブ帯域は、この例に示すように、各オーディトリーイベント内において同じとなるか、又は、イベント内のすべてのブロックが一様でない場合は、平均値となる。このように、優勢なサブ帯域は、各オーディトリーイベント内で決定され、配列DS(q)は、同じ優勢なサブ帯域がイベント内の各ブロックに割り当てられるように修正され得る。
〈時間補正計算〉
抽出したサインの出力(図1A)は、前述のような、サインとして保存されるオーディトリーシーンアナリシス情報の1以上の配列である。時間補正計算機能(図1B)は、2つのサインを取り上げ、それらの時間のずれの程度を計算する。これは、既知の相互相関法を用いて算出される。
(長さQ)をサイン1からの1つの配列とし、S(長さQ)をサイン2からの1つの配列とする。最初に配列RE1E2の相関を計算する(例えば John G. Proakis, Dimitris G. Manolakis,Digital Signal Processing: Principles, Algorithms, and Applications, Macmillan Publishing Company, 1992, ISBN 0-02-396815-X参照)。
Figure 0004906230
現実的な実施例では、相互相関は、実行時間短縮のため標準的なFFTに基づく技術を用いて計算される。SとSは両方とも長さが有限なので、ゼロでないRE1E2はQ+Q−1の長さを持つ。RE1E2における最大成分に対応する遅れlは、Sに対するSの時間のずれを表す。
Figure 0004906230
この補正(時間のずれ)はサイン配列SとSと同じ単位を持つ現実的な実施例では、SとSの成分は、配列から隣接ブロックとの重複部を差し引いて配列を生成するために用いられたオーディオブロックサイズと等価な更新された比率をもつ。すなわちM−P=512−0=512サンプルとなる。
〈時間調整〉
時間調整機能6(図1B)は、2つのオーディオ信号における時間調整のために時間差を計算するために用いられる。これは、オーディオ信号入力SとS(2つのサインを生成するために用いられる)を取り上げ、両方が時間的に緊密に整列するよう、他方に対して一方を補正する。2つの調整された信号はオーディオ信号3と4として出力される。適用された遅れ又は補正の量は、サインSとS間の相対サイン遅れlpeakによる生成物であり、サインのサンプルにおける分解能M−Pである。
2つの音源の共通部分に関心がある応用例について(透かしが付けられていない信号と透かしが付けられた信号とを直接比較するような透かし検出の場合のように)、2つの音源は共通する部分が残るよう切りつめられる。
情報が失われない応用例では、先行するサンプルを挿入することにより一方の信号が補正される。例えば、xを長さNのオーディオ信号1のサンプルとし、xを長さNのオーディオ信号2のサンプルとする。またlpeakがM−Pのオーディオサンプルにおいて、Sに対する相対的なSの補正を表す。オーディオ信号Sに対する相対的なオーディオ信号Sの補正D21は、サインの補正lpeakとM−Pからの生成物である。
Figure 0004906230
もしD21がゼロなら、信号3と4のように、補正されないで出力される(図1B)。もしD21が正であれば、入力信号x(n)は、先行するサンプルを挿入することで補正される。
Figure 0004906230
信号x’(n)とx(n)は、信号3と4として出力される(図1B)。もしD21が負であれば、入力信号x(n)は、先行するサンプルを挿入することで補正される。
Figure 0004906230
〈計算の複雑さと精度〉
補正計算に必要なコンピュータの計算能力はサイン配列QとQに比例する。ここに記載された処理はある補正誤差を持つので、本発明による時間調整処理は、サインよりむしろオーディオ信号に直接作用する細かい分解能を持った従来からの処理によるだろう。例えば、時間調整されたオーディオ信号の一部を受け取り、この部分を正確なサンプル誤差又は細かい補正を決定するために、相互相関計算するであろう。サイン配列はサインの補正計算に用いられるので、時間調整方法の精度は、512個のサンプル数であるこの実施例では、サインを生成するオーディオブロックのサイズに制限される。言い換えれば、この方法は、サンプル補正において、プラスマイナスブロックサイズの約半分、この実施例では±256個のサンプル数の誤差を持つ。
この誤差は、サインの分解能を上げることにより減少させることができる。しかし、精度と計算の複雑さとの間には二律背反の関係がある。補正誤差を少なくするためにはサイン配列において分解能を上げる必要があり(より多くの配列要素を必要とする)、このことは相互相関の計算において高い計算処理能力を必要とする。大きな補正誤差でよければ、サイン配列において分解能は粗くてよく(配列要素が少ない)、このことは相互相関の計算において低い計算処理能力でよいことになる。
〈応用〉
透かしを入れるためには、しるしをつけた信号を作るために他の信号を付加することも含め、何らかのあらかじめ定められた方法によりサインを変更することにより、サインの中に情報を埋め込むことを必要とする。埋め込まれた情報の検出又は抽出は、透かしの入った信号と元の信号源との比較に頼ることになる。また、透かしの入った信号は、オーディオコーディングやスピーカー/マイクロフォンの音響機器への伝達を含む処理を受ける。本発明は、透かしの入った信号の元の信号源に対する時間調整の方法を提供し、埋め込まれた情報の抽出を容易にする。
コード化された信号と元の信号源とを比較することにより、オーディオコーダーの質を決める主観的な方法及び客観的な方法においては、信号の劣化の程度を作成するためにコード化された信号を作り出していた(例えばITU−R5ポイント劣化評価)。比較は、コード化された信号と元の信号源との比較における時間調整に依存する。この方法は、音源とコード化された信号との時間調整の方法を提供する。
本発明は、例えば、先に説明したような音声信号を映像信号のlip-syncingの改善など、他の応用も可能である。
本発明及びその様々な特徴に基づく変更又は修正による他の実施形態は、当業者にとって明らかであり、本発明は具体的に記載された実施の形態に限定されないことは了解されるべきである。従って、あらゆる変更や修正又は本質的な思想とここに開示され、請求された原則的な基本原理と均等なものは本発明の範囲に含まれる。
本発明とその種々の特徴は、ディジタル信号処理装置、プログラムされた汎用ディジタルコンピュータ及び/又は専用ディジタルコンピュータのソフトウエアの機能により実行することができる。アナログ信号とディジタル信号の流れは適当なハードウエアにより、及び/又はソフトウエア及び/又はファームウエアの機能として実行されよう。
図1Aは、本発明による、オーディオ信号からサインを抽出する処理を示したフローチャートである。オーディオ信号は、たとえば音楽を表現するもの(例えば、音楽作品や歌)でもよい。図1Bは、本発明による、2つのオーディオ信号の時間調整処理を図示したフローチャートである。 図2は、本発明による、オーディオイベントの位置を抽出し、状況に応じて、オーディオ信号から優勢なサブ帯域を抽出することを図示したフローチャートである。 図3は、本発明よる、スペクトル分析のステップを表した概念図である。 図4Aと4Bは、本発明による、複数のオーディトリーイベントの位置又はオーディトリーイベントの境界を示した理想的なオーディオ波形である。

Claims (13)

  1. 一方の信号が他方の信号から導き出され、又は、両方の信号がもう1つ別の信号から導き出された第1のオーディオ信号と第2のオーディオ信号の時間調整方法であって、
    前記オーディオ信号の縮減された情報による特徴付けを導き出すステップであって、
    該特徴付けは前記オーディオ信号自身の持つ情報より少ない情報からなり、前記縮減された情報による特徴付けは、少なくとも、各オーディトリーイベントが別のものと識別されるようなオーディトリーイベントに、前記オーディオ信号を分割した結果できたオーディトリーイベントの境界を表現し、
    各オーディオ信号は、
    該オーディオ信号における時間に関する信号特性の変化を検出し、
    時間に関する信号特性の閾値を越える変化が境界を定義し、各オーディトリーイベントは、隣り合う境界で挟まれたオーディオ部分であり、このような隣り合う境界で挟まれた部分には1つだけオーディトリーイベントが存在し、各境界は、連続するオーディトリーイベントが得られるように、先行するオーディトリーイベントの終端となり後続するオーディトリーイベントの先端となっており、どのオーディトリーイベントの境界も、オーディトリーイベントも、オーディトリーイベントの特性も、連続するオーディトリーイベントの境界を特定して該連続するオーディトリーイベントを取得する前には知られていない状況で、前記オーディオ信号における連続するオーディトリーイベントの境界を特定することにより、
    オーディトリーイベントに分割されることを特徴とする、
    前記オーディオ信号の縮減された情報による特徴付けを導き出すステップと、
    前記特徴付けは、その元となるオーディオ信号と実質的に同じ相対的時間関係を有し、 他の特徴付けに対する一方の特徴付けの時間補正を計算するステップと、
    前記時間補正に応答して、前記オーディオ信号を同期化又はほぼ同期化させるために、前記オーディオ信号の一方を他方に対して時間移動させるか又は両方を時間移動させるステップと、
    を具備することを特徴とする、第1のオーディオ信号と第2のオーディオ信号の時間調整方法。
  2. 前記各オーディオ信号は各々他の信号を伴い、前記計算するステップと前記修正するステップとを行う前に、前記縮減された情報による特徴付けを導き出す前記オーディオ信号に伴う前記他の信号のそれぞれに、前記縮減された情報による特徴付けの各々が埋め込まれることを特徴とする、請求項1に記載の方法。
  3. 前記他の信号は、ビデオ信号であることを特徴とする、請求項2に記載の方法。
  4. 1つのオーディオ信号と他の1つの信号との時間調整方法であって、
    前記オーディオ信号の縮減された情報による特徴付けを導き出し、当該オーディオ信号と他の信号が実質的に同期化されているとき前記他の信号に前記特徴付けを埋め込むステップであって、
    該特徴付けは前記オーディオ信号自身の持つ情報より少ない情報からなり、前記特徴付けは、少なくとも、各オーディトリーイベントが別のものと識別されるようなオーディトリーイベントに、前記オーディオ信号を分割した結果できたオーディトリーイベントの境界を表現し、
    前記オーディオ信号は、
    該オーディオ信号における時間に関する信号特性の変化を検出し、
    時間に関する信号特性の閾値を越える変化が境界を定義し、各オーディトリーイベントは、隣り合う境界で挟まれたオーディオ部分であり、このような隣り合う境界で挟まれた部分には1つだけオーディトリーイベントが存在し、各境界は、連続するオーディトリーイベントが得られるように、先行するオーディトリーイベントの終端となり後続するオーディトリーイベントの先端となっており、どのオーディトリーイベントの境界も、オーディトリーイベントも、オーディトリーイベントの特性も、連続するオーディトリーイベントの境界を特定して該連続するオーディトリーイベントを取得する前には知られていない状況で、前記オーディオ信号における連続するオーディトリーイベントの境界を特定することにより、
    オーディトリーイベントに分割されることを特徴とする、前記他の信号に前記特徴付けを埋め込むステップと、
    前記オーディオ信号と前記他の信号が時間補正の対象となった後、前記他の信号から前記オーディオ信号の埋め込まれた特徴付けを復元し、オーディトリーシーンアナリシスに基づいて前記オーディオ信号の埋め込まれた特徴付けが導き出されたのと同じ方法で、前記オーディオ信号から前記オーディオ信号の縮減された情報による特徴付けを導き出すステップと、
    他方の特徴付けに対する1方の特徴付けの時間補正を計算するステップと、
    前記時間補正に応答して、前記オーディオ信号を同期化又はほぼ同期化させるために、前記オーディオ信号の一方を他方に対して時間移動させるか又は両方を時間移動させるステップと、
    を具備することを特徴とする、1つのオーディオ信号と他の1つの信号との時間調整方法。
  5. 前記他の信号がビデオ信号であることを特徴とする、請求項4に記載の方法。
  6. 時間補正の計算には前記特徴付けの相互相関計算を含むことを特徴とする、請求項1に記載の方法。
  7. 時間補正の計算には前記特徴付けの相互相関計算を含むことを特徴とする、請求項4に記載の方法。
  8. 前記縮減された情報による特徴付けは、前記オーディトリーイベントの各々の優勢な周波数サブ帯域をも表現することを特徴とする、請求項1乃至請求項7のいずれか1項に記載の方法。
  9. オーディオ信号と他の1つのオーディオ信号の時間調整方法であって、これらの信号は、保存又は伝達時に時間補正の対象となり、
    前記オーディオ信号と前記他の1つのオーディオ信号とが時間補正の対象となる前に、前記オーディオ信号の第1の縮減された情報による特徴付けを導き出し、前記第1の特徴付けを前記他の1つのオーディオ信号に埋め込むステップであって、
    前記第1の特徴付けは、少なくとも、前記オーディオ信号を、各オーディトリーイベントが別のものと識別されるようなオーディトリーイベントに分割した結果できたオーディトリーイベントの境界を表現し、
    前記オーディオ信号は、
    該オーディオ信号における時間に関する信号特性の変化を検出し、
    時間に関する信号特性の閾値を越える変化が境界を定義し、各オーディトリーイベントは、隣り合う境界で挟まれたオーディオ部分であり、このような隣り合う境界で挟まれた部分には1つだけオーディトリーイベントが存在し、各境界は、連続するオーディトリーイベントが得られるように、先行するオーディトリーイベントの終端となり後続するオーディトリーイベントの先端となっており、どのオーディトリーイベントの境界も、オーディトリーイベントも、オーディトリーイベントの特性も、連続するオーディトリーイベントの境界を特定して該連続するオーディトリーイベントを取得する前には知られていない状況で、前記オーディオ信号における連続するオーディトリーイベントの境界を特定することにより、
    オーディトリーイベントに分割されることを特徴とする、該第1の特徴付けを前記他の1つのオーディオ信号に埋め込むステップと、
    前記オーディオ信号と前記他の1つのオーディオ信号とが時間補正の対象となった後に、前記他のオーディオ信号から埋め込まれた前記オーディオ信号の第1の特徴付けを復元し、オーディトリーシーンアナリシスに基づいて前記オーディオ信号の第1の特徴付けが導き出されたのと同じ方法で、前記オーディオ信号から前記オーディオ信号の縮減された情報による第2の特徴付けを復元するステップであって、前記第1の特徴付けと前記第2の特徴付けは、その元となるオーディオ信号より少ない情報により成り立つようにすることを特徴とする、ステップと、
    前記第2の特徴付けに対する前記第1の特徴付けとの時間差を調整するステップと、
    前記時間補正値に応答して、前記オーディオ信号を同期化又はほぼ同期化させるために、前記オーディオ信号の一方を他方に対して時間移動させるか又は両方を時間移動させるステップと、
    を具備することを特徴とする、オーディオ信号と他の1つのオーディオ信号の時間調整方法。
  10. オーディオ信号と他のオーディオ信号の時間調整方法であって、これらの信号は、第1の縮減された情報による特徴付けが前記オーディオ信号から導き出され前記他のオーディオ信号に埋め込まれた後に、保存又は伝達時に時間補正の対象となっていたものであり、前記特徴付けは、少なくとも、前記オーディオ信号を、各オーディトリーイベントが別のものと識別されるようなオーディトリーイベントに分割した結果できたオーディトリーイベントの境界を表現し、
    前記オーディオ信号は、
    該オーディオ信号における時間に関する信号特性の変化を検出し、
    時間に関する信号特性の閾値を越える変化が境界を定義し、各オーディトリーイベントは、隣り合う境界で挟まれたオーディオ部分であり、このような隣り合う境界で挟まれた部分には1つだけオーディトリーイベントが存在し、各境界は、連続するオーディトリーイベントが得られるように、先行するオーディトリーイベントの終端となり後続するオーディトリーイベントの先端となっており、どのオーディトリーイベントの境界も、オーディトリーイベントも、オーディトリーイベントの特性も、連続するオーディトリーイベントの境界を特定して該連続するオーディトリーイベントを取得する前には知られていない状況で、前記オーディオ信号における連続するオーディトリーイベントの境界を特定することにより、
    オーディトリーイベントに分割されることを特徴とし、
    前記時間調整方法は、
    前記他のオーディオ信号から埋め込まれた前記オーディオ信号の第1の特徴付けを復元し、オーディトリーシーンアナリシスに基づいて前記オーディオ信号の第1の特徴付けが導き出されたのと同じ方法で、前記オーディオ信号から前記オーディオ信号の縮減された情報による第2の特徴付けを導き出すステップであって、前記第1の特徴付けと前記第2の特徴付けは、その元となるオーディオ信号より少ない情報により成り立つようにすることを特徴とするステップと、
    前記第2の特徴付けに対する前記第1の特徴付けのむだ時間補正値を計算するステップと、
    前記時間補正値に応答して、前記オーディオ信号を同期化又はほぼ同期化させるために、前記オーディオ信号の一方を他方に対して時間移動させるか又は両方を時間移動させるステップと、
    を具備することを特徴とするオーディオ信号と他のオーディオ信号の時間調整方法。
  11. 前記他の信号がビデオ信号であることを特徴とする、請求項9又は請求項10に記載の方法。
  12. 時間補正の計算には前記特徴付けの相互相関計算を含むことを特徴とする、請求項9又は請求項10に記載の方法。
  13. 前記縮減された情報による特徴付けは、前記オーディトリーイベントの各々の優勢な周波数サブ帯域をも表現することを特徴とする、請求項9又は請求項10に記載の方法。
JP2003500892A 2001-05-25 2002-02-25 オーディトリーイベントに基づく特徴付けを使ったオーディオ信号の時間調整方法 Expired - Fee Related JP4906230B2 (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US29382501P 2001-05-25 2001-05-25
US60/293,825 2001-05-25
US4564402A 2002-01-11 2002-01-11
US10/045,644 2002-01-11
US35149802P 2002-01-23 2002-01-23
US60/351,498 2002-01-23
USPCT/US02/04317 2002-02-12
PCT/US2002/004317 WO2002084645A2 (en) 2001-04-13 2002-02-12 High quality time-scaling and pitch-scaling of audio signals
PCT/US2002/005806 WO2002097791A1 (en) 2001-05-25 2002-02-25 Method for time aligning audio signals using characterizations based on auditory events

Publications (3)

Publication Number Publication Date
JP2004528600A JP2004528600A (ja) 2004-09-16
JP2004528600A5 JP2004528600A5 (ja) 2005-12-22
JP4906230B2 true JP4906230B2 (ja) 2012-03-28

Family

ID=39362827

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2003500892A Expired - Fee Related JP4906230B2 (ja) 2001-05-25 2002-02-25 オーディトリーイベントに基づく特徴付けを使ったオーディオ信号の時間調整方法
JP2003500893A Expired - Lifetime JP4763965B2 (ja) 2001-05-25 2002-02-26 オーディオ信号の聴覚的イベントへの分割

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2003500893A Expired - Lifetime JP4763965B2 (ja) 2001-05-25 2002-02-26 オーディオ信号の聴覚的イベントへの分割

Country Status (11)

Country Link
EP (2) EP1390942B1 (ja)
JP (2) JP4906230B2 (ja)
KR (3) KR100873396B1 (ja)
CN (2) CN1272765C (ja)
AT (1) ATE470927T1 (ja)
DE (1) DE60236648D1 (ja)
DK (1) DK1393300T3 (ja)
ES (1) ES2400700T3 (ja)
HK (2) HK1066087A1 (ja)
MX (2) MXPA03010751A (ja)
WO (1) WO2002097791A1 (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
DE60225130T2 (de) 2001-05-10 2009-02-26 Dolby Laboratories Licensing Corp., San Francisco Verbesserung der transientenleistung bei kodierern mit niedriger bitrate durch unterdrückung des vorgeräusches
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
WO2005086139A1 (en) 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
CA2581982C (en) 2004-09-27 2013-06-18 Nielsen Media Research, Inc. Methods and apparatus for using location information to manage spillover in an audience monitoring system
CA2610430C (en) 2005-06-03 2016-02-23 Dolby Laboratories Licensing Corporation Channel reconfiguration with side information
US7948557B2 (en) * 2005-06-22 2011-05-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a control signal for a film event system
JP4940588B2 (ja) * 2005-07-27 2012-05-30 ソニー株式会社 ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
US7539616B2 (en) * 2006-02-20 2009-05-26 Microsoft Corporation Speaker authentication using adapted background models
KR101200615B1 (ko) 2006-04-27 2012-11-12 돌비 레버러토리즈 라이쎈싱 코오포레이션 청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어
BRPI0712894A2 (pt) * 2006-06-13 2012-10-09 Koninkl Philips Electronics Nv impressão digital para um fluxo de vìdeo, aparelho operável para gera uma impressão digital, métodos para gerar uma impressão digital e para sincronizar uma mìdia secundária com um fluxo de vìdeo em um aparelho, software, estrutura de dados para um script ambilight, uso de uma impressão digital de um fluxo de vìdeo, sinal para comunicar a identidade de um fluxo de vìdeo
JP5040425B2 (ja) * 2007-05-10 2012-10-03 カシオ計算機株式会社 コンテンツ再生方法、再生装置、及びプログラム
GB2457694B (en) 2008-02-21 2012-09-26 Snell Ltd Method of Deriving an Audio-Visual Signature
JP2010017216A (ja) * 2008-07-08 2010-01-28 Ge Medical Systems Global Technology Co Llc 音声データ処理装置,音声データ処理方法、および、イメージング装置
EP2425426B1 (en) * 2009-04-30 2013-03-13 Dolby Laboratories Licensing Corporation Low complexity auditory event boundary detection
US8855101B2 (en) 2010-03-09 2014-10-07 The Nielsen Company (Us), Llc Methods, systems, and apparatus to synchronize actions of audio source monitors
CN102142257B (zh) * 2010-12-28 2013-07-03 北大方正集团有限公司 一种音频信号处理方法及装置
CN103548079B (zh) * 2011-08-03 2015-09-30 Nds有限公司 音频水印
WO2012163013A1 (zh) * 2011-10-19 2012-12-06 华为技术有限公司 音乐查询方法和装置
CA2855845A1 (en) 2011-11-18 2013-05-23 Sirius Xm Radio Inc. Systems and methods for implementing cross-fading, interstitials and other effects downstream
WO2013134567A1 (en) 2012-03-06 2013-09-12 Sirius Xm Radio Inc. Systems and methods for audio attribute mapping
EP2648418A1 (en) 2012-04-05 2013-10-09 Thomson Licensing Synchronization of multimedia streams
CA2870865C (en) 2012-04-17 2020-08-18 Sirius Xm Radio Inc. Server side crossfading for progressive download media
WO2014018652A2 (en) 2012-07-24 2014-01-30 Adam Polak Media synchronization
US20140114456A1 (en) * 2012-10-22 2014-04-24 Arbitron Inc. Methods and Systems for Clock Correction and/or Synchronization for Audio Media Measurement Systems
US9021516B2 (en) 2013-03-01 2015-04-28 The Nielsen Company (Us), Llc Methods and systems for reducing spillover by measuring a crest factor
US9118960B2 (en) * 2013-03-08 2015-08-25 The Nielsen Company (Us), Llc Methods and systems for reducing spillover by detecting signal distortion
US9191704B2 (en) 2013-03-14 2015-11-17 The Nielsen Company (Us), Llc Methods and systems for reducing crediting errors due to spillover using audio codes and/or signatures
US9979829B2 (en) 2013-03-15 2018-05-22 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
EP3100458B1 (en) 2014-01-31 2018-08-15 Thomson Licensing Method and apparatus for synchronizing the playback of two electronic devices
CN104036794A (zh) * 2014-06-27 2014-09-10 广东远峰汽车电子有限公司 可识别车载多媒体设备工作频道的加装设备、车载多媒体设备工作频道识别方法及装置
US9924224B2 (en) 2015-04-03 2018-03-20 The Nielsen Company (Us), Llc Methods and apparatus to determine a state of a media presentation device
US9848222B2 (en) 2015-07-15 2017-12-19 The Nielsen Company (Us), Llc Methods and apparatus to detect spillover
US10394518B2 (en) * 2016-03-10 2019-08-27 Mediatek Inc. Audio synchronization method and associated electronic device
EP3497697B1 (en) * 2016-11-04 2024-01-31 Hewlett-Packard Development Company, L.P. Dominant frequency processing of audio signals
GB2556058A (en) * 2016-11-16 2018-05-23 Nokia Technologies Oy Distributed audio capture and mixing controlling
WO2019088853A1 (en) * 2017-11-03 2019-05-09 Klaps Limited Live audio replacement in a digital stream
CN110476960B (zh) * 2019-09-19 2021-06-15 河北省农林科学院植物保护研究所 噻虫胺薄膜缓释型种子处理悬浮剂及其制备方法与应用
CN111489759A (zh) * 2020-03-23 2020-08-04 天津大学 基于光纤语音时域信号波形对齐的噪声评估方法
CN112651429B (zh) * 2020-12-09 2022-07-12 歌尔股份有限公司 一种音频信号时序对齐方法和装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4624009A (en) 1980-05-02 1986-11-18 Figgie International, Inc. Signal pattern encoder and classifier
US5040081A (en) * 1986-09-23 1991-08-13 Mccutchen David Audiovisual synchronization signal generator using audio signature comparison
US5055939A (en) * 1987-12-15 1991-10-08 Karamon John J Method system & apparatus for synchronizing an auxiliary sound source containing multiple language channels with motion picture film video tape or other picture source containing a sound track
WO1991019989A1 (en) * 1990-06-21 1991-12-26 Reynolds Software, Inc. Method and apparatus for wave analysis and event recognition
US5175769A (en) * 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
JPH05181464A (ja) * 1991-12-27 1993-07-23 Sony Corp 楽音認識装置
US6002776A (en) 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
KR100236974B1 (ko) * 1996-12-13 2000-02-01 정선종 동화상과 텍스트/음성변환기 간의 동기화 시스템
JP3379624B2 (ja) * 1997-02-17 2003-02-24 日本電信電話株式会社 波形同期方法
US6211919B1 (en) * 1997-03-28 2001-04-03 Tektronix, Inc. Transparent embedment of data in a video signal
JP3511360B2 (ja) * 1998-03-09 2004-03-29 日本電信電話株式会社 音楽音響信号分離方法、その装置およびそのプログラム記録媒体
JP2000181449A (ja) * 1998-12-15 2000-06-30 Sony Corp 情報処理装置および方法、並びに提供媒体
US6321200B1 (en) * 1999-07-02 2001-11-20 Mitsubish Electric Research Laboratories, Inc Method for extracting features from a mixture of signals
JP4458581B2 (ja) * 1999-08-17 2010-04-28 大日本印刷株式会社 信号監視用音楽演奏装置

Also Published As

Publication number Publication date
EP2549475B1 (en) 2019-07-31
JP2004528600A (ja) 2004-09-16
HK1066902A1 (en) 2005-04-01
EP1390942B1 (en) 2012-08-01
MXPA03010750A (es) 2004-07-01
EP1390942A1 (en) 2004-02-25
KR100871607B1 (ko) 2008-12-02
KR100873396B1 (ko) 2008-12-11
CN1264137C (zh) 2006-07-12
ES2400700T3 (es) 2013-04-11
DK1393300T3 (da) 2013-03-18
HK1066087A1 (en) 2005-03-11
KR20040004646A (ko) 2004-01-13
CN1272765C (zh) 2006-08-30
KR100911679B1 (ko) 2009-08-10
KR20040004648A (ko) 2004-01-13
KR20040004647A (ko) 2004-01-13
JP2004528601A (ja) 2004-09-16
WO2002097791A1 (en) 2002-12-05
JP4763965B2 (ja) 2011-08-31
DE60236648D1 (de) 2010-07-22
CN1511311A (zh) 2004-07-07
MXPA03010751A (es) 2005-03-07
CN1620684A (zh) 2005-05-25
ATE470927T1 (de) 2010-06-15
EP2549475A1 (en) 2013-01-23

Similar Documents

Publication Publication Date Title
JP4906230B2 (ja) オーディトリーイベントに基づく特徴付けを使ったオーディオ信号の時間調整方法
JP4272050B2 (ja) オーディトリーイベントに基づく特徴付けを使ったオーディオの比較
US7461002B2 (en) Method for time aligning audio signals using characterizations based on auditory events
US9165562B1 (en) Processing audio signals with adaptive time or frequency resolution
US7283954B2 (en) Comparing audio using characterizations based on auditory events
AU2002242265A1 (en) Method for time aligning audio signals using characterizations based on auditory events
AU2002240461A1 (en) Comparing audio using characterizations based on auditory events
AU2002252143A1 (en) Segmenting audio signals into auditory events

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041206

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070807

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20071101

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20071108

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090527

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090723

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090729

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20100319

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100929

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20101202

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110802

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111201

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20111226

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120110

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150120

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees