JP2013255249A - オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測 - Google Patents

オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測 Download PDF

Info

Publication number
JP2013255249A
JP2013255249A JP2013148835A JP2013148835A JP2013255249A JP 2013255249 A JP2013255249 A JP 2013255249A JP 2013148835 A JP2013148835 A JP 2013148835A JP 2013148835 A JP2013148835 A JP 2013148835A JP 2013255249 A JP2013255249 A JP 2013255249A
Authority
JP
Japan
Prior art keywords
video
audio
destination
content
signature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013148835A
Other languages
English (en)
Other versions
JP5698318B2 (ja
Inventor
B Terry Kent
テリー、ケント・ビー
Radhakrishnan Regunathan
ラドハクリシュナン、レグナサン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of JP2013255249A publication Critical patent/JP2013255249A/ja
Application granted granted Critical
Publication of JP5698318B2 publication Critical patent/JP5698318B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234318Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into objects, e.g. MPEG-4 objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/242Synchronization processes, e.g. processing of PCR [Program Clock References]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4305Synchronising client clock from received content stream, e.g. locking decoder clock with encoder clock, extraction of the PCR packets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising

Abstract

【課題】従来技術の限界を避けることの出来るビデオ及びオ−ディオ信号の間の同期を維持し又は再確立することを提供する。
【解決手段】特徴が互いに既知の時間的関係をもつビデオ及びオーディオ内容から抽出される。抽出された特徴はビデオ及びオーディオ署名を生成するために用いられ、該署名は時間的関係の指標とともに同期署名構築に組み入れられる。前記構築は離れた目的地で受領されたビデオ及びオーディオ内容の間の同期誤差を算出するために使用しても良い。処理を最適化し、算出された同期誤差の信頼性の指標を提供するために信頼性の基準が離れた目的地で生成される。
【選択図】 図1

Description

本発明は一般的にはビデオ及びオ−ディオ信号を処理しそして分配するシステム及び方法に関し、より詳しくはビデオ及びオ−ディオ信号の相対的時間アラインメント又は同期に関する情報を搬送するデータを生成し、伝送し又は使用する応用に関する。本明細書を通して「ビデオ信号」は視角によって認識される内容を伝送する信号を指し、「オ−ディオ信号」は聴覚により認識される内容を伝送する信号を指す。ある応用においては、あるシステムは、信号によって伝送される内容の処理及び分配中に失われたビデオ及びオ−ディオ信号の間の適切な同期を再構築するための本発明の特徴を用いる。
関連出願との相互参照
本出願は2008年8月21日に出願された米国仮出願番号61/189,659に基づく優先権を主張するものであり、本出願の内容は参照により本明細書に組み入れられる。
ビデオ及びオ−ディオ信号の相対的時間アラインメントはオ−ディオービデオ内容の知覚される品質中の重要なファクターである。「リップシンク」(lip sync)と呼ばれる、ある良く知られた例に、人の唇の動く画像とその人が話す言葉による音の間の相対的時間アラインメントがある。種々の研究により、もし音が動く画像に関係する場合、観察する人は通常、画像と音の相対的時間アラインメントのずれがある範囲にある場合は、それに気付かないか又は寛容であることが知られている。ITU-R Recommendation BT.1359-1「放送における、音と画像の相対的適時選択(タイミング)」によると、もし音が関連する視覚事象に約20ミリ秒を超えない短い時間で先行し、又は関連する視覚事象に約95ミリ秒を超えない時間の範囲で遅れた場合には、時間アラインメントの差は通常感知されない。もし音が関連する視覚事象より90ミリ秒より大きい範囲で先行し、又は関連する視覚事象に約185ミリ秒より大きい時間の範囲で遅れた場合には、時間アラインメントでのこの差は知覚され、通常受容し難いものとなる。本明細書において、もし相対的アラインメントの差が広い範囲の観察者により認識されないか又は少なくとも受容されるかのいずれかの場合、ビデオ及びオ−ディオ信号は適正な時間アラインメントを持つ又はお互いに同期していると見做される。
残念なことに、オ−ディオービデオ内容を処理し、分配し及び送り出す方法及びシステムの多くはしばしば適正な同期を失わせる機構を含んでいる。例えば、放送において、ビデオ及びオ−ディオ信号はスタジオにいる場合の様に信号を捕捉した時点で通常同期されるが、これらの信号は放送により伝送される前にしばしば処理され、この処理は同期を失わせる原因となり得る。例えば、アナログビデオ及びオ−ディオ信号は、その内容を伝送するために必要なビットレート又は帯域幅(バンド幅)を減少させるためにデジタル形式に変換され、そして知覚符号化方法により処理されることがある。クロマキーイング(chroma keying)の様なプロセスが複数ビデオ信号からの画像を融合させるために用いられることがある。補助オ−ディオ信号が元のオ−ディオ信号と混合され又はそれに置き換えられることもある。これらの及び他のプロセスの多くは信号プロセシング経路に遅延を導入している。もし処理の遅延がビデオ信号プロセシング経路とオ−ディオ信号プロセシング経路において厳密に等しくない場合は同期を失うことは避けられない。さらに、ビデオ及びオ−ディオ信号が異なるチャンネルを通して独立に分配される場合、同期はしばしば失われる。
これらの問題を避けるために、種々の技術が提案され、そして受領したビデオ/オ−ディオ内容及び同期することが知られている参照ビデオ/オ−ディオ内容の間のマッチングを探求し、アラインメントとの関係で受領したビデオ/オ−ディオ内容と参照内容との間の時間アラインメントの変化を算出し、そして同期を再確立するために受領したビデオ内容又は受領したオ−ディオ内容を遅延させる技術が用いられる。他の知られた技術の限界は、アラインメントにおけるマッチングの信頼性又は算出された変化の信頼性を明らかにしないことである。
本発明の一つの目的は従来技術の限界を避けることの出来るビデオ及びオ−ディオ信号の間の同期を維持し又は再確立することを提供する。本発明の他の目的はビデオ‐オ−ディオ内容の同定及び確認及び他の信号のビデオ及びオ−ディオ信号への同期を含む種々の応用に用いることのできるビデオ及びオ−ディオ信号の署名を提供することにある。
本発明は、ビデオ内容の一以上の特徴を表す一以上のビデオ署名、オ−ディオ内容の一以上の特徴を表す一以上のオーディオ署名、及びビデオ及びオ−ディオ内容の間の時間アラインメントを伝えるオ−ディオ/ビデオ(A/V)同期署名構築を提供する。
本発明は独立請求項において規定される。ある有利な実施上の特徴は従属請求項に規定される。本発明及び好ましい実施の形態は以下の議論及び添付図面を参照することにより、より良く理解されるであろう。以下の議論の内容及び図面は例として記載するものであり、本発明の範囲を限定するものと解してはならない。
図1は、リアルタイムに配給される放送信号の様なビデオ及びオ−ディオ信号の間の同期を再確立する本発明の特徴を組み入れた代表的システムの略ブロック図である。 図2は、非リアルタイムに配給することの出来る録音された信号の様なビデオ及びオ−ディオ信号の間の同期を再確立する本発明の特徴を組み入れた代表的システムの略ブロック図である。 図3は、ビデオ及びオ−ディオ信号の同期署名構築を生成する代表的機器を表す。 図4は、ビデオ署名生成器のある実施の態様の略ブロック図である。 図5A−5Cは、2つのフレームのビデオ内容の間の差を表す相違の基準を生成するために使用されるプロセスの略ブロック図である。 図6A−6Bは、低分解能における一組の中間値の略ブロック図である。 図7はオ−ディオ署名生成器のある実施の態様の略ブロック図である。 図8は、オ−ディオ内容のあるセグメントの時間周波数表示を生成するために使用されるプロセスの略ブロック図である。 図9は、低時間分解能時間周波数表示の一組の中間値の略ブロック図である。 図10は、ビデオ及びオ−ディオ信号及び同期署名構築のための代表的な分配ネットワークの略ブロック図である。 図11はビデオ及びオ−ディオ信号の同期を検出するための同期署名構築を使用する代表的な装置の略ブロック図である。 図12は、ビデオ/オ−ディオ流れのタイミングの遅れを表す略ブロック図である。 図13は、一致の信頼性(確度)の基準を計算するための予測モデルを用いた代表的な技術の略ブロック図である。 図14は、ビデオ又はオ−ディオ内容のコピー検出のための署名データベースを管理する装置の略ブロック図である。 図15は、本発明の種々の特徴を実施するために使用される装置の略ブロック図である。
概観
図1及び2は本発明の特徴を組み入れた代表的システムの略ブロック図であり、同システムはビデオ及びオ−ディオ信号の間の同期を検出しそして再確立するために使用することができる。これらの各システムは同期署名構築を生成し、分配し及び適用する機能を組み入れ、この構築はビデオ及びオ−ディオ内容、及びこの内容の間の時間アラインメントを表すデータの論理構造である。この構築は必要な情報を伝送することの出来る実質的な任意のデータ構造によって実施しても良い。これらの機能をここで紹介し、以下でより詳細に説明する。
図1に示すシステムは、放送信号による伝送される内容の様なリアルタイムに分配されるビデオ及びオ−ディオ内容に使用しても良い。リアルタイム分配にはリアルタイム提供又は再生含む。図2に示すシステムはマルチメディアサーバーにより受信され、保存される内容の様なリアルタイムに分配されるものでないビデオ及びオ−ディオ内容の場合に使用しても良い。非リアルタイム分配は、内容のリアルタイム提供又は再生を含んでも良く又は含まなくても良い。この場合、「リアルタイム」の用語は、ビデオ及びオ−ディオ内容が生成され、又は保存され及びその後再生される速度(rate)を言う。「非リアルタイム」の用語はリアルタイムよりも早い又は遅い割合を言う。
何れの図面には示されていないが、あるシステムは、非リアルタイムで操作される装置で操作するためにリアルタイムで操作される装置を使用するように構成しても良い。例えば、図1に示すリアルタイムA/V同期署名生成器により生成される同期署名構築は、記録された内容を非リアルタイムで読み取りそして処理する装置により使用することができる様に構成しても良い。他の例として、図2に示す非リアルタイムA/V同期署名生成器により生成される同期署名構築は、リアルタイムで内容を処理する内容編集器又は送信機により使用しても良いように構成することができる。
1. リアルタイムシステム
図1に示すリアルタイムシステムはリアルタイムに同期署名構築を生成し及び分配する。本発明のリアルタイムシステムで実施をするためには、非リアルタイムシステムで使用で考えられるものより低い、計算の複雑さ、メモリー及びバッファー要求での処理を必要とすることもある。図1を参照すると、A/V同期署名生成器はビデオ及びオ−ディオ信号の内容を検討し、分析し、ビデオ及びオ−ディオ署名を生成するために一以上の内容の特徴を抽出する。これらの2つの署名は同期署名構築に組み立てられる。署名生成器はリアルタイムでビデオ及びオ−ディオ信号を受領し、ビデオ及びオ−ディオ信号は続いてリアルタイムで分配される。したがって、署名生成器はリアルタイムで同期署名構築を生成する。殆どの実施の態様において、A/V同期署名生成器により検知されたビデオ及びオ−ディオ信号はお互いに所望の時間アラインメントを持つと予想されるが、これは原則として必要とされない。もし望むならば、A/V同期署名生成器のある実施の態様においては、実際の時間アラインメントの同期署名構築での明確な指標を含むことによりビデオとオ−ディオ信号の間のアラインメントでの知られたシフトを説明することができる。この明確な指標は、同期署名構築が生成された場合に恰も2つの信号が所望のアラインメントを持っている様に、同じ結果を達成するために必要な、あらゆる調整を行う続く処理において使用することができる。もしビデオ信号及びオ−ディオ信号が適正なアラインメントにあると判明している場合、明確な情報は必要でなく、そして2つの信号の相対的時間アラインメントを暗示的に伝送することができる。
好ましくは特徴の選択又はそれを得るための抽出プロセスは、ビデオ内容、オ−ディオ内容又は同期署名構築を伝送する信号を続いて修飾するプロセスに対抗し又は許容するものが良い。これらのプロセスの例の幾つかについて以下に述べる。ビデオ信号、オ−ディオ信号及び同期署名構築を伝送する信号はまた、信号分配での種々に変わる遅延に曝されることもある。例えば、知覚的符号化の様な信号処理は、信号プロセスシング経路での遅延を生じさせる。
A/V同期検出器に送られるビデオ及びオ−ディオ内容は、以下に述べる理由により同期署名構築を生成するために使用されるビデオ及びオ−ディオ内容と異なることもある。この違いを明確にするために、A/V同期検出器に存在する信号、内容及び署名を同定するために必要に応じて、「目的地」の用語が使用され、A/V同期署名生成器に存在する信号、内容及び署名を同定するため、必要に応じて本明細書で「参照」の用語が用いられる。
A/V同期検出器は目的地ビデオ及びオ−ディオ内容を伝送するビデオ及びオ−ディオ信号を受領する。それはまた同期署名信号を伝送する信号を受領する。それは目的地ビデオ署名を生成する一以上の特徴を抽出するために、受領したビデオ及びオ−ディオ信号及び目的地オ−ディオ署名の目的地内容を調査し、分析し、同期署名構築から参照ビデオ署名及び参照オ−ディオ信号得て、目的地ビデオ署名を参照ビデオ署名と比べ、そして目的地オ−ディオ信号を参照オ−ディオ署名と比較し、そして、受領したビデオ信号及び目的地オ−ディオ信号の時間アラインメントを、同期署名構築が生成されたときに存在した時間アラインメントと比べて、受領したビデオ及び目的地オ−ディオ信号の相対的時間アラインメントでのシフトがあったかどうかを決定する。アラインメント中の任意のシフトはメーター又は他のディスプレイにより表しても良く、そして、それは2つの信号を適切な時間アラインメントに収めるために、受領した目的地ビデオ及び目的地オ−ディオ信号の何れか一つ又は両方に計算された遅延を課することにより訂正しても良い。A/V同期検出器は目的地ビデオ及び目的地オ−ディオ信号をリアルタイムに受領し、そして目的地ビデオ及び目的地オ−ディオ信号の相対的時間アラインメントがリアルタイムに調整され、したがって、A/V同期検出器は目的地ビデオ及び目的地オ−ディオ信号をリアルタイムに生成する。
2. 非リアルタイムシステム
図2に示す非リアルタイムシステムは、非リアルタイムにビデオ及びオ−ディオ信号を分配するファイルベースシステムの例であり、リアルタイムに同期署名構築を生成し、そして分配する必要はない。その結果この非リアルタイムシステムの本発明の実施では、リアルタイムで実際に用いることの出来るものより極めてより高度の、複雑な計算、メモリー及びバッファー要求を持つプロセスで使用することができる。
図2を参照すると、ビデオ及びオ−ディオ内容は、一以上のサーバーに記憶される一以上のファイルに記録される。記述を容易にするために、これらの一以上のファイルサーバーは参照ファイルサーバーと呼ぶ。ビデオ及びオ−ディオ内容は参照サーバーから読み出すが、それはA/V同期署名生成器がビデオ-オ−ディオ内容がお互いに同期するように受領するように読み出す。
A/V同期署名生成器はビデオ及びオ−ディオ内容を検査し又は解析し、内容の一以上の特徴を抽出して、ビデオ署名及びオーディオ署名を生成する。これらの2つの署名は同期署名構築に組み立てられる。署名生成器は非リアルタイムにビデオ及びオ−ディオ信号を受領し、非リアルタイムに同期署名構築を生成しても良い。同期署名構築は参照ファイルサーバー又は異なるファイルサーバーにより記憶される一以上のファイルに記録しても良い。
上に示すリアルタイムシステムと同様に、これらを得るために使用される特徴又はプロセスは好ましくはビデオ内容、オ−ディオ内容、又は同期署名構築に対抗する又はそれを許容するものであるのが良い。この非リアルタイムシステムの典型的な応用では、ビデオ内容、オ−ディオ内容、又は同期署名構築を伝送する信号は信号処理及び分配の種々異なる遅れを受ける。図で示す例では、これらの信号はネットワークを通して分配され、そして信号が伝送する目的地内容及び目的地署名は、本明細書で目的地ファイルサーバーと呼ばれる一以上のファイルサーバー上に記憶される一以上のファイルに記録される。
目的地ビデオ及び目的地オ−ディオ内容及び同期署名構築は、目的地ビデオ-オ−ディオ内容の間の同期が確認出来ない様な方法で、目的地ファイルサーバーから読み出され、そしてA/V同期検出器に配送される。A/V同期検出器は読み出された目的地ビデオ及び目的地オ−ディオ内容を検査し又は解析し内容の一以上の特徴を抽出して。目的地ビデオ署名及び目的地オ−ディオ署名を生成する。A/V同期検出器は回収された同期署名構築から参照ビデオ署名及び参照オ−ディオ署名を得て、目的地ビデオ署名を参照ビデオ署名と比べ、目的地オ−ディオ署名を参照オ−ディオ署名と比べ、そして目的地サーバーから読み出された目的地ビデオ及び目的地オ−ディオ内容の違いの相対的時間アラインメントが、同期署名構築が生成された場合に存在する相対的時間アラインメントと異なるかを決定する。アラインメントでの全ての相違はメーター又は他のディスプレイにより表しても良く、読み出された目的地ビデオ及び目的地オ−ディオ内容の何れか又は両方を遅延され又は先行させることにより訂正しても良い。もし望むならば、目的地署名の生成及び回復された目的地ビデオ及び目的地オ−ディオ内容の相対的時間アラインメントの調整はリアルタイムに実施しても良い。
もし同期を回復するために必要な調整が、続く使用のために一以上のファイルに記録することの出来る場合は、A/V同期検出器はビデオ及びオ−ディオ目的地署名をリアルタイムに生成する必要はない。
B.署名生成
図3は同期される参照ビデオ信号及び参照オ−ディオ信号の特徴を抽出することにより同期署名構築を生成する代表的機器を示す。同期署名構築は参照ビデオ信号の一以上の特徴を表す一以上の参照ビデオ署名、参照オ−ディオ信号の一以上の特徴を表す一以上の参照オ−ディオ署名、及び参照署名を生成するために使用されるビデオ及びオ−ディオ特徴の相対的時間アラインメントの指標を含む。
同期署名構築に含まれるビデオ及びオ−ディオ署名は、以下に説明する制御信号に反応して適合化される。同期署名構築は相対的時間アラインメントを暗示的又は明示的に伝送しても良い。
1.ビデオ及びオ−ディオ署名
一以上のビデオ署名が、ビデオ内容から抽出される一以上のビデオ特徴に反応して生成される。一以上のオ−ディオ署名がオ−ディオ内容から抽出される一以上のオ−ディオ特徴に反応して生成される。ビデオ及びオ−ディオ署名は、その内容と異なる署名を生成することのできる実質的に任意のプロセス又は変換を用いる内容から生成され又はそれに由来するものであっても良い。署名を表すために必要なデータ量は、その内容を表すために必要なデータ量よりも少ない。署名は、好ましくは、署名を表すために必要なデータ量が、対応する参照及び目的地内容を十分に高い信頼性で関連付けるために求められる以上でない程度に生成されるのが良い。
原則として、実質的に任意の所望のプロセス又は変換が、ビデオ及びオ−ディオ署名を生成するために任意のタイプの特徴に適用しても良い。しかし、好ましい実施においては、どの様な特徴が選択されどの様なプロセス又は変換が使用されるかについて幾つかの影響を考慮する。
その一つは、選択された特徴は署名を生成するために使用されるビデオ及びオ−ディオ内容にとり非定常であるべきであることである。この考慮は処理され得る種類の内容に適用される。静止又は定常内容から抽出される特徴から生成される同期署名構築は、通常対応する参照及び目的地内容を関係づけるために使用することはできない。しかし、このタイプの信号は任意の同期の問題を通常表していないため、本発明の実施は、通常静止的内容の信号を取り扱うことができる。もし、画像及び音声がある期間変化しない場合、同期されるべきものはない。
他の考慮は、選択された特徴は、適用に必要な時間分解能を提供することが求められることである。内容の再同期には、時間分解能は約20ミリ秒よりも長くてはならない。内容の同定又は確認のためには、時間分解能は10秒、1分又はさらにそれより長くても良い。実施の多くの場合において、ビデオ内容はフレームで配置され、ビデオ署名は個々のフレームから抽出される特徴から生成される。共通のフレームレートは約30Hzであり、これは約30ミリ秒の時間分解能を提供する、同期に必要な分解能はビデオフレームレートより2又は3倍高い一定のレートでオ−ディオ特徴を抽出することにより提供することができる。もし、代わりにビデオ及びオ−ディオの特徴が内容におけるある事象の検出に反応して抽出される場合は、事象の検出プロセスの分解能は意図する応用を支持するに十分である必要がある。
さらに他に考慮されるべき点は、ビデオ及びオ−ディオ署名を生成するために使用される選択される特徴及び変換は、ビデオ内容、オ−ディオ内容又は同期署名構築を修飾するプロセスに対抗し又は許容するものであるべきである。これらのプロセスの例は以下に述べる。この対抗は、もとの修飾されない内容から生成される署名に同一でないとしても類似する、修飾された内容から検出署名を生成させることができる。
他の考慮は、特徴の種類、数及び変換又はプロセスの選択は、同期署名構築、同期署名構築を分配するために使用される通信チャンエルの特徴、及び計算上の複雑さへの要求又は制限を使用する応用の必要に従い決定されるべきである。
一方通行変換はビデオ及びオ−ディオ署名の一方又は両方を生成するために使用しても良い。本明細書においては、「一方通行変換」の用語は署名からのヒトが認識可能な内容のバージョンの回復が、ある逆変換により不可能又は計算上実際的でない様に、内容から署名を作り出し又は生成する変換を言う。本明細書の目的から、逆変換が存在するとした場合、それは、もし計算上の複雑さが、前進又は一方通行変換の計算上の複雑さより少なくとも2桁大きい場合は、計算上現実的でないと看做される。好ましい実施の態様で使用されるビデオ及びオ−ディオ内容の一方通行変換の例は、2007年11月29日出願の、国際出願番号PCT/US2007/024744のRegunathan Radhakrishnan他による発明「信頼できる信号の同定を提供するためのビデオ及びオ−ディオ信号内容の特徴の抽出」(Extracting Features of Video and Audio Signal Content to Provide a Reliable Identification of the Signals)に記載されている。これについては以下にさらに詳細に検討する。
ビデオ及びオ−ディオ署名を生成するために使用される変換及び特徴の選択方法は変わらず又はその選択は適応させることが可能である。例えば、ビデオ信号により伝送される画像に可也の動きがある場合、あるビデオの特徴又は変換は良く作動する。しかし、動きが殆どない場合、他の特徴又は変換がより良く作動することもある。同様に、あるオ−ディオの特徴又は変換は、話す言葉には良く働きが、他は話す言葉以外によりよく適合する。特徴又は変換は図3に示す制御信号に反応するように選択され又は修飾しても良い。好適な制御信号は上に述べた画像の動きの検出又は話す言葉の検出の様なビデオ及びオ−ディオ内容の分析に由来するものであっても良く、MPEG-2ビデオ運動ベクトル又はドルビーデジタルオ−ディオサブバンド指数の様なビデオ及びオ−ディオ内容を持つメタデータを特定する信号フォーマットの表示に由来するもの、署名の意図された応用での表示、又は署名生成の後のビデオ又はオ−ディオ内容を修飾する同様のプロセスの表示に由来するものであっても良い。制御信号はまたある応用又は信号修飾プロセスの効果を最適にする特徴及び変換を選択するように適用しても良く、その場合種々の信号処理条件を刺激し、これらの条件下で異なる署名を効果を測定し、そして最も効果のある署名を同定する方法を採るのが良い。
ビデオ及びオ−ディオ署名生成器の好ましい実施の態様を以下に説明する。これらの特定の実施の態様では、ビデオ及びオ−ディオ内容の個々の署名はビデオ/オ−ディオ信号のセグメントに対応する。ビデオ/オーディオ信号の各セグメントはビデオ内容のフレーム及びオーディオ内容のセグメントを伝送する。ビデオ及びオ−ディオの各セグメント、ビデオフレーム、オ−ディオセグメント及び署名の間のこの特定の対応は単に一つの例として示すものであり、他の配列も可能であり、それは時には好ましい。
a) ビデオ署名発生器
図4はビデオ署名発生器100の好ましい実施の態様の略ブロック図である。相違度測定プロセッサー120は一連のビデオフレーム内での2つのビデオフレーム1a, 1bの内容を検査して、2つのフレームの全て又はその一部の間の一以上の相違の程度を表す中間値を生成する。もし各ビデオフレームの内容が例えば、個々の画像要素又はピクセルの強度を表す配列で示される場合、中間値はピクセル群の強度の平均又は標準偏差値の間の差の配列であっても良い。ビデオ署名プロセッサー170がハッシュ関数を中間値に適用し、ビデオフレーム内容を同定するビデオ署名(SV) 199bを生成する。
ビデオ署名発生器100の成分は種々の方法で実施され得る。好ましい実施の態様では知覚により殆ど又は全く感知されないビデオ内容の修飾に比較的反応しない署名を生成する。もしビデオ内容の修飾が知覚された画像に本質的な重要な影響を与えない場合は、好ましくはこれらの修飾はまた生成された署名に重要な効果を与えないのが良い。2つのビデオ署名の間に存在するある違いは署名が生成される2つの内容の間の違いの程度に釣り合うものである。
幾つかの代表的な実施の態様を以下に説明する。
以下に説明する実施の態様ではビデオフレームの間の一以上の相違の程度を表す中間値を計算する。その理由は相違の程度は生成された署名の元の内容における、動き及び他の変化に対する感度を増大させるが、輝度又はコントラストの変化、異なる色空間の間の変換、又は色彩訂正の応用の様な続くプロセスでの修飾に対する感度を除去し又は減少させるからである。
中間値はビデオ内容の任意の2つのフレーム1a, 1bについて計算しても良い。この2つのフレームは一連のフレーム中の隣接するビデオフレームであっても良く、又はこれらはその間に一以上のフレームが挿入されることにより離れているものであっても良い。もし2つのフレームが特定の数の中間に挿入されるフレームではなく、むしろ特定の時間間隔により分離されている場合は、これらの2つのフレームについて計算された中間値は、ビデオフレームレートを変化させる符号化プロセスにより起きる修飾に対して通常より抵抗力がある。
(1) 相違測定プロセッサー
相違測定プロセッサー120の幾つかの代表的な例を図5A〜5Cに示す。図5Aを参照すると、成分122aはビデオフレーム1aの一以上のピクセルグループを形成し、成分124aはこれらのピクセルグループ各々から一以上の特徴を抽出し、各特徴を表す値Rを計算する。成分122bはビデオフレーム1bの一以上のピクセルグループを形成し、成分124bはこれらのピクセルグループの各々から一以上の特徴を抽出し、各特徴を表す値Rを計算する。成分126は、2つのビデオフレーム1a, 1b中の、対応する特徴及び対応するピクセルグループの、値Rの間の相違度を表す中間値Qを計算する。
(a) ピクセルグループ形成
成分122a及び122bは、所望の実質的に任意の方法でピクセルグループを形成しても良く、以下に幾つかのその代替例を説明する。所望ならば、ビデオ署名を生成するために使用されるビデオフレー中の情報は、画像の端又はコーナーにレターボックス又はグラフィックスを追加する任意のプロセスにより起きる変化を排除するために、全体の画像の一部に限定しても良い。これは種々の方法で実行しても良く、例えば、特徴の抽出に先立ち画像をトリミングすることにより、計算された後に抽出された特徴を表す値Rの配列をトリミングすることにより、又は値Rから算出された相違値の配列をトリミングすることによる等である。好ましくはこれは特徴の抽出前に画像にトリミングすることで実現するのが良い。
テレビ等におけるビデオでの応用では、好ましいトリミングは画像の中央部分を選択し、画像の端に近いビデオ内容に挿入されたロゴ又は他の図形対象が抽出された特徴に影響しないようにする。トリミングはまた順次走査及びインターレース走査フォーマットの間の変換、高分解能(HD)と標準分解能(SD)フォーマットの間の変換による画像への修正を除去しても良い。ある特定のHD及びSDフォーマット変換のトリミングは以下の段落で説明する。
もし、分解能が1080 x 1920ピクセルのHDフォーマットでのビデオ内容が、分解能480 x 640ピクセルのSDフォーマットに変換される場合、例えば、元の画像は、変換された画像に残る元の画像の中央部分を選択するようにトリミングしても良い。適当なトリミングにより左端から240ピクセルを除去し、元のHDフォーマット画像の右端から240ピクセルを除去してSDフォーマット画像と同じ縦横比を持つ1080 x 1440ピクセルの分解能の画像を得る。トリミングされた領域は、上に述べたロゴ又は図形対象により修飾される追加の画像領域を除去するように調整しても良い。
ピクセルの配列はまた、ビデオフレームが異なるフォーマットの間で変換される場合に起きうる修飾に対する感度を低減させるためにダウンサンプルしても良い。例えば、テレビジョンでの応用では、画像は120 x 160ピクセルの分解能にダウンサンプルされ、これはHD及びSDフォーマットにとって、及び順次走査及びインターレース走査フォーマットにとって都合の良い選択である。このダウンサンプルは、ビデオフレームで伝送される画像の水平及び垂直分解能を決定するためにビデオ内容で伝送されるパラメーター又は他のメタデータを検査することにより、これらの分解能に反応する要素を選択することにより、そしてその要素に等しい量の画像をダウンサンプルすることにより実施しても良い。ここで議論する例では、9に等しい要素がトリミングされたHDフォーマット画像のために選択され、4に等しい要素がSDフォーマット画像のために選択される。
例えば、元のビデオ信号の内容が分解能1080 x 1920ピクセルのHDフォーマットであるとする。この内容は上に述べた1080 x 1440ピクセルの分解能を持つ画像にトリミングしても良く、そして9の要素により120 x 160の分解能にダウンサンプルされる。この低分解能画像から特徴を抽出することができる。さらに、元のビデオ信号が480 x 640ピクセルの分解能を持つSDフォーマットに変換される。この変換された画像は4の要素により120 x 160ピクセルの分解能にダウンサンプルしても良く、これは元の信号についてそうであった様に、実質的に同じ特徴が変換された信号から抽出されることを可能にする。同じダウンサンプルされたものは、SDからHDフォーマットへ及び順次走査及びインターレース走査フォーマット間の変換をするために使用することができる。もし適当なダウンサンプルされたものが使用される場合は、特徴抽出プロセス及び続く署名生成プロセスはフォーマット間の変換から生じる修飾に反応しない。
もしビデオ信号が、ビデオフレームが2つの場で配置されるインターレース走査フォーマットにより内容を伝送する場合、特徴を抽出する前に順次走査フォーマットに変換しても良い。代替的に、走査フォーマットの選択に影響されないようにするためには、インターレース走査フレームの唯一の場から特徴を抽出することで可能となる。例えば、特徴はフレーム中の第一の場のみから、又はフレームの第二の場のみから抽出することができる。他の場のビデオ内容は無視されるであろう。このプロセスは、抽出する前に順次走査フォーマットへの変換を不要とするものである。
ある実施の態様において、ピクセルグループは120 x 160の分解能を持つダウンサンプルされた画像に形成される。例えば、図6Aを参照して説明すると、ピクセルグループはそのサイズが均一であり、幅がGXであり、高さがGYである。グループの水平方向のサイズGXはK・GX= RHとなる様に選択され、そしてグループの垂直サイズGYがL・GY= RVとなる様に選択される。RH及びRVは各ビデオフレームの画像の水平及び垂直方向のサイズである。一つの選択される好適な値はGX=8, GY=8, K=15及びL=20である。これは15 x 20配置のグループを示すものであり、各グループはダウンサンプル画像において8 x 8ピクセルのサイズを持っている。
同様の結果は、ビデオフレーム中の画像のフォーマットに反応して調整されるサイズを持つ元の画像にピクセルグループを形成することにより得ることができる。上に述べた例についてさらに述べると、HDフォーマット画像は1080 x 1440ピクセルのサイズにトリミングされ、ピクセルグループは72 x 72ピクセルのサイズを持つトリミングされた画像に形成される。これにより15 x 20配列のピクセルグループを得る。SDフォーマットでの画像においては、ピクセルグループは32 x 32ピクセルサイズを持つ元の画像において形成され、これにより15 x 20配列のピクセルグループを得る。
図6Bはそのサイズが均一でないピクセルグループを表す。6 x 4配列のより小さいピクセルグループが画像の中心を構成する。一組のより大きいピクセルグループは中心部分のグループを取り囲む。このタイプの配置は、知覚的により重要である各画像の中心部分に内容を持つビデオフレーム情報とともに有利に用いることができる。
ピクセルグループは本質的に任意のサイズ又は形であって良い。例えば、図6Bに示す画像の中央部分は、より太い線で示した矩形により囲まれているが、これは単一ピクセルグループを構成することもでき、画像の残りの部分は他のピクセルグループを構成しても良い。
好ましくは、このピクセルはローパスフィルターろ過され、ビデオ内容修飾の結果として起きるピクセルグループアラインメントでのあらゆる変異により引き起こされる変化に対する反応を低減させる。フィルターによるろ過はピクセルグループ形成プロセスの間に一度以上実施しても良い。例えば、上で述べたダウンサンプル操作の前に、ダウンサンプル操作のすぐ後に、及び/又はピクセルグループの形成のすぐ後に、ピクセルはローパスフィルターろ過しても良い。フィルターのサイズは、一方でのアラインメントにおける変化に対する抵抗と他方におけるビデオ内容での変化に対する反応の程度の間の均衡を考慮して選択されるべきである。より大きいフィルターはアラインメントの変化に対する抵抗を増大させ、より小さいフィルターはビデオ内容での変化に対する反応の程度を増大させる。もしローパスフィルターが上で述べた120 x 160のダウンサンプル画像に適用される場合、経験的な知見に依れば、良好な結果は全てのフィルタータップ係数が1に等しい3 x 3二次元フィルターを用いることにより得ることができる。特徴抽出についての以下の議論は図6Aに示す代表的なグループ化に関するものである。
(b)特徴抽出
成分124a及び124bは、各ピクセルグループから一以上の特徴を抽出し、そして各特徴を表す値Rを算出する。もし各ビデオフレームが単色画像を伝送する場合、特徴は、個々のピクセルの強度を表すデータeから抽出しても良い。もし各ビデオフレームが例えば、赤、緑及び青(RGB)により表されるピクセルを含む色彩画像を伝送する場合は、個々の特徴は赤、緑及び青のピクセル成分の各々を表すデータeから抽出しても良い。代替的に、特徴は、赤、緑及び青の成分を表すデータに由来のピクセル輝度又は明るさを表すデータeから抽出しても良い。抽出される一つの特徴は平均ピクセル強度であっても良い。この特徴を表す値RAVEは以下の式から得られる:
式中
RAVE(k, l)=ピクセル(k, l)グループ中のピクセルの平均強度
e(i,j) =グループ内のピクセル (i,j)の強度;
GX= 多くのピクセルで表わされるピクセルグループの幅
GY=多くのピクセルで表わされるピクセルグループの高さ
K =多くのピクセルで表わされる画像の水平分解能
L =多くのピクセルで表わされる画像の垂直分解能
抽出される他の特徴はピクセル強度の標準偏差である。代替的に、標準偏差の分散又は二乗を用いても良い。標準偏差を表す値RSDは以下の式から得ることができる:
式中RSD(k, l)=ピクセル(k, l)のグループ中のピクセル強度の標準偏差
抽出される他の特徴はピクセル強度のヒストグラムである。この特徴を表す一組の値RHISTは、可能な強度の範囲内の各強度について特定の強度を持つピクセルの数を数えることにより得ることができる。
さらに他の特徴はスペクトルの幅及び/又は相である。スペクトルを表す一組の値RSPECTRUMがピクセル強度のグループに2次元フーリエ変換を適用することにより得ることができる。特定の特徴は本発明に決定的なものではない。しかし、経験的な知見に依れば、ピクセル強度の平均及び標準偏差は多くの応用に適用するのに良い選択である。もし望むならば、抽出された特徴を表す値Rは続く処理のため、グループに分けて配置しても良い。例えば、その一組の値RSPECTRUMにより表されるスペクトル特徴は周波数又は相に従ってグループに組織化しても良い。さらに、特徴は計算された値Rから抽出しても良い。例えば、平均強度値RA VEの、又はスペクトル値RSPECTRUMの標準偏差を算出しても良い。
(c)相違度計算
成分126は相違Eの度合を種々の方法で表す中間値Qを算出することができる。測定値の選択は本発明にとり原則として決定的でないが、成分124a及び124bにより抽出される特徴によってはより良く機能することもある。経験的に見て、適した選択をする必要がある。しかし、以下に述べる2つの測定値が広い応用範囲において良い結果を生むことが分かった。
相違の一つの度合を示すものは2つの異なるフレームの対応するピクセルグループの対応する特徴を表す値Rの差の絶対値である。この度合は以下の式より算出しても良い:
式中
E(k, l, f1, f2)=ピクセルグループ(k, l)中のフレームf1及びf2の間の相違
R(k, l, x)=フレームxのピクセルグループ(k, l)の抽出された特徴を表す値
もし、抽出された特徴がスペクトル特徴を表すRSPECTRUM中の振幅の様な2以上の要素を持つ値により表される場合、相違の度合は、2つの異なるフレームの対応するピクセルグループの対応する特徴を表す値R中の要素の間の差の絶対値の合計から算出しても良い。この度合は以下の式より算出しても良い:
式中
R(k, l, z, x)=フレームx中のピクセルグループ(k, l)の値Rの要素z
もし、望む場合は、フレーム中の2以上のピクセルグループの相違度合の合成値が以下の同様な式から算出される:
式中
E(f1, f2)=フレームf1及びf2の間の複合相違度
K及びlの合計の限界は所望のグループを含むように選択される。この特定の例では、値Rは一以上の要素を含むと想定される。もし、値が一つの要素であれば、zより大きい合計は省略される。
他の相違度は、2つの異なるフレームの対応するピクセルグループの対応する特徴を表す値Rの間の差の2乗である。この度合は以下の式から算出しても良い:
もし抽出された特徴が2以上の要素を持つ値により表される場合、相違の度合は2つの異なるフレームの対応するピクセルグループの対応する特徴を表す値Rの要素の間の差の2乗の合計から得ても良い。この度合は以下の式から算出しても良い:
もし、望む場合は、フレーム中の2以上のピクセルグループの複合相違度合は以下の式から算出しても良い:
式中k及びlの合計の限界は所望のグループを含むように選択される。この特定の例は、値Rは一以上の要素を含むと想定される。もし、値が一つの要素であれば、zより大きい合計は省略される。
ある実施の態様においては、中間値Qは算出された相違の度合Eに等しく設定される。代替的な実施の態様を以下に説明する。
(d)代替的実施の態様
平均ピクセル強度の間の差が署名生成に用いられる相違度測定のみである場合は、相違度合測定プロセッサー120は図5B及び5Cに示す様に実施しても良い。これらの実施の態様では、ピクセル強度又は平均強度はビデオフレーム1a及び1bから抽出され、抽出された特徴の間の相違の度合が算出され、そして相違の度合は続く署名生成のためのグループに形成される。図5B及び5Cに示す代表的な実施の態様では、ビデオ内容のフレームは個々のピクセルの配列により表され、相違度測定プロセッサー120は、微分要素の配列Δを各々含む差分画像を2つのビデオフレームの対応するピクセルの間の差を計算することによって得る。もし各ビデオフレームが赤、緑及び青(RGB)値により示されるピクセルを含むカラー画像を伝送する場合、微分要素は対応するピクセルについての赤、緑及び青(RGB)値の間の差から算出しても良い。好ましくは、微分要素は赤、緑及び青(RGB)値に由来する対応するピクセルの輝度又は明るさの間の絶対的差から算出するのが良い。もし、各ビデオフレームが単色画像を伝送する場合は、微分要素は対応するピクセルの強度の間の差から算出しても良い。
もし望む場合は、微分要素はレターボックス、又は図形を画像の端又はコーナーに加える任意のプロセスにより生成される変化を避けるために、全画像の一部のみに限定しても良い。これは、微分要素を計算する前に画像をトリミングすることにより、又はそれが計算された後に、微分要素の配列をトリミングすることにより達成しても良い。
又は、差分画像の分解能はまたピクセルグループの形成について上に述べた様に変化させても良い。これは微分要素を計算する前にビデオフレーム中のデータを修飾することにより、又はそれが計算された後に、微分要素を修飾することにより達成しても良い。
図5Cに示す実施の態様を参照すると、成分123はビデオフレーム1a及びビデオフレーム1b中の対応するピクセルの値の差を算出し、そして、成分125はピクセルの差の絶対値から一組の微分要素Δを得る。成分127はトリミング及びダウンサンプリングを実施する。トリミング操作は、差分画像の頂点、底、右手及び左手の端の近くの微分要素を除去することにより、差分画像の中央部分のみを維持する。ダウンサンプル操作はトリミングされた差分画像をダウンサンプルし、入力ビデオフレームの形式に関わらず特定のサイズ120 x 160ピクセルを持つ微分要素の配列を生成する。この特定のサイズは単に代表的例として挙げたものである。成分128は微分要素Δをグループに形成し、各グループの微分要素の平均値を算出する。望むならば、ダウンサンプル及びグループ形成操作は上に述べた様に組み合わせても良い。
差を算出し、ダウンサンプルし、トリミングし、グループを形成する操作は他の順序で実施しても良い。例えば、微分要素Δは、まず、2つのビデオフレームの内容をダウンサンプルし、2つのダウンサンプルされた画像をトリミングし、ピクセルグループをトリミングされた画像に形成し、各グループのピクセルの平均強度を算出し、そして、2つの画像の対応する平均強度の間の差を計算することにより算出しても良い。
図5Cに示すグループ形成操作128を参照すると、微分要素Δは、各領域がGX要素の幅及びGY要素の高さである差分画像の領域にグループ化される。
中間値Qは、各領域の要素の平均強度を算出することにより、微分要素Δの強度から得られる。これらの中間値は、K x Lの分解能の中間値を持つ低分解能差分画像を構成する。
これは上で検討し、図5A及び5Bに示すピクセルグループの形成に類似する。以下の段落に記載の代表的な実施の態様では、図5Aに示すピクセルグループと同じ方法で配置された要素を持つ低分解能画像を使用する。
中間値は以下の式から得ることもできる:
式中
Q(k, l) =低分解能画像中の中間値
GX=要素の数で表わされる微分要素グループの幅
GY=要素の数で表わされる微分要素グループの高さ
K=低分解能画像の水平分解能
L=低分解能画像の垂直分解能
Δ(i, j)=微分要素
グループの水平サイズGXは以下の様に選択される。すなわち、K・GX= RHとなる様に、及びグループの垂直サイズGYはL・GY = RVとなる様に選択され、式中RH及びRVは差分画像の水平及び垂直分解能である。上に説明した120 x 160の分解能を持つダウンサンプルされた差分画像中の要素を生成する代表的な実施の態様では、グループのある好適なサイズは8 x 8ピクセルであり、これは120/8 x 160/8 = 15 x 20の分解能を持つ低分解能画像を提供する。より分解能の高い微分要素よりも、ビデオ署名を生成する低分解能中間値Qを用いることにより、生成されたビデオ署名はビデオ信号内容の詳細を変えるプロセスに対して、より感度は低いが平均的強度を維持する。
(2) ビデオ署名プロセッサー
以下の段落に記載のビデオ署名プロセッサー170の実施の態様では、図6Aに示す値Rの配列又は図5Cに示すプロセッサーに関連する上記の微分要素ΔのK x L配列から得られる中間値QのK x L配列からビデオ署名を生成する。
ビデオ署名プロセッサー170は中間値QのK x L配列にハッシュ関数を適用して一組のNハッシュビットを生成する。これらのハッシュビットはビデオフレームの内容を同定するビデオ署名(SV)を構成する。好ましくはハッシュ関数は中間値の変化に相対的に反応しないが、使用される任意のハッシュキーの変化に反応することがある。入力の単一ビットに対する変化によってさえその出力が本質的に変化する典型的な暗号学的ハッシュ関数と異なり、本発明での好ましいハッシュ関数は入力中間値での小さい変化に対して小さい変化しか受けない出力を提供する。これにより、生成されたビデオ署名がビデオ署名内容に対する小さな変化によりほんの僅か変化する。
ある好適なハッシュ関数は一組のNベースマトリクスを用いて、一組のNハッシュビットを生成する。ベースマトリクスP1からPNはランダム値マトリクス要素のK x L配列である。各ベースマトリクスPnのこのマトリクス要素は次の式から得ることができる:
式中pn(k, l) =ベースマトリクスPnのマトリクス要素(k, l)
RNG =ランダム数生成器の出力、及び
Pn(上付きバー)=各暫定マトリクスのRNGにより生成される数の平均値
生成器RNGは[0, 1]の範囲に均一に分布した乱数値又は疑似乱数値を生成する。生成器の最初の状態はハッシュキーによって初期値に設定しても良く、それによってハッシュ関数及び生成されたビデオ署名を暗号学的により安全にする。その一組のNハッシュビットはまず、暫定値Qを以下の式で表わされるNベースマトリクスの各値に投影することにより得られる。
式中Hn=暫定値をベースマトリクスPnへ投影したもの
ハッシュビットは各投影値を全ての投影の中央値と比べそして、もし投射が閾値に等しいか又はそれを超える場合は、ハッシュビット第一の値に設定し、もし投射が閾値より小さい場合は、ハッシュビットを第二の値に設定することで得られる。これは次の様に表すことができる:
sgn(x)=0, x<0の場合及び
sgn(x)=1, x≧0の場合
H(上付きバー)=全ての投射Hnの中央値
b) オ−ディオ署名生成器
図7はオ−ディオ署名生成器200の好ましい実施の態様の略ブロック図である。時間周波数表示プロセッサー210は一連のセグメント内のオ−ディオセグメント2bの内容を調査してセグメント中のオ−ディオ内容の全ての又はその一部のスペクトル成分を表すスペクトル値を生成する。もし、例えば、セグメントのオ−ディオ内容が個々のサンプルの振幅を表す値で表示される場合、スペクトル値は時間領域から周波数領域への変換ブロックにより生成される時間周波数表示内の一組の係数であっても良い。中間値プロセッサー250はグループのスペクトル値を調査して各グループのスペクトル値の強度を導出する。オ−ディオ署名生成器270は中間値にハッシュ関数を適用してオ−ディオセグメントの内容を同定するオ−ディオ署名(SA)299bを生成する。
オ−ディオ署名生成器200の成分は種々の方法で実施しても良い。好ましい実施の態様では知覚効果が殆ど又は全くないオ−ディオ内容の修飾に対して比較的反応しない署名を生成する。もしオ−ディオ内容に対する修飾が知覚される音に対して重大な効果を持たない場合、好ましくはこれらの修飾はまた生成された署名に対して重大な効果を持たないのが良い。2つのオ−ディオ署名の間の差の程度は署名が生成される2つの内容の間の差の程度に釣り合っている。好適な実施の態様の幾つかについて以下に説明する。
(1) 時間周波数表示プロセッサー
オ−ディオ信号のセグメントが個々のサンプルの増幅を表す値により表示される代表的実施の態様においては、時間周波数表示プロセッサー210は、時間領域から周波数領域変換を各セグメント中のオ−ディオサンプルの一連の重なるブロックに適用することにより生成される変換係数から一組のスペクトル値を得る。もし望むならば、スペクトル値は、オ−ディオ内容のスペクトルの形を変える任意のプロセスにより生成される変化を避けるために、オ−ディオ内容の全バンド帯域幅の一部のみに限定しても良い。例えば、限定された表示は、最低周波数及び最高周波数スペクトル成分を表す変換により生成されるこれらの変換係数を除外し、又は変換を適用する前にオ−ディオ内容をバンドパスフィルターろ過することにより得ても良い。
時間周波数表示プロセッサー210の代表的実施の態様により実行される操作の概略を図8に示す。この実施の態様では、オ−ディオ内容2aのセグメントは一連のT個の重複するブロック「ブロックー1」から「ブロックーT」に分割される。
各セグメントの長さはLSサンプルに示し、各ブロックの長さはLBサンプルで示す。隣接するブロックの各開始時の間の相殺はブロックステップサイズとして示す多くのZBサンプルとして示す。一組のスペクトル値を生成するためにブロック変換が各ブロックサンプルに適用される。図8は変換20により一つのブロックー2(BLOCK-2)を一組のスペクトル値25aに変換する場合を示している。この特定の実施の態様の例では、セグメント2aの全てのTブロックが各組のスペクトル値に変換された後に次のセグメント2bのブロックの処理が続く。隣接するセグメントの開始の間の相殺はセグメントステップサイズと呼ぶ多くのサンプルZSである。
時間周波数表示の時間分解能はセグメントの長さ、ブロック長さ及びブロックステップサイズの関数であり、次のように表すことができる:
式中
T=時間分解能又は各セグメント中のブロック数
LS=サンプル中の各セグメントの長さ
ZS=サンプル中の各ブロックの長さ
ZB=ブロックステップサイズ
周波数分解能は通常ブロックの長さ又はスペクトル値を生成するために使用される変換の長さにより決定される。ビデオ及びオ−ディオ内容を同期させる以下に議論するある応用例では、オ−ディオ内容は3つのビデオフレームの長さに等しいセグメントに分割される。あるテレビジョンでの応用では、3つのビデオフレームに亘る時間間隔は約100ミリ秒である。もしオ−ディオサンプルの周波数が48kHZとすると、オ−ディオセグメントの長さは4,800サンプルとなる。ブロックの長さは256サンプルとなる様に選択され、ブロックスステップサイズは32サンプルとなる様に選択される。これを実施するために、各オ−ディオセグメントはT= 142ブロックを持ち、したがって、時間周波数表示の時間分解能は142に等しくなる。256点高速フーリエ変換が129スペクトル値を生成するためにサンプルの各ブロックに適用される。したがって、時間周波数表示の周波数分解能は129に等しい。セグメントステップサイズは512サンプルとなる様に選択され、又はこれは10.7ミリ秒である。
(2) 中間値プロセッサ
中間値プロセッサ250はスペクトル値のグループを検査し、各グループのスペクトル値の強度から中間値を導出する。
代表的な実施の態様では、スペクトル値Sは時間―周波数領域にグループ化する。各領域はGFスペクトル値の幅及びGTブロック長さである。中間値Qはスペクトル値の強度から、各領域におけるスペクトル値の平均強度を算出することにより導出される。これらの中間値はK x L中間値の分解能を持つ低分解能の時間―周波数表示を構成する。図9にその概略を示す。中間値は以下の式より得ることができる:
式中
Q(k, l) =低分解能表示の中間値
GF =多くの値で示すスペクトル値グループの幅
GT=多くのブロックで示すスペクトル値グループの長さ
K =低分解能表示の周波数分解能
L =低分解能表示の時間分解能、及び
S(i, j) =スペクトル値
グループのGFのサイズはK・GF = RTとなるよう、及びグループのGTのサイズはL・GT= RTとなる様に選択され、RF及びRTそれぞれ低分解能表示の周波数及び時間分解能である。上で検討した及び以下で検討するように代表的な実施の態様では、グループに適するある好適なサイズはGF=6及びGT=14であり、この場合129/6 x 142/14≒20 x 10の中間値の低分解能表示を与える。
オ−ディオ署名を生成するために、より高度の分解能の時間―周波数表示よりもむしろより低分解能中間値Qを用いることにより、生成されたオ−ディオ署名は、スペクトル内容の詳細を変更するプロセスにあまり反応しないが平均スペクトルレベルを維持する。
時間―周波数表示及び中間値を算出するための操作は他の方法により実施しても良い。例えば、より低周波数分解能を持つ一組のスペクトル値は、ブロック長さを低減させ、長さを変換し、スペクトル値グループのGT長さを増大させることにより得ても良く、同じ時間分解能がえられる。もし望むなら、グループのGF幅はスペクトルに渡り変化させても良い。もし高い周波数スペクトル成分が、生成された署名にとりより低周波数よりも重要でないと見做される場合は、この相対的な重要度はより高い周波数のグループの幅を増大させることで実現することができる。
(3) オ−ディオ署名プロセッサ
オ−ディオ署名プロセッサ270は中間値QのK x L配列にハッシュ関数を適用して一組のNハッシュビットを生成する。これらのハッシュビットはオ−ディオセグメントの内容を同定するオ−ディオ署名(SA)を構成する。これはビデオ署名について上で議論したと同様の方法で行っても良い。
2. 相対的時間アラインメント
同期署名構築はまたビデオ及びオ−ディオ署名に対応するビデオ及びオ−ディオ信号の相対的時間アラインメントを伝送する。ビデオ及びオ−ディオ署名が生成される場合、もしビデオ及びオ−ディオ信号が同期するときは、これらの信号の相対的時間アラインメントは、あるデータ構築又は信号の対応するビデオ及びオ−ディオ署名を関連させることにより、黙示的に伝送することができる。相対的時間アラインメントはまた明示的に伝送することもできる。例えば、ビデオ及びオ−ディオ署名を生成するために特徴が抽出された場合、ある値が、オ−ディオ信号がビデオ信号に先行し又は遅れる量を表す同期署名構築中に含まれることもある。
同期署名構築は所望の任意の量で生成しても良い。3つの方法が以下で検討される。第一の方法は署名を定まった速度で生成する。第二の方法は一以上の事象を検出することに対応して可変速度で署名を生成する。第三の方法は第一の方法及び第二の方法のハイブリッド(混合)である。
a) 一定の速度
第一の方法は特徴を抽出して、一定速度で同期署名構築を生成する。署名は、一定速度で送ることができるブロックに組み立てられる。もし特徴を選択することが採用される場合は、特徴が何ら抽出されないためブロックは署名を伝送しないか、又は一以上の特徴から導出された一以上の署名を伝送することがあり得る。
署名の時間分解能は明確でないか、又はブロックが分解能の明確な指標を含んでも良い。もし、ある特定の時間間隔に亘る内容から抽出された特徴から生成される場合、署名の時間分解能は時間間隔に等しい。この分解能は時間間隔を同定する任意の情報により明示的に伝送することもできる。例えば、もし、ビデオ署名が一連のビデオフレーム中の各フレームから抽出された特徴から生成される場合、ビデオ署名の時間分解能は隣接するフレームの間の間隔に等しい。この分解能はフレームレートを同定する任意の情報により伝えることができる。もしオ-ディオ署名が、各ビデオフレームに関連するオ−ディオ内容から抽出されるオ−ディオ特徴から生成される場合は、ビデオ及びオ−ディオ署名の時間分解能は同じである。
もしより高い時間分解能を望む場合は、その時間間隔内に抽出された特徴の相対的時間が把握され署名とともに送られる。
この方法では、ビデオ特徴及びオ−ディオ特徴の間の時間的関係は、ビデオ内容のフレーム及びオ−ディオ内容のブロックの構造及び時間関係により明らかにされる。もし署名がしばしば起きる多数の特徴から生成される場合、この一定速度の方法は好ましいであろう。ビデオ及びオ−ディオ信号の間の相対的時間関係が伝送される方法は、所望の時間分解能のレベルのみならず使用される特徴及びフレーム/ブロックの長さから決定することもできる。もしフレーム及びブロックの長さ又はレートが一定でない場合であり明示的に知られていない場合、同期署名構築体又は関連するデータ構造はこれらの長さ又はレートを特定するある情報を含む場合もある。
b) 導出される事象
第2の方法は特徴を抽出して、そして、例えば、場面変化又はプログラムの境界(program boundary)の様な全体の画像での大きな変化、又は一過性のオ−ディオ特徴又は音声セグメント中の急激な変化の様な、ある事象に反応して署名を生成する。
この方法では、同期署名構築は、署名を生成するために使用される特徴のタイミング情報を含むべきである。この情報は絶対時間、相対時間又は事象の間の時間間隔を特定することもある。例えば、もしビデオ署名が、ある時間t0に抽出されたビデオ特徴から生成され、そしてオ−ディオ署名が時間t0+15ミリ秒に抽出されたオ−ディオ特徴から生成される場合、これらのビデオ及びオ−ディオ署名を含む同期署名構築又はある関連するデータ構築はその15ミリ秒相殺を特定するある指標を含むこともある。もし署名が、比較的まれに発生する僅かな特徴から生成される場合、この方法はより好ましいかもしれない。同期署名構築の時間分解能は抽出された特徴の分解能及びタイミング情報の分解能により制限される。
c) ハイブリッド
第3の方法は一定速度及び上に述べた導出される事象の方法のハイブリッドである。この方法では、署名は一定速度で生成されるが、各署名は署名を生成するために使用される特徴の時間をより高い分解能で特定する情報を含む。例えば、ビデオ内容が一連のフレームに配置されており、関連するオ−ディオは一連のブロックで配置されている場合で、各ブロックは各フレームをアラインされ関連付けられているとする。この例では、ビデオ特徴は各ビデオフレームについて一度抽出され、そしてオ−ディオ特徴は各オ−ディオブロックについて一度抽出される。
隣接するフレーム及びブロックの間の時間間隔は知られており、そのため明示的なタイミング情報は必要ない。しかし、もしある事象がブロックの一部のみから特定のオ−ディオ特徴を抽出する契機となる場合は、オ−ディオ特徴のより高い時間分解能が所望されることもある。これは、例えば、ブロック内のオ−ディオ特徴の時間の相殺を特定する同期署名構築中に情報を含むことで実行することができる。このハイブリッドアプローチによりある特徴は低い一定レートで、他の特徴はある事象に反応して抽出することが可能となる。
C.署名分配
図10は、ビデオ及びオ−ディオ信号が修飾され、そしてビデオ内容、オ−ディオ内容及び同期署名構築が遅延した場合のパス(経路)を含む代表的な分配ネットワークの概略図である。このネットワークは上で述べたリアルタイム及び非リアルタイムシステムに適用される。ネットワークの他の実施の態様においては、2以上の信号が処理され同じパスにより伝送される。ビデオ内容、オ−ディオ内容及び同期署名構築は、所望される実質的に任意の方法により分配することができる。例えば、ビデオ及びオ−ディオ内容及び同期署名構築は一つのデータ流に組み合わせられそして一緒に分配され、種々の組み合わせにより2つの流れにされることもあり、その流れの各々は独立に分配され、又は全てがお互いに独立に分配されても良い。
図に示す様に、ビデオ及びオ−ディオ内容及び同期署名構築は意図的ではない破損又は修飾を受けることもある。意図的ではない修飾の例は伝送路及び記憶媒体中にノイズが挿入され又は追加される場合である。
ビデオ及びオ−ディオ内容はまた意図的な修飾を受けることもある。
ビデオ信号に意図して改変を加える例として、コントラスト/明るさ調整、ガンマ修正、輝度ヒストグラム平坦化、彩度調整、及び白色平衡化のための色彩修正の様な輝度及び色彩調整を含み、画像のトリミング及びサイズの再変更、画像の回転及び反転、分解能拡大・縮小、フレームレート変換、引き伸ばし、シミの除去、不鮮明化、明確化及び輪郭強調を含み、及びそれらには非可逆圧縮、彩度キーイング及びロゴの挿入を含む。
オーディオ信号の意図的修飾の例として、増幅、均等化(equalization)、ダイナミックレンジ修正、サンプルレート変換、チャンネルアップミキシング(channel up-mixing)、チャンネルダウンミキシング(channel down-mixing)、タイムスケール修正、帯域幅削減、ピッチシフト、ボイス・オーバー及び他の種類のミキィシング、反響音の挿入、スペクトル形成及び非可逆データ圧縮(lossy data compression)を含む。
図に示す遅延要素は、信号符号化及びフォーマット化、内容の記憶及び転送及び送信の様な処理を実行するために必要な時間を表す。
これらの遅延はリアルタイムシステムにおいて非常に重要である。その理由は遅延は同期を回復するために使用される装置に求められる要求を増大させるからである。これらの信号の任意の2つの分配での遅延の差は、情報を記憶するために必要な記憶量又はバッファーリング(buffering)を増大させる。リアルタイムシステムでは、一般的に、同期署名構築を対応するビデオ及びオ-ディオ内容が配送される前に、同時に又はその直後に配送することが重要であり、それにより、ビデオ及びオ−ディオ内容を記憶させるために必要なバッファーリングスペースの量を減少させ、又は内容の最終的は配送の遅延を減少させることができる。同期署名構築の分配の遅延は非リアルタイムシステムにおいてさえ重要であり得る。ある実施の態様において、ビデオ及びオ−ディオ内容の全体の流れでの同期署名構築は、応用処理が開始される前に受領されねばならない。
分配ネットワークのある特定の特徴又は構造は原則として本発明にとり決定的なものではないが、実際の実施の態様では影響が出ることもある。
分配ネットワーク中の通信経路及び処理経路の特徴はビデオ及びオ−ディオ署名の生成方法及び同期署名構築の分配方法に影響することもある。経路(path)帯域幅の制限はビデオ及びオ−ディオ署名を生成するためにどの特徴及び幾つの特徴が使用されるかに影響する。その理由は特徴の選択及びその数は、署名を表示するために必要なデータの量又はビットの数に影響することがあるからである。
分配ネットワークの構造は同期署名構築の構造を制限する場合もある。逆に同期署名構築の構造に課される応用での要件の何れも分配ネットワークの構造に制限を課することがあり得る。原則として、同期署名構築はビデオ信号、オ−ディオ信号、ある他の信号と組み合わされ、又はそれらの信号中で別々に分配されても良い。
リアルタイムシステムでは、例えば、同期署名構築はビデオ信号と組み合わされて垂直付属(VANC)データにより搬送されても良く、
この場合、署名はフレームベースパケット(frame-based packet)の構成を取ることが必要であることもある。代替的に、同期署名構築はステガノグラフィー技術又は透かし(watermaking)技術によりビデオ信号と組み合わせても良く、これらの技術は署名を表すために使用することの出来るデータ量を極めて大きく制限することもある。
非リアルタイム又はファイルベースシステムでは、例えば、同期署名構築はビデオ内容又はオ−ディオ内容とともに又は他の種類の内容とともにファイルに埋め込まれ、又はそれ自身のファイルに入れられる。
D.署名の検出
上で検討した同期署名構築は、上に述べたビデオ及びオ−ディオ信号の間の同期の訂正の様な種々の応用に用いることができる。これらの応用のいくつかの代替的な実施の態様について以下に説明する。
1. 同期
a) 概観
図11に示す装置は図1及び2に示すA/V(オ−ディオ/ビデ)同期検出器(A/V Sync Detector)に対応する。これは、図1及び2に示す、あるリアルタイム又は非リアルタイムソースより受領した目的地ビデオ内容及び目的地オ−ディオ内容の間の同期を検出しそして訂正するために使用しても良い。
図11を参照すると、A/V同期検出器の署名パーサー(signature parser)は同期署名構築を受領し、それを解析し、そして参照ビデオ信号の一以上のビデオ特徴を表す一以上の参照ビデオ署名、参照オ−ディオ信号の一以上のオ−ディオ特徴を表す一以上の参照オ−ディオ署名、及びこれらのビデオ及びオ−ディオ特徴の相対的時間アラインメントの指標を得る。この相対的時間アラインメントは同期署名構築により暗示的又は明示的に伝えても良い。
図11に示すA/V同期検出器は、目的地内容を解析することにより、一以上の目的地ビデオ署名及び一以上の目的地オ−ディオ署名を生成し、同期署名構築を生成するために参照内容から抽出されたビデオ及びオ−ディオ特徴の全て又は一組のサブセットを抽出する。目的地署名を生成するために使用されるプロセスは通常参照署名を生成するために使用されるこれらのプロセスと同じ又はそのサブセットである。目的地ビデオ署名は、目的地ビデオ内容から抽出される一以上のビデオ特徴に反応して生成される。目的地オ−ディオ署名は、目的地オ−ディオ内容から抽出される一以上のオ−ディオ特徴に反応して生成される。
ある実施の態様において、A/V同期検出器の「比較成分」(Compare components)は、厳格に一致する又はほぼ一致する(match)対象に近いものを探して目的地内容の範囲の目的地署名と参照内容の範囲の参照署名を比較する。目的地ビデオ署名は参照ビデオ署名と比較され、目的地オ−ディオ署名は参照オ−ディオ署名と比較される。もし望むならば、一連の参照署名を、一連の目的地署名と比較して、その配列の間の高い相関関係をサーチすることもできる。この比較の目的は、参照署名を生成するために使用される参照ビデオ内容及び参照オ−ディオ内容に対応する目的地ビデオ内容及び目的地オ−ディオ内容を同定することにある。そして、対応する目的地ビデオ及び目的地オ−ディオ内容の時間アラインメントが同期署名構築から得られる相対的時間アラインメントの指標と比較することができる。相対的アラインメント中の差は同期での誤差を示す。
比較成分により決定される一致の正確度にはある不確定な要素がある。その理由は、もし特徴の全てが抽出されているという訳ではない場合、又は目的地内容が参照内容と異なる場合には目的地署名は対応する参照署名と同一でないからである。
不確定性はまた、長時間に渡り静止しているビデオ又はオ−ディオ内容の様なある内容についても起こることもある。もしA/V同期検出器が、例えば、携帯電話の様な非常に限定された計算用資源を持つものにより実行された場合、参照署名を生成するために使用された特徴のサブセットのみを使用する目的地署名を生成することが望ましい。もし複数の特徴が参照署名を生成するために使用される場合は、これらの特徴のサブセットのみの使用が比較の信頼性と実施の態様の複雑性との妥協点を表すからである。システムを適正に設計することによりこれらの署名の間の差を十分小さくして信頼できる比較結果を生み出すことができる。比較成分は、一致(match)の度合を示す「一致の確度」(match confidence)の基準を算出することができる。これらの基準を算出する技術を以下に説明する。
比較成分により実行される比較の結果、同期の誤差の指標及び算出された同期誤差中の信頼性の基準を導出するために結果算出部により必要とされる情報を提供される。信頼性のこの基準は比較機能により決定される一致確度の測定結果から導出することができる。
もし望む場合は、同期の誤差は、目的地内容の一以上の署名を用いて決定することができる。目的地内容の署名の種類は参照内容の署名の生成について上で検討したと同様の方法により選択することができる。例えば、ビデオ署名は目的地オーディオ内容に多くの動きが存在するか否か、またオ−ディオ署名は、目的地ビデオ内容に話し言語が存在するか否かを基準に選択しても良い。目的地内容について生成される署名の種類は、同期署名構築で伝送される署名の種類と同じか、又は少なくともそれに比較しうるものであるべきである。
もし意図した応用において、単に不整合(misalignment)を検出し、又は同期を確認する場合は、図11に示すA/V同期検出器は同期誤差の計算結果及び関連する信頼性の度合をディスプレイ又はある種のメーターに表示することができる。もし意図した応用において、同期が回復する場合、同期誤差の計算結果及び関連する信頼性の度合が、A/V同期修正器(A/V Sync Corrector)の可変遅延成分(Variable Delay components)を制御するために用いられる。これらの遅延は図1及び2に示すビデオ信号、オ−ディオ信号又はその両者に適用される。例えば、もし算出された同期誤差が、目的地オ−ディオ内容が目的地ビデオ内容に700ミリ秒先行することを示す場合、オ−ディオ信号を700ミリ秒遅らせることにより、又はビデオ内容をxミリ秒遅らせ、そしてオ−ディオ信号を700+x ミリ秒遅らせることにより適正な同期を達成することができる。
本発明の種々の特徴を組み入れる装置及びシステムは、ビデオ及びオ−ディオ内容の全処理コースを通して変化する同期誤差を検出し、訂正することができる。
あるリアルタイムシステムでは、A/V同期検出器は目的地内容から連続的に特徴を抽出し及びリアルタイムに目的地署名を生成する。A/V同期検出器は参照署名及び目的地署名の一連の履歴を保持して、数秒又はそれ以上に亘る内容の比較をすることができる。現在の同期誤差がある十分信頼に値するレベルで算出されると、A/V同期修正器信号中の可変である遅れが調整され同期を回復することができる。可変の遅れが目的地内容の不整合(misalignment)中の変化を補償するように変える速度は、ビデオーオ−ディオ表示の知覚される品質を改善し又は維持するように所望に応じて制御される。
もし同期署名構築がリアルタイムシステムでビデオ及びオ−ディオ内容よりも遅れて到達する場合は、同期を回復するために要する時間は、目的地内容がA/V同期修正器により処理される以前に十分長い時間バッファリング(buffer)されない限り、受容不可能なレベルに増大することもある。
この問題は非リアルタイム及びファイルベースシステムにおいては起こらないであろう。例えば、ファイルベースシステムにおいては、全ての内容及び全ての同期署名構築にアクセスすることができる。同期誤差の量は全体の内容を分析した後に算出しても良い。誤差について単一値が算出され又は幾つかの値が内容の異なるセグメントについて算出されても良い。
b)アラインメント誤差の算出
ビデオ及びオ−ディオ内容の時間不整合(misalignment)を算出する一つの方法について以下の段落で説明する。
目的地ビデオ内容の流れが符号δvで示す処理遅れを課する信号処理経路を通して受領されるとする。さらに、目的地オ−ディオ内容の流れが、符号δAで示す処理遅れを課する信号処理経路を通して受領されるとする。A/V同期検出器のさらに一つの比較成分が参照ビデオ署名SVREFと目的地ビデオ署名SVDESTを比較する。そして、これらの比較成分は、もしビデオ比較加重成分(Video Comparison Weighting component)が存在する場合はこれとともに、ビデオ処理遅延推量値εvを生成する。参照及び目的地ビデオ流れの間の相対的なタイミングの差は遅延推量値εvから得ることができる。A/V同期検出器のさらにもう一つの比較成分は参照オ−ディオ署名SAREF及び目的地署名SADESTを比較し、そしてこれらの比較成分は、もしオ−ディオ比較加重成分(Audio Comparison Weighting component)が存在する場合はこれとともに、オ−ディオ処理遅延の推量値εAを生成する。参照及び目的地オ−ディオ流れの間の相対的タイミングの差は遅延推量値εAから得ることができる。
処理の遅延を推量するために使用される一つの技術については以下に説明する。ビデオ処理遅延推量値εv及びオ−ディオ処理遅延推量値εAは同じように算出することができるため、ビデオとオ−ディオの間に違いを設けることはしない。
内容の遅延の算出では2組の署名を受領する。一組は{SREF(i)}で表わす一連の参照署名であり、第二の組は{SDEST(i)}で表わす一連の目的地署名である。相関器は2つの一連の署名の各範囲に渡り、それらの一連の署名が最も高い相関を示す窓を探す。これはまず以下の点数を計算することにより実施した:
式中
D(m, i) =流れの間の特定のアラインメントについて算出された点数
HD[r,c] =署名r 及びcの間のハミング距離
F = 一組の参照署名中の署名数
U = 相関器関係の調査範囲
W= 署名の数により表される相関窓の長さ
ハミング距離は2つの署名が異なるビット位置の数に等しい。
推定処理遅延は、相関窓内での参照及び目的地署名の間の最も近い一致が見られるmの値から得ることができる。これは次の式で表わすことができる:
もし処理の遅延がない場合は、εi = iである。もし推量遅延が3フレーム又は3セグメントである場合は、εi =i + 3である。署名SREF(i)に対応するフレーム又はセグメントの相対的タイミングの差はεiとiの相殺分である。ビデオフレームiの相対的タイミングの差はdv(i)と表され、オ−ディオセグメントiの相対的タイミングの差はda(i)と表す。
テレビジョンについてのある実施の態様において、W= 10 及びU=45がビデオフレームについて、W=23及びU=47がオ−ディオセグメントについて使用される。ビデオ及びオ−ディオ遅延の計算で使用されるFの値は参照流れ中の各ビデオフレーム及びオ−ディオセグメントの数である。
ビデオ及びオ−ディオの相対的遅延の計算では、適切な同期を達成するために一方の又は両方の目的地流れの遅延の量を計算するビデオ及びオ−ディオ流れの相対的タイミングの差を用いる。これについては図12に概略図で表わしている。参照ビデオ流れ1の参照ビデオフレーム1bオ−ディオ参照オ−ディオ流れ2の参照オ−ディオセグメント2bは同期していることを示す。ビデオ流れ1の信号処理81及びオ−ディオ流れ2の信号処理82は2つの流れに異なる遅延を導入している。その結果、目的地ビデオ流れ31の目的地オーディオフレーム1b及び目的地オ−ディオ流れ32中の目的地オ−ディオセグメント2bは最早同期していない。目的地ビデオフレーム1bはdvだけ遅れており、目的地オ−ディオセグメント2bはdaだけ遅れている。同期を回復させるために必要なadjだけ遅延させる調整量は(dv - da)に等しい。もし図に示す様にdvがdaより大きい場合は、オ−ディオセグメントをadjだけ遅延させる調整により同期は回復させることができることもある。もしdvがdaより小さい場合は、ビデオフレームをadjだけ遅延させる調整により同期を回復させることができることもある。
流れは、実質的に所望の任意の方法で遅延させることができる。しかし、一つの方法は遅延に対して調整を提供する十分な容量を持つ先入れ先出し(FIFO)バッファー中の流れの内容を保存しそして取出すことがある。
c)信頼性の基準の算出
一致の信頼性の基準は種々の本質的で算出することができる。そのいくつかの技術を以下の段落に示す。
一致の信頼性(確度)(match confidence)の基準の算出のための一つの技術はアラインメント誤差を予測する予測モデルを用いて計算し、計算されたアラインメント誤差が予測された誤差にどの程度一致しているかより一致の確度の基準を算出することである。図13は一致の確度の基準を算出する予測モデルを用いた代表的な技術についての概略図である。この技術では、最も新しく計算された一連のアラインメント誤差E0とそれ以前の幾つかの計算されたアラインメント誤差E1, E2, ..., Evがバッファーに記憶される。線形予測フィルターが記憶された一連の計算されたアラインメント誤差に適用され、予測されたアラインメント誤差EPを導出する。一致の確度RPの基準が予測されたアラインメント誤差と最も期近に計算されたアラインメント誤差の間の絶対値差異から算出される。この基準を算出する一つの方法は以下の式で表わされる:
式中
EMAX=予測誤差を持つ最大期待差異。予測アラインメント誤差及び算出されたアラインメント誤差が等しい場合は、この一致の確度の基準は1に等しい。予測された不整合EP及び最も期近に計算された不整合E0の間の差異が最大期待差異EMAXに近づく場合、この程度は0に減少し、もしこの差異が最大期待差異を超える場合は、マイナスとなる。
線形予測モデルの使用は、同期誤差は一定か又は時間の変化に連れて線形に変化するとの想定をベースにする。もし同期誤差がある時間の間一定であったとすると、誤差は一定となると思われる。もしその代わりに、同期誤差がある時間の間に増加し又は減少する場合は、誤差は同じ割合で変化すると思われる。アラインメントでの算出された誤差は、もしそれが予測誤差に近い場合は、より信頼度が高いと思われる。
算出された誤差が予測された誤差から大幅に外れている場合は、その逸脱はランダム誤差か又は内容中のつなぎ合わせにより引き起こされる同期中の実際の変化により起こされると思われる。この点での逸脱では、一致の確度の基準は非常に低い。もし逸脱がランダム誤差の場合、算出されたアラインメント誤差は正確ではなく無視しても良いと思われる。しかし、もし逸脱がアラインメント中の実際の変化による場合は、算出された誤差は正しいが、それは未だ信頼に欠ける。この状態は、算出されたアラインメント誤差が一定になり、又は線状に変化する状態となるに連れて矯正される。この方法により得られた確度の基準はランダム誤差の効果を除去し又は緩和するために低パスフィルターろ過される。
予測モデルはビデオ内容及びオ−ディオ内容に独立に又は共同して算出されたアラインメント誤差に適用しても良い。もしアラインメント誤差がビデオ及びオ−ディオ内容に独立に計算され、これらの2つの誤差が同じ割合で増大する場合は、この状態は、一定のままであるビデオ及びオ−ディオ内容について共通に算出されたアラインメント誤差と本質的に同じである。
(2) 統計モデル
一致の確度の基準を算出する他の技術は計算されたアラインメント誤差の確立を決定する統計モデルを用いる。このモデルはアラインメント誤差の理論的又は経験的に決定される統計に基づくこともある。もし統計モデルが算出されたアラインメント誤差があると思われることを示す場合は、その算出された誤差の確度の基準はより高い。
ある単純な統計モデルは、アラインメント誤差は通常数百ミリ秒と言うよりも数ミリ秒でしかないことを示す経験的データに基づく。この方式では、非常に大きなアラインメント誤差よりも、小さいアラインメント誤差の可能性が大きい。このモデルより得られる確度の基準は、続く処理において、異常値を除外し又は極端に大きい誤差を除外するために使用することができる。
(3) 信号‐内容モデル
一致の確度の基準を算出する他の技術は信号‐内容モデルを用いて算出されたアラインメント誤差の確実性を決定する。このタイプのモデルは内容自体に当てはめても良く、署名を生成するために使用される内容から抽出される特徴又は署名自信に適用しても良い。
ある信号‐内容モデルはビデオ及びオ−ディオ内容の定常性を決定する活動検出器の使用である。もしビデオ又はオ−ディオ内容が例えば、数百ミリ秒変わらない場合は、その内容は活動を殆ど伝えず、そしてその内容の一致の確度の基準は小さいであろう。
他の信号‐内容モデルは、ある特徴が存在するか否かを決定する内容を分析する。例えば、ビデオ内容は、背景の詳細の変化の様な重要な活動を伝送するが前景の対象物で重要な動きに欠けることもある。上で述べた活動検出器は背景の詳細の変化から重要な活動を示すが、動きがない場合は対比させることがより難しくなる。動きが殆ど又は全くない場合、一致の確度の基準は低い値に設定しても良い。他の例として、話し言語がオ−ディオ内容中に存在する場合は、正確な一致がより実現可能であることもある。一致の確度の基準は、もし言語が検出された場合は、高い値に設定しても良い。
(4) 攻撃‐予測モデル
一致の確度の基準を算出する他の技術は、参照署名が生成された後に異なるプロセスにより修飾され又は「攻撃された」内容と正しい一致の可能性を予測するモデルを用いる。ある特徴に基づく署名は種々のタイプの修飾に反応する。攻撃‐予測モデルはどの種類の内容の修飾が起きたかを決定することを試みる。これは、参照及び目的地内容の両者が得られる場合は、参照及び目的地内容の間の差異を分析することにより、又は参照及び目的地署名の間の差異を分析することにより実施しても良い。ビデオ内容修飾の例にはトリミング、空間分解能の変化、フレームレートの変化、画像反転及び知覚的符号化を含む。オ−ディオ内容修飾の例には、帯域幅削減、サンプルレートの変化及び知覚的符号化を含む。
この決定により、特定の署名タイプに基づく一致の確度の基準が、生じた内容修飾に対して署名タイプが持つ抵抗レベルから導出することができる。もし特定の署名タイプがあるタイプの内容の修飾に対して反応せず、これらのタイプの修飾のみが起こったと見做される場合、この署名タイプに基づく一致の確度の基準は高い値に設定される。他方、もし特定の署名タイプがある種の内容修飾に反応し、これらのタイプの修飾が起こったと見做される場合は、この署名に基づく一致の確度の基準はより低い値に設定される。
(5) オペレーター入力
一致の確度の基準を算出する他の技術はオペレーター入力を用いることである。オペレーター入力は一致の確度を直接に特定することができるか又は上で議論したモデルの一つへの入力を提供することができる。例えば、オペレーター入力はビデオ内容中に動きが存在し又は存在しない、又はオ−ディオ内容中に話し言語が存在し又は存在しない様な内容の特徴を同定することができ、又は参照署名の生成から起こった信号の修飾又は攻撃タイプを特定することができる。他のタイプの入力も可能である。
(6) 伝達誤差
一致の確度の基準を算出するための他の技術は伝達誤差の検出に基づく。もし矯正不可能な伝達誤差が目的地内容又は同期署名構築中に存在することが知られている場合、このデータに基づく一致は、これらの誤差を持たないデータに基づく一致よりも信頼性は低いであろう。一致の確度の基準は、伝達誤差が起きた場合はより低い値に設定することができる。もし多くの矯正不可能な誤差が起きた場合には、基準はさらに低い値に設定することができる。しかし、伝達誤差が存在しないこと自体は、一致の確度の基準が高くあるべきであるとすることを意味しない。伝達誤差の検出は、以下に述べる他の方法から算出される基準値にシーリングを設定するために使用してもよい。
d)確度の基準を用いる
一致の確度の基準は、同期の誤差及びその関連する信頼度の基準を算出するために使用することができる一以上のタイプのプロセス又はフィルタを用いて実施しても良い。一致の確度の基準は、算出された同期誤差中の短期の逸脱の効果を除外し又は最小化する種々のプロセスで使用しても良い。ある一つの代表的なプロセスは過去の同期誤差の3つのタイプのモデルを用いる。第1のタイプのモデルは一定である一連の誤差を表す。第2のタイプのモデルは線形速度(linear rate)で増大又は減少する一連の誤差を表す。第3のタイプのモデルは値が急激にジャンプし又は変化することを含む一連の誤差を表す。代表的なプロセスでは過去の同期誤差の間隔を分析し、そして3つのタイプのモデルのいずれが最もこの配列を良く表しているかを選択する。選択されたモデルのパラメーターは生成されたモデルの出力と過去の誤差の値との差を最小にする様に導出される。モデルのタイプ及びそのパラメーターの選択はバッファーに保存される。好ましくは上で述べた予測モデル技術が選択されたモデル中の一致の確度の基準を算出するために使用され、選択されたモデルのタイプは、確度の基準が閾値より大きい場合に限り、関連する一致の確度の基準とともにバッファーに保存される。もし望むならば、追加のフィルターを異常誤差値を生成するバッファーから選択されたモデルを除外するために使用してもよい。記憶されたモデルのバッファーは、一致の確度の基準が閾値より低い、時間の間隔の現在の同期誤差を予測するために用いても良い。幾つかの方法について本明細書で説明がなされている。
一つの方法は現在の同期誤差を予測するために最も高い一致の確度の基準を持つ記憶されているモデルを使用することである。第2の方法は記憶されたモデルのモデルパラメーターの平均値を計算して、平均化されたパラメーターから新しいモデルを導出し、そしてこの新しい導出されたモデルを用いて現在の同期誤差を予測することである。第3の方法は3つのモデルタイプの何れが最もしばしばバッファーに記憶されるかを同定し、このモデルタイプを現在の同期誤差を予測するために使用することである。
もし、所望ならば、第2のタイプのモデルの出力はモデル出力と最も期近な同期誤差の間の予測誤差を算出することによって更に確認することができる。このモデルは信頼することができると見做され、その出力は、予測誤差が閾値より低い場合にのみ使用される。もし予測誤差が閾値より高い場合は、モデルは信頼性に欠けると見做され、バッファーに記憶された最も期近な信頼に値するモデルが、現在の同期誤差を予測するために使用される。
あるタイプのフィルターは個々の算出されたアラインメント誤差の加重合計を算出する。もし複数の署名が使用される場合は、アラインメント誤差は各署名について算出され、そして単一の同期誤差が個々に算出されたアラインメント誤差から得られる。例えば、もし3つの異なる署名が比較のために利用可能であるとすると、各アラインメント誤差E1, E2及びE3は各署名について決定することができ、各一致の確度の基準R1, R2及びR3が各アラインメント誤差に対して算出される。同期誤差Eは対応する一致の確度の基準に従い加重された算出されたアラインメント誤差の合計からえられる。この合計は以下の式で表わされる:
他のタイプのフィルターは、最も高い一致の確度の基準を持ち、同期誤差をこのアラインメント誤差に等しく設定する、算出されたアラインメント誤差を選択する。
他のタイプのフィルターは、もし関連する一致の確度の基準が閾値より低い場合は、上に記載のフィルターで算出されたアラインメント誤差を除外する。ゲートフィルターは上に記載の他のフィルタータイプとカスケード配置で使用しても良い。このゲートフィルターは同期誤差の算出された信頼度の基準が閾値より大きいかを示す2進値出力信号を生成する。
この信号は続く処理を制御するために使用しても良い。例えば、もしこのフィルターが算出された同期誤差が信頼できるものでないことを示す場合は、A/V同期修正器は、同期誤差の修正を抑制しても良い。
もし複数署名が同期誤差を算出するために使用される場合、個々のアラインメント誤差の一致の確度の基準から算出された誤差の信頼性の基準を得るために異なる方法を使用しても良い。例えば、信頼性の全体の基準は一致の確度の測定値の最大、最小、平均又は中央値に等しく設定しても良い。
2. 他の応用
同期署名構築は多くの他の応用で使用することができる。一つの応用では補助的情報の同期を維持する。同期署名構築中の参照ビデオ及び参照オ−ディオ署名はビデオ及びオ−ディオ信号と知られた時間の関係を有する特徴をベースとするため、これらの参照署名は補助的情報をビデオ及びオ−ディオ信号の何れか一つ又は両方に同期させるために用いることができる。この補助的情報はビデオ・オ−ディオ内容に関連づけられた時間依存の情報を伝送する実質的に任意の種類のデータを含む。幾つかの例には字幕情報、SMPTE標準12Mに記載のタイムコード及び機器制御信号を含む。この応用は、この補助的情報を同期署名構築とある方法で結びつける、例えば、それを署名中に含める、同期署名構築とインターリブする、又は同期署名構築をあるより大きなデータ構築中の補助的情報と組み合わせる等により実現することができる。他の応用ではビデオ・オ−ディオ内容を同定する。同期署名構築中の参照ビデオ及び参照オ−ディオ署名はビデオ・オ−ディオ内容から抽出された特徴に基づくため、これらの一連の参照署名はある与えられたビデオ・オ−ディオプログラムにとってユニークであると思われる。これは同期署名構築中の参照ビデオ及び参照オ−ディオ署名は内容を同定するために使用することができることを意味する。この応用のある実施の態様では、一連の目的地署名は目的地内容から生成され、この目的地署名の配列は参照署名の配列と比較される。もし目的地署名の列と一致する一連の参照署名が見つかる場合は、これは目的地署名の列が参照署名の特定の列と十分近似すると見做されることを意味し、そして目的地内容が特定に参照署名の列に対応する内容のコピーであると同定される。
ビデオ及びオ−ディオ内容は一緒に又は単独でサーチすることができる。さらに、もし、それが、上に述べた様に、それを修飾する種々のプロセスに付される場合においても、その内容を正確に同定することができる。
図14は内容を同定するために使用することの出来るシステムのブロック略図である。ビデオ署名生成器100及びオ−ディオ署名生成器200は、経路31から受領した内容の参照ビデオ/オ−ディオ流れから参照ビデオ署名及び参照オ−ディオ署名を生成する。生成された参照ビデオ署名はビデオ-署名データベース(VSIG DB) 180に保存され、生成された参照オ−ディオ署名はオ−ディオー署名データベース(ASIG DB) 280に保存される。参照署名はその応用の実施を容易にする他の情報とともに保存しても良い。例えば、参照署名は下層の内容自身又はその内容に関する情報、例えば、内容のオーナー、内容のライセンス条件、内容の名前、又は内容のテキスト記述を同定するデータとともに保存してもよい。各参照署名はデータベースサーチキーを持つ。このキーは所望の任意の方法によることができる。好ましくはこのキーは参照署名自身に基づくもの又はそれに由来するものである。
任意の特定のビデオ内容又はオ−ディオ内容の身元(identity)はビデオ及びオ−ディオデータベースに保存された情報により表される参照内容に対して照合しても良い。その身元が照合される内容はここではテスト内容と呼ぶ。
テストビデオ内容の身元は、ビデオ署名生成器101に経路33から受領したテストビデオ内容からテストビデオ署名を生成させ、そしてテストビデオ署名をビデオサーチエンジン185に送らせることにより照合される。
ビデオサーチエンジン185はテストビデオ署名に厳密に一致又は近い一致をするビデオー署名データベース180中に参照ビデオ署名を見出だすことを試みる。
テストオ−ディオ内容の身元がオ−ディオ署名生成器201に経路33から受領したテストオ−ディオ内容からテストオ−ディオ署名を生成させ、そしてテストオ−ディオ署名をオ−ディオサーチエンジン285に送らせる。
オ−ディオサーチエンジン285はテストオ−ディオ署名に厳密に一致又は近い一致をするオ−ディオー署名データベース280中に参照オ−ディオ署名を見出だすことを試みる。
ある実施の態様において、サーチエンジンはデータベースに保存されているテスト署名及び参照署名の間のハミング距離を計算し、そして一連のテストビデオ署名に最も近い一連の参照署名をサーチする。上の式10及び11中に示す計算式又はそれらのある変形はサーチを実行するために使用しても良い。
もし、2つの一連の署名の間の距離がある閾値より小さい場合、一連のテスト署名に関連するテスト内容は一連の一致する参照署名に関連する参照内容の厳密な又は修飾されたコピーと見做される。経験の教えるところでは、良好な結果は約2秒間の内容を表す一連の署名を用いる種々のビデオ及びオ−ディオ内容について得ることができる。
更に他の応用は内容確認及び品質のモニターである。参照署名と、目的地内容から生成される目的地署名の間の高い相関は目的地内容は参照内容と同一又は少なくとも実質的に同一であることを示す。低い相関は目的地及び参照内容の間に実質的な相違があることを示す。これらの相違は、内容が異なる又は内容の符号化の品質における実質的な相違によることもある。参照署名は内容の同定について上で議論したと同様な方法で使用することができる。この応用のある実施の態様において、一連の目的地署名が一連の参照署名のデータベースと比較される。もし目的地署名の列と一致する参照署名の列が見つかった場合、目的地内容は参照署名のある特定の列に対応する内容と照合しても良い。同期署名構築は、同期署名構築が何時、何処でそして誰により生成されたかを示すデータを含んでも良い。またそれは目的地内容が参照内容と同一であることを確認するために使用することの出来るデジタル署名を含むこともある。
E.実施
本発明の種々の特徴を組み入れた装置は種々の方法で実施することができ、それにはコンピュータで実行されるソフトウェア又は汎用コンピュータに見られると同様な構成物に連結されたデジタル信号プロセッサ(DSP)回路の様なより専用化された構成物を含む他の装置を含む。図15は本発明の特徴を実施するために使用される装置70の略ブロック図である。プロセッサ72はコンピューティング資源を提供する。RAM73は処理のためのプロセッサ72により用いられるシステムランダムアクセスメモリー(RAM)である。ROM74は、装置70を動かすために必要なプログラム及びおそらく本発明の種々の特徴を実行するための読み出し専用メモリー(ROM)の様なある形式の永続記憶装置を表す。入出力(I/O)制御75は通信チャネル76,77により信号を受信及び送信するためのインターフェイス回路を表す。本明細書に示す実施の態様では、全ての主要なシステム要素はバス71に連結され、バス71は一以上の物理的又は論理的バスであっても良い。しかし、バス構造は本発明を実施するために必要とはされない。
汎用コンピュータシステムにより実行されるある実施の態様において、追加の構成要素が、キーボード又はマウス及びディスプレイの様な装置へのインターフェイスのために及び磁気テープ又はディスク、又は光媒体の様な記憶媒体を持つ記憶装置78を制御するために含まれても良い。記憶媒体はオペレーティングシステム、ユーティリティ、及びアプリケーションのための指示プログラムを記録するために使用しても良く、本発明の種々の特徴を実行するためのプログラムを含んでも良い。
本発明の種々の特徴を実行するためも必要な機能は種々の方法で実施される構成要素により実行することができ、それらの要素には個別論理要素、集積回路、一以上のASIC及び/又はプログラム制御プロセッサを含む。これらの要素が実行される方法は本発明にとり重要ではない。
本発明のソフトウエアの実施は、ベースバンド又は超音波から紫外線周波数を含むスペクトルを通して変調通信経路(path)の様な種々の機械可読媒体により、 又は磁気テープ、カード又はディスク、光学カード、又はディスク及び紙を含む媒体上の検出可能なマークを含む本質的に任意の記録技術により搬送しても良い。

Claims (8)

  1. 目的地ビデオ内容及び目的地オーディオ内容の間の同期誤差を算出する方法であって、
    参照ビデオ信号の一以上のビデオ特徴を表す参照ビデオ署名、参照オーディオ信号の一以上のオーディオ特徴を表す参照オーディオ署名、及びビデオ及びオーディオ特徴の相対的時間アラインメントの指標を受領する;
    目的地ビデオ内容から抽出された一以上のビデオ特徴に応答して一以上の目的地ビデオ署名を生成する;
    目的地オーディオ内容から抽出された一以上のオーディオ特徴に応答して一以上の目的地オーディオ署名を生成する;
    一連の目的地ビデオ署名を一連の参照ビデオ署名と比較し、目的地ビデオ内容と、参照ビデオ署名を生成するために用いられる参照ビデオ内容の間の一致を探す;
    一連の目的地オーディオ署名を一連の参照オーディオ署名と比較し、目的地オーディオ内容と、参照オーディオ署名を生成するために用いられる参照オーディオ内容の間の一致を探す;
    同定された目的地ビデオ内容と同定された目的地オーディオ内容の間の時間的不整合を、参照ビデオ信号及び参照オーディオ信号のビデオ及びオーディオ特徴の相対的時間アラインメントと比較して算出することにより、目的地ビデオ内容と目的地オーディオ内容の間の同期誤差を算出し;
    過去の同期誤差を分析し、過去の同期誤差を最も適切に表す過去の同期誤差のモデルを選択し、ここでモデルは、一定である一連の同期誤差を表すモデル、又は線形割合で増大又は減少する一連の同期誤差を表すモデル、又は値が突然変化するものを含む一連の同期誤差を表すモデルから選択しても良く、そして選択されたモデルのパラメータは選択されたモデルの出力と過去の同期誤差の差を最小にするように導出され;
    選択されたモデル及びそのパラメータを選択してバッファーに保存し;
    算出された時間不整合及び一連の事前に算出された時間不整合から得られた予測された不整合の間の差から同期誤差の信頼性の基準を導出し;
    その選択されたモデルの最も高い信頼性の基準をもつモデル、バッファーに保存されたモデルパラメータの平均から導出されたモデル、またはバッファーに最もしばしば保存されるモデルを用いて、信頼性の基準が閾値より小さい場合の間隔の同期誤差を予測し;及び
    同期誤差を表示し、又は同期誤差を、目的地ビデオ及び目的地オーディオの一つ又は両方を遅延させてそれらを適正な時間アラインメントになるようにすることを含む方法。
  2. 目的地ビデオ内容及び目的地オーディオ内容の間の同期誤差を算出する方法であって、
    参照ビデオ信号の一以上のビデオ特徴を表す参照ビデオ署名、参照オーディオ信号の一以上のオーディオ特徴を表す参照オーディオ署名、及びビデオ及びオーディオ特徴の相対的時間アラインメントの表示を受領し;
    目的地ビデオ内容から抽出された一以上ビデオ特徴に応答して一以上の目的地ビデオ署名を生成し;
    目的地オーディオ内容から抽出された一以上オーディオ特徴に応答して一以上の目的地オーディオ署名を生成し;
    一連の目的地ビデオ署名を一連の参照ビデオ署名と比較し、目的地ビデオ内容と、参照ビデオ署名を生成するために用いられる参照ビデオ内容の間の一致を探し、目的地ビデオ信号と参照ビデオ信号の間の相対的ビデオタイミングの差を得る;
    一連の目的地オーディオ署名を一連の参照オーディオ署名と比較し、目的地オーディオ内容と、参照オーディオ署名を生成するために用いられる参照オーディオ内容の間の一致を探し、目的地オーディオ信号と参照オーディオ信号の間の相対的オーディオタイミングの差を得る;
    目的地ビデオ信号と参照ビデオ信号の間の相対的タイミングの差及び目的地オーディオ信号と参照オーディオ信号の相対的タイミングの差から目的地ビデオ内容と目的地オーディオ内容の間の同期誤差を、参照ビデオ信号及び参照オーディオ信号のビデオ及びオーディオ特徴の相対的時間アラインメントと比較して算出する;
    目的地ビデオ内容及び参照ビデオ内容の間に見出された一致の信頼性の程度を表すビデオ−一致の信頼性の基準(video-match confidence measure)を、過去の相対的ビデオタイミングの差を分析することにより、及び過去の相対的ビデオタイミングの差を最も良く表すモデルを選択することにより算出し、ここでモデルは、一定である一連のタイミングの差を表すモデル、又は線形割合で増大又は減少する一連のタイミングの差を表すモデル、又は値が突然変化するものを含む一連のタイミングの差を表すモデルから選択しても良く、そして選択されたモデルのパラメータは選択されたモデルの出力と過去の相対的ビデオタイミングの差を最小にするように導出される;
    目的地オーディオ内容及び参照オーディオ内容の間に見出された一致の信頼性の程度を表すオーディオ‐一致の信頼性の基準(video-match confidence measure)を、過去の相対的オーディオタイミングの差を分析し、そして過去の相対的オーディオタイミングの差を最も良く表す予測モデルを選択することにより算出し、ここでモデルは、一定である一連のタイミングの差を表すモデル、又は線形割合で増大又は減少する一連のタイミングの差を表すモデル、又は値が突然変化する一連のタイミングの差を表すモデルから選択しても良く、そして選択されたモデルのパラメータは選択されたモデルの出力と過去の相対的オーディオタイミングの差を最小にするように導出される;
    選択されたモデル及びそのパラメータを選択してバッファーに保存し;
    ビデオ−一致の信頼性の基準及びオーディオ−一致の信頼性の基準から、同期誤差中の信頼性の基準を導出し;
    その選択されたモデルの最も高い信頼性の基準をもつモデル、バッファーに保存されたモデルパラメータの平均から導出されたモデル、またはバッファーに最もしばしば保存されるモデルを用いて、信頼性の基準が閾値より小さい場合の間隔の同期誤差を予測し;及び
    同期誤差を表示し、又は同期誤差を、目的地ビデオ及び目的地オーディオの一つ又は両方を遅延させてそれらを適正な時間アラインメントになるようにすることを含む方法。
  3. 請求項1又は2に記載の方法であって、
    同期誤差の統計モデルから同期誤差の確率を導出し;及び
    保存されたモデルのバッファーを用いて同期誤差の確率が閾値より低い間隔の同期誤差を予測すること
    を含む方法。
  4. 請求項1又は2に記載の方法であって、
    選択されたモデルの信頼性の基準を算出し;及び
    選択されたモデルの選択とともに、選択されたモデルの信頼性の基準をバッファーに保存することを含む方法。
  5. 選択されたモデルの信頼性の基準が閾値より大きい場合、選択されたモデルを選択しバッファーに保存することを含む、請求項4に記載の方法。
  6. 請求項2に記載の方法であって、
    ビデオタイミングの差の加重合計を算出し、ビデオタイミングの差は各ビデオ−一致の信頼性の基準により加重され;
    オーディオタイミングの差の加重合計を算出し、オーディオタイミングの差は各オーディオ−一致信頼性の基準により加重され;
    ビデオタイミングの差の加重合計及びオーディオタイミングの差の加重合計から同期誤差を算出する、
    ことを含む方法。
  7. 請求項1乃至6の何れか1項に記載の方法のステップを実施する手段を含む装置。
  8. 指示プログラムを伝送する媒体であり、前記媒体は、請求項1乃至6の何れか1項に記載の方法を実行するための指示プログラムを実行する装置により読み取られる、媒体。
JP2013148835A 2008-08-21 2013-07-17 オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測 Expired - Fee Related JP5698318B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US18965908P 2008-08-21 2008-08-21
US61/189,659 2008-08-21

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2011523905A Division JP5602138B2 (ja) 2008-08-21 2009-08-17 オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測

Publications (2)

Publication Number Publication Date
JP2013255249A true JP2013255249A (ja) 2013-12-19
JP5698318B2 JP5698318B2 (ja) 2015-04-08

Family

ID=41210921

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2011523905A Expired - Fee Related JP5602138B2 (ja) 2008-08-21 2009-08-17 オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測
JP2013148835A Expired - Fee Related JP5698318B2 (ja) 2008-08-21 2013-07-17 オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2011523905A Expired - Fee Related JP5602138B2 (ja) 2008-08-21 2009-08-17 オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測

Country Status (5)

Country Link
US (1) US8400566B2 (ja)
EP (1) EP2327213B1 (ja)
JP (2) JP5602138B2 (ja)
CN (1) CN102177726B (ja)
WO (1) WO2010021966A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019156389A1 (ko) * 2018-02-06 2019-08-15 삼성전자주식회사 디스플레이 장치 및 이를 포함하는 오디오 시스템

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6205249B1 (en) 1998-04-02 2001-03-20 Scott A. Moskowitz Multiple transform utilization and applications for secure digital watermarking
US7664263B2 (en) 1998-03-24 2010-02-16 Moskowitz Scott A Method for combining transfer functions with predetermined key creation
US7346472B1 (en) 2000-09-07 2008-03-18 Blue Spike, Inc. Method and device for monitoring and analyzing signals
US7177429B2 (en) 2000-12-07 2007-02-13 Blue Spike, Inc. System and methods for permitting open access to data objects and for securing data within the data objects
US7159116B2 (en) 1999-12-07 2007-01-02 Blue Spike, Inc. Systems, methods and devices for trusted transactions
US7664264B2 (en) 1999-03-24 2010-02-16 Blue Spike, Inc. Utilizing data reduction in steganographic and cryptographic systems
US7475246B1 (en) 1999-08-04 2009-01-06 Blue Spike, Inc. Secure personal content server
US7287275B2 (en) 2002-04-17 2007-10-23 Moskowitz Scott A Methods, systems and devices for packet watermarking and efficient provisioning of bandwidth
EP2642483B1 (en) 2006-11-30 2015-01-07 Dolby Laboratories Licensing Corporation Extracting features of video&audio signal content to provide reliable identification of the signals
US8433175B2 (en) * 2008-10-28 2013-04-30 Yahoo! Inc. Video comparing using fingerprint representations
KR101516850B1 (ko) * 2008-12-10 2015-05-04 뮤비 테크놀로지스 피티이 엘티디. 여러 개 비디오 클립을 인터커팅하여 새로운 비디오 제작 생성기
CN102292769B (zh) * 2009-02-13 2012-12-19 华为技术有限公司 一种立体声编码方法和装置
CN102067595B (zh) * 2009-03-16 2013-07-24 松下电器产业株式会社 图像声音通信装置以及其通信方法
US20110052136A1 (en) * 2009-09-01 2011-03-03 Video Clarity, Inc. Pattern-based monitoring of media synchronization
US8436939B2 (en) * 2009-10-25 2013-05-07 Tektronix, Inc. AV delay measurement and correction via signature curves
US8860883B2 (en) * 2009-11-30 2014-10-14 Miranda Technologies Partnership Method and apparatus for providing signatures of audio/video signals and for making use thereof
DE102010029030A1 (de) * 2010-05-17 2012-03-01 Bayerische Motoren Werke Aktiengesellschaft Verfahren und Vorrichtung zur Verarbeitung von Daten in einem Fahrzeug
US8384827B2 (en) 2010-06-02 2013-02-26 Disney Enterprises, Inc. System and method for in-band A/V timing measurement of serial digital video signals
US8300147B2 (en) * 2010-06-02 2012-10-30 Disney Enterprises, Inc. System and method for in-band A/V timing measurement of serial digital video signals
US8531603B2 (en) * 2010-06-02 2013-09-10 Disney Enterprises, Inc. System and method for in-band A/V timing measurement of serial digital video signals
CN102271278B (zh) * 2010-06-02 2014-03-26 迪士尼企业公司 用于串行数字视频信号的带内音频/视频定时测量的系统和方法
EP2619989A1 (en) * 2010-09-22 2013-07-31 Thomson Licensing Methods for processing multimedia flows and corresponding devices
US9565426B2 (en) * 2010-11-12 2017-02-07 At&T Intellectual Property I, L.P. Lip sync error detection and correction
US9075806B2 (en) 2011-02-22 2015-07-07 Dolby Laboratories Licensing Corporation Alignment and re-association of metadata for media streams within a computing device
JP2012244413A (ja) * 2011-05-19 2012-12-10 Nippon Hoso Kyokai <Nhk> 信号監視装置およびプログラム、信号補正装置およびプログラム
US8775167B2 (en) 2011-09-26 2014-07-08 Adobe Systems Incorporated Noise-robust template matching
US8924345B2 (en) 2011-09-26 2014-12-30 Adobe Systems Incorporated Clustering and synchronizing content
US9479762B2 (en) * 2011-12-05 2016-10-25 Tektronix, Inc. Stereoscopic video temporal frame offset measurement
US8625027B2 (en) * 2011-12-27 2014-01-07 Home Box Office, Inc. System and method for verification of media content synchronization
KR20140131333A (ko) * 2012-02-29 2014-11-12 알트넷, 인크. 스트림 인식 및 필터링
WO2013170092A1 (en) * 2012-05-09 2013-11-14 Markus Iseli Method for synchronizing disparate content files
US9553756B2 (en) * 2012-06-01 2017-01-24 Koninklijke Kpn N.V. Fingerprint-based inter-destination media synchronization
US8938089B1 (en) * 2012-06-26 2015-01-20 Google Inc. Detection of inactive broadcasts during live stream ingestion
US8989503B2 (en) * 2012-08-03 2015-03-24 Kodak Alaris Inc. Identifying scene boundaries using group sparsity analysis
US10158927B1 (en) * 2012-09-05 2018-12-18 Google Llc Systems and methods for detecting audio-video synchronization using timestamps
US9401153B2 (en) 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
US9305559B2 (en) 2012-10-15 2016-04-05 Digimarc Corporation Audio watermark encoding with reversing polarity and pairwise embedding
US9992729B2 (en) * 2012-10-22 2018-06-05 The Nielsen Company (Us), Llc Systems and methods for wirelessly modifying detection characteristics of portable devices
US20140114456A1 (en) * 2012-10-22 2014-04-24 Arbitron Inc. Methods and Systems for Clock Correction and/or Synchronization for Audio Media Measurement Systems
US10638221B2 (en) * 2012-11-13 2020-04-28 Adobe Inc. Time interval sound alignment
US9201580B2 (en) 2012-11-13 2015-12-01 Adobe Systems Incorporated Sound alignment user interface
US9355649B2 (en) 2012-11-13 2016-05-31 Adobe Systems Incorporated Sound alignment using timing information
US10249321B2 (en) 2012-11-20 2019-04-02 Adobe Inc. Sound rate modification
WO2014083380A1 (en) * 2012-11-27 2014-06-05 Nokia Corporation A shared audio scene apparatus
US9451304B2 (en) 2012-11-29 2016-09-20 Adobe Systems Incorporated Sound feature priority alignment
CN103888813A (zh) * 2012-12-21 2014-06-25 北京计算机技术及应用研究所 一种音视频同步的实现方法及系统
US8925003B2 (en) * 2013-03-08 2014-12-30 Silicon Image, Inc. Mechanism for facilitating synchronization of audio and video between multiple media devices
JP2015037212A (ja) * 2013-08-12 2015-02-23 オリンパスイメージング株式会社 情報処理装置、撮影機器及び情報処理方法
US9641303B2 (en) * 2013-09-09 2017-05-02 Huawei Technologies Co., Ltd. System and method for increasing low density signature space
JP6349977B2 (ja) * 2013-10-21 2018-07-04 ソニー株式会社 情報処理装置および方法、並びにプログラム
US9723180B2 (en) * 2014-01-08 2017-08-01 Vizio Inc Device and method for correcting lip sync problems on display devices
US9930375B2 (en) * 2014-06-16 2018-03-27 Nexidia Inc. Media asset management
CN106233747B (zh) * 2014-07-17 2019-07-09 松下知识产权经营株式会社 辨识数据生成装置及方法、图像辨识装置以及记录介质
US9747656B2 (en) 2015-01-22 2017-08-29 Digimarc Corporation Differential modulation for robust signaling and synchronization
WO2017075493A1 (en) * 2015-10-28 2017-05-04 Ustudio, Inc. Video frame difference engine
CN105469783B (zh) * 2015-11-12 2019-06-21 深圳Tcl数字技术有限公司 音频识别方法及装置
KR102560635B1 (ko) * 2015-12-28 2023-07-28 삼성전자주식회사 컨텐트 인식 장치 및 그 동작 방법
US10015612B2 (en) 2016-05-25 2018-07-03 Dolby Laboratories Licensing Corporation Measurement, verification and correction of time alignment of multiple audio channels and associated metadata
US9996769B2 (en) 2016-06-08 2018-06-12 International Business Machines Corporation Detecting usage of copyrighted video content using object recognition
US10726269B2 (en) * 2017-07-20 2020-07-28 Verizon Patent And Licensing, Inc. Aligning advertisements in video streams
US11284062B2 (en) * 2017-09-05 2022-03-22 Texas Instruments Incorporated Automotive display validation
JP6926856B2 (ja) * 2017-09-07 2021-08-25 コニカミノルタ株式会社 放射線画像処理装置、プログラム及び放射線画像処理方法
CN108055566A (zh) * 2017-12-26 2018-05-18 郑州云海信息技术有限公司 音视频同步的方法、装置、设备及计算机可读存储介质
US10810471B1 (en) * 2018-03-22 2020-10-20 Amazon Technologies, Inc. Intelligent coalescing of media streams
FR3085785B1 (fr) * 2018-09-07 2021-05-14 Gracenote Inc Procedes et appareil pour generer une empreinte numerique d'un signal audio par voie de normalisation
EP3791568A4 (en) * 2018-10-03 2022-02-23 Videolocalize Inc. PIECE-BY-PIECE HYBRID VIDEO AND AUDIO SYNCHRONIZATION
CN109829432B (zh) * 2019-01-31 2020-11-20 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
US11277461B2 (en) * 2019-12-18 2022-03-15 The Nielsen Company (Us), Llc Methods and apparatus to monitor streaming media
US11302095B2 (en) 2020-01-09 2022-04-12 International Business Machines Corporation Cognitive motion picture analysis
IL295544A (en) * 2020-02-13 2022-10-01 Ssimwave Inc Distributed measurement of latency and synchronization delay between audio/video streams
US11032415B1 (en) * 2020-03-05 2021-06-08 Mitel Networks Corporation System and method for audio content verification
US20240038258A1 (en) 2020-08-18 2024-02-01 Dolby Laboratories Licensing Corporation Audio content identification
CN112435653A (zh) * 2020-10-14 2021-03-02 北京地平线机器人技术研发有限公司 语音识别方法、装置和电子设备
US11336935B1 (en) 2020-11-25 2022-05-17 Amazon Technologies, Inc. Detecting audio-video desyncrhonization
US11798577B2 (en) 2021-03-04 2023-10-24 Gracenote, Inc. Methods and apparatus to fingerprint an audio signal
US11659217B1 (en) 2021-03-29 2023-05-23 Amazon Technologies, Inc. Event based audio-video sync detection
EP4105796A1 (en) * 2021-06-18 2022-12-21 My Voice AI Limited Methods for improving the performance of neural networks used for biometric authentication
CN113782041B (zh) * 2021-09-14 2023-08-15 随锐科技集团股份有限公司 一种基于音频变频域的嵌入和定位水印的方法
CN115937441B (zh) * 2022-11-08 2023-09-05 泰瑞数创科技(北京)股份有限公司 低带宽环境下的三维协同标绘方法及其系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006102991A1 (de) * 2005-03-30 2006-10-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zum erzeugen eines datenstroms und zum erzeugen einer multikanal-darstellung
JP2006528859A (ja) * 2003-07-25 2006-12-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオとビデオを同期させるための指紋生成及び検出の方法及び装置
WO2008066930A2 (en) * 2006-11-30 2008-06-05 Dolby Laboratories Licensing Corporation Extracting features of video & audio signal content to provide reliable identification of the signals

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5446492A (en) * 1993-01-19 1995-08-29 Wolf; Stephen Perception-based video quality measurement system
US5430485A (en) * 1993-09-30 1995-07-04 Thomson Consumer Electronics, Inc. Audio/video synchronization in a digital transmission system
US6806909B1 (en) * 1997-03-03 2004-10-19 Koninklijke Philips Electronics N.V. Seamless splicing of MPEG-2 multimedia data streams
US6654933B1 (en) * 1999-09-21 2003-11-25 Kasenna, Inc. System and method for media stream indexing
US6101591A (en) * 1998-03-25 2000-08-08 International Business Machines Corporation Method and system for selectively independently or simultaneously updating multiple system time clocks in an MPEG system
US6480902B1 (en) * 1999-05-25 2002-11-12 Institute For Information Industry Intermedia synchronization system for communicating multimedia data in a computer network
JP4723171B2 (ja) * 2001-02-12 2011-07-13 グレースノート インク マルチメディア・コンテンツのハッシュの生成および突合せ
US6956871B2 (en) 2002-04-19 2005-10-18 Thomson Licensing Apparatus and method for synchronization of audio and video streams
DE10354973B3 (de) * 2003-11-25 2005-06-16 Rundfunk Berlin-Brandenburg (RBB), Anstalt des öffentlichen Rechts Verfahren zum Ermitteln von Laufzeitunterschieden zwischen Bild- und Tonsignalen auf Fernseh-Übertragungsstrecken
EP1729173A3 (en) * 2005-05-27 2007-01-03 Telegraf ApS System for generating synchronized add-on information
CN101248679B (zh) * 2005-09-06 2010-07-14 日本电信电话株式会社 视频通信品质推测装置、方法
US8363161B2 (en) * 2006-05-26 2013-01-29 Broadcom Corporation Systems, methods, and apparatus for synchronization of audio and video signals

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006528859A (ja) * 2003-07-25 2006-12-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオとビデオを同期させるための指紋生成及び検出の方法及び装置
WO2006102991A1 (de) * 2005-03-30 2006-10-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zum erzeugen eines datenstroms und zum erzeugen einer multikanal-darstellung
WO2008066930A2 (en) * 2006-11-30 2008-06-05 Dolby Laboratories Licensing Corporation Extracting features of video & audio signal content to provide reliable identification of the signals

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN5011009415; Radhakrishnan, R. et al: 'Audio and Video Signature for Synchronization' Proc. of IEEE Int. Conf. on Multimedia and Expo (ICME 2008) , 20080623, P.1549-1552, IEEE *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019156389A1 (ko) * 2018-02-06 2019-08-15 삼성전자주식회사 디스플레이 장치 및 이를 포함하는 오디오 시스템

Also Published As

Publication number Publication date
US8400566B2 (en) 2013-03-19
WO2010021966A1 (en) 2010-02-25
JP5698318B2 (ja) 2015-04-08
CN102177726A (zh) 2011-09-07
JP2012500584A (ja) 2012-01-05
EP2327213B1 (en) 2014-10-08
EP2327213A1 (en) 2011-06-01
CN102177726B (zh) 2014-12-03
JP5602138B2 (ja) 2014-10-08
US20110261257A1 (en) 2011-10-27

Similar Documents

Publication Publication Date Title
JP5698318B2 (ja) オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測
US10785547B2 (en) System and method for synchronizing metadata with audiovisual content
JP5060565B2 (ja) 信号の信頼できる識別をするためのビデオ及びオーディオ信号内容の特徴の抽出
JP4723171B2 (ja) マルチメディア・コンテンツのハッシュの生成および突合せ
KR20070034462A (ko) 비디오-오디오 동기화
US20210084091A1 (en) Use of In-Band Metadata as Basis to Access Reference Fingerprints to Facilitate Content-Related Action
US11902632B2 (en) Timely addition of human-perceptible audio to mask an audio watermark
KR101741747B1 (ko) 실시간 광고 삽입이 가능한 영상 광고 처리 장치 및 방법
US11689751B2 (en) Method and system for re-uniting metadata with media-stream content at a media client, to facilitate action by the media client
JP2023105359A (ja) コンテンツ配信装置、受信装置及びプログラム
Terry et al. Detection and correction of lip-sync errors using audio and video fingerprints

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140408

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140625

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140805

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141205

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20141216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150212

R150 Certificate of patent or registration of utility model

Ref document number: 5698318

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees