JP2013255249A - オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測 - Google Patents
オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測 Download PDFInfo
- Publication number
- JP2013255249A JP2013255249A JP2013148835A JP2013148835A JP2013255249A JP 2013255249 A JP2013255249 A JP 2013255249A JP 2013148835 A JP2013148835 A JP 2013148835A JP 2013148835 A JP2013148835 A JP 2013148835A JP 2013255249 A JP2013255249 A JP 2013255249A
- Authority
- JP
- Japan
- Prior art keywords
- video
- audio
- destination
- content
- signature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4341—Demultiplexing of audio and video streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234318—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into objects, e.g. MPEG-4 objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/2368—Multiplexing of audio and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/242—Synchronization processes, e.g. processing of PCR [Program Clock References]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4305—Synchronising client clock from received content stream, e.g. locking decoder clock with encoder clock, extraction of the PCR packets
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43072—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/04—Synchronising
Abstract
【解決手段】特徴が互いに既知の時間的関係をもつビデオ及びオーディオ内容から抽出される。抽出された特徴はビデオ及びオーディオ署名を生成するために用いられ、該署名は時間的関係の指標とともに同期署名構築に組み入れられる。前記構築は離れた目的地で受領されたビデオ及びオーディオ内容の間の同期誤差を算出するために使用しても良い。処理を最適化し、算出された同期誤差の信頼性の指標を提供するために信頼性の基準が離れた目的地で生成される。
【選択図】 図1
Description
本出願は2008年8月21日に出願された米国仮出願番号61/189,659に基づく優先権を主張するものであり、本出願の内容は参照により本明細書に組み入れられる。
図1及び2は本発明の特徴を組み入れた代表的システムの略ブロック図であり、同システムはビデオ及びオ−ディオ信号の間の同期を検出しそして再確立するために使用することができる。これらの各システムは同期署名構築を生成し、分配し及び適用する機能を組み入れ、この構築はビデオ及びオ−ディオ内容、及びこの内容の間の時間アラインメントを表すデータの論理構造である。この構築は必要な情報を伝送することの出来る実質的な任意のデータ構造によって実施しても良い。これらの機能をここで紹介し、以下でより詳細に説明する。
図1に示すリアルタイムシステムはリアルタイムに同期署名構築を生成し及び分配する。本発明のリアルタイムシステムで実施をするためには、非リアルタイムシステムで使用で考えられるものより低い、計算の複雑さ、メモリー及びバッファー要求での処理を必要とすることもある。図1を参照すると、A/V同期署名生成器はビデオ及びオ−ディオ信号の内容を検討し、分析し、ビデオ及びオ−ディオ署名を生成するために一以上の内容の特徴を抽出する。これらの2つの署名は同期署名構築に組み立てられる。署名生成器はリアルタイムでビデオ及びオ−ディオ信号を受領し、ビデオ及びオ−ディオ信号は続いてリアルタイムで分配される。したがって、署名生成器はリアルタイムで同期署名構築を生成する。殆どの実施の態様において、A/V同期署名生成器により検知されたビデオ及びオ−ディオ信号はお互いに所望の時間アラインメントを持つと予想されるが、これは原則として必要とされない。もし望むならば、A/V同期署名生成器のある実施の態様においては、実際の時間アラインメントの同期署名構築での明確な指標を含むことによりビデオとオ−ディオ信号の間のアラインメントでの知られたシフトを説明することができる。この明確な指標は、同期署名構築が生成された場合に恰も2つの信号が所望のアラインメントを持っている様に、同じ結果を達成するために必要な、あらゆる調整を行う続く処理において使用することができる。もしビデオ信号及びオ−ディオ信号が適正なアラインメントにあると判明している場合、明確な情報は必要でなく、そして2つの信号の相対的時間アラインメントを暗示的に伝送することができる。
図2に示す非リアルタイムシステムは、非リアルタイムにビデオ及びオ−ディオ信号を分配するファイルベースシステムの例であり、リアルタイムに同期署名構築を生成し、そして分配する必要はない。その結果この非リアルタイムシステムの本発明の実施では、リアルタイムで実際に用いることの出来るものより極めてより高度の、複雑な計算、メモリー及びバッファー要求を持つプロセスで使用することができる。
図3は同期される参照ビデオ信号及び参照オ−ディオ信号の特徴を抽出することにより同期署名構築を生成する代表的機器を示す。同期署名構築は参照ビデオ信号の一以上の特徴を表す一以上の参照ビデオ署名、参照オ−ディオ信号の一以上の特徴を表す一以上の参照オ−ディオ署名、及び参照署名を生成するために使用されるビデオ及びオ−ディオ特徴の相対的時間アラインメントの指標を含む。
一以上のビデオ署名が、ビデオ内容から抽出される一以上のビデオ特徴に反応して生成される。一以上のオ−ディオ署名がオ−ディオ内容から抽出される一以上のオ−ディオ特徴に反応して生成される。ビデオ及びオ−ディオ署名は、その内容と異なる署名を生成することのできる実質的に任意のプロセス又は変換を用いる内容から生成され又はそれに由来するものであっても良い。署名を表すために必要なデータ量は、その内容を表すために必要なデータ量よりも少ない。署名は、好ましくは、署名を表すために必要なデータ量が、対応する参照及び目的地内容を十分に高い信頼性で関連付けるために求められる以上でない程度に生成されるのが良い。
図4はビデオ署名発生器100の好ましい実施の態様の略ブロック図である。相違度測定プロセッサー120は一連のビデオフレーム内での2つのビデオフレーム1a, 1bの内容を検査して、2つのフレームの全て又はその一部の間の一以上の相違の程度を表す中間値を生成する。もし各ビデオフレームの内容が例えば、個々の画像要素又はピクセルの強度を表す配列で示される場合、中間値はピクセル群の強度の平均又は標準偏差値の間の差の配列であっても良い。ビデオ署名プロセッサー170がハッシュ関数を中間値に適用し、ビデオフレーム内容を同定するビデオ署名(SV) 199bを生成する。
以下に説明する実施の態様ではビデオフレームの間の一以上の相違の程度を表す中間値を計算する。その理由は相違の程度は生成された署名の元の内容における、動き及び他の変化に対する感度を増大させるが、輝度又はコントラストの変化、異なる色空間の間の変換、又は色彩訂正の応用の様な続くプロセスでの修飾に対する感度を除去し又は減少させるからである。
相違測定プロセッサー120の幾つかの代表的な例を図5A〜5Cに示す。図5Aを参照すると、成分122aはビデオフレーム1aの一以上のピクセルグループを形成し、成分124aはこれらのピクセルグループ各々から一以上の特徴を抽出し、各特徴を表す値Rを計算する。成分122bはビデオフレーム1bの一以上のピクセルグループを形成し、成分124bはこれらのピクセルグループの各々から一以上の特徴を抽出し、各特徴を表す値Rを計算する。成分126は、2つのビデオフレーム1a, 1b中の、対応する特徴及び対応するピクセルグループの、値Rの間の相違度を表す中間値Qを計算する。
成分122a及び122bは、所望の実質的に任意の方法でピクセルグループを形成しても良く、以下に幾つかのその代替例を説明する。所望ならば、ビデオ署名を生成するために使用されるビデオフレー中の情報は、画像の端又はコーナーにレターボックス又はグラフィックスを追加する任意のプロセスにより起きる変化を排除するために、全体の画像の一部に限定しても良い。これは種々の方法で実行しても良く、例えば、特徴の抽出に先立ち画像をトリミングすることにより、計算された後に抽出された特徴を表す値Rの配列をトリミングすることにより、又は値Rから算出された相違値の配列をトリミングすることによる等である。好ましくはこれは特徴の抽出前に画像にトリミングすることで実現するのが良い。
成分124a及び124bは、各ピクセルグループから一以上の特徴を抽出し、そして各特徴を表す値Rを算出する。もし各ビデオフレームが単色画像を伝送する場合、特徴は、個々のピクセルの強度を表すデータeから抽出しても良い。もし各ビデオフレームが例えば、赤、緑及び青(RGB)により表されるピクセルを含む色彩画像を伝送する場合は、個々の特徴は赤、緑及び青のピクセル成分の各々を表すデータeから抽出しても良い。代替的に、特徴は、赤、緑及び青の成分を表すデータに由来のピクセル輝度又は明るさを表すデータeから抽出しても良い。抽出される一つの特徴は平均ピクセル強度であっても良い。この特徴を表す値RAVEは以下の式から得られる:
RAVE(k, l)=ピクセル(k, l)グループ中のピクセルの平均強度
e(i,j) =グループ内のピクセル (i,j)の強度;
GX= 多くのピクセルで表わされるピクセルグループの幅
GY=多くのピクセルで表わされるピクセルグループの高さ
K =多くのピクセルで表わされる画像の水平分解能
L =多くのピクセルで表わされる画像の垂直分解能
抽出される他の特徴はピクセル強度の標準偏差である。代替的に、標準偏差の分散又は二乗を用いても良い。標準偏差を表す値RSDは以下の式から得ることができる:
抽出される他の特徴はピクセル強度のヒストグラムである。この特徴を表す一組の値RHISTは、可能な強度の範囲内の各強度について特定の強度を持つピクセルの数を数えることにより得ることができる。
成分126は相違Eの度合を種々の方法で表す中間値Qを算出することができる。測定値の選択は本発明にとり原則として決定的でないが、成分124a及び124bにより抽出される特徴によってはより良く機能することもある。経験的に見て、適した選択をする必要がある。しかし、以下に述べる2つの測定値が広い応用範囲において良い結果を生むことが分かった。
E(k, l, f1, f2)=ピクセルグループ(k, l)中のフレームf1及びf2の間の相違
R(k, l, x)=フレームxのピクセルグループ(k, l)の抽出された特徴を表す値
もし、抽出された特徴がスペクトル特徴を表すRSPECTRUM中の振幅の様な2以上の要素を持つ値により表される場合、相違の度合は、2つの異なるフレームの対応するピクセルグループの対応する特徴を表す値R中の要素の間の差の絶対値の合計から算出しても良い。この度合は以下の式より算出しても良い:
R(k, l, z, x)=フレームx中のピクセルグループ(k, l)の値Rの要素z
もし、望む場合は、フレーム中の2以上のピクセルグループの相違度合の合成値が以下の同様な式から算出される:
E(f1, f2)=フレームf1及びf2の間の複合相違度
K及びlの合計の限界は所望のグループを含むように選択される。この特定の例では、値Rは一以上の要素を含むと想定される。もし、値が一つの要素であれば、zより大きい合計は省略される。
(d)代替的実施の態様
平均ピクセル強度の間の差が署名生成に用いられる相違度測定のみである場合は、相違度合測定プロセッサー120は図5B及び5Cに示す様に実施しても良い。これらの実施の態様では、ピクセル強度又は平均強度はビデオフレーム1a及び1bから抽出され、抽出された特徴の間の相違の度合が算出され、そして相違の度合は続く署名生成のためのグループに形成される。図5B及び5Cに示す代表的な実施の態様では、ビデオ内容のフレームは個々のピクセルの配列により表され、相違度測定プロセッサー120は、微分要素の配列Δを各々含む差分画像を2つのビデオフレームの対応するピクセルの間の差を計算することによって得る。もし各ビデオフレームが赤、緑及び青(RGB)値により示されるピクセルを含むカラー画像を伝送する場合、微分要素は対応するピクセルについての赤、緑及び青(RGB)値の間の差から算出しても良い。好ましくは、微分要素は赤、緑及び青(RGB)値に由来する対応するピクセルの輝度又は明るさの間の絶対的差から算出するのが良い。もし、各ビデオフレームが単色画像を伝送する場合は、微分要素は対応するピクセルの強度の間の差から算出しても良い。
中間値Qは、各領域の要素の平均強度を算出することにより、微分要素Δの強度から得られる。これらの中間値は、K x Lの分解能の中間値を持つ低分解能差分画像を構成する。
Q(k, l) =低分解能画像中の中間値
GX=要素の数で表わされる微分要素グループの幅
GY=要素の数で表わされる微分要素グループの高さ
K=低分解能画像の水平分解能
L=低分解能画像の垂直分解能
Δ(i, j)=微分要素
グループの水平サイズGXは以下の様に選択される。すなわち、K・GX= RHとなる様に、及びグループの垂直サイズGYはL・GY = RVとなる様に選択され、式中RH及びRVは差分画像の水平及び垂直分解能である。上に説明した120 x 160の分解能を持つダウンサンプルされた差分画像中の要素を生成する代表的な実施の態様では、グループのある好適なサイズは8 x 8ピクセルであり、これは120/8 x 160/8 = 15 x 20の分解能を持つ低分解能画像を提供する。より分解能の高い微分要素よりも、ビデオ署名を生成する低分解能中間値Qを用いることにより、生成されたビデオ署名はビデオ信号内容の詳細を変えるプロセスに対して、より感度は低いが平均的強度を維持する。
以下の段落に記載のビデオ署名プロセッサー170の実施の態様では、図6Aに示す値Rの配列又は図5Cに示すプロセッサーに関連する上記の微分要素ΔのK x L配列から得られる中間値QのK x L配列からビデオ署名を生成する。
RNG =ランダム数生成器の出力、及び
Pn(上付きバー)=各暫定マトリクスのRNGにより生成される数の平均値
生成器RNGは[0, 1]の範囲に均一に分布した乱数値又は疑似乱数値を生成する。生成器の最初の状態はハッシュキーによって初期値に設定しても良く、それによってハッシュ関数及び生成されたビデオ署名を暗号学的により安全にする。その一組のNハッシュビットはまず、暫定値Qを以下の式で表わされるNベースマトリクスの各値に投影することにより得られる。
ハッシュビットは各投影値を全ての投影の中央値と比べそして、もし投射が閾値に等しいか又はそれを超える場合は、ハッシュビット第一の値に設定し、もし投射が閾値より小さい場合は、ハッシュビットを第二の値に設定することで得られる。これは次の様に表すことができる:
sgn(x)=1, x≧0の場合
H(上付きバー)=全ての投射Hnの中央値
b) オ−ディオ署名生成器
図7はオ−ディオ署名生成器200の好ましい実施の態様の略ブロック図である。時間周波数表示プロセッサー210は一連のセグメント内のオ−ディオセグメント2bの内容を調査してセグメント中のオ−ディオ内容の全ての又はその一部のスペクトル成分を表すスペクトル値を生成する。もし、例えば、セグメントのオ−ディオ内容が個々のサンプルの振幅を表す値で表示される場合、スペクトル値は時間領域から周波数領域への変換ブロックにより生成される時間周波数表示内の一組の係数であっても良い。中間値プロセッサー250はグループのスペクトル値を調査して各グループのスペクトル値の強度を導出する。オ−ディオ署名生成器270は中間値にハッシュ関数を適用してオ−ディオセグメントの内容を同定するオ−ディオ署名(SA)299bを生成する。
オ−ディオ信号のセグメントが個々のサンプルの増幅を表す値により表示される代表的実施の態様においては、時間周波数表示プロセッサー210は、時間領域から周波数領域変換を各セグメント中のオ−ディオサンプルの一連の重なるブロックに適用することにより生成される変換係数から一組のスペクトル値を得る。もし望むならば、スペクトル値は、オ−ディオ内容のスペクトルの形を変える任意のプロセスにより生成される変化を避けるために、オ−ディオ内容の全バンド帯域幅の一部のみに限定しても良い。例えば、限定された表示は、最低周波数及び最高周波数スペクトル成分を表す変換により生成されるこれらの変換係数を除外し、又は変換を適用する前にオ−ディオ内容をバンドパスフィルターろ過することにより得ても良い。
T=時間分解能又は各セグメント中のブロック数
LS=サンプル中の各セグメントの長さ
ZS=サンプル中の各ブロックの長さ
ZB=ブロックステップサイズ
周波数分解能は通常ブロックの長さ又はスペクトル値を生成するために使用される変換の長さにより決定される。ビデオ及びオ−ディオ内容を同期させる以下に議論するある応用例では、オ−ディオ内容は3つのビデオフレームの長さに等しいセグメントに分割される。あるテレビジョンでの応用では、3つのビデオフレームに亘る時間間隔は約100ミリ秒である。もしオ−ディオサンプルの周波数が48kHZとすると、オ−ディオセグメントの長さは4,800サンプルとなる。ブロックの長さは256サンプルとなる様に選択され、ブロックスステップサイズは32サンプルとなる様に選択される。これを実施するために、各オ−ディオセグメントはT= 142ブロックを持ち、したがって、時間周波数表示の時間分解能は142に等しくなる。256点高速フーリエ変換が129スペクトル値を生成するためにサンプルの各ブロックに適用される。したがって、時間周波数表示の周波数分解能は129に等しい。セグメントステップサイズは512サンプルとなる様に選択され、又はこれは10.7ミリ秒である。
中間値プロセッサ250はスペクトル値のグループを検査し、各グループのスペクトル値の強度から中間値を導出する。
Q(k, l) =低分解能表示の中間値
GF =多くの値で示すスペクトル値グループの幅
GT=多くのブロックで示すスペクトル値グループの長さ
K =低分解能表示の周波数分解能
L =低分解能表示の時間分解能、及び
S(i, j) =スペクトル値
グループのGFのサイズはK・GF = RTとなるよう、及びグループのGTのサイズはL・GT= RTとなる様に選択され、RF及びRTそれぞれ低分解能表示の周波数及び時間分解能である。上で検討した及び以下で検討するように代表的な実施の態様では、グループに適するある好適なサイズはGF=6及びGT=14であり、この場合129/6 x 142/14≒20 x 10の中間値の低分解能表示を与える。
オ−ディオ署名プロセッサ270は中間値QのK x L配列にハッシュ関数を適用して一組のNハッシュビットを生成する。これらのハッシュビットはオ−ディオセグメントの内容を同定するオ−ディオ署名(SA)を構成する。これはビデオ署名について上で議論したと同様の方法で行っても良い。
同期署名構築はまたビデオ及びオ−ディオ署名に対応するビデオ及びオ−ディオ信号の相対的時間アラインメントを伝送する。ビデオ及びオ−ディオ署名が生成される場合、もしビデオ及びオ−ディオ信号が同期するときは、これらの信号の相対的時間アラインメントは、あるデータ構築又は信号の対応するビデオ及びオ−ディオ署名を関連させることにより、黙示的に伝送することができる。相対的時間アラインメントはまた明示的に伝送することもできる。例えば、ビデオ及びオ−ディオ署名を生成するために特徴が抽出された場合、ある値が、オ−ディオ信号がビデオ信号に先行し又は遅れる量を表す同期署名構築中に含まれることもある。
第一の方法は特徴を抽出して、一定速度で同期署名構築を生成する。署名は、一定速度で送ることができるブロックに組み立てられる。もし特徴を選択することが採用される場合は、特徴が何ら抽出されないためブロックは署名を伝送しないか、又は一以上の特徴から導出された一以上の署名を伝送することがあり得る。
この方法では、ビデオ特徴及びオ−ディオ特徴の間の時間的関係は、ビデオ内容のフレーム及びオ−ディオ内容のブロックの構造及び時間関係により明らかにされる。もし署名がしばしば起きる多数の特徴から生成される場合、この一定速度の方法は好ましいであろう。ビデオ及びオ−ディオ信号の間の相対的時間関係が伝送される方法は、所望の時間分解能のレベルのみならず使用される特徴及びフレーム/ブロックの長さから決定することもできる。もしフレーム及びブロックの長さ又はレートが一定でない場合であり明示的に知られていない場合、同期署名構築体又は関連するデータ構造はこれらの長さ又はレートを特定するある情報を含む場合もある。
第2の方法は特徴を抽出して、そして、例えば、場面変化又はプログラムの境界(program boundary)の様な全体の画像での大きな変化、又は一過性のオ−ディオ特徴又は音声セグメント中の急激な変化の様な、ある事象に反応して署名を生成する。
第3の方法は一定速度及び上に述べた導出される事象の方法のハイブリッドである。この方法では、署名は一定速度で生成されるが、各署名は署名を生成するために使用される特徴の時間をより高い分解能で特定する情報を含む。例えば、ビデオ内容が一連のフレームに配置されており、関連するオ−ディオは一連のブロックで配置されている場合で、各ブロックは各フレームをアラインされ関連付けられているとする。この例では、ビデオ特徴は各ビデオフレームについて一度抽出され、そしてオ−ディオ特徴は各オ−ディオブロックについて一度抽出される。
図10は、ビデオ及びオ−ディオ信号が修飾され、そしてビデオ内容、オ−ディオ内容及び同期署名構築が遅延した場合のパス(経路)を含む代表的な分配ネットワークの概略図である。このネットワークは上で述べたリアルタイム及び非リアルタイムシステムに適用される。ネットワークの他の実施の態様においては、2以上の信号が処理され同じパスにより伝送される。ビデオ内容、オ−ディオ内容及び同期署名構築は、所望される実質的に任意の方法により分配することができる。例えば、ビデオ及びオ−ディオ内容及び同期署名構築は一つのデータ流に組み合わせられそして一緒に分配され、種々の組み合わせにより2つの流れにされることもあり、その流れの各々は独立に分配され、又は全てがお互いに独立に分配されても良い。
ビデオ信号に意図して改変を加える例として、コントラスト/明るさ調整、ガンマ修正、輝度ヒストグラム平坦化、彩度調整、及び白色平衡化のための色彩修正の様な輝度及び色彩調整を含み、画像のトリミング及びサイズの再変更、画像の回転及び反転、分解能拡大・縮小、フレームレート変換、引き伸ばし、シミの除去、不鮮明化、明確化及び輪郭強調を含み、及びそれらには非可逆圧縮、彩度キーイング及びロゴの挿入を含む。
これらの遅延はリアルタイムシステムにおいて非常に重要である。その理由は遅延は同期を回復するために使用される装置に求められる要求を増大させるからである。これらの信号の任意の2つの分配での遅延の差は、情報を記憶するために必要な記憶量又はバッファーリング(buffering)を増大させる。リアルタイムシステムでは、一般的に、同期署名構築を対応するビデオ及びオ-ディオ内容が配送される前に、同時に又はその直後に配送することが重要であり、それにより、ビデオ及びオ−ディオ内容を記憶させるために必要なバッファーリングスペースの量を減少させ、又は内容の最終的は配送の遅延を減少させることができる。同期署名構築の分配の遅延は非リアルタイムシステムにおいてさえ重要であり得る。ある実施の態様において、ビデオ及びオ−ディオ内容の全体の流れでの同期署名構築は、応用処理が開始される前に受領されねばならない。
分配ネットワーク中の通信経路及び処理経路の特徴はビデオ及びオ−ディオ署名の生成方法及び同期署名構築の分配方法に影響することもある。経路(path)帯域幅の制限はビデオ及びオ−ディオ署名を生成するためにどの特徴及び幾つの特徴が使用されるかに影響する。その理由は特徴の選択及びその数は、署名を表示するために必要なデータの量又はビットの数に影響することがあるからである。
この場合、署名はフレームベースパケット(frame-based packet)の構成を取ることが必要であることもある。代替的に、同期署名構築はステガノグラフィー技術又は透かし(watermaking)技術によりビデオ信号と組み合わせても良く、これらの技術は署名を表すために使用することの出来るデータ量を極めて大きく制限することもある。
上で検討した同期署名構築は、上に述べたビデオ及びオ−ディオ信号の間の同期の訂正の様な種々の応用に用いることができる。これらの応用のいくつかの代替的な実施の態様について以下に説明する。
a) 概観
図11に示す装置は図1及び2に示すA/V(オ−ディオ/ビデ)同期検出器(A/V Sync Detector)に対応する。これは、図1及び2に示す、あるリアルタイム又は非リアルタイムソースより受領した目的地ビデオ内容及び目的地オ−ディオ内容の間の同期を検出しそして訂正するために使用しても良い。
あるリアルタイムシステムでは、A/V同期検出器は目的地内容から連続的に特徴を抽出し及びリアルタイムに目的地署名を生成する。A/V同期検出器は参照署名及び目的地署名の一連の履歴を保持して、数秒又はそれ以上に亘る内容の比較をすることができる。現在の同期誤差がある十分信頼に値するレベルで算出されると、A/V同期修正器信号中の可変である遅れが調整され同期を回復することができる。可変の遅れが目的地内容の不整合(misalignment)中の変化を補償するように変える速度は、ビデオーオ−ディオ表示の知覚される品質を改善し又は維持するように所望に応じて制御される。
ビデオ及びオ−ディオ内容の時間不整合(misalignment)を算出する一つの方法について以下の段落で説明する。
式中
HD[r,c] =署名r 及びcの間のハミング距離
F = 一組の参照署名中の署名数
U = 相関器関係の調査範囲
W= 署名の数により表される相関窓の長さ
ハミング距離は2つの署名が異なるビット位置の数に等しい。
一致の信頼性の基準は種々の本質的で算出することができる。そのいくつかの技術を以下の段落に示す。
EMAX=予測誤差を持つ最大期待差異。予測アラインメント誤差及び算出されたアラインメント誤差が等しい場合は、この一致の確度の基準は1に等しい。予測された不整合EP及び最も期近に計算された不整合E0の間の差異が最大期待差異EMAXに近づく場合、この程度は0に減少し、もしこの差異が最大期待差異を超える場合は、マイナスとなる。
一致の確度の基準を算出する他の技術は計算されたアラインメント誤差の確立を決定する統計モデルを用いる。このモデルはアラインメント誤差の理論的又は経験的に決定される統計に基づくこともある。もし統計モデルが算出されたアラインメント誤差があると思われることを示す場合は、その算出された誤差の確度の基準はより高い。
一致の確度の基準を算出する他の技術は信号‐内容モデルを用いて算出されたアラインメント誤差の確実性を決定する。このタイプのモデルは内容自体に当てはめても良く、署名を生成するために使用される内容から抽出される特徴又は署名自信に適用しても良い。
一致の確度の基準を算出する他の技術は、参照署名が生成された後に異なるプロセスにより修飾され又は「攻撃された」内容と正しい一致の可能性を予測するモデルを用いる。ある特徴に基づく署名は種々のタイプの修飾に反応する。攻撃‐予測モデルはどの種類の内容の修飾が起きたかを決定することを試みる。これは、参照及び目的地内容の両者が得られる場合は、参照及び目的地内容の間の差異を分析することにより、又は参照及び目的地署名の間の差異を分析することにより実施しても良い。ビデオ内容修飾の例にはトリミング、空間分解能の変化、フレームレートの変化、画像反転及び知覚的符号化を含む。オ−ディオ内容修飾の例には、帯域幅削減、サンプルレートの変化及び知覚的符号化を含む。
一致の確度の基準を算出する他の技術はオペレーター入力を用いることである。オペレーター入力は一致の確度を直接に特定することができるか又は上で議論したモデルの一つへの入力を提供することができる。例えば、オペレーター入力はビデオ内容中に動きが存在し又は存在しない、又はオ−ディオ内容中に話し言語が存在し又は存在しない様な内容の特徴を同定することができ、又は参照署名の生成から起こった信号の修飾又は攻撃タイプを特定することができる。他のタイプの入力も可能である。
一致の確度の基準を算出するための他の技術は伝達誤差の検出に基づく。もし矯正不可能な伝達誤差が目的地内容又は同期署名構築中に存在することが知られている場合、このデータに基づく一致は、これらの誤差を持たないデータに基づく一致よりも信頼性は低いであろう。一致の確度の基準は、伝達誤差が起きた場合はより低い値に設定することができる。もし多くの矯正不可能な誤差が起きた場合には、基準はさらに低い値に設定することができる。しかし、伝達誤差が存在しないこと自体は、一致の確度の基準が高くあるべきであるとすることを意味しない。伝達誤差の検出は、以下に述べる他の方法から算出される基準値にシーリングを設定するために使用してもよい。
一致の確度の基準は、同期の誤差及びその関連する信頼度の基準を算出するために使用することができる一以上のタイプのプロセス又はフィルタを用いて実施しても良い。一致の確度の基準は、算出された同期誤差中の短期の逸脱の効果を除外し又は最小化する種々のプロセスで使用しても良い。ある一つの代表的なプロセスは過去の同期誤差の3つのタイプのモデルを用いる。第1のタイプのモデルは一定である一連の誤差を表す。第2のタイプのモデルは線形速度(linear rate)で増大又は減少する一連の誤差を表す。第3のタイプのモデルは値が急激にジャンプし又は変化することを含む一連の誤差を表す。代表的なプロセスでは過去の同期誤差の間隔を分析し、そして3つのタイプのモデルのいずれが最もこの配列を良く表しているかを選択する。選択されたモデルのパラメーターは生成されたモデルの出力と過去の誤差の値との差を最小にする様に導出される。モデルのタイプ及びそのパラメーターの選択はバッファーに保存される。好ましくは上で述べた予測モデル技術が選択されたモデル中の一致の確度の基準を算出するために使用され、選択されたモデルのタイプは、確度の基準が閾値より大きい場合に限り、関連する一致の確度の基準とともにバッファーに保存される。もし望むならば、追加のフィルターを異常誤差値を生成するバッファーから選択されたモデルを除外するために使用してもよい。記憶されたモデルのバッファーは、一致の確度の基準が閾値より低い、時間の間隔の現在の同期誤差を予測するために用いても良い。幾つかの方法について本明細書で説明がなされている。
同期署名構築は多くの他の応用で使用することができる。一つの応用では補助的情報の同期を維持する。同期署名構築中の参照ビデオ及び参照オ−ディオ署名はビデオ及びオ−ディオ信号と知られた時間の関係を有する特徴をベースとするため、これらの参照署名は補助的情報をビデオ及びオ−ディオ信号の何れか一つ又は両方に同期させるために用いることができる。この補助的情報はビデオ・オ−ディオ内容に関連づけられた時間依存の情報を伝送する実質的に任意の種類のデータを含む。幾つかの例には字幕情報、SMPTE標準12Mに記載のタイムコード及び機器制御信号を含む。この応用は、この補助的情報を同期署名構築とある方法で結びつける、例えば、それを署名中に含める、同期署名構築とインターリブする、又は同期署名構築をあるより大きなデータ構築中の補助的情報と組み合わせる等により実現することができる。他の応用ではビデオ・オ−ディオ内容を同定する。同期署名構築中の参照ビデオ及び参照オ−ディオ署名はビデオ・オ−ディオ内容から抽出された特徴に基づくため、これらの一連の参照署名はある与えられたビデオ・オ−ディオプログラムにとってユニークであると思われる。これは同期署名構築中の参照ビデオ及び参照オ−ディオ署名は内容を同定するために使用することができることを意味する。この応用のある実施の態様では、一連の目的地署名は目的地内容から生成され、この目的地署名の配列は参照署名の配列と比較される。もし目的地署名の列と一致する一連の参照署名が見つかる場合は、これは目的地署名の列が参照署名の特定の列と十分近似すると見做されることを意味し、そして目的地内容が特定に参照署名の列に対応する内容のコピーであると同定される。
テストオ−ディオ内容の身元がオ−ディオ署名生成器201に経路33から受領したテストオ−ディオ内容からテストオ−ディオ署名を生成させ、そしてテストオ−ディオ署名をオ−ディオサーチエンジン285に送らせる。
本発明の種々の特徴を組み入れた装置は種々の方法で実施することができ、それにはコンピュータで実行されるソフトウェア又は汎用コンピュータに見られると同様な構成物に連結されたデジタル信号プロセッサ(DSP)回路の様なより専用化された構成物を含む他の装置を含む。図15は本発明の特徴を実施するために使用される装置70の略ブロック図である。プロセッサ72はコンピューティング資源を提供する。RAM73は処理のためのプロセッサ72により用いられるシステムランダムアクセスメモリー(RAM)である。ROM74は、装置70を動かすために必要なプログラム及びおそらく本発明の種々の特徴を実行するための読み出し専用メモリー(ROM)の様なある形式の永続記憶装置を表す。入出力(I/O)制御75は通信チャネル76,77により信号を受信及び送信するためのインターフェイス回路を表す。本明細書に示す実施の態様では、全ての主要なシステム要素はバス71に連結され、バス71は一以上の物理的又は論理的バスであっても良い。しかし、バス構造は本発明を実施するために必要とはされない。
Claims (8)
- 目的地ビデオ内容及び目的地オーディオ内容の間の同期誤差を算出する方法であって、
参照ビデオ信号の一以上のビデオ特徴を表す参照ビデオ署名、参照オーディオ信号の一以上のオーディオ特徴を表す参照オーディオ署名、及びビデオ及びオーディオ特徴の相対的時間アラインメントの指標を受領する;
目的地ビデオ内容から抽出された一以上のビデオ特徴に応答して一以上の目的地ビデオ署名を生成する;
目的地オーディオ内容から抽出された一以上のオーディオ特徴に応答して一以上の目的地オーディオ署名を生成する;
一連の目的地ビデオ署名を一連の参照ビデオ署名と比較し、目的地ビデオ内容と、参照ビデオ署名を生成するために用いられる参照ビデオ内容の間の一致を探す;
一連の目的地オーディオ署名を一連の参照オーディオ署名と比較し、目的地オーディオ内容と、参照オーディオ署名を生成するために用いられる参照オーディオ内容の間の一致を探す;
同定された目的地ビデオ内容と同定された目的地オーディオ内容の間の時間的不整合を、参照ビデオ信号及び参照オーディオ信号のビデオ及びオーディオ特徴の相対的時間アラインメントと比較して算出することにより、目的地ビデオ内容と目的地オーディオ内容の間の同期誤差を算出し;
過去の同期誤差を分析し、過去の同期誤差を最も適切に表す過去の同期誤差のモデルを選択し、ここでモデルは、一定である一連の同期誤差を表すモデル、又は線形割合で増大又は減少する一連の同期誤差を表すモデル、又は値が突然変化するものを含む一連の同期誤差を表すモデルから選択しても良く、そして選択されたモデルのパラメータは選択されたモデルの出力と過去の同期誤差の差を最小にするように導出され;
選択されたモデル及びそのパラメータを選択してバッファーに保存し;
算出された時間不整合及び一連の事前に算出された時間不整合から得られた予測された不整合の間の差から同期誤差の信頼性の基準を導出し;
その選択されたモデルの最も高い信頼性の基準をもつモデル、バッファーに保存されたモデルパラメータの平均から導出されたモデル、またはバッファーに最もしばしば保存されるモデルを用いて、信頼性の基準が閾値より小さい場合の間隔の同期誤差を予測し;及び
同期誤差を表示し、又は同期誤差を、目的地ビデオ及び目的地オーディオの一つ又は両方を遅延させてそれらを適正な時間アラインメントになるようにすることを含む方法。 - 目的地ビデオ内容及び目的地オーディオ内容の間の同期誤差を算出する方法であって、
参照ビデオ信号の一以上のビデオ特徴を表す参照ビデオ署名、参照オーディオ信号の一以上のオーディオ特徴を表す参照オーディオ署名、及びビデオ及びオーディオ特徴の相対的時間アラインメントの表示を受領し;
目的地ビデオ内容から抽出された一以上ビデオ特徴に応答して一以上の目的地ビデオ署名を生成し;
目的地オーディオ内容から抽出された一以上オーディオ特徴に応答して一以上の目的地オーディオ署名を生成し;
一連の目的地ビデオ署名を一連の参照ビデオ署名と比較し、目的地ビデオ内容と、参照ビデオ署名を生成するために用いられる参照ビデオ内容の間の一致を探し、目的地ビデオ信号と参照ビデオ信号の間の相対的ビデオタイミングの差を得る;
一連の目的地オーディオ署名を一連の参照オーディオ署名と比較し、目的地オーディオ内容と、参照オーディオ署名を生成するために用いられる参照オーディオ内容の間の一致を探し、目的地オーディオ信号と参照オーディオ信号の間の相対的オーディオタイミングの差を得る;
目的地ビデオ信号と参照ビデオ信号の間の相対的タイミングの差及び目的地オーディオ信号と参照オーディオ信号の相対的タイミングの差から目的地ビデオ内容と目的地オーディオ内容の間の同期誤差を、参照ビデオ信号及び参照オーディオ信号のビデオ及びオーディオ特徴の相対的時間アラインメントと比較して算出する;
目的地ビデオ内容及び参照ビデオ内容の間に見出された一致の信頼性の程度を表すビデオ−一致の信頼性の基準(video-match confidence measure)を、過去の相対的ビデオタイミングの差を分析することにより、及び過去の相対的ビデオタイミングの差を最も良く表すモデルを選択することにより算出し、ここでモデルは、一定である一連のタイミングの差を表すモデル、又は線形割合で増大又は減少する一連のタイミングの差を表すモデル、又は値が突然変化するものを含む一連のタイミングの差を表すモデルから選択しても良く、そして選択されたモデルのパラメータは選択されたモデルの出力と過去の相対的ビデオタイミングの差を最小にするように導出される;
目的地オーディオ内容及び参照オーディオ内容の間に見出された一致の信頼性の程度を表すオーディオ‐一致の信頼性の基準(video-match confidence measure)を、過去の相対的オーディオタイミングの差を分析し、そして過去の相対的オーディオタイミングの差を最も良く表す予測モデルを選択することにより算出し、ここでモデルは、一定である一連のタイミングの差を表すモデル、又は線形割合で増大又は減少する一連のタイミングの差を表すモデル、又は値が突然変化する一連のタイミングの差を表すモデルから選択しても良く、そして選択されたモデルのパラメータは選択されたモデルの出力と過去の相対的オーディオタイミングの差を最小にするように導出される;
選択されたモデル及びそのパラメータを選択してバッファーに保存し;
ビデオ−一致の信頼性の基準及びオーディオ−一致の信頼性の基準から、同期誤差中の信頼性の基準を導出し;
その選択されたモデルの最も高い信頼性の基準をもつモデル、バッファーに保存されたモデルパラメータの平均から導出されたモデル、またはバッファーに最もしばしば保存されるモデルを用いて、信頼性の基準が閾値より小さい場合の間隔の同期誤差を予測し;及び
同期誤差を表示し、又は同期誤差を、目的地ビデオ及び目的地オーディオの一つ又は両方を遅延させてそれらを適正な時間アラインメントになるようにすることを含む方法。 - 請求項1又は2に記載の方法であって、
同期誤差の統計モデルから同期誤差の確率を導出し;及び
保存されたモデルのバッファーを用いて同期誤差の確率が閾値より低い間隔の同期誤差を予測すること
を含む方法。 - 請求項1又は2に記載の方法であって、
選択されたモデルの信頼性の基準を算出し;及び
選択されたモデルの選択とともに、選択されたモデルの信頼性の基準をバッファーに保存することを含む方法。 - 選択されたモデルの信頼性の基準が閾値より大きい場合、選択されたモデルを選択しバッファーに保存することを含む、請求項4に記載の方法。
- 請求項2に記載の方法であって、
ビデオタイミングの差の加重合計を算出し、ビデオタイミングの差は各ビデオ−一致の信頼性の基準により加重され;
オーディオタイミングの差の加重合計を算出し、オーディオタイミングの差は各オーディオ−一致信頼性の基準により加重され;
ビデオタイミングの差の加重合計及びオーディオタイミングの差の加重合計から同期誤差を算出する、
ことを含む方法。 - 請求項1乃至6の何れか1項に記載の方法のステップを実施する手段を含む装置。
- 指示プログラムを伝送する媒体であり、前記媒体は、請求項1乃至6の何れか1項に記載の方法を実行するための指示プログラムを実行する装置により読み取られる、媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US18965908P | 2008-08-21 | 2008-08-21 | |
US61/189,659 | 2008-08-21 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011523905A Division JP5602138B2 (ja) | 2008-08-21 | 2009-08-17 | オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013255249A true JP2013255249A (ja) | 2013-12-19 |
JP5698318B2 JP5698318B2 (ja) | 2015-04-08 |
Family
ID=41210921
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011523905A Expired - Fee Related JP5602138B2 (ja) | 2008-08-21 | 2009-08-17 | オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測 |
JP2013148835A Expired - Fee Related JP5698318B2 (ja) | 2008-08-21 | 2013-07-17 | オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011523905A Expired - Fee Related JP5602138B2 (ja) | 2008-08-21 | 2009-08-17 | オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8400566B2 (ja) |
EP (1) | EP2327213B1 (ja) |
JP (2) | JP5602138B2 (ja) |
CN (1) | CN102177726B (ja) |
WO (1) | WO2010021966A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019156389A1 (ko) * | 2018-02-06 | 2019-08-15 | 삼성전자주식회사 | 디스플레이 장치 및 이를 포함하는 오디오 시스템 |
Families Citing this family (79)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6205249B1 (en) | 1998-04-02 | 2001-03-20 | Scott A. Moskowitz | Multiple transform utilization and applications for secure digital watermarking |
US7664263B2 (en) | 1998-03-24 | 2010-02-16 | Moskowitz Scott A | Method for combining transfer functions with predetermined key creation |
US7346472B1 (en) | 2000-09-07 | 2008-03-18 | Blue Spike, Inc. | Method and device for monitoring and analyzing signals |
US7177429B2 (en) | 2000-12-07 | 2007-02-13 | Blue Spike, Inc. | System and methods for permitting open access to data objects and for securing data within the data objects |
US7159116B2 (en) | 1999-12-07 | 2007-01-02 | Blue Spike, Inc. | Systems, methods and devices for trusted transactions |
US7664264B2 (en) | 1999-03-24 | 2010-02-16 | Blue Spike, Inc. | Utilizing data reduction in steganographic and cryptographic systems |
US7475246B1 (en) | 1999-08-04 | 2009-01-06 | Blue Spike, Inc. | Secure personal content server |
US7287275B2 (en) | 2002-04-17 | 2007-10-23 | Moskowitz Scott A | Methods, systems and devices for packet watermarking and efficient provisioning of bandwidth |
EP2642483B1 (en) | 2006-11-30 | 2015-01-07 | Dolby Laboratories Licensing Corporation | Extracting features of video&audio signal content to provide reliable identification of the signals |
US8433175B2 (en) * | 2008-10-28 | 2013-04-30 | Yahoo! Inc. | Video comparing using fingerprint representations |
KR101516850B1 (ko) * | 2008-12-10 | 2015-05-04 | 뮤비 테크놀로지스 피티이 엘티디. | 여러 개 비디오 클립을 인터커팅하여 새로운 비디오 제작 생성기 |
CN102292769B (zh) * | 2009-02-13 | 2012-12-19 | 华为技术有限公司 | 一种立体声编码方法和装置 |
CN102067595B (zh) * | 2009-03-16 | 2013-07-24 | 松下电器产业株式会社 | 图像声音通信装置以及其通信方法 |
US20110052136A1 (en) * | 2009-09-01 | 2011-03-03 | Video Clarity, Inc. | Pattern-based monitoring of media synchronization |
US8436939B2 (en) * | 2009-10-25 | 2013-05-07 | Tektronix, Inc. | AV delay measurement and correction via signature curves |
US8860883B2 (en) * | 2009-11-30 | 2014-10-14 | Miranda Technologies Partnership | Method and apparatus for providing signatures of audio/video signals and for making use thereof |
DE102010029030A1 (de) * | 2010-05-17 | 2012-03-01 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren und Vorrichtung zur Verarbeitung von Daten in einem Fahrzeug |
US8384827B2 (en) | 2010-06-02 | 2013-02-26 | Disney Enterprises, Inc. | System and method for in-band A/V timing measurement of serial digital video signals |
US8300147B2 (en) * | 2010-06-02 | 2012-10-30 | Disney Enterprises, Inc. | System and method for in-band A/V timing measurement of serial digital video signals |
US8531603B2 (en) * | 2010-06-02 | 2013-09-10 | Disney Enterprises, Inc. | System and method for in-band A/V timing measurement of serial digital video signals |
CN102271278B (zh) * | 2010-06-02 | 2014-03-26 | 迪士尼企业公司 | 用于串行数字视频信号的带内音频/视频定时测量的系统和方法 |
EP2619989A1 (en) * | 2010-09-22 | 2013-07-31 | Thomson Licensing | Methods for processing multimedia flows and corresponding devices |
US9565426B2 (en) * | 2010-11-12 | 2017-02-07 | At&T Intellectual Property I, L.P. | Lip sync error detection and correction |
US9075806B2 (en) | 2011-02-22 | 2015-07-07 | Dolby Laboratories Licensing Corporation | Alignment and re-association of metadata for media streams within a computing device |
JP2012244413A (ja) * | 2011-05-19 | 2012-12-10 | Nippon Hoso Kyokai <Nhk> | 信号監視装置およびプログラム、信号補正装置およびプログラム |
US8775167B2 (en) | 2011-09-26 | 2014-07-08 | Adobe Systems Incorporated | Noise-robust template matching |
US8924345B2 (en) | 2011-09-26 | 2014-12-30 | Adobe Systems Incorporated | Clustering and synchronizing content |
US9479762B2 (en) * | 2011-12-05 | 2016-10-25 | Tektronix, Inc. | Stereoscopic video temporal frame offset measurement |
US8625027B2 (en) * | 2011-12-27 | 2014-01-07 | Home Box Office, Inc. | System and method for verification of media content synchronization |
KR20140131333A (ko) * | 2012-02-29 | 2014-11-12 | 알트넷, 인크. | 스트림 인식 및 필터링 |
WO2013170092A1 (en) * | 2012-05-09 | 2013-11-14 | Markus Iseli | Method for synchronizing disparate content files |
US9553756B2 (en) * | 2012-06-01 | 2017-01-24 | Koninklijke Kpn N.V. | Fingerprint-based inter-destination media synchronization |
US8938089B1 (en) * | 2012-06-26 | 2015-01-20 | Google Inc. | Detection of inactive broadcasts during live stream ingestion |
US8989503B2 (en) * | 2012-08-03 | 2015-03-24 | Kodak Alaris Inc. | Identifying scene boundaries using group sparsity analysis |
US10158927B1 (en) * | 2012-09-05 | 2018-12-18 | Google Llc | Systems and methods for detecting audio-video synchronization using timestamps |
US9401153B2 (en) | 2012-10-15 | 2016-07-26 | Digimarc Corporation | Multi-mode audio recognition and auxiliary data encoding and decoding |
US9305559B2 (en) | 2012-10-15 | 2016-04-05 | Digimarc Corporation | Audio watermark encoding with reversing polarity and pairwise embedding |
US9992729B2 (en) * | 2012-10-22 | 2018-06-05 | The Nielsen Company (Us), Llc | Systems and methods for wirelessly modifying detection characteristics of portable devices |
US20140114456A1 (en) * | 2012-10-22 | 2014-04-24 | Arbitron Inc. | Methods and Systems for Clock Correction and/or Synchronization for Audio Media Measurement Systems |
US10638221B2 (en) * | 2012-11-13 | 2020-04-28 | Adobe Inc. | Time interval sound alignment |
US9201580B2 (en) | 2012-11-13 | 2015-12-01 | Adobe Systems Incorporated | Sound alignment user interface |
US9355649B2 (en) | 2012-11-13 | 2016-05-31 | Adobe Systems Incorporated | Sound alignment using timing information |
US10249321B2 (en) | 2012-11-20 | 2019-04-02 | Adobe Inc. | Sound rate modification |
WO2014083380A1 (en) * | 2012-11-27 | 2014-06-05 | Nokia Corporation | A shared audio scene apparatus |
US9451304B2 (en) | 2012-11-29 | 2016-09-20 | Adobe Systems Incorporated | Sound feature priority alignment |
CN103888813A (zh) * | 2012-12-21 | 2014-06-25 | 北京计算机技术及应用研究所 | 一种音视频同步的实现方法及系统 |
US8925003B2 (en) * | 2013-03-08 | 2014-12-30 | Silicon Image, Inc. | Mechanism for facilitating synchronization of audio and video between multiple media devices |
JP2015037212A (ja) * | 2013-08-12 | 2015-02-23 | オリンパスイメージング株式会社 | 情報処理装置、撮影機器及び情報処理方法 |
US9641303B2 (en) * | 2013-09-09 | 2017-05-02 | Huawei Technologies Co., Ltd. | System and method for increasing low density signature space |
JP6349977B2 (ja) * | 2013-10-21 | 2018-07-04 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
US9723180B2 (en) * | 2014-01-08 | 2017-08-01 | Vizio Inc | Device and method for correcting lip sync problems on display devices |
US9930375B2 (en) * | 2014-06-16 | 2018-03-27 | Nexidia Inc. | Media asset management |
CN106233747B (zh) * | 2014-07-17 | 2019-07-09 | 松下知识产权经营株式会社 | 辨识数据生成装置及方法、图像辨识装置以及记录介质 |
US9747656B2 (en) | 2015-01-22 | 2017-08-29 | Digimarc Corporation | Differential modulation for robust signaling and synchronization |
WO2017075493A1 (en) * | 2015-10-28 | 2017-05-04 | Ustudio, Inc. | Video frame difference engine |
CN105469783B (zh) * | 2015-11-12 | 2019-06-21 | 深圳Tcl数字技术有限公司 | 音频识别方法及装置 |
KR102560635B1 (ko) * | 2015-12-28 | 2023-07-28 | 삼성전자주식회사 | 컨텐트 인식 장치 및 그 동작 방법 |
US10015612B2 (en) | 2016-05-25 | 2018-07-03 | Dolby Laboratories Licensing Corporation | Measurement, verification and correction of time alignment of multiple audio channels and associated metadata |
US9996769B2 (en) | 2016-06-08 | 2018-06-12 | International Business Machines Corporation | Detecting usage of copyrighted video content using object recognition |
US10726269B2 (en) * | 2017-07-20 | 2020-07-28 | Verizon Patent And Licensing, Inc. | Aligning advertisements in video streams |
US11284062B2 (en) * | 2017-09-05 | 2022-03-22 | Texas Instruments Incorporated | Automotive display validation |
JP6926856B2 (ja) * | 2017-09-07 | 2021-08-25 | コニカミノルタ株式会社 | 放射線画像処理装置、プログラム及び放射線画像処理方法 |
CN108055566A (zh) * | 2017-12-26 | 2018-05-18 | 郑州云海信息技术有限公司 | 音视频同步的方法、装置、设备及计算机可读存储介质 |
US10810471B1 (en) * | 2018-03-22 | 2020-10-20 | Amazon Technologies, Inc. | Intelligent coalescing of media streams |
FR3085785B1 (fr) * | 2018-09-07 | 2021-05-14 | Gracenote Inc | Procedes et appareil pour generer une empreinte numerique d'un signal audio par voie de normalisation |
EP3791568A4 (en) * | 2018-10-03 | 2022-02-23 | Videolocalize Inc. | PIECE-BY-PIECE HYBRID VIDEO AND AUDIO SYNCHRONIZATION |
CN109829432B (zh) * | 2019-01-31 | 2020-11-20 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
US11277461B2 (en) * | 2019-12-18 | 2022-03-15 | The Nielsen Company (Us), Llc | Methods and apparatus to monitor streaming media |
US11302095B2 (en) | 2020-01-09 | 2022-04-12 | International Business Machines Corporation | Cognitive motion picture analysis |
IL295544A (en) * | 2020-02-13 | 2022-10-01 | Ssimwave Inc | Distributed measurement of latency and synchronization delay between audio/video streams |
US11032415B1 (en) * | 2020-03-05 | 2021-06-08 | Mitel Networks Corporation | System and method for audio content verification |
US20240038258A1 (en) | 2020-08-18 | 2024-02-01 | Dolby Laboratories Licensing Corporation | Audio content identification |
CN112435653A (zh) * | 2020-10-14 | 2021-03-02 | 北京地平线机器人技术研发有限公司 | 语音识别方法、装置和电子设备 |
US11336935B1 (en) | 2020-11-25 | 2022-05-17 | Amazon Technologies, Inc. | Detecting audio-video desyncrhonization |
US11798577B2 (en) | 2021-03-04 | 2023-10-24 | Gracenote, Inc. | Methods and apparatus to fingerprint an audio signal |
US11659217B1 (en) | 2021-03-29 | 2023-05-23 | Amazon Technologies, Inc. | Event based audio-video sync detection |
EP4105796A1 (en) * | 2021-06-18 | 2022-12-21 | My Voice AI Limited | Methods for improving the performance of neural networks used for biometric authentication |
CN113782041B (zh) * | 2021-09-14 | 2023-08-15 | 随锐科技集团股份有限公司 | 一种基于音频变频域的嵌入和定位水印的方法 |
CN115937441B (zh) * | 2022-11-08 | 2023-09-05 | 泰瑞数创科技(北京)股份有限公司 | 低带宽环境下的三维协同标绘方法及其系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006102991A1 (de) * | 2005-03-30 | 2006-10-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und verfahren zum erzeugen eines datenstroms und zum erzeugen einer multikanal-darstellung |
JP2006528859A (ja) * | 2003-07-25 | 2006-12-21 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオとビデオを同期させるための指紋生成及び検出の方法及び装置 |
WO2008066930A2 (en) * | 2006-11-30 | 2008-06-05 | Dolby Laboratories Licensing Corporation | Extracting features of video & audio signal content to provide reliable identification of the signals |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5446492A (en) * | 1993-01-19 | 1995-08-29 | Wolf; Stephen | Perception-based video quality measurement system |
US5430485A (en) * | 1993-09-30 | 1995-07-04 | Thomson Consumer Electronics, Inc. | Audio/video synchronization in a digital transmission system |
US6806909B1 (en) * | 1997-03-03 | 2004-10-19 | Koninklijke Philips Electronics N.V. | Seamless splicing of MPEG-2 multimedia data streams |
US6654933B1 (en) * | 1999-09-21 | 2003-11-25 | Kasenna, Inc. | System and method for media stream indexing |
US6101591A (en) * | 1998-03-25 | 2000-08-08 | International Business Machines Corporation | Method and system for selectively independently or simultaneously updating multiple system time clocks in an MPEG system |
US6480902B1 (en) * | 1999-05-25 | 2002-11-12 | Institute For Information Industry | Intermedia synchronization system for communicating multimedia data in a computer network |
JP4723171B2 (ja) * | 2001-02-12 | 2011-07-13 | グレースノート インク | マルチメディア・コンテンツのハッシュの生成および突合せ |
US6956871B2 (en) | 2002-04-19 | 2005-10-18 | Thomson Licensing | Apparatus and method for synchronization of audio and video streams |
DE10354973B3 (de) * | 2003-11-25 | 2005-06-16 | Rundfunk Berlin-Brandenburg (RBB), Anstalt des öffentlichen Rechts | Verfahren zum Ermitteln von Laufzeitunterschieden zwischen Bild- und Tonsignalen auf Fernseh-Übertragungsstrecken |
EP1729173A3 (en) * | 2005-05-27 | 2007-01-03 | Telegraf ApS | System for generating synchronized add-on information |
CN101248679B (zh) * | 2005-09-06 | 2010-07-14 | 日本电信电话株式会社 | 视频通信品质推测装置、方法 |
US8363161B2 (en) * | 2006-05-26 | 2013-01-29 | Broadcom Corporation | Systems, methods, and apparatus for synchronization of audio and video signals |
-
2009
- 2009-08-17 EP EP09791564.9A patent/EP2327213B1/en not_active Not-in-force
- 2009-08-17 WO PCT/US2009/053989 patent/WO2010021966A1/en active Application Filing
- 2009-08-17 JP JP2011523905A patent/JP5602138B2/ja not_active Expired - Fee Related
- 2009-08-17 US US13/059,468 patent/US8400566B2/en not_active Expired - Fee Related
- 2009-08-17 CN CN200980139527.XA patent/CN102177726B/zh not_active Expired - Fee Related
-
2013
- 2013-07-17 JP JP2013148835A patent/JP5698318B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006528859A (ja) * | 2003-07-25 | 2006-12-21 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオとビデオを同期させるための指紋生成及び検出の方法及び装置 |
WO2006102991A1 (de) * | 2005-03-30 | 2006-10-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und verfahren zum erzeugen eines datenstroms und zum erzeugen einer multikanal-darstellung |
WO2008066930A2 (en) * | 2006-11-30 | 2008-06-05 | Dolby Laboratories Licensing Corporation | Extracting features of video & audio signal content to provide reliable identification of the signals |
Non-Patent Citations (1)
Title |
---|
JPN5011009415; Radhakrishnan, R. et al: 'Audio and Video Signature for Synchronization' Proc. of IEEE Int. Conf. on Multimedia and Expo (ICME 2008) , 20080623, P.1549-1552, IEEE * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019156389A1 (ko) * | 2018-02-06 | 2019-08-15 | 삼성전자주식회사 | 디스플레이 장치 및 이를 포함하는 오디오 시스템 |
Also Published As
Publication number | Publication date |
---|---|
US8400566B2 (en) | 2013-03-19 |
WO2010021966A1 (en) | 2010-02-25 |
JP5698318B2 (ja) | 2015-04-08 |
CN102177726A (zh) | 2011-09-07 |
JP2012500584A (ja) | 2012-01-05 |
EP2327213B1 (en) | 2014-10-08 |
EP2327213A1 (en) | 2011-06-01 |
CN102177726B (zh) | 2014-12-03 |
JP5602138B2 (ja) | 2014-10-08 |
US20110261257A1 (en) | 2011-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5698318B2 (ja) | オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測 | |
US10785547B2 (en) | System and method for synchronizing metadata with audiovisual content | |
JP5060565B2 (ja) | 信号の信頼できる識別をするためのビデオ及びオーディオ信号内容の特徴の抽出 | |
JP4723171B2 (ja) | マルチメディア・コンテンツのハッシュの生成および突合せ | |
KR20070034462A (ko) | 비디오-오디오 동기화 | |
US20210084091A1 (en) | Use of In-Band Metadata as Basis to Access Reference Fingerprints to Facilitate Content-Related Action | |
US11902632B2 (en) | Timely addition of human-perceptible audio to mask an audio watermark | |
KR101741747B1 (ko) | 실시간 광고 삽입이 가능한 영상 광고 처리 장치 및 방법 | |
US11689751B2 (en) | Method and system for re-uniting metadata with media-stream content at a media client, to facilitate action by the media client | |
JP2023105359A (ja) | コンテンツ配信装置、受信装置及びプログラム | |
Terry et al. | Detection and correction of lip-sync errors using audio and video fingerprints |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140408 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140625 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140805 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141205 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20141216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5698318 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |