JP5602138B2 - オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測 - Google Patents
オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測 Download PDFInfo
- Publication number
- JP5602138B2 JP5602138B2 JP2011523905A JP2011523905A JP5602138B2 JP 5602138 B2 JP5602138 B2 JP 5602138B2 JP 2011523905 A JP2011523905 A JP 2011523905A JP 2011523905 A JP2011523905 A JP 2011523905A JP 5602138 B2 JP5602138 B2 JP 5602138B2
- Authority
- JP
- Japan
- Prior art keywords
- video
- audio
- destination
- content
- signature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title description 10
- 238000005457 optimization Methods 0.000 title 1
- 238000000034 method Methods 0.000 claims description 97
- 230000005236 sound signal Effects 0.000 claims description 66
- 230000002123 temporal effect Effects 0.000 claims description 22
- 230000004044 response Effects 0.000 claims description 17
- 230000008859 change Effects 0.000 claims description 11
- 230000007423 decrease Effects 0.000 claims description 6
- 238000013179 statistical model Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 description 55
- 230000008569 process Effects 0.000 description 38
- 230000001360 synchronised effect Effects 0.000 description 37
- 239000000543 intermediate Substances 0.000 description 36
- 238000012545 processing Methods 0.000 description 35
- 230000003595 spectral effect Effects 0.000 description 29
- 238000012986 modification Methods 0.000 description 26
- 230000004048 modification Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 21
- 238000012360 testing method Methods 0.000 description 15
- 230000009466 transformation Effects 0.000 description 15
- 230000000694 effects Effects 0.000 description 14
- 238000009826 distribution Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 238000009966 trimming Methods 0.000 description 13
- 238000001228 spectrum Methods 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 9
- 230000003111 delayed effect Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 9
- 230000033001 locomotion Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 238000012937 correction Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000001934 delay Effects 0.000 description 7
- 238000000844 transformation Methods 0.000 description 7
- 238000005259 measurement Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000000750 progressive effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000009740 moulding (composite fabrication) Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- IBBLRJGOOANPTQ-JKVLGAQCSA-N quinapril hydrochloride Chemical compound Cl.C([C@@H](C(=O)OCC)N[C@@H](C)C(=O)N1[C@@H](CC2=CC=CC=C2C1)C(O)=O)CC1=CC=CC=C1 IBBLRJGOOANPTQ-JKVLGAQCSA-N 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000013215 result calculation Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4341—Demultiplexing of audio and video streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234318—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into objects, e.g. MPEG-4 objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/2368—Multiplexing of audio and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/242—Synchronization processes, e.g. processing of PCR [Program Clock References]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4305—Synchronising client clock from received content stream, e.g. locking decoder clock with encoder clock, extraction of the PCR packets
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43072—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/04—Synchronising
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
本出願は2008年8月21日に出願された米国仮出願番号61/189,659に基づく優先権を主張するものであり、本出願の内容は参照により本明細書に組み入れられる。
概観
図1及び2は本発明の特徴を組み入れた代表的システムの略ブロック図であり、同システムはビデオ及びオ−ディオ信号の間の同期を検出しそして再確立するために使用することができる。これらの各システムは同期署名構築を生成し、分配し及び適用する機能を組み入れ、この構築はビデオ及びオ−ディオ内容、及びこの内容の間の時間アラインメントを表すデータの論理構造である。この構築は必要な情報を伝送することの出来る実質的な任意のデータ構造によって実施しても良い。これらの機能をここで紹介し、以下でより詳細に説明する。
図1に示すリアルタイムシステムはリアルタイムに同期署名構築を生成し及び分配する。本発明のリアルタイムシステムで実施をするためには、非リアルタイムシステムで使用で考えられるものより低い、計算の複雑さ、メモリー及びバッファー要求での処理を必要とすることもある。図1を参照すると、A/V同期署名生成器はビデオ及びオ−ディオ信号の内容を検討し、分析し、ビデオ及びオ−ディオ署名を生成するために一以上の内容の特徴を抽出する。これらの2つの署名は同期署名構築に組み立てられる。署名生成器はリアルタイムでビデオ及びオ−ディオ信号を受領し、ビデオ及びオ−ディオ信号は続いてリアルタイムで分配される。したがって、署名生成器はリアルタイムで同期署名構築を生成する。殆どの実施の態様において、A/V同期署名生成器により検知されたビデオ及びオ−ディオ信号はお互いに所望の時間アラインメントを持つと予想されるが、これは原則として必要とされない。もし望むならば、A/V同期署名生成器のある実施の態様においては、実際の時間アラインメントの同期署名構築での明確な指標を含むことによりビデオとオ−ディオ信号の間のアラインメントでの知られたシフトを説明することができる。この明確な指標は、同期署名構築が生成された場合に恰も2つの信号が所望のアラインメントを持っている様に、同じ結果を達成するために必要な、あらゆる調整を行う続く処理において使用することができる。もしビデオ信号及びオ−ディオ信号が適正なアラインメントにあると判明している場合、明確な情報は必要でなく、そして2つの信号の相対的時間アラインメントを暗示的に伝送することができる。
図2に示す非リアルタイムシステムは、非リアルタイムにビデオ及びオ−ディオ信号を分配するファイルベースシステムの例であり、リアルタイムに同期署名構築を生成し、そして分配する必要はない。その結果この非リアルタイムシステムの本発明の実施では、リアルタイムで実際に用いることの出来るものより極めてより高度の、複雑な計算、メモリー及びバッファー要求を持つプロセスで使用することができる。
図3は同期される参照ビデオ信号及び参照オ−ディオ信号の特徴を抽出することにより同期署名構築を生成する代表的機器を示す。同期署名構築は参照ビデオ信号の一以上の特徴を表す一以上の参照ビデオ署名、参照オ−ディオ信号の一以上の特徴を表す一以上の参照オ−ディオ署名、及び参照署名を生成するために使用されるビデオ及びオ−ディオ特徴の相対的時間アラインメントの指標を含む。
一以上のビデオ署名が、ビデオ内容から抽出される一以上のビデオ特徴に反応して生成される。一以上のオ−ディオ署名がオ−ディオ内容から抽出される一以上のオ−ディオ特徴に反応して生成される。ビデオ及びオ−ディオ署名は、その内容と異なる署名を生成することのできる実質的に任意のプロセス又は変換を用いる内容から生成され又はそれに由来するものであっても良い。署名を表すために必要なデータ量は、その内容を表すために必要なデータ量よりも少ない。署名は、好ましくは、署名を表すために必要なデータ量が、対応する参照及び目的地内容を十分に高い信頼性で関連付けるために求められる以上でない程度に生成されるのが良い。
図4はビデオ署名発生器100の好ましい実施の態様の略ブロック図である。相違度測定プロセッサー120は一連のビデオフレーム内での2つのビデオフレーム1a, 1bの内容を検査して、2つのフレームの全て又はその一部の間の一以上の相違の程度を表す中間値を生成する。もし各ビデオフレームの内容が例えば、個々の画像要素又はピクセルの強度を表す配列で示される場合、中間値はピクセル群の強度の平均又は標準偏差値の間の差の配列であっても良い。ビデオ署名プロセッサー170がハッシュ関数を中間値に適用し、ビデオフレーム内容を同定するビデオ署名(SV) 199bを生成する。
相違測定プロセッサー120の幾つかの代表的な例を図5A〜5Cに示す。図5Aを参照すると、成分122aはビデオフレーム1aの一以上のピクセルグループを形成し、成分124aはこれらのピクセルグループ各々から一以上の特徴を抽出し、各特徴を表す値Rを計算する。成分122bはビデオフレーム1bの一以上のピクセルグループを形成し、成分124bはこれらのピクセルグループの各々から一以上の特徴を抽出し、各特徴を表す値Rを計算する。成分126は、2つのビデオフレーム1a, 1b中の、対応する特徴及び対応するピクセルグループの、値Rの間の相違度を表す中間値Qを計算する。
成分122a及び122bは、所望の実質的に任意の方法でピクセルグループを形成しても良く、以下に幾つかのその代替例を説明する。所望ならば、ビデオ署名を生成するために使用されるビデオフレー中の情報は、画像の端又はコーナーにレターボックス又はグラフィックスを追加する任意のプロセスにより起きる変化を排除するために、全体の画像の一部に限定しても良い。これは種々の方法で実行しても良く、例えば、特徴の抽出に先立ち画像をトリミングすることにより、計算された後に抽出された特徴を表す値Rの配列をトリミングすることにより、又は値Rから算出された相違値の配列をトリミングすることによる等である。好ましくはこれは特徴の抽出前に画像にトリミングすることで実現するのが良い。
成分124a及び124bは、各ピクセルグループから一以上の特徴を抽出し、そして各特徴を表す値Rを算出する。もし各ビデオフレームが単色画像を伝送する場合、特徴は、個々のピクセルの強度を表すデータeから抽出しても良い。もし各ビデオフレームが例えば、赤、緑及び青(RGB)により表されるピクセルを含む色彩画像を伝送する場合は、個々の特徴は赤、緑及び青のピクセル成分の各々を表すデータeから抽出しても良い。代替的に、特徴は、赤、緑及び青の成分を表すデータに由来のピクセル輝度又は明るさを表すデータeから抽出しても良い。抽出される一つの特徴は平均ピクセル強度であっても良い。この特徴を表す値RAVEは以下の式から得られる:
RAVE(k, l)=ピクセル(k, l)グループ中のピクセルの平均強度
e(i,j) =グループ内のピクセル (i,j)の強度;
GX= 多くのピクセルで表わされるピクセルグループの幅
GY=多くのピクセルで表わされるピクセルグループの高さ
K =多くのピクセルで表わされる画像の水平分解能
L =多くのピクセルで表わされる画像の垂直分解能
抽出される他の特徴はピクセル強度の標準偏差である。代替的に、標準偏差の分散又は二乗を用いても良い。標準偏差を表す値RSDは以下の式から得ることができる:
抽出される他の特徴はピクセル強度のヒストグラムである。この特徴を表す一組の値RHISTは、可能な強度の範囲内の各強度について特定の強度を持つピクセルの数を数えることにより得ることができる。
成分126は相違Eの度合を種々の方法で表す中間値Qを算出することができる。測定値の選択は本発明にとり原則として決定的でないが、成分124a及び124bにより抽出される特徴によってはより良く機能することもある。経験的に見て、適した選択をする必要がある。しかし、以下に述べる2つの測定値が広い応用範囲において良い結果を生むことが分かった。
E(k, l, f1, f2)=ピクセルグループ(k, l)中のフレームf1及びf2の間の相違
R(k, l, x)=フレームxのピクセルグループ(k, l)の抽出された特徴を表す値
もし、抽出された特徴がスペクトル特徴を表すRSPECTRUM中の振幅の様な2以上の要素を持つ値により表される場合、相違の度合は、2つの異なるフレームの対応するピクセルグループの対応する特徴を表す値R中の要素の間の差の絶対値の合計から算出しても良い。この度合は以下の式より算出しても良い:
E(f1, f2)=フレームf1及びf2の間の複合相違度
K及びlの合計の限界は所望のグループを含むように選択される。この特定の例では、値Rは一以上の要素を含むと想定される。もし、値が一つの要素であれば、zより大きい合計は省略される。
平均ピクセル強度の間の差が署名生成に用いられる相違度測定のみである場合は、相違度合測定プロセッサー120は図5B及び5Cに示す様に実施しても良い。これらの実施の態様では、ピクセル強度又は平均強度はビデオフレーム1a及び1bから抽出され、抽出された特徴の間の相違の度合が算出され、そして相違の度合は続く署名生成のためのグループに形成される。図5B及び5Cに示す代表的な実施の態様では、ビデオ内容のフレームは個々のピクセルの配列により表され、相違度測定プロセッサー120は、微分要素の配列Δを各々含む差分画像を2つのビデオフレームの対応するピクセルの間の差を計算することによって得る。もし各ビデオフレームが赤、緑及び青(RGB)値により示されるピクセルを含むカラー画像を伝送する場合、微分要素は対応するピクセルについての赤、緑及び青(RGB)値の間の差から算出しても良い。好ましくは、微分要素は赤、緑及び青(RGB)値に由来する対応するピクセルの輝度又は明るさの間の絶対的差から算出するのが良い。もし、各ビデオフレームが単色画像を伝送する場合は、微分要素は対応するピクセルの強度の間の差から算出しても良い。
Q(k, l) =低分解能画像中の中間値
GX=要素の数で表わされる微分要素グループの幅
GY=要素の数で表わされる微分要素グループの高さ
K=低分解能画像の水平分解能
L=低分解能画像の垂直分解能
Δ(i, j)=微分要素
グループの水平サイズGXは以下の様に選択される。すなわち、K・GX= RHとなる様に、及びグループの垂直サイズGYはL・GY = RVとなる様に選択され、式中RH及びRVは差分画像の水平及び垂直分解能である。上に説明した120 x 160の分解能を持つダウンサンプルされた差分画像中の要素を生成する代表的な実施の態様では、グループのある好適なサイズは8 x 8ピクセルであり、これは120/8 x 160/8 = 15 x 20の分解能を持つ低分解能画像を提供する。より分解能の高い微分要素よりも、ビデオ署名を生成する低分解能中間値Qを用いることにより、生成されたビデオ署名はビデオ信号内容の詳細を変えるプロセスに対して、より感度は低いが平均的強度を維持する。
以下の段落に記載のビデオ署名プロセッサー170の実施の態様では、図6Aに示す値Rの配列又は図5Cに示すプロセッサーに関連する上記の微分要素ΔのK x L配列から得られる中間値QのK x L配列からビデオ署名を生成する。
RNG =ランダム数生成器の出力、及び
Pn(上付きバー)=各暫定マトリクスのRNGにより生成される数の平均値
生成器RNGは[0, 1]の範囲に均一に分布した乱数値又は疑似乱数値を生成する。生成器の最初の状態はハッシュキーによって初期値に設定しても良く、それによってハッシュ関数及び生成されたビデオ署名を暗号学的により安全にする。その一組のNハッシュビットはまず、暫定値Qを以下の式で表わされるNベースマトリクスの各値に投影することにより得られる。
ハッシュビットは各投影値を全ての投影の中央値と比べそして、もし投射が閾値に等しいか又はそれを超える場合は、ハッシュビット第一の値に設定し、もし投射が閾値より小さい場合は、ハッシュビットを第二の値に設定することで得られる。これは次の様に表すことができる:
sgn(x)=1, x≧0の場合
H(上付きバー)=全ての投射Hnの中央値
b) オ−ディオ署名生成器
図7はオ−ディオ署名生成器200の好ましい実施の態様の略ブロック図である。時間周波数表示プロセッサー210は一連のセグメント内のオ−ディオセグメント2bの内容を調査してセグメント中のオ−ディオ内容の全ての又はその一部のスペクトル成分を表すスペクトル値を生成する。もし、例えば、セグメントのオ−ディオ内容が個々のサンプルの振幅を表す値で表示される場合、スペクトル値は時間領域から周波数領域への変換ブロックにより生成される時間周波数表示内の一組の係数であっても良い。中間値プロセッサー250はグループのスペクトル値を調査して各グループのスペクトル値の強度を導出する。オ−ディオ署名生成器270は中間値にハッシュ関数を適用してオ−ディオセグメントの内容を同定するオ−ディオ署名(SA)299bを生成する。
オ−ディオ信号のセグメントが個々のサンプルの増幅を表す値により表示される代表的実施の態様においては、時間周波数表示プロセッサー210は、時間領域から周波数領域変換を各セグメント中のオ−ディオサンプルの一連の重なるブロックに適用することにより生成される変換係数から一組のスペクトル値を得る。もし望むならば、スペクトル値は、オ−ディオ内容のスペクトルの形を変える任意のプロセスにより生成される変化を避けるために、オ−ディオ内容の全バンド帯域幅の一部のみに限定しても良い。例えば、限定された表示は、最低周波数及び最高周波数スペクトル成分を表す変換により生成されるこれらの変換係数を除外し、又は変換を適用する前にオ−ディオ内容をバンドパスフィルターろ過することにより得ても良い。
T=時間分解能又は各セグメント中のブロック数
LS=サンプル中の各セグメントの長さ
ZS=サンプル中の各ブロックの長さ
ZB=ブロックステップサイズ
周波数分解能は通常ブロックの長さ又はスペクトル値を生成するために使用される変換の長さにより決定される。ビデオ及びオ−ディオ内容を同期させる以下に議論するある応用例では、オ−ディオ内容は3つのビデオフレームの長さに等しいセグメントに分割される。あるテレビジョンでの応用では、3つのビデオフレームに亘る時間間隔は約100ミリ秒である。もしオ−ディオサンプルの周波数が48kHZとすると、オ−ディオセグメントの長さは4,800サンプルとなる。ブロックの長さは256サンプルとなる様に選択され、ブロックスステップサイズは32サンプルとなる様に選択される。これを実施するために、各オ−ディオセグメントはT= 142ブロックを持ち、したがって、時間周波数表示の時間分解能は142に等しくなる。256点高速フーリエ変換が129スペクトル値を生成するためにサンプルの各ブロックに適用される。したがって、時間周波数表示の周波数分解能は129に等しい。セグメントステップサイズは512サンプルとなる様に選択され、又はこれは10.7ミリ秒である。
中間値プロセッサ250はスペクトル値のグループを検査し、各グループのスペクトル値の強度から中間値を導出する。
Q(k, l) =低分解能表示の中間値
GF =多くの値で示すスペクトル値グループの幅
GT=多くのブロックで示すスペクトル値グループの長さ
K =低分解能表示の周波数分解能
L =低分解能表示の時間分解能、及び
S(i, j) =スペクトル値
グループのGFのサイズはK・GF = RTとなるよう、及びグループのGTのサイズはL・GT= RTとなる様に選択され、RF及びRTそれぞれ低分解能表示の周波数及び時間分解能である。上で検討した及び以下で検討するように代表的な実施の態様では、グループに適するある好適なサイズはGF=6及びGT=14であり、この場合129/6 x 142/14≒20 x 10の中間値の低分解能表示を与える。
オ−ディオ署名プロセッサ270は中間値QのK x L配列にハッシュ関数を適用して一組のNハッシュビットを生成する。これらのハッシュビットはオ−ディオセグメントの内容を同定するオ−ディオ署名(SA)を構成する。これはビデオ署名について上で議論したと同様の方法で行っても良い。
同期署名構築はまたビデオ及びオ−ディオ署名に対応するビデオ及びオ−ディオ信号の相対的時間アラインメントを伝送する。ビデオ及びオ−ディオ署名が生成される場合、もしビデオ及びオ−ディオ信号が同期するときは、これらの信号の相対的時間アラインメントは、あるデータ構築又は信号の対応するビデオ及びオ−ディオ署名を関連させることにより、黙示的に伝送することができる。相対的時間アラインメントはまた明示的に伝送することもできる。例えば、ビデオ及びオ−ディオ署名を生成するために特徴が抽出された場合、ある値が、オ−ディオ信号がビデオ信号に先行し又は遅れる量を表す同期署名構築中に含まれることもある。
第一の方法は特徴を抽出して、一定速度で同期署名構築を生成する。署名は、一定速度で送ることができるブロックに組み立てられる。もし特徴を選択することが採用される場合は、特徴が何ら抽出されないためブロックは署名を伝送しないか、又は一以上の特徴から導出された一以上の署名を伝送することがあり得る。
第2の方法は特徴を抽出して、そして、例えば、場面変化又はプログラムの境界(program boundary)の様な全体の画像での大きな変化、又は一過性のオ−ディオ特徴又は音声セグメント中の急激な変化の様な、ある事象に反応して署名を生成する。
第3の方法は一定速度及び上に述べた導出される事象の方法のハイブリッドである。この方法では、署名は一定速度で生成されるが、各署名は署名を生成するために使用される特徴の時間をより高い分解能で特定する情報を含む。例えば、ビデオ内容が一連のフレームに配置されており、関連するオ−ディオは一連のブロックで配置されている場合で、各ブロックは各フレームをアラインされ関連付けられているとする。この例では、ビデオ特徴は各ビデオフレームについて一度抽出され、そしてオ−ディオ特徴は各オ−ディオブロックについて一度抽出される。
図10は、ビデオ及びオ−ディオ信号が修飾され、そしてビデオ内容、オ−ディオ内容及び同期署名構築が遅延した場合のパス(経路)を含む代表的な分配ネットワークの概略図である。このネットワークは上で述べたリアルタイム及び非リアルタイムシステムに適用される。ネットワークの他の実施の態様においては、2以上の信号が処理され同じパスにより伝送される。ビデオ内容、オ−ディオ内容及び同期署名構築は、所望される実質的に任意の方法により分配することができる。例えば、ビデオ及びオ−ディオ内容及び同期署名構築は一つのデータ流に組み合わせられそして一緒に分配され、種々の組み合わせにより2つの流れにされることもあり、その流れの各々は独立に分配され、又は全てがお互いに独立に分配されても良い。
この場合、署名はフレームベースパケット(frame-based packet)の構成を取ることが必要であることもある。代替的に、同期署名構築はステガノグラフィー技術又は透かし(watermaking)技術によりビデオ信号と組み合わせても良く、これらの技術は署名を表すために使用することの出来るデータ量を極めて大きく制限することもある。
上で検討した同期署名構築は、上に述べたビデオ及びオ−ディオ信号の間の同期の訂正の様な種々の応用に用いることができる。これらの応用のいくつかの代替的な実施の態様について以下に説明する。
a) 概観
図11に示す装置は図1及び2に示すA/V(オ−ディオ/ビデ)同期検出器(A/V Sync Detector)に対応する。これは、図1及び2に示す、あるリアルタイム又は非リアルタイムソースより受領した目的地ビデオ内容及び目的地オ−ディオ内容の間の同期を検出しそして訂正するために使用しても良い。
ビデオ及びオ−ディオ内容の時間不整合(misalignment)を算出する一つの方法について以下の段落で説明する。
式中
HD[r,c] =署名r 及びcの間のハミング距離
F = 一組の参照署名中の署名数
U = 相関器関係の調査範囲
W= 署名の数により表される相関窓の長さ
ハミング距離は2つの署名が異なるビット位置の数に等しい。
一致の信頼性の基準は種々の本質的で算出することができる。そのいくつかの技術を以下の段落に示す。
EMAX =予測誤差を持つ最大期待差異。予測アラインメント誤差及び算出されたアラインメント誤差が等しい場合は、この一致の確度の基準は1に等しい。予測された不整合EP及び最も期近に計算された不整合E0の間の差異が最大期待差異EMAXに近づく場合、この程度は0に減少し、もしこの差異が最大期待差異を超える場合は、マイナスとなる。
一致の確度の基準を算出する他の技術は計算されたアラインメント誤差の確立を決定する統計モデルを用いる。このモデルはアラインメント誤差の理論的又は経験的に決定される統計に基づくこともある。もし統計モデルが算出されたアラインメント誤差があると思われることを示す場合は、その算出された誤差の確度の基準はより高い。
一致の確度の基準を算出する他の技術は信号‐内容モデルを用いて算出されたアラインメント誤差の確実性を決定する。このタイプのモデルは内容自体に当てはめても良く、署名を生成するために使用される内容から抽出される特徴又は署名自信に適用しても良い。
一致の確度の基準を算出する他の技術は、参照署名が生成された後に異なるプロセスにより修飾され又は「攻撃された」内容と正しい一致の可能性を予測するモデルを用いる。ある特徴に基づく署名は種々のタイプの修飾に反応する。攻撃‐予測モデルはどの種類の内容の修飾が起きたかを決定することを試みる。これは、参照及び目的地内容の両者が得られる場合は、参照及び目的地内容の間の差異を分析することにより、又は参照及び目的地署名の間の差異を分析することにより実施しても良い。ビデオ内容修飾の例にはトリミング、空間分解能の変化、フレームレートの変化、画像反転及び知覚的符号化を含む。オ−ディオ内容修飾の例には、帯域幅削減、サンプルレートの変化及び知覚的符号化を含む。
一致の確度の基準を算出する他の技術はオペレーター入力を用いることである。オペレーター入力は一致の確度を直接に特定することができるか又は上で議論したモデルの一つへの入力を提供することができる。例えば、オペレーター入力はビデオ内容中に運きが存在し又は存在しない、又はオ−ディオ内容中に話し言語が存在し又は存在しない様な内容の特徴を同定することができ、又は参照署名の生成から起こった信号の修飾又は攻撃タイプを特定することができる。他のタイプの入力も可能である。
一致の確度の基準を算出するための他の技術は伝達誤差の検出に基づく。もし矯正不可能な伝達誤差が目的地内容又は同期署名構築中に存在することが知られている場合、このデータに基づく一致は、これらの誤差を持たないデータに基づく一致よりも信頼性は低いであろう。一致の確度の基準は、伝達誤差が起きた場合はより低い値に設定することができる。もし多くの矯正不可能な誤差が起きた場合には、基準はさらに低い値に設定することができる。しかし、伝達誤差が存在しないこと自体は、一致の確度の基準が高くあるべきであるとすることを意味しない。伝達誤差の検出は、以下に述べる他の方法から算出される基準値にシーリングを設定するために使用してもよい。
一致の確度の基準は、同期の誤差及びその関連する信頼度の基準を算出するために使用することができる一以上のタイプのプロセス又はフィルタを用いて実施しても良い。一致の確度の基準は、算出された同期誤差中の短期の逸脱の効果を除外し又は最小化する種々のプロセスで使用しても良い。ある一つの代表的なプロセスは過去の同期誤差の3つのタイプのモデルを用いる。第1のタイプのモデルは一定である一連の誤差を表す。第2のタイプのモデルは線形速度(linear rate)で増大又は減少する一連の誤差を表す。第3のタイプのモデルは値が急激にジャンプし又は変化することを含む一連の誤差を表す。代表的なプロセスでは過去の同期誤差の間隔を分析し、そして3つのタイプのモデルのいずれが最もこの配列を良く表しているかを選択する。選択されたモデルのパラメーターは生成されたモデルの出力と過去の誤差の値との差を最小にする様に導出される。モデルのタイプ及びそのパラメーターの選択はバッファーに保存される。好ましくは上で述べた予測モデル技術が選択されたモデル中の一致の確度の基準を算出するために使用され、選択されたモデルのタイプは、確度の基準が閾値より大きい場合に限り、関連する一致の確度の基準とともにバッファーに保存される。もし望むならば、追加のフィルターを異常誤差値を生成するバッファーから選択されたモデルを除外するために使用してもよい。記憶されたモデルのバッファーは、一致の確度の基準が閾値より低い、時間の間隔の現在の同期誤差を予測するために用いても良い。幾つかの方法について本明細書で説明がなされている。
同期署名構築は多くの他の応用で使用することができる。一つの応用では補助的情報の同期を維持する。同期署名構築中の参照ビデオ及び参照オ−ディオ署名はビデオ及びオ−ディオ信号と知られた時間の関係を有する特徴をベースとするため、これらの参照署名は補助的情報をビデオ及びオ−ディオ信号の何れか一つ又は両方に同期させるために用いることができる。この補助的情報はビデオ・オ−ディオ内容に関連づけられた時間依存の情報を伝送する実質的に任意の種類のデータを含む。幾つかの例には字幕情報、SMPTE標準12Mに記載のタイムコード及び機器制御信号を含む。この応用は、この補助的情報を同期署名構築とある方法で結びつける、例えば、それを署名中に含める、同期署名構築とインターリブする、又は同期署名構築をあるより大きなデータ構築中の補助的情報と組み合わせる等により実現することができる。他の応用ではビデオ・オ−ディオ内容を同定する。同期署名構築中の参照ビデオ及び参照オ−ディオ署名はビデオ・オ−ディオ内容から抽出された特徴に基づくため、これらの一連の参照署名はある与えられたビデオ・オ−ディオプログラムにとってユニークであると思われる。これは同期署名構築中の参照ビデオ及び参照オ−ディオ署名は内容を同定するために使用することができることを意味する。この応用のある実施の態様では、一連の目的地署名は目的地内容から生成され、この目的地署名の配列は参照署名の配列と比較される。もし目的地署名の列と一致する一連の参照署名が見つかる場合は、これは目的地署名の列が参照署名の特定の列と十分近似すると見做されることを意味し、そして目的地内容が特定に参照署名の列に対応する内容のコピーであると同定される。
本発明の種々の特徴を組み入れた装置は種々の方法で実施することができ、それにはコンピュータで実行されるソフトウェア又は汎用コンピュータに見られると同様な構成物に連結されたデジタル信号プロセッサ(DSP)回路の様なより専用化された構成物を含む他の装置を含む。図15は本発明の特徴を実施するために使用される装置70の略ブロック図である。プロセッサ72はコンピューティング資源を提供する。RAM73は処理のためのプロセッサ72により用いられるシステムランダムアクセスメモリー(RAM)である。ROM74は、装置70を動かすために必要なプログラム及びおそらく本発明の種々の特徴を実行するための読み出し専用メモリー(ROM)の様なある形式の永続記憶装置を表す。入出力(I/O)制御75は通信チャネル76,77により信号を受信及び送信するためのインターフェイス回路を表す。本明細書に示す実施の態様では、全ての主要なシステム要素はバス71に連結され、バス71は一以上の物理的又は論理的バスであっても良い。しかし、バス構造は本発明を実施するために必要とはされない。
Claims (11)
- 目的地ビデオ内容及び目的地オーディオ内容の間の同期誤差を算出する方法であって、前記方法は以下を含む:
参照ビデオ信号の一以上のビデオ特徴を表す参照ビデオ署名、参照オーディオ信号の一以上のオーディオ特徴を表す参照オーディオ署名、及びビデオ及びオーディオ特徴の相対的時間アラインメントの指標を受信する;
目的地ビデオ内容から抽出された一以上のビデオ特徴に応答して一以上の目的地ビデオ署名を生成する;
目的地オーディオ内容から抽出された一以上のオーディオ特徴に応答して一以上の目的地オーディオ署名を生成する;
一連の目的地ビデオ署名を一連の参照ビデオ署名と比較し、目的地ビデオ内容と、参照ビデオ署名を生成するために用いられる参照ビデオ内容の間の一致を探す;
一連の目的地オーディオ署名を一連の参照オーディオ署名と比較し、目的地オーディオ内容と、参照オーディオ署名を生成するために用いられる参照オーディオ内容の間の一致を探す;
同定された目的地ビデオ内容と同定された目的地オーディオ内容の間の時間的不整合を、参照ビデオ信号及び参照オーディオ信号のビデオ及びオーディオ特徴の相対的時間アラインメントと比較して算出することにより、目的地ビデオ内容と目的地オーディオ内容の間の同期誤差を算出し;
過去の同期誤差を分析し、過去の同期誤差を最も適切に表す過去の同期誤差のモデルを選択し、ここでモデルは、一定である一連の同期誤差を表すモデル、線形割合で増大又は減少する一連の同期誤差を表すモデル、および値が突然変化するものを含む一連の同期誤差を表すモデルから選択され、そして選択されたモデルのパラメータは選択されたモデルの出力と過去の同期誤差の差を最小にするように導出され;
選択されたモデル及びそのパラメータを選択してバッファーに保存し;
算出された時間不整合及び一連の事前に算出された時間不整合から得られた予測された不整合の間の差から同期誤差の信頼性の基準を導出し;
前記バッファーに保存されたモデルを用いて、信頼性の基準が閾値より小さい場合の間隔の同期誤差を予測し;及び
同期誤差を表示し、又は同期誤差を、目的地ビデオ及び目的地オーディオの一つ又は両方を遅延させてそれらを適正な時間アラインメントになるようにすること。 - 目的地ビデオ内容及び目的地オーディオ内容の間の同期誤差を算出する方法であって、前記方法は以下を含む:
参照ビデオ信号の一以上のビデオ特徴を表す参照ビデオ署名、参照オーディオ信号の一以上のオーディオ特徴を表す参照オーディオ署名、及びビデオ及びオーディオ特徴の相対的時間アラインメントの指標を受信し;
目的地ビデオ内容から抽出された一以上ビデオ特徴に応答して一以上の目的地ビデオ署名を生成し;
目的地オーディオ内容から抽出された一以上オーディオ特徴に応答して一以上の目的地オーディオ署名を生成し;
一連の目的地ビデオ署名を一連の参照ビデオ署名と比較し、目的地ビデオ内容と、参照ビデオ署名を生成するために用いられる参照ビデオ内容の間の一致を探し、目的地ビデオ信号と参照ビデオ信号の間の相対的ビデオタイミングの差を得る;
一連の目的地オーディオ署名を一連の参照オーディオ署名と比較し、目的地オーディオ内容と、参照オーディオ署名を生成するために用いられる参照オーディオ内容の間の一致を探し、目的地オーディオ信号と参照オーディオ信号の間の相対的オーディオタイミングの差を得る;
目的地ビデオ信号と参照ビデオ信号の間の相対的タイミングの差及び目的地オーディオ信号と参照オーディオ信号の相対的タイミングの差から目的地ビデオ内容と目的地オーディオ内容の間の同期誤差を、参照ビデオ信号及び参照オーディオ信号のビデオ及びオーディオ特徴の相対的時間アラインメントと比較して算出する;
目的地ビデオ内容及び参照ビデオ内容の間に見出された一致の信頼性の程度を表すビデオ−一致の信頼性の基準(video-match confidence measure)を、過去の相対的ビデオタイミングの差を分析することにより、及び過去の相対的ビデオタイミングの差を最も良く表すモデルを選択することにより算出し、ここでモデルは、一定である一連のタイミングの差を表すモデル、又は線形割合で増大又は減少する一連のタイミングの差を表すモデル、又は値が突然変化するものを含む一連のタイミングの差を表すモデルから選択しても良く、そして選択されたモデルのパラメータは選択されたモデルの出力と過去の相対的ビデオタイミングの差を最小にするように導出される;
目的地オーディオ内容及び参照オーディオ内容の間に見出された一致の信頼性の程度を表すオーディオ‐一致の信頼性の基準(video-match confidence measure)を、過去の相対的オーディオタイミングの差を分析し、そして過去の相対的オーディオタイミングの差を最も良く表す予測モデルを選択することにより算出し、ここでモデルは、一定である一連のタイミングの差を表すモデル、線形割合で増大又は減少する一連のタイミングの差を表すモデル、および値が突然変化する一連のタイミングの差を表すモデルから選択され、そして選択されたモデルのパラメータは選択されたモデルの出力と過去の相対的オーディオタイミングの差を最小にするように導出される;
選択されたモデル及びそのパラメータを選択してバッファーに保存し;
ビデオ−一致の信頼性の基準及びオーディオ−一致の信頼性の基準から、同期誤差中の信頼性の基準を導出し;
前記バッファーに保存されたモデルを用いて、信頼性の基準が閾値より小さい場合の間隔の同期誤差を予測し;及び
同期誤差を表示し、又は同期誤差を、目的地ビデオ及び目的地オーディオの一つ又は両方を遅延させてそれらを適正な時間アラインメントになるようにすること。 - 請求項1又は2の方法であって、
同期誤差の統計モデルから同期誤差の確率を導出し;及び
保存されたモデルのバッファーを用いて同期誤差の確率が閾値より低い間隔の同期誤差を予測すること
を含む前記方法。 - 請求項1又は2の方法であって、
選択されたモデルの信頼性の基準を算出し;及び
選択されたモデルの選択とともに、選択されたモデルの信頼性の基準をバッファーに保存することを含む、前記方法。 - 選択されたモデルの信頼性の基準が閾値より大きい場合、選択されたモデルを選択しバッファーに保存することを含む、請求項4の方法。
- その選択されたモデルの最も高い信頼性の基準をもつ保存されたモデルを用いて同期誤差を予測することを含む、請求項4の方法。
- バッファーに保存されたモデルパラメータの平均から導出されたモデルを用いて同期誤差を予測することを含む請求項4の方法。
- バッファーに最もしばしば保存されるモデルを用いて同期誤差を予測することを含む請求項4の方法。
- 請求項2の方法であって、
ビデオタイミングの差の加重合計を算出し、ビデオタイミングの差は各ビデオ−一致の信頼性の基準により加重され;
オーディオタイミングの差の加重合計を算出し、オーディオタイミングの差は各オーディオ−一致信頼性の基準により加重され;
ビデオタイミングの差の加重合計及びオーディオタイミングの差の加重合計から同期誤差を算出する、
ことを含む前記方法。 - 請求項1乃至9の何れか1項に記載の方法のステップを実施する手段を含む装置。
- 請求項1乃至9の何れか1項に記載の方法をコンピュータに実行させる指示プログラムを記録したコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US18965908P | 2008-08-21 | 2008-08-21 | |
US61/189,659 | 2008-08-21 | ||
PCT/US2009/053989 WO2010021966A1 (en) | 2008-08-21 | 2009-08-17 | Feature optimization and reliability estimation for audio and video signature generation and detection |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013148835A Division JP5698318B2 (ja) | 2008-08-21 | 2013-07-17 | オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012500584A JP2012500584A (ja) | 2012-01-05 |
JP5602138B2 true JP5602138B2 (ja) | 2014-10-08 |
Family
ID=41210921
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011523905A Expired - Fee Related JP5602138B2 (ja) | 2008-08-21 | 2009-08-17 | オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測 |
JP2013148835A Expired - Fee Related JP5698318B2 (ja) | 2008-08-21 | 2013-07-17 | オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013148835A Expired - Fee Related JP5698318B2 (ja) | 2008-08-21 | 2013-07-17 | オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8400566B2 (ja) |
EP (1) | EP2327213B1 (ja) |
JP (2) | JP5602138B2 (ja) |
CN (1) | CN102177726B (ja) |
WO (1) | WO2010021966A1 (ja) |
Families Citing this family (83)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6205249B1 (en) | 1998-04-02 | 2001-03-20 | Scott A. Moskowitz | Multiple transform utilization and applications for secure digital watermarking |
US7664263B2 (en) | 1998-03-24 | 2010-02-16 | Moskowitz Scott A | Method for combining transfer functions with predetermined key creation |
US7177429B2 (en) | 2000-12-07 | 2007-02-13 | Blue Spike, Inc. | System and methods for permitting open access to data objects and for securing data within the data objects |
US7346472B1 (en) | 2000-09-07 | 2008-03-18 | Blue Spike, Inc. | Method and device for monitoring and analyzing signals |
US7159116B2 (en) | 1999-12-07 | 2007-01-02 | Blue Spike, Inc. | Systems, methods and devices for trusted transactions |
US7664264B2 (en) | 1999-03-24 | 2010-02-16 | Blue Spike, Inc. | Utilizing data reduction in steganographic and cryptographic systems |
WO2001018628A2 (en) | 1999-08-04 | 2001-03-15 | Blue Spike, Inc. | A secure personal content server |
US7287275B2 (en) | 2002-04-17 | 2007-10-23 | Moskowitz Scott A | Methods, systems and devices for packet watermarking and efficient provisioning of bandwidth |
CN101548294B (zh) | 2006-11-30 | 2012-06-27 | 杜比实验室特许公司 | 提取视频和音频信号内容的特征以提供信号的可靠识别 |
US8433175B2 (en) * | 2008-10-28 | 2013-04-30 | Yahoo! Inc. | Video comparing using fingerprint representations |
WO2010068175A2 (en) * | 2008-12-10 | 2010-06-17 | Muvee Technologies Pte Ltd | Creating a new video production by intercutting between multiple video clips |
WO2010091555A1 (zh) * | 2009-02-13 | 2010-08-19 | 华为技术有限公司 | 一种立体声编码方法和装置 |
JP5490782B2 (ja) * | 2009-03-16 | 2014-05-14 | パナソニック株式会社 | 画像音声通信装置およびその通信方法 |
US20110052136A1 (en) * | 2009-09-01 | 2011-03-03 | Video Clarity, Inc. | Pattern-based monitoring of media synchronization |
US8436939B2 (en) * | 2009-10-25 | 2013-05-07 | Tektronix, Inc. | AV delay measurement and correction via signature curves |
US8860883B2 (en) * | 2009-11-30 | 2014-10-14 | Miranda Technologies Partnership | Method and apparatus for providing signatures of audio/video signals and for making use thereof |
DE102010029030A1 (de) * | 2010-05-17 | 2012-03-01 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren und Vorrichtung zur Verarbeitung von Daten in einem Fahrzeug |
EP2393288B1 (en) * | 2010-06-02 | 2017-02-15 | Disney Enterprises, Inc. | System and method for in-band a/v timing measurement of serial digital video signals |
US8531603B2 (en) * | 2010-06-02 | 2013-09-10 | Disney Enterprises, Inc. | System and method for in-band A/V timing measurement of serial digital video signals |
US8300147B2 (en) * | 2010-06-02 | 2012-10-30 | Disney Enterprises, Inc. | System and method for in-band A/V timing measurement of serial digital video signals |
US8384827B2 (en) | 2010-06-02 | 2013-02-26 | Disney Enterprises, Inc. | System and method for in-band A/V timing measurement of serial digital video signals |
JP5837074B2 (ja) * | 2010-09-22 | 2015-12-24 | トムソン ライセンシングThomson Licensing | マルチメディア・フローを処理する方法および対応する装置 |
US9565426B2 (en) * | 2010-11-12 | 2017-02-07 | At&T Intellectual Property I, L.P. | Lip sync error detection and correction |
US9075806B2 (en) | 2011-02-22 | 2015-07-07 | Dolby Laboratories Licensing Corporation | Alignment and re-association of metadata for media streams within a computing device |
JP2012244413A (ja) * | 2011-05-19 | 2012-12-10 | Nippon Hoso Kyokai <Nhk> | 信号監視装置およびプログラム、信号補正装置およびプログラム |
US8924345B2 (en) | 2011-09-26 | 2014-12-30 | Adobe Systems Incorporated | Clustering and synchronizing content |
US8775167B2 (en) | 2011-09-26 | 2014-07-08 | Adobe Systems Incorporated | Noise-robust template matching |
US9479762B2 (en) * | 2011-12-05 | 2016-10-25 | Tektronix, Inc. | Stereoscopic video temporal frame offset measurement |
US8625027B2 (en) * | 2011-12-27 | 2014-01-07 | Home Box Office, Inc. | System and method for verification of media content synchronization |
EP2820564B1 (en) * | 2012-02-29 | 2019-04-10 | Global File Systems Holdings, LLC | Stream recognition and filtering |
WO2013170092A1 (en) * | 2012-05-09 | 2013-11-14 | Markus Iseli | Method for synchronizing disparate content files |
US9553756B2 (en) * | 2012-06-01 | 2017-01-24 | Koninklijke Kpn N.V. | Fingerprint-based inter-destination media synchronization |
US8938089B1 (en) * | 2012-06-26 | 2015-01-20 | Google Inc. | Detection of inactive broadcasts during live stream ingestion |
US8989503B2 (en) * | 2012-08-03 | 2015-03-24 | Kodak Alaris Inc. | Identifying scene boundaries using group sparsity analysis |
US10158927B1 (en) * | 2012-09-05 | 2018-12-18 | Google Llc | Systems and methods for detecting audio-video synchronization using timestamps |
US9305559B2 (en) | 2012-10-15 | 2016-04-05 | Digimarc Corporation | Audio watermark encoding with reversing polarity and pairwise embedding |
US9401153B2 (en) * | 2012-10-15 | 2016-07-26 | Digimarc Corporation | Multi-mode audio recognition and auxiliary data encoding and decoding |
US9992729B2 (en) | 2012-10-22 | 2018-06-05 | The Nielsen Company (Us), Llc | Systems and methods for wirelessly modifying detection characteristics of portable devices |
US20140114456A1 (en) * | 2012-10-22 | 2014-04-24 | Arbitron Inc. | Methods and Systems for Clock Correction and/or Synchronization for Audio Media Measurement Systems |
US10638221B2 (en) * | 2012-11-13 | 2020-04-28 | Adobe Inc. | Time interval sound alignment |
US9355649B2 (en) | 2012-11-13 | 2016-05-31 | Adobe Systems Incorporated | Sound alignment using timing information |
US9201580B2 (en) | 2012-11-13 | 2015-12-01 | Adobe Systems Incorporated | Sound alignment user interface |
US10249321B2 (en) | 2012-11-20 | 2019-04-02 | Adobe Inc. | Sound rate modification |
EP2926339A4 (en) * | 2012-11-27 | 2016-08-03 | Nokia Technologies Oy | COMMONLY USED AUDIOSCENE DEVICE |
US9451304B2 (en) | 2012-11-29 | 2016-09-20 | Adobe Systems Incorporated | Sound feature priority alignment |
CN103888813A (zh) * | 2012-12-21 | 2014-06-25 | 北京计算机技术及应用研究所 | 一种音视频同步的实现方法及系统 |
US8925003B2 (en) * | 2013-03-08 | 2014-12-30 | Silicon Image, Inc. | Mechanism for facilitating synchronization of audio and video between multiple media devices |
JP2015037212A (ja) * | 2013-08-12 | 2015-02-23 | オリンパスイメージング株式会社 | 情報処理装置、撮影機器及び情報処理方法 |
US9641303B2 (en) * | 2013-09-09 | 2017-05-02 | Huawei Technologies Co., Ltd. | System and method for increasing low density signature space |
JP6349977B2 (ja) * | 2013-10-21 | 2018-07-04 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
US9723180B2 (en) * | 2014-01-08 | 2017-08-01 | Vizio Inc | Device and method for correcting lip sync problems on display devices |
US9930375B2 (en) * | 2014-06-16 | 2018-03-27 | Nexidia Inc. | Media asset management |
EP3171609B1 (en) | 2014-07-17 | 2021-09-01 | Panasonic Intellectual Property Management Co., Ltd. | Recognition data generation device, image recognition device, and recognition data generation method |
US9747656B2 (en) | 2015-01-22 | 2017-08-29 | Digimarc Corporation | Differential modulation for robust signaling and synchronization |
US10468065B2 (en) | 2015-10-28 | 2019-11-05 | Ustudio, Inc. | Video frame difference engine |
CN105469783B (zh) * | 2015-11-12 | 2019-06-21 | 深圳Tcl数字技术有限公司 | 音频识别方法及装置 |
KR102560635B1 (ko) * | 2015-12-28 | 2023-07-28 | 삼성전자주식회사 | 컨텐트 인식 장치 및 그 동작 방법 |
US10015612B2 (en) | 2016-05-25 | 2018-07-03 | Dolby Laboratories Licensing Corporation | Measurement, verification and correction of time alignment of multiple audio channels and associated metadata |
US9996769B2 (en) | 2016-06-08 | 2018-06-12 | International Business Machines Corporation | Detecting usage of copyrighted video content using object recognition |
US10726269B2 (en) | 2017-07-20 | 2020-07-28 | Verizon Patent And Licensing, Inc. | Aligning advertisements in video streams |
US11284062B2 (en) * | 2017-09-05 | 2022-03-22 | Texas Instruments Incorporated | Automotive display validation |
JP6926856B2 (ja) * | 2017-09-07 | 2021-08-25 | コニカミノルタ株式会社 | 放射線画像処理装置、プログラム及び放射線画像処理方法 |
CN108055566A (zh) * | 2017-12-26 | 2018-05-18 | 郑州云海信息技术有限公司 | 音视频同步的方法、装置、设备及计算机可读存储介质 |
KR20190094852A (ko) * | 2018-02-06 | 2019-08-14 | 삼성전자주식회사 | 디스플레이 장치 및 이를 포함하는 오디오 시스템 |
US10810471B1 (en) * | 2018-03-22 | 2020-10-20 | Amazon Technologies, Inc. | Intelligent coalescing of media streams |
FR3085785B1 (fr) * | 2018-09-07 | 2021-05-14 | Gracenote Inc | Procedes et appareil pour generer une empreinte numerique d'un signal audio par voie de normalisation |
CN112567721B (zh) * | 2018-10-03 | 2024-04-05 | 视频本地化公司 | 一种分段式混合视频和音频同步的方法和装置 |
CN109829432B (zh) * | 2019-01-31 | 2020-11-20 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
US12032628B2 (en) | 2019-11-26 | 2024-07-09 | Gracenote, Inc. | Methods and apparatus to fingerprint an audio signal via exponential normalization |
US11277461B2 (en) * | 2019-12-18 | 2022-03-15 | The Nielsen Company (Us), Llc | Methods and apparatus to monitor streaming media |
US11302095B2 (en) | 2020-01-09 | 2022-04-12 | International Business Machines Corporation | Cognitive motion picture analysis |
CA3167971A1 (en) | 2020-02-13 | 2021-08-19 | Christopher Vytautas Olekas | Distributed measurement of latency and synchronization delay between audio/video streams |
US11032415B1 (en) * | 2020-03-05 | 2021-06-08 | Mitel Networks Corporation | System and method for audio content verification |
WO2022040282A1 (en) | 2020-08-18 | 2022-02-24 | Dolby Laboratories Licensing Corporation | Audio content identification |
CN112435653B (zh) * | 2020-10-14 | 2024-07-30 | 北京地平线机器人技术研发有限公司 | 语音识别方法、装置和电子设备 |
US11336935B1 (en) | 2020-11-25 | 2022-05-17 | Amazon Technologies, Inc. | Detecting audio-video desyncrhonization |
US11651751B2 (en) * | 2021-02-04 | 2023-05-16 | New Revolution Tools, LLC | Systems and methods for improved production and presentation of video content |
US11798577B2 (en) | 2021-03-04 | 2023-10-24 | Gracenote, Inc. | Methods and apparatus to fingerprint an audio signal |
US11659217B1 (en) | 2021-03-29 | 2023-05-23 | Amazon Technologies, Inc. | Event based audio-video sync detection |
CN113095203A (zh) * | 2021-04-07 | 2021-07-09 | 中国工商银行股份有限公司 | 双录数据质检中的客户签名检测方法及装置 |
EP4390919A3 (en) * | 2021-06-18 | 2024-09-25 | My Voice AI Limited | Methods for improving the performance of neural networks used for biometric authentication |
CN113782041B (zh) * | 2021-09-14 | 2023-08-15 | 随锐科技集团股份有限公司 | 一种基于音频变频域的嵌入和定位水印的方法 |
CN115937441B (zh) * | 2022-11-08 | 2023-09-05 | 泰瑞数创科技(北京)股份有限公司 | 低带宽环境下的三维协同标绘方法及其系统 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5446492A (en) * | 1993-01-19 | 1995-08-29 | Wolf; Stephen | Perception-based video quality measurement system |
US5430485A (en) | 1993-09-30 | 1995-07-04 | Thomson Consumer Electronics, Inc. | Audio/video synchronization in a digital transmission system |
US6806909B1 (en) * | 1997-03-03 | 2004-10-19 | Koninklijke Philips Electronics N.V. | Seamless splicing of MPEG-2 multimedia data streams |
US6654933B1 (en) * | 1999-09-21 | 2003-11-25 | Kasenna, Inc. | System and method for media stream indexing |
US6101591A (en) * | 1998-03-25 | 2000-08-08 | International Business Machines Corporation | Method and system for selectively independently or simultaneously updating multiple system time clocks in an MPEG system |
US6480902B1 (en) * | 1999-05-25 | 2002-11-12 | Institute For Information Industry | Intermedia synchronization system for communicating multimedia data in a computer network |
KR100893671B1 (ko) | 2001-02-12 | 2009-04-20 | 그레이스노트, 인크. | 멀티미디어 콘텐트의 해시들의 생성 및 매칭 |
US6956871B2 (en) | 2002-04-19 | 2005-10-18 | Thomson Licensing | Apparatus and method for synchronization of audio and video streams |
US7907211B2 (en) * | 2003-07-25 | 2011-03-15 | Gracenote, Inc. | Method and device for generating and detecting fingerprints for synchronizing audio and video |
DE10354973B3 (de) * | 2003-11-25 | 2005-06-16 | Rundfunk Berlin-Brandenburg (RBB), Anstalt des öffentlichen Rechts | Verfahren zum Ermitteln von Laufzeitunterschieden zwischen Bild- und Tonsignalen auf Fernseh-Übertragungsstrecken |
DE102005014477A1 (de) * | 2005-03-30 | 2006-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung |
EP1729173A3 (en) | 2005-05-27 | 2007-01-03 | Telegraf ApS | System for generating synchronized add-on information |
EP1924101B1 (en) * | 2005-09-06 | 2013-04-03 | Nippon Telegraph And Telephone Corporation | Video communication quality estimation device, method, and program |
US8363161B2 (en) * | 2006-05-26 | 2013-01-29 | Broadcom Corporation | Systems, methods, and apparatus for synchronization of audio and video signals |
CN101548294B (zh) | 2006-11-30 | 2012-06-27 | 杜比实验室特许公司 | 提取视频和音频信号内容的特征以提供信号的可靠识别 |
-
2009
- 2009-08-17 JP JP2011523905A patent/JP5602138B2/ja not_active Expired - Fee Related
- 2009-08-17 EP EP09791564.9A patent/EP2327213B1/en not_active Not-in-force
- 2009-08-17 CN CN200980139527.XA patent/CN102177726B/zh not_active Expired - Fee Related
- 2009-08-17 WO PCT/US2009/053989 patent/WO2010021966A1/en active Application Filing
- 2009-08-17 US US13/059,468 patent/US8400566B2/en not_active Expired - Fee Related
-
2013
- 2013-07-17 JP JP2013148835A patent/JP5698318B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20110261257A1 (en) | 2011-10-27 |
CN102177726B (zh) | 2014-12-03 |
JP2013255249A (ja) | 2013-12-19 |
EP2327213B1 (en) | 2014-10-08 |
JP2012500584A (ja) | 2012-01-05 |
EP2327213A1 (en) | 2011-06-01 |
JP5698318B2 (ja) | 2015-04-08 |
WO2010021966A1 (en) | 2010-02-25 |
US8400566B2 (en) | 2013-03-19 |
CN102177726A (zh) | 2011-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5698318B2 (ja) | オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測 | |
JP5060565B2 (ja) | 信号の信頼できる識別をするためのビデオ及びオーディオ信号内容の特徴の抽出 | |
US10785547B2 (en) | System and method for synchronizing metadata with audiovisual content | |
JP4723171B2 (ja) | マルチメディア・コンテンツのハッシュの生成および突合せ | |
WO2020018193A1 (en) | Establishment and use of time mapping based on interpolation using low-rate fingerprinting, to help facilitate frame-accurate content revision | |
KR20070034462A (ko) | 비디오-오디오 동기화 | |
US11395048B2 (en) | Timely addition of human-perceptible audio to mask an audio watermark | |
US20210084091A1 (en) | Use of In-Band Metadata as Basis to Access Reference Fingerprints to Facilitate Content-Related Action | |
US20210235166A1 (en) | Commercial section detection device, commercial section detection method, and program | |
Fernández et al. | Monitoring of audio visual quality by key indicators: Detection of selected audio and audiovisual artefacts | |
Terry et al. | Detection and correction of lip-sync errors using audio and video fingerprints | |
JP2023105359A (ja) | コンテンツ配信装置、受信装置及びプログラム | |
JP2023139681A (ja) | 同期化信号送出装置、遅延差検出装置、同期化信号送出プログラム及び遅延差検出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20111025 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120111 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121113 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130213 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130220 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130227 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130319 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140625 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140819 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5602138 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |