JP6564464B2 - ビデオプログラムのセグメントの検出 - Google Patents
ビデオプログラムのセグメントの検出 Download PDFInfo
- Publication number
- JP6564464B2 JP6564464B2 JP2017548386A JP2017548386A JP6564464B2 JP 6564464 B2 JP6564464 B2 JP 6564464B2 JP 2017548386 A JP2017548386 A JP 2017548386A JP 2017548386 A JP2017548386 A JP 2017548386A JP 6564464 B2 JP6564464 B2 JP 6564464B2
- Authority
- JP
- Japan
- Prior art keywords
- video
- fingerprint
- model
- frame
- test
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 43
- 238000012360 testing method Methods 0.000 claims description 245
- 238000012545 processing Methods 0.000 claims description 121
- 238000009826 distribution Methods 0.000 claims description 118
- 238000000034 method Methods 0.000 claims description 55
- 230000004044 response Effects 0.000 claims description 30
- 238000003860 storage Methods 0.000 claims description 30
- 230000000694 effects Effects 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 23
- 238000004891 communication Methods 0.000 description 17
- 239000013598 vector Substances 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 8
- 239000003086 colorant Substances 0.000 description 8
- 238000013500 data storage Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000012800 visualization Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/005—Reproducing at a different information rate from the information rate of recording
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/34—Indicating arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/458—Scheduling content for creating a personalised stream, e.g. by combining a locally stored advertisement with an incoming stream; Updating operations, e.g. for OS modules ; time-related management operations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/65—Transmission of management data between client and server
- H04N21/654—Transmission by server directed to the client
- H04N21/6547—Transmission by server directed to the client comprising parameters, e.g. for client setup
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Television Signal Processing For Recording (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Description
1.0 全体的概観
2.0 プロセスの概観
3.0 シリーズのエピソード内のセグメントを検出し、そのエピソードを1以上のクライアント装置に配布するための例示的なネットワークトポロジー
3.1 ビデオ配信ネットワーク
3.1.1 ビデオデータストア
3.1.1.1 エピソードの構造
3.1.2 ビデオサーバコンピュータ
3.2 メタデータストア
3.3 ビデオ処理ロジック
3.4 ビデオカタログサーバコンピュータ
3.5 クライアントビデオプレイヤーコンピュータ
4.0 エピソード間の共通のビデオセグメントを識別するための例示的なプロセス
4.1 モデルフィンガープリントを生成する
4.1.1 色分布を生成する
4.1.2 スーパー色分布を生成する
4.1.3 色および色分布の表現
4.2 テストフィンガープリントを生成する
4.3 テストフィンガープリントとモデルフィンガープリントとが一致するか否かを決定する
4.3.1 色分布に基づいて近さの値を決定する
4.3.2 顔検出に基づいて近さの値を決定する
4.3.3 特徴認識に基づいて近さの値を決定する
4.3.4 複数の近さの値に基づいて近さベクトルまたは近さの値の集合体を決定する
4.4 モデルフレームとテストフレームとが一致する否かを決定する
4.5 セグメント境界を決定する
4.5.1 順方向または逆方向検索によってセグメント境界を見出す
4.5.2 時間に基づいてセグメント境界を見出す
4.5.3 エピソード内の2以上のフレームに基づいて開始境界を決定する
4.5.4 エピソード内の2以上のフレームに基づいて終了境界を決定する
4.5.5 黙示的境界を決定する
4.6 エピソード内の複数のセグメントを見出す
4.7 任意選択セグメントを決定し、それに対して応答する
4.8 メタデータを格納する
4.8.1 同じエピソードの異なるバージョンについてのメタデータ
5.0 1以上の検出されたセグメントを用いてビデオをクライアントコンピュータに配布するための例示的なプロセス
5.1 ユーザ入力に基づいてセグメントをスキップする、および/またはダウンロードしない
5.2 1以上の効果を適用する
6.0 実装機構−ハードウェアの概観
7.0 本開示の他の態様
一実施形態において、ビデオ処理システムは、第1のビデオおよび第1のビデオと関連づけられた第2のビデオを格納するデータストアと、データストアに結合されたコンピュータプロセッサであって、データストアに格納されている第1のビデオの第1のモデルセグメント内の第1のモデルフレーム内の画素に基づいて、第1のビデオの第1のモデルフィンガープリントを生成し、データストアに格納されている第2のビデオ内の第1のテストフレーム内の画素に基づいて、第2のビデオの第1のテストフィンガープリントを生成し、第1のモデルフィンガープリントと第1のテストフィンガープリントとの間の第1の近さの値を決定し、第1の近さの値に基づいて、第1のテストフレームが、第1のビデオ内の第1のモデルセグメントに類似している第2のビデオ内の第1のセグメントの第1の境界であるか否かを決定するようプログラムされたコンピュータプロセッサとを含む。
本明細書において述べるように、エピソード内のビデオセグメント(例えば、オープニングクレジットセグメントまたはクロージングクレジットセグメント等)が開始および終了するときを検出するようにコンピュータを構成するのは、困難であり得る。例えば、図1Aは、特定のシリーズ内の第1のエピソードのオープニングクレジットセグメントからの第1のフレームであるとし、図1Bは、同じ特定のシリーズ内の第2のエピソードのオープニングクレジットセグメントからの第1のフレームであるとする。図1Aおよび図1Bに示されているように、第1のエピソードの監督は、第2のエピソードとは異なる人物である。従って、図1Aに対応するフレームが、オープニングクレジットセグメントの第1のフレームとしてデザインされている場合には、コンピュータは、図1Aのフレームを図1Bのフレームと比較することにより、図1Bに対応するフレームは第2のエピソード内のオープニングクレジットセグメントの開始ではないと不正確に決定し得る。
図2は、例示的な一実施形態における、ビデオ処理コンピュータ、ビデオデータストア、ビデオサーバコンピュータ、ビデオカタログサーバコンピュータ、および、複数の相互接続されたネットワークにわたって分散されたクライアントコンピュータを含むシステムを示す。図2において、デジタルビデオ配布システム200は、ビデオ処理コンピュータ210と、ビデオデータストア230およびビデオサーバコンピュータ240を含むコンテンツ配信ネットワーク220と、メタデータストア255と、ビデオカタログサーバコンピュータ250と、複数の相互接続されたネットワークにわたって分散されたクライアントビデオプレイヤーコンピュータ260とを含む。
CDN220は、例えばクライアントビデオプレイヤーコンピュータ260またはビデオ処理コンピュータ410等の1以上のコンピュータを介したユーザからのビデオおよび/または音声データに対する要求を受信する1以上のサーバコンピュータ(例えば、ビデオデータストア230およびビデオサーバコンピュータ240等)を含み得る。CDN220は、ビデオおよび/または音声データを、要求を送信したクライアントコンピュータに送信することによって応答し得る。CDN220内の1以上のコンピュータは、1以上の独立したエンティティによって所有および/または管理され得ると共に、1以上のコンピュータネットワークおよび/または地理的領域にわたり得るが、そうである必要はない。
ビデオデータストア230は、1以上のシリーズ内の複数のエピソードを格納し得る。例えば、ビデオデータストア230は、本明細書において更に詳細に述べる、ビデオおよび音声データを含み得るモデルエピソード301およびエピソード302のコピーを含み得る。ビデオデータストア230は、1以上のエピソードの1以上のバージョンを含み得る。様々なクライアントコンピュータおよびスループットをサポートするために、1つのバージョンは解像度がより低いもの、および/または、異なるフォーマットのものであり得る。ビデオデータストア230は、ビデオデータストア230に格納されている各ビデオチャンクに対応する音声チャンクを格納し得る。それに加えて、またはその代わりに、ビデオチャンクは音声データを含み得る。図2では、ビデオデータストア230は単一のデータストレージシステムとして図示されているが、ビデオデータストア230は、複数のコンピュータネットワークおよび/または地理的領域にわたって分散された1以上のストレージ装置を含み得る。
図3は、例示的な一実施形態における、同じテレビシリーズまたは映画シリーズの第1のモデルエピソード内の一連のビデオチャンク内の一連のフレームと、異なるエピソード内の一連のビデオチャンク内の一連のフレームとを示す。図3において、モデルエピソード301は、モデルフレーム312〜モデルフレーム336の一連のフレームを含む。エピソード302は、フレーム352〜フレーム376の一連のフレームを含む。モデルエピソード301およびエピソード302は、音声データを含み得る、および/または、参照し得る。フレームは、フレーム内の各画素についての色を示す画素データの集合(例えば、画像等)を含み得る。
図2に戻ると、ビデオサーバコンピュータ240は、1以上のクライアントコンピュータ(例えば、クライアントビデオプレイヤーコンピュータ260等)から、1以上のビデオ、音声、ビデオチャンク、および/または音声チャンクに対する要求を受信し得る。ビデオサーバコンピュータ240は、要求されたビデオおよび/またはビデオチャンクをビデオデータストア230から読み出して、そのビデオおよび/またはビデオチャンクをクライアントビデオプレイヤーに返し得る。図2では、ビデオサーバコンピュータ240は単一のコンピュータとして図示されているが、ビデオサーバコンピュータ240は、複数のコンピュータネットワークおよび/または地理的領域にわたって分散された1以上のコンピュータを含み得る。ビデオサーバコンピュータ240およびビデオデータストア230は、図2に示されているように、それぞれ異なる組の1以上のコンピュータであり得る。しかし、一実施形態において、ビデオサーバコンピュータ240は、ビデオデータストア230と同じ1以上のコンピュータ上で実行され得る。
メタデータストア255は、1以上のシリーズ内の1以上のエピソードと関連づけられたメタデータを格納し得る。例えば、メタデータストア255は、モデルエピソード301内のオープニングクレジットセグメントおよび/またはクロージングクレジットセグメントの一部であるフレームを識別するメタデータを含み得る。モデルエピソード(例えば、モデルエピソード301等)と関連づけられたメタデータは、ユーザによって生成され得る。例えば、ユーザは、モデルエピソード301を視聴して、クライアントコンピュータ(図2には図示せず)を介して、1以上のフレームが1以上のセグメントに属することを示すメタデータをメタデータストア255に保存し得る。
ビデオ処理コンピュータ210は、ビデオ処理ロジック212を含む。本明細書において詳細に述べるように、ビデオ処理コンピュータ210および/またはビデオ処理ロジック212は、ビデオデータストア230に格納されているモデルエピソードおよび/もしくはテストエピソードを処理し、モデルエピソードについてのメタデータをメタデータストア255から読み出しおよび/もしくは処理し、1以上のエピソード内の対応するセグメントを検出し、並びに/または、どのエピソード内でどのセグメントが検出されたかおよび/もしくはどのフレームが各エピソード内の検出された各セグメントの一部であるかを示すメタデータをメタデータストア255に格納し得る。従って、ビデオ処理コンピュータ210は、ビデオデータストア230および/またはメタデータストア255に結合され得る。
ビデオカタログサーバコンピュータ250は、コンテンツ配信ネットワーク220内において、特定のエピソード、および/またはエピソードの一部がどのサーバに格納されているかを示すデータを含み得る、またはデータをメタデータストア255から読み出し得る。例えば、クライアントビデオプレイヤーコンピュータ260からの、エピソード302についてのメタデータに対する要求に応答して、ビデオカタログサーバコンピュータ250は、メタデータをクライアントビデオプレイヤーコンピュータ260に送信し得る。メタデータは、クライアントビデオプレイヤーコンピュータ260が、コンテンツ配信ネットワーク220内のビデオサーバコンピュータ240から、エピソード302をダウンロードし得ることを示し得る。それに加えて、またはその代わりに、メタデータは、エピソード302内の1以上のセグメントを識別し得る。
クライアントビデオプレイヤーコンピュータ260は、1以上のビデオサーバコンピュータから受信されるビデオを要求および/またはダウンロードし、そのビデオをユーザに対して表示および/またはを再生する機能があるコンピュータ(例えば、パーソナルコンピュータ、タブレット、ビデオゲームコンソール、および/または本明細書において述べる他の任意のコンピュータ等)であり得る。例えば、クライアントビデオプレイヤーコンピュータ260は、実行された際にユーザが視聴するシリーズのエピソードを選択するのを可能にするアプリケーションを有するタブレットであり得る。特定のエピソード(例えば、エピソード302等)を選択するユーザ入力の受信に応答して、クライアントビデオプレイヤーコンピュータ260は、ビデオカタログサーバコンピュータ250からのメタデータを要求し得る。このメタデータに基づいて、クライアントビデオプレイヤーコンピュータ260は、クライアントビデオプレイヤーコンピュータ260によって格納および/または受信されたメタデータ、1以上の構成設定、および/またはユーザ入力に従ってスキップされるべきセグメントに属さない少なくとも1つのフレームを含むエピソード302内の各ビデオチャンクを要求することによって、エピソード302をダウンロードし得る。
図4は、例示的な一実施形態における、第1のビデオ内のセグメントに対応する第2のビデオ内のセグメントを検出する処理を示す。明確な例を示す目的で、これらのステップは、1以上の他の図面中の1以上の要素を参照して説明され得るが、他の実施形態において、1以上の他の図面に示されている特定の構成を用いることは必要ではない。
ステップ410において、ビデオ処理コンピュータは、データストアに格納されている第1のビデオの第1のモデルセグメント内の第1のモデルフレーム内の画素に基づいて、第1のモデルフィンガープリントを生成する。例えば、ビデオ処理ロジック212は、メタデータストア255から、オープニングクレジットセグメントがモデルエピソード301内のモデルフレーム312において開始し、モデルフレーム336において終了することを示すメタデータを受信し得る。フィンガープリント生成ロジック213は、モデルフレーム312についてのモデルフレームフィンガープリントを生成し得る。
色分布は、1組の色に対応し、1組の色のうちの各色について、フレーム内にあるその色と同じおよび/またはその色に近い画素の数を示す。明確な例を示す目的で、画像がグレースケール画像であるとすると、各画素は256諧調のグレーのうちの1つであり得、最も暗い諧調のグレー(黒)は数字の0で表され、最も明るい諧調のグレー(白)は数字の255で表される。グレースケール画像についての色分布は、0、1、2、3…255までの各諧調のグレーに割り当てられた画素の数を示し得る。
スーパー色分布は、フレーム内の1以上の色成分の1以上の色分布で構成され得る、および/またはそれらの色分布を参照し得るものであり、従って、簡潔のために、スーパー色分布は色分布として参照され得る。明確な例を示す目的で、フレームは、HSV空間における画素を含むものとする。フィンガープリント生成ロジック213は、他の成分における値に関係なく、第1の成分(この例では色相成分)に基づく第1の色分布を生成し得る。従って、第1の画素がHSV空間において<10,0,0>であり、第2の画素がHSVにおいて<10,455,255>である場合には、両方の画素が、第1の色分布においては同じ色としてカウントされる。フィンガープリント生成ロジック213は、他の成分における値に関係なく、第2の成分(この例では飽和成分)に基づく第2の色分布も生成し得る。従って、第3の画素がHSV空間において<0,90,0>であり、第4の画素がHSVにおいで<10,90,255>である場合には、両方の画素が、第2の色分布においては同じ色としてカウントされる。フィンガープリント生成ロジック213は、第2の色分布から第1の色分布へとデータを連結させることによって、スーパー色分布を生成し得る。
上記に示した例において、色および色成分は、0〜255の範囲の1以上の整数値で表される。しかし、色および/または色成分は他の方法で表されてもよい。例えば、色および/または色成分は、0〜1(これらの値を含む)の浮動小数点値としての1以上として、表され得る。一実施形態において、色または色成分は、0.0〜1.0(これらの値を含む)から、0〜255(これらの値を含む)の整数値へと変換されてもよく、その逆が行われてもよい。それに加えて、またはその代わりに、色または色成分は、異なる範囲または組の値へと変換され得る。
図4に戻ると、ステップ420において、ビデオ処理コンピュータは、データストアに格納されている第2のビデオ内の第1のテストフレーム内の画素に基づいて、第1のテストフィンガープリントを生成する。例えば、フィンガープリント生成ロジック213は、本明細書において述べる方法のうちの1以上に従って、フレーム352についてのテストフレームフィンガープリントを生成し得る。
ステップ430において、ビデオ処理コンピュータは、第1のモデルフィンガープリントと第1のテストフィンガープリントとの間の第1の近さの値を決定する。例えば、フィンガープリント比較ロジック214は、モデルフレーム312について生成されたモデルフレームフィンガープリントとフレーム352について生成されたテストフレームフィンガープリントとを比較することによって、近さの値を生成し得る。
近さの値は、比較されるフィンガープリントのタイプに基づいて決定され得る。明確な例を示す目的で、モデルフレームフィンガープリントおよびテストフレームフィンガープリントは、それぞれ、モデルフレーム312およびフレーム352の色分布であるものとする。モデルフレームフィンガープリント(色分布)および/またはテストフレームフィンガープリント(色分布)が対応する1組の色のうちの各色について、フィンガープリント比較ロジック214は、モデル色分布フィンガープリントにおいてその色について見出された画素の数とテスト色分布フィンガープリントにおいてその同じ色について見出された画素の数との間の差分を算出し得る。フィンガープリント比較ロジック214は、各差分についての絶対値を算出し、各絶対値を加算して、デルタ値を生成し得る。フィンガープリント比較ロジック214は、デルタ値を、モデルフレームフィンガープリントを生成するために用いられたモデルフレーム312内の画素の数および/またはテスト色分布フィンガープリントを生成するためのフレーム352内の画素の数によって除算することによって、近さの値を算出し得る。一実施形態において、モデルフレームフィンガープリントを生成するために用いられたモデルフレーム312内の画素の数は、モデルフレーム312内の画素の総数であり、および/または、テスト色分布フィンガープリントを生成するためのフレーム352内の画素の数は、フレーム352内の画素の総数である。
モデルフレームフィンガープリントおよびテストフレームフィンガープリントが、モデルフレームおよびテストフレーム内においてそれぞれ見出された1以上の顔(あれば)を記述するデータを含む場合には、近さの値は、モデルフレームおよび/またはテストフレーム内において検出された1以上の顔(あれば)に基づき得る。例えば、フィンガープリント比較ロジック214は、モデルフレームフィンガープリントおよびテストフレームフィンガープリントに基づいて、モデルフレームおよびテストフレームの両方において同じ位置および/またはサイズを有する顔の数を示す分子を決定し得る。また、フィンガープリント比較ロジック214は、モデルフレームフィンガープリントおよびテストフレームフィンガープリントに基づいて、モデルフレームおよび/またはテストフレーム内において検出された顔の総数を示す分母を決定し得る。フィンガープリント比較ロジック214は、分子を分母によって除算することによって、近さの値を決定し得る。
モデルフレームフィンガープリントおよびテストフレームフィンガープリントが、モデルフレームおよびテストフレームにおいてそれぞれ見出された他の特徴を記述している場合には、近さの値は、モデルフレームおよび/またはテストフレーム内において検出された特徴に基づき得る。明確な例を示す目的で、モデルフレームフィンガープリントは、モデルフレーム内において検出された文字(あれば)を識別し、テストフレームフィンガープリントは、テストフレーム内において検出された文字(あれば)を識別するものとする。フィンガープリント比較ロジック214は、モデルフレームフィンガープリントおよびテストフレームフィンガープリントの両方において識別された文字を比較し得る。フィンガープリント比較ロジック214は、モデルフレームフィンガープリントおよびテストフレームフィンガープリントの両方において見出された文字の数をカウントすることにより、分子を決定し得る。フィンガープリント比較ロジック214は、モデルフレームフィンガープリントおよび/またはテストフレームフィンガープリント内の文字の総数を示す分母を計算し得る。フィンガープリント比較ロジック214は、分子を分母によって除算することによって、近さの値を決定し得る。この例は文字認識について述べているが、ビデオ処理ロジック212は、例えば、線、角、および/または画像認識等の他の特徴認識モデルを用いてもよい。
モデルフレームフィンガープリントおよび/またはテストフレームフィンガープリントが2以上のタイプのフィンガープリントで構成されている場合には、近さの値は、近さの値のベクトルおよび/または近さの値の集合体であり得る。明確な例を示す目的で、モデルフレームフィンガープリントは、色分布と、対応するモデルフレーム内に顔があるか否かを示すデータとを含み、テストフレームフィンガープリントは、色分布と、対応するテストフレーム内に顔があるか否かを示すデータとを含むものとする。フィンガープリント比較ロジック214は、上述のように、モデルフレームフィンガープリントおよびテストフレームフィンガープリント内の色分布に基づいて、第1の近さの値を計算し得る。フィンガープリント比較ロジック214は、モデルフレーム内には存在せずテストフレーム内に存在した顔の数、またはその逆の顔の数を示す第2の近さの値を計算し得る。フィンガープリント比較ロジック214は、2つの近さの値を統合して、近さの値の集合体(例えば、第1の近さの値と第2の近さの値との合計等)にし得る。それに加えて、またはその代わりに、フィンガープリント比較ロジック214は、第1の近さの値と第2の近さの値とをグループ化して、各近さの値がモデルフレームおよび/またはテストフレームと関連づけられたフレームフィンガープリントのタイプに対応する近さの値ベクトルにし得る。
図4に戻ると、ステップ440において、ビデオ処理コンピュータは、近さの値が特定の閾値以下であるか否かを決定する。近さの値が閾値に等しいおよび/またはより低い場合には、制御はステップ450に進み、そうでない場合には、制御はステップ420に進む。例えば、モデル色分布およびテスト色分布から決定された近さの値が0.0001より低い場合には、フィンガープリント比較ロジック214は、モデルフレームとテストフレームとが一致することを決定して、ステップ450に進み得る。そうでない場合には、フィンガープリント比較ロジック214は、テストエピソード内の次のフレーム(この例では、フレーム354)を取得して、ステップ420に戻り得る。
図4に戻ると、ステップ450において、ビデオ処理コンピュータは、第1のテストフレームが第1のセグメントの境界であることを決定する。例えば、フレーム352、フレーム354、フレーム356、およびフレーム362についてのテストフレームフィンガープリントを生成し、各テストフレームについてステップ420〜ステップ440を繰り返した後、フィンガープリント比較ロジック214は、フレーム362がモデルフレーム312と一致することを決定し得る。モデルフレーム312とフレーム362とが一致すると決定されたことに応答して、セグメント検出ロジック215は、フレーム362がセグメントの境界であることを決定し得る。モデルメタデータが、モデルフレーム312がセグメントの開始境界であることを示す場合には、セグメント検出ロジック215は、フレーム362がエピソード302内の同じセグメントの開始境界であることを決定し得る。モデルメタデータが、モデルフレーム312がセグメントの終了境界であることを示す場合には、セグメント検出ロジック215は、フレーム362がエピソード302内の同じセグメントの終了境界であることを決定し得る。
一実施形態において、セグメントの開始境界を見出した後、ビデオ処理コンピュータは、同じセグメントの終了境界を見出すために、図2のステップを繰り返し得る。明確な例を示す目的で、モデルメタデータは、現在のセグメントについての終了境界がモデルフレーム336であることを示しているものとする。セグメント検出ロジック215は、フィンガープリント生成ロジック213および/またはフィンガープリント比較ロジック214を介して、セグメント検出ロジック215がモデルフレーム336と一致するテストフレーム(この例ではフレーム374)を見出すまで、セグメントの開始境界であると決定されたテストフレーム(エピソード302内のフレーム362)の後の各テストフレームのテストを繰り返し得る。
一実施形態において、セグメントは、シリーズ内の各エピソードについて同じ量の時間であり得る。例えば、セグメントの開始が、テストエピソード内の第1のタイムスタンプ(例えば00:00:40.00等)に対応するテストフレームであると決定され、モデルエピソードと関連づけられたメタデータが、そのセグメントが10秒間の長さであることを示す場合には、セグメント検出ロジック215は、タイムスタンプ00:00:50.00に対応するフレームが、セグメントの最後のフレーム、即ち終了境界であることを決定し得る。同様に、セグメントの終了が、特定のテストエピソード内の特定のタイムスタンプ(例えば01:20:30.00等)に対応するテストフレームであると決定され、モデルエピソードと関連づけられたメタデータが、そのセグメントが10秒間の長さであることを示す場合には、セグメント検出ロジック215は、タイムスタンプ01:20:20.00に対応するフレームが、セグメントの第1のフレーム、即ち、開始境界であることを決定し得る。
ビデオ処理コンピュータは、2以上のモデルフレームを2以上のテストフレームとそれぞれ比較することによってセグメント境界を決定し得る。2以上のモデルフレームおよび2以上のテストフレームは、連続したフレームであり得る。明確な例を示す目的で、モデルフレーム312はセグメントの開始境界であるものとする。モデルフレーム312がフレーム356と一致すると決定したことに応答して、セグメント検出ロジック215は、フィンガープリント生成ロジック213および/またはフィンガープリント比較ロジック214を介して、モデルフレーム314がフレーム362と一致するか否かを決定し得る。モデルフレーム314がフレーム362と一致しないと決定されたことに応答して、セグメント検出ロジック215は、フレーム356がエピソード302内のセグメントの開始境界ではないことを決定し得る。
終了境界も同様にして見出され得るが、1以上の後続のフレームを比較する代わりに、ビデオ処理コンピュータは、セグメントの終了境界を見出すために、1以上の先行するモデルフレームとテストフレームとをそれぞれ比較し得る。明確な例を示す目的で、モデルフレーム336はセグメントの終了境界であるものとする。モデルフレーム336がフレーム376と一致すると決定したことに応答して、セグメント検出ロジック215は、フィンガープリント生成ロジック213および/またはフィンガープリント比較ロジック214を介して、モデルフレーム334がフレーム374と一致するか否かを決定し得る。モデルフレーム334がフレーム374と一致しないと決定されたことに応答して、セグメント検出ロジック215は、フレーム376がエピソード302内のセグメントの終了境界ではないことを決定し得る。
セグメントは黙示的境界を有し得る。例えば、第1のモデルフレームのフィンガープリントに関係なく、モデルエピソードと関連づけられたメタデータは、モデルエピソードの開始がオープニングクレジットセグメントの開始境界であることを示し得る。従って、ビデオ処理コンピュータは開始セグメントの開始境界を求めて順に検索する必要はないが、依然として、本明細書において述べる方法の1以上に従って、テストエピソード内のオープニングクレジットセグメントを見出すために、オープニングクレジットセグメントの終了境界を求めてテストエピソードを検索し得る。
モデルエピソードは複数のセグメントを含み得る。例えば、モデルエピソード301と関連づけられたメタデータは、モデルエピソード301がオープニングクレジットセグメントおよびクロージングクレジットセグメントを有することを示し得る。従って、ビデオ処理ロジック212は、本明細書において述べる方法の1以上を用いて、オープニングクレジットエピソード302内のセグメントの開始境界および終了境界、並びにクロージングクレジットエピソード302内のセグメントの開始境界および終了境界を見出し得る。
モデルエピソードと関連づけられたメタデータは、セグメントが任意選択であることを示し得る。任意選択セグメントは、シリーズ内の各エピソードが含み得るが、含む必要はないセグメントであり得る。例えば、シリーズ内のモデルエピソードはクロージングクレジットセグメントを有し得る。しかし、シリーズ内の1以上のエピソードは、ユーザが視聴することを望み得る、クライアントビデオプレイヤーコンピュータがデフォルトでスキップすべきではない新たなコンテンツ(例えば、ギャグリール等)を含むクロージングクレジットセグメントを含み得る。ビデオ処理ロジック212は、モデルフレームフィンガープリントおよびテストフレームフィンガープリント内の色分布に基づいて、シリーズ内の特定のエピソード内のクロージングクレジットセグメントの境界を決定し得るが、クロージングクレジットセグメントが任意選択であると決定されたことに応答して、ビデオ処理コンピュータは、本明細書において述べる方法の1以上を用いて、クロージングクレジットセグメント内の1以上のフレーム内において顔が検出されたか否かを決定し得る。ビデオ処理ロジック212が1以上の顔を検出した場合には、ビデオ処理ロジック212は、テストエピソードがクロージングクレジットセグメントを含まないこと、および/または、クライアントビデオプレイヤーがそのテストエピソードについてはクロージングクレジットセグメントをスキップすべきではないことを決定して、そのテストエピソードと関連づけられた、そのことを示すメタデータを格納し得る。一実施形態において、ビデオ処理ロジック212は、テストエピソードがクロージングクレジットセグメントを含まないことを示すメタデータを保留してもよく、および/または、含まなくてもよい。従って、クライアントビデオプレイヤーコンピュータ260は、そのテストエピソード内のクロージングビデオセグメントをダウンロードおよび/または再生し得る。
ビデオ処理コンピュータは、テストエピソードにおいて見出された1以上のセグメント、各セグメントの境界、および/または、本明細書において述べるようにビデオ処理コンピュータによって決定された1以上の他の特性を識別するための、各テストエピソードと関連づけられたメタデータを生成し得る。例えば、テストエピソード(例えば、エピソード302等)内の開始クレジットセグメントについての境界を決定したことに応答して、ビデオ処理ロジック212は、エピソード302と関連づけられた、エピソード302内のどのフレームがオープニングクレジットセグメントを含むかを示すメタデータを生成して格納し得る。
ビデオ処理コンピュータは、モデルエピソードに基づいて、テストエピソード内の1以上のセグメントであって、両方のエピソード内のフレームが同じ特性(例えば解像度、幅、および/または高さ等)を有するテストエピソード内のセグメントを検索し得る。同じテストエピソードの複数のバージョンがビデオデータストアに格納されている場合には、同じエピソードの異なるバージョン内の対応するフレームは同じタイムスタンプおよび/または他の指標値を有し得るので、ビデオ処理サーバコンピュータは、1以上のセグメントを求めてテストエピソードの各バージョンを検索する必要はない。ビデオ処理システムは、或るエピソードの特定のバージョンについて生成されたメタデータを、同じエピソードの1以上のバージョンに関連づけ得る。
図5は、例示的な一実施形態における、1以上の共通のビデオセグメントまたは音声セグメントを要求および/または再生せずに、クライアントコンピュータ上においてビデオを再生する処理を示す。ステップ510において、クライアントコンピュータは、第1のビデオタイトルを選択するユーザからの入力を受信し得る。例えば、クライアントビデオプレイヤーコンピュータ260は、エピソード302を選択するユーザからの入力を受信し得る。
クライアントコンピュータは、プレイヤーが特定のセグメント(例えば、オープニングクレジットセグメントおよび/またはクロージングクレジットセグメント等)を自動的にスキップすべきであることを示すユーザからの入力を受信し得る。それに応答して、クライアントコンピュータは、エピソードの、スキップされるべきであることをユーザが示した1以上のセグメントに対応するフレームをダウンロードおよび/または再生する必要はない。
クライアントコンピュータは、セグメントの境界において、1以上の視覚的効果および/または聴覚的効果を適用し得る。例えば、クライアントコンピュータは、クライアントコンピュータが特定のセグメントをスキップする前に、クライアントコンピュータがビデオセグメントの開始境界における、または開始境界付近のフレームを再生する際に、1以上のフレームにわたって黒へとフェードしてもよく、および/またはミュートへとフェードしてもよい。それに加えて、またはその代わりに、クライアントコンピュータは、クライアントコンピュータがセグメントの終了境界における、または終了境界付近のフレームを再生する際に、1以上のフレームにわたって黒からフェードしてもよく、および/またはミュートからフェードしてもよい。一実施形態において、クライアントコンピュータは、効果を実行する間に、スキップされるべきセグメント内の1以上のフレームを再生してもよい。
一実施形態によれば、本明細書において記載される技術は、1以上の専用コンピューティング装置によって実装される。専用コンピューティング装置は、この技術を実行するために配線されたものであってもよく、または、この技術を実行するよう持続的にプログラムされたデジタル電子装置(例えば、1以上の特定用途向け集積回路(ASIC)もしくはフィールドプログラマブルゲートアレイ(FPGA)等)を含んでもよく、または、ファームウェア、メモリ、他のストレージ、もしくはそれらの組合せ内にあるプログラム指示に従ってこの技術を実行するようプログラムされた1以上の汎用ハードウェアプロセッサを含んでもよい。また、そのような専用コンピューティング装置は、この技術を達成するために、カスタムのハードワイヤードロジック、ASIC、またはFPGAを、カスタムプログラミングと組わせてもよい。専用コンピューティング装置は、この技術を実装するためのハードワイヤードロジックおよび/またはプログラムロジックを組み込んだ、デスクトップコンピュータシステム、可搬型コンピュータシステム、携帯装置、ネットワーキング装置、または他の任意の装置であり得る。
上記の明細書において、本発明の実施形態を、実装毎に異なり得る多くの具体的な詳細を参照して説明した。従って、本発明であるもの、および、出願人が本発明であると意図するものは、本願の特許請求の範囲が発行される特定の形態における、その後の修正(あれば)を含む、本願の1組の請求項のみによって示される。そのような特許請求の範囲に含まれる用語について、本明細書において明示的に述べられている定義はいずれも、特許請求の範囲において用いられているそのような用語の意味を支配するものである。よって、特許請求の範囲において明示的に述べられていないいかなる限定、要素、特性、特徴、長所、または属性も、そのような特許請求の範囲を決して限定すべきではない。従って、明細書および図面は、本発明を限定するものではなく、説明するものであると見なされるべきである。
210 ビデオ処理コンピュータ
212 ビデオ処理ロジック
213 フィンガープリント生成ロジック
214 フィンガープリント比較ロジック
215 セグメント検出ロジック
220 コンテンツ配信ネットワーク
230 ビデオデータストア
240 ビデオサーバコンピュータ
250 ビデオカタログサーバコンピュータ
255 メタデータストア
260 クライアントビデオプレイヤーコンピュータ
600 コンピュータシステム
Claims (20)
- 第1のビデオおよび該第1のビデオと関連づけられた第2のビデオを格納するデータストアと、
前記データストアに結合されたコンピュータプロセッサであって、
前記データストアに格納されている前記第1のビデオの第1のモデルセグメント内の第1のモデルフレーム内の画素に基づいて、前記第1のビデオの第1のモデルフィンガープリントを生成し、
前記データストアに格納されている前記第2のビデオ内の第1のテストフレーム内の画素に基づいて、前記第2のビデオの第1のテストフィンガープリントを生成し、
前記第1のモデルフィンガープリントと前記第1のテストフィンガープリントに含まれる類似する項目の数の前記第1のモデルフィンガープリントと前記第1のテストフィンガープリントに含まれる全項目数に対する比に基づいて、前記第1のモデルフィンガープリントと前記第1のテストフィンガープリントとの間の第1の近さの値を決定し、
前記第1の近さの値に基づいて、前記第1のテストフレームが、前記第1のビデオ内の前記第1のモデルセグメントに類似している前記第2のビデオ内の第1のセグメントの第1の境界であるか否かを決定する
ようプログラムされたコンピュータプロセッサと
を含むことを特徴とするビデオ処理システム。 - 前記コンピュータプロセッサが、前記第1のテストフレームが前記第1の境界であると決定されたことに応答して、前記第1の境界が前記第2のビデオ内の前記第1のセグメントの終了境界であるか否かを決定し、肯定された場合には、前記終了境界を示す値を、前記第2のビデオを再生するよう構成されたクライアントコンピュータ上のビデオプレイヤーに送信するようプログラムされ、前記値が、前記ビデオプレイヤーに前記終了境界までスキップさせる、請求項1記載のビデオ処理システム。
- 前記コンピュータプロセッサが、
前記第1のテストフレームが前記第1の境界であると決定されたことに応答して、前記第1の境界が前記第2のビデオ内の前記第1のセグメントの開始境界であるか否かを決定し、肯定された場合には、前記開始境界を示す値を、前記第2のビデオを再生するよう構成されたクライアントコンピュータ上のビデオプレイヤーに送信するようプログラムされ、前記値が、前記ビデオプレイヤーに、前記第2のビデオの再生を停止させ、前記第1のビデオと関連づけられた第3のビデオを要求させ、ユーザのために前記第3のビデオの再生を開始させる、請求項1記載のビデオ処理システム。 - 前記コンピュータプロセッサが、
前記データストアに格納されている前記第1のビデオの前記第1のモデルセグメント内の第2のモデルフレーム内の画素に基づいて、第2のモデルフィンガープリントを生成し、
前記データストアに格納されている前記第2のビデオ内の第2のテストフレーム内の画素に基づいて、第2のテストフィンガープリントを生成し、
前記第2のモデルフィンガープリントと前記第2のテストフィンガープリントに含まれる類似する項目の数の前記第2のモデルフィンガープリントと前記第2のテストフィンガープリントに含まれる全項目数に対する比に基づいて、前記第2のモデルフィンガープリントと前記第2のテストフィンガープリントとの間の第2の近さの値を決定し、
前記第1の境界が前記第2のビデオ内の前記第1のセグメントの開始境界であり、第2の境界が前記第2のビデオ内の前記第1のセグメントの終了境界であり、前記第2の近さの値に基づいて、前記第2のテストフレームが前記第2のビデオ内の前記第1のセグメントの前記第2の境界であるか否かを決定し、
前記第1のテストフレームが前記第1の境界であり、且つ、前記第2のテストフレームが前記第2の境界であると決定されたことに応答して、前記開始境界を示す第1の値および前記終了境界を示す第2の値をクライアントコンピュータ上のビデオプレイヤーに送信するようプログラムされ、
前記第1の値および前記第2の値が、前記ビデオプレイヤーが前記開始境界に到達した際に、前記ビデオプレイヤーに前記第2のビデオ内の前記終了境界までスキップさせる、請求項1記載のビデオ処理システム。 - 前記コンピュータプロセッサが、
前記第1のモデルフレーム内の第1の組のモデル画素に基づいて、第1のモデル色分布であって、該第1のモデル色分布内の各特定の色が、該特定の色が割り当てられた前記第1の組のモデル画素内の画素の数を示す値と関連づけられた、第1のモデル色分布を決定することによって、前記第1のモデルフィンガープリントを生成し、
前記第1のテストフレーム内の第1の組のテスト画素に基づいて、第1のテスト色分布であって、該第1のテスト色分布内の各特定の色が、該特定の色が割り当てられた前記第1の組のテスト画素内の画素の数を示す値と関連づけられた、第1のテスト色分布を決定することによって、前記第1のテストフィンガープリントを生成する
ようプログラムされた、請求項1記載のビデオ処理システム。 - 前記コンピュータプロセッサが、
1組の差分値であって、該1組の差分値内の各差分値が或る色に対応しており、前記第1のテスト色分布内の前記色が割り当てられた画素の数と比較した前記第1のモデル色分布内の前記色が割り当てられた画素の数を示す、1組の差分値を決定し、
前記1組の差分値内の各差分値を加算することによって総和を決定し、
前記総和を前記第1の組のモデル画素内の画素の数によって除算することによって、前記第1の近さの値を決定する
ようプログラムされた、請求項5記載のビデオ処理システム。 - 前記コンピュータプロセッサが、前記第1のモデル色分布を前記第1のモデルフィンガープリントとして前記データストアに格納するようプログラムされた、請求項5記載のビデオ処理システム。
- 前記コンピュータプロセッサが、
前記第1の組のモデル画素および前記第1の組のテスト画素からの第1の色空間内の各画素の1以上の第1の色成分を、前記第1の色空間とは異なる第2の色空間において定義される1以上の第2の色成分に変換し、
前記第1の組のモデル画素内の各画素の前記1以上の第2の色成分に基づいて、前記第1のモデル色分布を決定し、
前記第1の組のテスト画素内の各画素の前記1以上の第2の色成分に基づいて、前記第1のテスト色分布を決定する
ようプログラムされた、請求項5記載のビデオ処理システム。 - 前記コンピュータプロセッサが、
前記データストアに格納されている前記第1のビデオの前記第1のモデルセグメント内の、前記第1のモデルフレームとは異なる第2のモデルフレーム内の画素に基づいて、第2のモデルフィンガープリントを生成し、
前記第2のビデオ内の第2のテストフレーム内の画素に基づいて、第2のテストフィンガープリントを生成し、
前記第2のモデルフィンガープリントと前記第2のテストフィンガープリントに含まれる類似する項目の数の前記第2のモデルフィンガープリントと前記第2のテストフィンガープリントに含まれる全項目数に対する比に基づいて、前記第2のモデルフィンガープリントと前記第2のテストフィンガープリントとの間の第2の近さの値を決定し、
前記第2のビデオ内の第1のセグメントが前記第1のビデオ内の前記第1のモデルセグメントに類似しており、前記第2の近さの値に基づいて、前記第1のテストフレームが前記第2のビデオ内の前記第1のセグメントの第1の境界であるか否かを決定する
ようプログラムされた、請求項1記載のビデオ処理システム。 - 前記コンピュータプロセッサが、前記第1の近さの値および前記第2の近さの値の両方が特定の閾値より低い場合に、前記第1のフレームが前記第2のビデオ内の前記第1のセグメントの前記第1の境界であると決定するようプログラムされた、請求項9記載のビデオ処理システム。
- 前記コンピュータプロセッサが、
前記第1のテストフレーム内に顔があるか否かを検出し、
前記第1のフレーム内において顔が検出されたと決定されたことに応答して、クライアントコンピュータ上のビデオプレイヤーからの、前記第1のテストフレームにおいて開始する前記第1のセグメントを前記ビデオプレイヤーがスキップしてもよいことを示すデータを保留する
ようプログラムされた、請求項1記載のビデオ処理システム。 - 前記第1のモデルフレームが、前記第1のテストフレームと同じ数の画素を有する、請求項1記載のビデオ処理システム。
- 1以上のコンピューティング装置によって行われる、クライアントコンピュータ上で再生するためにサーバコンピュータからのビデオを要求する方法であって、
第2のビデオタイトルと関連づけられ、該第2のビデオタイトルと共通の1以上のビデオセグメントを含む第1のビデオタイトルを選択するユーザからの入力を受信する工程であって、該共通の1以上のビデオセグメントは、該第1のビデオタイトルに関連づけられた第1のフィンガープリントと該第2のビデオタイトルに関連づけられた第2のフィンガープリントとに含まれる類似する項目の数の該第1のフィンガープリントと該第2のフィンガープリントとに含まれる項目の合計数に対する比に基づいた近さの値を使って、共通であると決定されるものである、工程と、
前記サーバコンピュータからの、前記第1のビデオタイトルと関連づけられた、スキップされてよい1以上の共通のセグメントを示す1組のメタデータを要求する工程と、
前記第1のビデオタイトルと関連づけられた前記メタデータを受信し、それに応答して、前記1以上の共通のビデオセグメント内に含まれるフレームを含む1以上の第2のビデオチャンクを要求せずに、前記第1のビデオタイトルと関連づけられた1以上の第1のビデオチャンクを要求する工程と
を含むことを特徴とする方法。 - 前記1以上の第2のビデオチャンクと関連づけられた第2の組の音声データを要求せずに、前記1以上の第1のビデオチャンクと関連づけられた第1の組の音声データを要求する工程を含む、請求項13記載の方法。
- 前記第1のビデオタイトルと関連づけられたビデオおよび音声を再生する工程と、前記スキップされてよい1以上の共通のセグメントの各境界において1以上の視覚的効果および1以上の聴覚的効果を適用する工程とを含む、請求項13記載の方法。
- メモリと、
前記メモリに結合された1以上のプロセッサと、
前記1以上のプロセッサおよび前記メモリに結合されたフィンガープリント生成ロジックであって、第1のビデオのモデルセグメント内の第1のモデルフレーム内の画素に基づいて、前記第1のビデオの第1のモデルフィンガープリントを生成し、第1のテストフレーム内の画素に基づいて、第2のビデオの第1のテストフィンガープリントを生成するよう構成されたフィンガープリント生成ロジックと、
前記メモリおよび前記1以上のプロセッサに結合されたフィンガープリント比較ロジックであって、前記第1のモデルフィンガープリントと前記第1のテストフィンガープリントに含まれる類似する項目の数の前記第1のモデルフィンガープリントと前記第1のテストフィンガープリントに含まれる全項目数に対する比に基づいて、前記第1のモデルフィンガープリントと前記第1のテストフィンガープリントとの間の第1の近さの値を決定するよう構成されたフィンガープリント比較ロジックと、
前記メモリおよび前記1以上のプロセッサに結合されたセグメント検出ロジックであって、前記第1の近さの値に基づいて、前記第1のテストフレームが前記第2のビデオ内のセグメントの第1の境界であることを決定するよう構成されたセグメント検出ロジックと
を含むことを特徴とする、デジタルビデオ配布システム。 - 前記フィンガープリント生成ロジックが、前記第1のビデオの前記モデルセグメント内の第2のモデルフレーム内の画素に基づいて、前記第1のビデオの第2のモデルフィンガープリントを生成し、前記第2のビデオ内の第2のテストフレーム内の画素に基づいて、前記第2のビデオの第2のテストフィンガープリントを生成するよう構成され、
前記フィンガープリント比較ロジックが、前記第2のモデルフィンガープリントと前記第2のテストフィンガープリントに含まれる類似する項目の数の前記第2のモデルフィンガープリントと前記第2のテストフィンガープリントに含まれる全項目数に対する比に基づいて、前記第2のモデルフィンガープリントと前記第2のテストフィンガープリントとの間の第2の近さの値を決定するよう構成され、
前記セグメント検出ロジックが、前記第2の近さの値に基づいて、前記第2のテストフレームが前記第2のビデオ内の前記セグメントの第2の境界であることを決定するよう構成された、
請求項16記載のデジタルビデオ配布システム。 - 前記セグメント検出ロジックに結合されたストレージを含み、前記セグメント検出ロジックが、前記ストレージ内にある前記第2のビデオと関連づけられた1組のメタデータであって、前記第1のテストフレームが前記第2のビデオ内の前記セグメントの前記第1の境界であり、且つ、前記第2のテストフレームが前記第2のビデオ内の前記セグメントの前記第2の境界であることを示すメタデータを格納するよう構成された、請求項17記載のデジタルビデオ配布システム。
- 前記ストレージに結合されたビデオカタログサーバコンピュータを含み、該ビデオカタログサーバコンピュータが、クライアントビデオプレイヤーコンピュータからの、前記第2のビデオと関連づけられたメタデータに対する要求を受信し、それに応答して、前記第2のビデオと関連づけられた前記1組のメタデータを読み出し、前記1組のメタデータを前記クライアントビデオプレイヤーコンピュータに送信するよう構成された、請求項18記載のデジタルビデオ配布システム。
- 前記クライアントビデオプレイヤーコンピュータが、1以上のコンピュータネットワークを介して前記ビデオカタログサーバコンピュータに結合されており、前記1組のメタデータにおいて識別されている前記第2のビデオ内の前記セグメントの少なくとも一部を要求、ダウンロード、または再生せずに、前記第2のビデオを再生するよう構成された、請求項19記載のデジタルビデオ配布システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/660,894 | 2015-03-17 | ||
US14/660,894 US9418296B1 (en) | 2015-03-17 | 2015-03-17 | Detecting segments of a video program |
PCT/US2016/017528 WO2016148807A1 (en) | 2015-03-17 | 2016-02-11 | Detecting segments of a video program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018514118A JP2018514118A (ja) | 2018-05-31 |
JP6564464B2 true JP6564464B2 (ja) | 2019-08-21 |
Family
ID=55629094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017548386A Active JP6564464B2 (ja) | 2015-03-17 | 2016-02-11 | ビデオプログラムのセグメントの検出 |
Country Status (10)
Country | Link |
---|---|
US (3) | US9418296B1 (ja) |
EP (1) | EP3271865B1 (ja) |
JP (1) | JP6564464B2 (ja) |
KR (1) | KR102004637B1 (ja) |
CN (1) | CN107534796B (ja) |
AU (3) | AU2016233893B2 (ja) |
CA (1) | CA2979177C (ja) |
MX (1) | MX2017011793A (ja) |
PL (1) | PL3271865T3 (ja) |
WO (1) | WO2016148807A1 (ja) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9146990B2 (en) * | 2013-01-07 | 2015-09-29 | Gracenote, Inc. | Search and identification of video content |
US9418296B1 (en) * | 2015-03-17 | 2016-08-16 | Netflix, Inc. | Detecting segments of a video program |
US20180139501A1 (en) * | 2015-06-24 | 2018-05-17 | Thomson Licensing | Optimized delivery of sequential content by skipping redundant segments |
US9734409B2 (en) * | 2015-06-24 | 2017-08-15 | Netflix, Inc. | Determining native resolutions of video sequences |
US10375443B2 (en) * | 2015-07-31 | 2019-08-06 | Rovi Guides, Inc. | Method for enhancing a user viewing experience when consuming a sequence of media |
US10938871B2 (en) | 2016-11-29 | 2021-03-02 | Roku, Inc. | Skipping content of lesser interest when streaming media |
US10291964B2 (en) * | 2016-12-06 | 2019-05-14 | At&T Intellectual Property I, L.P. | Multimedia broadcast system |
US10560506B2 (en) * | 2017-07-19 | 2020-02-11 | Netflix, Inc. | Identifying previously streamed portions of a media title to avoid repetitive playback |
US10601686B2 (en) * | 2017-10-17 | 2020-03-24 | Rovi Guides, Inc. | Systems and methods for improving quality of service while streaming code-agnostic content |
US11416546B2 (en) * | 2018-03-20 | 2022-08-16 | Hulu, LLC | Content type detection in videos using multiple classifiers |
CN108769731B (zh) * | 2018-05-25 | 2021-09-24 | 北京奇艺世纪科技有限公司 | 一种检测视频中目标视频片段的方法、装置及电子设备 |
CN110691281B (zh) | 2018-07-04 | 2022-04-01 | 北京字节跳动网络技术有限公司 | 视频播放处理方法、终端设备、服务器及存储介质 |
CN109101964B (zh) * | 2018-08-15 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 确定多媒体文件中首尾区域的方法、设备及存储介质 |
US10694244B2 (en) | 2018-08-23 | 2020-06-23 | Dish Network L.L.C. | Automated transition classification for binge watching of content |
US11611803B2 (en) | 2018-12-31 | 2023-03-21 | Dish Network L.L.C. | Automated content identification for binge watching of digital media |
US10887652B2 (en) * | 2019-03-08 | 2021-01-05 | Rovi Guides, Inc. | Systems and methods for providing media content for continuous watching |
US10917674B2 (en) * | 2019-03-08 | 2021-02-09 | Rovi Guides, Inc. | Systems and methods for providing media content for continuous watching |
CA3104700A1 (en) * | 2019-03-08 | 2020-09-17 | Rovi Guides, Inc. | Systems and methods for providing media content for continuous watching |
CN113039805B (zh) * | 2019-10-25 | 2023-07-14 | 谷歌有限责任公司 | 一种基于指纹匹配的媒体片段提取方法及系统 |
CN111479130B (zh) * | 2020-04-02 | 2023-09-26 | 腾讯科技(深圳)有限公司 | 一种视频定位方法、装置、电子设备和存储介质 |
US20210319230A1 (en) * | 2020-04-10 | 2021-10-14 | Gracenote, Inc. | Keyframe Extractor |
US11647253B2 (en) | 2020-06-29 | 2023-05-09 | Rovi Guides, Inc. | Systems and methods for providing improved skip and delay functionality in media assets |
US11240561B2 (en) | 2020-06-29 | 2022-02-01 | Rovi Guides, Inc. | Systems and methods for providing improved skip and delay functionality in media assets |
CN113766311B (zh) * | 2021-04-29 | 2023-06-02 | 腾讯科技(深圳)有限公司 | 用于确定视频中的视频段数的方法及装置 |
CN113537082B (zh) * | 2021-07-20 | 2023-04-07 | 郑州轻工业大学 | 一种基于信息不全的故障辨识方法 |
CN113627363B (zh) * | 2021-08-13 | 2023-08-15 | 百度在线网络技术(北京)有限公司 | 视频文件的处理方法、装置、设备以及存储介质 |
US11930189B2 (en) * | 2021-09-30 | 2024-03-12 | Samsung Electronics Co., Ltd. | Parallel metadata generation based on a window of overlapped frames |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0636026A (ja) * | 1992-07-13 | 1994-02-10 | Toshiba Corp | 動画像処理装置 |
JP2000004423A (ja) * | 1998-06-17 | 2000-01-07 | Sony Corp | 情報再生装置及び方法 |
JP2000250944A (ja) * | 1998-12-28 | 2000-09-14 | Toshiba Corp | 情報提供方法、情報提供装置、情報受信装置、並びに情報記述方法 |
JP3971614B2 (ja) * | 2001-01-22 | 2007-09-05 | 松下電器産業株式会社 | 画像データ送信方法及び画像データ送信装置 |
US7809154B2 (en) | 2003-03-07 | 2010-10-05 | Technology, Patents & Licensing, Inc. | Video entity recognition in compressed digital video streams |
CN1595970A (zh) * | 2004-06-22 | 2005-03-16 | 威盛电子股份有限公司 | 根据开始/结束片段特定画面检测广告片段的方法及系统 |
KR20070046846A (ko) * | 2004-08-12 | 2007-05-03 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 비디오 또는 오디오 데이터 스트림으로부터의 콘텐트 선택 |
JP4588069B2 (ja) * | 2005-03-31 | 2010-11-24 | パイオニア株式会社 | 操作者認識装置、操作者認識方法、および、操作者認識プログラム |
US20060271947A1 (en) | 2005-05-23 | 2006-11-30 | Lienhart Rainer W | Creating fingerprints |
WO2007000959A1 (ja) * | 2005-06-27 | 2007-01-04 | Matsushita Electric Industrial Co., Ltd. | 同一シーン検出方法および装置およびプログラムを格納した記憶媒体 |
JP2007048379A (ja) * | 2005-08-10 | 2007-02-22 | Canon Inc | プログラムの再生方法 |
WO2008062145A1 (en) | 2006-11-22 | 2008-05-29 | Half Minute Media Limited | Creating fingerprints |
US7559017B2 (en) | 2006-12-22 | 2009-07-07 | Google Inc. | Annotation framework for video |
US7631557B2 (en) * | 2007-01-24 | 2009-12-15 | Debeliso Mark | Grip force transducer and grip force assessment system and method |
JP2008193585A (ja) * | 2007-02-07 | 2008-08-21 | Victor Co Of Japan Ltd | 放送番組記録再生装置および放送番組記録再生方法 |
KR101330637B1 (ko) * | 2007-05-15 | 2013-11-18 | 삼성전자주식회사 | 영상 및 영상 정보 검색 장치 및 방법, 그리고 그 시스템 |
WO2009005747A1 (en) * | 2007-06-28 | 2009-01-08 | The Trustees Of Columbia University In The City Of New York | Set-top box peer-assisted video-on-demand |
US8417037B2 (en) | 2007-07-16 | 2013-04-09 | Alexander Bronstein | Methods and systems for representation and matching of video content |
JP5074864B2 (ja) * | 2007-09-03 | 2012-11-14 | シャープ株式会社 | データ送信装置、データ送信方法、視聴環境制御装置、視聴環境制御システム、及び視聴環境制御方法 |
JP5354664B2 (ja) * | 2009-05-28 | 2013-11-27 | Necカシオモバイルコミュニケーションズ株式会社 | デジタルデータ受信機、及び、プログラム |
WO2011021289A1 (ja) * | 2009-08-20 | 2011-02-24 | 富士通株式会社 | 動画像処理装置、サムネイル画像生成プログラムおよびサムネイル画像生成方法 |
JP2012080354A (ja) * | 2010-10-01 | 2012-04-19 | Video Research:Kk | 検出装置及び検出方法 |
US20120106854A1 (en) * | 2010-10-28 | 2012-05-03 | Feng Tang | Event classification of images from fusion of classifier classifications |
JP2012175478A (ja) * | 2011-02-23 | 2012-09-10 | Hitachi Consumer Electronics Co Ltd | デジタルコンテンツ再生装置、および、メタデータ生成方法 |
JP5372068B2 (ja) * | 2011-05-20 | 2013-12-18 | キヤノン株式会社 | 撮像システム、画像処理装置 |
JP2012244446A (ja) * | 2011-05-20 | 2012-12-10 | Hitachi Consumer Electronics Co Ltd | コンテンツ受信機およびコンテンツ受信方法 |
CN102323948A (zh) * | 2011-09-07 | 2012-01-18 | 上海大学 | 一种电视剧视频片头片尾自动检测方法 |
CN102799605B (zh) * | 2012-05-02 | 2016-03-23 | 天脉聚源(北京)传媒科技有限公司 | 一种广告监播方法和系统 |
CN102737689B (zh) * | 2012-06-08 | 2016-01-20 | Tcl集团股份有限公司 | 一种片头/片尾位置的定位方法、装置及电视 |
CN102779184B (zh) * | 2012-06-29 | 2014-05-14 | 中国科学院自动化研究所 | 一种近似重复视频片段自动定位方法 |
US9773228B2 (en) * | 2012-11-02 | 2017-09-26 | Facebook, Inc. | Systems and methods for sharing images in a social network |
US20140255004A1 (en) * | 2013-03-07 | 2014-09-11 | International Business Machines Corporation | Automatically determining and tagging intent of skipped streaming and media content for collaborative reuse |
CN103686340B (zh) * | 2013-12-05 | 2017-12-12 | 深圳Tcl新技术有限公司 | 电子播放设备的节目播放方法及电子播放设备 |
CN103747327A (zh) * | 2013-12-20 | 2014-04-23 | Tcl集团股份有限公司 | 过滤广告的频道切换方法及装置 |
CN103716676B (zh) * | 2013-12-30 | 2017-07-28 | 深圳Tcl新技术有限公司 | 智能电视的视频节目播放方法及装置 |
CN104113780A (zh) * | 2014-06-25 | 2014-10-22 | 小米科技有限责任公司 | 广告处理方法及装置 |
CN104166685B (zh) * | 2014-07-24 | 2017-07-11 | 北京捷成世纪科技股份有限公司 | 一种检测视频片段的方法和装置 |
US9418296B1 (en) * | 2015-03-17 | 2016-08-16 | Netflix, Inc. | Detecting segments of a video program |
-
2015
- 2015-03-17 US US14/660,894 patent/US9418296B1/en active Active
-
2016
- 2016-02-11 KR KR1020177029505A patent/KR102004637B1/ko active IP Right Grant
- 2016-02-11 JP JP2017548386A patent/JP6564464B2/ja active Active
- 2016-02-11 CN CN201680024814.6A patent/CN107534796B/zh active Active
- 2016-02-11 WO PCT/US2016/017528 patent/WO2016148807A1/en active Application Filing
- 2016-02-11 AU AU2016233893A patent/AU2016233893B2/en active Active
- 2016-02-11 EP EP16711914.8A patent/EP3271865B1/en active Active
- 2016-02-11 MX MX2017011793A patent/MX2017011793A/es active IP Right Grant
- 2016-02-11 PL PL16711914.8T patent/PL3271865T3/pl unknown
- 2016-02-11 CA CA2979177A patent/CA2979177C/en active Active
- 2016-08-04 US US15/228,143 patent/US9727788B2/en active Active
-
2017
- 2017-08-06 US US15/669,949 patent/US10452919B2/en active Active
-
2018
- 2018-11-29 AU AU2018271355A patent/AU2018271355B2/en not_active Withdrawn - After Issue
-
2020
- 2020-08-11 AU AU2020217352A patent/AU2020217352A1/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
KR102004637B1 (ko) | 2019-07-26 |
CA2979177C (en) | 2021-01-26 |
US9418296B1 (en) | 2016-08-16 |
AU2020217352A1 (en) | 2020-09-03 |
EP3271865A1 (en) | 2018-01-24 |
WO2016148807A1 (en) | 2016-09-22 |
AU2018271355B2 (en) | 2020-05-28 |
CA2979177A1 (en) | 2016-09-22 |
US9727788B2 (en) | 2017-08-08 |
AU2016233893B2 (en) | 2018-08-30 |
AU2018271355A1 (en) | 2018-12-20 |
MX2017011793A (es) | 2018-04-20 |
CN107534796A (zh) | 2018-01-02 |
US20160342844A1 (en) | 2016-11-24 |
PL3271865T3 (pl) | 2024-01-29 |
US10452919B2 (en) | 2019-10-22 |
CN107534796B (zh) | 2020-11-20 |
AU2016233893A1 (en) | 2017-09-28 |
KR20170128501A (ko) | 2017-11-22 |
US20170337427A1 (en) | 2017-11-23 |
JP2018514118A (ja) | 2018-05-31 |
EP3271865B1 (en) | 2023-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6564464B2 (ja) | ビデオプログラムのセグメントの検出 | |
US10368123B2 (en) | Information pushing method, terminal and server | |
JP6735927B2 (ja) | ビデオコンテンツの要約処理 | |
US9892324B1 (en) | Actor/person centric auto thumbnail | |
JP6624958B2 (ja) | 通信装置、通信システム、通信制御方法およびコンピュータプログラム | |
US9118886B2 (en) | Annotating general objects in video | |
US11120293B1 (en) | Automated indexing of media content | |
US11343568B2 (en) | Digital media system | |
CN108737884B (zh) | 一种内容录制方法及其设备、存储介质、电子设备 | |
US11134318B2 (en) | System and method for identifying altered content | |
US11874952B2 (en) | System and method for identifying altered content | |
CN111095939A (zh) | 识别媒体项目的先前流传输部分以避免重复重放 | |
JP2020513705A (ja) | ビデオフレームの複数の部分のフィンガープリントを生成することによって立体ビデオを検出するための方法、システム、および媒体 | |
US20240056549A1 (en) | Method, computer device, and computer program for providing high-quality image of region of interest by using single stream | |
CN108989905B (zh) | 媒体流控制方法、装置、计算设备及存储介质 | |
JP6623905B2 (ja) | サーバ装置、情報処理方法およびプログラム | |
JP5544030B2 (ja) | 動画シーンのクリップ構成システム、方法および記録メディア | |
JP6973567B2 (ja) | 情報処理装置及びプログラム | |
JP2009193386A (ja) | 文字認識装置及びそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181031 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190131 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190401 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190425 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190703 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190726 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6564464 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |