JP7511482B2

JP7511482B2 - 埋め込まれた情報カード位置特定およびコンテンツ抽出のためのビデオ処理

Info

Publication number: JP7511482B2
Application number: JP2020564749A
Authority: JP
Inventors: ストヤンシック，ミハイロ; パッカード，ウォレン; カニギン，デニス
Original assignee: Stats LLC
Current assignee: Stats LLC
Priority date: 2018-05-18
Filing date: 2019-05-15
Publication date: 2024-07-05
Anticipated expiration: 2039-05-15

Description

関連出願の相互参照
本出願は、２０１８年５月１８日に出願された「ＭａｃｈｉｎｅＬｅａｒｎｉｎｇｆｏｒＲｅｃｏｇｎｉｚｉｎｇａｎｄＩｎｔｅｒｐｒｅｔｉｎｇＥｍｂｅｄｄｅｄＩｎｆｏｒｍａｔｉｏｎＣａｒｄＣｏｎｔｅｎｔ」に関する米国仮特許出願整理番号第６２／６７３，４１２号（代理人整理番号第ＴＨＵ０１０－ＰＲＯＶ号）の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１８年５月１８日に出願された「ＶｉｄｅｏＰｒｏｃｅｓｓｉｎｇｆｏｒＥｎａｂｌｉｎｇＳｐｏｒｔｓＨｉｇｈｌｉｇｈｔｓＧｅｎｅｒａｔｉｏｎ」に関する米国仮特許出願整理番号第６２／６７３，４１１号（代理人整理番号第ＴＨＵ００９－ＰＲＯＶ号）の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１８年５月１８日に出願された「ＶｉｄｅｏＰｒｏｃｅｓｓｉｎｇｆｏｒＥｍｂｅｄｄｅｄＩｎｆｏｒｍａｔｉｏｎＣａｒｄＬｏｃａｌｉｚａｔｉｏｎａｎｄＣｏｎｔｅｎｔＥｘｔｒａｃｔｉｏｎ」に関する米国仮特許出願整理番号第６２／６７３，４１３号（代理人整理番号第ＴＨＵ０１２－ＰＲＯＶ号）の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１８年６月５日に出願された「ＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇｆｏｒＤｅｔｅｃｔｉｎｇＯｃｃｕｒｒｅｎｃｅｓｏｆＣｒｏｗｄＮｏｉｓｅｉｎＳｐｏｒｔｉｎｇＥｖｅｎｔＴｅｌｅｖｉｓｉｏｎＰｒｏｇｒａｍｍｉｎｇ」に関する米国仮特許出願整理番号第６２／６８０，９５５号（代理人整理番号第ＴＨＵ００７－ＰＲＯＶ号）の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１８年７月３０日に出願された「ＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇｆｏｒＥｘｔｒａｃｔｉｏｎｏｆＶａｒｉａｂｌｅＬｅｎｇｔｈＤｉｓｊｏｉｎｔＳｅｇｍｅｎｔｓｆｒｏｍＴｅｌｅｖｉｓｉｏｎＳｉｇｎａｌ」に関する米国仮特許出願整理番号第６２／７１２，０４１号（代理人整理番号第ＴＨＵ００６－ＰＲＯＶ号）の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１８年１０月１６日に出願された「ＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇｆｏｒＤｅｔｅｃｔｉｎｇＯｃｃｕｒｒｅｎｃｅｓｏｆＬｏｕｄＳｏｕｎｄＣｈａｒａｃｔｅｒｉｚｅｄｂｙＳｈｏｒｔ－ＴｉｍｅＥｎｅｒｇｙＢｕｒｓｔｓ」に関する米国仮特許出願整理番号第６２／７４６，４５４号（代理人整理番号第ＴＨＵ０１６－ＰＲＯＶ号）の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１９年５月１４日に出願された「ＭａｃｈｉｎｅＬｅａｒｎｉｎｇｆｏｒＲｅｃｏｇｎｉｚｉｎｇａｎｄＩｎｔｅｒｐｒｅｔｉｎｇＥｍｂｅｄｄｅｄＩｎｆｏｒｍａｔｉｏｎＣａｒｄＣｏｎｔｅｎｔ」に関する米国実用特許出願整理番号第１６／４１１，７１０号（代理人整理番号第ＴＨＵ０１０号）の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１９年５月１４日に出願された「ＶｉｄｅｏＰｒｏｃｅｓｓｉｎｇｆｏｒＥｎａｂｌｉｎｇＳｐｏｒｔｓＨｉｇｈｌｉｇｈｔｓＧｅｎｅｒａｔｉｏｎ」に関する米国実用特許出願整理番号第１６／４１１，７０４号（代理人整理番号第ＴＨＵ００９号）の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１９年５月１４日に出願された「ＶｉｄｅｏＰｒｏｃｅｓｓｉｎｇｆｏｒＥｍｂｅｄｄｅｄＩｎｆｏｒｍａｔｉｏｎＣａｒｄＬｏｃａｌｉｚａｔｉｏｎａｎｄＣｏｎｔｅｎｔＥｘｔｒａｃｔｉｏｎ」に関する米国実用特許出願整理番号第１６／４１１，７１３号（代理人整理番号第ＴＨＵ０１２号）の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１２年８月３１日に出願され、２０１５年６月１６日に米国特許第９，０６０，２１０号として発行された、「ＧｅｎｅｒａｔｉｎｇＥｘｃｉｔｅｍｅｎｔＬｅｖｅｌｓｆｏｒＬｉｖｅＰｅｒｆｏｒｍａｎｃｅｓ」に関する米国実用特許出願整理番号第１３／６０１，９１５に関するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１２年８月３１日に出願され、２０１４年９月２３日に米国特許第８，８４２，００７号として発行された、「ＧｅｎｅｒａｔｉｎｇＡｌｅｒｔｓｆｏｒＬｉｖｅＰｅｒｆｏｒｍａｎｃｅｓ」に関する米国実用特許出願整理番号第１３／６０１，９２７に関するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１２年８月３１日に出願され、２０１３年１１月２６日に米国特許第８，５９５，７６３号として発行された、「ＧｅｎｅｒａｔｉｎｇＴｅａｓｅｒｓｆｏｒＬｉｖｅＰｅｒｆｏｒｍａｎｃｅｓ」に関する米国実用特許出願整理番号第１３／６０１，９３３に関するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１４年１０月９日に出願された「ＧｅｎｅｒａｔｉｎｇａＣｕｓｔｏｍｉｚｅｄＨｉｇｈｌｉｇｈｔＳｅｑｕｅｎｃｅＤｅｐｉｃｔｉｎｇａｎＥｖｅｎｔ」に関する米国実用特許出願整理番号第１４／５１０，４８１号（代理人整理番号第ＴＨＵ００１号）に関するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１５年５月１２日に出願された「ＧｅｎｅｒａｔｉｎｇａＣｕｓｔｏｍｉｚｅｄＨｉｇｈｌｉｇｈｔＳｅｑｕｅｎｃｅＤｅｐｉｃｔｉｎｇＭｕｌｔｉｐｌｅＥｖｅｎｔｓ」に関する米国実用特許出願整理番号第１４／７１０，４３８号（代理人整理番号第ＴＨＵ００２号）に関するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１５年１０月７日に出願された「ＣｕｓｔｏｍｉｚｅｄＧｅｎｅｒａｔｉｏｎｏｆＨｉｇｈｌｉｇｈｔＳｈｏｗｗｉｔｈＮａｒｒａｔｉｖｅＣｏｍｐｏｎｅｎｔ」に関する米国実用特許出願整理番号第１４／８７７，６９１号（代理人整理番号第ＴＨＵ００４号）に関するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１６年９月１４日に出願された「ＵｓｅｒＩｎｔｅｒｆａｃｅｆｏｒＩｎｔｅｒａｃｔｉｏｎｗｉｔｈＣｕｓｔｏｍｉｚｅｄＨｉｇｈｌｉｇｈｔＳｈｏｗｓ」に関する米国実用特許出願整理番号第１５／２６４，９２８号（代理人整理番号第ＴＨＵ００５号）に関するものであり、その全体が参照により本明細書に組み込まれる。

本文書は、マルチメディアコンテンツを配信するテレビデバイスまたはビデオサーバ上のマルチメディアコンテンツおよび関連する情報を識別し、またマルチメディアコンテンツと同期してコンテンツおよびサービスを提供するために、組み込みソフトウェアアプリケーションがマルチメディアコンテンツを利用することを可能にする技術に関する。様々な実施形態は、スポーツテレビビデオコンテンツ内の情報を識別および抽出し、スポーツテレビビデオコンテンツの試合中および試合後のレビューのためのビデオハイライトに関連付けられたメタデータを作成するために使用される自動化ビデオおよび音声分析を提供するための方法およびシステムに関する。

試合前、試合中、および試合後の対話的なアプリケーションを有する対話的な広告および強化された番組ガイドなどの拡張テレビアプリケーションが長い間構想されてきた。もともと放送テレビ用に設計された既存のケーブルシステムは、対話的テレビサービスおよび拡張（対話的）番組制作ガイドを含む、新しいアプリケーションおよびサービスのホストをサポートすることが求められている。

拡張テレビアプリケーションを可能にするためのいくつかのフレームワークが標準化されている。例としては、ＯｐｅｎＣａｂｌｅ^（商標）拡張ＴＶアプリケーションメッセージング仕様およびＴｒｕ２ｗａｙ仕様が挙げられ、これらは、ケーブルビデオネットワークを介して配信される対話的なデジタルケーブルサービスを指し、対話的な番組ガイド、対話的な広告、およびゲームなどの機能を含んでいる。さらに、ケーブル事業者の「ＯＣＡＰ」プログラムは、ｅコマースショッピング、オンラインバンキング、電子番組ガイド、およびデジタルビデオ録画などの対話的なサービスを提供している。これらの取り組みにより、番組制作者／放送局が配信するビデオコンテンツと同期した第一世代のビデオ同期アプリケーションが可能となり、テレビ番組制作に付加的なデータと対話的性を提供している。

ビデオ／音声コンテンツ分析技術および対応するモバイルデバイスの最近の開発により、ライブＴＶ番組イベントと同期して動作する高度なアプリケーションの開発において、一連の新しい可能性が開かれた。これらの新しい技術およびコンピュータビジョン、およびビデオ処理の進歩、ならびに最新のプロセッサの改善された計算能力により、メタデータを伴う高度な番組コンテンツのハイライトをリアルタイムで生成できるようになった。

スポーツテレビ放送番組において、１つのビデオフレームまたは複数のビデオフレーム内の情報スコアボードなどの、情報カード（「カード画像」）の位置を自動的に見つけるための方法およびシステムが提示される。また、位置特定されたカード画像の様々なフィールド内のテキスト列を識別し、位置特定されたカード画像の様々なフィールドからテキスト情報を読み取って解釈するための方法およびシステムも記載される。

少なくとも１つの実施形態では、カード画像の検出、位置特定、および読み取りは、スポーツテレビ番組コンテンツの提示に関して同期的に実施される。少なくとも１つの実施形態では、デジタルビデオストリームを受信し、デジタルビデオストリームの１つ以上のフレームを分析し、カード画像四辺形を自動的に検出および位置特定するための自動化プロセスが提供される。別の実施形態では、１つ以上の位置特定されたカード画像を分析し、テキスト列（例えば、テキストボックス内の）を認識および抽出し、抽出されたテキストボックスから情報を読み取るための自動化プロセスが提供される。

さらに別の実施形態では、カード画像内の特定のフィールドに関連付けられた検出されたテキスト列が解釈され、したがって、スポーツイベントのテレビ放送のコンテンツに関連する試合内の情報を即座に提供する。抽出されたフレーム内情報は、視聴覚およびテキストデータに関連付けられた放送テレビ番組コンテンツのハイライトのセットとして、自動的に作成されたカスタムビデオコンテンツに関連するメタデータを生成するために使用されてもよい。

少なくとも１つの実施形態では、ビデオストリームからメタデータを抽出するための方法は、ビデオストリームの少なくとも１つの部分をデータストアに記憶することを含んでもよい。プロセッサにおいて、ビデオフレームのうちの少なくとも１つに埋め込まれた１つ以上のカード画像は、カード画像を含むビデオフレーム領域を定義するビデオフレーム内の所定の位置を識別すること、およびビデオフレームの複数の領域を順次処理して、カード画像を含むビデオフレーム領域を識別することのうちの少なくとも１つを実施することによって、自動的に識別および抽出されてもよい。プロセッサにおいて、カード画像を分析してメタデータを取得してもよく、メタデータは、ビデオフレームのうちの少なくとも１つに関連付けてデータストアに記憶してもよい。

少なくとも１つの実施形態では、ビデオストリームは、スポーツイベントの放送であってもよい。前記ビデオフレームが、１人以上のユーザ対する特定の関心を有するとみなされるハイライトを構成してもよい。メタデータは、ハイライト中のスポーツイベントのステータスを記述していてもよい。

少なくとも１つの実施形態では、本方法は、出力デバイスにおいて、ハイライトの表示中にメタデータを提示することをさらに含んでもよい。カード画像を自動的に識別および抽出し、前記カード画像を分析してメタデータを取得することが、ハイライトに対してハイライトの表示中に実行されもよい。

少なくとも１つの実施形態では、本方法は、ビデオフレーム領域からカード画像を位置特定および抽出することをさらに含んでもよい。ビデオフレーム領域からカード画像を位置特定および抽出することは、ビデオフレームをトリミングしてビデオフレーム領域を分離することを含んでもよい。代替的にまたは追加的に、ビデオフレーム領域からカード画像を位置特定および抽出することは、ビデオフレーム領域またはビデオフレーム領域の処理されたバージョンをセグメント化してセグメント化された画像を生成することと、セグメント化された画像の境界に隣接するセグメントのピクセル値を修正することとを含んでもよい。代替的にまたは追加的に、ビデオフレーム領域からカード画像を位置特定および抽出することは、ビデオフレーム領域またはビデオフレーム領域の処理されたバージョンから背景を除去することを含んでもよい。代替的にまたは追加的に、ビデオフレーム領域からカード画像を位置特定および抽出することは、ビデオフレーム領域に基づいてエッジ画像を生成すること、エッジ画像内の輪郭を見つけることと、輪郭を多角形として近似することと、輪郭のすべてを包含する最小の長方形周囲で囲まれた領域を抽出して周囲長方形画像を生成することと、を含んでもよい。

少なくとも１つの実施形態では、本方法は、周囲長方形画像の各エッジに対して、反復的に、色修正されたピクセルをカウントし、任意の境界エッジを、しきい値を超える色修正されたピクセルの数で内側に移動することをさらに含んでもよい。

少なくとも１つの実施形態では、本方法は、ビデオフレーム領域内の第１のピクセル数、周囲長方形画像内の第２のピクセル数、および調整された周囲長方形の画像内の第３のピクセル数をカウントすることによって、領域内で検出された四辺形を検証することをさらに含んでもよい。第１の数、第２の数、および第３の数を比較して、領域内で想定される四辺形が実行可能かどうかを決定してもよい。

少なくとも１つの実施形態では、ビデオフレーム領域からカード画像を位置特定および抽出することは、カード画像の左側の境界（または別の境界）を調整することを含んでもよい。

さらなる詳細および変形例は、本明細書に記載されている。

添付の図面は、説明とともに、いくつかの実施形態を示している。当業者は、図面に示される特定の実施形態は単なる例示的なものであり、範囲を限定することを意図するものではないことを認識するであろう。
クライアント／サーバの実施形態による、ハードウェアアーキテクチャを描くブロック図であり、イベントコンテンツは、ネットワーク接続されたコンテンツプロバイダを介して提供される。別のクライアント／サーバの実施形態による、ハードウェアアーキテクチャを描くブロック図であり、イベントコンテンツは、クライアントベースの記憶デバイスに記憶される。スタンドアロンの実施形態による、ハードウェアアーキテクチャを描くブロック図である。一実施形態による、システムアーキテクチャの概要を描くブロック図である。一実施形態による、カード画像、ユーザデータ、およびハイライトデータに組み込むことができるデータ構造の例を描く概略ブロック図である。ビデオストリームからのビデオフレームの例のスクリーンショット図であり、スポーツイベントのテレビ番組コンテンツに見られるようなフレーム内に埋め込まれた情報カード画像（「カード画像」）を示している。カード画像が埋め込まれたビデオフレームの追加の例を描く一連のスクリーンショット図である。一実施形態による、ビデオストリームを受信し、ビデオフレームのオンザフライ処理を実施して、図３のカード画像およびその関連する試合ステータス情報などのカード画像および関連するメタデータを位置特定および抽出する、アプリケーションによって実行される方法を描くフローチャートである。図４から実行可能なカード画像を検出するためのビデオフレームの所定の領域を処理するためのステップをより詳細に描くフローチャートである。一実施形態による、デコードされたビデオフレームの指定された区域における有効なカード画像四辺形検出のためのトップレベル処理のための方法を描くフローチャートである。一実施形態による、より正確なカード画像四辺形決定のための方法を描くフローチャートである。一実施形態による、検出されたすべての輪郭を包含する囲いの四辺形境界を調整するための方法を描くフローチャートである。一実施形態による、カード画像四辺形検証のための方法を描くフローチャートである。一実施形態による、非常に細長いカード画像形状の左境界の任意の安定化のための方法を描くフローチャートである。一実施形態による、カード画像２０７からテキスト抽出を実施するための方法を描くフローチャートである。一実施形態による、テキスト列の処理および解釈を実施するための方法を描くフローチャートである。

定義
以下の定義は説明のみを目的として提示されており、範囲を制限することを意図するものではない。
・イベント：本明細書の説明の目的上、「イベント」という用語は、試合、セッション、対戦、シリーズ、パフォーマンス、番組、および／もしくはコンサートなど、またはその部分（行為、期間、クォーター、ハーフ、イニング、シーン、またはチャプター）を指す。イベントは、スポーツイベント、娯楽イベント、またはイベントの参加者のより大きな集団内の単一の個人または複数の個人のサブセットの特定のパフォーマンスなどであってもよい。スポーツ以外のイベントの例としては、テレビショー、ニュース速報、社会政治的事件、自然災害、映画、演劇、ラジオ番組、ポッドキャスト、オーディオブック、オンラインコンテンツ、および／または音楽演奏などが挙げられる。イベントは、任意の長さを有することができる。例示目的のために、本明細書ではスポーツイベントの観点から本技術を説明することが多いが、当業者は、この技術が、任意の視聴覚、音声、資格、グラフィックスベース、対話的、非対話的、またはテキストベースのコンテンツのハイライトショーを含む、他の文脈でも使用できることを認識するであろう。したがって、本説明における「スポーツイベント」という用語および任意の他のスポーツ固有の用語の使用は、１つの想定される実施形態を例示することを意図しているが、記載される技術の範囲をその１つの実施形態に限定することを意図ししているわけではない。むしろ、そのような用語は、この技術に適切な、任意の好適なスポーツ以外の文脈にまで及ぶと考えられるべきである。説明を容易にするために、「イベント」という用語はまた、イベントの視聴覚記録などのイベントの報告もしくは表現、またはイベントの報告、説明、もしくは描画を含む任意の他のコンテンツ項目を指すためにも使用される。
・ハイライト：１人以上のユーザに対する特定の関心を有するとみなされる、イベントの抜粋もしくは部分、またはイベントに関連付けられたコンテンツ。ハイライトは、任意の長さを有することができる。概して、本明細書に記載の技術は、任意の好適なイベントについて、カスタマイズされたハイライトのセット（特定の特性および／またはユーザ選好に基づいて選択され得る）を識別および提示するための機構を提供する。「ハイライト」という用語はまた、ハイライトの視聴覚記録などのハイライトの報告もしくは表現、またはハイライトの報告、説明、もしくは描画を含む任意の他のコンテンツ項目を指すためにも使用される。ハイライトは、イベント自体の描画に限定される必要はないが、イベントに関連付けられた他のコンテンツを含むことができる。例えば、スポーツイベントの場合、ハイライトとして、試合中のオーディオ／ビデオ、ならびに試合前、試合中、および試合後のインタビュー、分析、および／または解説などを含む他のコンテンツを挙げることができる。このようなコンテンツは、リニアテレビから（例えば、イベント自体を描くビデオストリームの一部として）記録することも、任意の数の他のソースから取り出すこともできる。例えば、オカレンス（プレー）、ストリング、ポゼッション、およびシーケンスを含む、様々なタイプのハイライトを提供することができ、これらのすべては、以下で定義されている。ハイライトは、固定された継続時間である必要はないが、以下で説明するように、開始オフセットおよび／または終了オフセットを組み込むことができる。
・コンテンツデリニエーター：ハイライトの開始または終了を示す１つ以上のビデオフレーム。
・オカレンス：イベント中に発生するもの。例としては、ゴール、プレー、ダウン、ヒット、セーブ、ゴール上のシュート、バスケット、スティール、スナップまたはスナップの試み、ニアミス、喧嘩、試合の開始もしくは終了、クォーター、ハーフ、ピリオド、またはイニング、ピッチ、ペナルティ、負傷、娯楽イベントでのドラマチックな出来事、歌、および／またはソロなどが挙げられる。オカレンスはまた、停電、および／または手に負えないファンとの事件などの、異常な事件でもあり得る。このようなオカレンスの検出は、ビデオストリームの特定の一部分をハイライトとして指定するかどうかを決定するための基礎として使用することができる。オカレンスは、命名を容易にするために、本明細書では「プレー」とも呼ばれるが、そのような使用法は、範囲を制限するものと解釈されるべきではない。オカレンスは、任意の長さを有してもよく、オカレンスの表現は、様々な長さを有してもよい。例えば、上記のように、オカレンスの拡張表現は、オカレンスの直前および直後の時間期間を描く映像を含み得るが、簡単な表現は、オカレンス自体のみを含み得る。任意の中間表現も提供することができる。少なくとも１つの実施形態では、オカレンスを表現するための継続時間の選択は、ユーザ選好、利用可能な時間、オカレンスに対する決定された興奮レベル、オカレンスの重要度、および／または任意の他の要因によって異なることがある。
・オフセット：ハイライトの長さを調整する量。少なくとも１つの実施形態では、ハイライトの開始時間および／または終了時間をそれぞれ調整するために、開始オフセットおよび／または終了オフセットを提供することができる。例えば、ハイライトがゴールを描く場合、ハイライトは、ゴールに続く祝賀および／またはファンの反応を含むように、（エンドオフセットを介して）数秒間延長されてもよい。オフセットは、例えば、ハイライトに利用可能な時間、ハイライトの重要度および／もしくは興奮レベル、ならびに／また任意の他の好適な要因に基づいて、自動的にまたは手動で変化するように構成することができる。
・ストリング：何らかの形で互いとリンクまたは関連している一連のオカレンス。オカレンスは、ポゼッション（以下に定義する）内で発生してもよく、複数のポゼッションにまたがってもよい。オカレンスは、シーケンス（以下に定義する）内で発生してもよく、複数のシーケンスにまたがってもよい。オカレンスは、互いに何らかの主題的または物語的なつながりがあるため、またはあるものが別のものにつながるため、または任意の別の理由で、リンクまたは関連していてもよい。ストリングの一例は、ゴールまたはバスケットにつながるパスのセットである。これは、コンピュータプログラミング分野で通常割り当てられている意味を有する「テキスト列」と混同してはならない。
・ポゼッション：イベントの任意の時間で区切られた部分。ポゼッションの開始／終了時間の区別は、イベントのタイプによって異なることがある。一方のチームが攻撃的であり得るが、もう一方のチームが防御的である特定のスポーツイベント（例えば、バスケットボールまたはサッカーなど）の場合、ポゼッションは、チームの一方がボールを有している時間期間として定義することができる。ホッケーまたはサッカーなど、パックまたはボールのポゼッションがより流動的であるスポーツでは、ポゼッションは、チームのうちの一方が他方のチームによる瞬間的な接触（ブロックされたシュートまたはセーブなど）を無視して、パックまたはボールの実質的な制御を有する時間期間にまで及ぶと考えられる。野球の場合、ポゼッションはハーフイニングとして定義される。サッカーの場合、ポゼッションは、同じチームがボールを有しているいくつかのシーケンスを含むことができる。他のタイプのスポーツイベントおよびスポーツ以外のイベントの場合、「ポゼッション」という用語は多少語弊があるかもしれないが、本明細書ではなおも例示の目的で使用されている。スポーツ以外の文脈での例としては、チャプター、シーン、行為、またはテレビセグメントなどが挙げられる。例えば、音楽コンサートの文脈では、ポゼッションは単一の曲の演奏に相当する場合がある。ポゼッションは、任意の数のオカレンスを含むことができる。
・シーケンス：１つの連続したアクションの時間期間を含むイベントの時間で区切られた部分。例えば、スポーツイベントでは、シーケンスはアクションの開始時（フェイスオフ、またはチップオフなど）に開始し、笛が吹かれてアクションの中断を示すときに終了することがある。野球またはサッカーなどのスポーツでは、シーケンスはプレーと同等である場合があり、これはオカレンスの一形態である。シーケンスは、任意の数のポゼッションを含むことができるか、またはポゼッションの一部分であってもよい。
・ハイライトショー：ユーザへの提示のために配置されたハイライトのセット。ハイライトショーは、直線的に（ビデオストリームなど）、またはユーザがどのハイライトをどの順番で視聴するかを選択できるような方法で提示されてもよい（例えば、リンクまたはサムネイルをクリックすることによって）。ハイライトショーの提示は、非対話的でもあっても対話的であってもよく、例えば、ユーザが一時停止、巻き戻し、スキップ、早送り、および／または選好の有無の伝達などを行うことを可能にする。ハイライトショーは、例えば、凝縮された試合であり得る。ハイライトショーは、単一のイベントから、または複数のイベントから、連続または非連続のハイライトを任意の数だけ含むことができ、さらには異なるタイプのイベント（例えば、異なるスポーツ、ならびに／またはスポーツおよびスポーツ以外のイベントのハイライトの組み合わせ）からのハイライトを含むこともできる。
・ユーザ／視聴者：「ユーザ」または「視聴者」という用語は、イベント、イベントの１つ以上のハイライト、またはハイライトショーを見たり、聞いたり、またはその他の方法で体験したりする個人、グループ、またはその他のエンティティを同じ意味で指す。「ユーザ」または「視聴者」という用語はまた、ある将来の時点で、イベント、イベントの１つ以上のハイライト、またはハイライトショーのいずれかを見たり、聞いたり、または他の方法で体験したりする個人、グループ、または他のエンティティを指すこともできる。「視聴者」という用語は説明の目的で使用される場合があるが、イベントに視覚的な成分が含まれている必要はないため、「視聴者」は代わりにリスナーまたはコンテンツの任意の他の消費者であってもよい。
・物語：ハイライトセグメントのセットを特定の順序でリンクする一貫したストーリー。
・興奮レベル：特定のユーザまたは一般のユーザにとって、イベントまたはハイライトがどれほど興奮するものになるかまたは興味深いものになるかを示す尺度。興奮レベルは、特定のオカレンスまたはプレーヤーに関して決定することもできる。興奮レベルを測定または評価するための様々な技術は、上記で参照した関連する用途で説明されている。説明したように、興奮レベルは、イベント内のオカレンス、およびイベントの全体的な文脈または重要度（プレーオフ試合、ペナントの影響、および／またはライバル関係など）などの他の要因によって異なる場合がある。少なくとも１つの実施形態では、興奮レベルは、イベント内の各オカレンス、ストリング、ポゼッション、またはシーケンスに関連付けることができる。例えば、ポゼッションの興奮レベルは、そのポゼッション内で発生するオカレンスに基づいて決定することができる。興奮レベルは、異なるユーザ（例えば、あるチームのファンと中立のファン）によって異なる方法で測定されてもよく、各ユーザの個人的な特性によって異なる場合がある。
・メタデータ：他のデータに関連し、他のデータに関連付けられて記憶されるデータ。一次データは、スポーツ番組またはハイライトなどのメディアであってもよい。
・カード画像：イベント、イベントの描画、またはその一部分などの、ビデオに描かれているいずれかのものに関するデータを提供するビデオフレーム内の画像。例示的なカード画像は、試合スコア、試合時計、および／またはスポーツイベントからの他の統計を含む。カード画像は、一時的に、またはビデオストリームの全継続時間にわたって出現してもよく、一時的に出現するものは、特にそれらが出現するビデオストリームの部分に関係していてもよい。「カード画像」は、ビデオフレーム内に出現する実際のカード画像の修正または処理されたバージョンであってもよい。
・文字画像：単一の文字に関連すると思われる画像の一部分。文字画像は、文字を取り囲む領域を含んでもよい。例えば、文字画像は、文字を取り囲む略長方形の境界ボックスを含み得る。
・文字：単語、数字、または単語もしくは数字の表現の一部となることができる記号。文字は、文字、数字、および特殊文字を含むことができ、任意の言語にあってもよい。
・文字列：文字のセットであって、それらがスポーツイベントでプレーしているチームの名前などの単一の１つの情報に関連することを示す方法でグループ化されたもの。多くの場合、英語の文字列は水平に配置され、左から右に読み取られる。ただし、文字列は英語と他の言語とで異なって配置される場合がある。
・ビデオフレーム領域：ビデオフレーム内にカード画像が出現すると予想される所定の位置の知識、またはどの領域がカード画像を含む可能性が高いかを識別するためのビデオフレームの複数の領域の順次の分析のいずれかに基づく、カード画像を含むと考えられるビデオフレームの一部分。

概要
様々な実施形態によれば、スポーツイベントのテレビ番組のハイライトに関連付けられた時間ベースのメタデータを自動的に作成するための方法およびシステムが提供される。ハイライトおよび関連するフレーム内時間ベースの情報は、スポーツイベントのテレビ放送に関して同期的に抽出されてもよく、またはスポーツイベントのビデオコンテンツが、スポーツイベントのテレビ放送後にバックアップデバイスからビデオサーバを介してストリーミングされている間に抽出されてもよい。

少なくとも１つの実施形態では、ソフトウェアアプリケーションは、テレビ番組コンテンツの再生および／または受信と同期して動作して、コンテンツのハイライトに関連付けられた情報メタデータを提供する。このようなソフトウェアは、例えば、テレビデバイス自体上で、または関連するＳＴＢ上で、または番組コンテンツを受信し、その後ストリーミングする機能を有するビデオサーバ上で、またはライブ番組を含むビデオフィードを受信する機能を有するモバイルデバイス上で実行することができる。

ビデオ管理および処理システムにおいて、ならびに対話型（強化された）番組ガイドの文脈において、テレビ放送コンテンツハイライトを表すビデオクリップのセットは、ハイライト内で提示されたイベントをより詳細に記述した時間ベースのメタデータを含むデータベースとともに、リアルタイムで自動的に生成および／または記憶することができる。ビデオクリップに付随するメタデータは、例えば、テキスト情報、画像、および／または任意のタイプの視聴覚データなどの任意の情報を含むことができる。このような方法で、対話型テレビアプリケーションは、一次テレビディスプレイ、またはタブレット、ラップトップ、スマートフォンなどの二次ディスプレイのいずれかで、番組コンテンツを見ているユーザにタイムリーで関連性のあるコンテンツを提供することができる。

試合中および試合後のビデオコンテンツのハイライトに関連付けられたメタデータの１つのタイプは、番組コンテンツのビデオフレームのうちの１つ以上に埋め込まれた情報カード（「カード画像」）を読み取ることによって、ライブ番組コンテンツから直接抽出されたスポーツ試合パラメータに関するリアルタイムの情報を伝達する。様々な実施形態では、本明細書に記載のシステムおよび方法は、このタイプの自動メタデータ生成を可能にする。

少なくとも１つの実施形態では、システムおよび方法は、スポーツイベント番組のテレビ放送のうちの１つ以上のデコードされたビデオフレームに、または再生デバイスからストリーミングされたスポーツイベントビデオに埋め込まれたカード画像を自動的に検出および位置特定する。デコードされたビデオフレーム内の多数の所定の関心領域が分析され、カード画像四辺形が位置特定され、コンピュータビジョン技術を使用してリアルタイムで処理されて、識別されたカード画像からの情報をスポーツイベントのステータスを記述するメタデータのセットに変換する。

別の実施形態では、デジタルビデオストリームが受信される、またデジタルビデオストリームの１つ以上のビデオフレームがカード画像四辺形の存在に対して分析される自動化プロセスが記載される。次に、識別されたカード画像内でテキストボックスが位置特定され、このテキストボックス内に存在するテキストが解釈されて、カード画像コンテンツを分析されたデジタルビデオストリームのビデオハイライトに関連付けるメタデータファイルを作成する。

さらに別の実施形態では、複数のテキスト列（テキストボックス）が識別され、このテキストボックスに関連付けられた文字の列内の各文字の画像の位置およびサイズが検出される。次に、カード画像の様々なフィールドからの複数のテキスト列が処理および解釈され、対応するメタデータが形成され、処理されたカード画像および分析されたビデオフレームに関連付けられたスポーツイベントの部分に関連する複数の情報を提供する。

本明細書に提示される自動化メタデータ生成ビデオシステムは、ライブブ放送ビデオストリームまたはコンピュータサーバーを介してストリーミングされるデジタルビデオに関連して動作することができる。少なくとも１つの実施形態では、ビデオストリームは、コンピュータビジョン技術を使用してリアルタイムで処理され、埋め込まれたカード画像からメタデータを抽出することができる。

システムアーキテクチャ
様々な実施形態によれば、システムは、情報を受信、記憶、および提示するように装備された任意の電子デバイスまたは電子デバイスのセットに実装することができる。このような電子デバイスは、例えば、デスクトップコンピュータ、ラップトップコンピュータ、テレビ、スマートフォン、タブレット、音楽プレーヤー、音声デバイス、キオスク、セットトップボックス（ＳＴＢ）、ゲームシステム、ウェアラブルデバイス、および／または家庭用電子デバイスなどであってもよい。

システムは、特定のタイプの計算デバイスでの実装に関連して本明細書に記載されるが、当業者は、本明細書に記載される技術は、他の文脈で実装することができ、実際には、ユーザ入力を受信および／または処理し、ユーザに出力を提示できる任意の好適なデバイスで実装できることを認識するであろう。したがって、以下の説明は、範囲を限定するのではなく、例として様々な実施形態を例示することを意図している。

ここで図１Ａを参照すると、クライアント／サーバの実施形態による、イベントのビデオストリームに埋め込まれたカード画像からメタデータを自動的に抽出するためのシステム１００のハードウェアアーキテクチャを描くブロック図が示されている。ビデオストリームなどのイベントコンテンツは、ネットワーク接続されたコンテンツプロバイダ１２４を介して提供され得る。このようなクライアント／サーバの実施形態の例は、ウェブベースの実装形態であり、ここで１つ以上のクライアントデバイス１０６の各々が、通信ネットワーク１０４を介して、データプロバイダ（複数可）サーバ１２２、および／またはコンテンツプロバイダ（複数可）サーバ１２４を含む様々なサーバ１０２、１１４、１１６からのコンテンツと対話するためのユーザインターフェースを提供するブラウザまたはアプリを実行する。クライアントデバイス１０６からの要求に応答するコンテンツおよび／またはデータの送信は、ハイパーテキストマークアップ言語（ＨＴＭＬ）、Ｊａｖａ、ＯｂｊｅｃｔｉｖｅＣ、Ｐｙｔｈｏｎ、および／またはＪａｖａＳｃｒｉｐｔなどの任意の既知のプロトコルおよび言語を使用して行うことができる。

クライアントデバイス１０６は、デスクトップコンピュータ、ラップトップコンピュータ、テレビ、スマートフォン、タブレット、音楽プレーヤー、音声デバイス、キオスク、セットトップボックス、ゲームシステム、ウェアラブルデバイス、家庭用電子デバイス、および／または任意の電子デバイスなどであり得る。少なくとも１つの実施形態では、クライアントデバイス１０６は、当業者に既知のいくつかのハードウェア構成要素を有する。入力デバイス（複数可）１５１は、ユーザ１５０からの入力を受信する任意の構成要素（複数可）であり得、例えば、手持ち式リモコン、キーボード、マウス、スタイラス、タッチセンシティブスクリーン（タッチスクリーン）、タッチパッド、ジェスチャレセプタ、トラックボール、加速度計、五方向スイッチ、またはマイクなどを含む。入力は、例えば、ポイント、タップ、タイプ、ドラッグ、ジェスチャ、チルト、シェイク、および／またはスピーチのうちの１つ以上を含む、任意の好適なモードを介して提供することができる。表示スクリーン１５２は、イベントおよび／またはハイライトなどの描画を含む、情報、ビデオ、および／またはコンテンツなどをグラフィカルに表示する任意の構成要素であり得る。このような出力はまた、例えば、視聴覚コンテンツ、データ視覚化、ナビゲーション要素、グラフィック要素、またはコンテンツの選択のための情報および／もしくはパラメータを要求するクエリなどを含み得る。所望の出力のいくつかのみが一度に提示される少なくとも１つの実施形態では、スクロール機構などの動的制御が、入力デバイス（複数可）１５１を介して、どの情報を現在表示するかを選択するために、および／または情報を表示する方法を変更するために利用可能であってもよい。

プロセッサ１５７は、周知の技術に従って、ソフトウェアの指示の下でデータに対する操作を実施するための従来のマイクロプロセッサであり得る。メモリ１５６は、本明細書に記載の動作を実施するためのソフトウェアを実行する過程でプロセッサ１５７による使用のための、当技術分野で既知の構造およびアーキテクチャを有するランダムアクセスメモリであり得る。クライアントデバイス１０６はまた、ハードドライブ、フラッシュドライブ、光または磁気記憶デバイス、および／またはウェブベース（クラウドベース）ストレージなどであり得るローカルストレージ（図示せず）も含むことができる。

インターネット、テレビネットワーク、ケーブルネットワーク、および／またはセルラーネットワークなどの任意の好適なタイプの通信ネットワーク１０４は、任意の好適なプロトコルおよび技術に従って、クライアントデバイス１０６と、様々なサーバ（複数可）１０２、１１４、１１６および／またはコンテンツプロバイダ（複数可）１２４および／またはデータプロバイダ（複数可）１２２との間でデータを送信するための機構として使用することができる。インターネットに加えて、他の例としては、携帯電話ネットワーク、ＥＤＧＥ、３Ｇ、４Ｇ、長期的進化（ＬＴＥ）、セッション開始プロトコル（ＳＩＰ）、ショートメッセージピアツーピアプロトコル（ＳＭＰＰ）、ＳＳ７、Ｗｉ－Ｆｉ、ブルートゥース（登録商標）、ＺｉｇＢｅｅ、ハイパーテキスト転送プロトコル（ＨＴＴＰ）、セキュアハイパーテキスト転送プロトコル（ＳＨＴＴＰ）、および／もしくは伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）など、ならびに／またはこれらの任意の組み合わせが挙げられる。少なくとも１つの実施形態では、クライアントデバイス１０６は、通信ネットワーク１０４を介してデータおよび／またはコンテンツの要求を送信し、要求されたデータおよび／またはコンテンツを含む応答をサーバ１０２、１１４、１１６から受信する。

少なくとも１つの実施形態では、図１Ａのシステムは、スポーツイベントに関連して動作する。しかしながら、本明細書の教示は、スポーツ以外のイベントにも適用され、本明細書に記載の技術は、スポーツイベントへの適用に限定されないことを理解されるべきである。例えば、本明細書に記載の技術は、テレビショー、映画、ニュースイベント、試合ショー、政治活動、ビジネスショー、ドラマ、および／または他のエピソードコンテンツに関連して、またはこのような２つ以上のイベントのために動作させるために利用することができる。

少なくとも１つの実施形態では、システム１００は、イベントのビデオストリームを分析することによって、放送イベントのハイライトを識別する。この分析は、リアルタイムで実行することができる。少なくとも１つの実施形態では、システム１００は、通信ネットワーク１０４を介して１つ以上のクライアントデバイス１０６に結合された１つ以上のウェブサーバ（複数可）１０２を含む。通信ネットワーク１０４は、パブリックネットワーク、プライベートネットワーク、またはインターネットなどのパブリックネットワークとプライベートネットワークとの組み合わせであってもよい。通信ネットワーク１０４は、ＬＡＮ、ＷＡＮ、有線、無線、および／または上記の組み合わせであり得る。クライアントデバイス１０６は、少なくとも１つの実施形態では、有線または無線接続のいずれかを介して通信ネットワーク１０４に接続することができる。少なくとも１つの実施形態では、クライアントデバイスはまた、ＤＶＲ、ＰＶＲ、または他のメディア記録デバイスなどの、イベントを受信および記録することができる記録デバイスを含み得る。そのような記録デバイスは、クライアントデバイス１０６の一部であり得るか、または外部であり得る。他の実施形態では、そのような記録デバイスは省略され得る。図１Ａは１つのクライアントデバイス１０６を示しているが、システム１００は、単一のタイプまたは複数のタイプの任意の数のクライアントデバイス（複数可）１０６を実装することができる。

ウェブサーバ（複数可）１０２は、クライアントデバイス（複数可）１０６からの要求を受信し、それらの要求にデータで応答するとともに、未承諾のアラートおよび他のメッセージを送信することができる１つ以上の物理計算デバイスおよび／またはソフトウェアを含み得る。ウェブサーバ（複数可）１０２は、負荷分散、キャッシング、およびクラスタリングなどのフォールトトレランスおよびスケーラビリティのための様々な戦略を採用してもよい。少なくとも１つの実施形態では、ウェブサーバ（複数可）１０２は、クライアント要求およびイベントに関連する情報を記憶するための、当技術分野で知られているようなキャッシング技術を含み得る。

ウェブサーバ（複数可）１０２は、クライアントデバイス（複数可）１０６から受信した要求に応答するために、１つ以上のアプリケーションサーバ（複数可）１１４を維持するか、または他の方法で指定することができる。少なくとも１つの実施形態では、アプリケーションサーバ（複数可）１１４は、クライアントデバイス（複数可）１０６内のクライアントアプリケーションプログラムによる使用のためのビジネスロジックへのアクセスを提供する。アプリケーションサーバ（複数可）１１４は、ウェブサーバ（複数可）１０２と同じ場所に位置し、共有され、または共同管理されてもよい。アプリケーションサーバ（複数可）１１４はまた、ウェブサーバ（複数可）１０２から離れていてもよい。少なくとも１つの実施形態では、アプリケーションサーバ（複数可）１１４は、１つ以上の分析サーバ（複数可）１１６および１つ以上のデータサーバ（複数可）１１８と対話して、開示された技術の１つ以上の動作を実施する。

１つ以上の記憶デバイス１５３は、システム１００の動作に関連するデータを記憶することによって「データストア」として機能することができる。このデータは、例えば、スポーツイベントなどのイベントを提示するビデオストリームに埋め込まれたカード画像に関連するカードデータ１５４、１人以上のユーザ１５０に関連するユーザデータ１５５、および／またはイベントの１つ以上のハイライトに関連するハイライトデータ１６４を含んでもよいが、これらに限定されない。

カードデータ１５４は、ビデオストリームに埋め込まれたカード画像に関連する任意の情報、例えば、カード画像自体、文字画像などのそのサブセット、文字および文字列などのカード画像から抽出されたテキスト、ならびにテキストおよび／または意味の抽出に役立つ前述のいずれかの属性を含むことができる。ユーザデータ１５５は、例えば、人口統計学、購入行動、ビデオストリーム視聴行動、関心、および／または選好などを含む、１人以上のユーザ１５０を説明する任意の情報を含むことができる。ハイライトデータ１６４は、ハイライト、ハイライト識別子、時間指標、カテゴリ、興奮レベル、およびハイライトに関連する他のデータを含んでもよい。カードデータ１５４、ユーザデータ１５５、およびハイライトデータ１６４は、以降で詳細に説明する。

特に、システム１００の多くの構成要素は、計算デバイスであってもよく、またはそれを含んでもよい。このような計算デバイスは各々、上に示し、説明したように、クライアントデバイス１０６のアーキテクチャと同様のアーキテクチャを有してもよい。したがって、通信ネットワーク１０４、ウェブサーバ１０２、アプリケーションサーバ１１４、分析サーバ１１６、データプロバイダ１２２、コンテンツプロバイダ１２４、データサーバ１１８、および記憶デバイス１５３のいずれかは、クライアントデバイス１０６に関連して上述したように、入力デバイス１５１、表示スクリーン１５２、メモリ１５６、および／またはプロセッサ１５７を任意選択で有してもよい、１つ以上の計算デバイスを含んでもよい。

システム１００の例示的な動作では、クライアントデバイス１０６の１人以上のユーザ１５０は、コンテンツプロバイダ１２４からのコンテンツをビデオストリームの形態で表示する。ビデオストリームは、スポーツイベントなどのイベントを示してもよい。ビデオストリームは、既知のコンピュータビジョン技術で容易に処理することができるデジタルビデオストリームであってもよい。

ビデオストリームが表示されると、クライアントデバイス１０６、ウェブサーバ１０２、アプリケーションサーバ１１４、および／または分析サーバ１１６などのシステム１００の１つ以上の構成要素が、ビデオストリームを分析し、ビデオストリーム内のハイライトを識別し、および／またはビデオストリームからメタデータを抽出してもよく、例えば、埋め込まれたカード画像および／またはビデオストリームの他の側面から抽出してもよい。この分析は、ビデオストリームのハイライトおよび／またはメタデータを識別するための要求の受信に応答して実行することができる。あるいは、別の実施形態では、ハイライトは、ユーザ１５０によって特定の要求がなされることなく識別することができる。さらに別の実施形態では、ビデオストリームの分析は、ビデオストリームが表示されることなく行うことができる。

少なくとも１つの実施形態では、ユーザ１５０は、クライアントデバイス１０６の入力デバイス１５１（複数可）を介して、ビデオストリームの分析のための特定のパラメータ（例えば、どのイベント／試合／チームを含めるか、ユーザ１５０がハイライトの視聴ために利用可能な時間どれくらい有しているか、どのようなメタデータが望まれているか、および／または任意の他のパラメータなど）を指定することができる。ユーザ選好はまた、必ずしもユーザ１５０が選好を指定する必要を伴わずにビデオストリームの分析をカスタマイズするために、１つ以上の記憶デバイス１５３に記憶されたユーザデータ１５５などからのように、ストレージから抽出することもできる。少なくとも１つの実施形態では、ユーザ選好は、例えば、ウェブサイトの訪問パターン、テレビを見るパターン、音楽を聴くパターン、オンライン購入、事前のハイライト識別パラメータ、ならびに／またはユーザ１５０によって実際に視聴されたハイライトおよび／もしくはメタデータなどを観察することによって、ユーザ１５０の観察された行動およびアクションに基づいて決定することができる。

追加的または代替的に、ユーザ選好は、ユーザ１５０によって明示的に提供された、事前に記憶された選好から取り出すことができる。このようなユーザ選好は、どのチーム、スポーツ、プレーヤー、および／またはイベントのタイプがユーザ１５０に対する関心を有しているかを示すことができ、および／またはそれらは、ハイライトに関連するどのタイプのメタデータまたは他の情報がユーザ１５０対する関心を有するであろうかを示すことができる。したがって、このような選好は、ビデオストリームの分析をガイドして、ハイライトを識別し、および／またはハイライトのためのメタデータを抽出するために使用することができる。

上述の１つ以上の計算デバイスを含み得る分析サーバ（複数可）１１６は、データプロバイダ（複数可）１２２からの１つ以上のイベントに関連する実況統計のライブおよび／または記録されたフィードを分析することができる。データプロバイダ（複数可）１２２の例としては、限定するものではないが、ＳＴＡＴＳＴＭ、Ｐｅｒｆｏｒｍ（英国、ロンドン、ＯｐｔａＳｐｏｒｔｓから入手可能）、およびスイス、ザンクトガレン、ＳｐｏｒｔＲａｄａｒなどのリアルタイムスポーツ情報のプロバイダが挙げられる。少なくとも１つの実施形態では、分析サーバ（複数可）１１６は、イベントに対して異なる興奮レベルのセットを生成する。このような興奮レベルは、次いで、本明細書に記載の技術に従って、システム１００によって識別されるハイライトと関連付けて記憶することができる。

アプリケーションサーバ（複数可）１１４は、ビデオストリームを分析して、ハイライトを識別し、および／またはメタデータを抽出することができる。追加的または代替的に、このような分析は、クライアントデバイス（複数可）１０６によって実行されてもよい。識別されたハイライトおよび／または抽出されたメタデータは、ユーザ１５０に固有であってもよく、このような場合、特定のユーザ１５０に関連するクライアントデバイス１０６内のハイライトを識別することが有利であり得る。クライアントデバイス１０６は、上述のように、ハイライト識別および／またはメタデータ抽出のための適用可能なユーザ選好を受信、保持、および／または取得してもよい。追加的または代替的に、ハイライト生成および／またはメタデータ抽出は、グローバルに（すなわち、特定のユーザ１５０の選好に関係なく、一般にユーザ集団に適用可能な客観的基準を使用して）実行されてもよい。このような場合、ハイライトを識別し、および／またはアプリケーションサーバ（複数可）１１４内のメタデータを抽出することが有利であり得る。

ハイライト識別および／またはメタデータ抽出を容易にするコンテンツは、ＹｏｕＴｕｂｅ（登録商標）、およびＭＬＢ．ｃｏｍなどのウェブサイト、スポーツデータプロバイダ、テレビ局、および／またはクライアントもしくはサーバベースのＤＶＲなどを含むコンテンツプロバイダ（複数可）１２４を含む任意の好適なソースから来てもよい。あるいは、コンテンツは、クライアントデバイス１０６に関連付けられた（または組み込まれた）ＤＶＲもしくは他の記録デバイスなどのローカルソースから来てもよい。少なくとも１つの実施形態では、アプリケーションサーバ（複数可）１１４は、ダウンロード、またはストリーミングコンテンツ、またはオンデマンドコンテンツ、または他の何らかの方法のいずれかとして、ユーザ１５０に利用可能なハイライトおよびメタデータを伴うカスタマイズされたハイライトショーを生成する。

上記のように、特定のユーザ１５０に関連付けられた特定のクライアントデバイス１０６において、ユーザ固有のハイライト識別および／またはメタデータ抽出が実行されることが有利であり得る。このような実施形態は、特にそのようなコンテンツがクライアントデバイス１０６においてすでに利用可能である場合、通信ネットワーク１０４を介して不必要に送信されるビデオコンテンツまたは他の高帯域幅コンテンツの必要性を回避することができる。

例えば、次に図１Ｂを参照すると、カードデータ１５４、およびハイライトデータ１６４の少なくともいくつかがクライアントベースの記憶デバイス１５８に記憶されている一実施形態によるシステム１６０の例が示されており、記憶デバイス１５８は、クライアントデバイス１０６に利用可能な任意の形式のローカル記憶デバイスであってもよい。例としては、例えば、完全なスポーツイベントのビデオコンテンツなどのイベントを記録することができるＤＶＲが挙げられる。あるいは、クライアントベースの記憶デバイス１５８は、デジタル形式のデータのための任意の磁気的、光学的、または電子的記憶デバイスであり得る。例としては、フラッシュメモリ、磁気ハードドライブ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、またはクライアントデバイス１０６と統合された、もしくはクライアントデバイス１０６と通信可能に結合された他のデバイスが挙げられる。アプリケーションサーバ（複数可）１１４によって提供される情報に基づいて、クライアントデバイス１０６は、コンテンツプロバイダ１２４または他のリモートソースから他のコンテンツを取り出す必要を伴わずに、クライアントベースの記憶デバイス１５８に記憶されたカードデータ１５４からメタデータを抽出し、そのメタデータをハイライトデータ１６４として記憶してもよい。このような構成は、帯域幅を節約することができ、クライアントデバイス１０６にすでに利用可能であり得る既存のハードウェアを有効に活用することができる。

図１Ａに戻ると、少なくとも１つの実施形態では、アプリケーションサーバ（複数可）１１４は、個々のユーザ選好および／または他のパラメータに応じて、異なるハイライトを識別し、および／または異なるユーザ１５０に対して異なるメタデータを抽出することができる。識別されたハイライトおよび／または抽出されたメタデータは、クライアントデバイス１０６の表示スクリーン１５２などの任意の好適な出力デバイスを介してユーザ１５０に提示されてもよい。必要に応じて、複数のハイライトを識別し、関連するメタデータとともにハイライトショーにまとめることができる。このようなハイライトショーは、メニューを介してアクセスされ、および／または所定のシーケンスに従ってユーザ１５０のために再生される「ハイライトリール」またはハイライトのセットに組み立てられてもよい。ユーザ１５０は、少なくとも１つの実施形態では、例えば、以下の目的で、入力デバイス（複数可）１５１を介して、関連するメタデータのハイライト再生および／または配信を制御することができる。
・表示のための特定のハイライトおよび／またはメタデータを選択する。
・一時停止、巻き戻し、早送りを行う。
・次のハイライトにスキップする。
・ハイライトショー内の前のハイライトの最初に戻る。および／または
・その他のアクションを実施する。

このような機能に関する追加の詳細は、上記で引用した関連する米国特許出願に提供されている。

少なくとも１つの実施形態では、もう１つのデータサーバ（複数可）１１８が提供される。データサーバ（複数可）１１８は、例えば、カードデータ１５４、ユーザデータ１５５、および／またはハイライトデータ１６４を取得または提供するために、サーバ（複数可）１０２、１１４、１１６のいずれかからのデータの要求に応答してもよい。少なくとも１つの実施形態では、このような情報は、データサーバ１１８によってアクセス可能な任意の好適な記憶デバイス１５３に記憶することができ、クライアントデバイス１０６自体、コンテンツプロバイダ（複数可）１２４、および／またはデータプロバイダ（複数可）１２２などの、任意の好適なソースから来ることができる。

ここで図１Ｃを参照すると、システム１８０がスタンドアロン環境で実装される代替の実施形態によるシステム１８０が示されている。図１Ｂに示された実施形態と同様に、カードデータ１５４、ユーザデータ１５５、およびハイライトデータ１６４の少なくともいくつかは、ＤＶＲなどのクライアントベースの記憶デバイス１５８に記憶されてもよい。あるいは、クライアントベースの記憶デバイス１５８は、フラッシュメモリもしくはハードドライブ、またはクライアントデバイス１０６と統合された、もしくはクライアントデバイス１０６と通信可能に結合された他のデバイスであり得る。

ユーザデータ１５５は、ユーザ１５０の選好および関心を含んでもよい。このようなユーザデータ１５５に基づいて、システム１８０は、カードデータ１５４内のメタデータを抽出して、本明細書に記載の方法でユーザ１５０に提示することができる。追加的または代替的に、メタデータは、ユーザ１５０に固有の情報に基づかない客観的基準に基づいて抽出することができる。

ここで図１Ｄを参照すると、代替の実施形態によるアーキテクチャを有するシステム１９０の概要が示されている。図１Ｄでは、システム１９０は、コンテンツプロバイダ（複数可）１２４などの放送サービス、ＳＴＢを有するテレビセットなどのクライアントデバイス１０６の形態のコンテンツ受信機、テレビ番組コンテンツを取り込んでストリーミングすることができる分析サーバ（複数可）１１６などのビデオサーバ、ならびに／またはテレビ番組コンテンツを受信して処理することができるモバイルデバイスおよびラップトップなどの他のクライアントデバイス１０６を含み、これらはすべて通信ネットワーク１０４などのネットワークを介して接続されている。ＤＶＲなどのクライアントベースの記憶デバイス１５８は、クライアントデバイス１０６および／または他の構成要素のいずれかに接続することができ、ビデオストリーム、ハイライト、ハイライト識別子、ならびに／またはメタデータを記憶して、クライアントデバイス１０６のいずれかを介してハイライトおよび／もしくは抽出されたメタデータの識別および提示を容易にすることができる。

図１Ａ、図１Ｂ、図１Ｃ、および図１Ｄに描画された特定のハードウェアアーキテクチャは、単なる例示である。当業者は、本明細書に記載の技術が他のアーキテクチャを使用して実装できることを認識するであろう。本明細書に描かれている多くの構成要素は任意であり、省略され、他の構成要素と統合され、および／または他の構成要素と置き換えられてもよい。

少なくとも１つの実施形態では、システムは、スタンドアロンまたはクライアント／サーバアーキテクチャのいずれであろうと、任意の好適なコンピュータプログラミング言語で書かれたソフトウェアとして実装することができる。あるいは、それはハードウェアに実装および／または埋め込まれてもよい。

データ構造
図２は、一実施形態による、カードデータ１５４、ユーザデータ１５５、およびハイライトデータ１６４に組み込むことができるデータ構造の例を描く概略ブロック図である。

示されるように、カードデータ１５４は、複数の放送ネットワーク２０２の各々の記録を含んでもよい。例えば、配信ネットワーク２０２の各々について、カードデータ１５４は、配信ネットワークが通常ビデオフレーム内にカード画像を表示する所定のカード位置２０３を含んでもよい。所定のカード位置は、例えば、位置の反対側の角を識別し、中心、高さ、および幅を識別し、かつ／または位置および／またはカード画像のサイズを識別する座標（デカルト座標など）として表すことができる。

さらに、カードデータ１５４は、カード画像抽出および解釈のために分析された、または分析されることになっているの１つ以上のビデオフレーム領域２０４を含んでもよい。各ビデオフレーム領域２０４は、ビデオストリームのビデオフレームから抽出されてもよい。

各ビデオフレーム領域２０４について、カードデータ１５４はまた、１つ以上の処理されたビデオフレーム領域２０６を含むこともでき、これは、カード画像２０７の識別および／または抽出を容易にする方法でビデオフレーム領域２０４を修正することによって生成されてもよい。例えば、処理されたビデオフレーム領域２０６は、各ビデオフレーム領域２０４の１つ以上のトリミング、再着色、セグメント化、拡張、または他の方法で修正されたバージョンを含んでもよい。

各ビデオフレーム領域２０４はまた、ビデオフレーム領域２０４内で識別された、および／またはビデオフレーム領域２０４から抽出されたカード画像２０７も有することができる。各カード画像２０７は、ビデオストリーム内の特定の時間に関連するメタデータを提供するように解釈され得るテキストを含んでもよい。

カードデータ１５４はまた、各ビデオフレーム領域２０４に対して１つ以上の解釈２０８を含むこともできる。各解釈２０８は、カード画像２０７に出現する文字を認識および解釈するために何らかの分析が実施された後、関連するカード画像２０７に表されると考えられる特定のテキストであってもよい。解釈２０８は、カード画像２０７からメタデータを取得するために使用されてもよい。

さらに示されるように、ユーザデータ１５５は、ユーザ１５０に関連する記録を含んでもよく、記録の各々は、特定のユーザ１５０の人口統計データ２１２、選好２１４、視聴履歴２１６、および購入履歴２１８を含んでもよい。

人口統計データ２１２は、年齢、性別、位置、国籍、宗教的所属、および／または教育レベルなどを含むがこれらに限定されない、任意のタイプの人口統計データを含んでもよい。

選好２１４は、ユーザ１５０が自身の選好に関して行った選択を含んでもよい。選好２１４は、ハイライトおよびメタデータの収集および／または表示に直接関連する場合もあれば、より一般的な性質の場合もある。いずれの場合も、選好２１４を使用して、ハイライトおよびメタデータの識別および／またはユーザ１５０への提示を容易にすることができる。

視聴履歴２１６は、テレビ番組、ビデオストリーム、ハイライト、ウェブページ、検索クエリ、スポーツイベント、および／またはユーザ１５０によって取り出され、および／または視聴された他のコンテンツをリストすることができる。

購入履歴２１８は、ユーザ１５０によって購入または要求された製品またはサービスをリストすることができる。

さらに示されるように、ハイライトデータ１６４は、ｊハイライト２２０の記録を含み得、その記録の各々は、特定のハイライト２２０のビデオストリーム２２２、識別子、および／またはメタデータ２２４を含み得る。

ビデオストリーム２２２は、ハイライト２２０を描くビデオを含んでもよく、これは、１つ以上のイベントの１つ以上のビデオストリームから取得されてもよい（例えば、ハイライト２２０に関連するビデオストリーム２２２のみを含むようにビデオストリームをトリミングすることによって）。識別子２２３は、ハイライト２２０が、それが取得されたイベントのビデオストリーム内のどこに存在するかを示す時間コードおよび／または他の指標を含んでもよい。

いくつかの実施形態では、ハイライト２２０の各々の記録は、ビデオストリーム２２２および識別子２２３のうちの１つのみを含んでもよい。ハイライト再生は、ユーザ１５０のビデオストリーム２２２を再生することによって、または識別子２２３を使用してハイライト２２０が取得されるイベントのビデオストリームのハイライトされた部分のみを再生することによって実行されてもよい。

メタデータ２２４は、ハイライト２２０に関する情報、例えば、イベントの日付、シーズン、およびハイライト２２０が取得されたイベントもしくはビデオストリームに関与したグループもしくは個人、例えば、チーム、選手、コーチ、アンカー、放送局、および／またはファンなどの情報を含んでもよい。他の情報の中で、各ハイライト２２０のメタデータ２２４は、時間２２５、フェーズ２２６、時計２２７、スコア２２８、および／またはフレーム番号２２９を含み得る。

時間２２５は、ハイライト２２０が取得されるビデオストリーム２２２内の時間、またはメタデータが利用可能であるハイライト２２０に関連するビデオストリーム２２２内の時間であってもよい。いくつかの例では、時間２２５は、メタデータ２２４を含むカード画像２０７が表示される、ハイライト２２０に関連する、ビデオストリーム２２２内の再生時間であってもよい。

フェーズ２２６は、ハイライト２２０に関連するイベントのフェーズであってもよい。より具体的には、フェーズ２２６は、メタデータ２２４を含むカード画像２０７が表示されるスポーツイベントの段階であってもよい。例えば、フェーズ２２６は、「第３のクォーター」、「第２のイニング」、または「ボトムハーフ」などであってもよい。

時計２２７は、ハイライト２２０に関連する試合時計であってもよい。より具体的には、時計２２７は、メタデータ２２４を含む時間カード画像２０７が表示されるときの試合時計の状態であってもよい。例えば、時計２２７は、試合時計に１５分４７秒が表示されて表示されるカード画像２０７の場合、「１５：４７」であってもよい。

スコア２２８は、ハイライト２２０に関連する試合スコアであってもよい。より具体的には、スコア２２８は、メタデータ２２４を含むカード画像２０７が表示されるときのスコアであってもよい。例えば、スコア２２８は、「４５－３８」、「７－０」、または「３０－ラブ」などであってもよい。

フレーム番号２２９は、ハイライト２２０が取得されるビデオストリーム内のビデオフレームの番号、またはハイライト２２０に関連するビデオストリーム２２２の中で、ハイライト２２０に最も直接的に関連するビデオフレームの番号であってもよい。より具体的には、フレーム番号２２９は、メタデータ２２４を含むカード画像２０７が表示される、そのようなビデオフレームの番号であってもよい。

図２に記載されているデータ構造は単なる例示である。当業者は、ハイライト識別および／またはメタデータ抽出の実施において、図２のデータのいくつかを省略するか、または他のデータで置き換えることができることを認識するであろう。追加的または代替的に、図２に示されていないデータは、ハイライト識別および／またはメタデータ抽出の実施に使用され得る。

カード画像
次に図３Ａを参照すると、スポーツイベントのテレビ番組に頻繁に出現するように、カード画像２０７の形態で情報が埋め込まれたビデオストリームからのビデオフレーム３００の例のスクリーンショット図が示されている。図３Ａは、ビデオフレーム３００の右下にあるカード画像２０７、およびビデオフレーム３００の下部に沿って延びる第２のカード画像３２０を描いている。カード画像２０７、３２０は、試合フェーズ、現在の時計、および現在のスコアなどの埋め込まれた情報を含んでもよい。

少なくとも１つの実施形態では、カード画像２０７、３２０内の情報は、カード画像２０７、３２０内の埋め込まれたテキストの自動認識および解釈のために位置特定および処理される。次に、解釈されたテキストは、スポーツイベントのタイムライン内の特定の時点でのスポーツ試合のステータスを説明するテキストメタデータに組み立てられてもよい。

特に、カード画像２０７は、現在示されているスポーツイベントに関係してもよいが、第２のカード画像３２０は、異なるスポーツイベントに関する情報を含んでもよい。いくつかの実施形態では、現在再生中のスポーツイベントに関連するとみなされる情報を含むカード画像のみが、メタデータ生成のために処理される。したがって、範囲を制限することなく、以下の例示的な説明は、カード画像２０７のみが処理されることを想定している。しかしながら、代替の実施形態では、他のスポーツイベントに関連するカード画像を含めても、所与のビデオフレーム３００内の複数のカード画像を処理することが望ましい場合がある。

図３Ａに示されるように、カード画像２０７は、チーム名３３０、スコア３４０、先行のチームパフォーマンス３５０、現在の試合段階３６０、試合時計３７０、プレーステータス３８０、および／または他の情報３９０を含む、いくつかの異なるタイプのメタデータ２２４を提供することができる。これらの各々は、カード画像２０７内から抽出され、ビデオフレーム３００を含むハイライト２２０、より具体的には、カード画像２０７が表示されるビデオフレーム３００に対応するメタデータ２２４を提供するように解釈されてもよい。

図３Ｂは、スポーツテレビ番組における埋め込まれたカード画像の位置の追加の例を示すために、それぞれ、埋め込まれたカード画像３９３、３９５、３９７、３９９を有するビデオフレーム３９２、３９４、３９６、３９８の追加の例を描く一連のスクリーンショット図である。異なるテレビネットワークは、スポーツイベントのテレビ番組コンテンツのビデオフレームに埋め込まれたそのようなカード画像の異なるタイプ、形状、およびフレーム位置を有してもよい。

カード画像の位置特定および抽出
図４は、一実施形態による、アプリケーション（例えば、クライアントデバイス１０６および／または分析サーバ１１６のうちの１つで実行される）によって実行される方法４００を描くフローチャートであり、このアプリケーションは、ビデオストリーム２２２を受信し、図３のカード画像２０７およびその関連する試合ステータス情報などのカード画像２０７および関連するメタデータを位置特定および抽出するための、ビデオフレーム３００のオンザフライ処理を実施する。図１Ａのシステム１００は、方法４００およびそれに続く方法を実施するシステムとして参照される。しかしながら、図１Ｂのシステム１６０、図１Ｃのシステム１８０、および／または図１Ｄのシステム１９０を含むがこれらに限定されない代替のシステムを、図１Ａのシステム１００の代わりに使用することができる。

図４の方法４００は、ビデオストリーム２２２を受信することを含んでもよい。ステップ４１０において、例えば、ビデオフレーム３００を標準サイズにサイズ変更することによって、ビデオストリーム２２２の１つ以上のビデオフレーム３００が読み取られ、デコードされてもよい。クエリ４２０、ステップ４３０、ステップ４４０、および／またはクエリ４５０において、ビデオフレーム３００は、フレーム内カード画像の位置特定のために処理されてもよい。ステップ４６０において、検出されたカード画像２０７は、カード画像２０７を読み取って解釈することによって情報を抽出するために処理されてもよい。メタデータ２２４は、カード画像２０７から抽出された情報に基づいて生成されてもよい。

少なくとも１つの実施形態では、デコードされたビデオフレーム３００に存在する１つ以上のカード画像２０７の検出は、単一の所定のフレーム区域を分析することによって実施される。あるいは、そのような検出は、デコードされたビデオフレーム３００内のカード画像２０７のおおよその位置が事前に知られていない場合、複数の所定のフレーム区域を分析することによって実施することができる。したがって、クエリ４２０は、ビデオフレーム３００内のカード画像２０７の位置が既知であるかどうかを決定することができる。例えば、いくつかの放送ネットワークは、ビデオフレーム３００内の同じ位置にカード画像２０７を常に示してもよい。放送ネットワークが既知である場合、カード画像２０７の位置も既知であってもよい。あるいは、ビデオフレーム３００内のカード画像２０７の位置は既知でない可能性があり、システム１００によって確認する必要があり得る。

クエリ４２０に従って、ビデオフレーム３００内のカード画像２０７の位置が既知である場合、方法４００は、既知の部分またはビデオフレーム領域を処理して、カード画像２０７に通常関連付けられた四辺形形状を分離することができるステップ４３０に進んでもよい。ビデオフレーム３００内のカード画像２０７の位置が既知でない場合、方法４００はステップ４４０に進み、ここでビデオフレーム３００は、ビデオフレーム３００の所定の領域であり得る複数の領域に分割される。ビデオフレーム３００の領域は、どの領域がカード画像２０７、３９５、３９７、および／または３９９と同様のカード画像を含むかを決定するために順次分析される。

例えば、カード画像２０７を含むビデオフレーム３００の特定の領域（複数可）は、様々な放送ネットワークの各々について既知であってもよい。放送ネットワークが既知でない場合、システム１００は、カード画像２０７が領域のうちの１つが見つかるまで、放送ネットワークによってカード画像２０７の表示のために使用されることが知られているビデオフレーム３００の各領域を順次進めてもよい。

クエリ４５０に従って、カード画像２０７が見つかった場合、方法４００はステップ４６０に進むことができ、ここでカード画像２０７が処理され、情報がカード画像２０７から抽出されてメタデータ２２４を提供する。クエリ４５０に従って、カード画像２０７が見つからなかった場合、方法４００は、ステップ４１０に戻ることができ、ここで新しいビデオフレームがロードされ、デコードされ、次いでカード画像２０７の存在について分析されてもよい。

前述のように、方法４００は、いくつかの実施形態では、ユーザ１５０がプログラムを視聴している間（例えば、ハイライト２２０に対応するビデオストリーム２２２が提示されている間）にリアルタイムで実行されてもよい。したがって、方法４００は、ビデオフレーム３００がユーザ１５０のための再生のためにデコードされているときに、各ビデオフレーム３００に対してバックグラウンドで実行されてもよい。システム１００がカード画像２０７を位置特定、抽出、および解釈するので、いくらかの遅延があってもよい。したがって、この用途では、カード画像２０７から抽出されたメタデータの提示は、メタデータ２２４の提示が、メタデータが取得されたビデオフレーム３００の再生に遅れて（例えば、数フレームのビデオフレーム３００によって、ユーザ１５０に知覚されないか、あるいはユーザ１５０に気を散らさない程度の遅延が生じて）も、「リアルタイム」であると考えられる。

図５は、図４から実行可能なカード画像２０７を検出するためのビデオフレーム３００の所定の領域を処理するためのステップ４４０をより詳細に描くフローチャートである。所定の領域の各々は、カード画像２０７が存在し得るおおよその位置を提示してもよい。

少なくとも１つの実施形態では、デコードされたビデオフレーム３００内の所定の領域は、前述のように、スポーツイベントテレビ番組の放送に従事する様々なテレビネットワークによって使用されるカード画像２０７のおおよその位置の知識に基づいて生成される。このようなテレビネットワークは、カード画像２０７を介してフレーム内の視覚データおよびテキストデータを配信するために、ビデオフレーム３００の１つ以上の領域を使用することが知られている。

ステップ５１０において、領域の順次の処理を開始することができる。ステップ５２０において、領域のうちの１つは、有効なカード画像２０７がその領域に存在するかどうかを確認するために処理されてもよい。クエリ５３０は、カード画像２０７がその領域で見つかったどうかを決定することができる。見つかった場合、領域は、カード画像２０７を抽出するためにさらに処理されてもよい。位置特定されたカード画像２０７は、埋め込まれたテキストの自動的な認識および解釈のためにさらに処理されてもよい。次に、このような解釈されたテキストは、スポーツイベントタイムライン上の特定の時点におけるスポーツイベント（試合など）のステータスを記述するテキストメタデータにさらに組み立てられてもよい。少なくとも１つの実施形態では、テキストレンダリングに利用可能な選択肢は、ビデオフレーム３００内で検出されたカード画像２０７のタイプに基づいており、このタイプは、カード画像２０７の位置特定および／または抽出中にシステム１００によって決定されてもよい。追加的または代替的に、テキストレンダリングに利用可能な選択肢は、検出された特定のタイプのカード画像２０７内に存在する選択されたフィールドの事前に割り当てられた意味に基づいていてもよい。

領域内にカード画像２０７が見つからなかった場合、クエリ５５０は、その領域がビデオフレーム３００の最後の領域であるかどうかを確認してもよい。最後の領域でない場合、システム１００は、ステップ５６０において、次の領域に進み、次いで、ステップ５２０に従って次の領域に対して処理を繰り返してもよい。領域がビデオフレーム３００の最後の領域である場合、ビデオフレーム３００は有効なカード画像２０７を含まない可能性があり、システム１００は次のビデオフレーム３００に進むことができる。

カード画像四辺形の自動検出および位置特定
図６は、一実施形態による、デコードされたビデオフレーム３００の指定された区域における有効なカード画像四辺形検出のためのトップレベル処理のための方法６００を描くフローチャートである。方法６００は、図４のステップ４３０に従って、所定の位置のビデオフレーム領域に対して、または図４および図５のステップ４４０に従ってビデオフレーム３００の複数の領域の順次処理を介して識別されたビデオフレーム領域に対して実施されてもよい。

第１に、ステップ６１０において、デコードされたビデオフレーム３００は、指定されたビデオフレーム領域を含むより小さな区域にトリミングされてもよく、そしてトリミングされた画像を提供する。ステップ６２０において、トリミングされた画像は、グラフベースのセグメント化などの任意の好適なセグメント化アルゴリズムを使用してセグメント化してもよく（例：“ＥｆｆｉｃｉｅｎｔＧｒａｐｈ－ＢａｓｅｄＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎ，Ｐ．Ｆｅｌｚｅｎｓｚｗａｌｂ，Ｄ．Ｈｕｔｔｅｎｌｏｃｈｅｒ，Ｉｎｔ．ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２００４，Ｖｏｌ．５９）、生成されたすべてのセグメントを色分けして列挙し、セグメント化された画像を提供してもよい。セグメント化された画像のさらなる処理は、カード画像２０７を定義する想定される四辺形を取り囲む背景材料を除去することを含んでもよい。少なくとも１つの実施形態では、方法６００はステップ６３０に進んでもよく、ここで、セグメント化されたトリミングされた画像の境界に隣接するセグメントのすべてのピクセルが黒レベルに設定される。ステップ６４０において、セグメント化されたトリミングされた画像の残りの内側セグメントのすべてのピクセルが白レベルに設定される。ステップ６５０において、部分的に除去された背景を有する２色のトリミングされた画像が、正確なカード画像四辺形描画のためのさらなる処理のために渡されてもよい。

図７は、一実施形態による、より正確なカード画像四辺形決定のための方法７００を描くフローチャートである。まず、ステップ７１０において、背景が部分的に除去されたトリミングされた画像（例えば、図６のステップ６４０で生成された）が、灰色の画像に変換される。灰色の画像は次に、ぼかし処理されてもよく、ステップ７２０において、エッジ検出プロセスが施され、検出されたエッジを有するエッジ画像を生成してもよい。次に、ステップ７３０において、エッジ画像は、輪郭検出のために処理されてもよく、結果として得られる輪郭画像は、閉じた多角形を有する輪郭を近似するためにさらに処理されてもよい。その後、ステップ７４０において、輪郭／多角形画像を処理して、存在するすべての輪郭を囲む最小の長方形周囲を決定してもよい。上記のステップは、カード画像２０７を潜在的に含む長方形囲いを生成することができる。ただし、この囲いは、トリミングされた画像のセグメント化のプロセス中に生成されたアーティファクトに起因して、カード画像四辺形よりも大きくなる場合がある。したがって、少なくとも１つの実施形態では、この中間の長方形形状をカード画像２０７を含む最小の長方形区域に押し込むために、さらなる調整が実施される。

図８は、一実施形態による、（例えば、図７のステップ７４０によって生成された）すべての検出された輪郭を包含する囲いの四辺形境界を調整するための例示的な方法８００を描くフローチャートである。囲いは、押し込まれた新しい囲いの周囲ピクセルの大部分が同じピクセル強度（この特定の例では白色など）であるように、内部区域を囲むことができる。方法８００は、外側に延びる望ましくない内部領域アーティファクトを除去することができ、したがって、有効なカード画像２０７を含み得る、新しい、より堅固な囲いを提供することができる。

図８の方法は、輪郭周囲が受け取られるステップ８１０から開始することができる。輪郭周囲は長方形画像であってもよい。ステップ８２０において、システム１００は、検出されたすべての輪郭（または四辺形画像）を包含する長方形の囲い画像の境界の周りを「歩く」ことができ、ステップ８３０において、各境界エッジ、すなわち上、下、左、および右に対して黒レベル値となったピクセルをカウントする。次に、ステップ８４０において、いずれかの境界エッジが所定のカウントよりも多くの黒値ピクセルを含む場合、そのエッジは１ピクセルだけ内側に移動され、調整された四辺形区域８５０を提供する。このプロセスは、クエリ８６０が、押し込まれた四辺形のすべてのエッジの黒値ピクセルカウントが所定のしきい値を下回ると決定するまで続く。結果として得られる押し込まれた長方形は、潜在的なカード画像の囲いを表し、図９のフローチャートに関連して記載されている処理ステップにおいて検証されてもよい。

図９は、一実施形態による、カード画像の四辺形検証のための例示的な方法９００を描くフローチャートである。方法９００は、次の３つの異なる画像区域（ピクセルカウント）の分析を含んでもよい：トリミングされた画像区域（例えば、図６のステップ６１０において生成される）、検出されたすべての輪郭を包含する長方形囲い画像区域（例えば、図７のステップ７４０において生成される）、および調整された（押し込まれた）四辺形境界を有する画像の区域（例えば、図８のステップ８４０の１つ以上の反復において生成される）。３つのパラメータ（Ａ、Ｂ、Ｃ）は、以下のように、それぞれ、ステップ９１０、ステップ９２０、およびステップ９３０において生成され得る。
・Ａ＝トリミングされた画像領域の総ピクセルカウント。
・Ｂ＝輪郭周囲バイナリ画像の総ピクセルカウント。
・Ｃ＝調整された輪郭周囲のバイナリ画像の黒値ピクセルカウント。

次に、ステップ９４０において、有効なカード画像四辺形が検出されるべきである場合に、押し込まれた四辺形の非黒値ピクセル区域が他の２つのパラメータに関して特定の割合で存在するように、これら３つのパラメータの重み付け比較を実施することができる。ステップ９５０において、上記の重み付け比較に基づいて、有効なカード画像２０７が検出された場合、フラグが真に設定される。クエリ９６０に従って、フラグが真に設定されている場合、ステップ９７０に進むことができ、ここでシステム１００は、カード画像２０７（および／またはカード画像２０７の処理されたバージョン）がカード画像内部コンテンツ処理に渡される。ステップ９５０において、有効なカード画像２０７が検出されなかった場合、フラグは偽に設定され、クエリ９６０に従って、システム１００は、ステップ９８０において、内部にある有効なカード画像２０７を検索するために、次の指定されたフレーム領域に、または次のビデオフレーム３００に進むことができる。

図１０は、一実施形態による、非常に細長いカード画像形状の左側（または他の任意の）境界の任意の安定化のための例示的な方法１０００を描くフローチャートである。プロセスは、システム１００が水平カード画像２０７をトリミングされたフレームエッジまで拡張する、ステップ１０１０において開始することができる。ステップ１０２０において、システム１００は、この拡張された画像内の直線の垂直線を検出してもよい。このプロセスは、ステップ１０３０において、所定の長さの検出された垂直線を選択し、選択されたまばらな垂直線マーカを計算することをさらに含んでもよい。最後に、ステップ１０４０において、カード画像２０７の元の位置の左のマーカ（もしあれば、すぐ近くで見つかる）が選択され、ステップ１０５０において、四辺形の左エッジが、検出されたカード画像四辺形の元のエッジ位置のさらに左のマーカの位置に移動される。ステップ１０６０において、それに応じてカード画像四辺形が調整され、カードの更新された関心領域（ＲＯＩ）が返される。

情報抽出のためのカード画像内部処理
少なくとも１つの実施形態では、自動化プロセスが実施され、自動化プロセスは、デジタルビデオストリーム（放送スポーツイベントの１つ以上のハイライトを含んでもよい）を受信することと、デジタルビデオストリームの１つ以上のビデオフレームをカード画像２０７の存在について分析することと、カード画像２０７を抽出することと、カード画像２０７内のテキストボックスを位置特定することと、テキストボックス内に存在するテキストを解釈して、カード画像２０７からのコンテンツと分析されたデジタルビデオストリームのビデオハイライトとを関連付けるメタデータ２２４を作成することと、を含む。

図１１は、一実施形態による、カード画像２０７からテキスト抽出を実施するための方法１１００を描くフローチャートである。ステップ１１１０において、抽出されたカード画像２０７は、標準サイズにサイズ変更されてもよい。次に、ステップ１１２０において、サイズ変更されたカード画像２０７は、例えば、コントラスト増加、ノイズ低減のための両側および中央値フィルタリング、ならびに照明補償に続くガンマ補正を含む一連のフィルタを使用して前処理されてもよい。少なくとも１つの実施形態では、ステップ１１３０において、２段階分類器を備えた「極値領域フィルタ」が作成され（例：Ｌ．Ｎｅｕｍａｎｎ，Ｊ．Ｍａｔａｓ，“Ｒｅａｌ－ＴｉｍｅＳｃｅｎｅＴｅｘｔＬｏｃａｌｉｚａｔｉｏｎａｎｄＲｅｃｏｇｎｉｔｉｏｎ”，５ｔｈＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，Ｐｒｏｖｉｄｅｎｃｅ，ＲＩ，Ｊｕｎｅ２０１２）、ステップ１１４０において、カスケード分類器がカード画像２０７の各画像チャネルに適用される。次に、ステップ１１５０において、文字グループが検出され、単語ボックスのグループが抽出される。

少なくとも１つの実施形態では、複数のテキスト列（テキストボックス）がカード画像２０７内で識別され、このテキストボックスに関連付けられた文字の列内の各文字の位置およびサイズが検出される。次に、カード画像２０７の様々なフィールドからのテキスト列が処理および解釈され、対応するメタデータ２２４が生成され、このように、現在のスポーツイベントテレビ番組に関連するリアルタイム情報、および処理された埋め込まれたカード画像２０７に関連付けられた現在のタイムラインを提供する。

図１２は、一実施形態による、テキスト列の処理および解釈を実施するための方法１２００を描くフローチャートである。ステップ１２１０において、検出および抽出されたカード画像２０７が処理されてもよく、解釈されるテキストは、カード画像２０７内の文字境界ボックスのグループから選択されてもよい。次に、ステップ１２２０において、テキストが抽出されてもよく、抽出されたテキストは、例えば、光学式文字認識を介して読み取られて解釈されてもよい（例：“ＡｎＯｖｅｒｖｉｅｗｏｆｔｈｅＴｅｓｓｅｒａｃｔＯＣＲＥｎｇｉｎｅ”，Ｒ．Ｓｍｉｔｈ，ＰｒｏｃｅｅｄｉｎｇｓＩＣＤＡＲ’０７，Ｖｏｌ．０２，Ｓｅｐｔ．２００７．）。ステップ１２３０において、メタデータ２２４が生成され、構造化されてもよい。次に、カード画像２０７からのフレーム内情報は、ビデオハイライトテキストおよび視覚メタデータと組み合わされる。

本システムおよび方法は、想定される実施形態に関して特に詳細に説明されてきた。当業者は、システムおよび方法が他の実施形態で実施され得ることを理解するであろう。まず、構成要素の特定の命名、用語の大文字の使用、属性、データ構造、また任意の他のプログラミングもしくは構造の側面は必須でも重要でもなく、機構および／または機能は、名前、フォーマット、プロトコルが異なっていてもよい。さらに、システムは、ハードウェアとソフトウェアとの組み合わせを介して、または完全にハードウェア要素内に、または完全にソフトウェア要素内に実装されてもよい。また、本明細書に記載の様々なシステム構成要素間の機能の特定の分割は、単なる例示であり、必須ではない。単一のシステム構成要素によって実施される機能は、代わりに複数の構成要素によって実施されてもよく、複数の構成要素によって実施される機能は、代わりに単一の構成要素によって実施されてもよい。

本明細書における「一実施形態」または「実施形態」への言及は、実施形態に関連して説明される特定の特徴、構造、または特性が、少なくとも１つの実施形態に含まれることを意味する。本明細書の様々な場所における「一実施形態において」または「少なくとも１つの実施形態において」という句の出現は、必ずしもすべてが同じ実施形態を指すとは限らない。

様々な実施形態は、単独でまたは任意の組み合わせのいずれかで、上述の技術を実施するための任意の数のシステムおよび／または方法を含んでもよい。別の実施形態は、計算デバイスまたは他の電子デバイス内のプロセッサに上述の技術を実施させるための、非一時的なコンピュータ可読記憶媒体、およびその媒体に符号化されたコンピュータプログラムコードを含むコンピュータプログラム製品を含む。

上記のいくつかの部分は、計算デバイスのメモリ内のデータビットに対する操作のアルゴリズムおよび記号表現の観点から提示されている。これらのアルゴリズムの記述および表現は、データ処理技術の当業者が、その作業の本質を最も効果的に他の当業者に伝えるために使用される手段である。アルゴリズムはここでは、一般に、望ましい結果につながる自己矛盾のない一連のステップ（指示）であると考えられている。ステップは、物理量の物理的な操作を必要とするステップである。通常、必ずしもそうとは限らないが、これらの量は、記憶、転送、結合、比較、およびその他の方法で操作できる電気信号、磁気信号、または光信号の形をとる。主に一般的な使用法の理由から、これらの信号をビット、値、要素、記号、文字、用語、または数値などと呼ぶと便利な場合がある。さらに、一般性を失うことなく、物理量の物理的操作を必要とするステップの特定の配置をモジュールまたはコードデバイスとして参照することも便利な場合がある。

ただし、これらおよび類似の用語はすべて、適切な物理量に関連付けられており、これらの量に適用される便利なラベルにすぎないことを念頭に置くべきである。特に別段の記載がない限り、以下の説明から明らかなように、本明細書全体を通して、「処理」または「計算（ｃｏｍｐｕｔｉｎｇ）」または「計算（ｃａｌｃｕｌａｔｉｎｇ）」または「表示」または「決定」などの用語を利用した説明は、コンピュータシステム、または類似の電子計算モジュールおよび／またはデバイスの動作およびプロセスを指し、コンピュータシステムのメモリもしくはレジスタまたは他のそのようなストレージ、送信デバイス、または表示デバイス内で物理的（電子的）量として表されるデータを操作および変換することを意味することが理解されよう。

特定の態様は、アルゴリズムの形態で本明細書に記載されているプロセスステップおよび命令を含む。プロセスステップおよび命令は、ソフトウェア、ファームウェア、および／またはハードウェアで具体化することができ、ソフトウェアで具体化する場合、様々なオペレーティングシステムによって使用される様々なプラットフォーム上に存在するようにダウンロードすることができ、また、様々なプラットフォームから操作できることに留意されたい。

本文書はまた、本明細書の動作を実施するための装置にも関する。この装置は、必要な目的のために特別に構築され得るか、または計算デバイスに記憶されたコンピュータプログラムによって選択的にアクティブ化または再構成される汎用計算デバイスを含み得る。そのようなコンピュータプログラムは、フロッピーディスク、光ディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、磁気光学ディスク、リードオンリーメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、ソリッドステートドライブ、磁気カードもしくは光学カード、特定用途向け集積回路（ＡＳＩＣ）、または電子命令の記憶に適した、各々がコンピュータシステムバスに結合されている、あらゆるタイプの媒体などのコンピュータ可読記憶媒体に記憶されてもよい。プログラムおよびその関連するデータはまた、例えば、サーバ上など、リモートでホストされ、実行されてもよい。さらに、本明細書で言及される計算デバイスは、単一のプロセッサを含み得るか、または計算能力を高めるために複数のプロセッサ設計を採用するアーキテクチャであり得る。

本明細書に提示されるアルゴリズムおよび表示は、特定の計算デバイス、仮想化システム、または他の装置に本質的に関連していない。様々な汎用システムもまた、本明細書の教示に従ったプログラムとともにも使用され得るか、または必要な方法ステップを実施するためのより特殊な装置を構築することが便利であることが証明され得る。これらの様々なシステムに必要な構造は、ここで提供される説明から明らかになるであろう。さらに、システムおよび方法は、いかなる特定のプログラミング言語も参照して説明されていない。本明細書に記載の教示を実施するために様々なプログラミング言語を使用することができ、特定の言語への上記のあらゆる参照は、有効化および最良のモードの開示のために提供されることが理解されよう。

したがって、様々な実施形態は、コンピュータシステム、計算デバイス、もしくは他の電子デバイスを制御するためのソフトウェア、ハードウェア、および／または他の要素、あるいはこれらの任意の組み合わせまたは複数の要素を含む。このような電子デバイスは、例えば、当技術分野で周知の技術による、プロセッサ、キーボード、マウス、タッチパッド、トラックパッド、ジョイスティック、トラックボール、マイク、および／もしくはこれらの任意の組み合わせなどの入力デバイス、スクリーン、および／もしくはスピーカなどの出力デバイス、メモリ、磁気記憶装置、および／もしくは光記憶装置などの長期記憶装置、ならびに／またはネットワーク接続性を含んでもよい。このような電子デバイスは、携帯型または非携帯型であってもよい。説明したシステムおよび方法を実装するために使用できる電子デバイスの例としては、デスクトップコンピュータ、ラップトップコンピュータ、テレビ、スマートフォン、タブレット、音楽プレーヤー、音声デバイス、キオスク、セットトップボックス、ゲームシステム、ウェアラブルデバイス、家庭用電子デバイス、および／またはサーバコンピュータなどが挙げられる。電子デバイスは、例えば、Ｌｉｎｕｘ（登録商標）、ワシントン州レドモンド、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎから入手可能なＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ、カリフォルニア州クパチーノ、ＡｐｐｌｅＩｎｃ．から入手可能なＭａｃＯＳＸ、カリフォルニア州クパチーノのＡｐｐｌｅＩｎｃ．から入手可能なｉＯＳ、カリフォルニア州マウンテンビュー、ＧｏｏｇｌｅＩｎｃ．から入手可能なＡｎｄｒｏｉｄ、および／またはデバイス上での使用に適応された任意の他のオペレーティングシステムなどの任意のオペレーティングシステムを使用することができるが、これらに限定されない。

限られた数の実施形態が本明細書で説明されてきたが、上記の説明の利点を有する当業者は、他の実施形態が考案され得ることを理解するであろう。さらに、本明細書で使用される言語は、主に読みやすさおよび教育目的のために選択されており、主題を描画または制限するために選択されていない可能性があることに留意されたい。したがって、本開示は、範囲を例示することを意図しているが、限定することを意図していない。

Claims

ビデオストリームからメタデータを抽出するための方法であって、前記方法が、
データストアにおいて、前記ビデオストリームのビデオフレームを記憶することと、
プロセッサにおいて、前記ビデオフレームの少なくも１つのビデオフレームに埋め込まれたカード画像を自動的に識別および抽出することであって、前記識別および抽出することが、
前記ビデオストリームに関連付けられたネットワークに基づいて、前記カード画像の所定の位置が既知であるかを決定すること、
前記所定の位置が既知であるとの決定に基づいて、前記カード画像を含むビデオフレーム領域を定義する前記所定の位置を前記ビデオフレーム内で処理すること、および
前記所定の位置が既知ではないとの決定に基づいて、前記ビデオフレームの複数の領域を順次処理して、前記カード画像を含む前記ビデオフレーム領域を識別し、前記ビデオフレーム領域から前記カード画像を位置特定および抽出すること、を実施することによって行われ、
背景が除去された前記ビデオフレーム領域に基づいてエッジ画像を生成することと、
前記エッジ画像内の輪郭を検出することと、
前記輪郭を多角形として近似することと、
前記輪郭を包含する最小の長方形周囲で囲まれた領域を抽出して、周囲長方形画像を生成することと、
反復的に、前記周囲長方形画像の各エッジに対して、色修正されたピクセルをカウントし、色修正されたピクセルの数がしきい値を超えている、任意の境界エッジを内側に移動することと、を含む、識別および抽出することと、
前記プロセッサにおいて、前記カード画像を分析してメタデータを取得することと、
前記データストアにおいて、前記ビデオフレームのうちの少なくとも１つに関連付けて前記メタデータを記憶することと、を含む、方法。
前記ビデオストリームが、スポーツイベントの放送を含み、
前記ビデオフレームが、１人以上のユーザに対する特定の関心を有するとみなされるハイライトを構成し、
前記メタデータが、前記ハイライト中の前記スポーツイベントのステータスを記述している、請求項１に記載の方法。
出力デバイスにおいて、前記ハイライトの表示中にメタデータを提示することをさらに含む、請求項２に記載の方法。
前記カード画像を自動的に識別および抽出し、前記カード画像を分析して前記メタデータを取得することが、ハイライトに対してハイライトの表示中に実行される、請求項３に記載の方法。
前記ビデオフレーム領域から前記カード画像を位置特定および抽出することが、前記ビデオフレームをトリミングして前記ビデオフレーム領域を分離することを含む、請求項１に記載の方法。
前記ビデオフレーム領域から前記カード画像を位置特定および抽出することが、
前記ビデオフレーム領域、または前記ビデオフレーム領域の処理されたバージョンをセグメント化して、セグメント化された画像を生成することと、
前記セグメント化された画像の境界に隣接するセグメントのピクセル値を修正することと、を含む、請求項１に記載の方法。
前記ビデオフレーム領域から前記カード画像を位置特定および抽出することが、前記ビデオフレーム領域または前記ビデオフレーム領域の処理されたバージョンから背景を除去することを含む、請求項１に記載の方法。
前記ビデオフレーム領域内の第１のピクセル数、
周囲長方形画像内の第２のピクセル数、および
調整された周囲長方形画像内の第３のピクセル数をカウントすることと、
前記第１のピクセル数、前記第２のピクセル数、および前記第３のピクセル数を比較して、前記領域内で想定される四辺形が実行可能かどうかを決定することと、によって、前記領域内で検出された四辺形を検証することをさらに含む、請求項１に記載の方法。
前記ビデオフレーム領域から前記カード画像を位置特定および抽出することが、前記カード画像の左境界を調整することを含む、請求項１に記載の方法。
ビデオストリームからメタデータを抽出するための非一時的なコンピュータ可読媒体であって、内部に記憶された命令を含み、前記命令は、プロセッサによって実行されたときに、
データストアに、前記ビデオストリームのビデオフレームを記憶させる操作と、
前記ビデオフレームの少なくとも１つのビデオフレームに埋め込まれたカード画像を自動的に識別および抽出する操作であって、前記識別および抽出する操作が、
前記ビデオストリームに関連付けられたネットワークに基づいて、前記カード画像の所定の位置が既知であるかを決定すること、
前記所定の位置が既知であるとの決定に基づいて、前記カード画像を含むビデオフレーム領域を定義する前記所定の位置を前記ビデオフレーム内で処理すること、および
前記所定の位置が既知ではないとの決定に基づいて、前記ビデオフレームの複数の領域を順次処理して、前記カード画像を含む前記ビデオフレーム領域を識別し、前記ビデオフレーム領域から前記カード画像を位置特定および抽出することを実施することによって行われ、
背景が除去された前記ビデオフレーム領域に基づいてエッジ画像を生成することと、
前記エッジ画像内の輪郭を検出することと、
前記輪郭を多角形として近似することと、
前記輪郭を包含する最小の長方形周囲で囲まれた領域を抽出して、周囲長方形画像を生成することと、
反復的に、前記周囲長方形画像の各エッジに対して、色修正されたピクセルをカウントし、色修正されたピクセルの数がしきい値を超えている、任意の境界エッジを内側に移動することと、を含む、識別および抽出する操作と、
前記カード画像を分析してメタデータを取得する操作と、
前記データストアに、前記ビデオフレームのうちの少なくとも１つに関連付けて前記メタデータを記憶させる操作と、を実施する、非一時的なコンピュータ可読媒体。
前記ビデオストリームが、スポーツイベントの放送を含み、
前記ビデオフレームが、１人以上のユーザ対する特定の関心を有するとみなされるハイライトを構成し、
前記メタデータが、前記ハイライト中の前記スポーツイベントのステータスを記述している、請求項１０に記載の非一時的なコンピュータ可読媒体。
内部に記憶された命令をさらに含み、前記命令は、前記プロセッサによって実行されたときに、出力デバイスに前記メタデータを前記ハイライトの表示中に提示させる、請求項１１に記載の非一時的なコンピュータ可読媒体。
前記カード画像を自動的に識別および抽出し、前記カード画像を分析してメタデータを取得することが、ハイライトに対してハイライトの表示中に実行される、請求項１２に記載の非一時的なコンピュータ可読媒体。
前記ビデオフレーム領域から前記カード画像を位置特定および抽出することが、前記ビデオフレームをトリミングして前記ビデオフレーム領域を分離することを含む、請求項１０に記載の非一時的なコンピュータ可読媒体。
前記ビデオフレーム領域から前記カード画像を位置特定および抽出することが、
前記ビデオフレーム領域、または前記ビデオフレーム領域の処理されたバージョンをセグメント化して、セグメント化された画像を生成することと、
前記セグメント化された画像の境界に隣接するセグメントのピクセル値を修正することと、を含む、請求項１０に記載の非一時的なコンピュータ可読媒体。
前記ビデオフレーム領域から前記カード画像を位置特定および抽出することが、前記ビデオフレーム領域または前記ビデオフレーム領域の処理されたバージョンから背景を除去することを含む、請求項１０に記載の非一時的なコンピュータ可読媒体。
ビデオストリームからメタデータを抽出するためのシステムであって、前記システムが、
前記ビデオストリームのビデオフレームを記憶するように構成されたデータストアと、
プロセッサであって、
前記ビデオフレームの少なくとも１つのビデオフレームに埋め込まれたカード画像を自動的に識別および抽出することであって、前記識別および抽出することが、
前記ビデオストリームに関連付けられたネットワークに基づいて、前記カード画像の所定の位置が既知であるかを決定すること、
前記所定の位置が既知であるとの決定に基づいて、前記カード画像を含むビデオフレーム領域を定義する前記所定の位置を前記ビデオフレーム内で処理すること、および
前記所定の位置が既知ではないとの決定に基づいて、前記ビデオフレームの複数の領域を順次処理して、前記カード画像を含む前記ビデオフレーム領域を識別し、前記ビデオフレーム領域から前記カード画像を位置特定および抽出すること、を実施することによって行われ、
背景が除去された前記ビデオフレーム領域に基づいてエッジ画像を生成することと、
前記エッジ画像内の輪郭を検出することと、
前記輪郭を多角形として近似することと、
前記輪郭を包含する最小の長方形周囲で囲まれた領域を抽出して、周囲長方形画像を生成することと、
反復的に、前記周囲長方形画像の各エッジに対して、色修正されたピクセルをカウントし、色修正されたピクセルの数がしきい値を超えている、任意の境界エッジを内側に移動することと、を含む、識別および抽出することと、
前記カード画像を分析してメタデータを取得することと、を行うように構成されている、プロセッサと、を備え、
前記データストアが、前記ビデオフレームのうちの少なくとも１つに関連付けて前記メタデータを記憶するようにさらに構成されている、システム。
前記ビデオストリームが、スポーツイベントの放送を含み、
前記ビデオフレームが、１人以上のユーザに対する特定の関心を有するとみなされるハイライトを構成し、
前記メタデータが、前記ハイライト中の前記スポーツイベントのステータスを記述している、請求項１７に記載のシステム。
前記ハイライトの表示中に前記メタデータを提示するように構成された出力デバイスをさらに備える、請求項１８に記載のシステム。
前記プロセッサが、前記カード画像を自動的に識別および抽出し、前記カード画像を分析して、前記ハイライトの表示中にハイライトの前記メタデータを取得するようにさらに構成されている、請求項１９に記載のシステム。
前記プロセッサが、前記ビデオフレームをトリミングして前記ビデオフレーム領域を分離することによって、前記ビデオフレーム領域から前記カード画像を位置特定および抽出するようにさらに構成されている、請求項１７に記載のシステム。
前記プロセッサが、
前記ビデオフレーム領域、または前記ビデオフレーム領域の処理されたバージョンをセグメント化して、セグメント化された画像を生成することと、
前記セグメント化された画像の境界に隣接するセグメントのピクセル値を修正することと、によって、前記ビデオフレーム領域から前記カード画像を位置特定および抽出するようにさらに構成されている、請求項１７に記載のシステム。
前記プロセッサが、前記ビデオフレーム領域またはビデオフレーム領域の処理されたバージョンから背景を除去することによって、前記ビデオフレーム領域から前記カード画像を位置特定および抽出するようにさらに構成されている、請求項１７に記載のシステム。