JP7511482B2 - 埋め込まれた情報カード位置特定およびコンテンツ抽出のためのビデオ処理 - Google Patents

埋め込まれた情報カード位置特定およびコンテンツ抽出のためのビデオ処理 Download PDF

Info

Publication number
JP7511482B2
JP7511482B2 JP2020564749A JP2020564749A JP7511482B2 JP 7511482 B2 JP7511482 B2 JP 7511482B2 JP 2020564749 A JP2020564749 A JP 2020564749A JP 2020564749 A JP2020564749 A JP 2020564749A JP 7511482 B2 JP7511482 B2 JP 7511482B2
Authority
JP
Japan
Prior art keywords
video frame
card image
image
frame region
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020564749A
Other languages
English (en)
Other versions
JP2021525031A (ja
Inventor
ストヤンシック,ミハイロ
パッカード,ウォレン
カニギン,デニス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stats LLC
Original Assignee
Stats LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/411,704 external-priority patent/US11594028B2/en
Application filed by Stats LLC filed Critical Stats LLC
Publication of JP2021525031A publication Critical patent/JP2021525031A/ja
Application granted granted Critical
Publication of JP7511482B2 publication Critical patent/JP7511482B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

関連出願の相互参照
本出願は、2018年5月18日に出願された「Machine Learning for Recognizing and Interpreting Embedded Information Card Content」に関する米国仮特許出願整理番号第62/673,412号(代理人整理番号第THU010-PROV号)の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
本出願は、2018年5月18日に出願された「Video Processing for Enabling Sports Highlights Generation」に関する米国仮特許出願整理番号第62/673,411号(代理人整理番号第THU009-PROV号)の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
本出願は、2018年5月18日に出願された「Video Processing for Embedded Information Card Localization and Content Extraction」に関する米国仮特許出願整理番号第62/673,413号(代理人整理番号第THU012-PROV号)の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
本出願は、2018年6月5日に出願された「Audio Processing for Detecting Occurrences of Crowd Noise in Sporting Event Television Programming」に関する米国仮特許出願整理番号第62/680,955号(代理人整理番号第THU007-PROV号)の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
本出願は、2018年7月30日に出願された「Audio Processing for Extraction of Variable Length Disjoint Segments from Television Signal」に関する米国仮特許出願整理番号第62/712,041号(代理人整理番号第THU006-PROV号)の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
本出願は、2018年10月16日に出願された「Audio Processing for Detecting Occurrences of Loud Sound Characterized by Short-Time Energy Bursts」に関する米国仮特許出願整理番号第62/746,454号(代理人整理番号第THU016-PROV号)の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
本出願は、2019年5月14日に出願された「Machine Learning for Recognizing and Interpreting Embedded Information Card Content」に関する米国実用特許出願整理番号第16/411,710号(代理人整理番号第THU010号)の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
本出願は、2019年5月14日に出願された「Video Processing for Enabling Sports Highlights Generation」に関する米国実用特許出願整理番号第16/411,704号(代理人整理番号第THU009号)の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
本出願は、2019年5月14日に出願された「Video Processing for Embedded Information Card Localization and Content Extraction」に関する米国実用特許出願整理番号第16/411,713号(代理人整理番号第THU012号)の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
本出願は、2012年8月31日に出願され、2015年6月16日に米国特許第9,060,210号として発行された、「Generating Excitement Levels for Live Performances」に関する米国実用特許出願整理番号第13/601,915に関するものであり、その全体が参照により本明細書に組み込まれる。
本出願は、2012年8月31日に出願され、2014年9月23日に米国特許第8,842,007号として発行された、「Generating Alerts for Live Performances」に関する米国実用特許出願整理番号第13/601,927に関するものであり、その全体が参照により本明細書に組み込まれる。
本出願は、2012年8月31日に出願され、2013年11月26日に米国特許第8,595,763号として発行された、「Generating Teasers for Live Performances」に関する米国実用特許出願整理番号第13/601,933に関するものであり、その全体が参照により本明細書に組み込まれる。
本出願は、2014年10月9日に出願された「Generating a Customized Highlight Sequence Depicting an Event」に関する米国実用特許出願整理番号第14/510,481号(代理人整理番号第THU001号)に関するものであり、その全体が参照により本明細書に組み込まれる。
本出願は、2015年5月12日に出願された「Generating a Customized Highlight Sequence Depicting Multiple Events」に関する米国実用特許出願整理番号第14/710,438号(代理人整理番号第THU002号)に関するものであり、その全体が参照により本明細書に組み込まれる。
本出願は、2015年10月7日に出願された「Customized Generation of Highlight Show with Narrative Component」に関する米国実用特許出願整理番号第14/877,691号(代理人整理番号第THU004号)に関するものであり、その全体が参照により本明細書に組み込まれる。
本出願は、2016年9月14日に出願された「User Interface for Interaction with Customized Highlight Shows」に関する米国実用特許出願整理番号第15/264,928号(代理人整理番号第THU005号)に関するものであり、その全体が参照により本明細書に組み込まれる。
本文書は、マルチメディアコンテンツを配信するテレビデバイスまたはビデオサーバ上のマルチメディアコンテンツおよび関連する情報を識別し、またマルチメディアコンテンツと同期してコンテンツおよびサービスを提供するために、組み込みソフトウェアアプリケーションがマルチメディアコンテンツを利用することを可能にする技術に関する。様々な実施形態は、スポーツテレビビデオコンテンツ内の情報を識別および抽出し、スポーツテレビビデオコンテンツの試合中および試合後のレビューのためのビデオハイライトに関連付けられたメタデータを作成するために使用される自動化ビデオおよび音声分析を提供するための方法およびシステムに関する。
試合前、試合中、および試合後の対話的なアプリケーションを有する対話的な広告および強化された番組ガイドなどの拡張テレビアプリケーションが長い間構想されてきた。もともと放送テレビ用に設計された既存のケーブルシステムは、対話的テレビサービスおよび拡張(対話的)番組制作ガイドを含む、新しいアプリケーションおよびサービスのホストをサポートすることが求められている。
拡張テレビアプリケーションを可能にするためのいくつかのフレームワークが標準化されている。例としては、OpenCable(商標)拡張TVアプリケーションメッセージング仕様およびTru2way仕様が挙げられ、これらは、ケーブルビデオネットワークを介して配信される対話的なデジタルケーブルサービスを指し、対話的な番組ガイド、対話的な広告、およびゲームなどの機能を含んでいる。さらに、ケーブル事業者の「OCAP」プログラムは、eコマースショッピング、オンラインバンキング、電子番組ガイド、およびデジタルビデオ録画などの対話的なサービスを提供している。これらの取り組みにより、番組制作者/放送局が配信するビデオコンテンツと同期した第一世代のビデオ同期アプリケーションが可能となり、テレビ番組制作に付加的なデータと対話的性を提供している。
ビデオ/音声コンテンツ分析技術および対応するモバイルデバイスの最近の開発により、ライブTV番組イベントと同期して動作する高度なアプリケーションの開発において、一連の新しい可能性が開かれた。これらの新しい技術およびコンピュータビジョン、およびビデオ処理の進歩、ならびに最新のプロセッサの改善された計算能力により、メタデータを伴う高度な番組コンテンツのハイライトをリアルタイムで生成できるようになった。
スポーツテレビ放送番組において、1つのビデオフレームまたは複数のビデオフレーム内の情報スコアボードなどの、情報カード(「カード画像」)の位置を自動的に見つけるための方法およびシステムが提示される。また、位置特定されたカード画像の様々なフィールド内のテキスト列を識別し、位置特定されたカード画像の様々なフィールドからテキスト情報を読み取って解釈するための方法およびシステムも記載される。
少なくとも1つの実施形態では、カード画像の検出、位置特定、および読み取りは、スポーツテレビ番組コンテンツの提示に関して同期的に実施される。少なくとも1つの実施形態では、デジタルビデオストリームを受信し、デジタルビデオストリームの1つ以上のフレームを分析し、カード画像四辺形を自動的に検出および位置特定するための自動化プロセスが提供される。別の実施形態では、1つ以上の位置特定されたカード画像を分析し、テキスト列(例えば、テキストボックス内の)を認識および抽出し、抽出されたテキストボックスから情報を読み取るための自動化プロセスが提供される。
さらに別の実施形態では、カード画像内の特定のフィールドに関連付けられた検出されたテキスト列が解釈され、したがって、スポーツイベントのテレビ放送のコンテンツに関連する試合内の情報を即座に提供する。抽出されたフレーム内情報は、視聴覚およびテキストデータに関連付けられた放送テレビ番組コンテンツのハイライトのセットとして、自動的に作成されたカスタムビデオコンテンツに関連するメタデータを生成するために使用されてもよい。
少なくとも1つの実施形態では、ビデオストリームからメタデータを抽出するための方法は、ビデオストリームの少なくとも1つの部分をデータストアに記憶することを含んでもよい。プロセッサにおいて、ビデオフレームのうちの少なくとも1つに埋め込まれた1つ以上のカード画像は、カード画像を含むビデオフレーム領域を定義するビデオフレーム内の所定の位置を識別すること、およびビデオフレームの複数の領域を順次処理して、カード画像を含むビデオフレーム領域を識別することのうちの少なくとも1つを実施することによって、自動的に識別および抽出されてもよい。プロセッサにおいて、カード画像を分析してメタデータを取得してもよく、メタデータは、ビデオフレームのうちの少なくとも1つに関連付けてデータストアに記憶してもよい。
少なくとも1つの実施形態では、ビデオストリームは、スポーツイベントの放送であってもよい。前記ビデオフレームが、1人以上のユーザ対する特定の関心を有するとみなされるハイライトを構成してもよい。メタデータは、ハイライト中のスポーツイベントのステータスを記述していてもよい。
少なくとも1つの実施形態では、本方法は、出力デバイスにおいて、ハイライトの表示中にメタデータを提示することをさらに含んでもよい。カード画像を自動的に識別および抽出し、前記カード画像を分析してメタデータを取得することが、ハイライトに対してハイライトの表示中に実行されもよい。
少なくとも1つの実施形態では、本方法は、ビデオフレーム領域からカード画像を位置特定および抽出することをさらに含んでもよい。ビデオフレーム領域からカード画像を位置特定および抽出することは、ビデオフレームをトリミングしてビデオフレーム領域を分離することを含んでもよい。代替的にまたは追加的に、ビデオフレーム領域からカード画像を位置特定および抽出することは、ビデオフレーム領域またはビデオフレーム領域の処理されたバージョンをセグメント化してセグメント化された画像を生成することと、セグメント化された画像の境界に隣接するセグメントのピクセル値を修正することとを含んでもよい。代替的にまたは追加的に、ビデオフレーム領域からカード画像を位置特定および抽出することは、ビデオフレーム領域またはビデオフレーム領域の処理されたバージョンから背景を除去することを含んでもよい。代替的にまたは追加的に、ビデオフレーム領域からカード画像を位置特定および抽出することは、ビデオフレーム領域に基づいてエッジ画像を生成すること、エッジ画像内の輪郭を見つけることと、輪郭を多角形として近似することと、輪郭のすべてを包含する最小の長方形周囲で囲まれた領域を抽出して周囲長方形画像を生成することと、を含んでもよい。
少なくとも1つの実施形態では、本方法は、周囲長方形画像の各エッジに対して、反復的に、色修正されたピクセルをカウントし、任意の境界エッジを、しきい値を超える色修正されたピクセルの数で内側に移動することをさらに含んでもよい。
少なくとも1つの実施形態では、本方法は、ビデオフレーム領域内の第1のピクセル数、周囲長方形画像内の第2のピクセル数、および調整された周囲長方形の画像内の第3のピクセル数をカウントすることによって、領域内で検出された四辺形を検証することをさらに含んでもよい。第1の数、第2の数、および第3の数を比較して、領域内で想定される四辺形が実行可能かどうかを決定してもよい。
少なくとも1つの実施形態では、ビデオフレーム領域からカード画像を位置特定および抽出することは、カード画像の左側の境界(または別の境界)を調整することを含んでもよい。
さらなる詳細および変形例は、本明細書に記載されている。
添付の図面は、説明とともに、いくつかの実施形態を示している。当業者は、図面に示される特定の実施形態は単なる例示的なものであり、範囲を限定することを意図するものではないことを認識するであろう。
クライアント/サーバの実施形態による、ハードウェアアーキテクチャを描くブロック図であり、イベントコンテンツは、ネットワーク接続されたコンテンツプロバイダを介して提供される。 別のクライアント/サーバの実施形態による、ハードウェアアーキテクチャを描くブロック図であり、イベントコンテンツは、クライアントベースの記憶デバイスに記憶される。 スタンドアロンの実施形態による、ハードウェアアーキテクチャを描くブロック図である。 一実施形態による、システムアーキテクチャの概要を描くブロック図である。 一実施形態による、カード画像、ユーザデータ、およびハイライトデータに組み込むことができるデータ構造の例を描く概略ブロック図である。 ビデオストリームからのビデオフレームの例のスクリーンショット図であり、スポーツイベントのテレビ番組コンテンツに見られるようなフレーム内に埋め込まれた情報カード画像(「カード画像」)を示している。 カード画像が埋め込まれたビデオフレームの追加の例を描く一連のスクリーンショット図である。 一実施形態による、ビデオストリームを受信し、ビデオフレームのオンザフライ処理を実施して、図3のカード画像およびその関連する試合ステータス情報などのカード画像および関連するメタデータを位置特定および抽出する、アプリケーションによって実行される方法を描くフローチャートである。 図4から実行可能なカード画像を検出するためのビデオフレームの所定の領域を処理するためのステップをより詳細に描くフローチャートである。 一実施形態による、デコードされたビデオフレームの指定された区域における有効なカード画像四辺形検出のためのトップレベル処理のための方法を描くフローチャートである。 一実施形態による、より正確なカード画像四辺形決定のための方法を描くフローチャートである。 一実施形態による、検出されたすべての輪郭を包含する囲いの四辺形境界を調整するための方法を描くフローチャートである。 一実施形態による、カード画像四辺形検証のための方法を描くフローチャートである。 一実施形態による、非常に細長いカード画像形状の左境界の任意の安定化のための方法を描くフローチャートである。 一実施形態による、カード画像207からテキスト抽出を実施するための方法を描くフローチャートである。 一実施形態による、テキスト列の処理および解釈を実施するための方法を描くフローチャートである。
定義
以下の定義は説明のみを目的として提示されており、範囲を制限することを意図するものではない。
・イベント:本明細書の説明の目的上、「イベント」という用語は、試合、セッション、対戦、シリーズ、パフォーマンス、番組、および/もしくはコンサートなど、またはその部分(行為、期間、クォーター、ハーフ、イニング、シーン、またはチャプター)を指す。イベントは、スポーツイベント、娯楽イベント、またはイベントの参加者のより大きな集団内の単一の個人または複数の個人のサブセットの特定のパフォーマンスなどであってもよい。スポーツ以外のイベントの例としては、テレビショー、ニュース速報、社会政治的事件、自然災害、映画、演劇、ラジオ番組、ポッドキャスト、オーディオブック、オンラインコンテンツ、および/または音楽演奏などが挙げられる。イベントは、任意の長さを有することができる。例示目的のために、本明細書ではスポーツイベントの観点から本技術を説明することが多いが、当業者は、この技術が、任意の視聴覚、音声、資格、グラフィックスベース、対話的、非対話的、またはテキストベースのコンテンツのハイライトショーを含む、他の文脈でも使用できることを認識するであろう。したがって、本説明における「スポーツイベント」という用語および任意の他のスポーツ固有の用語の使用は、1つの想定される実施形態を例示することを意図しているが、記載される技術の範囲をその1つの実施形態に限定することを意図ししているわけではない。むしろ、そのような用語は、この技術に適切な、任意の好適なスポーツ以外の文脈にまで及ぶと考えられるべきである。説明を容易にするために、「イベント」という用語はまた、イベントの視聴覚記録などのイベントの報告もしくは表現、またはイベントの報告、説明、もしくは描画を含む任意の他のコンテンツ項目を指すためにも使用される。
・ハイライト:1人以上のユーザに対する特定の関心を有するとみなされる、イベントの抜粋もしくは部分、またはイベントに関連付けられたコンテンツ。ハイライトは、任意の長さを有することができる。概して、本明細書に記載の技術は、任意の好適なイベントについて、カスタマイズされたハイライトのセット(特定の特性および/またはユーザ選好に基づいて選択され得る)を識別および提示するための機構を提供する。「ハイライト」という用語はまた、ハイライトの視聴覚記録などのハイライトの報告もしくは表現、またはハイライトの報告、説明、もしくは描画を含む任意の他のコンテンツ項目を指すためにも使用される。ハイライトは、イベント自体の描画に限定される必要はないが、イベントに関連付けられた他のコンテンツを含むことができる。例えば、スポーツイベントの場合、ハイライトとして、試合中のオーディオ/ビデオ、ならびに試合前、試合中、および試合後のインタビュー、分析、および/または解説などを含む他のコンテンツを挙げることができる。このようなコンテンツは、リニアテレビから(例えば、イベント自体を描くビデオストリームの一部として)記録することも、任意の数の他のソースから取り出すこともできる。例えば、オカレンス(プレー)、ストリング、ポゼッション、およびシーケンスを含む、様々なタイプのハイライトを提供することができ、これらのすべては、以下で定義されている。ハイライトは、固定された継続時間である必要はないが、以下で説明するように、開始オフセットおよび/または終了オフセットを組み込むことができる。
・コンテンツデリニエーター:ハイライトの開始または終了を示す1つ以上のビデオフレーム。
・オカレンス:イベント中に発生するもの。例としては、ゴール、プレー、ダウン、ヒット、セーブ、ゴール上のシュート、バスケット、スティール、スナップまたはスナップの試み、ニアミス、喧嘩、試合の開始もしくは終了、クォーター、ハーフ、ピリオド、またはイニング、ピッチ、ペナルティ、負傷、娯楽イベントでのドラマチックな出来事、歌、および/またはソロなどが挙げられる。オカレンスはまた、停電、および/または手に負えないファンとの事件などの、異常な事件でもあり得る。このようなオカレンスの検出は、ビデオストリームの特定の一部分をハイライトとして指定するかどうかを決定するための基礎として使用することができる。オカレンスは、命名を容易にするために、本明細書では「プレー」とも呼ばれるが、そのような使用法は、範囲を制限するものと解釈されるべきではない。オカレンスは、任意の長さを有してもよく、オカレンスの表現は、様々な長さを有してもよい。例えば、上記のように、オカレンスの拡張表現は、オカレンスの直前および直後の時間期間を描く映像を含み得るが、簡単な表現は、オカレンス自体のみを含み得る。任意の中間表現も提供することができる。少なくとも1つの実施形態では、オカレンスを表現するための継続時間の選択は、ユーザ選好、利用可能な時間、オカレンスに対する決定された興奮レベル、オカレンスの重要度、および/または任意の他の要因によって異なることがある。
・オフセット:ハイライトの長さを調整する量。少なくとも1つの実施形態では、ハイライトの開始時間および/または終了時間をそれぞれ調整するために、開始オフセットおよび/または終了オフセットを提供することができる。例えば、ハイライトがゴールを描く場合、ハイライトは、ゴールに続く祝賀および/またはファンの反応を含むように、(エンドオフセットを介して)数秒間延長されてもよい。オフセットは、例えば、ハイライトに利用可能な時間、ハイライトの重要度および/もしくは興奮レベル、ならびに/また任意の他の好適な要因に基づいて、自動的にまたは手動で変化するように構成することができる。
・ストリング:何らかの形で互いとリンクまたは関連している一連のオカレンス。オカレンスは、ポゼッション(以下に定義する)内で発生してもよく、複数のポゼッションにまたがってもよい。オカレンスは、シーケンス(以下に定義する)内で発生してもよく、複数のシーケンスにまたがってもよい。オカレンスは、互いに何らかの主題的または物語的なつながりがあるため、またはあるものが別のものにつながるため、または任意の別の理由で、リンクまたは関連していてもよい。ストリングの一例は、ゴールまたはバスケットにつながるパスのセットである。これは、コンピュータプログラミング分野で通常割り当てられている意味を有する「テキスト列」と混同してはならない。
・ポゼッション:イベントの任意の時間で区切られた部分。ポゼッションの開始/終了時間の区別は、イベントのタイプによって異なることがある。一方のチームが攻撃的であり得るが、もう一方のチームが防御的である特定のスポーツイベント(例えば、バスケットボールまたはサッカーなど)の場合、ポゼッションは、チームの一方がボールを有している時間期間として定義することができる。ホッケーまたはサッカーなど、パックまたはボールのポゼッションがより流動的であるスポーツでは、ポゼッションは、チームのうちの一方が他方のチームによる瞬間的な接触(ブロックされたシュートまたはセーブなど)を無視して、パックまたはボールの実質的な制御を有する時間期間にまで及ぶと考えられる。野球の場合、ポゼッションはハーフイニングとして定義される。サッカーの場合、ポゼッションは、同じチームがボールを有しているいくつかのシーケンスを含むことができる。他のタイプのスポーツイベントおよびスポーツ以外のイベントの場合、「ポゼッション」という用語は多少語弊があるかもしれないが、本明細書ではなおも例示の目的で使用されている。スポーツ以外の文脈での例としては、チャプター、シーン、行為、またはテレビセグメントなどが挙げられる。例えば、音楽コンサートの文脈では、ポゼッションは単一の曲の演奏に相当する場合がある。ポゼッションは、任意の数のオカレンスを含むことができる。
・シーケンス:1つの連続したアクションの時間期間を含むイベントの時間で区切られた部分。例えば、スポーツイベントでは、シーケンスはアクションの開始時(フェイスオフ、またはチップオフなど)に開始し、笛が吹かれてアクションの中断を示すときに終了することがある。野球またはサッカーなどのスポーツでは、シーケンスはプレーと同等である場合があり、これはオカレンスの一形態である。シーケンスは、任意の数のポゼッションを含むことができるか、またはポゼッションの一部分であってもよい。
・ハイライトショー:ユーザへの提示のために配置されたハイライトのセット。ハイライトショーは、直線的に(ビデオストリームなど)、またはユーザがどのハイライトをどの順番で視聴するかを選択できるような方法で提示されてもよい(例えば、リンクまたはサムネイルをクリックすることによって)。ハイライトショーの提示は、非対話的でもあっても対話的であってもよく、例えば、ユーザが一時停止、巻き戻し、スキップ、早送り、および/または選好の有無の伝達などを行うことを可能にする。ハイライトショーは、例えば、凝縮された試合であり得る。ハイライトショーは、単一のイベントから、または複数のイベントから、連続または非連続のハイライトを任意の数だけ含むことができ、さらには異なるタイプのイベント(例えば、異なるスポーツ、ならびに/またはスポーツおよびスポーツ以外のイベントのハイライトの組み合わせ)からのハイライトを含むこともできる。
・ユーザ/視聴者:「ユーザ」または「視聴者」という用語は、イベント、イベントの1つ以上のハイライト、またはハイライトショーを見たり、聞いたり、またはその他の方法で体験したりする個人、グループ、またはその他のエンティティを同じ意味で指す。「ユーザ」または「視聴者」という用語はまた、ある将来の時点で、イベント、イベントの1つ以上のハイライト、またはハイライトショーのいずれかを見たり、聞いたり、または他の方法で体験したりする個人、グループ、または他のエンティティを指すこともできる。「視聴者」という用語は説明の目的で使用される場合があるが、イベントに視覚的な成分が含まれている必要はないため、「視聴者」は代わりにリスナーまたはコンテンツの任意の他の消費者であってもよい。
・物語:ハイライトセグメントのセットを特定の順序でリンクする一貫したストーリー。
・興奮レベル:特定のユーザまたは一般のユーザにとって、イベントまたはハイライトがどれほど興奮するものになるかまたは興味深いものになるかを示す尺度。興奮レベルは、特定のオカレンスまたはプレーヤーに関して決定することもできる。興奮レベルを測定または評価するための様々な技術は、上記で参照した関連する用途で説明されている。説明したように、興奮レベルは、イベント内のオカレンス、およびイベントの全体的な文脈または重要度(プレーオフ試合、ペナントの影響、および/またはライバル関係など)などの他の要因によって異なる場合がある。少なくとも1つの実施形態では、興奮レベルは、イベント内の各オカレンス、ストリング、ポゼッション、またはシーケンスに関連付けることができる。例えば、ポゼッションの興奮レベルは、そのポゼッション内で発生するオカレンスに基づいて決定することができる。興奮レベルは、異なるユーザ(例えば、あるチームのファンと中立のファン)によって異なる方法で測定されてもよく、各ユーザの個人的な特性によって異なる場合がある。
・メタデータ:他のデータに関連し、他のデータに関連付けられて記憶されるデータ。一次データは、スポーツ番組またはハイライトなどのメディアであってもよい。
・カード画像:イベント、イベントの描画、またはその一部分などの、ビデオに描かれているいずれかのものに関するデータを提供するビデオフレーム内の画像。例示的なカード画像は、試合スコア、試合時計、および/またはスポーツイベントからの他の統計を含む。カード画像は、一時的に、またはビデオストリームの全継続時間にわたって出現してもよく、一時的に出現するものは、特にそれらが出現するビデオストリームの部分に関係していてもよい。「カード画像」は、ビデオフレーム内に出現する実際のカード画像の修正または処理されたバージョンであってもよい。
・文字画像:単一の文字に関連すると思われる画像の一部分。文字画像は、文字を取り囲む領域を含んでもよい。例えば、文字画像は、文字を取り囲む略長方形の境界ボックスを含み得る。
・文字:単語、数字、または単語もしくは数字の表現の一部となることができる記号。文字は、文字、数字、および特殊文字を含むことができ、任意の言語にあってもよい。
・文字列:文字のセットであって、それらがスポーツイベントでプレーしているチームの名前などの単一の1つの情報に関連することを示す方法でグループ化されたもの。多くの場合、英語の文字列は水平に配置され、左から右に読み取られる。ただし、文字列は英語と他の言語とで異なって配置される場合がある。
・ビデオフレーム領域:ビデオフレーム内にカード画像が出現すると予想される所定の位置の知識、またはどの領域がカード画像を含む可能性が高いかを識別するためのビデオフレームの複数の領域の順次の分析のいずれかに基づく、カード画像を含むと考えられるビデオフレームの一部分。
概要
様々な実施形態によれば、スポーツイベントのテレビ番組のハイライトに関連付けられた時間ベースのメタデータを自動的に作成するための方法およびシステムが提供される。ハイライトおよび関連するフレーム内時間ベースの情報は、スポーツイベントのテレビ放送に関して同期的に抽出されてもよく、またはスポーツイベントのビデオコンテンツが、スポーツイベントのテレビ放送後にバックアップデバイスからビデオサーバを介してストリーミングされている間に抽出されてもよい。
少なくとも1つの実施形態では、ソフトウェアアプリケーションは、テレビ番組コンテンツの再生および/または受信と同期して動作して、コンテンツのハイライトに関連付けられた情報メタデータを提供する。このようなソフトウェアは、例えば、テレビデバイス自体上で、または関連するSTB上で、または番組コンテンツを受信し、その後ストリーミングする機能を有するビデオサーバ上で、またはライブ番組を含むビデオフィードを受信する機能を有するモバイルデバイス上で実行することができる。
ビデオ管理および処理システムにおいて、ならびに対話型(強化された)番組ガイドの文脈において、テレビ放送コンテンツハイライトを表すビデオクリップのセットは、ハイライト内で提示されたイベントをより詳細に記述した時間ベースのメタデータを含むデータベースとともに、リアルタイムで自動的に生成および/または記憶することができる。ビデオクリップに付随するメタデータは、例えば、テキスト情報、画像、および/または任意のタイプの視聴覚データなどの任意の情報を含むことができる。このような方法で、対話型テレビアプリケーションは、一次テレビディスプレイ、またはタブレット、ラップトップ、スマートフォンなどの二次ディスプレイのいずれかで、番組コンテンツを見ているユーザにタイムリーで関連性のあるコンテンツを提供することができる。
試合中および試合後のビデオコンテンツのハイライトに関連付けられたメタデータの1つのタイプは、番組コンテンツのビデオフレームのうちの1つ以上に埋め込まれた情報カード(「カード画像」)を読み取ることによって、ライブ番組コンテンツから直接抽出されたスポーツ試合パラメータに関するリアルタイムの情報を伝達する。様々な実施形態では、本明細書に記載のシステムおよび方法は、このタイプの自動メタデータ生成を可能にする。
少なくとも1つの実施形態では、システムおよび方法は、スポーツイベント番組のテレビ放送のうちの1つ以上のデコードされたビデオフレームに、または再生デバイスからストリーミングされたスポーツイベントビデオに埋め込まれたカード画像を自動的に検出および位置特定する。デコードされたビデオフレーム内の多数の所定の関心領域が分析され、カード画像四辺形が位置特定され、コンピュータビジョン技術を使用してリアルタイムで処理されて、識別されたカード画像からの情報をスポーツイベントのステータスを記述するメタデータのセットに変換する。
別の実施形態では、デジタルビデオストリームが受信される、またデジタルビデオストリームの1つ以上のビデオフレームがカード画像四辺形の存在に対して分析される自動化プロセスが記載される。次に、識別されたカード画像内でテキストボックスが位置特定され、このテキストボックス内に存在するテキストが解釈されて、カード画像コンテンツを分析されたデジタルビデオストリームのビデオハイライトに関連付けるメタデータファイルを作成する。
さらに別の実施形態では、複数のテキスト列(テキストボックス)が識別され、このテキストボックスに関連付けられた文字の列内の各文字の画像の位置およびサイズが検出される。次に、カード画像の様々なフィールドからの複数のテキスト列が処理および解釈され、対応するメタデータが形成され、処理されたカード画像および分析されたビデオフレームに関連付けられたスポーツイベントの部分に関連する複数の情報を提供する。
本明細書に提示される自動化メタデータ生成ビデオシステムは、ライブブ放送ビデオストリームまたはコンピュータサーバーを介してストリーミングされるデジタルビデオに関連して動作することができる。少なくとも1つの実施形態では、ビデオストリームは、コンピュータビジョン技術を使用してリアルタイムで処理され、埋め込まれたカード画像からメタデータを抽出することができる。
システムアーキテクチャ
様々な実施形態によれば、システムは、情報を受信、記憶、および提示するように装備された任意の電子デバイスまたは電子デバイスのセットに実装することができる。このような電子デバイスは、例えば、デスクトップコンピュータ、ラップトップコンピュータ、テレビ、スマートフォン、タブレット、音楽プレーヤー、音声デバイス、キオスク、セットトップボックス(STB)、ゲームシステム、ウェアラブルデバイス、および/または家庭用電子デバイスなどであってもよい。
システムは、特定のタイプの計算デバイスでの実装に関連して本明細書に記載されるが、当業者は、本明細書に記載される技術は、他の文脈で実装することができ、実際には、ユーザ入力を受信および/または処理し、ユーザに出力を提示できる任意の好適なデバイスで実装できることを認識するであろう。したがって、以下の説明は、範囲を限定するのではなく、例として様々な実施形態を例示することを意図している。
ここで図1Aを参照すると、クライアント/サーバの実施形態による、イベントのビデオストリームに埋め込まれたカード画像からメタデータを自動的に抽出するためのシステム100のハードウェアアーキテクチャを描くブロック図が示されている。ビデオストリームなどのイベントコンテンツは、ネットワーク接続されたコンテンツプロバイダ124を介して提供され得る。このようなクライアント/サーバの実施形態の例は、ウェブベースの実装形態であり、ここで1つ以上のクライアントデバイス106の各々が、通信ネットワーク104を介して、データプロバイダ(複数可)サーバ122、および/またはコンテンツプロバイダ(複数可)サーバ124を含む様々なサーバ102、114、116からのコンテンツと対話するためのユーザインターフェースを提供するブラウザまたはアプリを実行する。クライアントデバイス106からの要求に応答するコンテンツおよび/またはデータの送信は、ハイパーテキストマークアップ言語(HTML)、Java、Objective C、Python、および/またはJavaScriptなどの任意の既知のプロトコルおよび言語を使用して行うことができる。
クライアントデバイス106は、デスクトップコンピュータ、ラップトップコンピュータ、テレビ、スマートフォン、タブレット、音楽プレーヤー、音声デバイス、キオスク、セットトップボックス、ゲームシステム、ウェアラブルデバイス、家庭用電子デバイス、および/または任意の電子デバイスなどであり得る。少なくとも1つの実施形態では、クライアントデバイス106は、当業者に既知のいくつかのハードウェア構成要素を有する。入力デバイス(複数可)151は、ユーザ150からの入力を受信する任意の構成要素(複数可)であり得、例えば、手持ち式リモコン、キーボード、マウス、スタイラス、タッチセンシティブスクリーン(タッチスクリーン)、タッチパッド、ジェスチャレセプタ、トラックボール、加速度計、五方向スイッチ、またはマイクなどを含む。入力は、例えば、ポイント、タップ、タイプ、ドラッグ、ジェスチャ、チルト、シェイク、および/またはスピーチのうちの1つ以上を含む、任意の好適なモードを介して提供することができる。表示スクリーン152は、イベントおよび/またはハイライトなどの描画を含む、情報、ビデオ、および/またはコンテンツなどをグラフィカルに表示する任意の構成要素であり得る。このような出力はまた、例えば、視聴覚コンテンツ、データ視覚化、ナビゲーション要素、グラフィック要素、またはコンテンツの選択のための情報および/もしくはパラメータを要求するクエリなどを含み得る。所望の出力のいくつかのみが一度に提示される少なくとも1つの実施形態では、スクロール機構などの動的制御が、入力デバイス(複数可)151を介して、どの情報を現在表示するかを選択するために、および/または情報を表示する方法を変更するために利用可能であってもよい。
プロセッサ157は、周知の技術に従って、ソフトウェアの指示の下でデータに対する操作を実施するための従来のマイクロプロセッサであり得る。メモリ156は、本明細書に記載の動作を実施するためのソフトウェアを実行する過程でプロセッサ157による使用のための、当技術分野で既知の構造およびアーキテクチャを有するランダムアクセスメモリであり得る。クライアントデバイス106はまた、ハードドライブ、フラッシュドライブ、光または磁気記憶デバイス、および/またはウェブベース(クラウドベース)ストレージなどであり得るローカルストレージ(図示せず)も含むことができる。
インターネット、テレビネットワーク、ケーブルネットワーク、および/またはセルラーネットワークなどの任意の好適なタイプの通信ネットワーク104は、任意の好適なプロトコルおよび技術に従って、クライアントデバイス106と、様々なサーバ(複数可)102、114、116および/またはコンテンツプロバイダ(複数可)124および/またはデータプロバイダ(複数可)122との間でデータを送信するための機構として使用することができる。インターネットに加えて、他の例としては、携帯電話ネットワーク、EDGE、3G、4G、長期的進化(LTE)、セッション開始プロトコル(SIP)、ショートメッセージピアツーピアプロトコル(SMPP)、SS7、Wi-Fi、ブルートゥース(登録商標)、ZigBee、ハイパーテキスト転送プロトコル(HTTP)、セキュアハイパーテキスト転送プロトコル(SHTTP)、および/もしくは伝送制御プロトコル/インターネットプロトコル(TCP/IP)など、ならびに/またはこれらの任意の組み合わせが挙げられる。少なくとも1つの実施形態では、クライアントデバイス106は、通信ネットワーク104を介してデータおよび/またはコンテンツの要求を送信し、要求されたデータおよび/またはコンテンツを含む応答をサーバ102、114、116から受信する。
少なくとも1つの実施形態では、図1Aのシステムは、スポーツイベントに関連して動作する。しかしながら、本明細書の教示は、スポーツ以外のイベントにも適用され、本明細書に記載の技術は、スポーツイベントへの適用に限定されないことを理解されるべきである。例えば、本明細書に記載の技術は、テレビショー、映画、ニュースイベント、試合ショー、政治活動、ビジネスショー、ドラマ、および/または他のエピソードコンテンツに関連して、またはこのような2つ以上のイベントのために動作させるために利用することができる。
少なくとも1つの実施形態では、システム100は、イベントのビデオストリームを分析することによって、放送イベントのハイライトを識別する。この分析は、リアルタイムで実行することができる。少なくとも1つの実施形態では、システム100は、通信ネットワーク104を介して1つ以上のクライアントデバイス106に結合された1つ以上のウェブサーバ(複数可)102を含む。通信ネットワーク104は、パブリックネットワーク、プライベートネットワーク、またはインターネットなどのパブリックネットワークとプライベートネットワークとの組み合わせであってもよい。通信ネットワーク104は、LAN、WAN、有線、無線、および/または上記の組み合わせであり得る。クライアントデバイス106は、少なくとも1つの実施形態では、有線または無線接続のいずれかを介して通信ネットワーク104に接続することができる。少なくとも1つの実施形態では、クライアントデバイスはまた、DVR、PVR、または他のメディア記録デバイスなどの、イベントを受信および記録することができる記録デバイスを含み得る。そのような記録デバイスは、クライアントデバイス106の一部であり得るか、または外部であり得る。他の実施形態では、そのような記録デバイスは省略され得る。図1Aは1つのクライアントデバイス106を示しているが、システム100は、単一のタイプまたは複数のタイプの任意の数のクライアントデバイス(複数可)106を実装することができる。
ウェブサーバ(複数可)102は、クライアントデバイス(複数可)106からの要求を受信し、それらの要求にデータで応答するとともに、未承諾のアラートおよび他のメッセージを送信することができる1つ以上の物理計算デバイスおよび/またはソフトウェアを含み得る。ウェブサーバ(複数可)102は、負荷分散、キャッシング、およびクラスタリングなどのフォールトトレランスおよびスケーラビリティのための様々な戦略を採用してもよい。少なくとも1つの実施形態では、ウェブサーバ(複数可)102は、クライアント要求およびイベントに関連する情報を記憶するための、当技術分野で知られているようなキャッシング技術を含み得る。
ウェブサーバ(複数可)102は、クライアントデバイス(複数可)106から受信した要求に応答するために、1つ以上のアプリケーションサーバ(複数可)114を維持するか、または他の方法で指定することができる。少なくとも1つの実施形態では、アプリケーションサーバ(複数可)114は、クライアントデバイス(複数可)106内のクライアントアプリケーションプログラムによる使用のためのビジネスロジックへのアクセスを提供する。アプリケーションサーバ(複数可)114は、ウェブサーバ(複数可)102と同じ場所に位置し、共有され、または共同管理されてもよい。アプリケーションサーバ(複数可)114はまた、ウェブサーバ(複数可)102から離れていてもよい。少なくとも1つの実施形態では、アプリケーションサーバ(複数可)114は、1つ以上の分析サーバ(複数可)116および1つ以上のデータサーバ(複数可)118と対話して、開示された技術の1つ以上の動作を実施する。
1つ以上の記憶デバイス153は、システム100の動作に関連するデータを記憶することによって「データストア」として機能することができる。このデータは、例えば、スポーツイベントなどのイベントを提示するビデオストリームに埋め込まれたカード画像に関連するカードデータ154、1人以上のユーザ150に関連するユーザデータ155、および/またはイベントの1つ以上のハイライトに関連するハイライトデータ164を含んでもよいが、これらに限定されない。
カードデータ154は、ビデオストリームに埋め込まれたカード画像に関連する任意の情報、例えば、カード画像自体、文字画像などのそのサブセット、文字および文字列などのカード画像から抽出されたテキスト、ならびにテキストおよび/または意味の抽出に役立つ前述のいずれかの属性を含むことができる。ユーザデータ155は、例えば、人口統計学、購入行動、ビデオストリーム視聴行動、関心、および/または選好などを含む、1人以上のユーザ150を説明する任意の情報を含むことができる。ハイライトデータ164は、ハイライト、ハイライト識別子、時間指標、カテゴリ、興奮レベル、およびハイライトに関連する他のデータを含んでもよい。カードデータ154、ユーザデータ155、およびハイライトデータ164は、以降で詳細に説明する。
特に、システム100の多くの構成要素は、計算デバイスであってもよく、またはそれを含んでもよい。このような計算デバイスは各々、上に示し、説明したように、クライアントデバイス106のアーキテクチャと同様のアーキテクチャを有してもよい。したがって、通信ネットワーク104、ウェブサーバ102、アプリケーションサーバ114、分析サーバ116、データプロバイダ122、コンテンツプロバイダ124、データサーバ118、および記憶デバイス153のいずれかは、クライアントデバイス106に関連して上述したように、入力デバイス151、表示スクリーン152、メモリ156、および/またはプロセッサ157を任意選択で有してもよい、1つ以上の計算デバイスを含んでもよい。
システム100の例示的な動作では、クライアントデバイス106の1人以上のユーザ150は、コンテンツプロバイダ124からのコンテンツをビデオストリームの形態で表示する。ビデオストリームは、スポーツイベントなどのイベントを示してもよい。ビデオストリームは、既知のコンピュータビジョン技術で容易に処理することができるデジタルビデオストリームであってもよい。
ビデオストリームが表示されると、クライアントデバイス106、ウェブサーバ102、アプリケーションサーバ114、および/または分析サーバ116などのシステム100の1つ以上の構成要素が、ビデオストリームを分析し、ビデオストリーム内のハイライトを識別し、および/またはビデオストリームからメタデータを抽出してもよく、例えば、埋め込まれたカード画像および/またはビデオストリームの他の側面から抽出してもよい。この分析は、ビデオストリームのハイライトおよび/またはメタデータを識別するための要求の受信に応答して実行することができる。あるいは、別の実施形態では、ハイライトは、ユーザ150によって特定の要求がなされることなく識別することができる。さらに別の実施形態では、ビデオストリームの分析は、ビデオストリームが表示されることなく行うことができる。
少なくとも1つの実施形態では、ユーザ150は、クライアントデバイス106の入力デバイス151(複数可)を介して、ビデオストリームの分析のための特定のパラメータ(例えば、どのイベント/試合/チームを含めるか、ユーザ150がハイライトの視聴ために利用可能な時間どれくらい有しているか、どのようなメタデータが望まれているか、および/または任意の他のパラメータなど)を指定することができる。ユーザ選好はまた、必ずしもユーザ150が選好を指定する必要を伴わずにビデオストリームの分析をカスタマイズするために、1つ以上の記憶デバイス153に記憶されたユーザデータ155などからのように、ストレージから抽出することもできる。少なくとも1つの実施形態では、ユーザ選好は、例えば、ウェブサイトの訪問パターン、テレビを見るパターン、音楽を聴くパターン、オンライン購入、事前のハイライト識別パラメータ、ならびに/またはユーザ150によって実際に視聴されたハイライトおよび/もしくはメタデータなどを観察することによって、ユーザ150の観察された行動およびアクションに基づいて決定することができる。
追加的または代替的に、ユーザ選好は、ユーザ150によって明示的に提供された、事前に記憶された選好から取り出すことができる。このようなユーザ選好は、どのチーム、スポーツ、プレーヤー、および/またはイベントのタイプがユーザ150に対する関心を有しているかを示すことができ、および/またはそれらは、ハイライトに関連するどのタイプのメタデータまたは他の情報がユーザ150対する関心を有するであろうかを示すことができる。したがって、このような選好は、ビデオストリームの分析をガイドして、ハイライトを識別し、および/またはハイライトのためのメタデータを抽出するために使用することができる。
上述の1つ以上の計算デバイスを含み得る分析サーバ(複数可)116は、データプロバイダ(複数可)122からの1つ以上のイベントに関連する実況統計のライブおよび/または記録されたフィードを分析することができる。データプロバイダ(複数可)122の例としては、限定するものではないが、STATSTM、Perform(英国、ロンドン、Opta Sportsから入手可能)、およびスイス、ザンクトガレン、SportRadarなどのリアルタイムスポーツ情報のプロバイダが挙げられる。少なくとも1つの実施形態では、分析サーバ(複数可)116は、イベントに対して異なる興奮レベルのセットを生成する。このような興奮レベルは、次いで、本明細書に記載の技術に従って、システム100によって識別されるハイライトと関連付けて記憶することができる。
アプリケーションサーバ(複数可)114は、ビデオストリームを分析して、ハイライトを識別し、および/またはメタデータを抽出することができる。追加的または代替的に、このような分析は、クライアントデバイス(複数可)106によって実行されてもよい。識別されたハイライトおよび/または抽出されたメタデータは、ユーザ150に固有であってもよく、このような場合、特定のユーザ150に関連するクライアントデバイス106内のハイライトを識別することが有利であり得る。クライアントデバイス106は、上述のように、ハイライト識別および/またはメタデータ抽出のための適用可能なユーザ選好を受信、保持、および/または取得してもよい。追加的または代替的に、ハイライト生成および/またはメタデータ抽出は、グローバルに(すなわち、特定のユーザ150の選好に関係なく、一般にユーザ集団に適用可能な客観的基準を使用して)実行されてもよい。このような場合、ハイライトを識別し、および/またはアプリケーションサーバ(複数可)114内のメタデータを抽出することが有利であり得る。
ハイライト識別および/またはメタデータ抽出を容易にするコンテンツは、YouTube(登録商標)、およびMLB.comなどのウェブサイト、スポーツデータプロバイダ、テレビ局、および/またはクライアントもしくはサーバベースのDVRなどを含むコンテンツプロバイダ(複数可)124を含む任意の好適なソースから来てもよい。あるいは、コンテンツは、クライアントデバイス106に関連付けられた(または組み込まれた)DVRもしくは他の記録デバイスなどのローカルソースから来てもよい。少なくとも1つの実施形態では、アプリケーションサーバ(複数可)114は、ダウンロード、またはストリーミングコンテンツ、またはオンデマンドコンテンツ、または他の何らかの方法のいずれかとして、ユーザ150に利用可能なハイライトおよびメタデータを伴うカスタマイズされたハイライトショーを生成する。
上記のように、特定のユーザ150に関連付けられた特定のクライアントデバイス106において、ユーザ固有のハイライト識別および/またはメタデータ抽出が実行されることが有利であり得る。このような実施形態は、特にそのようなコンテンツがクライアントデバイス106においてすでに利用可能である場合、通信ネットワーク104を介して不必要に送信されるビデオコンテンツまたは他の高帯域幅コンテンツの必要性を回避することができる。
例えば、次に図1Bを参照すると、カードデータ154、およびハイライトデータ164の少なくともいくつかがクライアントベースの記憶デバイス158に記憶されている一実施形態によるシステム160の例が示されており、記憶デバイス158は、クライアントデバイス106に利用可能な任意の形式のローカル記憶デバイスであってもよい。例としては、例えば、完全なスポーツイベントのビデオコンテンツなどのイベントを記録することができるDVRが挙げられる。あるいは、クライアントベースの記憶デバイス158は、デジタル形式のデータのための任意の磁気的、光学的、または電子的記憶デバイスであり得る。例としては、フラッシュメモリ、磁気ハードドライブ、CD-ROM、DVD-ROM、またはクライアントデバイス106と統合された、もしくはクライアントデバイス106と通信可能に結合された他のデバイスが挙げられる。アプリケーションサーバ(複数可)114によって提供される情報に基づいて、クライアントデバイス106は、コンテンツプロバイダ124または他のリモートソースから他のコンテンツを取り出す必要を伴わずに、クライアントベースの記憶デバイス158に記憶されたカードデータ154からメタデータを抽出し、そのメタデータをハイライトデータ164として記憶してもよい。このような構成は、帯域幅を節約することができ、クライアントデバイス106にすでに利用可能であり得る既存のハードウェアを有効に活用することができる。
図1Aに戻ると、少なくとも1つの実施形態では、アプリケーションサーバ(複数可)114は、個々のユーザ選好および/または他のパラメータに応じて、異なるハイライトを識別し、および/または異なるユーザ150に対して異なるメタデータを抽出することができる。識別されたハイライトおよび/または抽出されたメタデータは、クライアントデバイス106の表示スクリーン152などの任意の好適な出力デバイスを介してユーザ150に提示されてもよい。必要に応じて、複数のハイライトを識別し、関連するメタデータとともにハイライトショーにまとめることができる。このようなハイライトショーは、メニューを介してアクセスされ、および/または所定のシーケンスに従ってユーザ150のために再生される「ハイライトリール」またはハイライトのセットに組み立てられてもよい。ユーザ150は、少なくとも1つの実施形態では、例えば、以下の目的で、入力デバイス(複数可)151を介して、関連するメタデータのハイライト再生および/または配信を制御することができる。
・表示のための特定のハイライトおよび/またはメタデータを選択する。
・一時停止、巻き戻し、早送りを行う。
・次のハイライトにスキップする。
・ハイライトショー内の前のハイライトの最初に戻る。および/または
・その他のアクションを実施する。
このような機能に関する追加の詳細は、上記で引用した関連する米国特許出願に提供されている。
少なくとも1つの実施形態では、もう1つのデータサーバ(複数可)118が提供される。データサーバ(複数可)118は、例えば、カードデータ154、ユーザデータ155、および/またはハイライトデータ164を取得または提供するために、サーバ(複数可)102、114、116のいずれかからのデータの要求に応答してもよい。少なくとも1つの実施形態では、このような情報は、データサーバ118によってアクセス可能な任意の好適な記憶デバイス153に記憶することができ、クライアントデバイス106自体、コンテンツプロバイダ(複数可)124、および/またはデータプロバイダ(複数可)122などの、任意の好適なソースから来ることができる。
ここで図1Cを参照すると、システム180がスタンドアロン環境で実装される代替の実施形態によるシステム180が示されている。図1Bに示された実施形態と同様に、カードデータ154、ユーザデータ155、およびハイライトデータ164の少なくともいくつかは、DVRなどのクライアントベースの記憶デバイス158に記憶されてもよい。あるいは、クライアントベースの記憶デバイス158は、フラッシュメモリもしくはハードドライブ、またはクライアントデバイス106と統合された、もしくはクライアントデバイス106と通信可能に結合された他のデバイスであり得る。
ユーザデータ155は、ユーザ150の選好および関心を含んでもよい。このようなユーザデータ155に基づいて、システム180は、カードデータ154内のメタデータを抽出して、本明細書に記載の方法でユーザ150に提示することができる。追加的または代替的に、メタデータは、ユーザ150に固有の情報に基づかない客観的基準に基づいて抽出することができる。
ここで図1Dを参照すると、代替の実施形態によるアーキテクチャを有するシステム190の概要が示されている。図1Dでは、システム190は、コンテンツプロバイダ(複数可)124などの放送サービス、STBを有するテレビセットなどのクライアントデバイス106の形態のコンテンツ受信機、テレビ番組コンテンツを取り込んでストリーミングすることができる分析サーバ(複数可)116などのビデオサーバ、ならびに/またはテレビ番組コンテンツを受信して処理することができるモバイルデバイスおよびラップトップなどの他のクライアントデバイス106を含み、これらはすべて通信ネットワーク104などのネットワークを介して接続されている。DVRなどのクライアントベースの記憶デバイス158は、クライアントデバイス106および/または他の構成要素のいずれかに接続することができ、ビデオストリーム、ハイライト、ハイライト識別子、ならびに/またはメタデータを記憶して、クライアントデバイス106のいずれかを介してハイライトおよび/もしくは抽出されたメタデータの識別および提示を容易にすることができる。
図1A、図1B、図1C、および図1Dに描画された特定のハードウェアアーキテクチャは、単なる例示である。当業者は、本明細書に記載の技術が他のアーキテクチャを使用して実装できることを認識するであろう。本明細書に描かれている多くの構成要素は任意であり、省略され、他の構成要素と統合され、および/または他の構成要素と置き換えられてもよい。
少なくとも1つの実施形態では、システムは、スタンドアロンまたはクライアント/サーバアーキテクチャのいずれであろうと、任意の好適なコンピュータプログラミング言語で書かれたソフトウェアとして実装することができる。あるいは、それはハードウェアに実装および/または埋め込まれてもよい。
データ構造
図2は、一実施形態による、カードデータ154、ユーザデータ155、およびハイライトデータ164に組み込むことができるデータ構造の例を描く概略ブロック図である。
示されるように、カードデータ154は、複数の放送ネットワーク202の各々の記録を含んでもよい。例えば、配信ネットワーク202の各々について、カードデータ154は、配信ネットワークが通常ビデオフレーム内にカード画像を表示する所定のカード位置203を含んでもよい。所定のカード位置は、例えば、位置の反対側の角を識別し、中心、高さ、および幅を識別し、かつ/または位置および/またはカード画像のサイズを識別する座標(デカルト座標など)として表すことができる。
さらに、カードデータ154は、カード画像抽出および解釈のために分析された、または分析されることになっているの1つ以上のビデオフレーム領域204を含んでもよい。各ビデオフレーム領域204は、ビデオストリームのビデオフレームから抽出されてもよい。
各ビデオフレーム領域204について、カードデータ154はまた、1つ以上の処理されたビデオフレーム領域206を含むこともでき、これは、カード画像207の識別および/または抽出を容易にする方法でビデオフレーム領域204を修正することによって生成されてもよい。例えば、処理されたビデオフレーム領域206は、各ビデオフレーム領域204の1つ以上のトリミング、再着色、セグメント化、拡張、または他の方法で修正されたバージョンを含んでもよい。
各ビデオフレーム領域204はまた、ビデオフレーム領域204内で識別された、および/またはビデオフレーム領域204から抽出されたカード画像207も有することができる。各カード画像207は、ビデオストリーム内の特定の時間に関連するメタデータを提供するように解釈され得るテキストを含んでもよい。
カードデータ154はまた、各ビデオフレーム領域204に対して1つ以上の解釈208を含むこともできる。各解釈208は、カード画像207に出現する文字を認識および解釈するために何らかの分析が実施された後、関連するカード画像207に表されると考えられる特定のテキストであってもよい。解釈208は、カード画像207からメタデータを取得するために使用されてもよい。
さらに示されるように、ユーザデータ155は、ユーザ150に関連する記録を含んでもよく、記録の各々は、特定のユーザ150の人口統計データ212、選好214、視聴履歴216、および購入履歴218を含んでもよい。
人口統計データ212は、年齢、性別、位置、国籍、宗教的所属、および/または教育レベルなどを含むがこれらに限定されない、任意のタイプの人口統計データを含んでもよい。
選好214は、ユーザ150が自身の選好に関して行った選択を含んでもよい。選好214は、ハイライトおよびメタデータの収集および/または表示に直接関連する場合もあれば、より一般的な性質の場合もある。いずれの場合も、選好214を使用して、ハイライトおよびメタデータの識別および/またはユーザ150への提示を容易にすることができる。
視聴履歴216は、テレビ番組、ビデオストリーム、ハイライト、ウェブページ、検索クエリ、スポーツイベント、および/またはユーザ150によって取り出され、および/または視聴された他のコンテンツをリストすることができる。
購入履歴218は、ユーザ150によって購入または要求された製品またはサービスをリストすることができる。
さらに示されるように、ハイライトデータ164は、jハイライト220の記録を含み得、その記録の各々は、特定のハイライト220のビデオストリーム222、識別子、および/またはメタデータ224を含み得る。
ビデオストリーム222は、ハイライト220を描くビデオを含んでもよく、これは、1つ以上のイベントの1つ以上のビデオストリームから取得されてもよい(例えば、ハイライト220に関連するビデオストリーム222のみを含むようにビデオストリームをトリミングすることによって)。識別子223は、ハイライト220が、それが取得されたイベントのビデオストリーム内のどこに存在するかを示す時間コードおよび/または他の指標を含んでもよい。
いくつかの実施形態では、ハイライト220の各々の記録は、ビデオストリーム222および識別子223のうちの1つのみを含んでもよい。ハイライト再生は、ユーザ150のビデオストリーム222を再生することによって、または識別子223を使用してハイライト220が取得されるイベントのビデオストリームのハイライトされた部分のみを再生することによって実行されてもよい。
メタデータ224は、ハイライト220に関する情報、例えば、イベントの日付、シーズン、およびハイライト220が取得されたイベントもしくはビデオストリームに関与したグループもしくは個人、例えば、チーム、選手、コーチ、アンカー、放送局、および/またはファンなどの情報を含んでもよい。他の情報の中で、各ハイライト220のメタデータ224は、時間225、フェーズ226、時計227、スコア228、および/またはフレーム番号229を含み得る。
時間225は、ハイライト220が取得されるビデオストリーム222内の時間、またはメタデータが利用可能であるハイライト220に関連するビデオストリーム222内の時間であってもよい。いくつかの例では、時間225は、メタデータ224を含むカード画像207が表示される、ハイライト220に関連する、ビデオストリーム222内の再生時間であってもよい。
フェーズ226は、ハイライト220に関連するイベントのフェーズであってもよい。より具体的には、フェーズ226は、メタデータ224を含むカード画像207が表示されるスポーツイベントの段階であってもよい。例えば、フェーズ226は、「第3のクォーター」、「第2のイニング」、または「ボトムハーフ」などであってもよい。
時計227は、ハイライト220に関連する試合時計であってもよい。より具体的には、時計227は、メタデータ224を含む時間カード画像207が表示されるときの試合時計の状態であってもよい。例えば、時計227は、試合時計に15分47秒が表示されて表示されるカード画像207の場合、「15:47」であってもよい。
スコア228は、ハイライト220に関連する試合スコアであってもよい。より具体的には、スコア228は、メタデータ224を含むカード画像207が表示されるときのスコアであってもよい。例えば、スコア228は、「45-38」、「7-0」、または「30-ラブ」などであってもよい。
フレーム番号229は、ハイライト220が取得されるビデオストリーム内のビデオフレームの番号、またはハイライト220に関連するビデオストリーム222の中で、ハイライト220に最も直接的に関連するビデオフレームの番号であってもよい。より具体的には、フレーム番号229は、メタデータ224を含むカード画像207が表示される、そのようなビデオフレームの番号であってもよい。
図2に記載されているデータ構造は単なる例示である。当業者は、ハイライト識別および/またはメタデータ抽出の実施において、図2のデータのいくつかを省略するか、または他のデータで置き換えることができることを認識するであろう。追加的または代替的に、図2に示されていないデータは、ハイライト識別および/またはメタデータ抽出の実施に使用され得る。
カード画像
次に図3Aを参照すると、スポーツイベントのテレビ番組に頻繁に出現するように、カード画像207の形態で情報が埋め込まれたビデオストリームからのビデオフレーム300の例のスクリーンショット図が示されている。図3Aは、ビデオフレーム300の右下にあるカード画像207、およびビデオフレーム300の下部に沿って延びる第2のカード画像320を描いている。カード画像207、320は、試合フェーズ、現在の時計、および現在のスコアなどの埋め込まれた情報を含んでもよい。
少なくとも1つの実施形態では、カード画像207、320内の情報は、カード画像207、320内の埋め込まれたテキストの自動認識および解釈のために位置特定および処理される。次に、解釈されたテキストは、スポーツイベントのタイムライン内の特定の時点でのスポーツ試合のステータスを説明するテキストメタデータに組み立てられてもよい。
特に、カード画像207は、現在示されているスポーツイベントに関係してもよいが、第2のカード画像320は、異なるスポーツイベントに関する情報を含んでもよい。いくつかの実施形態では、現在再生中のスポーツイベントに関連するとみなされる情報を含むカード画像のみが、メタデータ生成のために処理される。したがって、範囲を制限することなく、以下の例示的な説明は、カード画像207のみが処理されることを想定している。しかしながら、代替の実施形態では、他のスポーツイベントに関連するカード画像を含めても、所与のビデオフレーム300内の複数のカード画像を処理することが望ましい場合がある。
図3Aに示されるように、カード画像207は、チーム名330、スコア340、先行のチームパフォーマンス350、現在の試合段階360、試合時計370、プレーステータス380、および/または他の情報390を含む、いくつかの異なるタイプのメタデータ224を提供することができる。これらの各々は、カード画像207内から抽出され、ビデオフレーム300を含むハイライト220、より具体的には、カード画像207が表示されるビデオフレーム300に対応するメタデータ224を提供するように解釈されてもよい。
図3Bは、スポーツテレビ番組における埋め込まれたカード画像の位置の追加の例を示すために、それぞれ、埋め込まれたカード画像393、395、397、399を有するビデオフレーム392、394、396、398の追加の例を描く一連のスクリーンショット図である。異なるテレビネットワークは、スポーツイベントのテレビ番組コンテンツのビデオフレームに埋め込まれたそのようなカード画像の異なるタイプ、形状、およびフレーム位置を有してもよい。
カード画像の位置特定および抽出
図4は、一実施形態による、アプリケーション(例えば、クライアントデバイス106および/または分析サーバ116のうちの1つで実行される)によって実行される方法400を描くフローチャートであり、このアプリケーションは、ビデオストリーム222を受信し、図3のカード画像207およびその関連する試合ステータス情報などのカード画像207および関連するメタデータを位置特定および抽出するための、ビデオフレーム300のオンザフライ処理を実施する。図1Aのシステム100は、方法400およびそれに続く方法を実施するシステムとして参照される。しかしながら、図1Bのシステム160、図1Cのシステム180、および/または図1Dのシステム190を含むがこれらに限定されない代替のシステムを、図1Aのシステム100の代わりに使用することができる。
図4の方法400は、ビデオストリーム222を受信することを含んでもよい。ステップ410において、例えば、ビデオフレーム300を標準サイズにサイズ変更することによって、ビデオストリーム222の1つ以上のビデオフレーム300が読み取られ、デコードされてもよい。クエリ420、ステップ430、ステップ440、および/またはクエリ450において、ビデオフレーム300は、フレーム内カード画像の位置特定のために処理されてもよい。ステップ460において、検出されたカード画像207は、カード画像207を読み取って解釈することによって情報を抽出するために処理されてもよい。メタデータ224は、カード画像207から抽出された情報に基づいて生成されてもよい。
少なくとも1つの実施形態では、デコードされたビデオフレーム300に存在する1つ以上のカード画像207の検出は、単一の所定のフレーム区域を分析することによって実施される。あるいは、そのような検出は、デコードされたビデオフレーム300内のカード画像207のおおよその位置が事前に知られていない場合、複数の所定のフレーム区域を分析することによって実施することができる。したがって、クエリ420は、ビデオフレーム300内のカード画像207の位置が既知であるかどうかを決定することができる。例えば、いくつかの放送ネットワークは、ビデオフレーム300内の同じ位置にカード画像207を常に示してもよい。放送ネットワークが既知である場合、カード画像207の位置も既知であってもよい。あるいは、ビデオフレーム300内のカード画像207の位置は既知でない可能性があり、システム100によって確認する必要があり得る。
クエリ420に従って、ビデオフレーム300内のカード画像207の位置が既知である場合、方法400は、既知の部分またはビデオフレーム領域を処理して、カード画像207に通常関連付けられた四辺形形状を分離することができるステップ430に進んでもよい。ビデオフレーム300内のカード画像207の位置が既知でない場合、方法400はステップ440に進み、ここでビデオフレーム300は、ビデオフレーム300の所定の領域であり得る複数の領域に分割される。ビデオフレーム300の領域は、どの領域がカード画像207、395、397、および/または399と同様のカード画像を含むかを決定するために順次分析される。
例えば、カード画像207を含むビデオフレーム300の特定の領域(複数可)は、様々な放送ネットワークの各々について既知であってもよい。放送ネットワークが既知でない場合、システム100は、カード画像207が領域のうちの1つが見つかるまで、放送ネットワークによってカード画像207の表示のために使用されることが知られているビデオフレーム300の各領域を順次進めてもよい。
クエリ450に従って、カード画像207が見つかった場合、方法400はステップ460に進むことができ、ここでカード画像207が処理され、情報がカード画像207から抽出されてメタデータ224を提供する。クエリ450に従って、カード画像207が見つからなかった場合、方法400は、ステップ410に戻ることができ、ここで新しいビデオフレームがロードされ、デコードされ、次いでカード画像207の存在について分析されてもよい。
前述のように、方法400は、いくつかの実施形態では、ユーザ150がプログラムを視聴している間(例えば、ハイライト220に対応するビデオストリーム222が提示されている間)にリアルタイムで実行されてもよい。したがって、方法400は、ビデオフレーム300がユーザ150のための再生のためにデコードされているときに、各ビデオフレーム300に対してバックグラウンドで実行されてもよい。システム100がカード画像207を位置特定、抽出、および解釈するので、いくらかの遅延があってもよい。したがって、この用途では、カード画像207から抽出されたメタデータの提示は、メタデータ224の提示が、メタデータが取得されたビデオフレーム300の再生に遅れて(例えば、数フレームのビデオフレーム300によって、ユーザ150に知覚されないか、あるいはユーザ150に気を散らさない程度の遅延が生じて)も、「リアルタイム」であると考えられる。
図5は、図4から実行可能なカード画像207を検出するためのビデオフレーム300の所定の領域を処理するためのステップ440をより詳細に描くフローチャートである。所定の領域の各々は、カード画像207が存在し得るおおよその位置を提示してもよい。
少なくとも1つの実施形態では、デコードされたビデオフレーム300内の所定の領域は、前述のように、スポーツイベントテレビ番組の放送に従事する様々なテレビネットワークによって使用されるカード画像207のおおよその位置の知識に基づいて生成される。このようなテレビネットワークは、カード画像207を介してフレーム内の視覚データおよびテキストデータを配信するために、ビデオフレーム300の1つ以上の領域を使用することが知られている。
ステップ510において、領域の順次の処理を開始することができる。ステップ520において、領域のうちの1つは、有効なカード画像207がその領域に存在するかどうかを確認するために処理されてもよい。クエリ530は、カード画像207がその領域で見つかったどうかを決定することができる。見つかった場合、領域は、カード画像207を抽出するためにさらに処理されてもよい。位置特定されたカード画像207は、埋め込まれたテキストの自動的な認識および解釈のためにさらに処理されてもよい。次に、このような解釈されたテキストは、スポーツイベントタイムライン上の特定の時点におけるスポーツイベント(試合など)のステータスを記述するテキストメタデータにさらに組み立てられてもよい。少なくとも1つの実施形態では、テキストレンダリングに利用可能な選択肢は、ビデオフレーム300内で検出されたカード画像207のタイプに基づいており、このタイプは、カード画像207の位置特定および/または抽出中にシステム100によって決定されてもよい。追加的または代替的に、テキストレンダリングに利用可能な選択肢は、検出された特定のタイプのカード画像207内に存在する選択されたフィールドの事前に割り当てられた意味に基づいていてもよい。
領域内にカード画像207が見つからなかった場合、クエリ550は、その領域がビデオフレーム300の最後の領域であるかどうかを確認してもよい。最後の領域でない場合、システム100は、ステップ560において、次の領域に進み、次いで、ステップ520に従って次の領域に対して処理を繰り返してもよい。領域がビデオフレーム300の最後の領域である場合、ビデオフレーム300は有効なカード画像207を含まない可能性があり、システム100は次のビデオフレーム300に進むことができる。
カード画像四辺形の自動検出および位置特定
図6は、一実施形態による、デコードされたビデオフレーム300の指定された区域における有効なカード画像四辺形検出のためのトップレベル処理のための方法600を描くフローチャートである。方法600は、図4のステップ430に従って、所定の位置のビデオフレーム領域に対して、または図4および図5のステップ440に従ってビデオフレーム300の複数の領域の順次処理を介して識別されたビデオフレーム領域に対して実施されてもよい。
第1に、ステップ610において、デコードされたビデオフレーム300は、指定されたビデオフレーム領域を含むより小さな区域にトリミングされてもよく、そしてトリミングされた画像を提供する。ステップ620において、トリミングされた画像は、グラフベースのセグメント化などの任意の好適なセグメント化アルゴリズムを使用してセグメント化してもよく(例:“Efficient Graph-Based Image Segmentation,P.Felzenszwalb,D.Huttenlocher,Int.Journal of Computer Vision,2004,Vol.59)、生成されたすべてのセグメントを色分けして列挙し、セグメント化された画像を提供してもよい。セグメント化された画像のさらなる処理は、カード画像207を定義する想定される四辺形を取り囲む背景材料を除去することを含んでもよい。少なくとも1つの実施形態では、方法600はステップ630に進んでもよく、ここで、セグメント化されたトリミングされた画像の境界に隣接するセグメントのすべてのピクセルが黒レベルに設定される。ステップ640において、セグメント化されたトリミングされた画像の残りの内側セグメントのすべてのピクセルが白レベルに設定される。ステップ650において、部分的に除去された背景を有する2色のトリミングされた画像が、正確なカード画像四辺形描画のためのさらなる処理のために渡されてもよい。
図7は、一実施形態による、より正確なカード画像四辺形決定のための方法700を描くフローチャートである。まず、ステップ710において、背景が部分的に除去されたトリミングされた画像(例えば、図6のステップ640で生成された)が、灰色の画像に変換される。灰色の画像は次に、ぼかし処理されてもよく、ステップ720において、エッジ検出プロセスが施され、検出されたエッジを有するエッジ画像を生成してもよい。次に、ステップ730において、エッジ画像は、輪郭検出のために処理されてもよく、結果として得られる輪郭画像は、閉じた多角形を有する輪郭を近似するためにさらに処理されてもよい。その後、ステップ740において、輪郭/多角形画像を処理して、存在するすべての輪郭を囲む最小の長方形周囲を決定してもよい。上記のステップは、カード画像207を潜在的に含む長方形囲いを生成することができる。ただし、この囲いは、トリミングされた画像のセグメント化のプロセス中に生成されたアーティファクトに起因して、カード画像四辺形よりも大きくなる場合がある。したがって、少なくとも1つの実施形態では、この中間の長方形形状をカード画像207を含む最小の長方形区域に押し込むために、さらなる調整が実施される。
図8は、一実施形態による、(例えば、図7のステップ740によって生成された)すべての検出された輪郭を包含する囲いの四辺形境界を調整するための例示的な方法800を描くフローチャートである。囲いは、押し込まれた新しい囲いの周囲ピクセルの大部分が同じピクセル強度(この特定の例では白色など)であるように、内部区域を囲むことができる。方法800は、外側に延びる望ましくない内部領域アーティファクトを除去することができ、したがって、有効なカード画像207を含み得る、新しい、より堅固な囲いを提供することができる。
図8の方法は、輪郭周囲が受け取られるステップ810から開始することができる。輪郭周囲は長方形画像であってもよい。ステップ820において、システム100は、検出されたすべての輪郭(または四辺形画像)を包含する長方形の囲い画像の境界の周りを「歩く」ことができ、ステップ830において、各境界エッジ、すなわち上、下、左、および右に対して黒レベル値となったピクセルをカウントする。次に、ステップ840において、いずれかの境界エッジが所定のカウントよりも多くの黒値ピクセルを含む場合、そのエッジは1ピクセルだけ内側に移動され、調整された四辺形区域850を提供する。このプロセスは、クエリ860が、押し込まれた四辺形のすべてのエッジの黒値ピクセルカウントが所定のしきい値を下回ると決定するまで続く。結果として得られる押し込まれた長方形は、潜在的なカード画像の囲いを表し、図9のフローチャートに関連して記載されている処理ステップにおいて検証されてもよい。
図9は、一実施形態による、カード画像の四辺形検証のための例示的な方法900を描くフローチャートである。方法900は、次の3つの異なる画像区域(ピクセルカウント)の分析を含んでもよい:トリミングされた画像区域(例えば、図6のステップ610において生成される)、検出されたすべての輪郭を包含する長方形囲い画像区域(例えば、図7のステップ740において生成される)、および調整された(押し込まれた)四辺形境界を有する画像の区域(例えば、図8のステップ840の1つ以上の反復において生成される)。3つのパラメータ(A、B、C)は、以下のように、それぞれ、ステップ910、ステップ920、およびステップ930において生成され得る。
・A=トリミングされた画像領域の総ピクセルカウント。
・B=輪郭周囲バイナリ画像の総ピクセルカウント。
・C=調整された輪郭周囲のバイナリ画像の黒値ピクセルカウント。
次に、ステップ940において、有効なカード画像四辺形が検出されるべきである場合に、押し込まれた四辺形の非黒値ピクセル区域が他の2つのパラメータに関して特定の割合で存在するように、これら3つのパラメータの重み付け比較を実施することができる。ステップ950において、上記の重み付け比較に基づいて、有効なカード画像207が検出された場合、フラグが真に設定される。クエリ960に従って、フラグが真に設定されている場合、ステップ970に進むことができ、ここでシステム100は、カード画像207(および/またはカード画像207の処理されたバージョン)がカード画像内部コンテンツ処理に渡される。ステップ950において、有効なカード画像207が検出されなかった場合、フラグは偽に設定され、クエリ960に従って、システム100は、ステップ980において、内部にある有効なカード画像207を検索するために、次の指定されたフレーム領域に、または次のビデオフレーム300に進むことができる。
図10は、一実施形態による、非常に細長いカード画像形状の左側(または他の任意の)境界の任意の安定化のための例示的な方法1000を描くフローチャートである。プロセスは、システム100が水平カード画像207をトリミングされたフレームエッジまで拡張する、ステップ1010において開始することができる。ステップ1020において、システム100は、この拡張された画像内の直線の垂直線を検出してもよい。このプロセスは、ステップ1030において、所定の長さの検出された垂直線を選択し、選択されたまばらな垂直線マーカを計算することをさらに含んでもよい。最後に、ステップ1040において、カード画像207の元の位置の左のマーカ(もしあれば、すぐ近くで見つかる)が選択され、ステップ1050において、四辺形の左エッジが、検出されたカード画像四辺形の元のエッジ位置のさらに左のマーカの位置に移動される。ステップ1060において、それに応じてカード画像四辺形が調整され、カードの更新された関心領域(ROI)が返される。
情報抽出のためのカード画像内部処理
少なくとも1つの実施形態では、自動化プロセスが実施され、自動化プロセスは、デジタルビデオストリーム(放送スポーツイベントの1つ以上のハイライトを含んでもよい)を受信することと、デジタルビデオストリームの1つ以上のビデオフレームをカード画像207の存在について分析することと、カード画像207を抽出することと、カード画像207内のテキストボックスを位置特定することと、テキストボックス内に存在するテキストを解釈して、カード画像207からのコンテンツと分析されたデジタルビデオストリームのビデオハイライトとを関連付けるメタデータ224を作成することと、を含む。
図11は、一実施形態による、カード画像207からテキスト抽出を実施するための方法1100を描くフローチャートである。ステップ1110において、抽出されたカード画像207は、標準サイズにサイズ変更されてもよい。次に、ステップ1120において、サイズ変更されたカード画像207は、例えば、コントラスト増加、ノイズ低減のための両側および中央値フィルタリング、ならびに照明補償に続くガンマ補正を含む一連のフィルタを使用して前処理されてもよい。少なくとも1つの実施形態では、ステップ1130において、2段階分類器を備えた「極値領域フィルタ」が作成され(例:L.Neumann,J.Matas,“Real-Time Scene Text Localization and Recognition”,5th IEEE Conference on Computer Vision and Pattern Recognition,Providence,RI,June 2012)、ステップ1140において、カスケード分類器がカード画像207の各画像チャネルに適用される。次に、ステップ1150において、文字グループが検出され、単語ボックスのグループが抽出される。
少なくとも1つの実施形態では、複数のテキスト列(テキストボックス)がカード画像207内で識別され、このテキストボックスに関連付けられた文字の列内の各文字の位置およびサイズが検出される。次に、カード画像207の様々なフィールドからのテキスト列が処理および解釈され、対応するメタデータ224が生成され、このように、現在のスポーツイベントテレビ番組に関連するリアルタイム情報、および処理された埋め込まれたカード画像207に関連付けられた現在のタイムラインを提供する。
図12は、一実施形態による、テキスト列の処理および解釈を実施するための方法1200を描くフローチャートである。ステップ1210において、検出および抽出されたカード画像207が処理されてもよく、解釈されるテキストは、カード画像207内の文字境界ボックスのグループから選択されてもよい。次に、ステップ1220において、テキストが抽出されてもよく、抽出されたテキストは、例えば、光学式文字認識を介して読み取られて解釈されてもよい(例:“An Overview of the Tesseract OCR Engine”,R.Smith,Proceedings ICDAR’07,Vol.02,Sept.2007.)。ステップ1230において、メタデータ224が生成され、構造化されてもよい。次に、カード画像207からのフレーム内情報は、ビデオハイライトテキストおよび視覚メタデータと組み合わされる。
本システムおよび方法は、想定される実施形態に関して特に詳細に説明されてきた。当業者は、システムおよび方法が他の実施形態で実施され得ることを理解するであろう。まず、構成要素の特定の命名、用語の大文字の使用、属性、データ構造、また任意の他のプログラミングもしくは構造の側面は必須でも重要でもなく、機構および/または機能は、名前、フォーマット、プロトコルが異なっていてもよい。さらに、システムは、ハードウェアとソフトウェアとの組み合わせを介して、または完全にハードウェア要素内に、または完全にソフトウェア要素内に実装されてもよい。また、本明細書に記載の様々なシステム構成要素間の機能の特定の分割は、単なる例示であり、必須ではない。単一のシステム構成要素によって実施される機能は、代わりに複数の構成要素によって実施されてもよく、複数の構成要素によって実施される機能は、代わりに単一の構成要素によって実施されてもよい。
本明細書における「一実施形態」または「実施形態」への言及は、実施形態に関連して説明される特定の特徴、構造、または特性が、少なくとも1つの実施形態に含まれることを意味する。本明細書の様々な場所における「一実施形態において」または「少なくとも1つの実施形態において」という句の出現は、必ずしもすべてが同じ実施形態を指すとは限らない。
様々な実施形態は、単独でまたは任意の組み合わせのいずれかで、上述の技術を実施するための任意の数のシステムおよび/または方法を含んでもよい。別の実施形態は、計算デバイスまたは他の電子デバイス内のプロセッサに上述の技術を実施させるための、非一時的なコンピュータ可読記憶媒体、およびその媒体に符号化されたコンピュータプログラムコードを含むコンピュータプログラム製品を含む。
上記のいくつかの部分は、計算デバイスのメモリ内のデータビットに対する操作のアルゴリズムおよび記号表現の観点から提示されている。これらのアルゴリズムの記述および表現は、データ処理技術の当業者が、その作業の本質を最も効果的に他の当業者に伝えるために使用される手段である。アルゴリズムはここでは、一般に、望ましい結果につながる自己矛盾のない一連のステップ(指示)であると考えられている。ステップは、物理量の物理的な操作を必要とするステップである。通常、必ずしもそうとは限らないが、これらの量は、記憶、転送、結合、比較、およびその他の方法で操作できる電気信号、磁気信号、または光信号の形をとる。主に一般的な使用法の理由から、これらの信号をビット、値、要素、記号、文字、用語、または数値などと呼ぶと便利な場合がある。さらに、一般性を失うことなく、物理量の物理的操作を必要とするステップの特定の配置をモジュールまたはコードデバイスとして参照することも便利な場合がある。
ただし、これらおよび類似の用語はすべて、適切な物理量に関連付けられており、これらの量に適用される便利なラベルにすぎないことを念頭に置くべきである。特に別段の記載がない限り、以下の説明から明らかなように、本明細書全体を通して、「処理」または「計算(computing)」または「計算(calculating)」または「表示」または「決定」などの用語を利用した説明は、コンピュータシステム、または類似の電子計算モジュールおよび/またはデバイスの動作およびプロセスを指し、コンピュータシステムのメモリもしくはレジスタまたは他のそのようなストレージ、送信デバイス、または表示デバイス内で物理的(電子的)量として表されるデータを操作および変換することを意味することが理解されよう。
特定の態様は、アルゴリズムの形態で本明細書に記載されているプロセスステップおよび命令を含む。プロセスステップおよび命令は、ソフトウェア、ファームウェア、および/またはハードウェアで具体化することができ、ソフトウェアで具体化する場合、様々なオペレーティングシステムによって使用される様々なプラットフォーム上に存在するようにダウンロードすることができ、また、様々なプラットフォームから操作できることに留意されたい。
本文書はまた、本明細書の動作を実施するための装置にも関する。この装置は、必要な目的のために特別に構築され得るか、または計算デバイスに記憶されたコンピュータプログラムによって選択的にアクティブ化または再構成される汎用計算デバイスを含み得る。そのようなコンピュータプログラムは、フロッピーディスク、光ディスク、CD-ROM、DVD-ROM、磁気光学ディスク、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、フラッシュメモリ、ソリッドステートドライブ、磁気カードもしくは光学カード、特定用途向け集積回路(ASIC)、または電子命令の記憶に適した、各々がコンピュータシステムバスに結合されている、あらゆるタイプの媒体などのコンピュータ可読記憶媒体に記憶されてもよい。プログラムおよびその関連するデータはまた、例えば、サーバ上など、リモートでホストされ、実行されてもよい。さらに、本明細書で言及される計算デバイスは、単一のプロセッサを含み得るか、または計算能力を高めるために複数のプロセッサ設計を採用するアーキテクチャであり得る。
本明細書に提示されるアルゴリズムおよび表示は、特定の計算デバイス、仮想化システム、または他の装置に本質的に関連していない。様々な汎用システムもまた、本明細書の教示に従ったプログラムとともにも使用され得るか、または必要な方法ステップを実施するためのより特殊な装置を構築することが便利であることが証明され得る。これらの様々なシステムに必要な構造は、ここで提供される説明から明らかになるであろう。さらに、システムおよび方法は、いかなる特定のプログラミング言語も参照して説明されていない。本明細書に記載の教示を実施するために様々なプログラミング言語を使用することができ、特定の言語への上記のあらゆる参照は、有効化および最良のモードの開示のために提供されることが理解されよう。
したがって、様々な実施形態は、コンピュータシステム、計算デバイス、もしくは他の電子デバイスを制御するためのソフトウェア、ハードウェア、および/または他の要素、あるいはこれらの任意の組み合わせまたは複数の要素を含む。このような電子デバイスは、例えば、当技術分野で周知の技術による、プロセッサ、キーボード、マウス、タッチパッド、トラックパッド、ジョイスティック、トラックボール、マイク、および/もしくはこれらの任意の組み合わせなどの入力デバイス、スクリーン、および/もしくはスピーカなどの出力デバイス、メモリ、磁気記憶装置、および/もしくは光記憶装置などの長期記憶装置、ならびに/またはネットワーク接続性を含んでもよい。このような電子デバイスは、携帯型または非携帯型であってもよい。説明したシステムおよび方法を実装するために使用できる電子デバイスの例としては、デスクトップコンピュータ、ラップトップコンピュータ、テレビ、スマートフォン、タブレット、音楽プレーヤー、音声デバイス、キオスク、セットトップボックス、ゲームシステム、ウェアラブルデバイス、家庭用電子デバイス、および/またはサーバコンピュータなどが挙げられる。電子デバイスは、例えば、Linux(登録商標)、ワシントン州レドモンド、Microsoft Corporationから入手可能なMicrosoft Windows、カリフォルニア州クパチーノ、Apple Inc.から入手可能なMac OS X、カリフォルニア州クパチーノのApple Inc.から入手可能なiOS、カリフォルニア州マウンテンビュー、Google Inc.から入手可能なAndroid、および/またはデバイス上での使用に適応された任意の他のオペレーティングシステムなどの任意のオペレーティングシステムを使用することができるが、これらに限定されない。
限られた数の実施形態が本明細書で説明されてきたが、上記の説明の利点を有する当業者は、他の実施形態が考案され得ることを理解するであろう。さらに、本明細書で使用される言語は、主に読みやすさおよび教育目的のために選択されており、主題を描画または制限するために選択されていない可能性があることに留意されたい。したがって、本開示は、範囲を例示することを意図しているが、限定することを意図していない。

Claims (23)

  1. ビデオストリームからメタデータを抽出するための方法であって、前記方法が、
    データストアにおいて、前記ビデオストリームのビデオフレームを記憶することと、
    プロセッサにおいて、前記ビデオフレームの少なくも1つのビデオフレームに埋め込まれたカード画像を自動的に識別および抽出することであって、前記識別および抽出することが、
    前記ビデオストリームに関連付けられたネットワークに基づいて、前記カード画像の所定の位置が既知であるかを決定すること、
    前記所定の位置が既知であるとの決定に基づいて、前記カード画像を含むビデオフレーム領域を定義する前記所定の位置を前記ビデオフレーム内で処理すること、および
    前記所定の位置が既知ではないとの決定に基づいて、前記ビデオフレームの複数の領域を順次処理して、前記カード画像を含む前記ビデオフレーム領域を識別し、前記ビデオフレーム領域から前記カード画像を位置特定および抽出すること、を実施することによって行われ、
    背景が除去された前記ビデオフレーム領域に基づいてエッジ画像を生成することと、
    前記エッジ画像内の輪郭を検出することと、
    前記輪郭を多角形として近似することと、
    前記輪郭を包含する最小の長方形周囲で囲まれた領域を抽出して、周囲長方形画像を生成することと、
    反復的に、前記周囲長方形画像の各エッジに対して、色修正されたピクセルをカウントし、色修正されたピクセルの数がしきい値を超えている、任意の境界エッジを内側に移動することと、を含む、識別および抽出することと、
    前記プロセッサにおいて、前記カード画像を分析してメタデータを取得することと、
    前記データストアにおいて、前記ビデオフレームのうちの少なくとも1つに関連付けて前記メタデータを記憶することと、を含む、方法。
  2. 前記ビデオストリームが、スポーツイベントの放送を含み、
    前記ビデオフレームが、1人以上のユーザに対する特定の関心を有するとみなされるハイライトを構成し、
    前記メタデータが、前記ハイライト中の前記スポーツイベントのステータスを記述している、請求項1に記載の方法。
  3. 出力デバイスにおいて、前記ハイライトの表示中にメタデータを提示することをさらに含む、請求項2に記載の方法。
  4. 前記カード画像を自動的に識別および抽出し、前記カード画像を分析して前記メタデータを取得することが、ハイライトに対してハイライトの表示中に実行される、請求項3に記載の方法。
  5. 前記ビデオフレーム領域から前記カード画像を位置特定および抽出することが、前記ビデオフレームをトリミングして前記ビデオフレーム領域を分離することを含む、請求項に記載の方法。
  6. 前記ビデオフレーム領域から前記カード画像を位置特定および抽出することが、
    前記ビデオフレーム領域、または前記ビデオフレーム領域の処理されたバージョンをセグメント化して、セグメント化された画像を生成することと、
    前記セグメント化された画像の境界に隣接するセグメントのピクセル値を修正することと、を含む、請求項に記載の方法。
  7. 前記ビデオフレーム領域から前記カード画像を位置特定および抽出することが、前記ビデオフレーム領域または前記ビデオフレーム領域の処理されたバージョンから背景を除去することを含む、請求項に記載の方法。
  8. 前記ビデオフレーム領域内の第1のピクセル数、
    周囲長方形画像内の第2のピクセル数、および
    調整された周囲長方形画像内の第3のピクセル数をカウントすることと、
    前記第1のピクセル数、前記第2のピクセル数、および前記第3のピクセル数を比較して、前記領域内で想定される四辺形が実行可能かどうかを決定することと、によって、前記領域内で検出された四辺形を検証することをさらに含む、請求項に記載の方法。
  9. 前記ビデオフレーム領域から前記カード画像を位置特定および抽出することが、前記カード画像の左境界を調整することを含む、請求項に記載の方法。
  10. ビデオストリームからメタデータを抽出するための非一時的なコンピュータ可読媒体であって、内部に記憶された命令を含み、前記命令は、プロセッサによって実行されたときに、
    データストアに、前記ビデオストリームのビデオフレームを記憶させる操作と、
    前記ビデオフレームの少なくとも1つのビデオフレームに埋め込まれたカード画像を自動的に識別および抽出する操作であって、前記識別および抽出する操作が、
    前記ビデオストリームに関連付けられたネットワークに基づいて、前記カード画像の所定の位置が既知であるかを決定すること、
    前記所定の位置が既知であるとの決定に基づいて、前記カード画像を含むビデオフレーム領域を定義する前記所定の位置を前記ビデオフレーム内で処理すること、および
    前記所定の位置が既知ではないとの決定に基づいて、前記ビデオフレームの複数の領域を順次処理して、前記カード画像を含む前記ビデオフレーム領域を識別し、前記ビデオフレーム領域から前記カード画像を位置特定および抽出することを実施することによって行われ、
    背景が除去された前記ビデオフレーム領域に基づいてエッジ画像を生成することと、
    前記エッジ画像内の輪郭を検出することと、
    前記輪郭を多角形として近似することと、
    前記輪郭を包含する最小の長方形周囲で囲まれた領域を抽出して、周囲長方形画像を生成することと、
    反復的に、前記周囲長方形画像の各エッジに対して、色修正されたピクセルをカウントし、色修正されたピクセルの数がしきい値を超えている、任意の境界エッジを内側に移動することと、を含む、識別および抽出する操作と、
    前記カード画像を分析してメタデータを取得する操作と、
    前記データストアに、前記ビデオフレームのうちの少なくとも1つに関連付けて前記メタデータを記憶させる操作と、を実施する、非一時的なコンピュータ可読媒体。
  11. 前記ビデオストリームが、スポーツイベントの放送を含み、
    前記ビデオフレームが、1人以上のユーザ対する特定の関心を有するとみなされるハイライトを構成し、
    前記メタデータが、前記ハイライト中の前記スポーツイベントのステータスを記述している、請求項10に記載の非一時的なコンピュータ可読媒体。
  12. 内部に記憶された命令をさらに含み、前記命令は、前記プロセッサによって実行されたときに、出力デバイスに前記メタデータを前記ハイライトの表示中に提示させる、請求項11に記載の非一時的なコンピュータ可読媒体。
  13. 前記カード画像を自動的に識別および抽出し、前記カード画像を分析してメタデータを取得することが、ハイライトに対してハイライトの表示中に実行される、請求項12に記載の非一時的なコンピュータ可読媒体。
  14. 前記ビデオフレーム領域から前記カード画像を位置特定および抽出することが、前記ビデオフレームをトリミングして前記ビデオフレーム領域を分離することを含む、請求項10に記載の非一時的なコンピュータ可読媒体。
  15. 前記ビデオフレーム領域から前記カード画像を位置特定および抽出することが、
    前記ビデオフレーム領域、または前記ビデオフレーム領域の処理されたバージョンをセグメント化して、セグメント化された画像を生成することと、
    前記セグメント化された画像の境界に隣接するセグメントのピクセル値を修正することと、を含む、請求項10に記載の非一時的なコンピュータ可読媒体。
  16. 前記ビデオフレーム領域から前記カード画像を位置特定および抽出することが、前記ビデオフレーム領域または前記ビデオフレーム領域の処理されたバージョンから背景を除去することを含む、請求項10に記載の非一時的なコンピュータ可読媒体。
  17. ビデオストリームからメタデータを抽出するためのシステムであって、前記システムが、
    前記ビデオストリームのビデオフレームを記憶するように構成されたデータストアと、
    プロセッサであって、
    前記ビデオフレームの少なくとも1つのビデオフレームに埋め込まれたカード画像を自動的に識別および抽出することであって、前記識別および抽出することが、
    前記ビデオストリームに関連付けられたネットワークに基づいて、前記カード画像の所定の位置が既知であるかを決定すること、
    前記所定の位置が既知であるとの決定に基づいて、前記カード画像を含むビデオフレーム領域を定義する前記所定の位置を前記ビデオフレーム内で処理すること、および
    前記所定の位置が既知ではないとの決定に基づいて、前記ビデオフレームの複数の領域を順次処理して、前記カード画像を含む前記ビデオフレーム領域を識別し、前記ビデオフレーム領域から前記カード画像を位置特定および抽出すること、を実施することによって行われ、
    背景が除去された前記ビデオフレーム領域に基づいてエッジ画像を生成することと、
    前記エッジ画像内の輪郭を検出することと、
    前記輪郭を多角形として近似することと、
    前記輪郭を包含する最小の長方形周囲で囲まれた領域を抽出して、周囲長方形画像を生成することと、
    反復的に、前記周囲長方形画像の各エッジに対して、色修正されたピクセルをカウントし、色修正されたピクセルの数がしきい値を超えている、任意の境界エッジを内側に移動することと、を含む、識別および抽出することと、
    前記カード画像を分析してメタデータを取得することと、を行うように構成されている、プロセッサと、を備え、
    前記データストアが、前記ビデオフレームのうちの少なくとも1つに関連付けて前記メタデータを記憶するようにさらに構成されている、システム。
  18. 前記ビデオストリームが、スポーツイベントの放送を含み、
    前記ビデオフレームが、1人以上のユーザに対する特定の関心を有するとみなされるハイライトを構成し、
    前記メタデータが、前記ハイライト中の前記スポーツイベントのステータスを記述している、請求項17に記載のシステム。
  19. 前記ハイライトの表示中に前記メタデータを提示するように構成された出力デバイスをさらに備える、請求項18に記載のシステム。
  20. 前記プロセッサが、前記カード画像を自動的に識別および抽出し、前記カード画像を分析して、前記ハイライトの表示中にハイライトの前記メタデータを取得するようにさらに構成されている、請求項19に記載のシステム。
  21. 前記プロセッサが、前記ビデオフレームをトリミングして前記ビデオフレーム領域を分離することによって、前記ビデオフレーム領域から前記カード画像を位置特定および抽出するようにさらに構成されている、請求項17に記載のシステム。
  22. 前記プロセッサが、
    前記ビデオフレーム領域、または前記ビデオフレーム領域の処理されたバージョンをセグメント化して、セグメント化された画像を生成することと、
    前記セグメント化された画像の境界に隣接するセグメントのピクセル値を修正することと、によって、前記ビデオフレーム領域から前記カード画像を位置特定および抽出するようにさらに構成されている、請求項17に記載のシステム。
  23. 前記プロセッサが、前記ビデオフレーム領域またはビデオフレーム領域の処理されたバージョンから背景を除去することによって、前記ビデオフレーム領域から前記カード画像を位置特定および抽出するようにさらに構成されている、請求項17に記載のシステム。
JP2020564749A 2018-05-18 2019-05-15 埋め込まれた情報カード位置特定およびコンテンツ抽出のためのビデオ処理 Active JP7511482B2 (ja)

Applications Claiming Priority (19)

Application Number Priority Date Filing Date Title
US201862673411P 2018-05-18 2018-05-18
US201862673413P 2018-05-18 2018-05-18
US201862673412P 2018-05-18 2018-05-18
US62/673,411 2018-05-18
US62/673,413 2018-05-18
US62/673,412 2018-05-18
US201862680955P 2018-06-05 2018-06-05
US62/680,955 2018-06-05
US201862712041P 2018-07-30 2018-07-30
US62/712,041 2018-07-30
US201862746454P 2018-10-16 2018-10-16
US62/746,454 2018-10-16
US16/411,704 US11594028B2 (en) 2018-05-18 2019-05-14 Video processing for enabling sports highlights generation
US16/411,704 2019-05-14
US16/411,713 2019-05-14
US16/411,713 US11138438B2 (en) 2018-05-18 2019-05-14 Video processing for embedded information card localization and content extraction
US16/411,710 2019-05-14
US16/411,710 US11373404B2 (en) 2018-05-18 2019-05-14 Machine learning for recognizing and interpreting embedded information card content
PCT/US2019/032499 WO2019222409A1 (en) 2018-05-18 2019-05-15 Video processing for embedded information card localization and content extraction

Publications (2)

Publication Number Publication Date
JP2021525031A JP2021525031A (ja) 2021-09-16
JP7511482B2 true JP7511482B2 (ja) 2024-07-05

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176538A (ja) 2007-01-18 2008-07-31 Toshiba Corp 映像属性情報出力装置、映像要約装置、プログラムおよび映像属性情報出力方法
JP2011009816A (ja) 2009-06-23 2011-01-13 Mitsubishi Electric Corp 画像再生装置
JP2011514789A (ja) 2008-03-20 2011-05-06 インスティテュート フュール ラントファンクテクニーク ゲー・エム・ベー・ハー ビデオ画像の小さな画面サイズへの適合方法
JP2015139016A (ja) 2014-01-20 2015-07-30 富士通株式会社 抽出プログラム、方法、及び装置、並びに野球映像メタ情報作成装置、方法、及びプログラム
JP2016048852A (ja) 2014-08-27 2016-04-07 富士通株式会社 判定プログラム、方法、及び装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176538A (ja) 2007-01-18 2008-07-31 Toshiba Corp 映像属性情報出力装置、映像要約装置、プログラムおよび映像属性情報出力方法
JP2011514789A (ja) 2008-03-20 2011-05-06 インスティテュート フュール ラントファンクテクニーク ゲー・エム・ベー・ハー ビデオ画像の小さな画面サイズへの適合方法
JP2011009816A (ja) 2009-06-23 2011-01-13 Mitsubishi Electric Corp 画像再生装置
JP2015139016A (ja) 2014-01-20 2015-07-30 富士通株式会社 抽出プログラム、方法、及び装置、並びに野球映像メタ情報作成装置、方法、及びプログラム
JP2016048852A (ja) 2014-08-27 2016-04-07 富士通株式会社 判定プログラム、方法、及び装置

Similar Documents

Publication Publication Date Title
US11615621B2 (en) Video processing for embedded information card localization and content extraction
JP7485864B2 (ja) スポーツイベントテレビジョン番組において群衆ノイズの発生を検出するためのオーディオ処理
US11922968B2 (en) Audio processing for detecting occurrences of loud sound characterized by brief audio bursts
CN113170228B (zh) 用于从视听内容中提取可变长度不相交片段的音频处理
JP7511482B2 (ja) 埋め込まれた情報カード位置特定およびコンテンツ抽出のためのビデオ処理
CN112753227B (zh) 从事件的描绘提取元数据的方法、计算机可读介质和系统