JP2024067037A

JP2024067037A - 埋め込まれた情報カードコンテンツを認識および解釈するための機械学習

Info

Publication number: JP2024067037A
Application number: JP2024021670A
Authority: JP
Inventors: ストヤンシック，ミハイロ; Stojancic Mihailo; パッカード，ウォレン; Packard Warren
Original assignee: Stats LLC
Current assignee: Stats LLC
Priority date: 2018-05-18
Filing date: 2024-02-16
Publication date: 2024-05-16
Also published as: US20230230377A1; US11138438B2; CN112753226A; WO2019222397A1; US20190356948A1; EP3811628A4; CN112753225B; US11594028B2; US20220327829A1; WO2019222409A1; CA3100787A1; US20190354763A1; AU2019269599A1; CA3100788A1; AU2024202817A1; US20220027631A1; AU2024202313B2; CN118158470A; AU2019268359A1; AU2019268359B2

Abstract

【課題】ビデオストリームのハイライトのメタデータが、ビデオストリームに埋め込まれたカード画像から抽出される。【解決手段】ハイライトは、スポーツイベントの放送など、１人以上のユーザに対する特定の関心を有するビデオストリームのセグメントであり得る。ビデオストリームのビデオフレームに埋め込まれたカード画像が識別および処理されて、テキストを抽出する。テキスト文字は、スポーツテレビ番組のコンテンツに埋め込まれたカード画像から抽出された文字のセットで訓練された機械学習されたモデルを適用することによって認識することができる。文字ベクトルの訓練セットを前処理して、訓練セットメンバー間のメトリック距離を最大化することができる。テキストを解釈してメタデータを取得することができる。メタデータは、ビデオストリームの一部分に関連して記憶することができる。メタデータは、ハイライトに関する情報を提供してもよく、ハイライトの再生と同時に提示されてもよい。【選択図】図４

Description

関連出願の相互参照
本出願は、２０１８年５月１８日に出願された「ＭａｃｈｉｎｅＬｅａｒｎｉｎｇｆｏｒＲｅｃｏｇｎｉｚｉｎｇａｎｄＩｎｔｅｒｐｒｅｔｉｎｇＥｍｂｅｄｄｅｄＩｎｆｏｒｍａｔｉｏｎＣａｒｄＣｏｎｔｅｎｔ」に関する米国仮特許出願整理番号第６２／６７３，４１２号（代理人整理番号第ＴＨＵ０１０－ＰＲＯＶ号）の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１９年５月１４日に出願された「ＭａｃｈｉｎｅＬｅａｒｎｉｎｇｆｏｒＲｅｃｏｇｎｉｚｉｎｇａｎｄＩｎｔｅｒｐｒｅｔｉｎｇＥｍｂｅｄｄｅｄＩｎｆｏｒｍａｔｉｏｎＣａｒｄＣｏｎｔｅｎｔ」に関する米国実用特許出願整理番号第１６／４１１，７１０号（代理人整理番号第ＴＨＵ０１０号）の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１８年５月１８日に出願された「ＶｉｄｅｏＰｒｏｃｅｓｓｉｎｇｆｏｒＥｎａｂｌｉｎｇＳｐｏｒｔｓＨｉｇｈｌｉｇｈｔｓＧｅｎｅｒａｔｉｏｎ」に関する米国仮特許出願整理番号第６２／６７３，４１１号（代理人整理番号第ＴＨＵ００９－ＰＲＯＶ号）の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１９年５月１４日に出願された「ＶｉｄｅｏＰｒｏｃｅｓｓｉｎｇｆｏｒＥｎａｂｌｉｎｇＳｐｏｒｔｓＨｉｇｈｌｉｇｈｔｓＧｅｎｅｒａｔｉｏｎ」に関する米国実用特許出願整理番号第１６／４１１，７０４号（代理人整理番号第ＴＨＵ００９号）の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１８年５月１８日に出願された「ＶｉｄｅｏＰｒｏｃｅｓｓｉｎｇｆｏｒＥｍｂｅｄｄｅｄＩｎｆｏｒｍａｔｉｏｎＣａｒｄＬｏｃａｌｉｚａｔｉｏｎａｎｄＣｏｎｔｅｎｔＥｘｔｒａｃｔｉｏｎ」に関する米国仮特許出願整理番号第６２／６７３，４１３号（代理人整理番号第ＴＨＵ０１２－ＰＲＯＶ号）の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１９年５月１４日に出願された「ＶｉｄｅｏＰｒｏｃｅｓｓｉｎｇｆｏｒＥｍｂｅｄｄｅｄＩｎｆｏｒｍａｔｉｏｎＣａｒｄＬｏｃａｌｉｚａｔｉｏｎａｎｄＣｏｎｔｅｎｔＥｘｔｒａｃｔｉｏｎ」に関する米国実用特許出願整理番号第１６／４１１，７１３号（代理人整理番号第ＴＨＵ０１２号）の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１８年６月５日に出願された「ＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇｆｏｒＤｅｔｅｃｔｉｎｇＯｃｃｕｒｒｅｎｃｅｓｏｆＣｒｏｗｄＮｏｉｓｅｉｎＳｐｏｒｔｉｎｇＥｖｅｎｔＴｅｌｅｖｉｓｉｏｎＰｒｏｇｒａｍｍｉｎｇ」に関する米国仮特許出願整理番号第６２／６８０，９５５号（代理人整理番号第ＴＨＵ００７－ＰＲＯＶ号）の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１８年７月３０日に出願された「ＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇｆｏｒＥｘｔｒａｃｔｉｏｎｏｆＶａｒｉａｂｌｅＬｅｎｇｔｈＤｉｓｊｏｉｎｔＳｅｇｍｅｎｔｓｆｒｏｍＴｅｌｅｖｉｓｉｏｎＳｉｇｎａｌ」に関する米国仮特許出願整理番号第６２／７１２，０４１号（代理人整理番号第ＴＨＵ００６－ＰＲＯＶ号）の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１８年１０月１６日に出願された「ＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇｆｏｒＤｅｔｅｃｔｉｎｇＯｃｃｕｒｒｅｎｃｅｓｏｆＬｏｕｄＳｏｕｎｄＣｈａｒａｃｔｅｒｉｚｅｄｂｙＳｈｏｒｔ－ＴｉｍｅＥｎｅｒｇｙＢｕｒｓｔｓ」に関する米国仮特許出願整理番号第６２／７４６，４５４号（代理人整理番号第ＴＨＵ０１６－ＰＲＯＶ号）の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１２年８月３１日に出願され、２０１５年６月１６日に米国特許第９，０６０，２１０号として発行された、「ＧｅｎｅｒａｔｉｎｇＥｘｃｉｔｅｍｅｎｔＬｅｖｅｌｓｆｏｒＬｉｖｅＰｅｒｆｏｒｍａｎｃｅｓ」に関する米国実用特許出願整理番号第１３／６０１，９１５に関するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１２年８月３１日に出願され、２０１４年９月２３日に米国特許第８，８４２，００７号として発行された、「ＧｅｎｅｒａｔｉｎｇＡｌｅｒｔｓｆｏｒＬｉｖｅＰｅｒｆｏｒｍａｎｃｅｓ」に関する米国実用特許出願整理番号第１３／６０１，９２７に関するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１２年８月３１日に出願され、２０１３年１１月２６日に米国特許第８，５９５，７６３号として発行された、「ＧｅｎｅｒａｔｉｎｇＴｅａｓｅｒｓｆｏｒＬｉｖｅＰｅｒｆｏｒｍａｎｃｅｓ」に関する米国実用特許出願整理番号第１３／６０１，９３３に関するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１４年１０月９日に出願された「ＧｅｎｅｒａｔｉｎｇａＣｕｓｔｏｍｉｚｅｄＨｉｇｈｌｉｇｈｔＳｅｑｕｅｎｃｅＤｅｐｉｃｔｉｎｇａｎＥｖｅｎｔ」に関する米国実用特許出願整理番号第１４／５１０，４８１号（代理人整理番号第ＴＨＵ００１号）に関するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１５年５月１２日に出願された「ＧｅｎｅｒａｔｉｎｇａＣｕｓｔｏｍｉｚｅｄＨｉｇｈｌｉｇｈｔＳｅｑｕｅｎｃｅＤｅｐｉｃｔｉｎｇＭｕｌｔｉｐｌｅＥｖｅｎｔｓ」に関する米国実用特許出願整理番号第１４／７１０，４３８号（代理人整理番号第ＴＨＵ００２号）に関するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１５年１０月７日に出願された「ＣｕｓｔｏｍｉｚｅｄＧｅｎｅｒａｔｉｏｎｏｆＨｉｇｈｌｉｇｈｔＳｈｏｗｗｉｔｈＮａｒｒａｔｉｖｅＣｏｍｐｏｎｅｎｔ」に関する米国実用特許出願整理番号第１４／８７７，６９１号（代理人整理番号第ＴＨＵ００４号）に関するものであり、その全体が参照により本明細書に組み込まれる。

本出願は、２０１６年９月１４日に出願された「ＵｓｅｒＩｎｔｅｒｆａｃｅｆｏｒＩｎｔｅｒａｃｔｉｏｎｗｉｔｈＣｕｓｔｏｍｉｚｅｄＨｉｇｈｌｉｇｈｔＳｈｏｗｓ」に関する米国実用特許出願整理番号第１５／２６４，９２８号（代理人整理番号第ＴＨＵ００５号）に関するものであり、その全体が参照により本明細書に組み込まれる。

本文書は、マルチメディアコンテンツを配信するテレビデバイスまたはビデオサーバ上のマルチメディアコンテンツおよび関連する情報を識別し、またマルチメディアコンテンツの配信と同期してコンテンツおよびサービスを提供するために、組み込みソフトウェアアプリケーションがマルチメディアコンテンツを利用することを可能にする技術に関する。様々な実施形態は、スポーツテレビビデオコンテンツ内の重要なイベントベースのビデオセグメントを識別および抽出し、ビデオハイライトを識別し、試合前、試合中、および試合後のレビューのためにそのようなハイライトにメタデータを関連付けるために使用される自動化ビデオおよび音声分析を提供するための方法およびシステムに関する。

試合前、試合中、および試合後の対話的なアプリケーションを有する対話的な広告および強化された番組ガイドなどの拡張テレビアプリケーションが長い間構想されてきた。もともと放送テレビ用に設計された既存のケーブルシステムは、対話的テレビサービスおよび拡張（対話的）番組制作ガイドを含む、新しいアプリケーションおよびサービスのホストをサポートすることが求められている。

拡張テレビアプリケーションを可能にするためのいくつかのフレームワークが標準化されている。例としては、ＯｐｅｎＣａｂｌｅ^(商標)拡張ＴＶアプリケーションメッセージング仕様およびＴｒｕ２ｗａｙ仕様が挙げられ、これらは、ケーブルビデオネットワークを介して配信される対話的なデジタルケーブルサービスを指し、対話的な番組ガイド、対話的な広告、およびゲームなどの機能を含んでいる。さらに、ケーブル事業者の「ＯＣＡＰ」プログラムは、ｅコマースショッピング、オンラインバンキング、電子番組ガイド、およびデジタルビデオ録画などの対話的なサービスを提供している。これらの取り組みにより、番組制作者／放送局が配信するビデオコンテンツと同期した第一世代のビデオ同期アプリケーションが可能となり、テレビ番組制作に付加的なデータと対話的性を提供している。

ビデオ／音声コンテンツ分析技術および対応するモバイルデバイスの最近の開発により、ライブＴＶ番組イベントと同期して動作する高度なアプリケーションの開発において、一連の新しい可能性が開かれた。これらの新しい技術およびコンピュータビジョン、およびビデオ処理の進歩、ならびに最新のプロセッサの改善された計算能力により、メタデータを伴う高度な番組コンテンツのハイライトをリアルタイムで生成できるようになった。

埋め込まれた情報カード位置特定および埋め込まれたテキスト列認識および解釈のためのスポーツイベントテレビ番組コンテンツの自動リアルタイム処理のための方法およびシステムが提示される。少なくとも１つの実施形態では、機械学習された文字分類モデルは、スポーツイベントのテレビ番組コンテンツに埋め込まれた複数の情報カード（カード画像）から抽出された文字の訓練セットに基づいて生成される。抽出された文字画像は、多次元ベクトル空間で多次元文字ベクトルの標準化された訓練セットを生成するために処理される。次に、この訓練セットに対して主成分分析（ＰＣＡ）が実施され、訓練セットのベクトル空間にまたがる直交基底ベクトルが導出される。

少なくとも１つの実施形態では、訓練セットベクトル空間の次元数は、直交基底から限られた数の代表的な直交ベクトルを選択することによって減少される。マルチクラスサポートベクターマシン（ＳＶＭ）または畳み込みニューラルネットワーク（ＣＮＮ）アルゴリズムなどの、既知の機械学習アルゴリズムであり得る機械学習アルゴリズム構造を利用することによって、埋め込まれた情報カードに出現するこの特定の射影された英数字文字のセットに対して分類モデルが生成される。

少なくとも１つの実施形態では、スポーツイベントテレビ番組コンテンツは、リアルタイムで処理されて、クエリ（情報カードの文字列からの埋め込まれた文字）を抽出し、埋め込まれた文字列から抽出された個々の文字画像を使用してクエリインフラストラクチャをセットアップする。別の実施形態では、個々のクエリ画像は、各クエリ文字のクエリベクトルを生成するように正規化される。その後、これらのクエリベクトルは、訓練ベクトル空間にまたがる直交基底に射影され、射影されたクエリベクトルが生成される。さらに別の実施形態では、射影されたクエリベクトルは、各射影されたクエリベクトルに事前に学習された文字分類モデルを適用することによって認識（予測）される。最後に、予測されたクエリ文字（予測された文字列を形成する）は、意味抽出によって解釈される。少なくとも１つの実施形態では、意味抽出は、様々なテレビ番組カード画像タイプにおける既知の文字列位置に基づいて、および文字列内の個々の文字の位置の知識に基づいて実施される。少なくとも１つの実施形態では、抽出された情報は、スポーツイベントビデオハイライトに関連付けられたスポーツイベントメタデータに自動的に付加される。

少なくとも１つの実施形態では、ビデオストリームからメタデータを抽出するための方法は、ビデオストリームの少なくとも１つの部分を記憶することと、ビデオストリームの部分の１つ以上のビデオフレームに埋め込まれた１つ以上のカード画像を識別することと、その後、１つ以上の情報カード画像を処理してテキストを抽出することと、を含む。さらに別の実施形態では、情報カード画像から抽出されたテキストは、ビデオストリームの部分に関連付けてメタデータを生成および記憶するように解釈される。

少なくとも１つの実施形態では、ビデオストリームは、スポーツイベントの放送であってもよい。ビデオストリームの部分は、１人以上のユーザに対する特定の関心を有するとみなされるハイライトであってもよい。メタデータは、ハイライトを記述してもよい。

少なくとも１つの実施形態では、本方法は、１つ以上のカード画像を識別すること、１つ以上のカード画像を処理すること、およびテキストを解釈することのうちの少なくとも１つの間に、ユーザにビデオストリームを再生することをさらに含んでもよい。

少なくとも１つの実施形態では、本方法は、ユーザにハイライトを再生することと、ハイライトの再生中にユーザにメタデータを提示することと、をさらに含んでもよい。メタデータは、メタデータが取得されたカード画像のハイライトおよびタイムラインに関連するリアルタイム情報を提供してもよい。

少なくとも１つの実施形態では、テキストを抽出することは、１つ以上のカード画像内の１つ以上の文字列を識別することと、１つ以上の文字列の各文字に対応する１つ以上のカード画像を有するカード画像の文字画像の位置および／またはサイズを記録することと、を含んでもよい。

少なくとも１つの実施形態では、テキストを抽出することは、検出された文字境界の多重比較を実施することによって１つ以上の文字列の文字の文字境界に曖昧性解消を行うことと、互いに近づきすぎて出現する文字境界をパージすることと、をさらに含んでもよい。

少なくとも１つの実施形態では、テキストを抽出することは、低強度ピクセルカウントと高強度ピクセルカウントとの間のコントラスト比を確立することによって、１つ以上の文字列の文字に対して画像検証を実施することをさらに含んでもよい。

少なくとも１つの実施形態では、テキストを解釈することは、テキストに基づいてクエリを生成することと、ｎ次元クエリ特徴ベクトルを生成することと、ｎ次元クエリ特徴ベクトルを訓練セット直交基底に射影することと、射影されたｎ次元クエリ特徴ベクトルを分類モデルに適用して、予測されたクエリを作り出すことと、予測されたクエリからテキストの意味を抽出することと、を含んでもよい。

少なくとも１つの実施形態では、本方法は、訓練セット特徴ベクトルを生成することと、訓練セット特徴ベクトルを使用して訓練セット直交基底を導出することと、をさらに含んでもよい。

少なくとも１つの実施形態では、この方法は、訓練セット特徴ベクトルを生成することと、訓練セット特徴ベクトルおよび導出された訓練セット直交基底ベクトルを使用して分類モデルを生成することと、をさらに含んでもよい。

少なくとも１つの実施形態では、テキストを解釈することは、テキスト内の１つ以上の文字列の列長さ、テキスト内の文字境界および／または文字の位置、ならびにテキスト内の文字境界および／または文字の水平位置からなる群からの少なくとも２つの選択を使用することをさらに含んでもよい。

少なくとも１つの実施形態では、ビデオストリームの部分に関連付けてメタデータを記憶することは、クエリに関連付けられた、１つ以上のビデオフレームのビデオフレーム番号を記憶することを含んでもよい。

少なくとも１つの実施形態では、テキストを解釈することは、テキストの１つ以上の文字列の文字のフィールド位置を確認することと、文字の英数字値を確認することと、フィールド位置および英数字値を使用して１つ以上の文字列を順次解釈することと、を含んでもよい。

少なくとも１つの実施形態では、テキストを解釈することは、カード画像の各々の１つ以上のカードフィールドに関する位置および他の情報を取得することと、位置および他の情報を使用して１つ以上の文字列の１つ以上の欠落の可能性のある前部文字を補償することと、をさらに含んでもよい。

少なくとも１つの実施形態では、文字認識および分類モデルを生成するための方法は、自動ビデオハイライト生成に関連して記述される。本方法は、自動ハイライトメタデータが生成されるビデオストリームの少なくとも１つの部分を抽出および記憶することと、ビデオストリームの部分の１つ以上のビデオフレームに埋め込まれた１つ以上の情報カード画像を識別することと、１つ以上の情報カード画像を処理して複数の文字画像を抽出することと、を含む。本方法は、複数の文字画像に関連付けられた訓練特徴ベクトルを生成することと、訓練特徴ベクトルを処理することと、訓練特徴ベクトルの少なくともいくつかを使用して文字認識および分類モデルを訓練することと、その後、処理された訓練セットおよび分類モデルを記憶することと、をさらに含む。訓練特徴ベクトルは、訓練特徴ベクトルの相互メトリック距離を増加させることによって、および／または訓練特徴ベクトルを含む全体的なベクトル空間の次元数を減少させることによって、訓練特徴ベクトルの一意性を増加させる方法で処理されてもよい。

少なくとも１つの実施形態では、本方法は、訓練特徴ベクトルを生成する前に、文字画像を標準サイズおよび／または標準照明に正規化することをさらに含んでもよい。

少なくとも１つの実施形態では、訓練特徴ベクトルを生成することは、文字画像から抽出されたｎピクセルのセットをｎ次元ベクトルにフォーマットすることを含んでもよい。

少なくとも１つの実施形態では、本方法は、訓練特徴ベクトルに対して主成分分析を実施することをさらに含んでもよい。訓練特徴ベクトルの少なくともいくつかを使用して分類モデルを訓練することは、訓練特徴直交基底ベクトルのサブセットを選択することと、直交基底ベクトルのサブセットを使用して文字認識および分類モデルを訓練することと、を含んでもよい。

少なくとも１つの実施形態では、直交基底ベクトルは、全体的な訓練特徴ベクトル空間にまたがることがってもよい。全体的な訓練特徴ベクトル空間の次元数を減少させることは、この訓練特徴ベクトル空間を十分に正確に表す限られた数の直交基底ベクトルを選択することを含んでもよい。全体的な訓練ベクトル空間の次元数を減少させることは、直交基底ベクトルの行列から導出された特異値の最大セットに対応する直交基底ベクトルのみを選択することを含んでもよい。分類モデルを記憶することは、分類モデル生成および／またはクエリ処理における後続の使用のために、限られた数の直交基底ベクトルを記憶することを含んでもよい。分類モデルを生成することは、ＳＶＭおよびＣＮＮからなる群から選択された機械学習アルゴリズムと組み合わせて、限られた数の訓練セット直交基底ベクトルを使用することを含んでもよい。

少なくとも１つの実施形態では、本方法は、１つ以上の情報カード画像を処理してテキストを抽出することと、テキストを解釈してメタデータを取得することと、ビデオストリームの部分に関連付けてメタデータを記憶することと、をさらに含んでもよい。本方法は、ユーザにビデオストリームの部分を再生することと、ビデオストリームの部分の再生中にユーザにメタデータを提示することと、をさらに含む。ビデオストリームは、スポーツイベントの放送であってもよい。ビデオストリームの部分は、１人以上のユーザに対する特定の関心を有するとみなされるハイライトを含んでもよい。メタデータは、ハイライトを記述してもよい。

少なくとも１つの実施形態では、テキストを抽出することは、クエリとしてテキストのテキスト列を抽出することを含んでもよい。

少なくとも１つの実施形態では、テキストを抽出することは、スポーツイベント内の現在の時間、スポーツイベントの現在のフェーズ、スポーツイベントに関連する試合時計、およびスポーツイベントに関連する試合スコアのうちの少なくとも１つを抽出することを含んでもよい。

さらなる詳細および変形例は、本明細書に記載されている。

添付の図面は、説明とともに、いくつかの実施形態を示している。当業者は、図面に示される特定の実施形態は単なる例示的なものであり、範囲を限定することを意図するものではないことを認識するであろう。
クライアント／サーバの実施形態による、ハードウェアアーキテクチャを描くブロック図であり、イベントコンテンツは、ネットワーク接続されたコンテンツプロバイダを介して提供される。別のクライアント／サーバの実施形態による、ハードウェアアーキテクチャを描くブロック図であり、イベントコンテンツは、クライアントベースの記憶デバイスに記憶される。スタンドアロンの実施形態による、ハードウェアアーキテクチャを描くブロック図である。一実施形態による、システムアーキテクチャの概要を描くブロック図である。一実施形態による、カード画像、ユーザデータ、ハイライトデータ、および分類モデルに組み込むことができるデータ構造の例を描く概略ブロック図である。ビデオストリームからのビデオフレームの例のスクリーンショット図であり、スポーツイベントテレビ番組コンテンツに見られるようなフレーム内に埋め込まれた情報カード画像を示している。一実施形態による、フレーム内情報カードの位置特定、ならびにコンテンツの抽出およびレンダリングのためのテレビ番組コンテンツのリアルタイム受信および処理のための全体的な適用プロセスを描くフローチャートである。一実施形態による、文字列境界ボックス抽出のための、検出および抽出された情報カード画像の内部処理を描くフローチャートである。一実施形態による、最終的な境界された文字画像の検証および関連する位置パラメータ抽出のためのテキストボックスを処理するための方法を描くフローチャートである。一実施形態による、埋め込まれた情報カードのテキスト画像からのクエリ生成のための方法を示描くフローチャートである。一実施形態による、機械学習された分類モデルに基づいて抽出されたクエリ文字列の予測された英数字文字を生成するための方法を描くフローチャートである。一実施形態による、予測されたクエリ英数字列解釈のための方法を描くフローチャートである。一実施形態による、マルチクラスＳＶＭ分類器またはＣＮＮ分類器に基づく訓練セットベクトルの前処理および後続の分類モデル生成を描くフローチャートである。一実施形態による、情報カード内のテキストフィールドを読み取って解釈し、ビデオハイライトメタデータをフレーム内のリアルタイム情報で更新する全体的なプロセスを描くフローチャートである。

定義
以下の定義は説明のみを目的として提示されており、範囲を制限することを意図するものではない。
・イベント：本明細書の説明の目的上、「イベント」という用語は、試合、セッション、対戦、シリーズ、パフォーマンス、番組、および／もしくはコンサートなど、またはその部分（行為、期間、クォーター、ハーフ、イニング、シーン、またはチャプター）を指す。イベントは、スポーツイベント、娯楽イベント、またはイベントの参加者のより大きな集団内の単一の個人または複数の個人のサブセットの特定のパフォーマンスなどであってもよい。スポーツ以外のイベントの例としては、テレビショー、ニュース速報、社会政治的事件、自然災害、映画、演劇、ラジオ番組、ポッドキャスト、オーディオブック、オンラインコンテンツ、および／または音楽演奏などが挙げられる。イベントは、任意の長さを有することができる。例示目的のために、本明細書ではスポーツイベントの観点から本技術を説明することが多いが、当業者は、この技術が、任意の視聴覚、音声、資格、グラフィックスベース、対話的、非対話的、またはテキストベースのコンテンツのハイライトショーを含む、他の文脈でも使用できることを認識するであろう。したがって、本説明における「スポーツイベント」という用語および任意の他のスポーツ固有の用語の使用は、１つの想定される実施形態を例示することを意図しているが、記載される技術の範囲をその１つの実施形態に限定することを意図ししているわけではない。むしろ、そのような用語は、この技術に適切な、任意の好適なスポーツ以外の文脈にまで及ぶと考えられるべきである。説明を容易にするために、「イベント」という用語はまた、イベントの視聴覚記録などのイベントの報告もしくは表現、またはイベントの報告、説明、もしくは描画を含む任意の他のコンテンツ項目を指すためにも使用される。
・ハイライト：１人以上のユーザに対する特定の関心を有するとみなされる、イベントの抜粋もしくは部分、またはイベントに関連付けられたコンテンツ。ハイライトは、任意の長さを有することができる。概して、本明細書に記載の技術は、任意の好適なイベントについて、カスタマイズされたハイライトのセット（特定の特性および／またはユーザ選好に基づいて選択され得る）を識別および提示するための機構を提供する。「ハイライト」という用語はまた、ハイライトの視聴覚記録などのハイライトの報告もしくは表現、またはハイライトの報告、説明、もしくは描画を含む任意の他のコンテンツ項目を指すためにも使用される。ハイライトは、イベント自体の描画に限定される必要はないが、イベントに関連付けられた他のコンテンツを含むことができる。例えば、スポーツイベントの場合、ハイライトとして、試合中のオーディオ／ビデオ、ならびに試合前、試合中、および試合後のインタビュー、分析、および／または解説などを含む他のコンテンツを挙げることができる。このようなコンテンツは、リニアテレビから（例えば、イベント自体を描くビデオストリームの一部として）記録することも、任意の数の他のソースから取り出すこともできる。例えば、オカレンス（プレー）、ストリング、ポゼッション、およびシーケンスを含む、様々なタイプのハイライトを提供することができ、これらのすべては、以下で定義されている。ハイライトは、固定された継続時間である必要はないが、以下で説明するように、開始オフセットおよび／または終了オフセットを組み込むことができる。
・コンテンツデリニエーター：ハイライトの開始または終了を示す１つ以上のビデオフレーム。
・オカレンス：イベント中に発生するもの。例としては、ゴール、プレー、ダウン、ヒット、セーブ、ゴール上のシュート、バスケット、スティール、スナップまたはスナップの試み、ニアミス、喧嘩、試合の開始もしくは終了、クォーター、ハーフ、ピリオド、またはイニング、ピッチ、ペナルティ、負傷、娯楽イベントでのドラマチックな出来事、歌、および／またはソロなどが挙げられる。オカレンスはまた、停電、および／または手に負えないファンとの事件などの、異常な事件でもあり得る。このようなオカレンスの検出は、ビデオストリームの特定の一部分をハイライトとして指定するかどうかを決定するための基礎として使用することができる。オカレンスは、命名を容易にするために、本明細書では「プレー」とも呼ばれるが、そのような使用法は、範囲を制限するものと解釈されるべきではない。オカレンスは、任意の長さを有してもよく、オカレンスの表現は、様々な長さを有してもよい。例えば、上記のように、オカレンスの拡張表現は、オカレンスの直前および直後の時間期間を描く映像を含み得るが、簡単な表現は、オカレンス自体のみを含み得る。任意の中間表現も提供することができる。少なくとも１つの実施形態では、オカレンスを表現するための継続時間の選択は、ユーザ選好、利用可能な時間、オカレンスに対する決定された興奮レベル、オカレンスの重要度、および／または任意の他の要因によって異なることがある。
・オフセット：ハイライトの長さを調整する量。少なくとも１つの実施形態では、ハイライトの開始時間および／または終了時間をそれぞれ調整するために、開始オフセットおよび／または終了オフセットを提供することができる。例えば、ハイライトがゴールを描く場合、ハイライトは、ゴールに続く祝賀および／またはファンの反応を含むように、（エンドオフセットを介して）数秒間延長されてもよい。オフセットは、例えば、ハイライトに利用可能な時間、ハイライトの重要度および／もしくは興奮レベル、ならびに／また任意の他の好適な要因に基づいて、自動的にまたは手動で変化するように構成することができる。
・ストリング：何らかの形で互いとリンクまたは関連している一連のオカレンス。オカレンスは、ポゼッション（以下に定義する）内で発生してもよく、複数のポゼッションにまたがってもよい。オカレンスは、シーケンス（以下に定義する）内で発生してもよく、複数のシーケンスにまたがってもよい。オカレンスは、互いに何らかの主題的または物語的なつながりがあるため、またはあるものが別のものにつながるため、または任意の別の理由で、リンクまたは関連していてもよい。ストリングの一例は、ゴールまたはバスケットにつながるパスのセットである。これは、コンピュータプログラミング分野で通常割り当てられている意味を有する「テキスト列」と混同してはならない。
・ポゼッション：イベントの任意の時間で区切られた部分。ポゼッションの開始／終了時間の区別は、イベントのタイプによって異なることがある。一方のチームが攻撃的であり得るが、もう一方のチームが防御的である特定のスポーツイベント（例えば、バスケットボールまたはサッカーなど）の場合、ポゼッションは、チームの一方がボールを有している時間期間として定義することができる。ホッケーまたはサッカーなど、パックまたはボールのポゼッションがより流動的であるスポーツでは、ポゼッションは、チームのうちの一方が他方のチームによる瞬間的な接触（ブロックされたシュートまたはセーブなど）を無視して、パックまたはボールの実質的な制御を有する時間期間にまで及ぶと考えられる。野球の場合、ポゼッションはハーフイニングとして定義される。サッカーの場合、ポゼッションは、同じチームがボールを有しているいくつかのシーケンスを含むことができる。他のタイプのスポーツイベントおよびスポーツ以外のイベントの場合、「ポゼッション」という用語は多少語弊があるかもしれないが、本明細書ではなおも例示の目的で使用されている。スポーツ以外の文脈での例としては、チャプター、シーン、行為、またはテレビセグメントなどが挙げられる。例えば、音楽コンサートの文脈では、ポゼッションは単一の曲の演奏に相当する場合がある。ポゼッションは、任意の数のオカレンスを含むことができる。
・シーケンス：１つの連続したアクションの時間期間を含むイベントの時間で区切られた部分。例えば、スポーツイベントでは、シーケンスはアクションの開始時（フェイスオフ、またはチップオフなど）に開始し、笛が吹かれてアクションの中断を示すときに終了することがある。野球またはサッカーなどのスポーツでは、シーケンスはプレーと同等である場合があり、これはオカレンスの一形態である。シーケンスは、任意の数のポゼッションを含むことができるか、またはポゼッションの一部分であってもよい。
・ハイライトショー：ユーザへの提示のために配置されたハイライトのセット。ハイライトショーは、直線的に（ビデオストリームなど）、またはユーザがどのハイライトをどの順番で視聴するかを選択できるような方法で提示されてもよい（例えば、リンクまたはサムネイルをクリックすることによって）。ハイライトショーの提示は、非対話的でもあっても対話的であってもよく、例えば、ユーザが一時停止、巻き戻し、スキップ、早送り、および／または選好の有無の伝達などを行うことを可能にする。ハイライトショーは、例えば、凝縮された試合であり得る。ハイライトショーは、単一のイベントから、または複数のイベントから、連続または非連続のハイライトを任意の数だけ含むことができ、さらには異なるタイプのイベント（例えば、異なるスポーツ、ならびに／またはスポーツおよびスポーツ以外のイベントのハイライトの組み合わせ）からのハイライトを含むこともできる。
・ユーザ／視聴者：「ユーザ」または「視聴者」という用語は、イベント、イベントの１つ以上のハイライト、またはハイライトショーを見たり、聞いたり、またはその他の方法で体験したりする個人、グループ、またはその他のエンティティを同じ意味で指す。「ユーザ」または「視聴者」という用語はまた、ある将来の時点で、イベント、イベントの１つ以上のハイライト、またはハイライトショーのいずれかを見たり、聞いたり、または他の方法で体験したりする個人、グループ、または他のエンティティを指すこともできる。「視聴者」という用語は説明の目的で使用される場合があるが、イベントに視覚的な成分が含まれている必要はないため、「視聴者」は代わりにリスナーまたはコンテンツの任意の他の消費者であってもよい。
・物語：ハイライトセグメントのセットを特定の順序でリンクする一貫したストーリー。
・興奮レベル：特定のユーザまたは一般のユーザにとって、イベントまたはハイライトがどれほど興奮するものになるかまたは興味深いものになるかを示す尺度。興奮レベルは、特定のオカレンスまたはプレーヤーに関して決定することもできる。興奮レベルを測定または評価するための様々な技術は、上記で参照した関連する用途で説明されている。説明したように、興奮レベルは、イベント内のオカレンス、およびイベントの全体的な文脈または重要度（プレーオフ試合、ペナントの影響、および／またはライバル関係など）などの他の要因によって異なる場合がある。少なくとも１つの実施形態では、興奮レベルは、イベント内の各オカレンス、ストリング、ポゼッション、またはシーケンスに関連付けることができる。例えば、ポゼッションの興奮レベルは、そのポゼッション内で発生するオカレンスに基づいて決定することができる。興奮レベルは、異なるユーザ（例えば、あるチームのファンと中立のファン）によって異なる方法で測定されてもよく、各ユーザの個人的な特性によって異なる場合がある。
・メタデータ：他のデータに関連し、他のデータに関連付けられて記憶されるデータ。一次データは、スポーツ番組またはハイライトなどのメディアであってもよい。
・カード画像：イベント、イベントの描画、またはその一部分などの、ビデオに描かれているいずれかのものに関するデータを提供するビデオフレーム内の画像。例示的なカード画像は、試合スコア、試合時計、および／またはスポーツイベントからの他の統計を含む。カード画像は、一時的に、またはビデオストリームの全継続時間にわたって出現してもよく、一時的に出現するものは、特にそれらが出現するビデオストリームの部分に関係していてもよい。
・文字画像：単一の文字に関連すると思われる画像の一部分。文字画像は、文字を取り囲む領域を含んでもよい。例えば、文字画像は、文字を取り囲む略長方形の境界ボックスを含み得る。
・文字：単語、数字、または単語もしくは数字の表現の一部となることができる記号。文字は、文字、数字、および特殊文字を含むことができ、任意の言語にあってもよい。
・文字列：文字のセットであって、それらがスポーツイベントでプレーしているチームの名前などの単一の情報に関連することを示す方法でグループ化されたもの。多くの場合、英語の文字列は水平に配置され、左から右に読み取られる。ただし、文字列は英語と他の言語とで異なって配置される場合がある。

概要
様々な実施形態によれば、スポーツイベントのテレビ番組のハイライトに関連付けられた時間ベースのメタデータを自動的に作成するための方法およびシステムが提供される。ハイライトおよび関連するフレーム内時間ベースの情報は、スポーツイベントのテレビ放送に関して同期的に抽出されてもよく、またはスポーツイベントのビデオコンテンツが、スポーツイベントのテレビ放送後にバックアップデバイスからビデオサーバを介してストリーミングされている間に抽出されてもよい。

少なくとも１つの実施形態では、ソフトウェアアプリケーションは、テレビ番組コンテンツの再生および／または受信と同期して動作して、コンテンツのハイライトに関連付けられた情報メタデータを提供する。このようなソフトウェアは、例えば、テレビデバイス自体上で、または関連するセットトップボックス（ＳＴＢ）上で、または番組コンテンツを受信し、その後ストリーミングする機能を有するビデオサーバ上で、またはライブ番組を含むビデオフィードを受信する機能を有するモバイルデバイス上で実行することができる。少なくとも１つの実施形態では、ハイライトおよび関連するメタデータアプリケーションは、テレビ番組コンテンツの提示と同期して動作する。

対話型テレビアプリケーションは、一次テレビディスプレイ、またはタブレット、ラップトップ、もしくはスマートフォンなどの二次ディスプレイのいずれかでテレビ番組を見ているユーザに対する、ハイライトされたテレビ番組コンテンツのタイムリーで関連性のある提示を可能にすることができる。テレビ放送コンテンツのハイライトを表すビデオクリップのセットは、ハイライトビデオクリップによって提示されるイベントをより詳細に説明する時間ベースのメタデータを含むデータベースとともに、リアルタイムで生成および／または記憶することができる。

ビデオクリップに付随するメタデータは、テキスト情報、画像のセット、および／または任意のタイプの視聴覚データなどの任意の情報であり得る。試合中および試合後のビデオコンテンツのハイライトに関連付けられたメタデータの１つのタイプは、番組コンテンツのビデオフレームのうちの１つ以上に埋め込まれた情報カード（「カード画像」）を読み取ることによって、ライブ番組コンテンツから直接抽出されたスポーツ試合パラメータに関するリアルタイムの情報を伝達する。少なくとも１つの実施形態では、記載されたシステムおよび方法は、このタイプの自動メタデータ生成を可能にし、したがって、カード画像コンテンツを、分析されたデジタルビデオストリームのビデオハイライトに関連付ける。

様々な実施形態では、デジタルビデオストリームを受信することと、カード画像の提示および抽出のためにデジタルビデオストリームの１つ以上のビデオフレームを分析することと、カード画像内のテキストボックスを位置特定することと、テキストボックス内に存在する文字の列を認識および解釈することと、を含む自動化プロセスが記載されている。

本明細書に提示される自動化メタデータ生成ビデオシステムは、ライブ放送ビデオストリームまたはコンピュータサーバを介してストリーミングされたデジタルビデオを受信することができ、コンピュータビジョンおよび機械学習技術を使用してリアルタイムでビデオストリームを処理し、埋め込まれた情報カードからメタデータを抽出することができる。

少なくとも１つの実施形態では、抽出された情報カードテキストフィールドに関連付けられた文字列が識別され、文字の列内の各文字の画像の位置およびサイズが記録される。その後、情報カードの様々なフィールドからのテキスト列内の任意の数の文字が認識され、認識された文字を有するテキスト列が解釈され、試合の現在の時間およびフェーズ、試合スコア、および／またはプレー情報などの、スポーツイベントのテレビ番組に関連するリアルタイム情報を提供する。

別の実施形態では、個々の文字画像は、埋め込まれた文字列から抽出され、その後、正規化されたクエリベクトルを生成するために使用される。次に、これらの正規化されたクエリベクトルは、訓練ベクトル空間にまたがる直交基底に射影され、この訓練ベクトルは、事前に組み立てられており、例えば、マルチクラスサポートベクターマシン（ＳＶＭ）分類器（例：Ｃ．ＢＵＲＧＥＳ，“ＡＴｕｔｏｒｉａｌｏｎＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓｆｏｒＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ”，ＫｌｕｗｅｒＡｃａｄｅｍｉｃＰｕｂｌｉｓｈｅｒｓ，１９９８）などの機械学習分類器を訓練するために使用される。射影されたクエリは、その後、例示的なＳＶＭ訓練メカニズムによって作り出された、事前に訓練された分類モデルの出力としてクエリ予測を生成するために使用される。分類モデルはＳＶＭベースのモデルに限定されないことに留意されたい。分類モデルはまた、畳み込みニューラルネットワーク（ＣＮＮ）などの他の技術を使用して、またＣＮＮアルゴリズム機構の多数の変形例（例：Ｙ．ＬｅＣｕｎａｔａｌ．，“ＥｆｆｉｃｉｅｎｔＮＮＢａｃｋＰｒｏｐａｇａｔｉｏｎ”，Ｓｐｒｉｎｇｅｒ１９９８）を使用して作り出すこともでき、この変形例は本明細書に提示された訓練データセットに好適である。

さらに別の実施形態では、クエリ文字予測は、事前に開発された機械学習された分類モデルに対して射影されたクエリ文字ベクトルを適用することによって生成される。このステップでは、事前に確立された分類ラベルに従って予測された文字の列が生成され、予測された英数字文字の列が認識および解釈プロセスに渡される。クエリの認識および解釈プロセスは、多数の情報カードフィールドに存在する文字の前知識および位置的理解を適用する。特定の文字グループに位置付けられた各予測された英数字文字の意味をさらに解釈し、その導出された情報をビデオハイライト生成アプリケーションが扱うビデオハイライトメタデータに付加する。

さらに別の実施形態では、文字分類モデル生成が考慮され、モデルは、スポーツイベントテレビ番組コンテンツに埋め込まれた任意の数の情報カードから抽出された文字の訓練セットに基づく。文字境界ボックスが検出され、多数の情報カードから文字が抽出される。これらの文字画像は、その後、標準化されたサイズおよび照明に正規化されて、埋め込まれた情報カードに出現する英数字文字のセットから各特定の文字に関連付けられた記述子を形成する。この方法で、各抽出された文字画像は、ベクトルの訓練セットを含む多次元ベクトル空間内のｎ次元ベクトルを表す。文字画像のセットを表すｎ次元訓練ベクトルは、一意性および相互メトリック距離を増加させるため、および訓練ベクトルの全体的なベクトル空間の次元数を減少させるためにさらに処理される。

少なくとも１つの実施形態では、主成分分析（例えば、Ｇ．ＧｏｌｕｂａｎｄＦ．Ｌｏａｎ，“ＭａｔｒｉｘＣｏｍｐｕｔａｔｉｏｎｓ”，ＪｏｈｎｓＨｏｐｋｉｎｓＵｎｉｖ．Ｐｒｅｓｓ，Ｂａｌｔｉｍｏｒｅ，１９８９）は、訓練ベクトルセットに対して実施される。したがって、ベクトルの直交基底は、直交基底ベクトルが訓練セットのベクトル空間にまたがるように、訓練セットから考案される。さらに、基底ベクトルの訓練セット行列の特異値分解によって生成された、特異値の最大セットに関連付けられた最も重要な直交ベクトルのみが保持されるように、訓練セットベクトル空間の次元数は、限られた数の直交基底ベクトルを選択することによって減少される。その後、選択された訓練セット基底ベクトルは、マルチクラスＳＶＭベースの分類器またはＣＮＮベースの分類器などの、データセット分類に利用可能なアルゴリズム構造のうちの１つ以上を使用して分類モデル生成に後で使用するために保存される。

システムアーキテクチャ
様々な実施形態によれば、システムは、情報を受信、記憶、および提示するように装備された任意の電子デバイスまたは電子デバイスのセットに実装することができる。このような電子デバイスは、例えば、デスクトップコンピュータ、ラップトップコンピュータ、テレビ、スマートフォン、タブレット、音楽プレーヤー、音声デバイス、キオスク、セットトップボックス（ＳＴＢ）、ゲームシステム、ウェアラブルデバイス、および／または家庭用電子デバイスなどであってもよい。

システムは、特定のタイプの計算デバイスでの実装に関連して本明細書に記載されるが、当業者は、本明細書に記載される技術は、他の文脈で実装することができ、実際には、ユーザ入力を受信および／または処理し、ユーザに出力を提示できる任意の好適なデバイスで実装できることを認識するであろう。したがって、以下の説明は、範囲を限定するのではなく、例として様々な実施形態を例示することを意図している。

ここで図１Ａを参照すると、クライアント／サーバの実施形態による、イベントのビデオストリームに埋め込まれたカード画像からメタデータを自動的に抽出するためのシステム１００のハードウェアアーキテクチャを描くブロック図が示されている。ビデオストリームなどのイベントコンテンツは、ネットワーク接続されたコンテンツプロバイダ１２４を介して提供され得る。このようなクライアント／サーバの実施形態の例は、ウェブベースの実装形態であり、ここで１つ以上のクライアントデバイス１０６の各々が、通信ネットワーク１０４を介して、データプロバイダ（複数可）サーバ１２２、および／またはコンテンツプロバイダ（複数可）サーバ１２４を含む様々なサーバ１０２、１１４、１１６からのコンテンツと対話するためのユーザインターフェースを提供するブラウザまたはアプリを実行する。クライアントデバイス１０６からの要求に応答するコンテンツおよび／またはデータの送信は、ハイパーテキストマークアップ言語（ＨＴＭＬ）、Ｊａｖａ、ＯｂｊｅｃｔｉｖｅＣ、Ｐｙｔｈｏｎ、および／またはＪａｖａＳｃｒｉｐｔなどの任意の既知のプロトコルおよび言語を使用して行うことができる。

クライアントデバイス１０６は、デスクトップコンピュータ、ラップトップコンピュータ、テレビ、スマートフォン、タブレット、音楽プレーヤー、音声デバイス、キオスク、セットトップボックス、ゲームシステム、ウェアラブルデバイス、家庭用電子デバイス、および／または任意の電子デバイスなどであり得る。少なくとも１つの実施形態では、クライアントデバイス１０６は、当業者に既知のいくつかのハードウェア構成要素を有する。入力デバイス（複数可）１５１は、ユーザ１５０からの入力を受信する任意の構成要素（複数可）であり得、例えば、手持ち式リモコン、キーボード、マウス、スタイラス、タッチセンシティブスクリーン（タッチスクリーン）、タッチパッド、ジェスチャレセプタ、トラックボール、加速度計、五方向スイッチ、またはマイクなどを含む。入力は、例えば、ポイント、タップ、タイプ、ドラッグ、ジェスチャ、チルト、シェイク、および／またはスピーチのうちの１つ以上を含む、任意の好適なモードを介して提供することができる。表示スクリーン１５２は、イベントおよび／またはハイライトなどの描画を含む、情報、ビデオ、および／またはコンテンツなどをグラフィカルに表示する任意の構成要素であり得る。このような出力はまた、例えば、視聴覚コンテンツ、データ視覚化、ナビゲーション要素、グラフィック要素、またはコンテンツの選択のための情報および／もしくはパラメータを要求するクエリなどを含み得る。所望の出力のいくつかのみが一度に提示される少なくとも１つの実施形態では、スクロール機構などの動的制御が、入力デバイス（複数可）１５１を介して、どの情報を現在表示するかを選択するために、および／または情報を表示する方法を変更するために利用可能であってもよい。

プロセッサ１５７は、周知の技術に従って、ソフトウェアの指示の下でデータに対する操作を実施するための従来のマイクロプロセッサであり得る。メモリ１５６は、本明細書に記載の動作を実施するためのソフトウェアを実行する過程でプロセッサ１５７による使用のための、当技術分野で既知の構造およびアーキテクチャを有するランダムアクセスメモリであり得る。クライアントデバイス１０６はまた、ハードドライブ、フラッシュドライブ、光または磁気記憶デバイス、および／またはウェブベース（クラウドベース）ストレージなどであり得るローカルストレージ（図示せず）も含むことができる。

インターネット、テレビネットワーク、ケーブルネットワーク、および／またはセルラーネットワークなどの任意の好適なタイプの通信ネットワーク１０４は、任意の好適なプロトコルおよび技術に従って、クライアントデバイス１０６と、様々なサーバ（複数可）１０２、１１４、１１６および／またはコンテンツプロバイダ（複数可）１２４および／またはデータプロバイダ（複数可）１２２との間でデータを送信するための機構として使用することができる。インターネットに加えて、他の例としては、携帯電話ネットワーク、ＥＤＧＥ、３Ｇ、４Ｇ、長期的進化（ＬＴＥ）、セッション開始プロトコル（ＳＩＰ）、ショートメッセージピアツーピアプロトコル（ＳＭＰＰ）、ＳＳ７、Ｗｉ－Ｆｉ、ブルートゥース（登録商標）、ＺｉｇＢｅｅ、ハイパーテキスト転送プロトコル（ＨＴＴＰ）、セキュアハイパーテキスト転送プロトコル（ＳＨＴＴＰ）、および／もしくは伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）など、ならびに／またはこれらの任意の組み合わせが挙げられる。少なくとも１つの実施形態では、クライアントデバイス１０６は、通信ネットワーク１０４を介してデータおよび／またはコンテンツの要求を送信し、要求されたデータおよび／またはコンテンツを含む応答をサーバ１０２、１１４、１１６から受信する。

少なくとも１つの実施形態では、図１Ａのシステムは、スポーツイベントに関連して動作する。しかしながら、本明細書の教示は、スポーツ以外のイベントにも適用され、本明細書に記載の技術は、スポーツイベントへの適用に限定されないことを理解されるべきである。例えば、本明細書に記載の技術は、テレビショー、映画、ニュースイベント、試合ショー、政治活動、ビジネスショー、ドラマ、および／または他のエピソードコンテンツに関連して、またはこのような複数のイベントのために動作させるために利用することができる。

少なくとも１つの実施形態では、システム１００は、イベントのビデオストリームを分析することによって、放送イベントのハイライトを識別する。この分析は、リアルタイムで実行することができる。少なくとも１つの実施形態では、システム１００は、通信ネットワーク１０４を介して１つ以上のクライアントデバイス１０６に結合された１つ以上のウェブサーバ（複数可）１０２を含む。通信ネットワーク１０４は、パブリックネットワーク、プライベートネットワーク、またはインターネットなどのパブリックネットワークとプライベートネットワークとの組み合わせであってもよい。通信ネットワーク１０４は、ＬＡＮ、ＷＡＮ、有線、無線、および／または上記の組み合わせであり得る。クライアントデバイス１０６は、少なくとも１つの実施形態では、有線または無線接続のいずれかを介して通信ネットワーク１０４に接続することができる。少なくとも１つの実施形態では、クライアントデバイスはまた、ＤＶＲ、ＰＶＲ、または他のメディア記録デバイスなどの、イベントを受信および記録することができる記録デバイスを含み得る。そのような記録デバイスは、クライアントデバイス１０６の一部であり得るか、または外部であり得る。他の実施形態では、そのような記録デバイスは省略され得る。図１Ａは１つのクライアントデバイス１０６を示しているが、システム１００は、単一のタイプまたは複数のタイプの任意の数のクライアントデバイス（複数可）１０６を実装することができる。

ウェブサーバ（複数可）１０２は、クライアントデバイス（複数可）１０６からの要求を受信し、それらの要求にデータで応答するとともに、未承諾のアラートおよび他のメッセージを送信することができる１つ以上の物理計算デバイスおよび／またはソフトウェアを含み得る。ウェブサーバ（複数可）１０２は、負荷分散、キャッシング、およびクラスタリングなどのフォールトトレランスおよびスケーラビリティのための様々な戦略を採用してもよい。少なくとも１つの実施形態では、ウェブサーバ（複数可）１０２は、クライアント要求およびイベントに関連する情報を記憶するための、当技術分野で知られているようなキャッシング技術を含み得る。

ウェブサーバ（複数可）１０２は、クライアントデバイス（複数可）１０６から受信した要求に応答するために、１つ以上のアプリケーションサーバ（複数可）１１４を維持するか、または他の方法で指定することができる。少なくとも１つの実施形態では、アプリケーションサーバ（複数可）１１４は、クライアントデバイス（複数可）１０６内のクライアントアプリケーションプログラムによる使用のためのビジネスロジックへのアクセスを提供する。アプリケーションサーバ（複数可）１１４は、ウェブサーバ（複数可）１０２と同じ場所に位置し、共有され、または共同管理されてもよい。アプリケーションサーバ（複数可）１１４はまた、ウェブサーバ（複数可）１０２から離れていてもよい。少なくとも１つの実施形態では、アプリケーションサーバ（複数可）１１４は、１つ以上の分析サーバ（複数可）１１６および１つ以上のデータサーバ（複数可）１１８と対話して、開示された技術の１つ以上の動作を実施する。

１つ以上の記憶デバイス１５３は、システム１００の動作に関連するデータを記憶することによって「データストア」として機能することができる。このデータは、例えば、スポーツイベントなどのイベントを提示するビデオストリームに埋め込まれたカード画像に関連するカードデータ１５４、１人以上のユーザ１５０に関連するユーザデータ１５５、イベントの１つ以上のハイライトに関連するハイライトデータ１６４、および／またはカードデータ１５４からテキストを予測および／または抽出するために使用することができる分類モデル１６５を含んでもよいが、これらに限定されない。

カードデータ１５４は、ビデオストリームに埋め込まれたカード画像に関連する任意の情報、例えば、カード画像自体、文字画像などのそのサブセット、文字および文字列などのカード画像から抽出されたテキスト、ならびにテキストおよび／または意味の抽出に役立つ前述のいずれかの属性を含むことができる。ユーザデータ１５５は、例えば、人口統計学、購入行動、ビデオストリーム視聴行動、関心、および／または選好などを含む、１人以上のユーザ１５０を説明する任意の情報を含むことができる。ハイライトデータ１６４は、ハイライト、ハイライト識別子、時間指標、カテゴリ、興奮レベル、およびハイライトに関連する他のデータを含んでもよい。分類モデル１６５は、機械訓練された分類モデル、クエリ、クエリ特徴ベクトル、訓練セット直交ベース、予測されたクエリ、抽出されたテキストの意味、ならびに／またはカードデータ１５４からのテキストおよび／もしくは意味の抽出を容易にする他の情報を含んでもよい。カードデータ１５４、ユーザデータ１５５、ハイライトデータ１６４、および分類モデル１６５については、以降で詳細に説明する。

特に、システム１００の多くの構成要素は、計算デバイスであってもよく、またはそれを含んでもよい。このような計算デバイスは各々、上に示し、説明したように、クライアントデバイス１０６のアーキテクチャと同様のアーキテクチャを有してもよい。したがって、通信ネットワーク１０４、ウェブサーバ１０２、アプリケーションサーバ１１４、分析サーバ１１６、データプロバイダ１２２、コンテンツプロバイダ１２４、データサーバ１１８、および記憶デバイス１５３のいずれかは、クライアントデバイス１０６に関連して上述したように、入力デバイス１５１、表示スクリーン１５２、メモリ１５６、および／またはプロセッサ１５７を任意選択で有してもよい、１つ以上の計算デバイスを含んでもよい。

システム１００の例示的な動作では、クライアントデバイス１０６の１人以上のユーザ１５０は、コンテンツプロバイダ１２４からのコンテンツをビデオストリームの形態で視聴する。ビデオストリームは、スポーツイベントなどのイベントを示してもよい。ビデオストリームは、既知のコンピュータビジョン技術で容易に処理することができるデジタルビデオストリームであってもよい。

ビデオストリームが表示されると、クライアントデバイス１０６、ウェブサーバ１０２、アプリケーションサーバ１１４、および／または分析サーバ１１６などのシステム１００の１つ以上の構成要素が、ビデオストリームを分析し、ビデオストリーム内のハイライトを識別し、および／またはビデオストリームからメタデータを抽出してもよく、例えば、埋め込まれたカード画像および／またはビデオストリームの他の側面から抽出してもよい。この分析は、ビデオストリームのハイライトおよび／またはメタデータを識別するための要求の受信に応答して実行することができる。あるいは、別の実施形態では、ハイライトは、ユーザ１５０によって特定の要求がなされることなく識別することができる。さらに別の実施形態では、ビデオストリームの分析は、ビデオストリームが表示されることなく行うことができる。

少なくとも１つの実施形態では、ユーザ１５０は、クライアントデバイス１０６の入力デバイス１５１（複数可）を介して、ビデオストリームの分析のための特定のパラメータ（例えば、どのイベント／試合／チームを含めるか、ユーザ１５０がハイライトの視聴ために利用可能な時間どれくらい有しているか、どのようなメタデータが望まれているか、および／または任意の他のパラメータなど）を指定することができる。ユーザ選好はまた、必ずしもユーザ１５０が選好を指定する必要を伴わずにビデオストリームの分析をカスタマイズするために、１つ以上の記憶デバイス１５３に記憶されたユーザデータ１５５などからのように、ストレージから抽出することもできる。少なくとも１つの実施形態では、ユーザ選好は、例えば、ウェブサイトの訪問パターン、テレビを見るパターン、音楽を聴くパターン、オンライン購入、事前のハイライト識別パラメータ、ならびに／またはユーザ１５０によって実際に視聴されたハイライトおよび／もしくはメタデータなどを観察することによって、ユーザ１５０の観察された行動およびアクションに基づいて決定することができる。

追加的または代替的に、ユーザ選好は、ユーザ１５０によって明示的に提供された、事前に記憶された選好から取り出すことができる。このようなユーザ選好は、どのチーム、スポーツ、プレーヤー、および／またはイベントのタイプがユーザ１５０に対する関心を有しているかを示すことができ、および／またはそれらは、ハイライトに関連するどのタイプのメタデータまたは他の情報がユーザ１５０対する関心を有するであろうかを示すことができる。したがって、このような選好は、ビデオストリームの分析をガイドして、ハイライトを識別し、および／またはハイライトのためのメタデータを抽出するために使用することができる。

上述の１つ以上の計算デバイスを含み得る分析サーバ（複数可）１１６は、データプロバイダ（複数可）１２２からの１つ以上のイベントに関連する実況統計のライブおよび／または記録されたフィードを分析することができる。データプロバイダ（複数可）１２２の例としては、限定するものではないが、ＳＴＡＴＳＴＭ、Ｐｅｒｆｏｒｍ（英国、ロンドン、ＯｐｔａＳｐｏｒｔｓから入手可能）、およびスイス、ザンクトガレン、ＳｐｏｒｔＲａｄａｒなどのリアルタイムスポーツ情報のプロバイダが挙げられる。少なくとも１つの実施形態では、分析サーバ（複数可）１１６は、イベントに対して異なる興奮レベルのセットを生成する。このような興奮レベルは、次いで、本明細書に記載の技術に従って、システム１００によって識別されるハイライトと関連付けて記憶することができる。

アプリケーションサーバ（複数可）１１４は、ビデオストリームを分析して、ハイライトを識別し、および／またはメタデータを抽出することができる。追加的または代替的に、このような分析は、クライアントデバイス（複数可）１０６によって実行されてもよい。識別されたハイライトおよび／または抽出されたメタデータは、ユーザ１５０に固有であってもよく、このような場合、特定のユーザ１５０に関連するクライアントデバイス１０６内のハイライトを識別することが有利であり得る。クライアントデバイス１０６は、上述のように、ハイライト識別および／またはメタデータ抽出のための適用可能なユーザ選好を受信、保持、および／または取得してもよい。追加的または代替的に、ハイライト生成および／またはメタデータ抽出は、グローバルに（すなわち、特定のユーザ１５０の選好に関係なく、一般にユーザ集団に適用可能な客観的基準を使用して）実行されてもよい。このような場合、ハイライトを識別し、および／またはアプリケーションサーバ（複数可）１１４内のメタデータを抽出することが有利であり得る。

ハイライト識別および／またはメタデータ抽出を容易にするコンテンツは、ＹｏｕＴｕｂｅ（登録商標）、およびＭＬＢ．ｃｏｍなどのウェブサイト、スポーツデータプロバイダ、テレビ局、および／またはクライアントもしくはサーバベースのＤＶＲなどを含むコンテンツプロバイダ（複数可）１２４を含む任意の好適なソースから来てもよい。あるいは、コンテンツは、クライアントデバイス１０６に関連付けられた（または組み込まれた）ＤＶＲもしくは他の記録デバイスなどのローカルソースから来てもよい。少なくとも１つの実施形態では、アプリケーションサーバ（複数可）１１４は、ダウンロード、またはストリーミングコンテンツ、またはオンデマンドコンテンツ、または他の何らかの方法のいずれかとして、ユーザ１５０に利用可能なハイライトおよびメタデータを伴うカスタマイズされたハイライトショーを生成する。

上記のように、特定のユーザ１５０に関連付けられた特定のクライアントデバイス１０６において、ユーザ固有のハイライト識別および／またはメタデータ抽出が実行されることが有利であり得る。このような実施形態は、特にそのようなコンテンツがクライアントデバイス１０６においてすでに利用可能である場合、通信ネットワーク１０４を介して不必要に送信されるビデオコンテンツまたは他の高帯域幅コンテンツの必要性を回避することができる。

例えば、次に図１Ｂを参照すると、カードデータ１５４、ハイライトデータ１６４、および分類モデル１６５の少なくともいくつかがクライアントベースの記憶デバイス１５８に記憶されている一実施形態によるシステム１６０の例が示されており、記憶デバイス１５８は、クライアントデバイス１０６に利用可能な任意の形式のローカル記憶デバイスであってもよい。例としては、例えば、完全なスポーツイベントのビデオコンテンツなどのイベントを記録することができるＤＶＲが挙げられる。あるいは、クライアントベースの記憶デバイス１５８は、デジタル形式のデータのための任意の磁気的、光学的、または電子的記憶デバイスであり得る。例としては、フラッシュメモリ、磁気ハードドライブ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、またはクライアントデバイス１０６と統合された、もしくはクライアントデバイス１０６と通信可能に結合された他のデバイスが挙げられる。アプリケーションサーバ（複数可）１１４によって提供される情報に基づいて、クライアントデバイス１０６は、コンテンツプロバイダ１２４または他のリモートソースから他のコンテンツを取り出す必要を伴わずに、クライアントベースの記憶デバイス１５８に記憶されたカードデータ１５４からメタデータを抽出し、そのメタデータをハイライトデータ１６４として記憶してもよい。このような構成は、帯域幅を節約することができ、クライアントデバイス１０６にすでに利用可能であり得る既存のハードウェアを有効に活用することができる。

図１Ａに戻ると、少なくとも１つの実施形態では、アプリケーションサーバ（複数可）１１４は、個々のユーザ選好および／または他のパラメータに応じて、異なるハイライトを識別し、および／または異なるユーザ１５０に対して異なるメタデータを抽出することができる。識別されたハイライトおよび／または抽出されたメタデータは、クライアントデバイス１０６の表示スクリーン１５２などの任意の好適な出力デバイスを介してユーザ１５０に提示されてもよい。必要に応じて、複数のハイライトを識別し、関連するメタデータとともにハイライトショーにまとめることができる。このようなハイライトショーは、メニューを介してアクセスされ、および／または所定のシーケンスに従ってユーザ１５０のために再生される「ハイライトリール」またはハイライトのセットに組み立てられてもよい。ユーザ１５０は、少なくとも１つの実施形態では、例えば、以下の目的で、入力デバイス（複数可）１５１を介して、関連するメタデータのハイライト再生および／または配信を制御することができる。
・表示のための特定のハイライトおよび／またはメタデータを選択する。
・一時停止、巻き戻し、早送りを行う。
・次のハイライトにスキップする。
・ハイライトショー内の前のハイライトの最初に戻る。および／または
・その他のアクションを実施する。

このような機能に関する追加の詳細は、上記で引用した関連する米国特許出願に提供されている。

少なくとも１つの実施形態では、もう１つのデータサーバ（複数可）１１８が提供される。データサーバ（複数可）１１８は、例えば、カードデータ１５４、ユーザデータ１５５、ハイライトデータ１６４、および／または分類モデル１６５を取得または提供するために、サーバ（複数可）１０２、１１４、１１６のいずれかからのデータの要求に応答してもよい。少なくとも１つの実施形態では、このような情報は、データサーバ１１８によってアクセス可能な任意の好適な記憶デバイス１５３に記憶することができ、クライアントデバイス１０６自体、コンテンツプロバイダ（複数可）１２４、および／またはデータプロバイダ（複数可）１２２などの、任意の好適なソースから来ることができる。

ここで図１Ｃを参照すると、システム１８０がスタンドアロン環境で実装される代替の実施形態によるシステム１８０が示されている。図１Ｂに示された実施形態と同様に、カードデータ１５４、ユーザデータ１５５、ハイライトデータ１６４、および分類モデル１６５の少なくともいくつかは、ＤＶＲなどのクライアントベースの記憶デバイス１５８に記憶されてもよい。あるいは、クライアントベースの記憶デバイス１５８は、フラッシュメモリもしくはハードドライブ、またはクライアントデバイス１０６と統合された、もしくはクライアントデバイス１０６と通信可能に結合された他のデバイスであり得る。

ユーザデータ１５５は、ユーザ１５０の選好および関心を含んでもよい。このようなユーザデータ１５５に基づいて、システム１８０は、カードデータ１５４内のメタデータを抽出して、本明細書に記載の方法でユーザ１５０に提示することができる。追加的または代替的に、メタデータは、ユーザ１５０に固有の情報に基づかない客観的基準に基づいて抽出することができる。

ここで図１Ｄを参照すると、代替の実施形態によるアーキテクチャを有するシステム１９０の概要が示されている。図１Ｄでは、システム１９０は、コンテンツプロバイダ（複数可）１２４などの放送サービス、ＳＴＢを有するテレビセットなどのクライアントデバイス１０６の形態のコンテンツ受信機、テレビ番組コンテンツを取り込んでストリーミングすることができる分析サーバ（複数可）１１６などのビデオサーバ、ならびに／またはテレビ番組コンテンツを受信して処理することができるモバイルデバイスおよびラップトップなどの他のクライアントデバイス１０６を含み、これらはすべて通信ネットワーク１０４などのネットワークを介して接続されている。ＤＶＲなどのクライアントベースの記憶デバイス１５８は、クライアントデバイス１０６および／または他の構成要素のいずれかに接続することができ、ビデオストリーム、ハイライト、ハイライト識別子、ならびに／またはメタデータを記憶して、クライアントデバイス１０６のいずれかを介してハイライトおよび／もしくは抽出されたメタデータの識別および提示を容易にすることができる。

図１Ａ、図１Ｂ、図１Ｃ、および図１Ｄに描画された特定のハードウェアアーキテクチャは、単なる例示である。当業者は、本明細書に記載の技術が他のアーキテクチャを使用して実装できることを認識するであろう。本明細書に描かれている多くの構成要素は任意であり、省略され、他の構成要素と統合され、および／または他の構成要素と置き換えられてもよい。

少なくとも１つの実施形態では、システムは、スタンドアロンまたはクライアント／サーバアーキテクチャのいずれであろうと、任意の好適なコンピュータプログラミング言語で書かれたソフトウェアとして実装することができる。あるいは、それはハードウェアに実装および／または埋め込まれてもよい。

データ構造
図２は、一実施形態による、カードデータ１５４、ユーザデータ１５５、ハイライトデータ１６４、および分類モデル１６５に組み込むことができるデータ構造の例を描く概略ブロック図である。

示されるように、カードデータ１５４は、１つ以上のビデオストリームに埋め込まれた複数のカード画像の各々の記録を含んでもよい。カード画像の各々は、１つ以上の文字列２００を含んでもよい。文字列２００の各々は、ｎ文字の記録を有することができる。このような各記録は、文字画像２０２、処理された文字画像２０３、文字境界２０４、サイズ２０５、位置２０６、コントラスト比２０７、および／または解釈２０８を有してもよい。文字列２００の各々は、文字列２００の長さ（例えば、文字、またはピクセルなどの長さ）を示す列長さ２０９をさらに有してもよい。

文字画像２０２は、単一の文字を含むカード画像の特定の部分であってもよい。処理された文字画像２０３は、サイズ、および／または明るさなどの正規化などの１つ以上の処理ステップの適用後の文字画像２０２であってもよい。

文字境界２０４は、文字画像２０２、処理された文字画像２０３、ならびに／または文字画像２０２および処理された文字画像２０３で表される文字の境界を示してもよい。

サイズ２０５は、文字画像２０２、処理された文字画像２０３、ならびに／または文字画像２０２および処理された文字画像２０３で表される文字、例えば、ピクセルのサイズであってもよい。

位置２０６は、カード画像内の文字画像２０２、処理された文字画像２０３、ならびに／または文字画像２０２および処理された文字画像２０３で表される文字の位置であってもよい。いくつかの例では、位置２０６は、２次元の位置（例えば、文字画像２０２、処理された文字画像２０３、ならびに／または文字画像２０２および処理された文字画像２０３で表される文字の角または中心のｘ座標およびｙ座標）を示してもよい。

コントラスト比２０７は、文字画像２０２、処理された文字画像２０３、ならびに／または文字画像２０２および処理された文字画像２０３で表される文字のコントラストの指標であってもよい。いくつかの例では、コントラスト比２０７は、文字画像２０２、処理された文字画像２０３、ならびに／または文字画像２０２および処理された文字画像２０３で表される文字内の、１つ以上の最も明るいピクセルの輝度値の、１つ以上の最も暗いピクセルの輝度値に対する比であってもよい。

解釈２０８は、文字列２００を解釈するために何らかの分析が実施された後、文字画像２０２に表されると考えられる特定の文字、例えば、ａ、ｂ、ｃ、１、２、３、＃、＆などであってもよい。

図２に示されるカードデータ１５４の構造は、単なる例示であり、いくつかの実施形態では、ビデオストリームに埋め込まれたカード画像に関連するデータは、異なるように編成されてもよい。例えば、他の実施形態では、各文字列は、必ずしも個々の文字画像に分解されなくてもよい。むしろ、文字列は全体として解釈されてもよく、文字列の解釈に有用なデータは、文字列全体について記憶されてもよい。さらに、代替の実施形態では、具体的に上述されていないデータをカードデータ１５４に組み込むことができる。図２のユーザデータ１５５、ハイライトデータ１６４、および分類モデル１６５の構造も同様に単なる例示であり、当業者によって多くの代替案が構想され得る。

さらに示されるように、ユーザデータ１５５は、ユーザ１５０に関連する記録を含んでもよく、記録の各々は、特定のユーザ１５０の人口統計データ２１２、選好２１４、視聴履歴２１６、および購入履歴２１８を含んでもよい。

人口統計データ２１２は、年齢、性別、位置、国籍、宗教的所属、および／または教育レベルなどを含むがこれらに限定されない、任意のタイプの人口統計データを含んでもよい。

選好２１４は、ユーザ１５０が自身の選好に関して行った選択を含んでもよい。選好２１４は、ハイライトおよびメタデータの収集および／または表示に直接関連する場合もあれば、より一般的な性質の場合もある。いずれの場合も、選好２１４を使用して、ハイライトおよびメタデータの識別および／またはユーザ１５０への提示を容易にすることができる。

視聴履歴２１６は、テレビ番組、ビデオストリーム、ハイライト、ウェブページ、検索クエリ、スポーツイベント、および／またはユーザ１５０によって取り出され、および／または視聴された他のコンテンツをリストすることができる。

購入履歴２１８は、ユーザ１５０によって購入または要求された製品またはサービスをリストすることができる。

さらに示されるように、ハイライトデータ１６４は、ｊハイライト２２０の記録を含み得、その記録の各々は、特定のハイライト２２０のビデオストリーム２２２、識別子、および／またはメタデータ２２４を含み得る。

ビデオストリーム２２２は、ハイライト２２０を描くビデオを含んでもよく、これは、１つ以上のイベントの１つ以上のビデオストリームから取得されてもよい（例えば、ハイライト２２０に関連するビデオストリーム２２２のみを含むようにビデオストリームをトリミングすることによって）。識別子２２３は、ハイライト２２０が、それが取得されたイベントのビデオストリーム内のどこに存在するかを示す時間コードおよび／または他の指標を含んでもよい。

いくつかの実施形態では、ハイライト２２０の各々の記録は、ビデオストリーム２２２および識別子２２３のうちの１つのみを含んでもよい。ハイライト再生は、ユーザ１５０のビデオストリーム２２２を再生することによって、または識別子２２３を使用してハイライト２２０が取得されるイベントのビデオストリームのハイライトされた部分のみを再生することによって実行されてもよい。

メタデータ２２４は、ハイライト２２０に関する情報、例えば、イベントの日付、シーズン、およびハイライト２２０が取得されたイベントもしくはビデオストリームに関与したグループもしくは個人、例えば、チーム、選手、コーチ、アンカー、放送局、および／またはファンなどの情報を含んでもよい。他の情報の中で、各ハイライト２２０のメタデータ２２４は、時間２２５、フェーズ２２６、時計２２７、スコア２２８、および／またはフレーム番号２２９を含み得る。

時間２２５は、ハイライト２２０が取得されるビデオストリーム２２２内の時間、またはメタデータが利用可能であるハイライト２２０に関連するビデオストリーム２２２内の時間であってもよい。いくつかの例では、時間２２５は、メタデータ２２４を含むカード画像が表示される、ハイライト２２０に関連する、ビデオストリーム２２２内の再生時間であってもよい。

フェーズ２２６は、ハイライト２２０に関連するイベントのフェーズであってもよい。より具体的には、フェーズ２２６は、メタデータ２２４を含むカード画像が表示されるスポーツイベントの段階であってもよい。例えば、フェーズ２２６は、「第３のクォーター」、「第２のイニング」、または「ボトムハーフ」などであってもよい。

時計２２７は、ハイライト２２０に関連する試合時計であってもよい。より具体的には、時計２２７は、メタデータ２２４を含むカード画像が表示されるときの試合時計の状態であってもよい。例えば、時計２２７は、試合時計に１５分４７秒が表示されて表示されるカード画像の場合、「１５：４７」であってもよい。

スコア２２８は、ハイライト２２０に関連する試合スコアであってもよい。より具体的には、スコア２２８は、メタデータ２２４を含むカード画像が表示されるときのスコアであってもよい。例えば、スコア２２８は、「４５－３８」、「７－０」、または「３０－ラブ」などであってもよい。

フレーム番号２２９は、ハイライト２２０が取得されるビデオストリーム内のビデオフレームの番号、またはハイライト２２０に関連するビデオストリーム２２２の中で、ハイライト２２０に最も直接的に関連するビデオフレームの番号であってもよい。より具体的には、フレーム番号２２９は、メタデータ２２４を含むカード画像が表示される、そのようなビデオフレームの番号であってもよい。

さらに示されるように、分類モデル１６５は、文字列２００の抽出および解釈を容易にする様々な情報を含んでもよい。分類モデル１６５は、次に、ハイライト２２０のためのメタデータ２２４の自動生成を可能にしてもよい。具体的には、分類モデル１６５は、クエリ２３０、クエリ特徴ベクトル２３２、直交基底２３４、予測されたクエリ２３６、および／またはテキストの意味２３８を含んでもよい。

クエリ２３０、クエリ特徴ベクトル２３２、直交基底２３４、および予測されたクエリ２３６の動作は、本明細書でより詳細に記載されている。テキストの意味２３８は、メタデータ２２４に容易にコピーすることができる方法でレンダリングされた文字列２００の解釈であってもよい。

図２に記載されているデータ構造は単なる例示である。当業者は、ハイライト識別および／またはメタデータ抽出の実施において、図２のデータのいくつかを省略するか、または他のデータで置き換えることができることを認識するであろう。追加的または代替的に、図２に示されていないデータは、ハイライト識別および／またはメタデータ抽出の実施に使用され得る。

カード画像
次に図３を参照すると、スポーツイベントのテレビ番組に頻繁に出現するように、カード画像の形で情報が埋め込まれたビデオストリームからのビデオフレーム３００の例のスクリーンショット図が示されている。図３は、ビデオフレーム３００の右下にあるカード画像３１０、およびビデオフレーム３００の下部に沿って延びる第２のカード画像３２０を描いている。カード画像３１０、３２０は、試合フェーズ、現在の時計、および現在のスコアなどの埋め込まれた情報を含んでもよい。

少なくとも１つの実施形態では、カード画像３１０、３２０内の情報は、カード画像３１０、３２０内の埋め込まれたテキストの自動認識および解釈のために位置特定および処理される。次に、解釈されたテキストは、スポーツイベントのタイムライン内の特定の時点でのスポーツ試合のステータスを説明するテキストメタデータに組み立てられてもよい。

特に、カード画像３１０は、現在示されているスポーツイベントに関係してもよいが、第２のカード画像３２０は、異なるスポーツイベントに関する情報を含んでもよい。いくつかの実施形態では、現在再生中のスポーツイベントに関連するとみなされる情報を含むカード画像のみが、メタデータ生成のために処理される。したがって、範囲を制限することなく、以下の例示的な説明は、カード画像３１０のみが処理されることを想定している。しかしながら、代替の実施形態では、他のスポーツイベントに関連するカード画像を含めても、所与のビデオフレーム３００内の複数のカード画像を処理することが望ましい場合がある。

図３に示されるように、カード画像３１０は、チーム名３３０、スコア３４０、先行のチームパフォーマンス３５０、現在の試合段階３６０、試合時計３７０、プレーステータス３８０、および／または他の情報３９０を含む、いくつかの異なるタイプのメタデータ２２４を提供することができる。これらの各々は、カード画像３１０内から抽出され、ビデオフレーム３００を含むハイライト２２０、より具体的には、カード画像３１０が表示されるビデオフレーム３００に対応するメタデータ２２４を提供するように解釈されてもよい。

メタデータ抽出
図４は、一実施形態による、例えば、クライアントデバイス１０６、および／または分析サーバ１１６のうちの１つで実行されるアプリケーションによって実行される方法４００を描くフローチャートであり、方法４００は、カード画像３１０のなどのカード画像からメタデータを抽出するために、ビデオストリーム２２２を受信し、ビデオフレーム３００のオンザフライ処理を実施する。図１Ａのシステム１００は、方法４００およびそれに続くシステムを実行するシステムとして参照される。しかしながら、図１Ｂのシステム１６０、図１Ｃのシステム１８０、および／または図１Ｄのシステム１９０を含むがこれらに限定されない代替のシステムを、図１Ａのシステム１００の代わりに使用することができる。

図４の方法４００は、上で概説されたプロセスをより詳細に描いている。事前に識別されたハイライト２２０に対応するビデオストリーム２２２などのビデオストリームは、受信およびデコードされてもよい。ステップ４１０では、ビデオストリーム２２２の１つ以上のビデオフレーム３００が受信され、標準サイズにサイズ変更され、そしてデコードされてもよい。ステップ４２０では、ビデオフレーム３００を処理して、ビデオフレーム３００から、図３のカード画像３１０などの１つ以上のカード画像を検出し、該当する場合はそれを抽出することができる。クエリ４３０に従って、ビデオフレーム３００に有効なカード画像３１０が見つからない場合、方法４００は、ステップ４１０に戻って、異なるビデオフレーム３００をデコードおよび分析することができる。

有効なカード画像３１０が見つかった場合、ステップ４４０では、ビデオフレーム３００をさらに処理して、検出されたカード画像３１０を位置特定、抽出、および処理し、カード画像３１０に埋め込まれたテキストボックスおよび／または文字の列を抽出および処理することができる。クエリ４５０に従って、カード画像３１０に有効な文字列２００が見つからない場合、方法４００は、ステップ４１０に戻って、新しいビデオフレーム３００を処理することができる。

有効な文字列２００がカード画像３１０に見つかった場合、方法４００はステップ４６０に進むことができ、そこで抽出された文字列（複数可）２００が認識および解釈され、対応するメタデータ２２４がカード画像３１０からの情報の解釈に基づいて生成される。様々な実施形態では、テキスト解釈のための利用可能な選択は、ビデオフレーム３００で検出されたカード画像３１０のカード画像のタイプを決定すること、および／またはビデオフレーム３００で３１０が検出されたカード画像に適用可能な特定のタイプのカード画像内に存在する検出されたフィールドの事前知識に基づく。

以前に示されたように、テレビ番組コンテンツに存在するカード画像の埋め込まれたテキストの検出、位置特定、および解釈は、テレビ上、ＳＴＢ上、またはモバイルデバイス上で完全にローカルで行われてもよい。あるいは、放送ビデオの取り込みおよびストリーミング機能を備えたリモートビデオサーバでリモートで行われてもよい。あるいは、ローカル処理とリモート処理との任意の組み合わせを使用することができる。

情報カードの文字列処理：位置特定と抽出
「極値領域」（ＥＲ）は、外側の境界ピクセルが領域自体よりも厳密に高い値を有する画像領域である（例：Ｎｅｕｍａｎｎ，Ｊ．Ｍａｔａｓ，“Ｒｅａｌ－ＴｉｍｅＳｃｅｎｅＴｅｘｔＬｏｃａｌｉｚａｔｉｏｎａｎｄＲｅｃｏｇｎｉｔｉｏｎ”，５ｔｈＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，Ｐｒｏｖｉｄｅｎｃｅ，ＲＩ，Ｊｕｎｅ２０１２）。画像内のＥＲ検出に使用される周知の方法のうちの１つは、いわゆる最大安定ＥＲ検出器またはＭＳＥＲ検出器を使用する。追加の検出方法により、計算の複雑さを比較的低く抑えながら、より広い範囲のＥＲの検査が可能になる。より広い範囲のＥＲが検査に含まれる場合、文字領域に関連する特定の機能に基づく逐次分類器を導入することができる。この分類器は、文字が存在する確率を生成するように事前に訓練することができ、その結果、文字の複数の想定される検出された境界（すなわち、文字境界２０４）がもたらされる。ＥＲ分類の最初の段階では、文字が存在する確率が推定され、第２の段階では、局所的に最大の確率を有するＥＲが選択される。分類は、いくつかのより計算量の多い機能を使用することによって、さらに改善することができる。さらに、少なくとも１つの実施形態では、文字の組み合わせを検出し、ＥＲを単語にグループ化するために、反復的で網羅的な検索が適用される。このような方法はまた、文字検出を改善するために、領域エッジをＥＲの考慮事項に含めることもできる。最終結果は、文字境界２０４を表す最も高い確率で選択されたＥＲである。

上述の文字検出器は同じ文字に対して複数の領域を生成するため、次のステップは検出された領域に曖昧性解消を行うことである。少なくとも１つの実施形態では、この曖昧性解消は、検出された文字境界２０４の多重比較を実施し、その後、互いに近づきすぎて出現する文字境界ボックスの形態であり得る文字境界２０４をパージすることを含む。結果として、１つの文字境界ボックスのみが特定の周囲内で受け入れられ、したがって、カード画像３１０の適切なテキストフィールドを表す文字列２００の正しい形成を可能にする。

図５は、上で概説したプロセスをより詳細に実行するための方法５００を描くフローチャートである。ビデオフレーム３００が処理のために選択されるか、またはオプションが選択されて、各ビデオフレーム３００を連続して処理する。ステップ５１０において、ビデオフレーム３００内のカード画像３１０が検出された場合、それが抽出され、標準化されたサイズにサイズ変更される。次に、ステップ５２０において、サイズ変更されたカード画像は、例えば、コントラスト増加、ノイズ低減のための両側および中央フィルタリング、ガンマ補正、ならびに／または照明補償を含む一連のフィルタによって前処理される。

ステップ５３０において、２段階分類器を備えたＥＲフィルタが作成され、ステップ５４０において、このカスケード分類器は、カード画像３１０の各画像チャネルに適用される。文字グループが検出され、さらなる処理のために１つ以上の単語ボックスのグループが抽出される。ステップ５５０において、個々の文字境界２０４を有する文字列２００が、文字境界の曖昧性解消のために分析される。最後に、クリーンな文字列２００が生成され、文字の位置２０６の周囲の各々内で１つの文字のみが受け入れられる。

図６は、文字境界２０４の検証のためのさらなる処理の方法６００を描くフローチャートである。方法６００は、ステップ６１０において、文字列２００の抽出、重複文字の除去、および文字列２００の最終処理および受け入れから開始することができる。描画されるように、曖昧性解消が行われた文字の列内の各文字は、文字画像検証のためにさらに処理することができる。

したがって、ステップ６２０において、各文字画像２０２（または処理された文字画像２０３）の低強度および高強度の領域において、低強度および高強度のピクセルカウントの間の所定のコントラスト比と比較するために、ピクセルカウントの比を取得することができる。ステップ６２０において、各文字画像２０２または処理された文字画像２０３について、高強度および低強度レベルのピクセルがグループ化およびカウントされる。

次に、ステップ６３０において、これらの２つのカウントの比が計算され、閾値化が施され、その結果、十分に高いコントラスト比を有する文字画像２０２または処理された文字画像２０３のみが保持される。その後、ステップ６４０において、検証された文字の位置境界ボックス座標（すなわち、位置２０６）が記録され、文字列２００の解釈でさらに使用するために保存される。

代替の実施形態では、上述の文字境界ボックス検証は、文字境界の曖昧性解消に先行してもよく、または検証は、最終的な文字検証のために文字境界の曖昧性解消と組み合わせて使用されてもよい。

クエリの抽出および認識のための情報カード処理
少なくとも１つの実施形態では、以下のステップを含む自動化プロセスが実施される。ハイライト２２０に関連するビデオストリーム２２２などのデジタルビデオストリームを受信する。カード画像３１０の存在についてデジタルビデオストリームの１つ以上のビデオフレーム３００を分析する。カード画像３１０を抽出する。カード画像３１０内の文字列２００の文字の文字境界２０４を位置特定する。テキストボックス内にあるテキストを抽出して、文字のクエリ列を作成する。

図７は、一実施形態による情報カードクエリ生成の方法７００を描くフローチャートである。ステップ７１０において、カード画像３１０は、デコードされたビデオフレーム３００から抽出される。ステップ７２０において、カード画像３１０は、上述のように文字列２００を識別および抽出するために処理される。ステップ７３０において、文字画像２０２がカード画像３１０から抽出され、正規化されたクエリ画像（例えば、クエリ２３０）が生成される。ステップ７４０において、クエリインフラストラクチャは、正規化されたクエリ文字画像（クエリ特徴ベクトル２３２）で入力される。

別の実施形態では、クエリ予測は、最初にクエリ特徴ベクトルを事前に開発された訓練セット直交基底（例えば、直交基底２３４）に射影し、次に、その結果として得られた射影されたクエリ特徴ベクトルを、分類モデル１６５などの機械学習された分類モデルに適用することによって生成される。予測された英数字文字の列は、事前に確立された分類ラベルに従って生成されてもよく、この予測された英数字列は、テキストの意味２３８を最的な抽出のために解釈プロセスに渡されてもよい。

図８は、クエリ英数字列生成およびクエリ解釈および理解につながる、クエリ認識のための処理ステップを含む方法８００を描くフローチャートである。ステップ８１０において、直交基底２３４の直交基底ベクトルが、訓練セットベクトル空間にまたがってロードされる。ステップ８２０において、正規化されたクエリは、直交基底２３４に射影されてもよい。ステップ８３０において、事前に開発されたような分類モデル１６５がロードされてもよい。分類モデル１６５は、射影されたクエリに適用されてもよい。最後に、ステップ８４０において、予測された英数字文字の列が生成されてもよく、その後、解釈および意味抽出のために使用されて、テキストの意味２３８を生成する。

クエリの解釈および意味の抽出
少なくとも１つの実施形態では、カード画像３１０内に存在する１つ以上の文字列２００が識別される。後続のステップは、識別された文字列２００における各文字画像２０２の位置特定、サイズ決定、および抽出を含んでもよい。検出および抽出された文字画像２０２は、クエリ特徴ベクトル２３２に変換され、訓練セット直交基底２３４に射影される。その後、射影されたクエリが分類モデル１６５に対して適用されて、予測された英数字文字の列を作り出す。

少なくとも１つの実施形態では、予測されたクエリ英数字文字は、多数のカード画像３１０に存在する文字の事前の知識および位置的理解を適用する解釈プロセスに送られる。次に、特定の文字列２００に位置付けられた、各予測された英数字文字に対して意味が導出され、抽出された情報は、ハイライト２２０に関連付けて記憶されたメタデータ２２４に付加される。

図９は、一実施形態による予測されたクエリ列解釈のための方法９００をより詳細に描くフローチャートである。方法９００は、文字列長さ、文字ボックスの位置および水平距離、ならびに意味抽出のための英数字読み取り値の考慮を組み合わせることを含む。

方法９００は、文字列２００について各処理されたクエリの文字カウントが、文字列２００内の文字のサイズ２０５および位置２０６とともにロードされるステップ９１０から開始する。処理される抽出されたクエリ２３０に関連付けられたビデオフレーム番号および／または時間はまた、絶対時間に関連する参照のために利用可能にされてもよい。ステップ９２０において、列長さ２０９、文字のサイズ２０５、および／または文字の位置２０６は、分析において考慮されてもよい。

次に、ステップ９３０において、システム１００は、文字列２００を進め、文字列２００は、文字のフィールド位置の知識、ならびに文字の英数字値の知識を適用することによって解釈されてもよい。ステップ９３０において、特定のカード画像３１０の知識および理解はまた、欠落している可能性のある前部文字を補償するために使用することもできる。最後に、ステップ９４０において、導出された意味が記録され（例えば、テキストの意味２３８）、対応するメタデータ２２４が形成され、現在のスポーツイベントテレビ番組および処理された埋め込まれたカード画像３１０に関連付けられた現在のタイムラインに関連するリアルタイム情報を提供する。

埋め込まれた情報カードから抽出されたクエリ文字の認識への適用を伴う機械学習された分類モデルの生成
少なくとも１つの実施形態では、分類モデルの生成は、畳み込みニューラルネットワークを使用して実施される。一般に、ニューラルネットワークは、文字ベクトルの訓練セットに適用される教師あり学習プロセスを通じて、既知の（望ましい）分類結果を使用して情報分類機能を開発する。訓練プロセス中に、ニューラルネットワークのアルゴリズム構造は、その重みおよびバイアスを調整して正確な分類を実施する。訓練プロセス中にニューラルネットワークの内部の重みおよびバイアスを学習するために使用される既知のアーキテクチャの一例は、バックプロパゲーションニューラルネットワークアーキテクチャ、またはフィードフォワードバックプロパゲーションニューラルネットワークアーキテクチャである。このようなネットワークに訓練データのセットが提示されると、バックプロパゲーションアルゴリズムが実際の出力と目的の出力との差を計算し、エラーをフィードバックして、エラー生成の原因となる内部ネットワークの重みおよびバイアスを修正する。分類／推論フェーズにおいて、まずニューラルネットワーク構造に事前に学習したモデルパラメータ、重み、バイアスをロードし、その後、ネットワークを通じてクエリをフィードフォワードし、その結果、ネットワーク出力にクエリの予測を表す１つ以上の識別されたラベル（複数可）が出力される。

分類モデル生成のための別の例示的なシステムでは、マルチクラスＳＶＭが使用される。このようなＳＶＭ分類システムは、様々なネットワークアーキテクチャを構築するためにヒューリスティックに大きく依存するニューラルネットワーク学習システムなどの同等のアプローチとは根本的に異なり、訓練プロセスは常にグローバルな最小値で終わるとは限らない。対照的に、ＳＶＭは数学的に非常に明確に定義されており、グローバルな最小値を一貫して見つける訓練プロセスを有している。さらに、ＳＶＭを使用すると、訓練プロセスおよび分類目標の比較的単純で明確な幾何学的解釈があり、これにより分類モデル生成のプロセスに対する直感的な洞察が向上する。ＳＶＭは、線形的に分離できないデータセットの分類に効率的に利用でき、マルチラベル分類タスクに拡張できる。線形的に分離できないデータセットの分類のためのＳＶＭは、元のデータセットが線形的に分離できるようになる高次元のベクトル空間にデータセットを射影するのに役立つカーネル関数の選択によって特徴付けられる。ただし、カーネル関数の選択は重要であり、ある程度のヒューリスティックとデータ依存性を含む。

少なくとも１つの実施形態では、文字分類モデル生成は、スポーツイベントのテレビ番組コンテンツに埋め込まれた１つ以上の例示的なカード画像３１０から抽出された文字の訓練セットに基づく。文字境界２０４が検出され、文字が多数のカード画像３１０から抽出される。このような文字境界２０４は、処理された文字画像２０３を提供するために、その後、標準サイズおよび照明に正規化され得る小さな文字画像２０２を含む。特徴ベクトル（またはクエリ特徴ベクトル２３２）は、文字画像２０２および／または処理された文字画像２０３に対して形成され、これらの特徴ベクトルは、次に、埋め込まれたカード画像３１０に出現する文字画像のセットからの各特定の文字に関連付けられる。

文字画像特徴形成への構造的アプローチでは、文字特徴ベクトル、またはクエリ特徴ベクトル２３２は、前処理された文字画像２０２から抽出されたｎピクセルのセットに関連付けられる。これらのｎピクセルは、訓練ベクトルのｎ次元特徴ベクトル空間内の単一の点を表すｎ次元ベクトルにフォーマットされる。特徴選択の主な目標は、異なるクラスの文字画像２０２を正しく分離する決定境界を特徴空間に構築することである。したがって、少なくとも１つの実施形態では、訓練ベクトルを表す、抽出された文字画像のセット２０２は、訓練ベクトルの一意性および相互メトリック距離を増加させるため、ならびに訓練ベクトルの全体的なベクトル空間の次元数を減少させるためにさらに処理される。

上記の考慮事項に従って、別の実施形態では、主成分分析（ＰＣＡ）が訓練ベクトルセットに対して実施される。したがって、直交基底２３４の直交基底ベクトルは、直交基底ベクトルが訓練ベクトル空間にまたがるように、訓練セットから導出される。さらに、（基底ベクトルの行列の特異値分解によって生成された）特異値の最大セットに関連付けられた最も重要な直交ベクトルのみが保持されるように、訓練ベクトル空間の次元数は、限られた数の直交基底ベクトルを選択することによって減少される。選択された訓練セット基底ベクトルは、ＳＶＭ分類器またはＣＮＮ分類器などの、データセット分類に利用可能なアルゴリズム構造のうちの１つ以上を使用して分類モデル生成に後で使用するために保存される。

様々な実施形態において、本明細書に記載のシステムおよび方法は、カード画像３１０に埋め込まれた文字列２００から個々の文字画像２０２を抽出し、その後、文字画像２０２を利用してクエリ特徴ベクトル２３２を生成するための技術を提供する。次の処理ステップでは、これらのクエリ特徴ベクトルは、訓練ベクトル空間にまたがる直交基底２３４に射影されて、射影されたクエリが生成される。射影されたクエリは、その後、例示的なＳＶＭ（またはＣＮＮ）分類器によって作り出された事前訓練された分類モデルの出力として、クエリ予測または予測されたクエリ２３６を生成するために適用される。これらの予測されたクエリ２３６は、予測された文字の列を形成し、これはその後、テキストの意味２３８を生成するために解釈されて、最終的に、カード画像３１０から直接読み取られるリアルタイム情報で強化されたハイライト２２０のメタデータ２２４を生成するために使用される。

図１０は、分類モデル生成の方法１０００をより詳細に描くフローチャートである。少なくとも１つの実施形態では、方法１０００は、文字画像２０２の例示的な訓練セットが多数の例示的なカード画像タイプから抽出されるステップ１０１０で開始する。文字画像２０２は、標準サイズおよび照明に正規化されて、処理された文字画像２０３を形成する。特徴ベクトルが導出され、ラベル付き訓練セットが生成される。少なくとも１つの実施形態では、ステップ１０２０において、ＰＣＡ分析は、訓練ベクトル空間にまたがる直交基底２３４を計算することによって訓練セットに対して実施される。ステップ１０３０において、直交訓練ベクトルのサブセットが選択される。選択された訓練セット基底ベクトルは、ステップ１０４０でのクエリ処理のために保存されてもよい。ステップ１０５０において、分類モデル１６５は、直交訓練ベクトルのサブセットで訓練されてもよい。分類モデルおよび直交基底ベクトルは、ステップ１０６０において、将来の予測されたクエリ２３６の生成のために保存されてもよい。

図１１は、カードの画像３１０内のテキストフィールドを読み取って解釈し、フレーム内リアルタイム情報でハイライト２２０のメタデータ２２４を更新する全体的な方法１１００を描くフローチャートである。ステップ１１１０において、処理されるフィールドは、カード画像３１０に存在する文字の文字境界２０４から選択される。ステップ１１２０において、文字のグループが行フィールドから抽出され、テキスト列が認識され、上述のように解釈される。最後に、ステップ１１３０において、デコードされたビデオフレーム境界で実施されるカード画像の読み取りは、ハイライト２２０のために生成されたメタデータ２２４に埋め込まれる。

本システムおよび方法は、想定される実施形態に関して特に詳細に説明されてきた。当業者は、システムおよび方法が他の実施形態で実施され得ることを理解するであろう。まず、構成要素の特定の命名、用語の大文字の使用、属性、データ構造、また任意の他のプログラミングもしくは構造の側面は必須でも重要でもなく、機構および／または機能は、名前、フォーマット、プロトコルが異なっていてもよい。さらに、システムは、ハードウェアとソフトウェアとの組み合わせを介して、または完全にハードウェア要素内に、または完全にソフトウェア要素内に実装されてもよい。また、本明細書に記載の様々なシステム構成要素間の機能の特定の分割は、単なる例示であり、必須ではない。単一のシステム構成要素によって実施される機能は、代わりに複数の構成要素によって実施されてもよく、複数の構成要素によって実施される機能は、代わりに単一の構成要素によって実施されてもよい。

本明細書における「一実施形態」または「実施形態」への言及は、実施形態に関連して説明される特定の特徴、構造、または特性が、少なくとも１つの実施形態に含まれることを意味する。本明細書の様々な場所における「一実施形態において」または「少なくとも１つの実施形態において」という句の出現は、必ずしもすべてが同じ実施形態を指すとは限らない。

様々な実施形態は、単独でまたは任意の組み合わせのいずれかで、上述の技術を実施するための任意の数のシステムおよび／または方法を含んでもよい。別の実施形態は、計算デバイスまたは他の電子デバイス内のプロセッサに上述の技術を実施させるための、非一時的なコンピュータ可読記憶媒体、およびその媒体に符号化されたコンピュータプログラムコードを含むコンピュータプログラム製品を含む。

上記のいくつかの部分は、計算デバイスのメモリ内のデータビットに対する操作のアルゴリズムおよび記号表現の観点から提示されている。これらのアルゴリズムの記述および表現は、データ処理技術の当業者が、その作業の本質を最も効果的に他の当業者に伝えるために使用される手段である。アルゴリズムはここでは、一般に、望ましい結果につながる自己矛盾のない一連のステップ（指示）であると考えられている。ステップは、物理量の物理的な操作を必要とするステップである。通常、必ずしもそうとは限らないが、これらの量は、記憶、転送、結合、比較、およびその他の方法で操作できる電気信号、磁気信号、または光信号の形をとる。主に一般的な使用法の理由から、これらの信号をビット、値、要素、記号、文字、用語、または数値などと呼ぶと便利な場合がある。さらに、一般性を失うことなく、物理量の物理的操作を必要とするステップの特定の配置をモジュールまたはコードデバイスとして参照することも便利な場合がある。

ただし、これらおよび類似の用語はすべて、適切な物理量に関連付けられており、これらの量に適用される便利なラベルにすぎないことを念頭に置くべきである。特に別段の記載がない限り、以下の説明から明らかなように、本明細書全体を通して、「処理」または「計算（ｃｏｍｐｕｔｉｎｇ）」または「計算（ｃａｌｃｕｌａｔｉｎｇ）」または「表示」または「決定」などの用語を利用した説明は、コンピュータシステム、または類似の電子計算モジュールおよび／またはデバイスの動作およびプロセスを指し、コンピュータシステムのメモリもしくはレジスタまたは他のそのようなストレージ、送信デバイス、または表示デバイス内で物理的（電子的）量として表されるデータを操作および変換することを意味することが理解されよう。

特定の態様は、アルゴリズムの形態で本明細書に記載されているプロセスステップおよび命令を含む。プロセスステップおよび命令は、ソフトウェア、ファームウェア、および／またはハードウェアで具体化することができ、ソフトウェアで具体化する場合、様々なオペレーティングシステムによって使用される様々なプラットフォーム上に存在するようにダウンロードすることができ、また、様々なプラットフォームから操作できることに留意されたい。

本文書はまた、本明細書の動作を実施するための装置にも関する。この装置は、必要な目的のために特別に構築され得るか、または計算デバイスに記憶されたコンピュータプログラムによって選択的にアクティブ化または再構成される汎用計算デバイスを含み得る。そのようなコンピュータプログラムは、フロッピーディスク、光ディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、磁気光学ディスク、リードオンリーメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、ソリッドステートドライブ、磁気カードもしくは光学カード、特定用途向け集積回路（ＡＳＩＣ）、または電子命令の記憶に適した、各々がコンピュータシステムバスに結合されている、あらゆるタイプの媒体などのコンピュータ可読記憶媒体に記憶されてもよい。プログラムおよびその関連するデータはまた、例えば、サーバ上など、リモートでホストされ、実行されてもよい。さらに、本明細書で言及される計算デバイスは、単一のプロセッサを含み得るか、または計算能力を高めるために複数のプロセッサ設計を採用するアーキテクチャであり得る。

本明細書に提示されるアルゴリズムおよび表示は、特定の計算デバイス、仮想化システム、または他の装置に本質的に関連していない。様々な汎用システムもまた、本明細書の教示に従ったプログラムとともにも使用され得るか、または必要な方法ステップを実施するためのより特殊な装置を構築することが便利であることが証明され得る。これらの様々なシステムに必要な構造は、ここで提供される説明から明らかになるであろう。さらに、システムおよび方法は、いかなる特定のプログラミング言語も参照して説明されていない。本明細書に記載の教示を実施するために様々なプログラミング言語を使用することができ、特定の言語への上記のあらゆる参照は、有効化および最良のモードの開示のために提供されることが理解されよう。

したがって、様々な実施形態は、コンピュータシステム、計算デバイス、もしくは他の電子デバイスを制御するためのソフトウェア、ハードウェア、および／または他の要素、あるいはこれらの任意の組み合わせまたは複数の要素を含む。このような電子デバイスは、例えば、プロセッサ、キーボード、マウス、タッチパッド、トラックパッド、ジョイスティック、トラックボール、マイク、および／もしくはこれらの任意の組み合わせなどの入力デバイス、スクリーン、および／もしくはスピーカなどの出力デバイス、メモリ、磁気記憶装置、および／もしくは光記憶装置などの長期記憶装置、ならびに／またはネットワーク接続性を含んでもよい。このような電子デバイスは、携帯型または非携帯型であってもよい。説明したシステムおよび方法を実装するために使用できる電子デバイスの例としては、デスクトップコンピュータ、ラップトップコンピュータ、テレビ、スマートフォン、タブレット、音楽プレーヤー、音声デバイス、キオスク、セットトップボックス、ゲームシステム、ウェアラブルデバイス、家庭用電子デバイス、および／またはサーバコンピュータなどが挙げられる。電子デバイスは、例えば、Ｌｉｎｕｘ（登録商標）、ワシントン州レドモンド、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎから入手可能なＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ、カリフォルニア州クパチーノ、ＡｐｐｌｅＩｎｃ．から入手可能なＭａｃＯＳＸ、カリフォルニア州クパチーノのＡｐｐｌｅＩｎｃ．から入手可能なｉＯＳ、カリフォルニア州マウンテンビュー、ＧｏｏｇｌｅＩｎｃ．から入手可能なＡｎｄｒｏｉｄ、および／またはデバイス上での使用に適応された任意の他のオペレーティングシステムなどの任意のオペレーティングシステムを使用することができるが、これらに限定されない。

限られた数の実施形態が本明細書で説明されてきたが、上記の説明の利点を有する当業者は、他の実施形態が考案され得ることを理解するであろう。さらに、本明細書で使用される言語は、主に読みやすさおよび教育目的のために選択されており、主題を描画または制限するために選択されていない可能性があることに留意されたい。したがって、本開示は、範囲を例示することを意図しているが、限定することを意図していない。

Claims

ビデオストリームからメタデータを抽出するための方法であって、前記方法が、
プロセッサにおいて、ビデオストリームの少なくとも１つの部分を受信することと、
前記プロセッサにおいて、前記ビデオストリームの前記部分の１つ以上のビデオフレームに埋め込まれた１つ以上のカード画像を識別することと、
前記プロセッサにおいて、前記１つ以上のカード画像を処理してテキストを抽出することと、
前記プロセッサにおいて、前記テキストを解釈してメタデータを取得することと、
データストアにおいて、前記ビデオストリームの前記部分に関連付けて前記メタデータを記憶することと、を含む、方法。
前記データストアにおいて、前記ビデオストリームの前記受信された部分を記憶することをさらに含む、請求項１に記載の方法。
前記ビデオストリームが、スポーツイベントのテレビ放送を含み、
前記ビデオストリームの前記部分が、１人以上のユーザに対する特定の関心を有するとみなされるハイライトを含み、
前記メタデータが、前記ハイライトを記述している、請求項１に記載の方法。
出力デバイスにおいて、前記１つ以上のカード画像を識別すること、前記１つ以上のカード画像を処理すること、および前記テキストを解釈することのうちの少なくとも１つと同時に、前記ビデオストリームを出力することをさらに含む、請求項３に記載の方法。
出力デバイスにおいて、前記ハイライトを出力することと、
前記ハイライトの出力と同時に、前記メタデータを出力することと、をさらに含み、
前記メタデータが、
前記ハイライトに関連するリアルタイム情報、および
前記メタデータが取得された前記カード画像のタイムラインからなる群から選択された少なくとも１つを含む、請求項３に記載の方法。
前記テキストを抽出することが、
前記１つ以上のカード画像内の１つ以上の文字列を識別することと、
前記１つ以上の文字列の各文字に対応する前記１つ以上のカード画像を有するカード画像の文字画像の位置および／またはサイズを記録することと、を含む、請求項１に記載の方法。
前記テキストを抽出することが、
検出された文字境界の多重比較を実施することによって、前記１つ以上の文字列の文字の文字境界に曖昧性解消を行うことと、
互いに近づきすぎて出現する任意の文字境界をパージすることと、をさらに含む、請求項６に記載の方法。
前記テキストを抽出することが、低強度ピクセルカウントと高強度ピクセルカウントとの間のコントラスト比を確立することによって、１つ以上の文字列の文字に対して画像検証を実施することをさらに含む、請求項６に記載の方法。
前記テキストを解釈することが、
前記テキストに基づいてクエリを生成することと、
複数のｎ次元クエリ特徴ベクトルを生成することと、
前記ｎ次元クエリ特徴ベクトルを訓練セット直交基底に射影することと、
前記射影されたｎ次元クエリ特徴ベクトルを分類モデルに適用して、少なくとも１つの予測されたクエリを作り出すことと、
前記少なくとも１つの予測されたクエリから前記テキスト意味を抽出することと、を含む、請求項１に記載の方法。
複数の訓練セット特徴ベクトルを生成することと、
前記訓練セット特徴ベクトルを使用して、前記訓練セット直交基底を導出することと、をさらに含む、請求項９に記載の方法。
複数の訓練セット特徴ベクトルを生成することと、
前記訓練セット特徴ベクトルを使用して、前記分類モデルを生成することと、をさらに含む、請求項９に記載の方法。
前記テキストを解釈することが、
前記テキスト内の１つ以上の文字列の列長さ、
前記テキスト内の文字境界および／または文字の位置、
前記テキスト内の文字境界および／または文字の水平位置からなる群からの少なくとも２つの選択を使用することをさらに含む、請求項９に記載の方法。
前記ビデオストリームの前記部分に関連付けて前記メタデータを記憶することが、クエリに関連付けられた、前記１つ以上のビデオフレームのビデオフレーム番号を記憶することを含む、請求項９に記載の方法。
前記テキストを解釈することが、
前記テキストの１つ以上の文字列の文字のフィールド位置を確認することと、
前記文字の英数字値を確認することと、
前記フィールド位置および英数字値を使用して、前記１つ以上の文字列を順次解釈することと、を含む、請求項１に記載の方法。
前記テキストを解釈することが、
前記カード画像の各々の１つ以上のカードフィールドに関する位置情報およびその他の情報を取得することと、
前記位置情報およびその他の情報を使用して、前記１つ以上の文字列の１つ以上の欠落している可能性のある前部文字を補償することと、をさらに含む、請求項１４に記載の方法。
ビデオストリームからメタデータを抽出するための分類モデルを生成するための方法であって、前記方法が、
プロセッサにおいて、前記ビデオストリームの少なくとも１つの部分を受信することと、
プロセッサにおいて、前記ビデオストリームの前記部分の１つ以上のビデオフレームに埋め込まれた１つ以上のカード画像を識別することと、
前記プロセッサにおいて、前記１つ以上のカード画像を処理して、前記カード画像が文字を含む各場合に、複数の文字画像を抽出することと、
前記プロセッサにおいて、前記文字画像に関連付けられた訓練特徴ベクトルを生成することと、
前記プロセッサにおいて、前記訓練特徴ベクトルを処理することであって、前記処理することが、
前記訓練特徴ベクトルの一意性を増加させ、
前記訓練特徴ベクトルの相互数値距離を増加させ、および／または
前記訓練特徴ベクトルを含む全体的なベクトル空間の次元数を減少させる方法で行われる、処理することと、
前記プロセッサにおいて、前記訓練特徴ベクトルの少なくともいくつかを使用して、分類モデルを訓練することと、
データストアにおいて、前記分類モデルを記憶することと、を含む、方法。
前記データストアにおいて、前記ビデオストリームの前記受信された部分を記憶することをさらに含む、請求項１６に記載の方法。
前記プロセッサにおいて、前記訓練特徴ベクトルを生成する前に、前記文字画像を標準サイズおよび／または標準照明に正規化することをさらに含む、請求項１６に記載の方法。
前記訓練特徴ベクトルを生成することが、前記文字画像から抽出されたｎピクセルのセットをｎ次元ベクトルにフォーマットすることを含む、請求項１６に記載の方法。
前記プロセッサにおいて、前記訓練特徴ベクトルに対して主成分分析を実施することをさらに含み、
前記訓練特徴ベクトルの少なくともいくつかを使用して、前記分類モデルを訓練することが、
直交基底ベクトルである前記訓練特徴ベクトルのサブセットを選択することと、
前記直交基底ベクトルを使用して、前記分類モデルを訓練することと、を含む、請求項１６に記載の方法。
前記直交基底ベクトルが、前記全体的なベクトル空間にまたがり、
前記全体的なべクトル空間の前記次元数を減少させることが、限られた数の前記直交基底ベクトルを選択することを含み、
前記全体的なベクトル空間の前記次元数を減少させることが、前記直交基底ベクトルの行列から導出された特異値の最大セットに対応する直交基底ベクトルのみを選択することをさらに含み、
前記分類モデルを記憶することが、分類モデル生成および／もしくはクエリ処理における後続の使用のために、限られた数の直交基底ベクトルを記憶することを含み、ならびに／または
前記分類モデルを生成することが、ＳＶＭおよびＣＮＮからなる群から選択された機械学習アルゴリズムと組み合わせて、限られた数の前記直交基底ベクトルを使用することを含む、請求項２０に記載の方法。
前記方法が、
前記プロセッサにおいて、前記１つ以上のカード画像を処理してテキストを抽出することと、
前記プロセッサにおいて、前記テキストを解釈してメタデータを取得することと、
前記データストアにおいて、前記ビデオストリームの前記部分に関連付けて前記メタデータを記憶することと、
出力デバイスにおいて、前記ビデオストリームの前記部分を出力することと、
前記出力デバイスにおいて、前記ビデオストリームの
前記部分を出力することと同時に、前記メタデータを出力することと、をさらに含み、
前記ビデオストリームが、スポーツイベントの放送を含み、
前記ビデオストリームの前記部分が、１人以上のユーザに対する特定の関心を有するとみなされるハイライトを含み、
前記メタデータが、前記ハイライトを記述している、請求項１６に記載の方法。
前記テキストを抽出することが、前記テキストのテキスト列をクエリとして抽出することを含む、請求項２２に記載の方法。
前記テキストを抽出することが、
前記スポーツイベント内の現在の時間、
前記スポーツイベントの現在のフェーズ、
前記スポーツイベントに関連する試合時計、および
前記スポーツイベントに関連する試合スコアのうちの少なくとも１つを抽出することを含む、請求項２２に記載の方法。
ビデオストリームからメタデータを抽出するための非一時的なコンピュータ可読媒体であって、内部に記憶された命令を含み、前記命令は、プロセッサによって実行されたときに、
前記ビデオストリームの少なくとも１つの部分を受信し、
前記ビデオストリームの前記部分の１つ以上のビデオフレームに埋め込まれた１つ以上のカード画像を識別し、
前記１つ以上のカード画像を処理してテキストを抽出し、
前記テキストを解釈してメタデータを取得し、
データストアに前記ビデオストリームの前記部分に関連付けてて前記メタデータを記憶させるステップを実施する、非一時的なコンピュータ可読媒体。
前記ビデオストリームが、スポーツイベントのテレビ放送を含み、
前記ビデオストリームの前記部分が、１人以上のユーザに対する特定の関心を有するとみなされるハイライトを含み、
前記メタデータが、前記ハイライトを記述している、請求項２５に記載の非一時的なコンピュータ可読媒体。
内部に記憶された命令をさらに含み、前記命令は、プロセッサによって実行されたときに、出力デバイスに、前記１つ以上のカード画像を識別することと、前記１つ以上のカード画像を処理することと、前記テキストを解釈することのうちの少なくとも１つと同時に、前記ビデオストリームを出力させる、請求項２６に記載の非一時的なコンピュータ可読媒体。
内部に記憶された命令をさらに含み、前記命令は、プロセッサによって実行されたときに、
出力デバイスに前記ハイライトを出力させ、
前記ハイライトを出力することと同時に、前記メタデータを出力し、
前記メタデータが、
前記ハイライトに関連するリアルタイム情報、および
前記メタデータが取得された前記カード画像のタイムラインからなる群から選択された少なくとも１つを含む、請求項２６に記載の非一時的なコンピュータ可読媒体。
前記テキストを抽出することが、
前記１つ以上のカード画像内の１つ以上の文字列を識別することと、
前記１つ以上の文字列の各文字に対応する前記１つ以上のカード画像を有するカード画像の文字画像の位置および／またはサイズを記録することと、を含む、請求項２５に記載の非一時的なコンピュータ可読媒体。
前記テキストを解釈することが、
前記テキストに基づいてクエリを生成することと、
複数のｎ次元クエリ特徴ベクトルを生成することと、
前記ｎ次元クエリ特徴ベクトルを訓練セット直交基底に射影することと、
前記射影されたｎ次元クエリ特徴ベクトルを分類モデルに適用して、少なくとも１つの予測されたクエリを作り出すことと、
前記少なくとも１つの予測されたクエリから前記テキスト意味を抽出することと、を含む、請求項２５に記載の非一時的なコンピュータ可読媒体。
内部に記憶された命令をさらに含み、前記命令は、プロセッサによって実行されたときに、
複数の訓練セット特徴ベクトルを生成し、ならびに
前記訓練セットの特徴ベクトルを使用して、前記訓練セット直交基底を導出し、および／または前記分類モデルを生成する、請求項３０に記載の非一時的なコンピュータ可読媒体。
前記テキストを解釈することが、
前記テキストの１つ以上の文字列の文字のフィールド位置を確認することと、
前記文字の英数字値を確認することと、
前記フィールド位置および英数字値を使用して、前記１つ以上の文字列を順次解釈することと、を含む、請求項２５に記載の非一時的なコンピュータ可読媒体。
ビデオストリームからメタデータを抽出するために、分類モデルを生成するための非一時的なコンピュータ可読媒体であって、内部に記憶された命令を含み、前記命令は、プロセッサによって実行されたときに、
前記ビデオストリームの少なくとも１つの部分を受信することと、
前記ビデオストリームの前記部分の１つ以上のビデオフレームに埋め込まれた１つ以上のカード画像を識別することと、
前記１つ以上のカード画像を処理して、前記カード画像が文字を含む各場合に、複数の文字画像を抽出することと、
前記文字画像に関連付けられた訓練特徴ベクトルを生成することと、
前記訓練特徴ベクトルを処理することであって、前記処理することが、
前記訓練特徴ベクトルの一意性を増加させ、
前記訓練特徴ベクトルの相互数値距離を増加させ、および／または
前記訓練特徴ベクトルを含む全体的なベクトル空間の次元数を減少させる方法で行われる、処理することと、
前記訓練特徴ベクトルの少なくともいくつかを使用して、分類モデルを訓練することと、
データストアに前記分類モデルを記憶させることと、を行うステップを実施する、非一時的なコンピュータ可読媒体。
内部に記憶された命令をさらに含み、前記命令は、プロセッサによって実行されたときに、前記訓練特徴ベクトルに対して主成分分析を実施し、
前記訓練特徴ベクトルの少なくともいくつかを使用して、前記分類モデルを訓練することが、
直交基底ベクトルである前記訓練特徴ベクトルのサブセットを選択することと、
前記直交基底ベクトルを使用して前記分類モデルを訓練することと、を含む、請求項３３に記載の非一時的なコンピュータ可読媒体。
前記直交基底ベクトルが、前記全体的なベクトル空間にまたがり、
前記全体的なべクトル空間の次元数を減少させることが、限られた数の前記直交基底ベクトルを選択することを含み、
前記全体的なベクトル空間の前記次元数を減少させることが、前記直交基底ベクトルの行列から導出された特異値の最大セットに対応する直交基底ベクトルのみを選択することをさらに含み、
前記分類モデルを記憶することが、分類モデル生成および／もしくはクエリ処理における後続の使用のために、限られた数の直交基底ベクトルを記憶することを含み、ならびに／または
前記分類モデルを生成することが、ＳＶＭおよびＣＮＮからなる群から選択された機械学習アルゴリズムと組み合わせて、限られた数の前記直交基底ベクトルを使用することを含む、請求項３４に記載の非一時的なコンピュータ可読媒体。
内部に記憶された命令をさらに含み、前記命令は、プロセッサによって実行されたときに、
前記１つ以上のカード画像を処理してテキストを抽出し、
前記テキストを解釈してメタデータを取得し、
前記データストアに前記ビデオストリームの前記部分に関連付けて前記メタデータを記憶させ、
出力デバイスに、前記ビデオストリームの前記部分を出力させ、および
前記出力デバイスに、前記ビデオストリームの前記部分を出力することと同時に、前記メタデータを出力させるステップを実施し、
前記ビデオストリームが、スポーツイベントの放送を含み、
前記ビデオストリームの前記部分が、１人以上のユーザに対する特定の関心を有するとみなされるハイライトを含み、
前記メタデータが、前記ハイライトを記述している、請求項３３に記載の非一時的なコンピュータ可読媒体。
ビデオストリームからメタデータを抽出するためのシステムであって、前記システムが、
プロセッサであって、
前記ビデオストリームの少なくとも１つの部分を受信し、
前記ビデオストリームの前記部分の１つ以上のビデオフレームに埋め込まれた１つ以上のカード画像を識別し、
前記１つ以上のカード画像を処理してテキストを抽出し、
前記テキストを解釈してメタデータを取得するように構成されている、プロセッサと、
前記ビデオストリームの前記部分に関連付けて前記メタデータを記憶するように構成されたデータストアと、を備える、システム。
前記ビデオストリームが、スポーツイベントのテレビ放送を含み、
前記ビデオストリームの前記部分が、１人以上のユーザに対する特定の関心を有するとみなされるハイライトを含み、
前記メタデータが、前記ハイライトを記述している、請求項３７に記載のシステム。
前記１つ以上のカード画像を識別すること、前記１つ以上のカード画像を処理すること、および前記テキストを解釈することのうちの少なくとも１つと同時に、前記ビデオストリームを出力するように構成された出力デバイスをさらに備える、請求項３８に記載のシステム。
前記ハイライトを出力するように構成された出力デバイスをさらに備え、
前記プロセッサが、前記ハイライトを出力することと同時に、前記メタデータを出力するようにさらに構成されており、
前記メタデータが、
前記ハイライトに関連するリアルタイム情報、および
前記メタデータが取得された前記カード画像のタイムラインからなる群から選択された少なくとも１つを含む、請求項３８に記載のシステム。
前記プロセッサが、
前記１つ以上のカード画像内の１つ以上の文字列を識別することと、
前記１つ以上の文字列の各文字に対応する前記１つ以上のカード画像を有するカード画像の文字画像の位置および／またはサイズを記録することと、によって、前記テキストを抽出するようにさらに構成されている、請求項３７に記載のシステム。
前記プロセッサが、
前記テキストに基づいてクエリを生成することと、
複数のｎ次元クエリ特徴ベクトルを生成することと、
前記ｎ次元クエリ特徴ベクトルを訓練セット直交基底に射影することと、
前記射影されたｎ次元クエリ特徴ベクトルを分類モデルに適用して、少なくとも１つの予測されたクエリを作り出すことと、
前記少なくとも１つの予測されたクエリから前記テキスト意味を抽出することと、によって、前記テキストを解釈するようにさらに構成されている、請求項３７に記載のシステム。
前記プロセッサが、
複数の訓練セット特徴ベクトルを生成し、ならびに
前記訓練セット特徴ベクトルを使用して、前記訓練セット直交基底を導出し、および／または分類モデルを生成するようにさらに構成されている、請求項４２に記載のシステム。
前記プロセッサが、
前記テキストの１つ以上の文字列の文字のフィールド位置を確認することと、
前記文字の英数字値を確認することと、
前記フィールド位置および英数字値を使用して、前記１つ以上の文字列を順次解釈することと、によって、前記テキストを解釈するようにさらに構成されている、請求項３７に記載のシステム。
ビデオストリームからメタデータを抽出するための分類モデルを生成するためのシステムであって、前記システムが、
プロセッサであって、
前記ビデオストリームの少なくとも１つの部分を受信することと、
前記ビデオストリームの前記部分の１つ以上のビデオフレームに埋め込まれた１つ以上のカード画像を識別することと、
前記１つ以上のカード画像を処理して、前記カード画像が文字を含む各場合に、複数の文字画像を抽出することと、
前記文字画像に関連付けられた訓練特徴ベクトルを生成することと、
前記訓練特徴ベクトルを処理することであって、前記処理することが、
前記訓練特徴ベクトルの一意性を増加させ、
前記訓練特徴ベクトルの相互数値距離を増加させ、および／または
前記訓練特徴ベクトルを含む全体的なベクトル空間の次元数を減少させる方法で行われる、処理することと、
前記訓練特徴ベクトルの少なくともいくつかを使用して、分類モデルを訓練することと、を行うように構成されている、プロセッサと、
前記分類モデルを記憶するように構成されたデータストアと、を備える、システム。
前記プロセッサが、
前記訓練特徴ベクトルに対して主成分分析を実施し、
前記訓練特徴ベクトルの少なくともいくつかを使用して、前記分類モデルを、
直交基底ベクトルである前記訓練特徴ベクトルのサブセットを選択することと、
前記直交基底ベクトルを使用して前記分類モデルを訓練することと、によって訓練するようにさらに構成されている、請求項４５に記載のシステム。
前記直交基底ベクトルが、前記全体的なベクトル空間にまたがり、
前記プロセッサが、限られた数の前記直交基底ベクトルを選択することによって、前記全体的なべクトル空間の次元数を減少させるようにさらに構成されており、
前記プロセッサが、前記直交基底ベクトルの行列から導出された特異値の最大セットに対応する直交基底ベクトルのみを選択することによって、前記全体的なベクトル空間の前記次元数を減少させるようにさらに構成されており、
前記データストアが、分類モデル生成および／もしくはクエリ処理における後続の使用のために、限られた数の直交基底ベクトルを記憶することによって、前記分類モデルを記憶するようにさらに構成されており、ならびに／または
前記プロセッサが、ＳＶＭおよびＣＮＮからなる群から選択された機械学習アルゴリズムと組み合わせて、限られた数の前記直交基底ベクトルを使用することによって、前記分類モデルを生成するようにさらに構成されている、請求項４６に記載のシステム。
前記プロセッサが、
前記１つ以上のカード画像を処理してテキストを抽出し、
前記テキストを解釈してメタデータを取得するようにさらに構成されており、
前記データストアが、前記ビデオストリームの前記部分に関連付けて前記メタデータを記憶するようにさらに構成されており、
前記システムが、出力デバイスであって、
前記ビデオストリームの前記部分を出力し、および
前記ビデオストリームの前記部分を出力することと同時に、前記メタデータを出力するように構成されている、出力デバイスをさらに備え、
前記ビデオストリームが、スポーツイベントの放送を含み、
前記ビデオストリームの前記部分が、１人以上のユーザに対する特定の関心を有するとみなされるハイライトを含み、
前記メタデータが、前記ハイライトを記述している、請求項４５に記載のシステム。