JP7350883B2

JP7350883B2 - ビデオ時間調節アンカー

Info

Publication number: JP7350883B2
Application number: JP2021559177A
Authority: JP
Inventors: プラシャント・バヘティ; 章嗣小倉; マシュー・リンカス; ゲイブ・カルバートソン; ウェイ・ペン; チェリアナ・クリスタル・グレッチェン・グリッグス; キャスリン・マリア・タイス; ピアース・アンソニー・ヴォルッチ; サム・ベッカー; リック・マリア・フレデリクス・ファン・ムック; 務大倉; イ・ヤン; ディミトラ・パパクリストウ; エディー・サントス; ニコラス・クローウェル; ステファニー・マクブライアン; ニーシャ・サブラマニアム
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2023-09-26
Anticipated expiration: 2039-04-04
Also published as: JP2023165769A; US20220165309A1; WO2020201780A1; JP2022529225A; KR20210136122A; US11823716B2; KR20230129616A; KR102574278B1; US20240046964A1

Description

本明細書は、ビデオ処理に関する。

ビデオは、ウェブドキュメントと同様にしてざっと目を通すことができず、ユーザがビデオにおいて何か特定のものを探しているとき、ビデオを視聴すること、またはビデオを手動でスクラブすることが、ビデオ中のキーモーメント(key moment)をユーザが見つける結果にならないことがよくある。

本開示は、ビデオ用のビデオアンカーの作成および配布を容易にするコンピュータ実装方法およびシステムに関する。

一般に、本明細書で説明する主題の1つの新規の態様が、ビデオに対して、複数のキーモーメント識別子を取得するアクションであって、各キーモーメント識別子が、ビデオにおける再生時間を指定する時間インデックス値を含み、ビデオ内の顕著なトピックを定義する1つまたは複数の関心基準(interest criteria)を満たすと決定されたビデオの主題を示す、取得するアクションと、各キーモーメント識別子に対して、時間インデックス値によって指定された再生時間に始まるビデオの適切なサブセットを選択するアクションであって、ビデオの適切なサブセットが、時間インデックス値によって指定される再生時間に始まり、別のキーモーメント識別子の別の時間インデックス値によって指定される次の最も近い再生時間に終わるビデオセグメントの長さよりも短い、選択するアクションと、ビデオの適切なサブセットについて、キーモーメント識別子のテキストのラベルを決定するアクションと、ビデオの適切なサブセットからビデオフレームを選択するかどうかを決定するためにビデオの適切なサブセットの各ビデオフレームを処理するアクションと、各キーモーメント識別子に対して、ビデオアンカーを生成するアクションであって、ビデオアンカーが、キーモーメント識別子用のテキストのラベルと、ビデオの適切なサブセットのビデオフレームを選択する決定に応じて、ビデオフレームから生成された画像と、ユーザデバイス上のビデオプレーヤに、キーモーメント識別子の時間インデックス値によって指定された再生時間のビデオの再生を開始させる命令とを含む、生成するアクションと、ユーザデバイスにデータを提供するアクションであって、データがユーザデバイスのビデオプレーヤ環境でユーザデバイスに、ビデオアンカーの各々と、各ビデオアンカーに対して、ビデオプレーヤのプログレスバー内の時間インジケータであって、時間インデックス値によって指定された再生時間に対応する時間インジケータと、各ビデオアンカーに対して、対応する時間インジケータからビデオアンカーへのビジュアルリンクとをレンダリングさせる、提供するアクションとを含み、各ビデオアンカーが、ユーザによって選択可能であり、ビデオアンカーが選択されると、ビデオアンカーの命令が、ユーザデバイス上のビデオプレーヤに、時間インデックス値によって指定された再生時間のビデオの再生を開始させる、方法において具体化され得る。この態様の他の実施形態は、対応するシステム、装置、および、方法のアクションを行うように構成され、コンピュータストレージデバイス上に符号化されたコンピュータプログラムを含む。

本明細書で説明される主題の特定の実施形態は、以下の利点のうちの1つまたは複数を実現するために実装され得る。「ビデオアンカー」と呼ばれるビデオ時間調節アンカー(video timed anchor)は、再生環境の作用の仕方を変える。詳細には、ビデオアンカーは、ユーザがビデオ中のキーモーメントを迅速に確認することを可能にし、ビデオ自体のより優れた認識をユーザに与える。ビデオ時間調節アンカーはまた、ユーザがビデオ中のあるポイントまで直ちにスキップすることを可能にし、ユーザの時間を節約する。

処理システムは、ビデオ内の定義された顕著なトピックにかなうと決定されたビデオの主題を示す関心基準を使用する。様々な関心基準は、様々なビデオタイプに調整され得る。たとえば、スポーツビデオは、得点、ブロック、およびファウルに対して示されたイベントをシステムが認識することを可能にする特定の関心基準に従って処理されてもよく、講義ビデオは、システムが主題またはトピック変更を決定することを可能にする言語基準に従って処理されてもよく、「リスト」を含み、その上リストに含まれる要素を説明するビデオは、システムが示されたリストの要素を認識し、次いでリストに記載された要素の1つからリストに記載された別の要素へ主題が変わる、ビデオ中の瞬間を識別することを可能にするリスト基準に従って処理されてもよい。言い換えれば、システムは、異なるタイプの関心基準を組み込むことによって、多くの異なるタイプのビデオを処理し、ビデオ内の複数の顕著なトピックにビデオアンカーを生成する柔軟性を可能にする。

システムは、1つまたは複数のビデオフレーム含有基準に基づいて、ビデオアンカーにビデオフレームを含むかどうかを決定することができる。各ビデオアンカーは、画面のスペースが限られているので、ビデオアンカーにビデオフレームを含むかどうかの決定は、各ビデオアンカーに対して表示されるデータが他の各ビデオアンカーとは区別を生じることを確実にする。言い換えれば、アンカーが対応する顕著なトピックの情報を与えないビデオフレームは、ビデオアンカーに含まれない。たとえば、ビデオが講義のビデオである場合、各ビデオアンカーに対する話者の画像は情報を与えない。したがって、ビデオフレームを使用しないことによって、より記述的なテキストのラベルが使用されてもよく、各テキストのラベルは、話者が論じている主題を説明する。

ビデオアンカーはビデオの顕著なトピックを示すので、ユーザは、ビデオ全体を流す代わりに、ビデオ中のいくつかのポイントで再生を開始するためにビデオアンカーを選択する可能性が高い。これは、ネットワーク帯域幅ストリーミング使用量を減らし、ネットワークリソースを節約する。さらに、クライアント側では、デコーディングおよびレンダリングなどの使用ビデオ処理計算リソースは、同様に縮小される。

本明細書で説明される主題の1つまたは複数の実施形態の詳細は、添付の図面および以下の説明に記載される。主題の他の特徴、態様、および利点は、説明、図面、および特許請求の範囲から明らかとなろう。

ビデオアンカーが表示された、第1のビデオ表示環境の図である。ビデオアンカーが表示された、別のビデオ表示環境の図である。ビデオ用のビデオアンカーを生成するシステムのブロック図である。ビデオアンカーを生成するための例示的なプロセスを示す流れ図である。ユーザデバイスでビデオアンカーを処理するための例示的なプロセスの流れ図である。

様々な図面における同じ参照番号および名称は、同じ要素を示す。

本出願の主題は、ビデオ時間調節アンカーの使用によって、ビデオの異なる部分を見えるようにする。ビデオアンカーに対応するビデオの各部分が、「キーモーメント」に始まる。ビデオアンカーは、ユーザがビデオ中の重要なポイントを素早く確認することを可能にし、ビデオ自体のより優れた理解をユーザに与え、またユーザがビデオ中のあるポイントまで直ちにスキップすることを可能にし、ユーザの時間を節約する。

ビデオ時間調節アンカー処理システムが、ビデオの各々にビデオアンカーを生成するようにビデオを処理する。動作時、システムは、ビデオに対して、複数のキーモーメント識別子を取得する。キーモーメント識別子は、訓練済みニューラルネットワークによるなど、アルゴリズム的に決定されてもよく、または人間のキュレータによって提供されてもよい。各キーモーメント識別子は、ビデオにおける再生時間を指定する時間インデックス値を含み、ビデオ内の顕著なトピックを定義する1つまたは複数の関心基準を満たすと決定されたビデオの主題を示している。

各キーモーメント識別子に対して、システムは、時間インデックス値によって指定された再生時間に始まるビデオの適切なサブセットを選択する。ビデオの適切なサブセットは、時間インデックス値によって指定された再生時間に始まり、別のキーモーメント識別子の別の時間インデックス値によって指定された次の最も近い再生時間に終わる、ビデオセグメントの長さよりも短いビデオの一部分である。たとえば、最初のキーモーメント識別子が1:00の再生時間を示し、次のキーモーメント識別子が2:30の再生時間を示す場合、ビデオの適切なサブセットは、1:00に始まり、2:30前に終わる。

システムは、ビデオの適切なサブセットについて、キーモーメント識別子用のテキストのラベルを決定する。テキストのラベルは、テキストの信号、視覚信号、および手作業のキュレーションのうちの1つまたは複数によって決定され得る。テキストの信号は、光学文字認識、キャプションデータ、およびビデオメタデータを含む。視覚信号は、埋込み、オーディオ、および画像ラベルの生成を含む。手作業のキュレーションは、手作業で生成されたアノテーションを含む。

システムはまた、ビデオの適切なサブセットからビデオフレームを選択するかどうかを決定するために、ビデオの適切なサブセットの各ビデオフレームを処理し、次いで、各キーモーメント識別子に対して、ビデオアンカーを生成する。各ビデオアンカーは、キーモーメント識別子用のテキストのラベルを含み、ビデオフレームが選択された場合は、ビデオフレームを含む。各ビデオアンカーはまた、ユーザデバイス上のビデオプレーヤに、キーモーメント識別子の時間インデックス値によって指定された再生時間のビデオの再生を開始させる命令を含む。

ビデオアンカーを定義するデータは、次いでインデックスに記憶され、データが対応するビデオに関連付けられる。データはユーザデバイスに、ユーザデバイスのビデオプレーヤ環境において、ビデオアンカーの各々をレンダリングさせる。データは次いで、ビデオを要求するユーザデバイスに、ビデオ自体と一緒に供給され得る。システムはユーザデバイスに、ビデオ要求に応じてデータを提供することができる。各ビデオアンカーに対して、ユーザデバイスは、ビデオプレーヤのプログレスバー内の対応する時間インジケータ、および対応する時間インジケータからビジュアルアンカーへのビジュアルリンクを表示する。表示される各ビデオアンカーは、ユーザによって選択可能であり、ビデオアンカーが選択されると、ビデオアンカーの命令が、ユーザデバイス上のビデオプレーヤに、時間インデックス値によって指定された再生時間のビデオの再生を開始させる。

これらの特徴および追加の特徴について、以下でより詳細に説明する。

図1は、ビデオアンカー120、130、および140が表示された、第1のビデオ表示環境100の図である。例示的な環境100は、スマートフォン、タブレット、またはパーソナルコンピュータ上に実装されてもよい。スマートテレビジョンなど、他のコンピュータ実装デバイスもまた、表示環境100を実装するのに使用されてもよい。

図1の例示的な環境100では、検索クエリ[Buy a smartphone(スマートフォンを買う)]が、検索入力フィールド102の使用によって検索エンジンに提供された。結果のビデオが、結果環境104に表示される。トップランクの結果ビデオが、ビデオプレーヤウィンドウ110に表示される。ビデオの第1のフレームが表示され、プログレスバー112が、ビデオの時間の長さを示す。

ビデオプレーヤウィンドウ110の下に、3つのビデオアンカー120、130、および140がある。各ビデオアンカー120、130、および140は、ビデオプレーヤのプログレスバー112に、対応する時間インジケータ122、132、および142を有する。各時間インジケータは、ビデオアンカーに対して時間インデックス値によって指定された再生時間に対応する。さらに、各ビデオアンカー120、130、および140は、対応する時間インジケータ122、132、および142からビデオアンカーへのビジュアルリンクを含む。

各ビデオアンカー120、130、および140は、それぞれビデオフレーム124、134、および144を含む。各ビデオフレームは、ビデオ中の対応する再生時間に、またはその後に出現するビデオの一部分から選択される。画像フレームの識別方法および選択方法について、以下でより詳細に説明する。

各ビデオアンカー120、130、および140はまた、それぞれビデオ中の顕著なトピックを説明するテキストのラベル126、136、および146をそれぞれ含む。いくつかの実施形態では、各顕著なトピックは、それが新しいトピックまたはビデオのトピックの著しい変化であるとき、識別される。顕著なトピックの識別方法について、以下でより詳細に説明する。

ユーザデバイス上のビデオプレーヤに、時間インデックス値によって指定された再生時間のビデオの再生を開始させるそれぞれの命令が、各ビデオアンカー120、130、および140に埋め込まれる。命令は、ビデオアンカーを選択すると実行される。たとえば、ユーザがビデオアンカー130を選択する場合、ビデオアンカー130およびプログレスバー112に示されるように、2:13の再生時間に、ビデオプレーヤウィンドウ110内のビデオの再生が始まる。

ビデオアンカー120、130、および140の下に、さらなるビデオ検索結果150、152、154、および156がある。いくつかの実施形態では、別のビデオ検索結果を選択すると、ビデオ検索結果によって参照されるビデオをビデオプレーヤウィンドウ110に置くことによって、ビデオ検索結果に焦点を当てられる。さらに、新しく焦点を当てられたビデオが対応するビデオアンカーを有する場合、ビデオアンカー120、130、および140は、新しく焦点を当てられたビデオに対応するビデオアンカーに置き換えられる。いくつかの実装形態では、ビデオアンカーは、各ビデオ検索結果とともに供給され、検索システムへのその後の要求を減らすためにユーザデバイスにキャッシュされる。

3つのビデオアンカーのみが示されているが、他の実装形態ではより多くのビデオアンカーが示される場合がある。さらに、より多くのビデオアンカーが、プログレスバー112内の対応するさらなる時間インジケータによって示される場合があり、ビデオアンカーへのアクセスが、ジェスチャー入力によって実現されてもよく、たとえば、ビデオアンカー140の場所に次のビデオアンカーを導入することによってさらなるビデオアンカーを「スクロール」し、ビデオアンカー140をビデオアンカー130の位置にシフトし、同様にビデオアンカー130をビデオアンカー120の位置にシフトするために、右から左にスワイプすることによって実現されてもよい。また第1のビデオアンカー120は、ディスプレイから削除される。さらなるビデオアンカーにアクセスするために、何らかの他の適切な対話モデルが使用される場合もある。

いくつかの実装形態では、システムは、1つまたは複数のビデオフレーム含有基準に基づいて、ビデオアンカーにビデオフレームの画像を含むかどうかを決定することができる。各ビデオアンカーは、画面のスペースが限られているので、ビデオアンカーにビデオフレームから生成された画像を含むかどうかの決定は、各ビデオアンカーに対して表示されるデータが他の各ビデオアンカーとは区別を生じることを確実にする。言い換えれば、ビデオアンカーが対応する顕著なトピックの情報を与えないビデオフレームは、いくつかの実装形態では、ビデオアンカーから省略され得る。たとえば、ビデオが講義のビデオであり、話者のビデオしかない場合、各ビデオアンカーに対する話者の画像は情報を与えない。したがって、ビデオフレームを使用しないことによって、より記述的なテキストのラベルが使用されてもよく、各テキストのラベルが、話者が論じている主題を説明する。

いくつかの実装形態では、選択されたビデオフレームから生成された画像は、ビデオフレームのサムネイルである。本明細書で使用する、ビデオフレームの「サムネイル」は、サムネイルが示す実際のビデオフレームよりも寸法的に小さいビデオフレームの任意の画像である。他の実装形態では、画像は、ビデオフレームの切り取られた部分であってもよく、たとえば、キーモーメント識別子に決定された顕著なトピックに最も関連する物体を含むビデオフレームの一部分であってもよい。任意の適切な物体検出プロセスは、ビデオフレームにおいて決定された物体を検出し、識別するために使用され得る。

「テキストのみ」のビデオアンカーの一例が、図2に示され、図2は、ビデオアンカーが表示される別のビデオ表示環境200の図である。表示環境200は、たとえば、ビデオ講義用のビデオプレーヤであってもよい。ビデオプレーヤウィンドウ202の下に、3つのビデオアンカー210、220、および230がある。各ビデオアンカー210、220、および230は、ビデオプレーヤのプログレスバー204に、対応する時間インジケータ212、222、および232を有する。各時間インジケータは、ビデオアンカーに対して時間インデックス値によって指定された再生時間に対応する。さらに、各ビデオアンカー210、220、および230は、対応する時間インジケータ212、222、および232からビデオアンカーへのビジュアルリンクを含む。

各ビデオアンカー210、220、および230はまた、それぞれビデオ中の顕著なトピックを説明するテキストのラベル214、224、および234をそれぞれ含む。いくつかの実装形態では、ビデオフレームが含まれないとき、テキストのラベルは、ビデオフレームが含まれるときよりも記述的である。たとえば、ビデオフレームが含まれるとき、テキストのラベルは6語に限定され得るが、ビデオフレームが含まれないとき、テキストのラベルはより高い語数の制限、たとえば、15語であってもよい。当然、他の語数制限が使用される場合もある。

図2はまた、ビデオアンカーが、ビデオ検索結果が提供される環境以外の環境で使用され得ることを示している。詳細には、ビデオアンカーは、どんなビデオ再生環境でも提供され得る。

図3は、ビデオ用のビデオアンカーを生成するシステム300のブロック図である。図3のアーキテクチャは、一例のアーキテクチャにすぎず、他のアーキテクチャもまた使用され得る。システム300の動作について、ビデオアンカーを生成するための例示的なプロセス400の流れ図である図4を参照しながら説明する。

プロセス400は、ビデオ302に対して、キーモーメント識別子303を取得する(402)。各キーモーメント識別子303は、ビデオにおける再生時間を指定する時間インデックス値を含み、ビデオ302内の顕著なトピックを定義する関心基準312を満たすと決定されたビデオ320の主題を示している。ビデオ内の顕著なトピックを定義する関心基準312は、ビデオタイプによって異なる場合がある。たとえば、スポーツビデオの関心基準は、ゴールの得点、ボール保持(possession)の変化、ファウル、およびユーザに特に関心があると決定され得る他の何らかの事象を含むように、顕著なトピックを定義してもよい。別の例として、複数の異なるアイテムを連続して描くビデオの関心基準が、1つの主題アイテムから別の主題アイテムへの焦点変化(change focus)として、顕著なトピックを定義してもよく、たとえば、図1に示すように、キーモーメントが、それぞれのスマートフォンの各レビューの開始セグメントに発生する。また別の例は、主に話をするビデオ、たとえば講義であるビデオに対するものである。これらのビデオでは、キーモーメントは、講師があるトピックから次のトピックに移るときであってもよい。さらにまた別の例は、教育ビデオである。これらのビデオでは、関心基準は、各ステップまたは命令の始まりがキーモーメントであると指定してもよい。

キーモーメント識別子は、関心基準、または関心基準を参照する決定論的プロセスについて訓練された訓練済みニューラルネットワークによるなど、アルゴリズム的に決定されてもよく、またはビデオとともに人間のキュレータによって提供されてもよい。たとえば、テキスト信号306、視覚信号308、および手作業のキュレーション310が、キーモーメントを取得するために使用されてもよい。テキスト信号306に関しては、光学文字認識が、時間とともにビデオの主題を決定するためにビデオフレームで使用されてもよく、クローズドキャプションデータもまた、時間とともにビデオの主題、ならびにメタデータを決定するために使用されてもよい。機械学習システムが、時間とともにビデオの支配的意図を決定するために訓練されてもよく、支配的意図が変わるとき、変化がキーモーメントとして識別されてもよい。

視覚信号308はまた、テキスト信号の代わりに、またはテキスト信号に加えて使用されてもよい。たとえば、ニューラルネットワークによる視覚的埋込みが、オーディオ処理と同様に、時間とともにビデオの主題を決定するために使用されてもよい。オーディオ処理に関して、オーディオは、時間とともにビデオの主題を識別するためにテキストに変換されてもよい。この場合も、機械学習システムが、時間とともにビデオの支配的意図を決定するために訓練されてもよく、支配的意図が変わるとき、変化がキーモーメントとして識別されてもよい。

いくつかのテキスト信号および視覚信号は、それら自体でキーモーメントを示す場合がある。そのような信号は、キーモーメントを意味的に示している、またはキーモーメントを視覚的に示している。たとえば、テキストまたはオーディオの「次のステップ」は、主題として新しい命令を導入することを示している。他のそのような信号は、「…に進む」、「次の章…」などを含む場合がある。そのようなテキストまたはオーディオは、キュレータによって指定されてもよく、または機械学習技法によってビデオのコーパス上で学習されてもよい。ビデオ信号に関して、シーン変化、またはある製品から別の製品への変化が、キーモーメントを示してもよい。同様に、ボールがゴールを通り抜ける画像、またはプレーヤがある行為を行っている(たとえば、ボールを打っている、ゴールラインを通過しているなど)画像は、キーモーメントを示してもよい。そのようなビデオフレームは、キュレータによって指定されてもよく、または機械学習技法によってビデオのコーパス上で学習されてもよい。キーモーメントが識別されると、キーモーメントでビデオにおける再生時間を指定する時間インデックス値が決定される。

プロセス400は、各キーモーメント識別子に対して、時間インデックス値によって指定された再生時間に始まるビデオの適切なサブセットを選択する(404)。ビデオの適切なサブセットは、ラベル生成、および対応するビデオアンカーに含めるための画像を生成するためのビデオフレーム選択のために選択される。多くの場合、キーモーメントは数分間隔であってもよく、インジケータ間のビデオ全体の処理は、識別された顕著なトピックからのわずかなトピック逸脱が生じる場合がある。したがって、ビデオの適切なサブセットのみが選択される。ビデオの適切なサブセットは、時間インデックス値によって指定された再生時間に始まり、時間インデックス値によって指定された再生時間に始まって、別のキーモーメントの別の時間インデックス値によって指定された次の最も近い再生時間に終わるビデオセグメントの長さよりも短い。いくつかの実装形態では、ビデオの適切なサブセットは、6秒の長さであってもよい。たとえば、図1を参照すると、第1のキーモーメントのためのビデオの適切なサブセットは、1:12～1:18である。他の時間の長さが使用される場合もある。

プロセス400は、各キーモーメント識別子に対して、ビデオの適切なサブセットについて、キーモーメント識別子用のテキストのラベルを決定する(406)。上記で説明したように、テキスト信号、視覚信号、および精選されたデータ(curated data)が使用されてもよい。いくつかの実装形態では、テキストラベルは、ビデオの適切なサブセットについて最も関連するトピックを決定することに応じて生成される。たとえば、ビデオがレシピビデオであって、ビデオの適切なサブセットは、以下のオーディオを含むと仮定する。「次に、泡立て器またはスプーンを使って、ミキシングボール内で粉末材料を混ぜます。…ように、材料を十分によく混ぜます。」機械学習済みシステム、または言語処理システムが、テキストを入力として受け取り、「粉末材料を混ぜる」というラベルを生成してもよい。

ラベルは、視覚的分析から生成される場合もある。たとえば、ビデオの各フレームが、フレームに示されるコンテンツを説明するラベルを決定する画像処理システムによって処理されてもよい。たとえば、レシピビデオから、フレームは最初にシェフについて、次いでミキシングボールおよび器具についてであると仮定する。そのようなラベルは、「シェフ、ミキシングボール、泡立て器、粉末」を含んでもよい。

ラベルは、キーモーメントを最も良く説明する1つまたは複数のラベルを決定するために、スコアリングされてもよい。任意の適切な適合性スコアリングプロセスが使用されてもよい。さらに、ユーザによってより容易に理解される語句をラベルから生成するために、自然原語処理が使用されてもよい。

プロセス400は、各キーモーメント識別子に対して、ビデオの適切なサブセットからビデオフレームを選択するかどうかを決定するために、ビデオの適切なサブセットの各ビデオフレームを処理する。各ビデオアンカーは、画面のスペースが限られているので、ビデオアンカーにビデオフレームを含むかどうかの決定は、各ビデオアンカーに対して表示されるデータが他の各ビデオアンカーとは区別を生じることを確実にする。言い換えれば、アンカーが対応する顕著なトピックの情報を与えないビデオフレームは、ビデオアンカーに含まれない。たとえば、ビデオが講義のビデオである場合、各ビデオアンカーに対する話者の画像は情報を与えない。したがって、ビデオフレームを使用しないことによって、より記述的なテキストのラベルが使用されてもよく、各テキストのラベルは、話者が論じている主題を説明する。

いくつかの実装形態では、ビデオの適切なサブセットのビデオフレームを処理している間、ビデオフレーム選択エンジン320が、ビデオフレームごとに、ビデオフレームで説明されるコンテンツを説明するフレーム用のラベルのセットを決定する。ラベルは、上記のように決定されたラベルと同じであってもよい。その後、各ビデオフレームに対して、システムは、キーモーメント識別子用のテキストのラベルに対するビデオフレーム用のラベルのセットの類似性を測定する類似性測度を決定し、次いで、ビデオアンカーに含めるための画像を生成するために最も高い類似性測度を有するビデオフレームを選択する。任意の適切な類似性測定プロセスが使用され得る。

たとえば、レシピビデオに戻ると、ビデオの適切なサブセットの最初の3秒が、単にシェフの話を示し、残りの3秒が、粉末材料および器具とともにミキシングボールを示すと仮定する。また、セグメントのラベルがテキストおよび視覚信号から決定され、決定されたラベルは「粉末材料を混ぜる」であると仮定する。シェフのビデオフレームは、粉末材料および混合に関するいくつかのラベルを有してもよいが、示される人物を説明するラベルもまた有する。ミキシングボール、材料、および器具を示すフレーム用のラベルは、ミキシングボール、粉末材料、および器具を説明するラベルを有する。したがって、ビデオアンカーに決定されたラベルに最も類似したラベルフレームは、ミキシングボール、材料、および器具を示す後者のフレームとなる。

いくつかの実装形態では、最も高い類似性測度を有するフレームは、それが、選択のための最低類似性測度を指定する選択しきい値を満たすときにのみ選択される。選択しきい値は、選択されたフレームが、識別されたキーモーメントのラベルによって説明される物体またはイベントを示す可能性が非常に高いように選択されてもよい。

処理要件をさらに下げるために、いくつかの実装形態では、適切なサブセットのビデオフレームは、多様性測度を決定するために互いに比較される。多様性測度は、ビデオフレームと、ビデオの適切なサブセット中の1つまたは複数の他のビデオフレームとの違いを測定する。ビデオフレームの選択は、その場合、多様性測度に部分的に基づいてもよい。

再びレシピビデオに戻ると、ビデオの適切なサブセットの最初の3秒が、単にシェフの話を示し、残りの3秒が、粉末材料および器具とともにミキシングボールを示すと仮定する。多様性測度は、ビデオフレームの最初の3秒を非常に類似しているとして、およびビデオフレームの最後の3秒を非常に類似しているとしてグループ分けする。したがって、ビデオフレームを選択するには、各グループからただ1つのビデオフレームが処理される必要があり、ラベルへの最も高い類似性測度を持つビデオフレームが選択されることになる。

ビデオが、ビデオの適切なサブセット全体の間、シェフの話に焦点が当てられる場合など、フレームすべてが非常に類似しているので、多様性測度が、フレームすべてが単一のグループにグループ分けされると示す場合、1つのフレームのみが選択され、それの類似性測度が決定されてもよい。ビデオフレームが類似性しきい値を満たさない場合、そのビデオフレームは、ビデオアンカーに含めるための画像を生成するために選択されない。

他の実装形態では、フレームすべてが非常に類似していて、多様性測度が、フレームすべてが単一のグループにグループ分けされると示す場合、ビデオフレームは選択されず、代わりにテキストのラベルのみがビデオアンカーに使用される。

プロセス400は、各キーモーメント識別子に対して、ビデオアンカーを生成する(410)。各ビデオアンカーは、キーモーメント識別子用のテキストのラベルと、ビデオフレームから生成された画像(画像が選択されると決定された場合)と、ユーザデバイス上のビデオプレーヤに、キーモーメント識別子の時間インデックス値によって指定された再生時間のビデオの再生を開始させる命令とを含む。ビデオアンカーは、次いでビデオアンカーインデックス330に記憶され、ビデオアンカーが対応するビデオに関連付けられる。

その後に、ユーザデバイス370は、ビデオを要求するためにビデオ要求340を発行してもよい。要求は、ビデオ検索環境ではビデオ検索に応じる、または他のビデオ再生環境により直接ビデオにアクセスすることに応じるものであり得る。

応答して、プロセス400は、ユーザデバイスにビデオプレーヤ環境にビデオアンカーの各々をレンダリングさせるデータをユーザデバイスに提供する(412)。

ビデオアンカーのユーザデバイス側処理について、ユーザデバイスでビデオアンカーを処理するための例示的なプロセス400の流れ図である図5を参照しながら説明する。

プロセス500はユーザデバイスにビデオアンカーのセットをビデオプレーヤにレンダリングさせるデータを受け取り(502)、次いでビデオアンカーのセット中の各ビデオアンカーをレンダリングする(504)。たとえば、データは、各ビデオアンカーに対して、ビデオプレーヤのプログレスバー内の時間インジケータであって、時間インデックス値によって指定された再生時間に対応する時間インジケータと、対応する時間インジケータからビデオアンカーへのビジュアルリンクとを定義するデータを含む。ビデオアンカーはまた、ビデオフレームがビデオアンカーに選択された場合、顕著なトピックを説明するラベルと、ビデオフレームを示す画像、たとえばビデオフレームのサムネイルまたはビデオフレームの切り取られた部分とを含む。

プロセス500は、ビデオプレーヤのビデオ再生ウィンドウにビデオの第1のフレームをレンダリングする(506)。たとえば、ビデオの再生の前に、ビデオプレーヤは初期状態であって、ビデオの第1のフレームがビデオ再生ウィンドウに表示される。

プロセス500は、ビデオアンカーの1つの選択に応じて、ユーザデバイスに、ビデオアンカーの時間インデックス値によって指定された再生時間からビデオの再生を開始させる(508)。たとえば、ユーザが図1のビデオアンカー130を選択する場合は、ビデオアンカーに埋め込まれた命令は、ユーザデバイスに、2:13の再生時間にビデオプレーヤウィンドウ110でビデオの再生を開始させる。

いくつかの実装形態では、ビデオプレーヤのプログレスバー内の各対応する時間インジケータが、対応する時間インジケータの再生時間に始まるビデオの一部分の時間の長さを示す。そのように示されるビデオの一部分は、ラベルに関連していると決定されたビデオの一部分であってもよい。たとえば、図2に示すように、破線のインジケータ213、223、および233は、ビデオアンカーのラベルに最も関連していると決定されたビデオのそれぞれの部分に対応する。関連性は、上記で説明したプロセスによって決定され得る。

本明細書で説明するシステムがユーザについての個人情報を収集する、または個人情報を利用し得る状況において、ユーザは、アプリケーションまたは機能がユーザ情報(たとえば、ユーザのソーシャルネットワーク、社会的行為もしくは活動、職業、ユーザの選好、またはユーザの現在の位置についての情報)を収集するかどうかを制御するための機会、または、ユーザにより関連がある可能性があるコンテンツを受信するかどうか、および/もしくはどのように受信するかを制御するための機会を与えられ得る。加えて、いくつかのデータは、個人を識別できる情報が削除されるように、記憶または使用される前に1つまたは複数の方法で扱われ得る。たとえば、ユーザの識別情報は、個人を識別できる情報がユーザについて決定できないように扱われ得る、またはユーザの地理的位置は、ユーザの具体的な位置が決定できないように、位置情報が取得される場合に(都市、ZIPコード、もしくは州のレベルなどに)一般化され得る。したがって、ユーザは、情報がどのようにユーザについて収集されコンテンツサーバにより使用されるかを制御することができる。

本明細書で説明した主題および動作の実施形態は、デジタル電子回路において、または、本明細書で開示した構造およびそれらの構造等価物を含む、コンピュータソフトウェア、ファームウェア、もしくはハードウェアにおいて、またはそれらのうちの1つもしくは複数の組合せにおいて実装され得る。本明細書で説明した主題の実施形態は、データ処理装置による実行のために、またはデータ処理装置の動作を制御するために、コンピュータ記憶媒体上で符号化された1つまたは複数のコンピュータプログラム、すなわち、コンピュータプログラム命令の1つまたは複数のモジュールとして実装され得る。

コンピュータ記憶媒体は、コンピュータ可読記憶デバイス、コンピュータ可読記憶基板、ランダムもしくはシリアルアクセスメモリアレイもしくはデバイス、またはそれらのうちの1つもしくは複数の組合せであり得るか、またはそれらに含まれ得る。さらに、コンピュータ記憶媒体は、伝搬信号ではなく、コンピュータ記憶媒体は、人工的に生成された伝搬信号において符号化されたコンピュータプログラム命令のソースまたは宛先であり得る。コンピュータ記憶媒体はまた、1つまたは複数の別個の物理構成要素または媒体(たとえば、複数のCD、ディスク、または他の記憶デバイス)であり得るか、またはそれらに含まれ得る。

本明細書で説明される動作は、1つもしくは複数のコンピュータ可読記憶デバイス上に記憶されたまたは他のソースから受信されたデータに対してデータ処理装置によって実施される動作として実装され得る。

「データ処理装置」という用語は、例として、プログラマブルプロセッサ、コンピュータ、システムオンチップ、もしくは上記の複数のもの、または上記の組合せを含む、データを処理するためのすべての種類の装置、デバイス、および機械を包含する。装置は、専用論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)を含むことができる。装置は、ハードウェアに加えて、当該のコンピュータプログラムのための実行環境を作成するコード、たとえば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、クロスプラットフォームランタイム環境、仮想マシン、またはそれらのうちの1つもしくは複数の組合せを構成するコードをも含むことができる。装置および実行環境は、ウェブサービス、分散コンピューティングおよびグリッドコンピューティングインフラストラクチャなど、様々な異なるコンピューティングモデルインフラストラクチャを実現することができる。

コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても知られている)は、コンパイル型言語またはインタプリタ型言語、宣言型言語または手続き型言語を含む任意の形態のプログラミング言語で書かれ得、スタンドアロンプログラムとして、またはモジュール、構成要素、サブルーチン、オブジェクト、もしくはコンピューティング環境において使用するのに適した他のユニットとしてを含む任意の形態で展開され得る。コンピュータプログラムは、ファイルシステムにおけるファイルに対応し得るが、そうである必要はない。プログラムは、他のプログラムもしくはデータ(たとえば、マークアップ言語文書に記憶された1つもしくは複数のスクリプト)を保持するファイルの一部分に、当該のプログラム専用の単一のファイルに、または複数の協調ファイル(たとえば、1つもしくは複数のモジュール、サブプログラム、またはコードの部分を記憶するファイル)に記憶され得る。コンピュータプログラムは、1つのコンピュータ上で、または、1つのサイトに配置されるかもしくは複数のサイトにわたって分散され、通信ネットワークによって相互接続される複数のコンピュータ上で実行されるように展開され得る。

本明細書で説明したプロセスおよび論理フローは、入力データ上で動作し、出力を生成することによってアクションを行うために、1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラマブルプロセッサによって実行され得る。プロセスおよび論理フローは、専用論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によっても実施され得、装置は、それらとしても実装され得る。

コンピュータプログラムの実行に好適なプロセッサは、例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。一般にプロセッサは、読取り専用メモリまたはランダムアクセスメモリまたは両方から命令およびデータを受け取ることになる。コンピュータの必須要素は、命令に従ってアクションを行うためのプロセッサ、ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスである。一般に、コンピュータはまた、データを記憶するための1つまたは複数の大容量記憶デバイス、たとえば、磁気ディスク、光磁気ディスク、もしくは光ディスクを含むか、または、それらからデータを受信することもしくはそれらにデータを転送すること、もしくは両方を行うために動作可能に結合される。しかしながら、コンピュータはそのようなデバイスを有する必要はない。さらに、コンピュータは、ほんの数例を挙げると、別のデバイス、たとえば、モバイル電話、携帯情報端末(PDA)、モバイルオーディオもしくはビデオプレーヤ、ゲームコンソール、全地球測位システム(GPS)受信機、またはポータブル記憶デバイス(たとえば、ユニバーサルシリアルバス(USB)フラッシュドライブ)に埋め込まれ得る。コンピュータプログラム命令およびデータを記憶するのに好適なデバイスは、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、たとえば、内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD-ROMおよびDVD-ROMディスクを含む、すべての形態の不揮発性メモリ、媒体およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路によって補完され得るか、または専用論理回路に組み込まれ得る。

ユーザとの対話を提供するために、本明細書で説明される主題の実施形態は、情報をユーザに表示するためのディスプレイデバイス、たとえば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタと、それによってユーザが入力をコンピュータに提供することができるキーボードおよびポインティングデバイス、たとえば、マウスまたはトラックボールとを有するコンピュータ上で実装され得る。他の種類のデバイスも、ユーザとの対話を提供するために使用され得、たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであり得、ユーザからの入力は、音響入力、音声入力、または触覚入力を含む任意の形態で受信され得る。加えて、コンピュータは、文書をユーザによって使用されるデバイスに送信し、文書をそのデバイスから受信することによって、たとえば、ユーザのクライアントデバイス上のウェブブラウザから受信された要求に応じてウェブページをそのウェブブラウザに送信することによって、ユーザと対話することができる。

本明細書で説明した主題の実施形態は、たとえば、データサーバとして、バックエンド構成要素を含むか、またはミドルウェア構成要素、たとえば、アプリケーションサーバを含むか、またはフロントエンド構成要素、たとえば、ユーザが本明細書で説明した主題の実装形態とそれを通して対話することができるグラフィカルユーザインターフェースもしくはウェブブラウザを有するユーザコンピュータを含むか、または1つもしくは複数のそのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含む、コンピューティングシステムにおいて実装され得る。システムの構成要素は、デジタルデータ通信の任意の形態または媒体、たとえば、通信ネットワークによって相互接続され得る。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)およびワイドエリアネットワーク(「WAN」)、インターネットワーク(たとえば、インターネット)、およびピアツーピアネットワーク(たとえば、アドホックピアツーピアネットワーク)を含む。

コンピューティングシステムは、ユーザおよびサーバを含むことができる。ユーザおよびサーバは、一般に互いから離れており、典型的には通信ネットワークを通じて対話する。ユーザとサーバの関係は、それぞれのコンピュータ上で動作し、互いに対してユーザ-サーバ関係を有する、コンピュータプログラムによって生じる。いくつかの実施形態では、サーバは、(たとえば、ユーザデバイスと対話するユーザにデータを表示し、ユーザからユーザ入力を受信する目的で)ユーザデバイスにデータ(たとえば、HTMLページ)を送信する。ユーザデバイスにおいて生成されたデータ(たとえば、ユーザ対話の結果)は、サーバにおいてユーザデバイスから受信され得る。

本明細書は多くの特定の実装形態の詳細を含んでいるが、これらは任意の特徴の範囲または特許請求され得るものの範囲に対する限定として解釈されるべきではなく、むしろ特定の実施形態に特有の特徴の説明として解釈されるべきである。本明細書で別個の実施形態の文脈で説明されるいくつかの特徴は、単一の実施形態において組み合わせて実装されることもある。逆に、単一の実施形態の文脈で説明される様々な特徴は、複数の実施形態において別々に、または任意の適切な部分的組合せで実装されることもある。さらに、特徴はいくつかの組合せにおいて働くものとして上記で説明され、そのようなものとして最初に特許請求されることさえあるが、特許請求される組合せからの1つまたは複数の特徴は、場合によっては、その組合せから削除されることがあり、特許請求される組合せは、部分組合せまたは部分組合せの変形形態を対象とする場合がある。

同様に、動作は、特定の順序で図面に示されるが、これは、望ましい結果を達成するために、そのような動作が図示された特定の順序でもしくは順番に行われること、または例示したすべての動作が行われることを必要とするものと理解されるべきではない。状況によっては、マルチタスキングおよび平行処理が有利であり得る。さらに、上記で説明した実施形態における様々なシステム構成要素の分離は、すべての実施形態においてそのような分離を必要とするものとして理解されるべきではなく、説明したプログラム構成要素およびシステムは一般に、単一のソフトウェア製品に一緒に組み込まれるか、または複数のソフトウェア製品にパッケージ化されることがあると理解されたい。

以上、本主題の特定の実施形態について説明した。他の実施形態は、以下の特許請求の範囲の範囲内にある。場合によっては、特許請求の範囲に列挙されるアクションは、異なる順序で行われ、依然として望ましい結果を達成し得る。加えて、添付の図面に示したプロセスは、所望の結果を達成するために、必ずしも示した特定の順序または順番を必要としない。いくつかの実装形態では、マルチタスキングおよび平行処理が有利であり得る。

100 例示的な環境
110 ビデオプレーヤウィンドウ
120 ビデオアンカー
122 時間インジケータ
124 ビデオフレーム
126 テキストのラベル
130 ビデオアンカー
132 時間インジケータ
134 ビデオフレーム
136 テキストのラベル
140 ビデオアンカー
142 時間インジケータ
144 ビデオフレーム
146 テキストのラベル
150 ビデオ検索結果
152 ビデオ検索結果
154 ビデオ検索結果
156 ビデオ検索結果
200 別のビデオ表示環境
202 ビデオプレーヤウィンドウ
204 プログレスバー
210 ビデオアンカー
212 時間インジケータ
214 テキストのラベル
220 ビデオアンカー
222 時間インジケータ
224 テキストのラベル
230 ビデオアンカー
232 時間インジケータ
234 テキストのラベル
300 システム
302 ビデオ
303 キーモーメント識別子
306 テキスト信号
308 視覚信号
310 手作業のキュレーション
312 関心基準
320 ビデオ
330 ビデオアンカーインデックス
370 ユーザデバイス

Claims

コンピュータ実装方法であって、
ビデオに対して、複数のキーモーメント識別子を取得するステップであって、各キーモーメント識別子が、
前記ビデオにおける再生時間を指定する時間インデックス値を含み、
前記ビデオ内の顕著なトピックを定義する1つまたは複数の関心基準を満たすと決定された前記ビデオの主題を示す、取得するステップと、
各キーモーメント識別子に対して、
前記時間インデックス値によって指定された前記再生時間に始まる前記ビデオの適切なサブセットを選択するステップであって、前記ビデオの前記適切なサブセットが、前記時間インデックス値によって指定された前記再生時間に始まり、別のキーモーメント識別子の別の時間インデックス値によって指定された次の最も近い再生時間に終わるビデオセグメントの長さよりも短い、選択するステップと、
前記ビデオの前記適切なサブセットについて、前記キーモーメント識別子用のテキストのラベルを決定するステップと、
前記ビデオの前記適切なサブセットからビデオフレームを選択するかどうかを決定するために、前記ビデオの前記適切なサブセットの各ビデオフレームを処理するステップと、
各キーモーメント識別子に対して、ビデオアンカーを生成するステップであって、前記ビデオアンカーが、
前記キーモーメント識別子用の前記テキストのラベルと、
前記ビデオの前記適切なサブセットのビデオフレームを選択する決定に応じて、前記ビデオフレームを示す画像と、
ユーザデバイス上のビデオプレーヤに、前記キーモーメント識別子の前記時間インデックス値によって指定された前記再生時間の前記ビデオの再生を開始させる命令と
を含む、生成するステップと、
ユーザデバイスにデータを提供するステップであって、前記データが前記ユーザデバイスのビデオプレーヤ環境で前記ユーザデバイスに、
前記ビデオアンカーの各々と、
各ビデオアンカーに対して、前記ビデオプレーヤのプログレスバー内の時間インジケータであって、前記時間インデックス値によって指定された前記再生時間に対応する時間インジケータと
をレンダリングさせる、提供するステップと
を含み、
各ビデオアンカーが、ユーザによって選択可能であり、前記ビデオアンカーが選択されると、前記ビデオアンカーの前記命令が、ユーザデバイス上の前記ビデオプレーヤに、前記時間インデックス値によって指定された前記再生時間の前記ビデオの再生を開始させる、コンピュータ実装方法。
前記データがさらに、前記ユーザデバイスに各ビデオアンカーに対して、前記対応する時間インジケータから前記ビデオアンカーへのビジュアルリンクをレンダリングさせる、請求項1に記載のコンピュータ実装方法。
前記ビデオの前記適切なサブセットからビデオフレームを選択するかどうかを決定するために、前記ビデオの前記適切なサブセットの各ビデオフレームを処理するステップが、
各ビデオフレームに対して、前記ビデオフレームで説明されるコンテンツを説明する前記ビデオフレーム用のラベルのセットを決定するステップと、
各ビデオフレームに対して、前記ビデオフレーム用の前記ラベルのセットの、前記キーモーメント識別子用の前記テキストのラベルに対する類似性を測定する類似性測度を決定するステップと、
前記ビデオアンカーに含めるための前記画像を生成するために最も高い類似性測度を有する前記ビデオフレームを選択するステップと
を含む、請求項1に記載のコンピュータ実装方法。
最も高い類似性測度を有する前記ビデオフレームを選択するステップが、前記最も高い類似性測度を有し、かつ前記最も高い類似性測度が、選択のための最小類似性測度を指定する選択しきい値を満たすときのみ、前記ビデオフレームを選択するステップを含む、請求項3に記載のコンピュータ実装方法。
前記ビデオの前記適切なサブセットからビデオフレームを選択するかどうかを決定するために、前記ビデオの前記適切なサブセットの各ビデオフレームを処理するステップが、
各ビデオフレームに対して、前記ビデオフレームと、前記ビデオの前記適切なサブセット中の1つまたは複数の他のビデオフレームとの違いを測定する多様性測度を決定するステップと、
前記多様性測度に部分的に基づいてビデオフレームを選択するかどうかを決定するステップと
を含む、請求項1に記載のコンピュータ実装方法。
多様性測度に部分的に基づいてビデフレームを選択するかどうかを決定するステップが、
前記多様性測度に基づいて、前記ビデオの前記適切なサブセットの前記ビデオフレームが、最小多様性を指定する多様性しきい値を満たすかどうかを決定するステップ
を含む、請求項5に記載のコンピュータ実装方法。
前記ビデオの前記適切なサブセットの前記ビデオフレームが前記多様性しきい値を満たすとの決定に応じて、前記ビデオの前記適切なサブセットの前記ビデオフレームの中から1つまたは複数のビデオフレームを選択するステップと、前記選択されたビデオフレームの各々に対して、
前記ビデオフレームで説明されるコンテンツを説明する前記ビデオフレーム用のラベルのセットを決定するステップと、
前記ビデオフレーム用の前記ラベルのセットの、前記キーモーメント識別子用の前記テキストのラベルに対する類似性を測定する類似性測度を決定するステップと、
前記ビデオアンカーに含めるための前記画像を生成するために最も高い類似性測度を有する前記ビデオフレームを選択するステップと
をさらに含む、請求項6に記載のコンピュータ実装方法。
前記ビデオの前記適切なサブセットの前記ビデオフレームが前記多様性しきい値を満たさないとの決定に応じて、前記ビデオアンカーに含めるための前記画像を生成するために前記ビデオの前記適切なサブセットの前記ビデオフレームの1つを選択するステップ
をさらに含む、請求項7に記載のコンピュータ実装方法。
前記ビデオの前記適切なサブセットの前記ビデオフレームが前記多様性しきい値を満たさないとの決定に応じて、前記ビデオアンカーに含めるための前記画像を生成するために前記ビデオの前記適切なサブセットのどのビデオフレームも選択しないステップ
をさらに含む、請求項6に記載のコンピュータ実装方法。
前記ビデオプレーヤの前記プログレスバー内の各対応する時間インジケータが、前記対応する時間インジケータの前記再生時間に始まる前記ビデオの一部分の時間の長さを示す、請求項1に記載のコンピュータ実装方法。
システムであって、
データ処理装置と、
前記データ処理装置とデータ通信し、前記データ処理装置によって実行可能であって、そのような実行時に、前記データ処理装置に動作を行わせる命令を記憶する、非一時的コンピュータ可読媒体とを含み、前記動作が、
ビデオに対して、複数のキーモーメント識別子を取得する動作であって、各キーモーメント識別子が、
前記ビデオにおける再生時間を指定する時間インデックス値を含み、
前記ビデオ内の顕著なトピックを定義する1つまたは複数の関心基準を満たすと決定された前記ビデオの主題を示す、取得する動作と、
各キーモーメント識別子に対して、
前記時間インデックス値によって指定された前記再生時間に始まる前記ビデオの適切なサブセットを選択する動作であって、前記ビデオの前記適切なサブセットが、前記時間インデックス値によって指定された前記再生時間に始まり、別のキーモーメント識別子の別の時間インデックス値によって指定された次の最も近い再生時間に終わるビデオセグメントの長さよりも短い、選択する動作と、
前記ビデオの前記適切なサブセットについて、前記キーモーメント識別子用のテキストのラベルを決定する動作と、
前記ビデオの前記適切なサブセットからビデオフレームを選択するかどうかを決定するために、前記ビデオの前記適切なサブセットの各ビデオフレームを処理する動作と、
各キーモーメント識別子に対して、ビデオアンカーを生成する動作であって、前記ビデオアンカーが、
前記キーモーメント識別子用の前記テキストのラベルと、
前記ビデオの前記適切なサブセットのビデオフレームを選択する決定に応じて、前記ビデオフレームを示す画像と、
ユーザデバイス上のビデオプレーヤに、前記キーモーメント識別子の前記時間インデックス値によって指定された前記再生時間の前記ビデオの再生を開始させる命令と
を含む、生成する動作と、
ユーザデバイスにデータを提供する動作であって、前記データが前記ユーザデバイスのビデオプレーヤ環境で前記ユーザデバイスに、
前記ビデオアンカーの各々と、
各ビデオアンカーに対して、前記ビデオプレーヤのプログレスバー内の時間インジケータであって、前記時間インデックス値によって指定された前記再生時間に対応する時間インジケータと
をレンダリングさせる、提供する動作と
を含み、
各ビデオアンカーが、ユーザによって選択可能であり、前記ビデオアンカーが選択されると、前記ビデオアンカーの前記命令が、ユーザデバイス上の前記ビデオプレーヤに、前記時間インデックス値によって指定された前記再生時間の前記ビデオの再生を開始させる、システム。
前記データがさらに、前記ユーザデバイスに各ビデオアンカーに対して、前記対応する時間インジケータから前記ビデオアンカーへのビジュアルリンクをレンダリングさせる、請求項11に記載のシステム。
前記ビデオの前記適切なサブセットからビデオフレームを選択するかどうかを決定するために、前記ビデオの前記適切なサブセットの各ビデオフレームを処理する動作が、
各ビデオフレームに対して、前記ビデオフレームで説明されるコンテンツを説明する前記ビデオフレーム用のラベルのセットを決定する動作と、
各ビデオフレームに対して、前記ビデオフレーム用の前記ラベルのセットの、前記キーモーメント識別子用の前記テキストのラベルに対する類似性を測定する類似性測度を決定する動作と、
前記ビデオアンカーに含めるための前記画像を生成するために最も高い類似性測度を有する前記ビデオフレームを選択する動作と
を含む、請求項11に記載のシステム。
最も高い類似性測度を有する前記ビデオフレームを選択する動作が、前記最も高い類似性測度を有し、かつ前記最も高い類似性測度が、選択のための最小類似性測度を指定する選択しきい値を満たすときのみ、前記ビデオフレームを選択する動作を含む、請求項13に記載のシステム。
前記ビデオの前記適切なサブセットからビデオフレームを選択するかどうかを決定するために、前記ビデオの前記適切なサブセットの各ビデオフレームを処理する動作が、
各ビデオフレームに対して、前記ビデオフレームと、前記ビデオの前記適切なサブセット中の1つまたは複数の他のビデオフレームとの違いを測定する多様性測度を決定する動作と、
前記多様性測度に部分的に基づいてビデオフレームを選択するかどうかを決定する動作と
を含む、請求項11に記載のシステム。
前記多様性測度に部分的に基づいてビデフレームを選択するかどうかを決定する動作が、
前記多様性測度に基づいて、前記ビデオの前記適切なサブセットの前記ビデオフレームが、最小多様性を指定する多様性しきい値を満たすかどうかを決定する動作
を含む、請求項15に記載のシステム。
前記ビデオの前記適切なサブセットの前記ビデオフレームが前記多様性しきい値を満たすとの決定に応じて、前記ビデオの前記適切なサブセットの前記ビデオフレームの中から1つまたは複数のビデオフレームを選択する動作と、前記選択されたビデオフレームの各々に対して、
前記ビデオフレームで説明されるコンテンツを説明する前記ビデオフレーム用のラベルのセットを決定する動作と、
前記ビデオフレーム用の前記ラベルのセットの、前記キーモーメント識別子用の前記テキストのラベルに対する類似性を測定する類似性測度を決定する動作と、
前記ビデオアンカーに含めるための前記画像を生成するために最も高い類似性測度を有する前記ビデオフレームを選択する動作と
をさらに含む、請求項16に記載のシステム。
前記ビデオの前記適切なサブセットの前記ビデオフレームが前記多様性しきい値を満たさないとの決定に応じて、前記ビデオアンカーに含めるための前記画像を生成するために前記ビデオの前記適切なサブセットの前記ビデオフレームの1つを選択する動作
をさらに含む、請求項17に記載のシステム。
前記ビデオの前記適切なサブセットの前記ビデオフレームが前記多様性しきい値を満たさないとの決定に応じて、前記ビデオアンカーに含めるための前記画像を生成するために前記ビデオの前記適切なサブセットのどのビデオフレームも選択しない動作
をさらに含む、請求項16に記載のシステム。
データ処理装置とデータ通信し、前記データ処理装置によって実行可能であって、そのような実行時に、前記データ処理装置に動作を行わせる命令を記憶する、コンピュータ可読記録媒体であって、前記動作が、
ビデオに対して、複数のキーモーメント識別子を取得する動作であって、各キーモーメント識別子が、
前記ビデオにおける再生時間を指定する時間インデックス値を含み、
前記ビデオ内の顕著なトピックを定義する1つまたは複数の関心基準を満たすと決定された前記ビデオの主題を示す、取得する動作と、
各キーモーメント識別子に対して、
前記時間インデックス値によって指定された前記再生時間に始まる前記ビデオの適切なサブセットを選択する動作であって、前記ビデオの前記適切なサブセットが、前記時間インデックス値によって指定された前記再生時間に始まり、別のキーモーメント識別子の別の時間インデックス値によって指定された次の最も近い再生時間に終わるビデオセグメントの長さよりも短い、選択する動作と、
前記ビデオの前記適切なサブセットについて、前記キーモーメント識別子用のテキストのラベルを決定する動作と、
前記ビデオの前記適切なサブセットからビデオフレームを選択するかどうかを決定するために、前記ビデオの前記適切なサブセットの各ビデオフレームを処理する動作と、
各キーモーメント識別子に対して、ビデオアンカーを生成する動作であって、前記ビデオアンカーが、
前記キーモーメント識別子用の前記テキストのラベルと、
前記ビデオの前記適切なサブセットのビデオフレームを選択する決定に応じて、前記ビデオフレームから生成された画像と、
ユーザデバイス上のビデオプレーヤに、前記キーモーメント識別子の前記時間インデックス値によって指定された前記再生時間に前記ビデオの再生を開始させる命令と
を含む、生成する動作と、
ユーザデバイスにデータを提供する動作であって、前記データが前記ユーザデバイスのビデオプレーヤ環境で前記ユーザデバイスに、
前記ビデオアンカーの各々と、
各ビデオアンカーに対して、前記ビデオプレーヤのプログレスバー内の時間インジケータであって、前記時間インデックス値によって指定された前記再生時間に対応する時間インジケータと、
各ビデオアンカーに対して、前記対応する時間インジケータから前記ビデオアンカーへのビジュアルリンクと
をレンダリングさせる、提供する動作と
を含み、
各ビデオアンカーが、ユーザによって選択可能であり、前記ビデオアンカーが選択されると、前記ビデオアンカーの前記命令が、ユーザデバイス上の前記ビデオプレーヤに、前記時間インデックス値によって指定された前記再生時間の前記ビデオの再生を開始させる、コンピュータ可読記録媒体。
前記ビデオの前記適切なサブセットからビデオフレームを選択するかどうかを決定するために、前記ビデオの前記適切なサブセットの各ビデオフレームを処理する動作が、
各ビデオフレームに対して、前記ビデオフレームで説明されるコンテンツを説明する前記ビデオフレーム用のラベルのセットを決定する動作と、
各ビデオフレームに対して、前記ビデオフレーム用の前記ラベルのセットの、前記キーモーメント識別子用の前記テキストのラベルに対する類似性を測定する類似性測度を決定する動作と、
前記ビデオアンカーに含めるために最も高い類似性測度を有する前記ビデオフレームを選択する動作と
を含む、請求項20に記載のコンピュータ可読記録媒体。