JP2023502376A

JP2023502376A - 重み付き知識グラフに基づくビデオ・セグメンテーション

Info

Publication number: JP2023502376A
Application number: JP2022527888A
Authority: JP
Inventors: ワンミャオ、ワン; ヤンイン、クン; ゴンワン、ジャン; フー、ヤン; ナワン、リャン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-11-19
Filing date: 2020-10-20
Publication date: 2023-01-24
Also published as: CN114746857A; CN114746857B; AU2020387677A1; US11093755B2; WO2021099858A1; US20210150224A1; GB2605723A; AU2020387677B2; KR20220073789A; GB202208933D0; DE112020005726T5; DE112020005726B4

Abstract

ビデオをセグメント化するためのシステム、方法、およびコンピュータ・プログラム製品。システムは、少なくとも１つの処理コンポーネント、少なくとも１つのメモリ・コンポーネント、ビデオ、抽出コンポーネント、およびグラフ化コンポーネントを含む。抽出コンポーネントは、ビデオから画像データおよびテキスト・データを抽出し、画像データ内のエンティティを識別し、画像データ内のエンティティに少なくとも１つのエンティティ関係を割り当て、テキスト・データ内のエンティティを識別し、テキスト・データ内のエンティティに少なくとも１つのエンティティ関係を割り当てるように構成される。グラフ化コンポーネントは、画像データ内のエンティティに割り当てられたエンティティ関係についての画像知識グラフを生成し、テキスト・データ内の少なくとも２つのエンティティに割り当てられたエンティティ関係についてのテキスト知識グラフを生成し、画像知識グラフおよびテキスト知識グラフに基づいて、重み付き知識グラフを生成するように構成される。

Description

本開示は、ビデオ・セグメンテーションに関し、より詳細には、ビデオ内で識別されたエンティティ間の関係に基づいてビデオをセグメント化することに関する。

ビデオは、通常、オーディオ・データ（例えば、音声、音楽、および他のノイズ）が付随する時間依存の画像データ（例えば、ビデオ・フレーム内のグラフィック画像）を含む。このデータには、キャプション、字幕、音声対テキスト・エンジンを介して音声データから抽出されたテキスト、スクリプト、トランスクリプトなどの形式でテキストを付随させることができる。ビデオは、エンティティ（例えば、特定の人物、動物、無生物など）、および画像データ、オーディオ・データ、またはテキスト・データあるいはその組合せから抽出された他の特徴（例えば、ディスカッションのトピック、場所／環境、言語、音楽など）などのコンテンツに基づいて、フレームのグループにセグメント化され得る。例えば、映画内の場所は、その場所に特徴的なコンテンツ（例えば、言語、景色など）に基づいて検出され得る。この環境を表すビデオ・フレームは、グループ化されてセグメントを形成することができる。これは、典型的には、ビデオ・ショット検出セグメンテーションによって実行される。しかしながら、これは、２つ以上のショットで発生するビデオ内のシナリオ、または２つ以上のシナリオを含むショットを考慮しない。

本発明は、請求項１に記載の方法、ならびに請求項８および請求項９に記載の対応するシステムおよびコンピュータ・プログラム製品を提供する。

本開示のいくつかの実施形態による、ビデオ・セグメンテーション環境を示すブロック図である。本開示のいくつかの実施形態による、ビデオをセグメント化するプロセスを示す流れ図である。本開示のいくつかの実施形態による、ビデオ内のエンティティ関係（entity relation）を識別するプロセスを示す概略図である。本開示のいくつかの実施形態による、テキスト知識グラフおよび画像知識グラフを生成するプロセスを示す概略図である。本開示のいくつかの実施形態による、重み付き知識グラフを生成するプロセスを示す概略図である。本開示のいくつかの実施形態による、コンピュータ・システムを示すブロック図である。本開示のいくつかの実施形態による、クラウド・コンピューティング環境を示すブロック図である。本開示のいくつかの実施形態による、クラウド・コンピューティング環境によって提供される１組の機能抽象化モデル層を示すブロック図である。

ビデオ・セグメンテーションは、ビデオ・フレームを関連するセグメントにグループ化するプロセスである。これにより、（例えば、ユーザ・クエリに応答して）ビデオの特定の部分を位置特定することが可能になる。ビデオは、ショット遷移検出に基づいて時間的にセグメント化され得る。ビデオ・ショットは、相互に関連して継続的なアクションを表す、一連の連続したフレームである。ショット遷移は、視覚的または音楽的な不連続性、カメラの動きなどに基づいて検出され得る。しかしながら、ショット遷移に基づくビデオのセグメンテーションは、ビデオ内の特定のシナリオ／ストーリーを位置特定することに関しては、不正確であることが頻繁にある。

例えば、シナリオが複数のショットを含む場合、またはショットが複数のシナリオを含む場合、ショット遷移(shot transition)技術は機能しないことが多い。例えば、経費システムのトレーニング・ビデオは、ユーザの登録方法、チケットの添付方法、および経費の入力方法を説明するシナリオを含むことができる。ユーザは、経費の入力方法に関する解説を、このシナリオを含むセグメントを検索することによって位置特定したい場合がある。しかしながら、現在の自動セグメンテーション技術では、セグメントが、連続するフレームのみ、または単一のショットのみ、あるいはその両方のみを含む場合、このシナリオに関連するビデオのセクションが除外される可能性がある。例えば、シナリオのうちの１つに関連する連続していないフレームのセットがビデオ内に２つ以上存在する可能性がある。したがって、ユーザが、既存の技術を採用して、例えば経費システム内でチケットを添付することに関連するシナリオについて検索する際、このシナリオに関連するビデオのフレームは、そのシナリオ用に生成されたセグメントから抜ける可能性がある。

本明細書では、ビデオをシナリオにセグメント化するための技術を開示する。本開示の技術は、重み付き知識グラフを使用して、一定の間隔（例えば、１セット当たり１０フレーム）で分割された連続するフレームのセット内のエンティティの関連するペアを識別することを含む。これらのフレームのセットを、本明細書では「ピクチャ」と呼ぶ。次いで、関連するエンティティを含むフレームが、セグメントにグループ化される。例えば、ビデオのフレームが１００個存在する可能性があり、フレーム５１～５３および６１～７０はそれぞれ、関連するエンティティのペアである人物Ａと人物Ｂとを含む可能性がある。関連するエンティティのペアを、本明細書では「エンティティ関係」と呼ぶ。この例では、エンティティ関係は、閾値関係重みよりも大きい、重み付き知識グラフ上の関係重みを有する。閾値関係重みよりも大きい重みを有するエンティティ関係を、本明細書では「上位関係（top relation）」と呼ぶ。フレーム５１～５３および６１～７０は上位関係を含むので、これらのフレームは、１つのビデオ・セグメントにグループ化され得る。他の上位関係を含むフレームは、さらなるセグメントにグループ化され得る。上位関係ではないエンティティ関係を含むフレームは、最も近いリンクされたフレームを有するセグメントにリンクされ得る。例えば、フレーム５１～６０の中に上位関係以外のエンティティ関係が含まれる場合、これらのフレームは、前述のセグメントにリンクされて、フレーム５１～７０を含むセグメントを形成することができる。

図１は、本開示のいくつかの実施形態による、ビデオ・セグメンテーション環境１００を示すブロック図である。ビデオ・セグメンテーション環境１００は、ビデオ１１０、およびビデオ１１０をセグメント化するためのセグメンテーション・モジュール１２０を含む。セグメンテーション・モジュール１２０は、抽出コンポーネント１４０、グラフ化コンポーネント１５０、およびグループ化コンポーネント１６０を含む。

ビデオ１１０は、オーディオ・ビデオ・インターリーブ（ＡＶＩ）、波形オーディオ（ＷＡＶ）、アニメーション（ＡＮＩ）、オーディオ・インターチェンジ・ファイル・フォーマット（ＡＩＦＦ）、グラフィックス・インターチェンジ・フォーマット（ＧＩＦ）、モーション・ピクチャ・エキスパート・グループ（ＭＰＥＧ、例えば、ＭＰＥＧ－４）、８ビット・サンプル・ボイス（８ＳＶＸ）などの任意の適切なファイル・フォーマット規格に従って符号化され得る。ビデオ１１０はフレームを含み、フレームのうちの１つまたは複数は、人物、動物、または無生物あるいはその組合せなどのエンティティを描写する。ビデオ１１０は、キャプション、字幕、トランスクリプト、コンピュータ可読音声データなどの形式のテキスト・データも含む。ビデオ１１０は、連続するフレームの少なくとも１つのセットを含み、各セットを、本明細書では「ピクチャ」と呼ぶ。これについては以下で詳細に説明する。

抽出コンポーネント１４０は、ビデオ１１０の画像データからエンティティおよびエンティティ関係を抽出する。エンティティは、特定の人物、動物、無生物などを含むことができる。エンティティ関係は、同じピクチャから抽出されたエンティティの各ペアに割り当てられる。抽出コンポーネント１４０は、領域ベースの畳み込みニューラル・ネットワーク（Ｒ－ＣＮＮ）、スケール不変特徴変換（ＳＩＦＴ）、リアルタイム・オブジェクト検出技術、パターン検出、エッジ／輪郭／リッジ検出、ヒストグラム分析などの様々な画像認識技術を使用してエンティティを識別することができる。エンティティを含まないピクチャが１つまたは複数存在する可能性もある。例えば、顔認識に基づいてエンティティを識別することができる。このような場合、風景などの特徴のみを含むピクチャにおいては、識別されるエンティティはない。

抽出コンポーネント１４０は、エンティティを、そのエンティティが抽出されたピクチャにマッピングする。例えば、抽出コンポーネント１４０は、第１のピクチャ（「ピクチャ１」）が第１の人物および鳥を描写し、第２のピクチャ（「ピクチャ２」）が第２の人物および鳥を描写し、第３のピクチャ（「ピクチャ３」）が、第１の人物、第２の人物、および鳥を含むと判断することができる。次いで、画像データに基づいて、次のエンティティ関係、すなわち、第１の人物／鳥（ピクチャ１およびピクチャ３）、第２の人物／鳥（ピクチャ２およびピクチャ３）、ならびに第１の人物／第２の人物（ピクチャ３）が確立され得る。

抽出コンポーネント１４０は、ビデオ１１０からのテキスト・データまたはオーディオ（例えば、音声）データあるいはその両方におけるエンティティおよびエンティティ関係も識別する。抽出されたテキストは、キャプション、またはビデオに関連する他のテキスト（例えば、字幕、トランスクリプトなど）を含む可能性がある。抽出されたオーディオ・コンテンツからの音声データは、少なくとも１つの音声対テキスト・エンジンによって、（例えば、人工ニューラル・ネットワーク、畳み込みニューラル・ネットワーク、統計モデリング、隠れマルコフ・モデル（ＨＭＭ：Hidden Markov Model）、格子ベースの分析、エントロピ・ベースの音声セグメンテーション・アルゴリズム、ＣＭＵＳｐｈｉｎｘなどの技術を使用して）機械符号化テキストに変換され得る。抽出コンポーネント１４０は、光学式文字認識（ＯＣＲ：optical character recognition）またはインテリジェント文字認識（ＩＣＲ：intelligent character recognition）などの技術を使用して、ビデオ１１０フレーム内で検出された文字（例えば、字、数字、句読点など）を機械符号化テキストに変換することによって得られたテキストから、特徴を抽出することもできる。例えば、抽出コンポーネント１４０は、建物の看板、本の表紙などの物体上に印刷されたテキストを識別することができる。

エンティティは、テキスト内で様々な方法で識別され得る。例えば、抽出コンポーネント１４０は、登場人物名などのキーワードを識別することができる。さらに、キャプション、スクリプトなどのテキストは、テキストの各部分をどの登場人物（エンティティ）が話しているかを識別することができる。いくつかの実施形態では、テキスト非依存型またはテキスト依存型あるいはその両方の話者認識技術（例えば、周波数推定、線形予測符号化（ＬＰＣ：linear predictive coding）、ＨＭＭ、ガウス混合モデル、パターン・マッチング・アルゴリズム、ニューラル・ネットワーク、行列表現、ベクトル量子化、決定木など）を使用して、エンティティを、音声オーディオ・データ内で識別することもできる。

さらに、抽出コンポーネント１４０は、エンティティを、そのエンティティが抽出されたテキストに関連付けられたビデオ・フレームにマッピングする。フレームは、特定のエンティティに対して話されているテキスト、特定のエンティティによって話されているテキスト、または特定のエンティティについて話されているテキストに関連付けられ得る。ビデオ１１０のピクチャ１～３を含む前の例に戻ると、ビデオ１１０は、１０フレーム間隔でピクチャに分割され得、ピクチャ３は、フレーム２１～３０を含み得る。このピクチャでは、フレーム２１～２４は、第１の人物によって第２の人物に対して話されたテキスト（例えば「こんにちは」）を含むことができ、フレーム２７～２９は、第２の人物によって第１の人物に対して話された鳥に関する文（例えば「鳥を見てください」）を含むことができる。抽出コンポーネント１４０は、エンティティおよび関連するフレームに基づいて、次のエンティティ関係、すなわち、第１の人物／第２の人物（フレーム２１～２４および２７～２９）、第１の人物／鳥（フレーム２７～２９）、ならびに第２の人物／鳥（フレーム２７～２９）を識別することができる。

グラフ化コンポーネント１５０は、抽出された画像データおよびテキスト・データ内で識別されたエンティティおよびエンティティ関係に基づいて、画像知識グラフおよびテキスト知識グラフを生成する。グラフ化コンポーネント１５０は、画像知識グラフおよびテキスト知識グラフに基づいて、重み付き知識グラフも生成する。重み付き知識グラフは、テキスト・データおよび画像データ内のエンティティの各エンティティ関係を含む。エンティティ関係は、各関係が発生する頻度に基づいて重み付けされる。前の例を再び参照すると、エンティティ関係である第１の人物／鳥の重みは、そのエンティティ関係が２つのピクチャ（ピクチャ１およびピクチャ３）内で発生するので、他の２つの関係に比べて高くなる可能性がある。エンティティ関係である第１の人物／鳥の重みは、そのエンティティ関係がピクチャ３内で２回（フレーム２１～２４および２７～２９）発生するので、さらに高くなる可能性がある。知識グラフの例は、図３Ａ～図３Ｃに示されている。

グループ化コンポーネント１６０は、重み付き知識グラフにおける重み付きエンティティ関係に基づいて、ビデオ・フレームをセグメントにグループ化する。そうするために、グループ化コンポーネント１６０は、上位エンティティ関係を識別する。上位エンティティ関係は、重み付き知識グラフにおける、閾値関係重みの値を超える重みを有するエンティティ関係である。閾値は、事前設定された値またはユーザ入力値とすることができる。いくつかの実施形態では、所望のセグメント・サイズまたは選択性あるいはその両方に基づいて、閾値が調整され得る。閾値を超える関係重みを有する各エンティティ関係に対応するフレームは、共にセグメントにグループ化される。閾値を下回る関係重みを有する残りのエンティティ関係にのみ対応するフレームは、最も近い時間的にリンクされたフレームとグループ化される。残りのエンティティ関係を伴うフレームから同じ距離に２つ以上のセグメントがある場合、フレームは、重み値が最も高い上位エンティティ関係を有するセグメントとグループ化され得る。関係重み値およびグループ化されたセグメントの例については、図３Ｃに関連してより詳細に説明されている。

図２は、本開示のいくつかの実施形態による、ビデオをセグメント化するプロセス２００を示す流れ図である。プロセス２００を説明するために、図２は、図１のビデオ・セグメンテーション環境１００のコンテキスト内で説明されているが、これは実施形態を限定するものではない。図２に示す要素は、図１に示す要素と同一であり、両方の図において同じ参照番号が使用されている。

プロセス２００は、ビデオ１１０が受信されたときに開始する。これは、ステップ２１０に示されている。ビデオ・フォーマットについては、図１に関連してより詳細に説明されている。ビデオ１１０の少なくとも１つのフレームは、２つ以上のエンティティ（例えば、人間、動物、アニメのキャラクタなど）を描写している。さらに、フレームのうちの少なくとも１つは、エンティティのうちの少なくとも２つについて言及するテキスト・データに関連付けられている。いくつかの実施形態では、テキスト・データは、キャプション、字幕、スクリプトなどからのものである。テキストは、録音された対話またはナレーションなどのオーディオ・データからのものとすることもできる。ビデオ１１０は、一定の間隔で分割されて、本明細書では「ピクチャ」と呼ぶフレームのセットを形成する。各ピクチャ内のフレーム数は、ユーザによって事前設定され得るか、または選択され得るか、あるいはその両方である。いくつかの実施形態では、１ピクチャ当たり１０フレームが存在するが、ピクチャ間隔は、任意の数の連続するフレーム（例えば、２４フレーム、３０フレーム、１００フレーム、１２０フレーム、２４０フレーム、３００フレーム、５００フレーム、１，０００フレームなど）を含むことができる。

テキスト知識グラフおよび画像知識グラフは、ビデオ１１０内で識別されたエンティティおよびエンティティ関係に基づいて生成される。これは、ステップ２２０に示されている。エンティティおよびエンティティ関係は、抽出コンポーネント１４０によってビデオ１１０から抽出されたテキスト・データおよび画像データ内で識別される。データの抽出およびエンティティおよびエンティティ関係の識別については、図１に関連してより詳細に説明されている。グラフ化コンポーネント１５０は、エンティティ関係に基づいて、同じピクチャ内に出現するエンティティをリンクする画像知識グラフを生成する。各ピクチャには、ピクチャ番号ｎを割り当てることができ、ピクチャ番号ｎは、ゼロより大きい整数（例えば、ピクチャ１、ピクチャ２、ピクチャ３など）とすることができる。リンクされたエンティティの各ペアを、本明細書では「エンティティ関係」と呼ぶ。画像知識グラフは、各エンティティ関係が発生するピクチャの数を示すこともできる。画像知識グラフの生成については、図１および図３Ａに関連してより詳細に説明されている。

テキスト知識グラフは、抽出コンポーネント１４０によって抽出されたテキスト・データ内で識別されたエンティティおよびエンティティ関係を含む。例えば、ビデオ１１０から、２つのエンティティ間の会話を含むテキストが抽出されるとき、テキスト知識グラフ内でエンティティ関係が確立され得る。テキスト知識グラフは、テキスト・データ内で識別された各エンティティ関係の発生数、およびこれらの発生にどのフレームが関連付けられているかを示すこともできる。テキスト知識グラフの生成については、図１および図３Ｂに関連してより詳細に説明されている。

次いで、重み付き知識グラフが生成される。これは、ステップ２３０で示されている。重み付き知識グラフは、グラフ化コンポーネント１５０によって生成され、画像知識グラフとテキスト知識グラフの両方からのエンティティ関係を含む。グラフ化コンポーネント１５０は、エンティティ関係が出現するピクチャの数、またはテキスト・データでのエンティティ関係の発生数に基づいて、各エンティティ関係に重みを付ける。重み付き知識グラフについては、図１および図３Ｃに関連してより詳細に説明されている。

重み付き知識グラフからの上位関係を含むフレームは、ビデオ・セグメントにグループ化される。これは、ステップ２４０に示されている。グループ化コンポーネント１６０は、重み付き知識グラフにおいて上位関係を識別する。上位関係は、閾値関係重みよりも大きい関係重みを有するエンティティ関係である。ステップ２４０で形成された各ビデオ・セグメントは、少なくとも１つの上位関係が識別されたフレームを含む。図１に関連して説明した例では、ビデオ１１０は、ピクチャ１、２、および３を有し、上位関係は、第１の人物／鳥とすることができる。したがって、フレーム２１～２４および２７～２９が第１の人物／鳥というエンティティ関係を含むので、これらのフレームに対してセグメントが生成され得る。関係重みに基づくグループ化の例については、図１および図３Ｃに関連してより詳細に説明されている。

上位関係についてビデオ・セグメントが生成されると、セグメントにグループ化されていないフレームが残っているかどうかが判定される。これは、ステップ２５０に示されている。残りのフレームがないと判定された場合、プロセス２００は終了することができる。しかしながら、フレームが残っている場合、残りのフレームは、最も近いフレームを有するステップ２４０で形成されたセグメントに追加される。これは、ステップ２６０に示されている。残りのフレームは、関係重みが関係重み閾値を下回るエンティティ関係を含むフレームである。残りのフレームは、上位関係は含まない。フレーム１～９０を含むビデオ１１０の例では、ステップ２４０において、上位関係について、フレーム２０～３５およびフレーム４５～９０を含むセグメントが生成され得る。ステップ２５０において、フレーム３６～４４が残りのフレームであると判定され得る。次いで、ステップ２６０において、これらのフレームは、フレーム２０～３５および４５～９０を有するセグメントが最も近いフレームを含むので、このセグメントに追加され得る。１つまたは複数の残りのフレームから同じ距離のフレームを有するセグメントがある場合、残りのフレームは、より大きい関係重みを伴うエンティティ関係を有するセグメントとグループ化され得る。残りのフレームがそれぞれビデオ・セグメントに追加されると、プロセス２００は終了する。

図３Ａ～図３Ｃは、本開示のいくつかの実施形態による、ビデオ・セグメンテーションのための知識グラフを生成するプロセス３００、３０１、および３０２を示す概略図である。プロセス３００～３０２を説明するために、図３Ａ～図３Ｃは、図１のビデオ・セグメンテーション環境１００および図２のプロセス２００のコンテキスト内で説明されているが、これは実施形態を限定するものではない。図３Ａ～図３Ｃに示す要素は、図１および図２に示す要素と同一であり、各図において同じ参照番号が使用されている。

図３Ａは、本開示のいくつかの実施形態による、ビデオ１１０内のエンティティ関係を識別するプロセス３００を示す概略図である。抽出コンポーネント１４０（図１）は、ビデオ１１０からテキスト・データ３１０を抽出し、データ３１０内のエンティティおよびエンティティ関係を識別する。テキスト・データ３１０から抽出されたエンティティは、列３２２、列３２４、および列３２６を含む表３２０に示されている。列３２２は、それぞれがテキスト・データ３１０における少なくとも１つのエンティティ関係の発生を示す番号（１～８）を含む。テキスト３１０の発生を含む部分はそれぞれ、１つまたは複数のビデオ・フレームに関連付けられている。列３２２内の発生に対応するビデオ・フレームは、列３２４内のフレーム番号によって識別される。列３２６は、各発生時にエンティティ関係に含まれるエンティティの名前を含む。表３２０に基づけば、テキスト・データ３１０から抽出されたエンティティ関係は、Ｓａｒａｈ／Ｇｅｏｆｆ（発生１）、Ｔｈｕｙ／Ｇｅｏｆｆ（発生２、発生４、および発生５）、Ｔｈｕｙ／Ｓａｒａｈ（発生３）、Ｔｈｕｙ／Ｃｈｅｒｙｌ（発生４および発生５）、Ｃｈｅｒｙｌ／Ｇｅｏｆｆ（発生４および発生５）、Ｂａｒｂａｒａ／Ｈａｎｎａｈ（発生６）、ならびにＤａｎｉｅｌｌｅ／Ｗｉｌｌｉａｍ（発生７および発生８）を含む。

抽出コンポーネント１４０は、ビデオ１１０から画像データ３３０も抽出する。画像データ３３０から抽出されたエンティティおよびエンティティ関係は、列３４２、列３４４、および列３４６を含む表３４０に示されている。列３４２は、ビデオ１１０の連続する１０フレームのセットにそれぞれ対応するピクチャ番号１～１０を含む。列３４４は、各ピクチャに含まれるフレームの数を含む。列３４６は、各ピクチャ内で識別されたエンティティの名前を含む。表３４０に基づけば、画像データ３３０内で識別されたエンティティ関係は、Ｓａｒａｈ／Ｇｅｏｆｆ（ピクチャ１およびピクチャ３）、Ｓａｒａｈ／Ｋｉｍ（ピクチャ１）、Ｇｅｏｆｆ／Ｋｉｍ（ピクチャ１）、Ｔｈｕｙ／Ｋｉｍ（ピクチャ２）、Ｔｈｕｙ／Ｃｈｅｒｙｌ（ピクチャ４とピクチャ５）、Ｂａｒｂａｒａ／Ｎｅｄ（ピクチャ６）、Ｂａｒｂａｒａ／Ｈａｎｎａｈ（ピクチャ７）、Ｂａｒｂａｒａ／Ｒｉｔａ（ピクチャ７）、Ｒｉｔａ／Ｈａｎｎａｈ（ピクチャ７）、Ｄａｎｉｅｌｌｅ／Ｗｉｌｌｉａｍ（ピクチャ８）、Ｄａｎｉｅｌｌｅ／Ｅｌｌｅｎ（ピクチャ８およびピクチャ９）、ならびにＷｉｌｌｉａｍ／Ｅｌｌｅｎ（ピクチャ８およびピクチャ１０）を含む。

図３Ｂは、本開示のいくつかの実施形態による、テキスト知識グラフ３５０および画像知識グラフ３６０を生成するプロセス３０１を示す概略図である。プロセス３０１を実行するために使用できる技術については、プロセス２００のステップ２２０に関連してより詳細に説明されている。テキスト知識グラフ３５０および画像知識グラフ３６０は、グラフ化コンポーネント１５０（図１）によって、それぞれ表３２０および表３４０（図３Ａ）からのデータに基づいて生成される。各知識グラフ３５０および３６０内のノードはエンティティを表し、ノード内の字は、それぞれ表３２０（列３２６）および表３４０（列３４６）にリストされているエンティティの最初の頭文字である。

各知識グラフ３５０および３６０内の線は、エンティティ関係を表す。出現回数および対応するフレームなどの表３２０からの情報は、テキスト知識グラフ３５０内の線に関連付けられ得る。例えば、Ｓａｒａｈ／Ｇｅｏｆｆ（Ｓ／Ｇ）というエンティティ関係を表す線は、Ｓ／Ｇというエンティティ関係の発生が１回あり、その発生がフレーム１～３にあることを示す情報にリンクされ得る。さらに、表３４０におけるピクチャ番号（列３４２）および対応するフレーム（列３４４）は、画像知識グラフ３６０内の線に関連付けられ得る。例えば、Ｓ／Ｇというエンティティ関係は、ピクチャ１およびピクチャ３にＳａｒａｈとＧｅｏｆｆの両方が出現し、その出現がフレーム１～１０および２１～３０に対応することを示す情報にリンクされ得る。プロセス３００およびプロセス３０１を実行するために使用できる技術については、プロセス２００のステップ２１０およびステップ２２０に関連してより詳細に説明されている。

図３Ｃは、本開示のいくつかの実施形態による、重み付き知識グラフ３７０を生成するプロセス３０２を示す概略図である。重み付き知識グラフ３７０は、上位関係を表す実線と、残りのエンティティ関係を表す破線とを含む。プロセス３０２を実行するために使用できる技術については、プロセス２００のステップ２３０～２６０に関連してより詳細に説明されている。重み付き知識グラフ３７０は、グラフ化コンポーネント１５０によって生成され、グラフ化コンポーネント１５０は、テキスト知識グラフ３５０および画像知識グラフ３６０（図３Ｂ）におけるエンティティおよびエンティティ関係の和集合を算出する。これを、次式、
｛Ｅｎｔｉｔｉｅｓ_{ＷｅｉｇｈｔｅｄＫＧ}｝＝｛Ｅｎｔｉｔｉｅｓ_{ＴｅｘｔＫＧ}｝∪｛Ｅｎｔｉｔｉｅｓ_{ＩｍａｇｅＫＧ}｝
｛Ｒｅｌａｔｉｏｎｓ_{ＷｅｉｇｈｔｅｄＫＧ}｝＝｛Ｒｅｌａｔｉｏｎｓ_{ＴｅｘｔＫＧ}｝∪｛Ｒｅｌａｔｉｏｎｓ_{ＩｍａｇｅＫＧ}｝
によって表すことができ、式中、「ＫＧ」は「知識グラフ」を表す。

グラフ化コンポーネント１５０は、テキスト知識グラフ３５０および画像知識グラフ３６０においてエンティティ関係が発生する回数に基づいて、各エンティティ関係の関係重みを決定する。例えば、エンティティ関係の関係重みは、次式、

を使用して算出することができ、式中、Ｗｅｉｇｈｔ_ｒは関係重みであり、ｉＷｅｉｇｈｔ_ｒは画像知識グラフ３６０でのエンティティ関係の発生数であり、ｔＷｅｉｇｈｔ_ｒはテキスト知識グラフ３５０でのエンティティ関係の発生数であり、σ_ｐは画像知識グラフ３６０から重み付き知識グラフ３５０への影響係数である。表３８０は、重み付き知識グラフ３７０におけるエンティティ関係（列３８４）について算出された上位関係重み（列３８２）、および各エンティティ関係を含むビデオ・フレーム（列３８６）を含む。閾値を下回るＷｅｉｇｈｔ_ｒ値（例えば、Ｗｅｉｇｈｔ_ｒ＝０．０５）を有する残りのエンティティ関係は、表３８０に示されていない。

表３８０における上位関係に対応するフレーム（列３８６）は、グループ化コンポーネント１６０（図１）によってビデオ・セグメントにグループ化される。図３Ｃに示す例では、ビデオ１１０（図１および図３Ａ）を、３つのセグメントに分割することができる。第１のセグメントは、上位関係エンティティであるＴｈｕｙ、Ｃｈｅｒｙｌ、Ｇｅｏｆｆ、およびＳａｒａｈ（ノードＴ、Ｃ、Ｓ、およびＧ）を含む、フレーム１～１０および２１～５０を含むことができる。第２のセグメントは、上位関係エンティティであるＢａｒｂａｒａおよびＨａｎｎａｈ（ノードＢおよびＨ）を含む、フレーム５１～５３および６１～７０を含むことができる。第３のビデオ・セグメントは、上位関係エンティティであるＤａｎｉｅｌｌｅ、Ｗｉｌｌｉａｍ、およびＥｌｌｅｎ（ノードＤ、Ｗ、およびＥ）を含む、フレーム７１～１００を含むことができる。

上位関係を有するフレームが共にグループ化されると、グループ化コンポーネント１６０は、フレーム１１～２０および５１～６０が残っており、セグメントにリンクされていないと判定することができる。次いで、残りのフレームは、最も近いフレームを有するセグメントにリンクされる。フレーム１１～２０は、フレーム１～１０および２１～５０に最も近接しており、したがって、第１のセグメントにリンクされる。さらに、フレーム５１～６０は、フレーム５１～５３および６１～７０に最も近接しており、したがって、第２のセグメントにリンクされる。各フレームがグループ化されると、第１のセグメントはフレーム１～５０を含み、第２のセグメントはフレーム５１～７０を含み、第３のセグメントはフレーム７１～１００を含む。

図４は、（例えば、コンピュータの１つまたは複数のプロセッサ回路またはコンピュータ・プロセッサを使用して）本明細書に記載の方法、ツール、コンポーネント、および任意の関連機能のうちの１つまたは複数を実装する際に使用できる例示的なコンピュータ・システム４００を示すブロック図である。いくつかの実施形態では、コンピュータ・システム４００の主要なコンポーネントは、１つまたは複数のプロセッサ４０２、メモリ・サブシステム４０４、端末インターフェース４１２、ストレージ・インターフェース４１６、入力／出力デバイス・インターフェース４１４、およびネットワーク・インターフェース４１８を含み、これらはすべて、メモリ・バス４０３、入力／出力バス４０８、バス・インターフェース・ユニット４０７、および入力／出力バス・インターフェース・ユニット４１０を介したコンポーネント間通信のために、直接的または間接的に通信可能に結合され得る。

コンピュータ・システム４００は、１つまたは複数の汎用プログラマブル中央処理装置（ＣＰＵ）４０２－１、４０２－２、および４０２－Ｎを含み、本明細書では、これらを総称してＣＰＵ４０２と呼ぶ。いくつかの実施形態では、コンピュータ・システム４００は、比較的大規模なシステムに典型的な多重プロセッサを含む。しかしながら、他の実施形態では、コンピュータ・システム４００は、代替として、単一のＣＰＵシステムとすることができる。各ＣＰＵ４０２は、メモリ・サブシステム４０４内に記憶された命令を実行してもよく、１つまたは複数のレベルのオンボード・キャッシュを含むことができる。

メモリ４０４は、データおよびプログラムを記憶または符号化するためのランダムアクセス半導体メモリ、記憶デバイス、または（揮発性もしくは不揮発性のいずれかの）記憶媒体を含むことができる。いくつかの実施形態では、メモリ４０４は、コンピュータ・システム４００の仮想メモリ全体を表し、コンピュータ・システム４００に結合された、またはネットワークを介して接続された他のコンピュータ・システムの仮想メモリを含んでもよい。メモリ４０４は、概念的には単一のモノリシック・エンティティであるが、他の実施形態では、メモリ４０４は、キャッシュおよび他のメモリ・デバイスの階層など、より複雑な構成体である。例えば、メモリは複数のレベルのキャッシュに存在する場合があり、これらのキャッシュは、あるキャッシュが命令を保持し、別のキャッシュが、１つまたは複数のプロセッサによって使用される非命令データを保持するように、機能によってさらに分割されてもよい。様々ないわゆる不均一メモリ・アクセス（ＮＵＭＡ：non-uniform memory access）コンピュータ・アーキテクチャのいずれかにおいて知られているように、メモリをさらに分散して、異なるＣＰＵまたはＣＰＵのセットに関連付けることができる。

これらのコンポーネントは、コンピュータ・システム４００におけるメモリ４０４内に含まれるものとして示されている。しかしながら、他の実施形態では、これらのコンポーネントのいくつかまたはすべては、異なるコンピュータ・システム上にあってもよく、例えばネットワークを介してリモートでアクセスされてもよい。コンピュータ・システム４００は、コンピュータ・システム４００のプログラムが、複数のより小さいストレージ・エンティティにアクセスするのではなく、大きい単一のストレージ・エンティティにのみアクセスできるかのように挙動することを可能にする仮想アドレス指定メカニズムを使用してもよい。したがって、セグメンテーション・モジュール１２０は、メモリ４０４内に含まれるように示されているが、メモリ４０４のコンポーネントは、必ずしもすべてが同時に同じ記憶デバイスに完全に含まれているわけではない。さらに、これらのコンポーネントは別個のエンティティとして示されているが、他の実施形態では、これらのコンポーネントのいくつか、これらのコンポーネントのいくつかの一部、またはこれらのコンポーネントのすべてが一緒にパッケージ化されてもよい。

一実施形態では、セグメンテーション・モジュール１２０は、本開示でさらに説明する機能を実行するために、プロセッサ４０２上で実行される命令、またはプロセッサ４０２上で実行される命令によって解釈される命令を含む。別の実施形態では、セグメンテーション・モジュール１２０は、プロセッサ・ベースのシステムの代わりに、またはプロセッサ・ベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、または他の物理ハードウェア・デバイスあるいはその組合せを介してハードウェア内に実装される。別の実施形態では、セグメンテーション・モジュール１２０は、命令に加えてデータも含む。

図４では、メモリ・バス４０３が、ＣＰＵ４０２、メモリ・サブシステム４０４、ディスプレイ・システム４０６、バス・インターフェース４０７、および入力／出力バス・インターフェース４１０の間に直通通信経路を提供する単一のバス構造体として示されているが、いくつかの実施形態では、メモリ・バス４０３は、複数の異なるバスまたは通信経路を含むことができ、これらは、階層、スター、またはウェブ構成のポイント・ツー・ポイント・リンク、複数の階層バス、並列冗長経路、または任意の他の適切なタイプの構成などの様々な形式のうちのいずれかで構成されてもよい。さらに、入力／出力バス・インターフェース４１０および入力／出力バス４０８は、単一のそれぞれのユニットとして示されているが、いくつかの実施形態では、コンピュータ・システム４００は、複数の入力／出力バス・インターフェース・ユニット４１０、複数の入力／出力バス４０８、またはその両方を含んでもよい。さらに、様々な入力／出力デバイスまで延びる様々な通信経路から入力／出力バス４０８を分離する複数の入力／出力インターフェース・ユニットが示されているが、他の実施形態では、入力／出力デバイスのいくつかまたはすべてが、１つまたは複数のシステム入力／出力バスに直接接続されてもよい。

コンピュータ・システム４００は、プロセッサ４０２、メモリ４０４、ディスプレイ・システム４０６、および入力／出力バス・インターフェース・ユニット４１０の間の通信を処理するためのバス・インターフェース・ユニット４０７を含んでもよい。入力／出力バス・インターフェース・ユニット４１０は、様々な入力／出力ユニットとの間でデータを転送するために、入力／出力バス４０８と結合されてもよい。入出力バス・インターフェース・ユニット４１０は、入力／出力プロセッサ（ＩＯＰ）または入力／出力アダプタ（ＩＯＡ）としても知られる複数の入力／出力インターフェース・ユニット４１２、４１４、４１６、および４１８と、入力／出力バス４０８を介して通信する。ディスプレイ・システム４０６は、ディスプレイ・コントローラを含んでもよい。ディスプレイ・コントローラは、視覚タイプ、オーディオ・タイプ、または両方のタイプのデータをディスプレイ・デバイス４０５に提供してもよい。ディスプレイ・システム４０６は、スタンドアロン・ディスプレイ・スクリーン、コンピュータ・モニタ、テレビ、またはタブレットもしくはハンドヘルド・デバイス・ディスプレイなどのディスプレイ・デバイス４０５と結合されてもよい。代替の実施形態では、ディスプレイ・システム４０６によって提供される１つまたは複数の機能は、プロセッサ４０２集積回路に搭載されていてもよい。さらに、バス・インターフェース・ユニット４０７によって提供される１つまたは複数の機能は、プロセッサ４０２集積回路に搭載されてもよい。

いくつかの実施形態では、コンピュータ・システム４００は、直接のユーザ・インターフェースをほとんどもしくは全く有していないが他のコンピュータ・システム（クライアント）からの要求を受信する、マルチユーザ・メインフレーム・コンピュータ・システム、シングルユーザ・システム、またはサーバ・コンピュータまたは同様のデバイスである。さらに、いくつかの実施形態では、コンピュータ・システム４００は、デスクトップ・コンピュータ、ポータブル・コンピュータ、ラップトップまたはノートブック・コンピュータ、タブレット・コンピュータ、ポケット・コンピュータ、電話、スマート・フォン、ネットワーク・スイッチもしくはルータ、または任意の他の適切なタイプの電子デバイスとして実装される。

図４は、例示的なコンピュータ・システム４００の代表的な主要コンポーネントを描写するよう意図していることに留意されたい。しかしながら、いくつかの実施形態では、個々のコンポーネントは、図４に表されるよりも多少なりとも複雑性を有する場合がある。図４に示すコンポーネント以外のコンポーネント、または図４に示すコンポーネントに追加されるコンポーネントが存在する場合があり、そのようなコンポーネントの数、タイプ、および構成は多様であってもよい。

いくつかの実施形態では、本明細書に記載のデータ記憶プロセスおよびデータ取得プロセスは、図４および図５に関連して以下に説明するクラウド・コンピューティング環境内で実装され得る。本開示はクラウド・コンピューティングに関する詳細な説明を含むが、本明細書に記載する教示の実装はクラウド・コンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在知られているまたは後に開発される任意の他のタイプのコンピューティング環境と組み合わせて実装されることが可能である。

クラウド・コンピューティングは、最小限の管理労力、またはサービス・プロバイダとの最小限の対話で迅速にプロビジョニングおよび解放され得る構成可能なコンピューティング・リソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス）の共用プールへの簡便かつオンデマンドのネットワーク・アクセスを可能にするためのサービス提供のモデルである。このクラウド・モデルは、少なくとも５つの特徴、少なくとも３つのサービス・モデル、および少なくとも４つの展開モデルを含み得る。

特徴は、次の通りである。

オンデマンド・セルフサービス：クラウド・コンシューマは、サービス・プロバイダとの間で人間の対話を必要とすることなく、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング機能を一方的にプロビジョニングすることができる。

広範なネットワーク・アクセス：機能は、ネットワーク上で利用可能であり、異種のシン・クライアント・プラットフォームまたはシック・クライアント・プラットフォーム（例えば、携帯電話、ラップトップ、およびＰＤＡ）による使用を促進する標準的なメカニズムを介してアクセスされる。

リソースのプール化：プロバイダのコンピューティング・リソースは、マルチテナント・モデルを使用して複数のコンシューマにサービス提供するようにプール化され、異なる物理リソースおよび仮想リソースが、要求に応じて動的に割当ておよび再割当てされる。コンシューマは一般に、提供されるリソースの正確な位置に対して制御も知識も有していないが、より高い抽象化レベルでは位置（例えば、国、州、またはデータセンタ）を特定し得るという点で、位置の独立性があるといえる。

迅速な柔軟性：機能を、迅速かつ柔軟に、場合によっては自動的にプロビジョニングして素早くスケール・アウトし、迅速に解放して素早くスケール・インすることができる。コンシューマにとっては、プロビジョニングに利用可能な機能は、しばしば無制限であるように見え、いつでも任意の数量で購入することができる。

サービスの測定：クラウド・システムは、サービスのタイプ（例えば、ストレージ、処理、帯域幅、およびアクティブなユーザ・アカウント）に適した一定の抽象化レベルでの計量機能を活用することによって、リソースの使用を自動的に制御および最適化する。リソースの使用状況を監視、制御、および報告することができ、利用するサービスのプロバイダとコンシューマの両方に透明性を提供する。

サービス・モデルは、次の通りである。

ソフト・ウェア・アズ・ア・サービス（ＳａａＳ）：クラウド・インフラストラクチャ上で動作しているプロバイダのアプリケーションを使用するために、コンシューマに提供される機能である。アプリケーションは、ウェブ・ブラウザ（例えば、ウェブ・ベースの電子メール）などのシン・クライアント・インターフェースを介して様々なクライアント・デバイスからアクセス可能である。限定されたユーザ固有のアプリケーション構成設定を想定される例外として、コンシューマは、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション機能を含む基礎となるクラウド・インフラストラクチャを管理も制御もしない。

プラットフォーム・アズ・ア・サービス（ＰａａＳ）：プロバイダによってサポートされるプログラミング言語およびツールを使用して生成されたコンシューマが生成または取得したアプリケーションをクラウド・インフラストラクチャ上に展開するために、コンシューマに提供される機能である。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、またはストレージなどの基礎となるクラウド・インフラストラクチャを管理も制御もしないが、展開されたアプリケーション、および場合によってはアプリケーションをホストする環境構成を制御する。

インフラストラクチャ・アズ・ア・サービス（ＩａａＳ）：オペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアをコンシューマが展開および動作させることができる、処理、ストレージ、ネットワーク、および他の基本的なコンピューティング・リソースをプロビジョニングするために、コンシューマに提供される機能である。コンシューマは、基礎となるクラウド・インフラストラクチャを管理も制御もしないが、オペレーティング・システム、ストレージ、展開されたアプリケーションを制御し、場合によっては選択されたネットワーキング・コンポーネント（例えば、ホスト・ファイアウォール）を限定的に制御する。

展開モデルは、次の通りである。

プライベート・クラウド：クラウド・インフラストラクチャは、ある組織のためだけに運用される。このクラウド・インフラストラクチャは、組織または第三者によって管理されてもよく、オンプレミスまたはオフプレミスで存在してもよい。

コミュニティ・クラウド：クラウド・インフラストラクチャは複数の組織で共有され、関心事項（例えば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンス上の考慮事項）を共有している特定のコミュニティをサポートする。このクラウド・インフラストラクチャは、組織または第三者によって管理されてもよく、オンプレミスまたはオフプレミスで存在してもよい。

パブリック・クラウド：クラウド・インフラストラクチャは、一般公衆または大規模な業界グループにとって利用可能であり、クラウド・サービスを販売する組織によって所有される。

ハイブリッド・クラウド：クラウド・インフラストラクチャは、固有のエンティティのままであるが、データおよびアプリケーションの移植性（例えば、クラウド間の負荷分散のためのクラウド・バースティング）を可能にする標準化された技術または専用の技術によって共に結び付けられる２つ以上のクラウド（プライベート、コミュニティ、またはパブリック）の合成である。

クラウド・コンピューティング環境は、ステートレス性、低結合性、モジュール性、および意味的相互運用性に焦点を置くことを重視したサービスである。クラウド・コンピューティングの中心は、相互接続されたノードのネットワークを含むインフラストラクチャである。

図５は、本開示のいくつかの実施形態による、クラウド・コンピューティング環境５００を示すブロック図である。図示のように、クラウド・コンピューティング環境５００は、例えば、携帯情報端末（ＰＤＡ：personal digital assistant）もしくは携帯電話５２０－１、デスクトップ・コンピュータ５２０－２、ラップトップ・コンピュータ５２０－３、または自動車コンピュータ・システム５２０－４あるいはその組合せなどのクラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが通信することができる１つまたは複数のクラウド・コンピューティング・ノード５１０を含む。ノード５１０は、互いに通信してもよい。ノード５１０は、本明細書で上述したようなプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、もしくはハイブリッド・クラウド、またはその組合せなどの１つまたは複数のネットワーク内で物理的にまたは仮想的にグループ化されてもよい（図示せず）。これにより、クラウド・コンピューティング環境５００は、インフラストラクチャ、プラットフォーム、またはソフトウェア、あるいはその組合せを、クラウド・コンシューマがローカル・コンピューティング・デバイス上にリソースを保持する必要のないサービスとして提供することが可能になる。図５に示すコンピューティング・デバイス５２０－１～５２０－４のタイプは、例示のみを意図しており、コンピューティング・ノード５１０およびクラウド・コンピューティング環境５００は、任意のタイプのネットワークまたはネットワーク・アドレス指定可能な接続あるいはその両方を介して（例えば、ウェブ・ブラウザを使用して）、任意のタイプのコンピュータ化されたデバイスと通信できることを理解されたい。

図６は、本開示のいくつかの実施形態による、クラウド・コンピューティング環境５００によって提供される１組の機能抽象化モデル層６００を示すブロック図である。図６に示すコンポーネント、層、および機能は、例示のみを意図しており、本発明の実施形態はそれらに限定されないことを予め理解されたい。図示のように、以下の層および対応する機能が提供される。

ハードウェアおよびソフトウェア層６１０は、ハードウェア・コンポーネントおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例には、メインフレーム６１１、ＲＩＳＣ（縮小命令セット・コンピュータ）アーキテクチャ・ベースのサーバ６１２、サーバ６１３、ブレード・サーバ６１４、記憶デバイス６１５、ならびにネットワークおよびネットワーキング・コンポーネント６１６が含まれる。いくつかの実施形態では、ソフトウェア・コンポーネントには、ネットワーク・アプリケーション・サーバ・ソフトウェア６１７およびデータベース・ソフトウェア６１８が含まれる。

仮想化層６２０は、抽象化層を提供し、この層から仮想エンティティの次の例、すなわち、仮想サーバ６２１、仮想ストレージ６２２、仮想プライベート・ネットワークを含む仮想ネットワーク６２３、仮想アプリケーションおよびオペレーティング・システム６２４、ならびに仮想クライアント６２５が提供されてもよい。

一例では、管理層６３０は、以下に記載の機能を提供する。リソース・プロビジョニング６３１は、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソースおよび他のリソースの動的な調達を提供する。計量および価格決定６３２は、クラウド・コンピューティング環境内でリソースが利用されるときのコスト追跡、およびこれらのリソースの消費に対する課金または請求を提供する。一例では、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含むことがある。セキュリティは、クラウド・コンシューマおよびタスクのための本人確認、ならびにデータおよび他のリソースのための保護を提供する。ユーザ・ポータル６３３は、コンシューマおよびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理６３４は、要求されるサービス・レベルが満たされるようなクラウド・コンピューティング・リソースの割当ておよび管理を提供する。サービス・レベル・アグリーメント（ＳＬＡ）の計画および履行６３５は、ＳＬＡに従って将来要求されることが予想されるクラウド・コンピューティング・リソースの事前配置および調達を提供する。

ワークロード層６４０は、クラウド・コンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロードおよび機能の例には、マッピングおよびナビゲーション６４１、ソフトウェア開発およびライフサイクル管理６５２、仮想教室教育配信６４３、データ分析処理６４４、トランザクション処理６４５、ならびに重み付き知識グラフに基づいてビデオをセグメント化すること６４６が含まれる。

本開示は、システム、方法、またはコンピュータ・プログラム製品あるいはその組合せとすることができる。コンピュータ・プログラム製品は、プロセッサに本開示の態様を実施させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（または複数のコンピュータ可読記憶媒体）を含んでもよい。

コンピュータ可読記憶媒体は、命令実行デバイスが使用するための命令を保持および記憶することができる有形デバイスである。コンピュータ可読記憶媒体の例は、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁気記憶デバイス、半導体記憶デバイス、または上記の任意の適切な組合せを含むことができる。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには以下のもの、すなわち、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリ・スティック（Ｒ）、フロッピ（Ｒ）・ディスク、パンチカードまたは命令が記録された溝内の隆起構造などの機械的に符号化されたデバイス、および上記の任意の適切な組合せが含まれる。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を介して伝播する電磁波（例えば、光ファイバ・ケーブルを通る光パルス）、または電線を介して送信される電気信号などの、一過性の信号自体であると解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、または、ネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、またはワイヤレス・ネットワークあるいはその組合せを介して外部コンピュータまたは外部記憶デバイスにダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバあるいはその組合せを含むことができる。各コンピューティング／処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、そのコンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体での記憶のために転送する。

本開示の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、インストラクション・セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語および「Ｃ」プログラミング言語もしくは同様のプログラム言語などの従来の手続き型プログラミング言語を含む１つまたは複数のプログラミング言語の任意の組合せで書かれたソース・コードもしくはオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、スタンドアロン・ソフトウェア・パッケージとして全体がユーザのコンピュータ上で、一部がユーザのコンピュータ上で、一部がユーザのコンピュータ上かつ一部がリモート・コンピュータ上で、または全体がリモート・コンピュータ上もしくはサーバ上で実行されてもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、または（例えば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータに対して接続されてもよい。いくつかの実施形態では、本開示の態様を実行するために、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路が、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行してもよい。

本開示の態様は、本開示の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャートまたはブロック図あるいはその両方を参照しながら本明細書で説明されている。フローチャートまたはブロック図あるいはその両方の各ブロック、およびフローチャートまたはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実施され得ることが理解されよう。

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／動作を実施するための手段を作り出すように、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されて、マシンを作り出すものであってもよい。また、これらのコンピュータ可読プログラム命令は、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／動作の態様を実施する命令を含む製造品を含むように、コンピュータ可読媒体に記憶され、コンピュータ、プログラマブル・データ処理装置、または他のデバイスあるいはその組合せに対して特定の方式で機能するように指示できるものであってもよい。

また、コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル装置、または他のデバイスで実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／動作を実施するように、コンピュータ実施プロセスを作り出すべく、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされて、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。

Claims

方法であって、
ビデオを受信するステップと、
前記ビデオから画像データおよびテキスト・データを抽出するステップと、
前記画像データ内の少なくとも２つのエンティティを識別するステップと、
前記画像データ内の前記少なくとも２つのエンティティに少なくとも１つのエンティティ関係を割り当てるステップと、
前記テキスト・データ内の少なくとも２つのエンティティを識別するステップと、
前記テキスト・データ内の前記少なくとも２つのエンティティに少なくとも１つのエンティティ関係を割り当てるステップと、
前記画像データ内の前記少なくとも２つのエンティティに割り当てられた前記少なくとも１つのエンティティ関係についての画像知識グラフを生成するステップと、
前記テキスト・データ内の前記少なくとも２つのエンティティに割り当てられた前記少なくとも１つのエンティティ関係についてのテキスト知識グラフを生成するステップと、
前記画像知識グラフおよび前記テキスト知識グラフに基づいて、重み付き知識グラフを生成するステップと
を含む、方法。
前記重み付き知識グラフが、前記画像データ内の前記少なくとも２つのエンティティに割り当てられた前記少なくとも１つのエンティティ関係の関係重みと、前記テキスト・データ内の前記少なくとも２つのエンティティに割り当てられた前記少なくとも１つのエンティティ関係の関係重みとを含む、請求項１に記載の方法。
前記画像データ内の前記少なくとも２つのエンティティに割り当てられた前記少なくとも１つのエンティティ関係および前記テキスト・データ内の前記少なくとも２つのエンティティに割り当てられた前記少なくとも１つのエンティティ関係における上位関係を識別するステップであって、前記上位関係が、閾値関係重みよりも大きい関係重みを有するエンティティ関係である、前記識別するステップと、
前記上位関係に対応する前記ビデオのフレームを選択するステップと、
前記フレームをビデオ・セグメントにグループ化するステップと
をさらに含む、請求項２に記載の方法。
前記上位関係を含まない、前記ビデオの残りのフレームがあると判定するステップと、
前記ビデオ・セグメント内の前記フレームが前記残りのフレームに最も近いと判定するステップと、
前記残りのフレームを前記ビデオ・セグメントとグループ化するステップと
をさらに含む、請求項３に記載の方法。
前記ビデオがピクチャに分割され、各ピクチャがフレームのセットを含む、請求項１に記載の方法。
前記テキスト・データがキャプションである、請求項１に記載の方法。
前記画像データ内の前記少なくとも２つのエンティティが、顔認識に基づいて識別される、請求項１に記載の方法。
方法請求項１ないし７に記載の方法のすべてのステップを実行するように適合された手段を含むシステム。
コンピュータ・プログラムであって、前記コンピュータ・プログラムがコンピュータ・システム上で実行されると、方法請求項１ないし７に記載の方法のすべてのステップを実行するための命令を含む、コンピュータ・プログラム。