JP2023502376A - 重み付き知識グラフに基づくビデオ・セグメンテーション - Google Patents

重み付き知識グラフに基づくビデオ・セグメンテーション Download PDF

Info

Publication number
JP2023502376A
JP2023502376A JP2022527888A JP2022527888A JP2023502376A JP 2023502376 A JP2023502376 A JP 2023502376A JP 2022527888 A JP2022527888 A JP 2022527888A JP 2022527888 A JP2022527888 A JP 2022527888A JP 2023502376 A JP2023502376 A JP 2023502376A
Authority
JP
Japan
Prior art keywords
entities
video
frames
knowledge graph
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022527888A
Other languages
English (en)
Inventor
ワン ミャオ、ワン
ヤン イン、クン
ゴン ワン、ジャン
フー、ヤン
ナ ワン、リャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2023502376A publication Critical patent/JP2023502376A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

ビデオをセグメント化するためのシステム、方法、およびコンピュータ・プログラム製品。システムは、少なくとも1つの処理コンポーネント、少なくとも1つのメモリ・コンポーネント、ビデオ、抽出コンポーネント、およびグラフ化コンポーネントを含む。抽出コンポーネントは、ビデオから画像データおよびテキスト・データを抽出し、画像データ内のエンティティを識別し、画像データ内のエンティティに少なくとも1つのエンティティ関係を割り当て、テキスト・データ内のエンティティを識別し、テキスト・データ内のエンティティに少なくとも1つのエンティティ関係を割り当てるように構成される。グラフ化コンポーネントは、画像データ内のエンティティに割り当てられたエンティティ関係についての画像知識グラフを生成し、テキスト・データ内の少なくとも2つのエンティティに割り当てられたエンティティ関係についてのテキスト知識グラフを生成し、画像知識グラフおよびテキスト知識グラフに基づいて、重み付き知識グラフを生成するように構成される。

Description

本開示は、ビデオ・セグメンテーションに関し、より詳細には、ビデオ内で識別されたエンティティ間の関係に基づいてビデオをセグメント化することに関する。
ビデオは、通常、オーディオ・データ(例えば、音声、音楽、および他のノイズ)が付随する時間依存の画像データ(例えば、ビデオ・フレーム内のグラフィック画像)を含む。このデータには、キャプション、字幕、音声対テキスト・エンジンを介して音声データから抽出されたテキスト、スクリプト、トランスクリプトなどの形式でテキストを付随させることができる。ビデオは、エンティティ(例えば、特定の人物、動物、無生物など)、および画像データ、オーディオ・データ、またはテキスト・データあるいはその組合せから抽出された他の特徴(例えば、ディスカッションのトピック、場所/環境、言語、音楽など)などのコンテンツに基づいて、フレームのグループにセグメント化され得る。例えば、映画内の場所は、その場所に特徴的なコンテンツ(例えば、言語、景色など)に基づいて検出され得る。この環境を表すビデオ・フレームは、グループ化されてセグメントを形成することができる。これは、典型的には、ビデオ・ショット検出セグメンテーションによって実行される。しかしながら、これは、2つ以上のショットで発生するビデオ内のシナリオ、または2つ以上のシナリオを含むショットを考慮しない。
本発明は、請求項1に記載の方法、ならびに請求項8および請求項9に記載の対応するシステムおよびコンピュータ・プログラム製品を提供する。
本開示のいくつかの実施形態による、ビデオ・セグメンテーション環境を示すブロック図である。 本開示のいくつかの実施形態による、ビデオをセグメント化するプロセスを示す流れ図である。 本開示のいくつかの実施形態による、ビデオ内のエンティティ関係(entity relation)を識別するプロセスを示す概略図である。 本開示のいくつかの実施形態による、テキスト知識グラフおよび画像知識グラフを生成するプロセスを示す概略図である。 本開示のいくつかの実施形態による、重み付き知識グラフを生成するプロセスを示す概略図である。 本開示のいくつかの実施形態による、コンピュータ・システムを示すブロック図である。 本開示のいくつかの実施形態による、クラウド・コンピューティング環境を示すブロック図である。 本開示のいくつかの実施形態による、クラウド・コンピューティング環境によって提供される1組の機能抽象化モデル層を示すブロック図である。
ビデオ・セグメンテーションは、ビデオ・フレームを関連するセグメントにグループ化するプロセスである。これにより、(例えば、ユーザ・クエリに応答して)ビデオの特定の部分を位置特定することが可能になる。ビデオは、ショット遷移検出に基づいて時間的にセグメント化され得る。ビデオ・ショットは、相互に関連して継続的なアクションを表す、一連の連続したフレームである。ショット遷移は、視覚的または音楽的な不連続性、カメラの動きなどに基づいて検出され得る。しかしながら、ショット遷移に基づくビデオのセグメンテーションは、ビデオ内の特定のシナリオ/ストーリーを位置特定することに関しては、不正確であることが頻繁にある。
例えば、シナリオが複数のショットを含む場合、またはショットが複数のシナリオを含む場合、ショット遷移(shot transition)技術は機能しないことが多い。例えば、経費システムのトレーニング・ビデオは、ユーザの登録方法、チケットの添付方法、および経費の入力方法を説明するシナリオを含むことができる。ユーザは、経費の入力方法に関する解説を、このシナリオを含むセグメントを検索することによって位置特定したい場合がある。しかしながら、現在の自動セグメンテーション技術では、セグメントが、連続するフレームのみ、または単一のショットのみ、あるいはその両方のみを含む場合、このシナリオに関連するビデオのセクションが除外される可能性がある。例えば、シナリオのうちの1つに関連する連続していないフレームのセットがビデオ内に2つ以上存在する可能性がある。したがって、ユーザが、既存の技術を採用して、例えば経費システム内でチケットを添付することに関連するシナリオについて検索する際、このシナリオに関連するビデオのフレームは、そのシナリオ用に生成されたセグメントから抜ける可能性がある。
本明細書では、ビデオをシナリオにセグメント化するための技術を開示する。本開示の技術は、重み付き知識グラフを使用して、一定の間隔(例えば、1セット当たり10フレーム)で分割された連続するフレームのセット内のエンティティの関連するペアを識別することを含む。これらのフレームのセットを、本明細書では「ピクチャ」と呼ぶ。次いで、関連するエンティティを含むフレームが、セグメントにグループ化される。例えば、ビデオのフレームが100個存在する可能性があり、フレーム51~53および61~70はそれぞれ、関連するエンティティのペアである人物Aと人物Bとを含む可能性がある。関連するエンティティのペアを、本明細書では「エンティティ関係」と呼ぶ。この例では、エンティティ関係は、閾値関係重みよりも大きい、重み付き知識グラフ上の関係重みを有する。閾値関係重みよりも大きい重みを有するエンティティ関係を、本明細書では「上位関係(top relation)」と呼ぶ。フレーム51~53および61~70は上位関係を含むので、これらのフレームは、1つのビデオ・セグメントにグループ化され得る。他の上位関係を含むフレームは、さらなるセグメントにグループ化され得る。上位関係ではないエンティティ関係を含むフレームは、最も近いリンクされたフレームを有するセグメントにリンクされ得る。例えば、フレーム51~60の中に上位関係以外のエンティティ関係が含まれる場合、これらのフレームは、前述のセグメントにリンクされて、フレーム51~70を含むセグメントを形成することができる。
図1は、本開示のいくつかの実施形態による、ビデオ・セグメンテーション環境100を示すブロック図である。ビデオ・セグメンテーション環境100は、ビデオ110、およびビデオ110をセグメント化するためのセグメンテーション・モジュール120を含む。セグメンテーション・モジュール120は、抽出コンポーネント140、グラフ化コンポーネント150、およびグループ化コンポーネント160を含む。
ビデオ110は、オーディオ・ビデオ・インターリーブ(AVI)、波形オーディオ(WAV)、アニメーション(ANI)、オーディオ・インターチェンジ・ファイル・フォーマット(AIFF)、グラフィックス・インターチェンジ・フォーマット(GIF)、モーション・ピクチャ・エキスパート・グループ(MPEG、例えば、MPEG-4)、8ビット・サンプル・ボイス(8SVX)などの任意の適切なファイル・フォーマット規格に従って符号化され得る。ビデオ110はフレームを含み、フレームのうちの1つまたは複数は、人物、動物、または無生物あるいはその組合せなどのエンティティを描写する。ビデオ110は、キャプション、字幕、トランスクリプト、コンピュータ可読音声データなどの形式のテキスト・データも含む。ビデオ110は、連続するフレームの少なくとも1つのセットを含み、各セットを、本明細書では「ピクチャ」と呼ぶ。これについては以下で詳細に説明する。
抽出コンポーネント140は、ビデオ110の画像データからエンティティおよびエンティティ関係を抽出する。エンティティは、特定の人物、動物、無生物などを含むことができる。エンティティ関係は、同じピクチャから抽出されたエンティティの各ペアに割り当てられる。抽出コンポーネント140は、領域ベースの畳み込みニューラル・ネットワーク(R-CNN)、スケール不変特徴変換(SIFT)、リアルタイム・オブジェクト検出技術、パターン検出、エッジ/輪郭/リッジ検出、ヒストグラム分析などの様々な画像認識技術を使用してエンティティを識別することができる。エンティティを含まないピクチャが1つまたは複数存在する可能性もある。例えば、顔認識に基づいてエンティティを識別することができる。このような場合、風景などの特徴のみを含むピクチャにおいては、識別されるエンティティはない。
抽出コンポーネント140は、エンティティを、そのエンティティが抽出されたピクチャにマッピングする。例えば、抽出コンポーネント140は、第1のピクチャ(「ピクチャ1」)が第1の人物および鳥を描写し、第2のピクチャ(「ピクチャ2」)が第2の人物および鳥を描写し、第3のピクチャ(「ピクチャ3」)が、第1の人物、第2の人物、および鳥を含むと判断することができる。次いで、画像データに基づいて、次のエンティティ関係、すなわち、第1の人物/鳥(ピクチャ1およびピクチャ3)、第2の人物/鳥(ピクチャ2およびピクチャ3)、ならびに第1の人物/第2の人物(ピクチャ3)が確立され得る。
抽出コンポーネント140は、ビデオ110からのテキスト・データまたはオーディオ(例えば、音声)データあるいはその両方におけるエンティティおよびエンティティ関係も識別する。抽出されたテキストは、キャプション、またはビデオに関連する他のテキスト(例えば、字幕、トランスクリプトなど)を含む可能性がある。抽出されたオーディオ・コンテンツからの音声データは、少なくとも1つの音声対テキスト・エンジンによって、(例えば、人工ニューラル・ネットワーク、畳み込みニューラル・ネットワーク、統計モデリング、隠れマルコフ・モデル(HMM:Hidden Markov Model)、格子ベースの分析、エントロピ・ベースの音声セグメンテーション・アルゴリズム、CMUSphinxなどの技術を使用して)機械符号化テキストに変換され得る。抽出コンポーネント140は、光学式文字認識(OCR:optical character recognition)またはインテリジェント文字認識(ICR:intelligent character recognition)などの技術を使用して、ビデオ110フレーム内で検出された文字(例えば、字、数字、句読点など)を機械符号化テキストに変換することによって得られたテキストから、特徴を抽出することもできる。例えば、抽出コンポーネント140は、建物の看板、本の表紙などの物体上に印刷されたテキストを識別することができる。
エンティティは、テキスト内で様々な方法で識別され得る。例えば、抽出コンポーネント140は、登場人物名などのキーワードを識別することができる。さらに、キャプション、スクリプトなどのテキストは、テキストの各部分をどの登場人物(エンティティ)が話しているかを識別することができる。いくつかの実施形態では、テキスト非依存型またはテキスト依存型あるいはその両方の話者認識技術(例えば、周波数推定、線形予測符号化(LPC:linear predictive coding)、HMM、ガウス混合モデル、パターン・マッチング・アルゴリズム、ニューラル・ネットワーク、行列表現、ベクトル量子化、決定木など)を使用して、エンティティを、音声オーディオ・データ内で識別することもできる。
さらに、抽出コンポーネント140は、エンティティを、そのエンティティが抽出されたテキストに関連付けられたビデオ・フレームにマッピングする。フレームは、特定のエンティティに対して話されているテキスト、特定のエンティティによって話されているテキスト、または特定のエンティティについて話されているテキストに関連付けられ得る。ビデオ110のピクチャ1~3を含む前の例に戻ると、ビデオ110は、10フレーム間隔でピクチャに分割され得、ピクチャ3は、フレーム21~30を含み得る。このピクチャでは、フレーム21~24は、第1の人物によって第2の人物に対して話されたテキスト(例えば「こんにちは」)を含むことができ、フレーム27~29は、第2の人物によって第1の人物に対して話された鳥に関する文(例えば「鳥を見てください」)を含むことができる。抽出コンポーネント140は、エンティティおよび関連するフレームに基づいて、次のエンティティ関係、すなわち、第1の人物/第2の人物(フレーム21~24および27~29)、第1の人物/鳥(フレーム27~29)、ならびに第2の人物/鳥(フレーム27~29)を識別することができる。
グラフ化コンポーネント150は、抽出された画像データおよびテキスト・データ内で識別されたエンティティおよびエンティティ関係に基づいて、画像知識グラフおよびテキスト知識グラフを生成する。グラフ化コンポーネント150は、画像知識グラフおよびテキスト知識グラフに基づいて、重み付き知識グラフも生成する。重み付き知識グラフは、テキスト・データおよび画像データ内のエンティティの各エンティティ関係を含む。エンティティ関係は、各関係が発生する頻度に基づいて重み付けされる。前の例を再び参照すると、エンティティ関係である第1の人物/鳥の重みは、そのエンティティ関係が2つのピクチャ(ピクチャ1およびピクチャ3)内で発生するので、他の2つの関係に比べて高くなる可能性がある。エンティティ関係である第1の人物/鳥の重みは、そのエンティティ関係がピクチャ3内で2回(フレーム21~24および27~29)発生するので、さらに高くなる可能性がある。知識グラフの例は、図3A~図3Cに示されている。
グループ化コンポーネント160は、重み付き知識グラフにおける重み付きエンティティ関係に基づいて、ビデオ・フレームをセグメントにグループ化する。そうするために、グループ化コンポーネント160は、上位エンティティ関係を識別する。上位エンティティ関係は、重み付き知識グラフにおける、閾値関係重みの値を超える重みを有するエンティティ関係である。閾値は、事前設定された値またはユーザ入力値とすることができる。いくつかの実施形態では、所望のセグメント・サイズまたは選択性あるいはその両方に基づいて、閾値が調整され得る。閾値を超える関係重みを有する各エンティティ関係に対応するフレームは、共にセグメントにグループ化される。閾値を下回る関係重みを有する残りのエンティティ関係にのみ対応するフレームは、最も近い時間的にリンクされたフレームとグループ化される。残りのエンティティ関係を伴うフレームから同じ距離に2つ以上のセグメントがある場合、フレームは、重み値が最も高い上位エンティティ関係を有するセグメントとグループ化され得る。関係重み値およびグループ化されたセグメントの例については、図3Cに関連してより詳細に説明されている。
図2は、本開示のいくつかの実施形態による、ビデオをセグメント化するプロセス200を示す流れ図である。プロセス200を説明するために、図2は、図1のビデオ・セグメンテーション環境100のコンテキスト内で説明されているが、これは実施形態を限定するものではない。図2に示す要素は、図1に示す要素と同一であり、両方の図において同じ参照番号が使用されている。
プロセス200は、ビデオ110が受信されたときに開始する。これは、ステップ210に示されている。ビデオ・フォーマットについては、図1に関連してより詳細に説明されている。ビデオ110の少なくとも1つのフレームは、2つ以上のエンティティ(例えば、人間、動物、アニメのキャラクタなど)を描写している。さらに、フレームのうちの少なくとも1つは、エンティティのうちの少なくとも2つについて言及するテキスト・データに関連付けられている。いくつかの実施形態では、テキスト・データは、キャプション、字幕、スクリプトなどからのものである。テキストは、録音された対話またはナレーションなどのオーディオ・データからのものとすることもできる。ビデオ110は、一定の間隔で分割されて、本明細書では「ピクチャ」と呼ぶフレームのセットを形成する。各ピクチャ内のフレーム数は、ユーザによって事前設定され得るか、または選択され得るか、あるいはその両方である。いくつかの実施形態では、1ピクチャ当たり10フレームが存在するが、ピクチャ間隔は、任意の数の連続するフレーム(例えば、24フレーム、30フレーム、100フレーム、120フレーム、240フレーム、300フレーム、500フレーム、1,000フレームなど)を含むことができる。
テキスト知識グラフおよび画像知識グラフは、ビデオ110内で識別されたエンティティおよびエンティティ関係に基づいて生成される。これは、ステップ220に示されている。エンティティおよびエンティティ関係は、抽出コンポーネント140によってビデオ110から抽出されたテキスト・データおよび画像データ内で識別される。データの抽出およびエンティティおよびエンティティ関係の識別については、図1に関連してより詳細に説明されている。グラフ化コンポーネント150は、エンティティ関係に基づいて、同じピクチャ内に出現するエンティティをリンクする画像知識グラフを生成する。各ピクチャには、ピクチャ番号nを割り当てることができ、ピクチャ番号nは、ゼロより大きい整数(例えば、ピクチャ1、ピクチャ2、ピクチャ3など)とすることができる。リンクされたエンティティの各ペアを、本明細書では「エンティティ関係」と呼ぶ。画像知識グラフは、各エンティティ関係が発生するピクチャの数を示すこともできる。画像知識グラフの生成については、図1および図3Aに関連してより詳細に説明されている。
テキスト知識グラフは、抽出コンポーネント140によって抽出されたテキスト・データ内で識別されたエンティティおよびエンティティ関係を含む。例えば、ビデオ110から、2つのエンティティ間の会話を含むテキストが抽出されるとき、テキスト知識グラフ内でエンティティ関係が確立され得る。テキスト知識グラフは、テキスト・データ内で識別された各エンティティ関係の発生数、およびこれらの発生にどのフレームが関連付けられているかを示すこともできる。テキスト知識グラフの生成については、図1および図3Bに関連してより詳細に説明されている。
次いで、重み付き知識グラフが生成される。これは、ステップ230で示されている。重み付き知識グラフは、グラフ化コンポーネント150によって生成され、画像知識グラフとテキスト知識グラフの両方からのエンティティ関係を含む。グラフ化コンポーネント150は、エンティティ関係が出現するピクチャの数、またはテキスト・データでのエンティティ関係の発生数に基づいて、各エンティティ関係に重みを付ける。重み付き知識グラフについては、図1および図3Cに関連してより詳細に説明されている。
重み付き知識グラフからの上位関係を含むフレームは、ビデオ・セグメントにグループ化される。これは、ステップ240に示されている。グループ化コンポーネント160は、重み付き知識グラフにおいて上位関係を識別する。上位関係は、閾値関係重みよりも大きい関係重みを有するエンティティ関係である。ステップ240で形成された各ビデオ・セグメントは、少なくとも1つの上位関係が識別されたフレームを含む。図1に関連して説明した例では、ビデオ110は、ピクチャ1、2、および3を有し、上位関係は、第1の人物/鳥とすることができる。したがって、フレーム21~24および27~29が第1の人物/鳥というエンティティ関係を含むので、これらのフレームに対してセグメントが生成され得る。関係重みに基づくグループ化の例については、図1および図3Cに関連してより詳細に説明されている。
上位関係についてビデオ・セグメントが生成されると、セグメントにグループ化されていないフレームが残っているかどうかが判定される。これは、ステップ250に示されている。残りのフレームがないと判定された場合、プロセス200は終了することができる。しかしながら、フレームが残っている場合、残りのフレームは、最も近いフレームを有するステップ240で形成されたセグメントに追加される。これは、ステップ260に示されている。残りのフレームは、関係重みが関係重み閾値を下回るエンティティ関係を含むフレームである。残りのフレームは、上位関係は含まない。フレーム1~90を含むビデオ110の例では、ステップ240において、上位関係について、フレーム20~35およびフレーム45~90を含むセグメントが生成され得る。ステップ250において、フレーム36~44が残りのフレームであると判定され得る。次いで、ステップ260において、これらのフレームは、フレーム20~35および45~90を有するセグメントが最も近いフレームを含むので、このセグメントに追加され得る。1つまたは複数の残りのフレームから同じ距離のフレームを有するセグメントがある場合、残りのフレームは、より大きい関係重みを伴うエンティティ関係を有するセグメントとグループ化され得る。残りのフレームがそれぞれビデオ・セグメントに追加されると、プロセス200は終了する。
図3A~図3Cは、本開示のいくつかの実施形態による、ビデオ・セグメンテーションのための知識グラフを生成するプロセス300、301、および302を示す概略図である。プロセス300~302を説明するために、図3A~図3Cは、図1のビデオ・セグメンテーション環境100および図2のプロセス200のコンテキスト内で説明されているが、これは実施形態を限定するものではない。図3A~図3Cに示す要素は、図1および図2に示す要素と同一であり、各図において同じ参照番号が使用されている。
図3Aは、本開示のいくつかの実施形態による、ビデオ110内のエンティティ関係を識別するプロセス300を示す概略図である。抽出コンポーネント140(図1)は、ビデオ110からテキスト・データ310を抽出し、データ310内のエンティティおよびエンティティ関係を識別する。テキスト・データ310から抽出されたエンティティは、列322、列324、および列326を含む表320に示されている。列322は、それぞれがテキスト・データ310における少なくとも1つのエンティティ関係の発生を示す番号(1~8)を含む。テキスト310の発生を含む部分はそれぞれ、1つまたは複数のビデオ・フレームに関連付けられている。列322内の発生に対応するビデオ・フレームは、列324内のフレーム番号によって識別される。列326は、各発生時にエンティティ関係に含まれるエンティティの名前を含む。表320に基づけば、テキスト・データ310から抽出されたエンティティ関係は、Sarah/Geoff(発生1)、Thuy/Geoff(発生2、発生4、および発生5)、Thuy/Sarah(発生3)、Thuy/Cheryl(発生4および発生5)、Cheryl/Geoff(発生4および発生5)、Barbara/Hannah(発生6)、ならびにDanielle/William(発生7および発生8)を含む。
抽出コンポーネント140は、ビデオ110から画像データ330も抽出する。画像データ330から抽出されたエンティティおよびエンティティ関係は、列342、列344、および列346を含む表340に示されている。列342は、ビデオ110の連続する10フレームのセットにそれぞれ対応するピクチャ番号1~10を含む。列344は、各ピクチャに含まれるフレームの数を含む。列346は、各ピクチャ内で識別されたエンティティの名前を含む。表340に基づけば、画像データ330内で識別されたエンティティ関係は、Sarah/Geoff(ピクチャ1およびピクチャ3)、Sarah/Kim(ピクチャ1)、Geoff/Kim(ピクチャ1)、Thuy/Kim(ピクチャ2)、Thuy/Cheryl(ピクチャ4とピクチャ5)、Barbara/Ned(ピクチャ6)、Barbara/Hannah(ピクチャ7)、Barbara/Rita(ピクチャ7)、Rita/Hannah(ピクチャ7)、Danielle/William(ピクチャ8)、Danielle/Ellen(ピクチャ8およびピクチャ9)、ならびにWilliam/Ellen(ピクチャ8およびピクチャ10)を含む。
図3Bは、本開示のいくつかの実施形態による、テキスト知識グラフ350および画像知識グラフ360を生成するプロセス301を示す概略図である。プロセス301を実行するために使用できる技術については、プロセス200のステップ220に関連してより詳細に説明されている。テキスト知識グラフ350および画像知識グラフ360は、グラフ化コンポーネント150(図1)によって、それぞれ表320および表340(図3A)からのデータに基づいて生成される。各知識グラフ350および360内のノードはエンティティを表し、ノード内の字は、それぞれ表320(列326)および表340(列346)にリストされているエンティティの最初の頭文字である。
各知識グラフ350および360内の線は、エンティティ関係を表す。出現回数および対応するフレームなどの表320からの情報は、テキスト知識グラフ350内の線に関連付けられ得る。例えば、Sarah/Geoff(S/G)というエンティティ関係を表す線は、S/Gというエンティティ関係の発生が1回あり、その発生がフレーム1~3にあることを示す情報にリンクされ得る。さらに、表340におけるピクチャ番号(列342)および対応するフレーム(列344)は、画像知識グラフ360内の線に関連付けられ得る。例えば、S/Gというエンティティ関係は、ピクチャ1およびピクチャ3にSarahとGeoffの両方が出現し、その出現がフレーム1~10および21~30に対応することを示す情報にリンクされ得る。プロセス300およびプロセス301を実行するために使用できる技術については、プロセス200のステップ210およびステップ220に関連してより詳細に説明されている。
図3Cは、本開示のいくつかの実施形態による、重み付き知識グラフ370を生成するプロセス302を示す概略図である。重み付き知識グラフ370は、上位関係を表す実線と、残りのエンティティ関係を表す破線とを含む。プロセス302を実行するために使用できる技術については、プロセス200のステップ230~260に関連してより詳細に説明されている。重み付き知識グラフ370は、グラフ化コンポーネント150によって生成され、グラフ化コンポーネント150は、テキスト知識グラフ350および画像知識グラフ360(図3B)におけるエンティティおよびエンティティ関係の和集合を算出する。これを、次式、
{EntitiesWeighted KG}={EntitiesText KG}∪{EntitiesImage KG
{RelationsWeighted KG}={RelationsText KG}∪{RelationsImage KG
によって表すことができ、式中、「KG」は「知識グラフ」を表す。
グラフ化コンポーネント150は、テキスト知識グラフ350および画像知識グラフ360においてエンティティ関係が発生する回数に基づいて、各エンティティ関係の関係重みを決定する。例えば、エンティティ関係の関係重みは、次式、
Figure 2023502376000002

を使用して算出することができ、式中、Weightは関係重みであり、iWeightは画像知識グラフ360でのエンティティ関係の発生数であり、tWeightはテキスト知識グラフ350でのエンティティ関係の発生数であり、σは画像知識グラフ360から重み付き知識グラフ350への影響係数である。表380は、重み付き知識グラフ370におけるエンティティ関係(列384)について算出された上位関係重み(列382)、および各エンティティ関係を含むビデオ・フレーム(列386)を含む。閾値を下回るWeight値(例えば、Weight=0.05)を有する残りのエンティティ関係は、表380に示されていない。
表380における上位関係に対応するフレーム(列386)は、グループ化コンポーネント160(図1)によってビデオ・セグメントにグループ化される。図3Cに示す例では、ビデオ110(図1および図3A)を、3つのセグメントに分割することができる。第1のセグメントは、上位関係エンティティであるThuy、Cheryl、Geoff、およびSarah(ノードT、C、S、およびG)を含む、フレーム1~10および21~50を含むことができる。第2のセグメントは、上位関係エンティティであるBarbaraおよびHannah(ノードBおよびH)を含む、フレーム51~53および61~70を含むことができる。第3のビデオ・セグメントは、上位関係エンティティであるDanielle、William、およびEllen(ノードD、W、およびE)を含む、フレーム71~100を含むことができる。
上位関係を有するフレームが共にグループ化されると、グループ化コンポーネント160は、フレーム11~20および51~60が残っており、セグメントにリンクされていないと判定することができる。次いで、残りのフレームは、最も近いフレームを有するセグメントにリンクされる。フレーム11~20は、フレーム1~10および21~50に最も近接しており、したがって、第1のセグメントにリンクされる。さらに、フレーム51~60は、フレーム51~53および61~70に最も近接しており、したがって、第2のセグメントにリンクされる。各フレームがグループ化されると、第1のセグメントはフレーム1~50を含み、第2のセグメントはフレーム51~70を含み、第3のセグメントはフレーム71~100を含む。
図4は、(例えば、コンピュータの1つまたは複数のプロセッサ回路またはコンピュータ・プロセッサを使用して)本明細書に記載の方法、ツール、コンポーネント、および任意の関連機能のうちの1つまたは複数を実装する際に使用できる例示的なコンピュータ・システム400を示すブロック図である。いくつかの実施形態では、コンピュータ・システム400の主要なコンポーネントは、1つまたは複数のプロセッサ402、メモリ・サブシステム404、端末インターフェース412、ストレージ・インターフェース416、入力/出力デバイス・インターフェース414、およびネットワーク・インターフェース418を含み、これらはすべて、メモリ・バス403、入力/出力バス408、バス・インターフェース・ユニット407、および入力/出力バス・インターフェース・ユニット410を介したコンポーネント間通信のために、直接的または間接的に通信可能に結合され得る。
コンピュータ・システム400は、1つまたは複数の汎用プログラマブル中央処理装置(CPU)402-1、402-2、および402-Nを含み、本明細書では、これらを総称してCPU402と呼ぶ。いくつかの実施形態では、コンピュータ・システム400は、比較的大規模なシステムに典型的な多重プロセッサを含む。しかしながら、他の実施形態では、コンピュータ・システム400は、代替として、単一のCPUシステムとすることができる。各CPU402は、メモリ・サブシステム404内に記憶された命令を実行してもよく、1つまたは複数のレベルのオンボード・キャッシュを含むことができる。
メモリ404は、データおよびプログラムを記憶または符号化するためのランダムアクセス半導体メモリ、記憶デバイス、または(揮発性もしくは不揮発性のいずれかの)記憶媒体を含むことができる。いくつかの実施形態では、メモリ404は、コンピュータ・システム400の仮想メモリ全体を表し、コンピュータ・システム400に結合された、またはネットワークを介して接続された他のコンピュータ・システムの仮想メモリを含んでもよい。メモリ404は、概念的には単一のモノリシック・エンティティであるが、他の実施形態では、メモリ404は、キャッシュおよび他のメモリ・デバイスの階層など、より複雑な構成体である。例えば、メモリは複数のレベルのキャッシュに存在する場合があり、これらのキャッシュは、あるキャッシュが命令を保持し、別のキャッシュが、1つまたは複数のプロセッサによって使用される非命令データを保持するように、機能によってさらに分割されてもよい。様々ないわゆる不均一メモリ・アクセス(NUMA:non-uniform memory access)コンピュータ・アーキテクチャのいずれかにおいて知られているように、メモリをさらに分散して、異なるCPUまたはCPUのセットに関連付けることができる。
これらのコンポーネントは、コンピュータ・システム400におけるメモリ404内に含まれるものとして示されている。しかしながら、他の実施形態では、これらのコンポーネントのいくつかまたはすべては、異なるコンピュータ・システム上にあってもよく、例えばネットワークを介してリモートでアクセスされてもよい。コンピュータ・システム400は、コンピュータ・システム400のプログラムが、複数のより小さいストレージ・エンティティにアクセスするのではなく、大きい単一のストレージ・エンティティにのみアクセスできるかのように挙動することを可能にする仮想アドレス指定メカニズムを使用してもよい。したがって、セグメンテーション・モジュール120は、メモリ404内に含まれるように示されているが、メモリ404のコンポーネントは、必ずしもすべてが同時に同じ記憶デバイスに完全に含まれているわけではない。さらに、これらのコンポーネントは別個のエンティティとして示されているが、他の実施形態では、これらのコンポーネントのいくつか、これらのコンポーネントのいくつかの一部、またはこれらのコンポーネントのすべてが一緒にパッケージ化されてもよい。
一実施形態では、セグメンテーション・モジュール120は、本開示でさらに説明する機能を実行するために、プロセッサ402上で実行される命令、またはプロセッサ402上で実行される命令によって解釈される命令を含む。別の実施形態では、セグメンテーション・モジュール120は、プロセッサ・ベースのシステムの代わりに、またはプロセッサ・ベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、または他の物理ハードウェア・デバイスあるいはその組合せを介してハードウェア内に実装される。別の実施形態では、セグメンテーション・モジュール120は、命令に加えてデータも含む。
図4では、メモリ・バス403が、CPU402、メモリ・サブシステム404、ディスプレイ・システム406、バス・インターフェース407、および入力/出力バス・インターフェース410の間に直通通信経路を提供する単一のバス構造体として示されているが、いくつかの実施形態では、メモリ・バス403は、複数の異なるバスまたは通信経路を含むことができ、これらは、階層、スター、またはウェブ構成のポイント・ツー・ポイント・リンク、複数の階層バス、並列冗長経路、または任意の他の適切なタイプの構成などの様々な形式のうちのいずれかで構成されてもよい。さらに、入力/出力バス・インターフェース410および入力/出力バス408は、単一のそれぞれのユニットとして示されているが、いくつかの実施形態では、コンピュータ・システム400は、複数の入力/出力バス・インターフェース・ユニット410、複数の入力/出力バス408、またはその両方を含んでもよい。さらに、様々な入力/出力デバイスまで延びる様々な通信経路から入力/出力バス408を分離する複数の入力/出力インターフェース・ユニットが示されているが、他の実施形態では、入力/出力デバイスのいくつかまたはすべてが、1つまたは複数のシステム入力/出力バスに直接接続されてもよい。
コンピュータ・システム400は、プロセッサ402、メモリ404、ディスプレイ・システム406、および入力/出力バス・インターフェース・ユニット410の間の通信を処理するためのバス・インターフェース・ユニット407を含んでもよい。入力/出力バス・インターフェース・ユニット410は、様々な入力/出力ユニットとの間でデータを転送するために、入力/出力バス408と結合されてもよい。入出力バス・インターフェース・ユニット410は、入力/出力プロセッサ(IOP)または入力/出力アダプタ(IOA)としても知られる複数の入力/出力インターフェース・ユニット412、414、416、および418と、入力/出力バス408を介して通信する。ディスプレイ・システム406は、ディスプレイ・コントローラを含んでもよい。ディスプレイ・コントローラは、視覚タイプ、オーディオ・タイプ、または両方のタイプのデータをディスプレイ・デバイス405に提供してもよい。ディスプレイ・システム406は、スタンドアロン・ディスプレイ・スクリーン、コンピュータ・モニタ、テレビ、またはタブレットもしくはハンドヘルド・デバイス・ディスプレイなどのディスプレイ・デバイス405と結合されてもよい。代替の実施形態では、ディスプレイ・システム406によって提供される1つまたは複数の機能は、プロセッサ402集積回路に搭載されていてもよい。さらに、バス・インターフェース・ユニット407によって提供される1つまたは複数の機能は、プロセッサ402集積回路に搭載されてもよい。
いくつかの実施形態では、コンピュータ・システム400は、直接のユーザ・インターフェースをほとんどもしくは全く有していないが他のコンピュータ・システム(クライアント)からの要求を受信する、マルチユーザ・メインフレーム・コンピュータ・システム、シングルユーザ・システム、またはサーバ・コンピュータまたは同様のデバイスである。さらに、いくつかの実施形態では、コンピュータ・システム400は、デスクトップ・コンピュータ、ポータブル・コンピュータ、ラップトップまたはノートブック・コンピュータ、タブレット・コンピュータ、ポケット・コンピュータ、電話、スマート・フォン、ネットワーク・スイッチもしくはルータ、または任意の他の適切なタイプの電子デバイスとして実装される。
図4は、例示的なコンピュータ・システム400の代表的な主要コンポーネントを描写するよう意図していることに留意されたい。しかしながら、いくつかの実施形態では、個々のコンポーネントは、図4に表されるよりも多少なりとも複雑性を有する場合がある。図4に示すコンポーネント以外のコンポーネント、または図4に示すコンポーネントに追加されるコンポーネントが存在する場合があり、そのようなコンポーネントの数、タイプ、および構成は多様であってもよい。
いくつかの実施形態では、本明細書に記載のデータ記憶プロセスおよびデータ取得プロセスは、図4および図5に関連して以下に説明するクラウド・コンピューティング環境内で実装され得る。本開示はクラウド・コンピューティングに関する詳細な説明を含むが、本明細書に記載する教示の実装はクラウド・コンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在知られているまたは後に開発される任意の他のタイプのコンピューティング環境と組み合わせて実装されることが可能である。
クラウド・コンピューティングは、最小限の管理労力、またはサービス・プロバイダとの最小限の対話で迅速にプロビジョニングおよび解放され得る構成可能なコンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス)の共用プールへの簡便かつオンデマンドのネットワーク・アクセスを可能にするためのサービス提供のモデルである。このクラウド・モデルは、少なくとも5つの特徴、少なくとも3つのサービス・モデル、および少なくとも4つの展開モデルを含み得る。
特徴は、次の通りである。
オンデマンド・セルフサービス:クラウド・コンシューマは、サービス・プロバイダとの間で人間の対話を必要とすることなく、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング機能を一方的にプロビジョニングすることができる。
広範なネットワーク・アクセス:機能は、ネットワーク上で利用可能であり、異種のシン・クライアント・プラットフォームまたはシック・クライアント・プラットフォーム(例えば、携帯電話、ラップトップ、およびPDA)による使用を促進する標準的なメカニズムを介してアクセスされる。
リソースのプール化:プロバイダのコンピューティング・リソースは、マルチテナント・モデルを使用して複数のコンシューマにサービス提供するようにプール化され、異なる物理リソースおよび仮想リソースが、要求に応じて動的に割当ておよび再割当てされる。コンシューマは一般に、提供されるリソースの正確な位置に対して制御も知識も有していないが、より高い抽象化レベルでは位置(例えば、国、州、またはデータセンタ)を特定し得るという点で、位置の独立性があるといえる。
迅速な柔軟性:機能を、迅速かつ柔軟に、場合によっては自動的にプロビジョニングして素早くスケール・アウトし、迅速に解放して素早くスケール・インすることができる。コンシューマにとっては、プロビジョニングに利用可能な機能は、しばしば無制限であるように見え、いつでも任意の数量で購入することができる。
サービスの測定:クラウド・システムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、およびアクティブなユーザ・アカウント)に適した一定の抽象化レベルでの計量機能を活用することによって、リソースの使用を自動的に制御および最適化する。リソースの使用状況を監視、制御、および報告することができ、利用するサービスのプロバイダとコンシューマの両方に透明性を提供する。
サービス・モデルは、次の通りである。
ソフト・ウェア・アズ・ア・サービス(SaaS):クラウド・インフラストラクチャ上で動作しているプロバイダのアプリケーションを使用するために、コンシューマに提供される機能である。アプリケーションは、ウェブ・ブラウザ(例えば、ウェブ・ベースの電子メール)などのシン・クライアント・インターフェースを介して様々なクライアント・デバイスからアクセス可能である。限定されたユーザ固有のアプリケーション構成設定を想定される例外として、コンシューマは、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション機能を含む基礎となるクラウド・インフラストラクチャを管理も制御もしない。
プラットフォーム・アズ・ア・サービス(PaaS):プロバイダによってサポートされるプログラミング言語およびツールを使用して生成されたコンシューマが生成または取得したアプリケーションをクラウド・インフラストラクチャ上に展開するために、コンシューマに提供される機能である。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、またはストレージなどの基礎となるクラウド・インフラストラクチャを管理も制御もしないが、展開されたアプリケーション、および場合によってはアプリケーションをホストする環境構成を制御する。
インフラストラクチャ・アズ・ア・サービス(IaaS):オペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアをコンシューマが展開および動作させることができる、処理、ストレージ、ネットワーク、および他の基本的なコンピューティング・リソースをプロビジョニングするために、コンシューマに提供される機能である。コンシューマは、基礎となるクラウド・インフラストラクチャを管理も制御もしないが、オペレーティング・システム、ストレージ、展開されたアプリケーションを制御し、場合によっては選択されたネットワーキング・コンポーネント(例えば、ホスト・ファイアウォール)を限定的に制御する。
展開モデルは、次の通りである。
プライベート・クラウド:クラウド・インフラストラクチャは、ある組織のためだけに運用される。このクラウド・インフラストラクチャは、組織または第三者によって管理されてもよく、オンプレミスまたはオフプレミスで存在してもよい。
コミュニティ・クラウド:クラウド・インフラストラクチャは複数の組織で共有され、関心事項(例えば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンス上の考慮事項)を共有している特定のコミュニティをサポートする。このクラウド・インフラストラクチャは、組織または第三者によって管理されてもよく、オンプレミスまたはオフプレミスで存在してもよい。
パブリック・クラウド:クラウド・インフラストラクチャは、一般公衆または大規模な業界グループにとって利用可能であり、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、固有のエンティティのままであるが、データおよびアプリケーションの移植性(例えば、クラウド間の負荷分散のためのクラウド・バースティング)を可能にする標準化された技術または専用の技術によって共に結び付けられる2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の合成である。
クラウド・コンピューティング環境は、ステートレス性、低結合性、モジュール性、および意味的相互運用性に焦点を置くことを重視したサービスである。クラウド・コンピューティングの中心は、相互接続されたノードのネットワークを含むインフラストラクチャである。
図5は、本開示のいくつかの実施形態による、クラウド・コンピューティング環境500を示すブロック図である。図示のように、クラウド・コンピューティング環境500は、例えば、携帯情報端末(PDA:personal digital assistant)もしくは携帯電話520-1、デスクトップ・コンピュータ520-2、ラップトップ・コンピュータ520-3、または自動車コンピュータ・システム520-4あるいはその組合せなどのクラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが通信することができる1つまたは複数のクラウド・コンピューティング・ノード510を含む。ノード510は、互いに通信してもよい。ノード510は、本明細書で上述したようなプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、もしくはハイブリッド・クラウド、またはその組合せなどの1つまたは複数のネットワーク内で物理的にまたは仮想的にグループ化されてもよい(図示せず)。これにより、クラウド・コンピューティング環境500は、インフラストラクチャ、プラットフォーム、またはソフトウェア、あるいはその組合せを、クラウド・コンシューマがローカル・コンピューティング・デバイス上にリソースを保持する必要のないサービスとして提供することが可能になる。図5に示すコンピューティング・デバイス520-1~520-4のタイプは、例示のみを意図しており、コンピューティング・ノード510およびクラウド・コンピューティング環境500は、任意のタイプのネットワークまたはネットワーク・アドレス指定可能な接続あるいはその両方を介して(例えば、ウェブ・ブラウザを使用して)、任意のタイプのコンピュータ化されたデバイスと通信できることを理解されたい。
図6は、本開示のいくつかの実施形態による、クラウド・コンピューティング環境500によって提供される1組の機能抽象化モデル層600を示すブロック図である。図6に示すコンポーネント、層、および機能は、例示のみを意図しており、本発明の実施形態はそれらに限定されないことを予め理解されたい。図示のように、以下の層および対応する機能が提供される。
ハードウェアおよびソフトウェア層610は、ハードウェア・コンポーネントおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例には、メインフレーム611、RISC(縮小命令セット・コンピュータ)アーキテクチャ・ベースのサーバ612、サーバ613、ブレード・サーバ614、記憶デバイス615、ならびにネットワークおよびネットワーキング・コンポーネント616が含まれる。いくつかの実施形態では、ソフトウェア・コンポーネントには、ネットワーク・アプリケーション・サーバ・ソフトウェア617およびデータベース・ソフトウェア618が含まれる。
仮想化層620は、抽象化層を提供し、この層から仮想エンティティの次の例、すなわち、仮想サーバ621、仮想ストレージ622、仮想プライベート・ネットワークを含む仮想ネットワーク623、仮想アプリケーションおよびオペレーティング・システム624、ならびに仮想クライアント625が提供されてもよい。
一例では、管理層630は、以下に記載の機能を提供する。リソース・プロビジョニング631は、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソースおよび他のリソースの動的な調達を提供する。計量および価格決定632は、クラウド・コンピューティング環境内でリソースが利用されるときのコスト追跡、およびこれらのリソースの消費に対する課金または請求を提供する。一例では、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含むことがある。セキュリティは、クラウド・コンシューマおよびタスクのための本人確認、ならびにデータおよび他のリソースのための保護を提供する。ユーザ・ポータル633は、コンシューマおよびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理634は、要求されるサービス・レベルが満たされるようなクラウド・コンピューティング・リソースの割当ておよび管理を提供する。サービス・レベル・アグリーメント(SLA)の計画および履行635は、SLAに従って将来要求されることが予想されるクラウド・コンピューティング・リソースの事前配置および調達を提供する。
ワークロード層640は、クラウド・コンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロードおよび機能の例には、マッピングおよびナビゲーション641、ソフトウェア開発およびライフサイクル管理652、仮想教室教育配信643、データ分析処理644、トランザクション処理645、ならびに重み付き知識グラフに基づいてビデオをセグメント化すること646が含まれる。
本開示は、システム、方法、またはコンピュータ・プログラム製品あるいはその組合せとすることができる。コンピュータ・プログラム製品は、プロセッサに本開示の態様を実施させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体(または複数のコンピュータ可読記憶媒体)を含んでもよい。
コンピュータ可読記憶媒体は、命令実行デバイスが使用するための命令を保持および記憶することができる有形デバイスである。コンピュータ可読記憶媒体の例は、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁気記憶デバイス、半導体記憶デバイス、または上記の任意の適切な組合せを含むことができる。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには以下のもの、すなわち、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読取り専用メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック(R)、フロッピ(R)・ディスク、パンチカードまたは命令が記録された溝内の隆起構造などの機械的に符号化されたデバイス、および上記の任意の適切な組合せが含まれる。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を介して伝播する電磁波(例えば、光ファイバ・ケーブルを通る光パルス)、または電線を介して送信される電気信号などの、一過性の信号自体であると解釈されるべきではない。
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、または、ネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、またはワイヤレス・ネットワークあるいはその組合せを介して外部コンピュータまたは外部記憶デバイスにダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバあるいはその組合せを含むことができる。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、そのコンピュータ可読プログラム命令を、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体での記憶のために転送する。
本開示の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、インストラクション・セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Smalltalk(R)、C++などのオブジェクト指向プログラミング言語および「C」プログラミング言語もしくは同様のプログラム言語などの従来の手続き型プログラミング言語を含む1つまたは複数のプログラミング言語の任意の組合せで書かれたソース・コードもしくはオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、スタンドアロン・ソフトウェア・パッケージとして全体がユーザのコンピュータ上で、一部がユーザのコンピュータ上で、一部がユーザのコンピュータ上かつ一部がリモート・コンピュータ上で、または全体がリモート・コンピュータ上もしくはサーバ上で実行されてもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、または(例えば、インターネット・サービス・プロバイダを使用してインターネットを介して)外部コンピュータに対して接続されてもよい。いくつかの実施形態では、本開示の態様を実行するために、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路が、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行してもよい。
本開示の態様は、本開示の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャートまたはブロック図あるいはその両方を参照しながら本明細書で説明されている。フローチャートまたはブロック図あるいはその両方の各ブロック、およびフローチャートまたはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実施され得ることが理解されよう。
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックで指定された機能/動作を実施するための手段を作り出すように、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されて、マシンを作り出すものであってもよい。また、これらのコンピュータ可読プログラム命令は、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックで指定された機能/動作の態様を実施する命令を含む製造品を含むように、コンピュータ可読媒体に記憶され、コンピュータ、プログラマブル・データ処理装置、または他のデバイスあるいはその組合せに対して特定の方式で機能するように指示できるものであってもよい。
また、コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル装置、または他のデバイスで実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックで指定された機能/動作を実施するように、コンピュータ実施プロセスを作り出すべく、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされて、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。

Claims (9)

  1. 方法であって、
    ビデオを受信するステップと、
    前記ビデオから画像データおよびテキスト・データを抽出するステップと、
    前記画像データ内の少なくとも2つのエンティティを識別するステップと、
    前記画像データ内の前記少なくとも2つのエンティティに少なくとも1つのエンティティ関係を割り当てるステップと、
    前記テキスト・データ内の少なくとも2つのエンティティを識別するステップと、
    前記テキスト・データ内の前記少なくとも2つのエンティティに少なくとも1つのエンティティ関係を割り当てるステップと、
    前記画像データ内の前記少なくとも2つのエンティティに割り当てられた前記少なくとも1つのエンティティ関係についての画像知識グラフを生成するステップと、
    前記テキスト・データ内の前記少なくとも2つのエンティティに割り当てられた前記少なくとも1つのエンティティ関係についてのテキスト知識グラフを生成するステップと、
    前記画像知識グラフおよび前記テキスト知識グラフに基づいて、重み付き知識グラフを生成するステップと
    を含む、方法。
  2. 前記重み付き知識グラフが、前記画像データ内の前記少なくとも2つのエンティティに割り当てられた前記少なくとも1つのエンティティ関係の関係重みと、前記テキスト・データ内の前記少なくとも2つのエンティティに割り当てられた前記少なくとも1つのエンティティ関係の関係重みとを含む、請求項1に記載の方法。
  3. 前記画像データ内の前記少なくとも2つのエンティティに割り当てられた前記少なくとも1つのエンティティ関係および前記テキスト・データ内の前記少なくとも2つのエンティティに割り当てられた前記少なくとも1つのエンティティ関係における上位関係を識別するステップであって、前記上位関係が、閾値関係重みよりも大きい関係重みを有するエンティティ関係である、前記識別するステップと、
    前記上位関係に対応する前記ビデオのフレームを選択するステップと、
    前記フレームをビデオ・セグメントにグループ化するステップと
    をさらに含む、請求項2に記載の方法。
  4. 前記上位関係を含まない、前記ビデオの残りのフレームがあると判定するステップと、
    前記ビデオ・セグメント内の前記フレームが前記残りのフレームに最も近いと判定するステップと、
    前記残りのフレームを前記ビデオ・セグメントとグループ化するステップと
    をさらに含む、請求項3に記載の方法。
  5. 前記ビデオがピクチャに分割され、各ピクチャがフレームのセットを含む、請求項1に記載の方法。
  6. 前記テキスト・データがキャプションである、請求項1に記載の方法。
  7. 前記画像データ内の前記少なくとも2つのエンティティが、顔認識に基づいて識別される、請求項1に記載の方法。
  8. 方法請求項1ないし7に記載の方法のすべてのステップを実行するように適合された手段を含むシステム。
  9. コンピュータ・プログラムであって、前記コンピュータ・プログラムがコンピュータ・システム上で実行されると、方法請求項1ないし7に記載の方法のすべてのステップを実行するための命令を含む、コンピュータ・プログラム。
JP2022527888A 2019-11-19 2020-10-20 重み付き知識グラフに基づくビデオ・セグメンテーション Pending JP2023502376A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/688,356 2019-11-19
US16/688,356 US11093755B2 (en) 2019-11-19 2019-11-19 Video segmentation based on weighted knowledge graph
PCT/IB2020/059860 WO2021099858A1 (en) 2019-11-19 2020-10-20 Video segmentation based on weighted knowledge graph

Publications (1)

Publication Number Publication Date
JP2023502376A true JP2023502376A (ja) 2023-01-24

Family

ID=75909550

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022527888A Pending JP2023502376A (ja) 2019-11-19 2020-10-20 重み付き知識グラフに基づくビデオ・セグメンテーション

Country Status (8)

Country Link
US (1) US11093755B2 (ja)
JP (1) JP2023502376A (ja)
KR (1) KR20220073789A (ja)
CN (1) CN114746857B (ja)
AU (1) AU2020387677B2 (ja)
DE (1) DE112020005726B4 (ja)
GB (1) GB2605723A (ja)
WO (1) WO2021099858A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113453065A (zh) * 2021-07-01 2021-09-28 深圳市中科网威科技有限公司 一种基于深度学习的视频分段方法、系统、终端及介质
US20240119742A1 (en) * 2021-09-09 2024-04-11 L&T Technology Services Limited Methods and system for extracting text from a video
JP2023178141A (ja) * 2022-06-03 2023-12-14 株式会社日立製作所 仮想空間でのシーン記録再構築装置およびシーン記録再構築方法
US11928145B1 (en) * 2022-12-09 2024-03-12 International Business Machines Corporation Creating a knowledge graph for a video
CN115878847B (zh) * 2023-02-21 2023-05-12 云启智慧科技有限公司 基于自然语言的视频引导方法、系统、设备及存储介质
CN116796008B (zh) * 2023-08-15 2024-02-13 北京安录国际技术有限公司 一种基于知识图谱的运维分析管理系统以及方法
CN117271803B (zh) * 2023-11-20 2024-01-30 北京大学 知识图谱补全模型的训练方法、装置、设备及存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5635982A (en) 1994-06-27 1997-06-03 Zhang; Hong J. System for automatic video segmentation and key frame extraction for video sequences having both sharp and gradual transitions
US6961954B1 (en) 1997-10-27 2005-11-01 The Mitre Corporation Automated segmentation, information extraction, summarization, and presentation of broadcast news
US7296231B2 (en) 2001-08-09 2007-11-13 Eastman Kodak Company Video structuring by probabilistic merging of video segments
GB0406512D0 (en) 2004-03-23 2004-04-28 British Telecomm Method and system for semantically segmenting scenes of a video sequence
WO2007076893A1 (en) 2005-12-30 2007-07-12 Telecom Italia S.P.A. Edge-guided morphological closing in segmentation of video sequences
KR101031357B1 (ko) 2009-07-15 2011-04-29 인하대학교 산학협력단 주요 배역을 추출하는 방법 및 장치
CN101719144B (zh) 2009-11-04 2013-04-24 中国科学院声学研究所 一种联合字幕和视频图像信息进行场景分割和索引的方法
US8298648B2 (en) * 2010-02-22 2012-10-30 Nike, Inc. Pad elements for apparel and other products
US8849041B2 (en) 2012-06-04 2014-09-30 Comcast Cable Communications, Llc Data recognition in content
WO2015038749A1 (en) * 2013-09-13 2015-03-19 Arris Enterprises, Inc. Content based video content segmentation
KR102533972B1 (ko) * 2016-09-08 2023-05-17 고 수 시아 시각적 검색 플랫폼용 영상 인제스트 프레임워크
US10834439B2 (en) * 2016-09-30 2020-11-10 Rovi Guides, Inc. Systems and methods for correcting errors in caption text
CN109325148A (zh) 2018-08-03 2019-02-12 百度在线网络技术(北京)有限公司 生成信息的方法和装置
CN109168024B (zh) 2018-09-26 2022-05-27 平安科技(深圳)有限公司 一种目标信息的识别方法及设备

Also Published As

Publication number Publication date
CN114746857A (zh) 2022-07-12
CN114746857B (zh) 2023-05-09
AU2020387677A1 (en) 2022-04-28
US11093755B2 (en) 2021-08-17
WO2021099858A1 (en) 2021-05-27
US20210150224A1 (en) 2021-05-20
GB2605723A (en) 2022-10-12
AU2020387677B2 (en) 2023-02-23
KR20220073789A (ko) 2022-06-03
GB202208933D0 (en) 2022-08-10
DE112020005726T5 (de) 2022-09-29
DE112020005726B4 (de) 2024-08-22

Similar Documents

Publication Publication Date Title
JP2023502376A (ja) 重み付き知識グラフに基づくビデオ・セグメンテーション
US11232641B2 (en) Mixing virtual image data and physical image data
US11682415B2 (en) Automatic video tagging
US11158210B2 (en) Cognitive real-time feedback speaking coach on a mobile device
US20180315094A1 (en) Method and system for targeted advertising based on natural language analytics
US11011161B2 (en) RNNLM-based generation of templates for class-based text generation
US20210133623A1 (en) Self-supervised object detector training using raw and unlabeled videos
US11562747B2 (en) Speech-to-text transcription with multiple languages
US11586858B2 (en) Image object recognition through multimodal conversation templates
US11893346B2 (en) Transformer-based encoding incorporating metadata
JP2023521660A (ja) 階層型ニューラル・ネットワークとセル境界から構造へのクラスタリングとを用いる視覚ベースのセル構造認識
US20220067546A1 (en) Visual question answering using model trained on unlabeled videos
US20200082210A1 (en) Generating and augmenting transfer learning datasets with pseudo-labeled images
US11055330B2 (en) Utilizing external knowledge and memory networks in a question-answering system
US10839224B2 (en) Multivariate probability distribution based sports highlight detection
US12010405B2 (en) Generating video summary
US20170118079A1 (en) Provisioning computer resources to a geographical location based on facial recognition
US10762895B2 (en) Linguistic profiling for digital customization and personalization
US20210124931A1 (en) Attention generation
JP2022552812A (ja) ドメイン固有モデル圧縮
US20200372114A1 (en) Automatic translating and synchronization of audio data
US12026189B2 (en) Ranking explanatory variables in multivariate analysis
US12045717B2 (en) Automatic creation of difficult annotated data leveraging cues
US20210349931A1 (en) System for object identification
US11176924B2 (en) Reduced miss rate in sound to text conversion using banach spaces

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221209

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240604

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20240726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20240726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240903