JP7242994B2

JP7242994B2 - ビデオイベント識別方法、装置、電子デバイス及び記憶媒体

Info

Publication number: JP7242994B2
Application number: JP2021124075A
Authority: JP
Inventors: ワン、キ; フェン、ジファン; ヤン、フ; ヘ、フェン; チャイ、チュングアン; チュウ、ヨン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-07-29
Filing date: 2021-07-29
Publication date: 2023-03-22
Anticipated expiration: 2041-07-29
Also published as: US11557120B2; CN112001265B; JP2022027629A; KR102553763B1; KR20220014865A; EP3945456A1; US20220036085A1; EP3945456B1; CN112001265A

Description

本開示はコンピュータ応用技術に関し、特に知識マップ、ディープラーニング及びコンピュータビジョン分野におけるビデオイベント識別方法、装置、電子デバイス及び記憶媒体に関する。

情報時代におけるビデオの爆発に伴って、ビデオイベント識別（ビデオイベント理解とも呼ばれる）のようなビデオ理解は重要な技術的ニーズになった。ビデオイベント識別の主旨は、ビデオの深いレベルのコンテンツを理解し、ビデオに発生したイベントを解析して推論することにより、深いレベルのコンテンツ理解の目的を達成する。

しかしながら、現在のビデオに対する識別の多くはビデオ動作識別やビデオシーン識別などであり、対応するビデオイベント識別方式はまだない。

本開示は、ビデオイベント識別方法、装置、電子デバイス及び記憶媒体を提供する。

ビデオイベントマップを構築し、前記ビデオイベントマップにおけるイベントは、それぞれ前記イベントのＭ個（Ｍは１より大きい正整数である）の項役割及び各項役割の項を含み、識別すべきビデオについて、前記ビデオに対応する識別すべきイベントの前記Ｍ個の項役割の項を取得し、取得された項に基づいて前記ビデオイベントマップから１つのイベントを識別された前記ビデオに対応するイベントとして選択することを含むビデオイベント識別方法を提供する。

マップ構築モジュール及びイベント識別モジュールを備え、前記マップ構築モジュールは、ビデオイベントマップを構築し、前記ビデオイベントマップにおけるイベントは、それぞれ前記イベントのＭ（Ｍは１より大きい正整数である）個の項役割及び各項役割の項を含み、前記イベント識別モジュールは、識別すべきビデオについて、前記ビデオに対応する識別すべきイベントの前記Ｍ個の項役割の項を取得し、取得された項に基づいて前記ビデオイベントマップから１つのイベントを識別された前記ビデオに対応するイベントとして選択するビデオイベント識別装置を提供する。

少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信接続されたメモリとを備え、前記メモリに前記少なくとも１つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサに上記の方法を実行させる電子デバイスを提供する。

コンピュータに上記の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体を提供する。

上述の開示の一実施形態は、以下の利点又は有益な効果を有する。つまり、知識マップとビデオ理解を組み合わせることで、イベントがそれぞれ複数の項役割と対応する項とを含むビデオイベントマップを構築し、識別すべきビデオに対応する識別すべきイベントの対応する各項役割の項を取得し、取得された項に基づいてビデオイベントマップからイベントを選択することにより、正確かつ効率的なビデオイベント識別を実現する。

理解すべきなのは、この部分で説明される内容は、本開示の実施形態の肝心又は重要な特徴を識別することを意図しておらず、本開示の範囲を制限することを意図していない。本開示の他の特徴は、以下の説明により容易に理解される。

図面は、本発明をよりよく理解するためのものであり、本開示を限定するものではない。
本開示に記載されたビデオイベント識別方法の一実施形態のフローチャートである。本開示に記載された畳み込み操作の第１概略図である。本開示に記載された畳み込み操作の第２概略図である。本開示に記載されたイベントグラフに対応するマップ埋め込み表現の取得及び類似度の計算のプロセスの概略図である。本開示に記載されたビデオイベント識別方法の全体的な実現プロセスの概略図である。本開示に記載されたビデオイベント識別装置６０の一実施形態の構成の概略図である。本開示の実施形態に記載された方法の電子デバイスのブロック図である。

以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

また、理解すべきなのは、本願中の専門語である「及び／又は」は、関連対象を描画する関連関係に過ぎず、三つの関係がある可能性を示す。例えば、Ａ及び／又はＢは、Ａだけが存在すること、ＡとＢが同時に存在すること、Ｂだけが存在する、という三つの状況を示すことができる。また、本願中の文字である"／"は、一般的に、前後の関連対象が「又は」の関係を有すると示す。

図１は、本開示に記載されたビデオイベント識別方法の一実施形態のフローチャートである。図１に示すように、以下の具体的な実現形態を含む。

１０１では、ビデオイベントマップを構築し、ビデオイベントマップにおけるいずれか一つのイベントは、それぞれ、イベントのＭ個の項役割及び各項役割の項を含み、Ｍは１より大きい正整数である。

異なる項役割はイベントの異なる属性として理解して良い。それに応じて、項は属性値として理解して良い。項役割が「空間シーン」であれば、対応する項は「屋外」、「桃林」などであって良い。

１０２では、識別すべきビデオについて、そのビデオに対応する識別すべきイベントのＭ個の項役割の項を取得する。

識別すべきイベントは、識別すべきビデオに対応するイベントであり、そのイベントのＭ個の項役割の項を取得することができる。

１０３では、取得された項に基づいて、ビデオイベントマップから１つのイベントを、識別された当該ビデオに対応するイベントとして選択する。

取得された項に基づいて、ビデオイベントマップから一つのイベントを選択することができる。このイベントを、識別された識別すべきビデオに対応するイベントとすれば良く、識別すべきビデオのイベント識別結果とすれば良い。

このように、上述した実施形態では、知識マップとビデオ理解を組み合わせてイベントがそれぞれ複数の項役割と対応する項とを含むビデオイベントマップを構築し、識別すべきビデオに対応する識別すべきイベントの対応する各項役割の項を取得し、取得した項に基づいてビデオイベントマップからイベントを選択することにより、正確かつ効率的なビデオイベント識別を実現する。

どのようにビデオイベントマップを構築するかは現有技術であり、例えば自動化抽出とマップ構築技術を採用して実現することができる。ビデオイベントマップは主に異なるイベントとイベントに含まれる主要な項役割と項などを定義して規範化する。１０１に記載されているように、一つのイベントはＭ個の項役割を含むことができ、例えば、Ｍの値は５とすることができる。５個の項役割はそれぞれ、空間シーン（ｓｃｅｎｅ）、動作（ａｃｔｉｏｎ）、人物（ｐｅｒｓｏｎ）、物体（ｏｂｊｅｃｔ）、及び関連語（ｔｅｒｍ）とすることができる。

「桃園三結義」という事件を例にすると、その中に含まれる項役割と項は表１のようになる。

表１「桃園三結義」という事件に含まれる項役割と項

１０２に記載されているように、識別すべきビデオについて、識別すべきビデオに対応する識別すべきイベントのＭ個の項役割の項を取得し、例えば、識別すべきイベントの空間シーン項役割の項、動作項役割の項、人物項役割の項、物体項役割の項、及び関連語項役割の項をそれぞれ取得してよい。

ここで、識別すべきビデオに対して視覚理解を行うことにより、識別すべきイベントの空間シーン項役割の項、動作項役割の項、人物項役割の項、物体項役割の項を得ると共に、識別すべきビデオに対応するテキストに対してテキスト理解を行うことにより、識別すべきイベントの関連語項役割の項を得ることができる。

視覚理解は主に基本的な視覚関連要素の抽出と識別を実現する。具体的には、識別すべきビデオに対して空間シーン識別（ＳｃｅｎｅＲｅｃｏｇｎｉｔｉｏｎ）を実行して識別すべきイベントの空間シーン項役割の項を得、識別すべきビデオに対して動作識別（ＡｃｔｉｏｎＲｅｃｏｇｎｉｔｉｏｎ）を行って識別すべきイベントの動作項役割の項を得、識別すべきビデオに対して顔識別（ＦａｃｅＲｅｃｏｇｎｉｔｉｏｎ）を行って識別すべきイベントの人物項役割の項を得、識別すべきビデオに対して共通物体識別（ＯｂｊｅｃｔＲｅｃｏｇｎｉｔｉｏｎ）を行って識別すべきイベントの物体項役割の項を得ることができる。

ここで、空間シーン識別は、識別すべきビデオの空間シーンを識別するために使用され、表２に示すように、実際の必要に応じて具体的にどの空間シーンを含むかを決定することができる。

表２空間シーン

動作識別は、ビデオに出現された動作を識別するために使用される。表３に示すように、実際の必要に応じて具体的にどの動作を含むかを識別することもできる。

表３動作

共通物体識別は、ビデオに出現した樹木、テーブルなどの物体の名前を識別するために使用される。顔識別は、ビデオに出現した人物を識別するために使用される。

空間シーン識別、動作識別、共通物体識別及び顔識別をどのように行うかはいずれも従来技術である。

上記の視覚理解に加えて、識別すべきビデオに対応するテキストに対してテキスト理解を行うことで、識別すべきイベントの関連語の項役割の項を得ることができる。例えば、テキストに対してエンティティ識別とキーワード抽出を別々に行い、エンティティ識別結果とキーワード抽出結果を識別すべきイベントの関連語の項役割の項として良い。

識別すべきビデオに対応するテキストは、識別すべきビデオのタイトルテキスト、識別すべきビデオの説明情報（例えば、概要情報など）テキスト、識別すべきビデオのラジオ変換から得られるテキスト、識別すべきビデオの字幕変換から得られるテキストなどのうちの１つ又は任意の組み合わせを含むことができるが、これらに限定されない。ここで、光学文字識別（ＯＣＲ、ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）技術により字幕に対応するテキストを得、自動音声識別（ＡＳＲ、ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）技術によりラジオに対応するテキストを得ることができる。

エンティティ識別はテキスト中のエンティティを識別することであり、キーワード抽出はテキスト中のキーワードを抽出することである。エンティティ識別とキーワード抽出の具体的な実現はいずれも従来技術である。

以上の処理により、ビデオモダリティとテキストモダリティのような異なるモダリティの要素抽出が実現され、その後に抽出されたマルチモダリティ情報を統合し、識別すべきビデオに対応するイベントを正確に識別することができ、即ちイベント識別結果の正確度を向上させることができる。

１０３に記載されているように、識別された識別すべきビデオに対応するイベントとして、取得された識別すべきイベントのＭ個の項役割の項に基づいて、ビデオイベントマップから１つのイベントを選択することができる。

具体的には、まず、取得された項に基づいてイベントグラフを構築することができる。イベントグラフには３層のノードが含まれる。ここで、第１層ノードの数は１つであり、識別すべきイベントに対応する。第２層ノードの数はＭ個であり、各第２層ノードは、それぞれ１つの項役割に対応する。第３層ノードの数は、Ｍ個の項役割の項数の和に等しく、各第３層ノードは、それぞれ１つの項に対応する。各第２層ノードは、それぞれ第１層ノードに接続され、各第３層ノードは、それぞれ所属する項役割に対応する第２層ノードに接続される。そして、イベントグラフに対応するグラフ埋め込み（ｇｒａｐｈｅｍｂｅｄｄｉｎｇ）表現を取得し、さらにイベントグラフに対応するグラフ埋め込み表現（すなわち、識別すべきイベントに対応するグラフ埋め込み表現）とビデオイベントマップにおける各イベントに対応するグラフ埋め込み表現との間の類似度をそれぞれ計算し、類似度が最も高いイベントを選択されるイベントとすることができる。識別すべきイベントは未知のイベントであるため、実際の応用では、識別すべきイベントに対応するノードの内容は空であると考えて良い。

後続の処理方式を理解しやすくするために、まず畳み込みニューラルネットワーク（ＣＮＮ、ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）の画像への応用を紹介する。図２は、本開示に記載された畳み込み操作の第１概略図である。図２に示すように、左の図はニューラルネットワーク層における画像の畳み込み操作過程を示し、最下部の層は入力される特徴マップ（又は原図）であり、畳み込み（ここでは３＊３の畳み込みコア、すなわちｒｅｃｅｐｔｉｖｅｆｉｌｅｄ＝９を示す）操作により、畳み込み後の特徴マップを出力する。図３は、本開示に記載された畳み込み操作の第２概略図である。図３に示すように、（ａ）部分の各図において、下層の９つのピクセルは上層の１つのピクセルに重み付けされてマッピングされ、畳み込みのある領域はいずれも中心ノード（ｎｏｄｅ）とその近傍ノードの集合と見なすことができ、最終的に１つの値として重み付けされてマッピングされるため、（ｂ）部分の入力特徴マップは、この画像を表すために正方形のグリッド（ｇｒｉｄ）マップにいくつかのノードを決定し、正則化された近傍マップ（この近傍マップは畳み込みコアの領域、すなわち知覚野（ｒｅｃｅｐｔｉｖｅｆｉｌｅｄ）である）を構築すると見なすことができる。

以上の示唆に基づいて、本願ではイベントグラフに対応するグラフ埋め込み表現を取得する際に、まずイベントグラフ中の各ノードからＮ個の中心ノードを選択することができ、Ｎは１より大きい正整数で且つイベントグラフに含まれるノードの数よりも少ない。その後、いずれか一つの中心ノードに対して、その中心ノードの、当該中心ノードに接続された近傍ノードを取得し、その中心ノードと近傍ノードからなるサブグラフに対応するベクトル表現を決定し、さらに得られた各ベクトル表現を畳み込みニューラルネットワークに入力してイベントグラフに対応するグラフ埋め込み表現を得る処理をそれぞれ行うことができる。

イベントグラフに対して、まず、選択する中心ノードの個数、すなわち知覚野の個数を表す幅Ｎを決定する必要がある。たとえば、主要な項役割に対応する４つのノードを中心ノードとして選択することができ、例えば空間シーン項役割に対応するノード、動作項役割に対応するノード、物体項役割に対応するノード、関連語項役割に対応するノードを選択される４つの中心ノードとすることができる。

その後、各中心ノードの近傍ノードをそれぞれ取得し、即ちいずれか一つの中心ノードに対して、その中心ノードに接続しているノードをその中心ノードの近傍ノードとすることができる。中心ノードは第２層ノードであるため、その近傍ノードには必ず第１層ノードと第３層ノードが含まれる。

また、正則化処理を行うことも可能である。具体的には、いずれか一つの中心ノードについて、取得されたその中心ノードの近傍ノードの数ＰがＫより小さければ、Ｋ－Ｐ個のダミーノードを補充することができ、Ｋは１より大きい正整数である。補充されたダミーノードも当該中心ノードの近傍ノードとし、取得された当該中心ノードの近傍ノードの数ＰがＫより大きければ、取得された当該中心ノードの各近傍ノードを所定の規則に従ってソートし、ソート後のＫ＋１番目及びそれ以降の近傍ノードを廃棄することができる。

Ｋの具体的な値は実際の必要に応じて決定することができる。Ｋの値が４である場合、いずれか一つの中心ノードに対して、３つの近傍ノードが取得されたと仮定すると、ダミーノードを１つ補充する必要があり、６つの近傍ノードが取得されたと仮定すると、６つの近傍ノードをソートし、５位と６位のノードを廃棄する必要がある。ダミーノードはデフォルト値に設定できる。

各近傍ノードをどのようにソートするかは制限されず、例えば、各近傍ノードの信頼度を所定の方法でそれぞれ取得し、信頼度の降順にソートすることができる。一般的に、近傍ノードのうちの第１層ノードは保持され、近傍ノードのうちの第３層ノードの一部は廃棄される。

いずれの中心ノードに対して、その中心ノードとその近傍ノードからなるサブグラフに対応するベクトル表現を決定することもできる。例えば、予め設定されたマッピング方式を用いてこのサブグラフをベクトル表現にマッピングすることができるが、そのマッピング方式が具体的にどのような方式であるかは制限されない。

このようにして、中心ノードごとに対応するベクトル表現を得ることができ、さらに得られた各ベクトル表現を畳み込みニューラルネットワーク、例えば２層の畳み込みニューラルネットワークに入力することで、イベントグラフに対応するグラフ埋め込み表現を得ることができる。

同様のグラフ埋め込み表現の取得方法により、ビデオイベントマップにおける各イベントに対応するグラフ埋め込み表現をそれぞれ取得することができ、さらに、イベントグラフに対応するグラフ埋め込み表現とビデオイベントマップにおける各イベントに対応するグラフ埋め込み表現との類似度をそれぞれ計算し、類似度が最も高いイベントを選択されるイベント、すなわち識別すべきビデオに対応するイベントとすることができる。

上記の説明に基づいて、図４は、本開示に記載されたイベントグラフに対応するマップ埋め込み表現の取得及び類似度の計算のプロセスの概略図である。図４に示すように、イベントグラフにおける第２層ノードのうちの３個目のノードを例にする。そのノードが中心ノードとして選択されたと仮定すると、その近傍ノードは、第１層ノードと、当該中心ノードに接続された２つの第３層ノードとを含むことができ、Ｋの値が４であると仮定すると、一つのダミーノードを補充する必要がある。

上記の処理では、グラフ埋め込みをイベント知識表現に適用し、畳み込みニューラルネットワークと組み合わせて複雑な推定技術を構築することにより、ビデオイベント識別結果の正確度を向上させる。

図５は、本開示に記載されたビデオイベント識別方法の全体的な実現プロセスの概略図である。図５に示すように、知識統合＆複雑推定とは、取得された項からイベントグラフを構築し、イベントグラフに対応するグラフ埋め込み表現を取得し、グラフ埋め込み表現の間の類似度を計算することで最終的な識別結果を得る過程である。

説明すべきなのは、前記の方法実施例について、説明を簡単にするために、一連の動作の組合せとして記述された。しかし、当業者であればわかるように、本願により幾つかのステップが他の順番を採用し、或いは同時に実行可能であるため、本願は説明された動作の順番に限定されない。次に、当業者であればわかるように、明細書に説明された実施例は何れも好適な実施例であり、関わる動作とモジュールが必ずしも本願に必要なものではない。

本開示に記載された態様の適用シーンは、以下のように例示されることができる。

１）ビデオ検索シーンの場合に、例えばビデオ検索リコールのためにビデオのイベントを標記することができる。

２）ビデオ推薦シーンの場合に、例えばユーザの興味ポイントをビデオのイベントと関連付けて解析し、それに応じてビデオ推薦を行うことができる。

３）企業向け（ＴｏＢ）シーンの場合に、たとえば、窃盗、けんかなどのイベントを識別することができる。

以上は、方法の実施形態に関する説明であり、以下で装置の実施形態により本開示に記載された態様をさらに説明する。

図６は、本開示に記載されたビデオイベント識別装置６０の一実施形態の構成の概略図である。図６に示すように、マップ構築モジュール６０１及びイベント識別モジュール６０２を含む。

マップ構築モジュール６０１は、ビデオイベントマップを構築するために使用され、ビデオイベントマップにおけるいずれか一つのイベントは、それぞれ、イベントのＭ個の項役割及び各項役割の項を含み、Ｍは１より大きい正整数である。

イベント識別モジュール６０２は、識別すべきビデオに対して、そのビデオに対応する識別すべきイベントのＭ個の項役割の項を取得し、取得された項に基づいて、ビデオイベントマップから１つのイベントを識別された当該ビデオに対応するイベントとして選択する。

Ｍ個の項役割は、空間シーン、動作、人物、物体、及び関連語を含むことができる。

イベント識別モジュール６０２は、識別すべきビデオに対して視覚理解を行って識別すべきイベントの空間シーン項役割の項、動作項役割の項、人物項役割の項、物体項役割の項を得、識別すべきビデオに対応するテキストに対してテキスト理解を行って識別すべきイベントの関連語項役割の項を得ることができる。

具体的には、イベント識別モジュール６０２は、識別すべきビデオに対して空間シーン識別を行って識別すべきイベントの空間シーンの項役割の項を得、識別すべきビデオに対して動作識別を行って識別すべきイベントの動作項役割の項を得、識別すべきビデオに対して顔識別を行って識別すべきイベントの人物項役割の項を得、識別すべきビデオに対して共通物体識別を行って識別すべきイベントの物体項役割の項を得ることができる。

イベント識別モジュール６０２は更に、識別すべきビデオに対応するテキストに対してエンティティ識別及びキーワード抽出を行って識別すべきイベントの関連語項役割の項を得ることができる。

イベント識別モジュール６０２は、取得された項からイベントグラフを構築することができる。イベントグラフには３層のノードが含まれる。ここで、第１層ノードの数は１つであり、識別すべきイベントに対応する。第２層ノードの数はＭ個であり、各第２層ノードは、それぞれ１つの項役割に対応する。第３層ノードの数は、Ｍ個の項役割の項数の和に等しく、各第３層ノードは、それぞれ１つの項に対応する。各第２層ノードは、それぞれ第１層ノードに接続され、各第３層ノードは、それぞれ所属する項役割に対応する第２層ノードに接続される。そして、イベントグラフに対応するグラフ埋め込み表現を取得し、さらにイベントグラフに対応するグラフ埋め込み表現とビデオイベントマップにおける各イベントに対応するグラフ埋め込み表現との間の類似度をそれぞれ計算し、類似度が最も高いイベントを選択されるイベントとすることができる。

具体的には、イベント識別モジュール６０２は、イベントグラフにおける各ノードからＮ個の中心ノードを選択することができ、Ｎは１より大きい正整数で且つイベントグラフに含まれるノードの数よりも少ない。そして、何れか一つの中心ノードについて、その中心ノードの、当該中心ノードに接続された近傍ノードを取得し、その中心ノードと近傍ノードからなるサブグラフに対応するベクトル表現を決定し、得られた各ベクトル表現を畳み込みニューラルネットワークに入力してイベントグラフに対応するグラフ埋め込み表現を得る処理をそれぞれ行うことができる。

ここで、イベント識別モジュール６０２は、空間シーン項役割に対応するノード、動作項役割に対応するノード、物体項役割に対応するノード、及び関連語項役割に対応するノードを中心ノードとすることができる。

いずれか一つの中心ノードに対して、イベント識別モジュール６０２は更に、取得されたその中心ノードの近傍ノードの数ＰがＫ（Ｋは１より大きい正整数である）より小さければ、Ｋ－Ｐ個のダミーノードを補充し、補充されたダミーノードも当該中心ノードの近傍ノードとし、取得された当該中心ノードの近傍ノードの数ＰがＫより大きければ、取得された当該中心ノードの各近傍ノードを所定の規則に従ってソートし、ソート後のＫ＋１番目及びそれ以降の近傍ノードを廃棄することができる。

図６に示す装置の実施形態の具体的なワークフローは、前述の方法の実施形態の関連説明を参照でき、ここでは詳しく説明しない。

要約すると、本発明の装置の実施形態に記載の態様によれば、知識マップとビデオ理解を組み合わせて、イベントがそれぞれ複数の項役割及び対応する項を含むビデオイベントマップを構築し、識別すべきビデオに対応する識別すべきイベントの対応する各項役割の項を取得し、取得した項に基づいてビデオイベントマップからイベントを選択することにより、正確で効率的なビデオイベント識別を実現し、ビデオモダリティとテキストモダリティなどの異なるモダリティの要素抽出を実現し、且つ抽出したマルチモダリティ情報を統合することにより、更にビデオイベント識別結果の正確度を高めることができる。また、グラフ埋め込みをイベント知識表現に応用し、畳み込みニューラルネットワークと組み合わせて複雑な推定技術を構築することにより、更にビデオイベントの識別結果の正確度を高めることができる。また、各モジュールは高度にデカップリングされており、高いスケーラビリティなどを有する。

本発明の実施形態によれば、本発明は更に、電子デバイス及び可読記憶媒体を提供する。

図７は、本発明の実施形態に記載の方法による電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、ＰＤＡ、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、ＰＤＡ、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び／又は請求される本開示の実現を限定することが意図されない。

図７に示すように、この電子デバイスは、一つ又は複数のプロセッサＹ０１、メモリＹ０２、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力／出力装置（例えば、インターフェースに結合される表示装置）にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び／又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する（例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする）。図７において、一つのプロセッサＹ０１を例とする。

メモリＹ０２は、本開示で提供される非一時的コンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも１つのプロセッサが本願に提供された方法を実行するように、前記少なくとも１つのプロセッサに実行可能なコマンドが記憶されている。本開示の非一時的コンピュータ可読記憶媒体は、本願に提供された方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。

メモリＹ０２は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本開示の実施例における方法に対応するプログラムコマンド／ユニットを記憶するために用いられる。プロセッサＹ０１は、メモリＹ０２に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例における方法を実現する。

メモリＹ０２は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域は電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリＹ０２は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリＹ０２は、プロセッサＹ０１に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介して電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。

電子デバイスは、更に、入力装置Ｙ０３と出力装置Ｙ０４とを備えても良い。プロセッサＹ０１、メモリＹ０２、入力装置Ｙ０３及び出力装置Ｙ０４は、バス又は他の手段により接続されても良く、図７においてバスによる接続を例とする。

入力装置Ｙ０３は、入力された数字又はキャラクタ情報を受信し、電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置Ｙ０４は、表示装置、補助照明装置、触覚フィードバック装置（例えば、振動モータ）などを含むことができる。当該表示装置は、液晶ディスプレイ、発光ダイオードディスプレイ、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用集積回路、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び／又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される）は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び／又はオブジェクト向けプログラミング言語、及び／又はアセンブリ／機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び／又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス）を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び／又はデータを提供するために用いられる任意の信号を指す。

ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置（例えば、ブラウン管又は液晶ディスプレイモニタ）、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス（例えば、マウスや、トラックボール）を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック）であり得、ユーザからの入力は、任意の形態で（音響、音声又は触覚による入力を含む）受信され得る。

本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる）、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク、ワイド・エリア・ネットワーク、ブロックチェーンネットワーク、インターネットを含む。

コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント－サーバの関係を有するコンピュータプログラムによって生じる。サーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれるクラウドサーバであって良く、クラウドコンピューティングサービスシステムのホスト製品であり、従来の物理ホストとＶＰＳサービスにおいて管理が難しく、ビジネスの拡張性が低いという欠点を解決した。

以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。

前記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。

Claims

ビデオイベント識別方法であって、
何れか一つのイベントがそれぞれ前記イベントのＭ（Ｍは１より大きい正整数である）個の項役割及び各項役割の項を含むビデオイベントマップを構築することと、
識別すべきビデオについて、前記ビデオに対応する識別すべきイベントの前記Ｍ個の項役割の項を取得することと、
識別された前記ビデオに対応するイベントとして、取得された項に基づいて前記ビデオイベントマップから１つのイベントを選択することと、を含み、
前記ビデオに対応する識別すべきイベントの前記Ｍ個の項役割の項をそれぞれ取得することは、
前記ビデオに対応するテキストに対してエンティティ識別とキーワード抽出を行って前記識別すべきイベントの関連語の項役割の項を得ること、を含む、
方法。
前記Ｍ個の項役割は、空間シーン、動作、人物、物体、及び前記関連語を含む、請求項１に記載の方法。
前記ビデオに対応する識別すべきイベントの前記Ｍ個の項役割の項をそれぞれ取得することは、
前記ビデオに対して視覚理解を行って前記識別すべきイベントの前記空間シーンの項役割の項、前記動作の項役割の項、前記人物の項役割の項、及び前記物体の項役割の項を得ること、を含む、
請求項２に記載の方法。
前記ビデオに対して視覚理解を行って前記識別すべきイベントの空間シーンの項役割の項、動作の項役割の項、人物の項役割の項、及び物体の項役割の項を得ることは、
前記ビデオに対して空間シーン識別を行って前記識別すべきイベントの前記空間シーンの項役割の項を得、前記ビデオに対して動作識別を行って前記識別すべきイベントの前記動作の項役割の項を得、前記ビデオに対して顔識別を行って前記識別すべきイベントの前記人物の項役割の項を得、前記ビデオに対して共通物体識別を行って前記識別すべきイベントの前記物体の項役割の項を得ること、を含む、
請求項３に記載の方法。
前記取得された項に基づいて前記ビデオイベントマップから一つのイベントを選択することは、
得られた項に基づいて３層のノードが含まれるイベントグラフを構築することであって、第１層ノードの数は１つであり、前記識別すべきイベントに対応し、第２層ノードの数はＭ個であり、各第２層ノードはそれぞれ１つの項役割に対応し、第３層ノードの数はＭ個の項役割の項数の和に等しく、各第３層ノードはそれぞれ１つの項に対応し、各第２層ノードはそれぞれ前記第１層ノードに接続され、各第３層ノードはそれぞれ所属する項役割に対応する第２層ノードに接続されることと、
前記イベントグラフに対応するグラフ埋込み表現を取得し、前記イベントグラフに対応するグラフ埋込み表現と前記イベントグラフにおける各イベントに対応するグラフ埋込み表現との類似度をそれぞれ算出し、類似度が最も高いイベントを選択されるイベントとすることと、を含む、
請求項２に記載の方法。
前記イベントグラフに対応するグラフ埋め込み表現を取得することは、
前記イベントグラフにおける各ノードからＮ（Ｎは、１より大きく前記イベントグラフに含まれるノードの数より小さい正整数である）個の中心ノードを選択することと、
いずれか一つの中心ノードについて、前記中心ノードに接続されたノードである前記中心ノードの近傍ノードを取得し、前記中心ノードと前記近傍ノードとからなるサブグラフに対応するベクトル表現を決定する処理をそれぞれ行うことと、
得られた各ベクトル表現を畳み込みニューラルネットワークに入力して前記イベントグラフに対応するグラフ埋め込み表現を得ることと、を含む、
請求項５に記載の方法。
前記イベントグラフにおける各ノードからＮ個の中心ノードを選択することは、
前記空間シーンの項役割に対応するノード、前記動作の項役割に対応するノード、前記物体の項役割に対応するノード、及び前記関連語の項役割に対応するノードを前記中心ノードとすること、を含む、
請求項６に記載の方法。
いずれか一つの中心ノードについて、取得された前記中心ノードの近傍ノードの数ＰがＫ（Ｋは１より大きい正整数）より小さい場合、Ｋ－Ｐ個のダミーノードを補充し、補充されたダミーノードも前記中心ノードの近傍ノードとすることと、
取得された前記中心ノードの近傍ノードの数ＰがＫよりも大きい場合、取得された前記中心ノードの各近傍ノードを所定の規則に従ってソートし、ソート後のＫ＋１番目及びそれ以降の近傍ノードを廃棄することと、を更に含む、
請求項６に記載の方法。
ビデオイベント識別装置であって、マップ構築モジュール及びイベント識別モジュールを備え、
前記マップ構築モジュールは、何れか一つのイベントがそれぞれ前記イベントのＭ個の項役割及び各項役割の項を含むビデオイベントマップを構築し、Ｍは１より大きい正整数であり、
前記イベント識別モジュールは、識別すべきビデオについて、前記ビデオに対応する識別すべきイベントの前記Ｍ個の項役割の項を取得し、取得された項に基づいて前記ビデオイベントマップから１つのイベントを、識別された前記ビデオに対応するイベントとして選択し、
前記イベント識別モジュールは、前記ビデオに対応するテキストに対してエンティティ識別とキーワード抽出を行って前記識別すべきイベントの関連語の項役割の項を得る、
装置。
前記Ｍ個の項役割は、空間シーン、動作、人物、物体、及び前記関連語を含む請求項９に記載の装置。
前記イベント識別モジュールは、前記ビデオに対して視覚理解を行って前記識別すべきイベントの前記空間シーンの項役割の項、前記動作の項役割の項、前記人物の項役割の項、及び前記物体の項役割の項を得る、
請求項１０に記載の装置。
前記イベント識別モジュールは、前記ビデオに対して空間シーン識別を行って前記識別すべきイベントの前記空間シーンの項役割の項を得、前記ビデオに対して動作識別を行って前記識別すべきイベントの前記動作の項役割の項を得、前記ビデオに対して顔識別を行って前記識別すべきイベントの前記人物の項役割の項を得、前記ビデオに対して共通物体識別を行って前記識別すべきイベントの前記物体の項役割の項を得る、
請求項１１に記載の装置。
前記イベント識別モジュールは、得られた項に基づいて３層のノードが含まれるイベントグラフを構築し、第１層ノードの数は１つであり、前記識別すべきイベントに対応し、第２層ノードの数はＭ個であり、各第２層ノードはそれぞれ１つの項役割に対応し、第３層ノードの数はＭ個の項役割の項数の和に等しく、各第３層ノードはそれぞれ１つの項に対応し、各第２層ノードはそれぞれ前記第１層ノードに接続され、各第３層ノードはそれぞれ所属する項役割に対応する第２層ノードに接続され、
前記イベント識別モジュールは、前記イベントグラフに対応するグラフ埋込み表現を取得し、前記イベントグラフに対応するグラフ埋込み表現と前記イベントグラフにおける各イベントに対応するグラフ埋込み表現との類似度をそれぞれ算出し、類似度が最も高いイベントを選択されるイベントとする、
請求項１０に記載の装置。
前記イベント識別モジュールは、前記イベントグラフにおける各ノードからＮ個の中心ノードを選択し、Ｎは、１より大きい正整数で且つ前記イベントグラフに含まれるノードの数よりも小さく、
前記イベント識別モジュールは、いずれか一つの中心ノードについて、前記中心ノードに接続されたノードである前記中心ノードの近傍ノードを取得し、前記中心ノードと前記近傍ノードとからなるサブグラフに対応するベクトル表現を決定する処理をそれぞれ行い、得られた各ベクトル表現を畳み込みニューラルネットワークに入力して前記イベントグラフに対応するグラフ埋め込み表現を得る、
請求項１３に記載の装置。
前記イベント識別モジュールは、前記空間シーンの項役割に対応するノード、前記動作の項役割に対応するノード、前記物体の項役割に対応するノード、及び前記関連語の項役割に対応するノードを前記中心ノードとする、
請求項１４に記載の装置。
前記イベント識別モジュールは、さらに、いずれか一つの中心ノードについて、取得された前記中心ノードの近傍ノードの数ＰがＫ（Ｋは１より大きい正整数）より小さい場合、Ｋ－Ｐ個のダミーノードを補充し、補充されたダミーノードも前記中心ノードの近傍ノードとし、取得された前記中心ノードの近傍ノードの数ＰがＫよりも大きい場合、取得された前記中心ノードの各近傍ノードを所定の規則に従ってソートし、ソート後のＫ＋１番目及びそれ以降の近傍ノードを廃棄する、
請求項１５に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されたメモリと、を備え、
前記メモリに前記少なくとも１つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサに請求項１～８のいずれか一つに記載の方法を実行させる電子デバイス。
コンピュータに請求項１～８のいずれか一つに記載の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
コンピュータに請求項１～８のいずれか一つに記載の方法を実行させるためのプログラム。