JP7242994B2 - ビデオイベント識別方法、装置、電子デバイス及び記憶媒体 - Google Patents

ビデオイベント識別方法、装置、電子デバイス及び記憶媒体 Download PDF

Info

Publication number
JP7242994B2
JP7242994B2 JP2021124075A JP2021124075A JP7242994B2 JP 7242994 B2 JP7242994 B2 JP 7242994B2 JP 2021124075 A JP2021124075 A JP 2021124075A JP 2021124075 A JP2021124075 A JP 2021124075A JP 7242994 B2 JP7242994 B2 JP 7242994B2
Authority
JP
Japan
Prior art keywords
term
event
video
role
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021124075A
Other languages
English (en)
Other versions
JP2022027629A (ja
Inventor
ワン、キ
フェン、ジファン
ヤン、フ
ヘ、フェン
チャイ、チュングアン
チュウ、ヨン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022027629A publication Critical patent/JP2022027629A/ja
Application granted granted Critical
Publication of JP7242994B2 publication Critical patent/JP7242994B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7343Query language or query format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/426Graphical representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示はコンピュータ応用技術に関し、特に知識マップ、ディープラーニング及びコンピュータビジョン分野におけるビデオイベント識別方法、装置、電子デバイス及び記憶媒体に関する。
情報時代におけるビデオの爆発に伴って、ビデオイベント識別(ビデオイベント理解とも呼ばれる)のようなビデオ理解は重要な技術的ニーズになった。ビデオイベント識別の主旨は、ビデオの深いレベルのコンテンツを理解し、ビデオに発生したイベントを解析して推論することにより、深いレベルのコンテンツ理解の目的を達成する。
しかしながら、現在のビデオに対する識別の多くはビデオ動作識別やビデオシーン識別などであり、対応するビデオイベント識別方式はまだない。
本開示は、ビデオイベント識別方法、装置、電子デバイス及び記憶媒体を提供する。
ビデオイベントマップを構築し、前記ビデオイベントマップにおけるイベントは、それぞれ前記イベントのM個(Mは1より大きい正整数である)の項役割及び各項役割の項を含み、識別すべきビデオについて、前記ビデオに対応する識別すべきイベントの前記M個の項役割の項を取得し、取得された項に基づいて前記ビデオイベントマップから1つのイベントを識別された前記ビデオに対応するイベントとして選択することを含むビデオイベント識別方法を提供する。
マップ構築モジュール及びイベント識別モジュールを備え、前記マップ構築モジュールは、ビデオイベントマップを構築し、前記ビデオイベントマップにおけるイベントは、それぞれ前記イベントのM(Mは1より大きい正整数である)個の項役割及び各項役割の項を含み、前記イベント識別モジュールは、識別すべきビデオについて、前記ビデオに対応する識別すべきイベントの前記M個の項役割の項を取得し、取得された項に基づいて前記ビデオイベントマップから1つのイベントを識別された前記ビデオに対応するイベントとして選択するビデオイベント識別装置を提供する。
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに上記の方法を実行させる電子デバイスを提供する。
コンピュータに上記の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体を提供する。
上述の開示の一実施形態は、以下の利点又は有益な効果を有する。つまり、知識マップとビデオ理解を組み合わせることで、イベントがそれぞれ複数の項役割と対応する項とを含むビデオイベントマップを構築し、識別すべきビデオに対応する識別すべきイベントの対応する各項役割の項を取得し、取得された項に基づいてビデオイベントマップからイベントを選択することにより、正確かつ効率的なビデオイベント識別を実現する。
理解すべきなのは、この部分で説明される内容は、本開示の実施形態の肝心又は重要な特徴を識別することを意図しておらず、本開示の範囲を制限することを意図していない。本開示の他の特徴は、以下の説明により容易に理解される。
図面は、本発明をよりよく理解するためのものであり、本開示を限定するものではない。
本開示に記載されたビデオイベント識別方法の一実施形態のフローチャートである。 本開示に記載された畳み込み操作の第1概略図である。 本開示に記載された畳み込み操作の第2概略図である。 本開示に記載されたイベントグラフに対応するマップ埋め込み表現の取得及び類似度の計算のプロセスの概略図である。 本開示に記載されたビデオイベント識別方法の全体的な実現プロセスの概略図である。 本開示に記載されたビデオイベント識別装置60の一実施形態の構成の概略図である。 本開示の実施形態に記載された方法の電子デバイスのブロック図である。
以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
また、理解すべきなのは、本願中の専門語である「及び/又は」は、関連対象を描画する関連関係に過ぎず、三つの関係がある可能性を示す。例えば、A及び/又はBは、Aだけが存在すること、AとBが同時に存在すること、Bだけが存在する、という三つの状況を示すことができる。また、本願中の文字である"/"は、一般的に、前後の関連対象が「又は」の関係を有すると示す。
図1は、本開示に記載されたビデオイベント識別方法の一実施形態のフローチャートである。図1に示すように、以下の具体的な実現形態を含む。
101では、ビデオイベントマップを構築し、ビデオイベントマップにおけるいずれか一つのイベントは、それぞれ、イベントのM個の項役割及び各項役割の項を含み、Mは1より大きい正整数である。
異なる項役割はイベントの異なる属性として理解して良い。それに応じて、項は属性値として理解して良い。項役割が「空間シーン」であれば、対応する項は「屋外」、「桃林」などであって良い。
102では、識別すべきビデオについて、そのビデオに対応する識別すべきイベントのM個の項役割の項を取得する。
識別すべきイベントは、識別すべきビデオに対応するイベントであり、そのイベントのM個の項役割の項を取得することができる。
103では、取得された項に基づいて、ビデオイベントマップから1つのイベントを、識別された当該ビデオに対応するイベントとして選択する。
取得された項に基づいて、ビデオイベントマップから一つのイベントを選択することができる。このイベントを、識別された識別すべきビデオに対応するイベントとすれば良く、識別すべきビデオのイベント識別結果とすれば良い。
このように、上述した実施形態では、知識マップとビデオ理解を組み合わせてイベントがそれぞれ複数の項役割と対応する項とを含むビデオイベントマップを構築し、識別すべきビデオに対応する識別すべきイベントの対応する各項役割の項を取得し、取得した項に基づいてビデオイベントマップからイベントを選択することにより、正確かつ効率的なビデオイベント識別を実現する。
どのようにビデオイベントマップを構築するかは現有技術であり、例えば自動化抽出とマップ構築技術を採用して実現することができる。ビデオイベントマップは主に異なるイベントとイベントに含まれる主要な項役割と項などを定義して規範化する。101に記載されているように、一つのイベントはM個の項役割を含むことができ、例えば、Mの値は5とすることができる。5個の項役割はそれぞれ、空間シーン(scene)、動作(action)、人物(person)、物体(object)、及び関連語(term)とすることができる。
「桃園三結義」という事件を例にすると、その中に含まれる項役割と項は表1のようになる。
Figure 0007242994000001
表1 「桃園三結義」という事件に含まれる項役割と項
102に記載されているように、識別すべきビデオについて、識別すべきビデオに対応する識別すべきイベントのM個の項役割の項を取得し、例えば、識別すべきイベントの空間シーン項役割の項、動作項役割の項、人物項役割の項、物体項役割の項、及び関連語項役割の項をそれぞれ取得してよい。
ここで、識別すべきビデオに対して視覚理解を行うことにより、識別すべきイベントの空間シーン項役割の項、動作項役割の項、人物項役割の項、物体項役割の項を得ると共に、識別すべきビデオに対応するテキストに対してテキスト理解を行うことにより、識別すべきイベントの関連語項役割の項を得ることができる。
視覚理解は主に基本的な視覚関連要素の抽出と識別を実現する。具体的には、識別すべきビデオに対して空間シーン識別(Scene Recognition)を実行して識別すべきイベントの空間シーン項役割の項を得、識別すべきビデオに対して動作識別(Action Recognition)を行って識別すべきイベントの動作項役割の項を得、識別すべきビデオに対して顔識別(Face Recognition)を行って識別すべきイベントの人物項役割の項を得、識別すべきビデオに対して共通物体識別(Object Recognition)を行って識別すべきイベントの物体項役割の項を得ることができる。
ここで、空間シーン識別は、識別すべきビデオの空間シーンを識別するために使用され、表2に示すように、実際の必要に応じて具体的にどの空間シーンを含むかを決定することができる。
Figure 0007242994000002
表2 空間シーン
動作識別は、ビデオに出現された動作を識別するために使用される。表3に示すように、実際の必要に応じて具体的にどの動作を含むかを識別することもできる。
Figure 0007242994000003
表3 動作
共通物体識別は、ビデオに出現した樹木、テーブルなどの物体の名前を識別するために使用される。顔識別は、ビデオに出現した人物を識別するために使用される。
空間シーン識別、動作識別、共通物体識別及び顔識別をどのように行うかはいずれも従来技術である。
上記の視覚理解に加えて、識別すべきビデオに対応するテキストに対してテキスト理解を行うことで、識別すべきイベントの関連語の項役割の項を得ることができる。例えば、テキストに対してエンティティ識別とキーワード抽出を別々に行い、エンティティ識別結果とキーワード抽出結果を識別すべきイベントの関連語の項役割の項として良い。
識別すべきビデオに対応するテキストは、識別すべきビデオのタイトルテキスト、識別すべきビデオの説明情報(例えば、概要情報など)テキスト、識別すべきビデオのラジオ変換から得られるテキスト、識別すべきビデオの字幕変換から得られるテキストなどのうちの1つ又は任意の組み合わせを含むことができるが、これらに限定されない。ここで、光学文字識別(OCR、Optical Character Recognition)技術により字幕に対応するテキストを得、自動音声識別(ASR、Automatic Speech Recognition)技術によりラジオに対応するテキストを得ることができる。
エンティティ識別はテキスト中のエンティティを識別することであり、キーワード抽出はテキスト中のキーワードを抽出することである。エンティティ識別とキーワード抽出の具体的な実現はいずれも従来技術である。
以上の処理により、ビデオモダリティとテキストモダリティのような異なるモダリティの要素抽出が実現され、その後に抽出されたマルチモダリティ情報を統合し、識別すべきビデオに対応するイベントを正確に識別することができ、即ちイベント識別結果の正確度を向上させることができる。
103に記載されているように、識別された識別すべきビデオに対応するイベントとして、取得された識別すべきイベントのM個の項役割の項に基づいて、ビデオイベントマップから1つのイベントを選択することができる。
具体的には、まず、取得された項に基づいてイベントグラフを構築することができる。イベントグラフには3層のノードが含まれる。ここで、第1層ノードの数は1つであり、識別すべきイベントに対応する。第2層ノードの数はM個であり、各第2層ノードは、それぞれ1つの項役割に対応する。第3層ノードの数は、M個の項役割の項数の和に等しく、各第3層ノードは、それぞれ1つの項に対応する。各第2層ノードは、それぞれ第1層ノードに接続され、各第3層ノードは、それぞれ所属する項役割に対応する第2層ノードに接続される。そして、イベントグラフに対応するグラフ埋め込み(graph embedding)表現を取得し、さらにイベントグラフに対応するグラフ埋め込み表現(すなわち、識別すべきイベントに対応するグラフ埋め込み表現)とビデオイベントマップにおける各イベントに対応するグラフ埋め込み表現との間の類似度をそれぞれ計算し、類似度が最も高いイベントを選択されるイベントとすることができる。 識別すべきイベントは未知のイベントであるため、実際の応用では、識別すべきイベントに対応するノードの内容は空であると考えて良い。
後続の処理方式を理解しやすくするために、まず畳み込みニューラルネットワーク(CNN、Convolutional Neural Networks)の画像への応用を紹介する。図2は、本開示に記載された畳み込み操作の第1概略図である。図2に示すように、左の図はニューラルネットワーク層における画像の畳み込み操作過程を示し、最下部の層は入力される特徴マップ(又は原図)であり、畳み込み(ここでは3*3の畳み込みコア、すなわちreceptive filed=9を示す)操作により、畳み込み後の特徴マップを出力する。図3は、本開示に記載された畳み込み操作の第2概略図である。図3に示すように、(a)部分の各図において、下層の9つのピクセルは上層の1つのピクセルに重み付けされてマッピングされ、畳み込みのある領域はいずれも中心ノード(node)とその近傍ノードの集合と見なすことができ、最終的に1つの値として重み付けされてマッピングされるため、(b)部分の入力特徴マップは、この画像を表すために正方形のグリッド(grid)マップにいくつかのノードを決定し、正則化された近傍マップ(この近傍マップは畳み込みコアの領域、すなわち知覚野(receptive filed)である)を構築すると見なすことができる。
以上の示唆に基づいて、本願ではイベントグラフに対応するグラフ埋め込み表現を取得する際に、まずイベントグラフ中の各ノードからN個の中心ノードを選択することができ、Nは1より大きい正整数で且つイベントグラフに含まれるノードの数よりも少ない。その後、いずれか一つの中心ノードに対して、その中心ノードの、当該中心ノードに接続された近傍ノードを取得し、その中心ノードと近傍ノードからなるサブグラフに対応するベクトル表現を決定し、さらに得られた各ベクトル表現を畳み込みニューラルネットワークに入力してイベントグラフに対応するグラフ埋め込み表現を得る処理をそれぞれ行うことができる。
イベントグラフに対して、まず、選択する中心ノードの個数、すなわち知覚野の個数を表す幅Nを決定する必要がある。たとえば、主要な項役割に対応する4つのノードを中心ノードとして選択することができ、例えば空間シーン項役割に対応するノード、動作項役割に対応するノード、物体項役割に対応するノード、関連語項役割に対応するノードを選択される4つの中心ノードとすることができる。
その後、各中心ノードの近傍ノードをそれぞれ取得し、即ちいずれか一つの中心ノードに対して、その中心ノードに接続しているノードをその中心ノードの近傍ノードとすることができる。中心ノードは第2層ノードであるため、その近傍ノードには必ず第1層ノードと第3層ノードが含まれる。
また、正則化処理を行うことも可能である。具体的には、いずれか一つの中心ノードについて、取得されたその中心ノードの近傍ノードの数PがKより小さければ、K-P個のダミーノードを補充することができ、Kは1より大きい正整数である。補充されたダミーノードも当該中心ノードの近傍ノードとし、取得された当該中心ノードの近傍ノードの数PがKより大きければ、取得された当該中心ノードの各近傍ノードを所定の規則に従ってソートし、ソート後のK+1番目及びそれ以降の近傍ノードを廃棄することができる。
Kの具体的な値は実際の必要に応じて決定することができる。Kの値が4である場合、いずれか一つの中心ノードに対して、3つの近傍ノードが取得されたと仮定すると、ダミーノードを1つ補充する必要があり、6つの近傍ノードが取得されたと仮定すると、6つの近傍ノードをソートし、5位と6位のノードを廃棄する必要がある。ダミーノードはデフォルト値に設定できる。
各近傍ノードをどのようにソートするかは制限されず、例えば、各近傍ノードの信頼度を所定の方法でそれぞれ取得し、信頼度の降順にソートすることができる。一般的に、近傍ノードのうちの第1層ノードは保持され、近傍ノードのうちの第3層ノードの一部は廃棄される。
いずれの中心ノードに対して、その中心ノードとその近傍ノードからなるサブグラフに対応するベクトル表現を決定することもできる。例えば、予め設定されたマッピング方式を用いてこのサブグラフをベクトル表現にマッピングすることができるが、そのマッピング方式が具体的にどのような方式であるかは制限されない。
このようにして、中心ノードごとに対応するベクトル表現を得ることができ、さらに得られた各ベクトル表現を畳み込みニューラルネットワーク、例えば2層の畳み込みニューラルネットワークに入力することで、イベントグラフに対応するグラフ埋め込み表現を得ることができる。
同様のグラフ埋め込み表現の取得方法により、ビデオイベントマップにおける各イベントに対応するグラフ埋め込み表現をそれぞれ取得することができ、さらに、イベントグラフに対応するグラフ埋め込み表現とビデオイベントマップにおける各イベントに対応するグラフ埋め込み表現との類似度をそれぞれ計算し、類似度が最も高いイベントを選択されるイベント、すなわち識別すべきビデオに対応するイベントとすることができる。
上記の説明に基づいて、図4は、本開示に記載されたイベントグラフに対応するマップ埋め込み表現の取得及び類似度の計算のプロセスの概略図である。図4に示すように、イベントグラフにおける第2層ノードのうちの3個目のノードを例にする。そのノードが中心ノードとして選択されたと仮定すると、その近傍ノードは、第1層ノードと、当該中心ノードに接続された2つの第3層ノードとを含むことができ、Kの値が4であると仮定すると、一つのダミーノードを補充する必要がある。
上記の処理では、グラフ埋め込みをイベント知識表現に適用し、畳み込みニューラルネットワークと組み合わせて複雑な推定技術を構築することにより、ビデオイベント識別結果の正確度を向上させる。
図5は、本開示に記載されたビデオイベント識別方法の全体的な実現プロセスの概略図である。図5に示すように、知識統合&複雑推定とは、取得された項からイベントグラフを構築し、イベントグラフに対応するグラフ埋め込み表現を取得し、グラフ埋め込み表現の間の類似度を計算することで最終的な識別結果を得る過程である。
説明すべきなのは、前記の方法実施例について、説明を簡単にするために、一連の動作の組合せとして記述された。しかし、当業者であればわかるように、本願により幾つかのステップが他の順番を採用し、或いは同時に実行可能であるため、本願は説明された動作の順番に限定されない。次に、当業者であればわかるように、明細書に説明された実施例は何れも好適な実施例であり、関わる動作とモジュールが必ずしも本願に必要なものではない。
本開示に記載された態様の適用シーンは、以下のように例示されることができる。
1)ビデオ検索シーンの場合に、例えばビデオ検索リコールのためにビデオのイベントを標記することができる。
2)ビデオ推薦シーンの場合に、例えばユーザの興味ポイントをビデオのイベントと関連付けて解析し、それに応じてビデオ推薦を行うことができる。
3)企業向け(ToB)シーンの場合に、たとえば、窃盗、けんかなどのイベントを識別することができる。
以上は、方法の実施形態に関する説明であり、以下で装置の実施形態により本開示に記載された態様をさらに説明する。
図6は、本開示に記載されたビデオイベント識別装置60の一実施形態の構成の概略図である。図6に示すように、マップ構築モジュール601及びイベント識別モジュール602を含む。
マップ構築モジュール601は、ビデオイベントマップを構築するために使用され、ビデオイベントマップにおけるいずれか一つのイベントは、それぞれ、イベントのM個の項役割及び各項役割の項を含み、Mは1より大きい正整数である。
イベント識別モジュール602は、識別すべきビデオに対して、そのビデオに対応する識別すべきイベントのM個の項役割の項を取得し、取得された項に基づいて、ビデオイベントマップから1つのイベントを識別された当該ビデオに対応するイベントとして選択する。
M個の項役割は、空間シーン、動作、人物、物体、及び関連語を含むことができる。
イベント識別モジュール602は、識別すべきビデオに対して視覚理解を行って識別すべきイベントの空間シーン項役割の項、動作項役割の項、人物項役割の項、物体項役割の項を得、識別すべきビデオに対応するテキストに対してテキスト理解を行って識別すべきイベントの関連語項役割の項を得ることができる。
具体的には、イベント識別モジュール602は、識別すべきビデオに対して空間シーン識別を行って識別すべきイベントの空間シーンの項役割の項を得、識別すべきビデオに対して動作識別を行って識別すべきイベントの動作項役割の項を得、識別すべきビデオに対して顔識別を行って識別すべきイベントの人物項役割の項を得、識別すべきビデオに対して共通物体識別を行って識別すべきイベントの物体項役割の項を得ることができる。
イベント識別モジュール602は更に、識別すべきビデオに対応するテキストに対してエンティティ識別及びキーワード抽出を行って識別すべきイベントの関連語項役割の項を得ることができる。
イベント識別モジュール602は、取得された項からイベントグラフを構築することができる。イベントグラフには3層のノードが含まれる。ここで、第1層ノードの数は1つであり、識別すべきイベントに対応する。第2層ノードの数はM個であり、各第2層ノードは、それぞれ1つの項役割に対応する。第3層ノードの数は、M個の項役割の項数の和に等しく、各第3層ノードは、それぞれ1つの項に対応する。各第2層ノードは、それぞれ第1層ノードに接続され、各第3層ノードは、それぞれ所属する項役割に対応する第2層ノードに接続される。そして、イベントグラフに対応するグラフ埋め込み表現を取得し、さらにイベントグラフに対応するグラフ埋め込み表現とビデオイベントマップにおける各イベントに対応するグラフ埋め込み表現との間の類似度をそれぞれ計算し、類似度が最も高いイベントを選択されるイベントとすることができる。
具体的には、イベント識別モジュール602は、イベントグラフにおける各ノードからN個の中心ノードを選択することができ、Nは1より大きい正整数で且つイベントグラフに含まれるノードの数よりも少ない。そして、何れか一つの中心ノードについて、その中心ノードの、当該中心ノードに接続された近傍ノードを取得し、その中心ノードと近傍ノードからなるサブグラフに対応するベクトル表現を決定し、得られた各ベクトル表現を畳み込みニューラルネットワークに入力してイベントグラフに対応するグラフ埋め込み表現を得る処理をそれぞれ行うことができる。
ここで、イベント識別モジュール602は、空間シーン項役割に対応するノード、動作項役割に対応するノード、物体項役割に対応するノード、及び関連語項役割に対応するノードを中心ノードとすることができる。
いずれか一つの中心ノードに対して、イベント識別モジュール602は更に、取得されたその中心ノードの近傍ノードの数PがK(Kは1より大きい正整数である)より小さければ、K-P個のダミーノードを補充し、補充されたダミーノードも当該中心ノードの近傍ノードとし、取得された当該中心ノードの近傍ノードの数PがKより大きければ、取得された当該中心ノードの各近傍ノードを所定の規則に従ってソートし、ソート後のK+1番目及びそれ以降の近傍ノードを廃棄することができる。
図6に示す装置の実施形態の具体的なワークフローは、前述の方法の実施形態の関連説明を参照でき、ここでは詳しく説明しない。
要約すると、本発明の装置の実施形態に記載の態様によれば、知識マップとビデオ理解を組み合わせて、イベントがそれぞれ複数の項役割及び対応する項を含むビデオイベントマップを構築し、識別すべきビデオに対応する識別すべきイベントの対応する各項役割の項を取得し、取得した項に基づいてビデオイベントマップからイベントを選択することにより、正確で効率的なビデオイベント識別を実現し、ビデオモダリティとテキストモダリティなどの異なるモダリティの要素抽出を実現し、且つ抽出したマルチモダリティ情報を統合することにより、更にビデオイベント識別結果の正確度を高めることができる。また、グラフ埋め込みをイベント知識表現に応用し、畳み込みニューラルネットワークと組み合わせて複雑な推定技術を構築することにより、更にビデオイベントの識別結果の正確度を高めることができる。また、各モジュールは高度にデカップリングされており、高いスケーラビリティなどを有する。
本発明の実施形態によれば、本発明は更に、電子デバイス及び可読記憶媒体を提供する。
図7は、本発明の実施形態に記載の方法による電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、PDA、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び/又は請求される本開示の実現を限定することが意図されない。
図7に示すように、この電子デバイスは、一つ又は複数のプロセッサY01、メモリY02、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力/出力装置(例えば、インターフェースに結合される表示装置)にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び/又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する(例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする)。図7において、一つのプロセッサY01を例とする。
メモリY02は、本開示で提供される非一時的コンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも1つのプロセッサが本願に提供された方法を実行するように、前記少なくとも1つのプロセッサに実行可能なコマンドが記憶されている。本開示の非一時的コンピュータ可読記憶媒体は、本願に提供された方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。
メモリY02は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本開示の実施例における方法に対応するプログラムコマンド/ユニットを記憶するために用いられる。プロセッサY01は、メモリY02に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例における方法を実現する。
メモリY02は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域は電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリY02は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリY02は、プロセッサY01に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介して電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。
電子デバイスは、更に、入力装置Y03と出力装置Y04とを備えても良い。プロセッサY01、メモリY02、入力装置Y03及び出力装置Y04は、バス又は他の手段により接続されても良く、図7においてバスによる接続を例とする。
入力装置Y03は、入力された数字又はキャラクタ情報を受信し、電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置Y04は、表示装置、補助照明装置、触覚フィードバック装置(例えば、振動モータ)などを含むことができる。当該表示装置は、液晶ディスプレイ、発光ダイオードディスプレイ、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。
本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用集積回路、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び/又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される)は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び/又はオブジェクト向けプログラミング言語、及び/又はアセンブリ/機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び/又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス)を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意の信号を指す。
ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置(例えば、ブラウン管又は液晶ディスプレイモニタ)、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス(例えば、マウスや、トラックボール)を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック)であり得、ユーザからの入力は、任意の形態で(音響、音声又は触覚による入力を含む)受信され得る。
本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク、ワイド・エリア・ネットワーク、ブロックチェーンネットワーク、インターネットを含む。
コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。サーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれるクラウドサーバであって良く、クラウドコンピューティングサービスシステムのホスト製品であり、従来の物理ホストとVPSサービスにおいて管理が難しく、ビジネスの拡張性が低いという欠点を解決した。
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
前記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。

Claims (19)

  1. ビデオイベント識別方法であって、
    何れか一つのイベントがそれぞれ前記イベントのM(Mは1より大きい正整数である)個の項役割及び各項役割の項を含むビデオイベントマップを構築することと、
    識別すべきビデオについて、前記ビデオに対応する識別すべきイベントの前記M個の項役割の項を取得することと、
    識別された前記ビデオに対応するイベントとして、取得された項に基づいて前記ビデオイベントマップから1つのイベントを選択することと、を含み、
    前記ビデオに対応する識別すべきイベントの前記M個の項役割の項をそれぞれ取得することは、
    前記ビデオに対応するテキストに対してエンティティ識別とキーワード抽出を行って前記識別すべきイベントの関連語の項役割の項を得ること、を含む、
    方法。
  2. 前記M個の項役割は、空間シーン、動作、人物、物体、及び前記関連語を含む、請求項1に記載の方法。
  3. 前記ビデオに対応する識別すべきイベントの前記M個の項役割の項をそれぞれ取得することは、
    前記ビデオに対して視覚理解を行って前記識別すべきイベントの前記空間シーンの項役割の項、前記動作の項役割の項、前記人物の項役割の項、及び前記物体の項役割の項を得ること、を含む、
    請求項2に記載の方法。
  4. 前記ビデオに対して視覚理解を行って前記識別すべきイベントの空間シーンの項役割の項、動作の項役割の項、人物の項役割の項、及び物体の項役割の項を得ることは、
    前記ビデオに対して空間シーン識別を行って前記識別すべきイベントの前記空間シーンの項役割の項を得、前記ビデオに対して動作識別を行って前記識別すべきイベントの前記動作の項役割の項を得、前記ビデオに対して顔識別を行って前記識別すべきイベントの前記人物の項役割の項を得、前記ビデオに対して共通物体識別を行って前記識別すべきイベントの前記物体の項役割の項を得ること、を含む、
    請求項3に記載の方法。
  5. 前記取得された項に基づいて前記ビデオイベントマップから一つのイベントを選択することは、
    得られた項に基づいて3層のノードが含まれるイベントグラフを構築することであって、第1層ノードの数は1つであり、前記識別すべきイベントに対応し、第2層ノードの数はM個であり、各第2層ノードはそれぞれ1つの項役割に対応し、第3層ノードの数はM個の項役割の項数の和に等しく、各第3層ノードはそれぞれ1つの項に対応し、各第2層ノードはそれぞれ前記第1層ノードに接続され、各第3層ノードはそれぞれ所属する項役割に対応する第2層ノードに接続されることと、
    前記イベントグラフに対応するグラフ埋込み表現を取得し、前記イベントグラフに対応するグラフ埋込み表現と前記イベントグラフにおける各イベントに対応するグラフ埋込み表現との類似度をそれぞれ算出し、類似度が最も高いイベントを選択されるイベントとすることと、を含む、
    請求項2に記載の方法。
  6. 前記イベントグラフに対応するグラフ埋め込み表現を取得することは、
    前記イベントグラフにおける各ノードからN(Nは、1より大きく前記イベントグラフに含まれるノードの数より小さい正整数である)個の中心ノードを選択することと、
    いずれか一つの中心ノードについて、前記中心ノードに接続されたノードである前記中心ノードの近傍ノードを取得し、前記中心ノードと前記近傍ノードとからなるサブグラフに対応するベクトル表現を決定する処理をそれぞれ行うことと、
    得られた各ベクトル表現を畳み込みニューラルネットワークに入力して前記イベントグラフに対応するグラフ埋め込み表現を得ることと、を含む、
    請求項に記載の方法。
  7. 前記イベントグラフにおける各ノードからN個の中心ノードを選択することは、
    前記空間シーンの項役割に対応するノード、前記動作の項役割に対応するノード、前記物体の項役割に対応するノード、及び前記関連語の項役割に対応するノードを前記中心ノードとすること、を含む、
    請求項に記載の方法。
  8. いずれか一つの中心ノードについて、取得された前記中心ノードの近傍ノードの数PがK(Kは1より大きい正整数)より小さい場合、K-P個のダミーノードを補充し、補充されたダミーノードも前記中心ノードの近傍ノードとすることと、
    取得された前記中心ノードの近傍ノードの数PがKよりも大きい場合、取得された前記中心ノードの各近傍ノードを所定の規則に従ってソートし、ソート後のK+1番目及びそれ以降の近傍ノードを廃棄することと、を更に含む、
    請求項に記載の方法。
  9. ビデオイベント識別装置であって、マップ構築モジュール及びイベント識別モジュールを備え、
    前記マップ構築モジュールは、何れか一つのイベントがそれぞれ前記イベントのM個の項役割及び各項役割の項を含むビデオイベントマップを構築し、Mは1より大きい正整数であり、
    前記イベント識別モジュールは、識別すべきビデオについて、前記ビデオに対応する識別すべきイベントの前記M個の項役割の項を取得し、取得された項に基づいて前記ビデオイベントマップから1つのイベントを、識別された前記ビデオに対応するイベントとして選択
    前記イベント識別モジュールは、前記ビデオに対応するテキストに対してエンティティ識別とキーワード抽出を行って前記識別すべきイベントの関連語の項役割の項を得る、
    装置。
  10. 前記M個の項役割は、空間シーン、動作、人物、物体、及び前記関連語を含む請求項に記載の装置。
  11. 前記イベント識別モジュールは、前記ビデオに対して視覚理解を行って前記識別すべきイベントの前記空間シーンの項役割の項、前記動作の項役割の項、前記人物の項役割の項、及び前記物体の項役割の項を得る、
    請求項10に記載の装置。
  12. 前記イベント識別モジュールは、前記ビデオに対して空間シーン識別を行って前記識別すべきイベントの前記空間シーンの項役割の項を得、前記ビデオに対して動作識別を行って前記識別すべきイベントの前記動作の項役割の項を得、前記ビデオに対して顔識別を行って前記識別すべきイベントの前記人物の項役割の項を得、前記ビデオに対して共通物体識別を行って前記識別すべきイベントの前記物体の項役割の項を得る、
    請求項11に記載の装置。
  13. 前記イベント識別モジュールは、得られた項に基づいて3層のノードが含まれるイベントグラフを構築し、第1層ノードの数は1つであり、前記識別すべきイベントに対応し、第2層ノードの数はM個であり、各第2層ノードはそれぞれ1つの項役割に対応し、第3層ノードの数はM個の項役割の項数の和に等しく、各第3層ノードはそれぞれ1つの項に対応し、各第2層ノードはそれぞれ前記第1層ノードに接続され、各第3層ノードはそれぞれ所属する項役割に対応する第2層ノードに接続され、
    前記イベント識別モジュールは、前記イベントグラフに対応するグラフ埋込み表現を取得し、前記イベントグラフに対応するグラフ埋込み表現と前記イベントグラフにおける各イベントに対応するグラフ埋込み表現との類似度をそれぞれ算出し、類似度が最も高いイベントを選択されるイベントとする、
    請求項10に記載の装置。
  14. 前記イベント識別モジュールは、前記イベントグラフにおける各ノードからN個の中心ノードを選択し、Nは、1より大きい正整数で且つ前記イベントグラフに含まれるノードの数よりも小さく、
    前記イベント識別モジュールは、いずれか一つの中心ノードについて、前記中心ノードに接続されたノードである前記中心ノードの近傍ノードを取得し、前記中心ノードと前記近傍ノードとからなるサブグラフに対応するベクトル表現を決定する処理をそれぞれ行い、得られた各ベクトル表現を畳み込みニューラルネットワークに入力して前記イベントグラフに対応するグラフ埋め込み表現を得る、
    請求項13に記載の装置。
  15. 前記イベント識別モジュールは、前記空間シーンの項役割に対応するノード、前記動作の項役割に対応するノード、前記物体の項役割に対応するノード、及び前記関連語の項役割に対応するノードを前記中心ノードとする、
    請求項14に記載の装置。
  16. 前記イベント識別モジュールは、さらに、いずれか一つの中心ノードについて、取得された前記中心ノードの近傍ノードの数PがK(Kは1より大きい正整数)より小さい場合、K-P個のダミーノードを補充し、補充されたダミーノードも前記中心ノードの近傍ノードとし、取得された前記中心ノードの近傍ノードの数PがKよりも大きい場合、取得された前記中心ノードの各近傍ノードを所定の規則に従ってソートし、ソート後のK+1番目及びそれ以降の近傍ノードを廃棄する、
    請求項15に記載の装置。
  17. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されたメモリと、を備え、
    前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~のいずれか一つに記載の方法を実行させる電子デバイス。
  18. コンピュータに請求項1~のいずれか一つに記載の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
  19. コンピュータに請求項1~のいずれか一つに記載の方法を実行させるためのプログラム。
JP2021124075A 2020-07-29 2021-07-29 ビデオイベント識別方法、装置、電子デバイス及び記憶媒体 Active JP7242994B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010745261.1A CN112001265B (zh) 2020-07-29 2020-07-29 视频事件识别方法、装置、电子设备及存储介质
CN202010745261.1 2020-07-29

Publications (2)

Publication Number Publication Date
JP2022027629A JP2022027629A (ja) 2022-02-10
JP7242994B2 true JP7242994B2 (ja) 2023-03-22

Family

ID=73462507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021124075A Active JP7242994B2 (ja) 2020-07-29 2021-07-29 ビデオイベント識別方法、装置、電子デバイス及び記憶媒体

Country Status (5)

Country Link
US (1) US11557120B2 (ja)
EP (1) EP3945456B1 (ja)
JP (1) JP7242994B2 (ja)
KR (1) KR102553763B1 (ja)
CN (1) CN112001265B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905829A (zh) * 2021-03-25 2021-06-04 王芳 一种跨模态人工智能信息处理系统及检索方法
US11873715B2 (en) 2021-11-04 2024-01-16 Halliburton Energy Services, Inc. Pulse power drilling assembly transformer with a core having a non-conductive material
CN114780866B (zh) * 2022-04-11 2022-11-01 山东省人工智能研究院 一种基于时空上下文兴趣学习模型的个性化智能推荐方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172724A (ja) 1998-12-05 2000-06-23 Lg Electronics Inc 内容ベ―スで映像を検索する検索システム及び検索方法
US20140324864A1 (en) 2013-04-12 2014-10-30 Objectvideo, Inc. Graph matching by sub-graph grouping and indexing
WO2019078164A1 (ja) 2017-10-16 2019-04-25 日本電気株式会社 検索装置、端末装置、解析装置、検索方法、端末装置の動作方法、解析方法及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8554710B2 (en) * 2010-02-12 2013-10-08 Raytheon Company Converting video metadata to propositional graphs for use in an analogical reasoning system
CN103530281B (zh) * 2013-10-15 2016-06-22 苏州大学 一种论元抽取方法和系统
CN103677950A (zh) * 2013-11-29 2014-03-26 北京航空航天大学 一种基于与或图的视频事件处理方法
US20170357625A1 (en) * 2016-06-14 2017-12-14 Northrop Grumman Systems Corporation Event extraction from documents
WO2018235177A1 (ja) * 2017-06-21 2018-12-27 日本電気株式会社 情報処理装置、情報処理システム、情報処理方法、及び、記録媒体
US10339420B1 (en) * 2018-08-30 2019-07-02 Accenture Global Solutions Limited Entity recognition using multiple data streams to supplement missing information associated with an entity
KR101994592B1 (ko) * 2018-10-19 2019-06-28 인하대학교 산학협력단 비디오 콘텐츠의 메타데이터 자동 생성 방법 및 시스템
US11113293B2 (en) * 2019-01-18 2021-09-07 Adobe Inc. Latent network summarization
CN111027376A (zh) * 2019-10-28 2020-04-17 中国科学院上海微系统与信息技术研究所 一种确定事件图谱的方法、装置、电子设备及存储介质
CN111222305B (zh) * 2019-12-17 2024-03-22 共道网络科技有限公司 一种信息结构化方法和装置
CN111291205B (zh) * 2020-01-22 2023-06-13 北京百度网讯科技有限公司 知识图谱构建方法、装置、设备和介质
CN111414482B (zh) * 2020-03-20 2024-02-20 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172724A (ja) 1998-12-05 2000-06-23 Lg Electronics Inc 内容ベ―スで映像を検索する検索システム及び検索方法
US20140324864A1 (en) 2013-04-12 2014-10-30 Objectvideo, Inc. Graph matching by sub-graph grouping and indexing
WO2019078164A1 (ja) 2017-10-16 2019-04-25 日本電気株式会社 検索装置、端末装置、解析装置、検索方法、端末装置の動作方法、解析方法及びプログラム

Also Published As

Publication number Publication date
US11557120B2 (en) 2023-01-17
CN112001265B (zh) 2024-01-23
JP2022027629A (ja) 2022-02-10
KR102553763B1 (ko) 2023-07-07
KR20220014865A (ko) 2022-02-07
EP3945456A1 (en) 2022-02-02
US20220036085A1 (en) 2022-02-03
EP3945456B1 (en) 2023-05-24
CN112001265A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
JP7335907B2 (ja) 文字構造化抽出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US20210303921A1 (en) Cross-modality processing method and apparatus, and computer storage medium
JP7242994B2 (ja) ビデオイベント識別方法、装置、電子デバイス及び記憶媒体
CN112507715B (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
RU2688271C2 (ru) Поиск изображений на естественном языке
JP7170082B2 (ja) 情報を生成するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
CN114155543B (zh) 神经网络训练方法、文档图像理解方法、装置和设备
JP2021082308A (ja) マルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体
CN113094550B (zh) 视频检索方法、装置、设备和介质
US11841921B2 (en) Model training method and apparatus, and prediction method and apparatus
CN111522967B (zh) 知识图谱构建方法、装置、设备以及存储介质
KR20210038467A (ko) 이벤트 테마 생성 방법, 장치, 기기 및 저장 매체
CN111967297B (zh) 图像的语义分割方法、装置、电子设备及介质
CN112509690B (zh) 用于控制质量的方法、装置、设备和存储介质
CN109726712A (zh) 文字识别方法、装置及存储介质、服务器
US11423650B2 (en) Visual positioning method and apparatus, and computer-readable storage medium
CN111553279B (zh) 兴趣点的表征学习、识别方法、装置、设备及存储介质
CN113656587B (zh) 文本分类方法、装置、电子设备及存储介质
CN112541332B (zh) 表单信息抽取方法、装置、电子设备及存储介质
JP2021152901A (ja) 画像を生成するための方法及装置
CN112488126A (zh) 特征图处理方法、装置、设备以及存储介质
CN110738261B (zh) 图像分类和模型训练方法、装置、电子设备及存储介质
CN115186738B (zh) 模型训练方法、装置和存储介质
CN112883218A (zh) 一种图文联合表征的搜索方法、系统、服务器和存储介质
CN114329016B (zh) 图片标签生成方法和文字配图方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230210

R150 Certificate of patent or registration of utility model

Ref document number: 7242994

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150