JP2022532669A - ビデオを識別するための方法及び装置 - Google Patents

ビデオを識別するための方法及び装置 Download PDF

Info

Publication number
JP2022532669A
JP2022532669A JP2021568598A JP2021568598A JP2022532669A JP 2022532669 A JP2022532669 A JP 2022532669A JP 2021568598 A JP2021568598 A JP 2021568598A JP 2021568598 A JP2021568598 A JP 2021568598A JP 2022532669 A JP2022532669 A JP 2022532669A
Authority
JP
Japan
Prior art keywords
lgd
local
global
video
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021568598A
Other languages
English (en)
Other versions
JP7355851B2 (ja
Inventor
霆 姚
涛 ▲梅▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Publication of JP2022532669A publication Critical patent/JP2022532669A/ja
Application granted granted Critical
Publication of JP7355851B2 publication Critical patent/JP7355851B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本願の実施例はビデオを識別するための方法及び装置を開示する。該方法の一具体的な実施形態は、識別対象ビデオを取得することと、識別対象ビデオを予めトレーニングされたローカル及びグローバル特徴伝播LGDモデルに入力し、識別対象ビデオのカテゴリを取得することと、を含み、LGDモデルはローカル及びグローバル特徴伝播によって識別対象ビデオの空間-時間特徴を学習する。該実施形態は、ローカル及びグローバル特徴伝播によってビデオの空間-時間特徴を学習することにより、ビデオの識別精度を向上させる。

Description

本願の実施例はコンピュータ技術分野に関し、具体的にビデオを識別するための方法及び装置に関する。
現在のデジタルコンテンツそのものはマルチメディアである。特に、センサーが豊富なモバイルデバイスの急増に伴い、画像やビデオは日常のコミュニケーションの媒体になっている。このため、マルチメディアコンテンツの理解は非常に重要になり、視覚分野における様々な技術の発展を加速する。そのうち、これらの技術を成功させるための根本的なブレークスルーは特徴学習である。これは畳み込みニューラルネットワーク(Convolutional Neural Networks、CNN)の成功によって証明されることができ、視覚的特徴における高学習能力と一般性を示す。
画像からビデオドメインへの自然な拡張は、ビデオフレームで2次元畳み込みニューラルネットワーク(2D CNN)を直接使用するか、ビデオセグメントで3次元畳み込みニューラルネットワーク(3D CNN)を使用する。しかしながら、各畳み込み操作は、隣接するピクセルのローカルウィンドウのみを処理し、受容野のグローバルビューを十分にキャプチャすることができないので、リモートピクセルの相関性を無視することを引き起こす。ビデオ情報の複雑さとビデオコンテンツは時間での長さの違いにより、このような欠陥はビデオ識別の分野でより明らかである。
本願の実施例はビデオを識別するための方法及び装置を提案する。
第1の態様では、本願の実施例はビデオを識別するための方法を提供し、識別対象ビデオを取得することと、識別対象ビデオを予めトレーニングされたローカル及びグローバル特徴伝播LGDモデルに入力し、識別対象ビデオのカテゴリを取得することと、を含み、LGDモデルはローカル及びグローバル特徴伝播によって識別対象ビデオの空間-時間特徴を学習する。
いくつかの実施例において、LGDモデルは複数のカスケードされたLGDモジュール、ローカルグローバル組み合わせ分類子及び完全接続層を含む。
いくつかの実施例において、各LGDモジュールは、互いに影響を及ぼし、各空間-時間位置のローカル変化とグローバル外観を記述するためのローカルパスとグローバルパスを含む。
いくつかの実施例において、各LGDモジュールの伝播方向はグローバルからローカルへの伝播方向とローカルからグローバルへの伝播方向を含み、グローバルからローカルへの伝播方向において、前のLGDモジュールのローカル特徴マップとグローバル特徴ベクトルに基づいて現在のLGDモジュールのローカル特徴マップを学習し、ローカルからグローバルへの伝播方向において、現在のLGDモジュールのローカル特徴マップと前のLGDモジュールのグローバル特徴ベクトルに基づいて現在のLGDモジュールのグローバル特徴ベクトルを学習する。
いくつかの実施例において、前のLGDモジュールのローカル特徴マップとグローバル特徴ベクトルに基づいて現在のLGDモジュールのローカル特徴マップを学習することは、前のLGDモジュールのグローバルパスの残差値を前のLGDモジュールのローカル特徴マップに付加し、現在のLGDモジュールのローカル特徴マップを生成することを含み、現在のLGDモジュールのローカル特徴マップと前のLGDモジュールのグローバル特徴ベクトルに基づいて現在のLGDモジュールのグローバル特徴ベクトルを学習することは、前のLGDモジュールのグローバル特徴ベクトルと現在のLGDモジュールのローカル特徴マップのグローバル平均プーリングを線形に埋め込んで、現在のLGDモジュールのグローバル特徴ベクトルを生成することを含む。
いくつかの実施例において、各LGDモジュールは少なくとも3つの射影行列によってローカル特徴マップとグローバル特徴ベクトルを生成し、各射影行列の低ランク近似を使用して該LGDモジュールの付加パラメータを減少する。
いくつかの実施例において、識別対象ビデオを予めトレーニングされたローカル及びグローバル特徴伝播LGDモデルに入力し、識別対象ビデオのカテゴリを取得することは、識別対象ビデオと複数のカスケードされたLGDモジュールに基づいて、識別対象ビデオのローカル特徴とグローバル特徴を並列学習することと、識別対象ビデオのローカル特徴とグローバル特徴をローカルグローバル組み合わせ分類子に入力し、識別対象ビデオの合併特徴を合成することと、識別対象ビデオの合併特徴を完全接続層に入力し、識別対象ビデオのカテゴリを取得することと、を含む。
いくつかの実施例において、各LGDモジュールはLGD-2DモジュールまたはLGD-3Dモジュールである。
いくつかの実施例において、識別対象ビデオと複数のカスケードされたLGDモジュールに基づいて、識別対象ビデオのローカル特徴とグローバル特徴を並列学習することは、識別対象ビデオを複数の識別対象ビデオセグメントに分割することと、複数の識別対象ビデオセグメントからマルチフレーム識別対象ビデオフレームを選択することと、マルチフレーム識別対象ビデオフレームを複数のカスケードされたLGD-2Dモジュールに入力し、マルチフレーム識別対象ビデオフレームのローカル特徴とグローバル特徴を並列学習し、識別対象ビデオのローカル特徴及びグローバル特徴とすることと、を含む。
いくつかの実施例において、複数の識別対象ビデオセグメントのうちの各識別対象ビデオセグメントは少なくとも1フレームの識別対象ビデオフレームを選択する。
いくつかの実施例において、識別対象ビデオと複数のカスケードされたLGDモジュールに基づいて、識別対象ビデオのローカル特徴とグローバル特徴を並列学習することは、識別対象ビデオを複数の識別対象ビデオセグメントに分割することと、複数の識別対象ビデオセグメントを複数のカスケードされたLGD-3Dモジュールに入力し、複数の識別対象ビデオセグメントのローカル特徴とグローバル特徴を並列学習し、識別対象ビデオのローカル特徴とグローバル特徴とすることと、を含む。
いくつかの実施例において、複数のカスケードされたLGD-3Dモジュールは3次元学習を空間次元での2次元畳み込みと時間次元での1次元演算に分解する。
いくつかの実施例において、ローカルグローバル組み合わせ分類子は核に基づく分類子である。
第2の態様では、本願の実施例はビデオを識別するための装置を提供し、識別対象ビデオを取得するように配置される取得ユニットと、識別対象ビデオを予めトレーニングされたローカル及びグローバル特徴伝播LGDモデルに入力し、識別対象ビデオのカテゴリを取得するように配置される識別ユニットと、を備え、LGDモデルはローカル及びグローバル特徴伝播によって識別対象ビデオの空間-時間特徴を学習する。
いくつかの実施例において、LGDモデルは複数のカスケードされたLGDモジュール、ローカルグローバル組み合わせ分類子及び完全接続層を含む。
いくつかの実施例において、各LGDモジュールは、互いに影響を及ぼし、各空間-時間位置のローカル変化とグローバル外観を記述するためのローカルパスとグローバルパスを含む。
いくつかの実施例において、各LGDモジュールの伝播方向はグローバルからローカルへの伝播方向とローカルからグローバルへの伝播方向を含み、グローバルからローカルへの伝播方向において、前のLGDモジュールのローカル特徴マップとグローバル特徴ベクトルに基づいて現在のLGDモジュールのローカル特徴マップを学習し、ローカルからグローバルへの伝播方向において、現在のLGDモジュールのローカル特徴マップと前のLGDモジュールのグローバル特徴ベクトルに基づいて現在のLGDモジュールのグローバル特徴ベクトルを学習する。
いくつかの実施例において、前のLGDモジュールのローカル特徴マップとグローバル特徴ベクトルに基づいて現在のLGDモジュールのローカル特徴マップを学習することは、前のLGDモジュールのグローバルパスの残差値を前のLGDモジュールのローカル特徴マップに付加し、現在のLGDモジュールのローカル特徴マップを生成することを含み、現在のLGDモジュールのローカル特徴マップと前のLGDモジュールのグローバル特徴ベクトルに基づいて現在のLGDモジュールのグローバル特徴ベクトルを学習することは、前のLGDモジュールのグローバル特徴ベクトルと現在のLGDモジュールのローカル特徴マップのグローバル平均プーリングを線形に埋め込んで、現在のLGDモジュールのグローバル特徴ベクトルを生成することを含む。
いくつかの実施例において、各LGDモジュールは少なくとも3つの射影行列によってローカル特徴マップとグローバル特徴ベクトルを生成し、各射影行列の低ランク近似を使用して該LGDモジュールの付加パラメータを減少する。
いくつかの実施例において、識別ユニットは、識別対象ビデオと複数のカスケードされたLGDモジュールに基づいて、識別対象ビデオのローカル特徴とグローバル特徴を並列学習するように配置される学習サブユニットと、識別対象ビデオのローカル特徴とグローバル特徴をローカルグローバル組み合わせ分類子に入力し、識別対象ビデオの合併特徴を合成するように配置される合成サブユニットと、識別対象ビデオの合併特徴を完全接続層に入力し、識別対象ビデオのカテゴリを取得するように配置される識別サブユニットと、を含む。
いくつかの実施例において、各LGDモジュールはLGD-2DモジュールまたはLGD-3Dモジュールである。
いくつかの実施例において、学習サブユニットはさらに、識別対象ビデオを複数の識別対象ビデオセグメントに分割し、複数の識別対象ビデオセグメントからマルチフレーム識別対象ビデオフレームを選択し、マルチフレーム識別対象ビデオフレームを複数のカスケードされたLGD-2Dモジュールに入力し、マルチフレーム識別対象ビデオフレームのローカル特徴とグローバル特徴を並列学習し、識別対象ビデオのローカル特徴及びグローバル特徴とするように配置される。
いくつかの実施例において、複数の識別対象ビデオセグメントのうちの各識別対象ビデオセグメントは少なくとも1フレームの識別対象ビデオフレームを選択する。
いくつかの実施例において、学習サブユニットはさらに、識別対象ビデオを複数の識別対象ビデオセグメントに分割し、複数の識別対象ビデオセグメントを複数のカスケードされたLGD-3Dモジュールに入力し、複数の識別対象ビデオセグメントのローカル特徴とグローバル特徴を並列学習し、識別対象ビデオのローカル特徴とグローバル特徴とするように配置される。
いくつかの実施例において、複数のカスケードされたLGD-3Dモジュールは3次元学習を空間次元での2次元畳み込みと時間次元での1次元演算に分解する。
いくつかの実施例において、ローカルグローバル組み合わせ分類子は核に基づく分類子である。
第3の態様では、本願の実施例はサーバを提供し、該サーバは、1つまたは複数のプロセッサーと、1つまたは複数のプログラムが記憶される記憶装置とを含み、1つまたは複数のプログラムは1つまたは複数のプロセッサーによって実行されると、1つまたは複数のプロセッサーに第1の態様のうちのいずれかの実現形態に記載の方法を実現させる。
第4の態様では、本願の実施例はコンピュータ可読媒体を提供し、コンピュータプログラムが記憶され、該コンピュータプログラムはプロセッサーによって実行されると、第1の態様のうちのいずれかの実現形態に記載の方法を実現する。
本願の実施例によるビデオを識別するための方法及び装置は、まず、識別対象ビデオを取得し、次に、識別対象ビデオを予めトレーニングされたLGDモデルに入力し、識別対象ビデオのカテゴリを取得するようにする。ローカル及びグローバル特徴伝播によってビデオの空間-時間特徴を学習することにより、ビデオの識別精度を向上させる。
以下の図面を参照して非限定的な実施例を詳細に説明することにより、本願の他の特徴、目的及び利点をより明らかにする。
本願を適用できる例示的なシステムアーキテクチである。 本願によるビデオを識別するための方法の一実施例を示すフローチャートである。 本願によるビデオを識別するための方法の他の実施例を示すフローチャートである。 LGDモジュールの構造模式図である。 LGDモジュールの学習模式図である。 本願によるビデオを識別するための方法の他の実施例を示すフローチャートである。 LGD-2Dモジュールの構造模式図である。 本願によるビデオを識別するための方法の更なる実施例を示すフローチャートである。 LGD-3Dモジュールの構造模式図である。 本願によるビデオを識別するための装置の一実施例を示す構造模式図である。 本願の実施例によるサーバを実現するために使用されるコンピュータシステムの構造模式図である。
以下、図面と実施例を組み合わせて本願をさらに詳細に説明する。理解できることとして、ここで記載されている具体的な実施例は、関連発明を解釈するためにのみ使用され、該発明を限定するものではない。また、説明する必要があることとして、記述を容易にするために、図面に関連発明に関連する部分のみを示す。
なお、衝突しない場合に、本願における実施例及び実施例における特徴を互いに組み合わせることができる。以下、図面を参照して実施例を組み合わせて本願を詳細に説明する。
図1は本願のビデオを識別するための方法またはビデオを識別するための装置を適用できる実施例の例示的なシステムアーキテクチ100を示す。
図1に示すように、システムアーキテクチ100は、ビデオ収集機器101、ネットワーク102及びサーバ103を備える。ネットワーク102は、ビデオ収集機器101とサーバ103との間に通信リンクの媒体を提供するために使用される。ネットワーク102は、有線、無線通信リンクまたは光ファイバケーブルなどの様々な接続カテゴリを含むことができる。
ビデオ収集機器101はネットワーク102を介してサーバ103に収集された動作ビデオを送信することができる。ビデオ収集機器101はハードウェアまたはソフトウェアであってもよい。ビデオ収集機器101はハードウェアである場合、ビデオ収集機能をサポートする様々な電子機器であってもよく、ウェブカメラ、ビデオカメラ、カメラ及びスマートフォンなどを含むが、これらに限定されない。ビデオ収集機器101はソフトウェアである場合、上記の電子機器に取り付けられることができる。複数のソフトウェアまたはソフトウェアモジュールとして実現されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここで具体的に限定しない。
サーバ103は、ビデオ識別サーバなどの様々なサービスを提供するサーバであってもよい。ビデオ識別サーバは取得された識別対象ビデオなどのデータに対して分析などの処理を行い、処理結果(例えば識別対象ビデオのカテゴリ)を生成する。
なお、サーバ103は、ハードウェアまたはソフトウェアであってもよい。サーバ103はハードウェアである場合、複数のサーバからなる分散サーバークラスターとして実現されてもよいし、単一のサーバとして実現されてもよい。サーバ103はソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール(例えば分散サービスを提供するために使用される)として実現されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここで、具体的に限定されない。
なお、本願の実施例によるビデオを識別するための方法は、一般的にサーバ103により実行され、対応的に、ビデオを識別するための装置は、一般的にサーバ103に設けられる。
理解すべきことして、図1におけるビデオ収集機器、ネットワーク及びサーバの数は例示的なものである。実現の必要に応じて、任意の数のビデオ収集機器、ネットワーク及びサーバを備えてもよい。
図2を参照し続き、本願によるビデオを識別するための方法の一実施例のフロー200である。該ビデオを識別するための方法は、以下のステップを含む。
ステップ201において、識別対象ビデオを取得する。
本実施例において、ビデオを識別するための方法の実行主体(例えば図1に示すようなサーバ103)は、ビデオ収集機器(例えば図1に示すようなビデオ収集機器101)からその収集されたビデオを取得し、識別対象ビデオとすることができる。識別対象ビデオは任意のコンテンツを含むビデオであってもよく、そのコンテンツは動作、活動、イベント等を含むが、これらに限定されない。
ステップ202において、識別対象ビデオを予めトレーニングされたLGDモデルに入力し、識別対象ビデオのカテゴリを取得する。
本実施例において、上記実行主体は、識別対象ビデオを予めトレーニングされたLGD(Local and Global Diffusion、ローカル及びグローバル特徴伝播)モデルに入力し、識別対象ビデオのカテゴリを取得することができる。
本実施例において、LGDモデルはローカル及びグローバル特徴伝播によってビデオの空間-時間特徴を学習することができる。具体的に、LGDモデルは、識別対象ビデオのローカル特徴とグローバル特徴を同期学習するための新しい3次元ニューラルネットワーク構造であってもよい。一般的に、このような構造は基本的なLGDモジュールからなる。各LGDモジュールはローカル特徴とグローバル特徴の相互伝播を通じてローカル特徴とグローバル特徴を同時に更新することができる。このような伝播操作はローカルとグローバルの両方の情報を効果的に組み合わせ、それにより、より強力なビデオ特徴表現を取得する。
本願の実施例によるビデオを識別するための方法は、まず、識別対象ビデオを取得し、次に、識別対象ビデオを予めトレーニングされたLGDモデルに入力し、識別対象ビデオのカテゴリを取得する。ローカル及びグローバル特徴伝播によってビデオの空間-時間特徴を学習することにより、ビデオの識別精度を向上させる。
さらに図3を参照し、本願によるビデオを識別するための方法の他の実施例のフロー300を示す。
本実施例において、LGDモデルは複数のカスケードされたLGDモジュール、ローカルグローバル組み合わせ分類子及び完全接続層を含むことができる。
本実施例において、ビデオを識別するための方法は以下のステップを含んでもよい。
ステップ301において、識別対象ビデオを取得する。
本実施例において、ステップ301の具体的な操作は図2に示すような実施例のステップ201では詳細に紹介され、ここで繰り返さない。
ステップ302において、識別対象ビデオと複数のカスケードされたLGDモジュールに基づいて、識別対象ビデオのローカル特徴とグローバル特徴を並列学習する。
本実施例において、ビデオを識別するための方法の実行主体(例えば図1に示すようなサーバ103)は複数のカスケードされたLGDモジュールを使用して識別対象ビデオを処理し、識別対象ビデオのローカル特徴とグローバル特徴を並列学習することができる。LGDモジュールは2種の異なる構造を含むことができ、LGD-2DとLGD-3Dと呼ばれ、異なるローカル変換関数とトレーニング戦略を有する。具体的に、図6と図8に示すような実施例において紹介する。
本実施例のいくつかの選択可能な実現形態において、各LGDモジュールは、互いに影響を及ぼし、各空間-時間位置のローカル変化とグローバル外観を記述するためのローカルパスとグローバルパスを含んでもよい。理解を容易にするために、図4はLGDモジュールの構造模式図を示す。LGDモジュールは、ローカルパスとグローバルパスが互いに影響を及ぼすユニットであってもよい。このように、複数のカスケードされたLGDモジュールを含むLGDモデルは、ローカルとグローバルビデオ情報をシミュレートすることを目的とする二重パスネットワークである。2つのパスの間の伝播によって学習されたビデオ特徴を通じてリモートピクセルの相関性を効果的にキャプチャすることができる。
本実施例のいくつかの選択可能な実現形態において、各LGDモジュールの伝播方向は、グローバルからローカルへの伝播方向とローカルからグローバルへの伝播方向を含むことができる。グローバルからローカルへの伝播方向において、前のLGDモジュールのローカル特徴マップとグローバル特徴ベクトルに基づいて現在のLGDモジュールのローカル特徴マップを学習する。例えば、前のLGDモジュールのグローバルパスの残差値を前のLGDモジュールのローカル特徴マップに付加し、現在のLGDモジュールのローカル特徴マップを生成する。ローカルからグローバルへの伝播方向において、現在のLGDモジュールのローカル特徴マップと前のLGDモジュールのグローバル特徴ベクトルに基づいて現在のLGDモジュールのグローバル特徴ベクトルを学習する。例えば、前のLGDモジュールのグローバル特徴ベクトルと現在のLGDモジュールのローカル特徴マップのグローバル平均プーリングを線形に埋め込んで、現在のLGDモジュールのグローバル特徴ベクトルを生成する。
例えば、LGDモジュールは下記式によって2つのパスの間の相互作用をシミュレートすることができる。

Figure 2022532669000002
式中、lは正の整数であり、複数のカスケードされたLGDモジュールのうちのl番目のLGDモジュールを示す。

Figure 2022532669000003
はl-1番目のLGDモジュールの出力ペアを示し、l番目のLGDモジュールの入力ペアとも呼ばれる。

Figure 2022532669000004
はl番目のLGDモジュールの出力ペアを示す。

Figure 2022532669000005
はl番目のLGDモジュールにより出力されるローカル特徴マップを示す。

Figure 2022532669000006
はl番目のLGDモジュールにより出力されるグローバル特徴ベクトルを示す。C、T、H及びWはそれぞれ4Dデータのチャネル数、時間の長さ、高さ及び幅である。

Figure 2022532669000007
はすべてのC×T×H×W次元ベクトルで構成されるベクトルグループである。

Figure 2022532669000008
はすべてのC次元ベクトルで構成されるベクトルグループである。BはLGDモジュール内部の詳細な操作を示す。
理解を容易にするために、図5はLGDモジュールの学習模式図を示す。各モジュール内部の詳細な操作を以下のような2つの伝播方向に分解することができる。
1、グローバルからローカルへの伝播方向。該方向はローカル特徴マップxl-1からグローバル特徴ベクトルgl-1の優先度を有する更新されるローカル特徴マップxまでの変換を学習することである。目標は、グローバル優先度をグローバル残差値にカスタマイズすることである。グローバル残差値は下記式によって各位置に伝播することができる。

Figure 2022532669000009
式中、

Figure 2022532669000010
は射影行列である。

Figure 2022532669000011
はすべてのC×C次元ベクトルで構成されるベクトルグループである。USはアップサンプリング操作であり、残差ベクトルを各位置にコピーする。Fはローカル変換関数(即ち3D畳み込み)である。関数の選択はネットワークアーキテクチャによって決められる。ReLUは線形整流関数であり、修正線形ユニットとも呼ばれ、人工ニューラルネットワークで一般的に使用される活性化関数であり、通常、ランプ関数及びその変形に代表される非線形関数を指す。
2、ローカルからグローバルへの伝播方向。該方向はローカル特徴マップxを使用してグローバル特徴変数gを更新することである。ここで、下記式によってグローバル特徴ベクトルgl-1とローカル特徴マップxのグローバル平均プーリング(Global Average Pooling、GAP)を線形に埋め込む。

Figure 2022532669000012
式中、

Figure 2022532669000013


Figure 2022532669000014
はローカル特徴とグローバル特徴を組み合わせる射影行列である。P(x)はローカル特徴マップのグローバル平均プーリングである。
本実施例のいくつかの選択可能な実現形態において、各LGDモジュールは少なくとも3つの射影行列(例えば、Wx,g、Wg,x及びWg,g)によってローカル特徴マップとグローバル特徴ベクトルを生成し、各射影行列の低ランク近似を使用して該LGDモジュールの付加パラメータを減少することができる。例えば、各射影行列の低ランク近似はW=Wである。

Figure 2022532669000015
はすべて

Figure 2022532669000016
次元ベクトルで構成されるベクトルグループであり、

Figure 2022532669000017
はすべての

Figure 2022532669000018
次元ベクトルで構成されるベクトルグループである。

Figure 2022532669000019
である場合、パラメータ及び計算コストが大幅に低減されることができる。相互検証により、

Figure 2022532669000020
である場合、性能に悪い影響を及ぼさない。しかも、このような近似によって、各LGDモジュールの付加パラメータの数が3Cから

Figure 2022532669000021
まで減少する。
ステップ303において、識別対象ビデオのローカル特徴とグローバル特徴をローカルグローバル組み合わせ分類子に入力し、識別対象ビデオの合併特徴を合成する。
本実施例において、上記実行主体はローカルグローバル組み合わせ分類子を使用して識別対象ビデオのローカル特徴とグローバル特徴を合成し、識別対象ビデオの合併特徴を生成することができる。つまり、ローカルグローバル組み合わせ分類子はローカルパスとグローバルパスの最終特徴を一緒に組み合わせることができる。
本実施例のいくつかの選択可能な実現形態において、ローカルグローバル組み合わせ分類子は核に基づく分類子であってもよい。
例えば、2つのビデオの間の類似性測度の核表現を考慮する。形式上で、

Figure 2022532669000022


Figure 2022532669000023
を2つのビデオの最後出力ペアとして示し、ローカルとグローバル特徴上で双線形核を選択し、ニューラルネットワークではエンドツーエンドのトレーニングを行うことができる。核関数は、以下の通りであり、

Figure 2022532669000024
式中、N=L×H×Wは空間-時間位置の数である。〈・,・〉は双線形核である。

Figure 2022532669000025
はxのうちのi番目の位置の特徴ベクトルを示す。テンソルスケッチ投影によって双線形核を近似し、特徴空間の次元を効果的に減少することができる。核関数を分解することにより、特徴図は

Figure 2022532669000026
に示されることができる。
式中、[・,・]は2つのベクトルの接続を示す。

Figure 2022532669000027
によって

Figure 2022532669000028
を高次元ベクトルに結合する。全体過程はニューラルネットワークではエンドツーエンドのトレーニングを行うことができる。
ステップ304において、識別対象ビデオの合併特徴を完全接続層に入力し、識別対象ビデオのカテゴリを取得する。
本実施例において、上記実行主体は、識別対象ビデオの合併特徴を完全接続層に入力してクラスラベル予測を行い、識別対象ビデオのカテゴリを取得する。
図3から分かるように、図2に対応する実施例と比べて、本実施例におけるビデオを識別するための方法のフロー300はビデオを認識するステップを強調している。これにより、本実施例に記載の手段におけるLGDモデルは複数のカスケードされたLGDモジュール、ローカルグローバル組み合わせ分類子及び完全接続層を含むことができる。複数のカスケードされたLGDモジュールを使用して識別対象ビデオのローカル特徴とグローバル特徴を並列学習し、ローカルグローバル組み合わせ分類子を利用して識別対象ビデオの合併特徴を合成し、完全接続層を利用してクラスラベルを予測する。ローカル特徴とグローバル特徴を組み合わせて、ビデオの識別精度を更に向上させる。
図6を更に参照し、本願によるビデオを識別するための方法の他の実施例のフロー600である。
本実施例において、LGDモデルは複数のカスケードされたLGDモジュール、ローカルグローバル組み合わせ分類子及び完全接続層を含むことができる。各LGDモジュールはLGD-2Dモジュールである。理解を容易にするために、図7は複数のカスケードされたLGD-2Dモジュールの構造模式図を示す。
本実施例において、ビデオを識別するための方法は、以下のステップを含む。
ステップ601において、識別対象ビデオを取得する。
本実施例において、ステップ601の具体的な操作は図3に示すような実施例におけるステップ301では詳細に紹介され、ここで繰り返さない。
ステップ602において、識別対象ビデオを複数の識別対象ビデオセグメントに分割する。
本実施例において、ビデオを識別するための方法の実行主体(例えば図1に示すようなサーバ103)は識別対象ビデオを複数の識別対象ビデオセグメントに分割することができる。
ステップ603において、複数の識別対象ビデオセグメントからマルチフレーム識別対象ビデオフレームを選択する。
本実施例において、上記実行主体は複数の識別対象ビデオセグメントからマルチフレーム識別対象ビデオフレームを選択することができる。マルチフレーム識別対象ビデオフレームは複数の非連続ビデオフレームであってもよい。通常、各識別対象ビデオセグメントは少なくとも1フレームの識別対象ビデオフレームを選択する。例えば、時間セグメントネットワーク(Temporal Segment Network、TSN)の啓発を受けて、各識別対象ビデオセグメントは1フレームの識別対象ビデオフレームを選択する。
ステップ604において、マルチフレーム識別対象ビデオフレームを複数のカスケードされたLGD-2Dモジュールに入力し、マルチフレーム識別対象ビデオフレームのローカル特徴とグローバル特徴を並列学習し、識別対象ビデオのローカル特徴及びグローバル特徴とする。
本実施例において、上記実行主体はマルチフレーム識別対象ビデオフレームを複数のカスケードされたLGD-2Dモジュールに入力し、マルチフレーム識別対象ビデオフレームのローカル特徴とグローバル特徴を並列学習し、識別対象ビデオのローカル特徴及びグローバル特徴とすることができる。
ここで、ビデオ特徴を直接学習する方法は、2D畳み込みをローカル変換関数Fとして直接使用することであってもよい。このため、LGD-2Dモジュールのローカルパスでは、共有された2D CNNはバックボーンネットワークとして独立して実行されることができる。LGD-2Dモジュールの入力は複数の非連続ビデオフレームであり、グローバルパスはこれらの非連続ビデオフレームのグローバル特徴を学習する。なお、初期ローカル特徴マップxは入力フレームに単一のローカル変換関数Fを適用して計算することによって実現される。そして、初期グローバル特徴ベクトルg=P(x)はxのグローバル平均値である。
ステップ605において、識別対象ビデオのローカル特徴とグローバル特徴をローカルグローバル組み合わせ分類子に入力し、識別対象ビデオの合併特徴を合成する。
ステップ606において、識別対象ビデオの合併特徴を完全接続層に入力し、識別対象ビデオのカテゴリを取得する。
本実施例において、ステップ605-606の具体的な操作は図3に示すような実施例におけるステップ303-304では詳細に紹介され、ここで繰り返さない。
図6から分かるように、図3に対応する実施例と比べて、本実施例におけるビデオを識別するための方法のフロー600はビデオを認識するステップを強調する。これにより、本実施例に記載の手段はLGD-2Dモジュールを使用して非連続ビデオフレームのローカル特徴とグローバル特徴を並列学習することにより、ビデオのローカル特徴とグローバル特徴を取得する。
図8を更に参照し、本願によるビデオを識別するための方法の更なる実施例のフロー800を示す。
本実施例において、LGDモデルは複数のカスケードされたLGDモジュール、ローカルグローバル組み合わせ分類子及び完全接続層を含んでもよい。各LGDモジュールはLGD-3Dモジュールである。理解を容易にするために、図9は複数のカスケードされたLGD-3Dモジュールの構造模式図を示す。
本実施例において、ビデオを識別するための方法は以下のステップを含んでもよい。
ステップ801において、識別対象ビデオを取得する。
本実施例において、ステップ801の具体的な操作は図3に示すような実施例におけるステップ301では詳細に紹介され、ここで繰り返さない。
ステップ802において、識別対象ビデオを複数の識別対象ビデオセグメントに分割する。
本実施例において、ビデオを識別するための方法の実行主体(例えば図1に示すようなサーバ103)は識別対象ビデオを複数の識別対象ビデオセグメントに分割することができる。
ステップ803において、複数の識別対象ビデオセグメントを複数のカスケードされたLGD-3Dモジュールに入力し、複数の識別対象ビデオセグメントのローカル特徴とグローバル特徴を並列学習し、識別対象ビデオのローカル特徴とグローバル特徴とする。
本実施例において、上記実行主体は複数の識別対象ビデオセグメントを複数のカスケードされたLGD-3Dモジュールに入力し、複数の識別対象ビデオセグメントのローカル特徴とグローバル特徴を並列学習し、識別対象ビデオのローカル特徴とグローバル特徴とすることができる。
ここで、ビデオ特徴学習のもう1つの主要なブランチは3D CNNである。3D CNNプロファイル設定に従い、複数の識別対象ビデオセグメントをLGD-3Dモジュールに入力し、3D畳み込みをローカル変換関数として使用する。しかしながら、3D CNNのトレーニング計算量がより大きく、モデルが2D CNNよりも大きくなる。このため、疑似3次元畳み込みを選択し、3次元学習を空間次元での2次元畳み込みと時間次元での1次元演算に分解する。
ここで、ResNet-50バックボーンに基づくLGD-3Dを例とすると、LGD-3Dはまず、元のResNet-50における各3×3畳み込み核を1つの1×3×3空間畳み込みと3×1×1時間畳み込みに置き換え、次に、各残差ユニットに基づいてLGDモジュールを構築する。空間畳み込みのすべての重みは、予めトレーニングされたResNet-50モデルから、初期化入力ビデオセグメントのサイズを16×112×112と設定し、16個の連続フレームからなり、解像度は112×112である。2つの最大プーリングレイヤーと2つの時間ステップにより、ビデオセグメントの長さが2分の1に短縮されるため、小さい入力解像度と時間合併により計算コストとトレーニング時間を効果的に減少することができる。核に基づく分類子により次元4×7×7を有する最終ローカル特徴とグローバル特徴を組み合わせる。より多くのLGDモジュールを繰り替えることによって、ResNet-101以上のネットワークに容易に拡張できる。
ここで、核に基づく分類子によりネットワーク全体を最初からトレーニングすることの難しさを考慮し、LGDモデルをトレーニングするための2段階の戦略を提案し、具体的に以下の通りである。
まず、第1の段階において、トレーニング開始時に、分類子を組み合わせない場合で基本的なネットワークを最適化し、ローカル特徴とグローバル特徴を調整する。最適化関数は、

Figure 2022532669000029
であってもよく、
式中、

Figure 2022532669000030
は入力ビデオの最後の出力ペアを示す。yは入力ビデオのカテゴリを示す。Lは射影行列Wを有するsoftmaxクロスエントロピー損失を示す。総損失はグローバル特徴とローカルを平均した後のローカル特徴の分類エラーを含む。
次に、第2の段階において、基本的なネットワークトレーニングの後、ネットワーク全体の損失を

Figure 2022532669000031
に調整し、
式中、

Figure 2022532669000032
は特徴映射である。
ステップ804において、識別対象ビデオのローカル特徴とグローバル特徴をローカルグローバル組み合わせ分類子に入力し、識別対象ビデオの合併特徴を合成する。
ステップ805において、識別対象ビデオの合併特徴を完全接続層に入力し、識別対象ビデオのカテゴリを取得する。
本実施例において、ステップ804-805の具体的な操作は図3に示すような実施例におけるステップ303-304では詳細に紹介され、ここで繰り返さない。
図8から分かるように、図3に対応する実施例と比べて、本実施例におけるビデオを識別するための方法のフロー800はビデオを識別するステップを強調している。これにより、本実施例に記載の手段はLGD-3Dモジュールを利用してビデオセグメントのローカル特徴とグローバル特徴を並列学習することにより、ビデオのローカル特徴とグローバル特徴を取得する。
図10を更に参照し、上記各図に示すような方法の実現として、本願はビデオを識別するための装置の一実施例を提供し、該装置の実施例は図2に示すような方法の実施例に対応し、該装置は具体的に様々な電子機器に適用できる。
図10に示すように、本実施例によるビデオを識別するための装置1000は、取得ユニット1001と識別ユニット1002を含んでもよい。取得ユニット1001は、識別対象ビデオを取得するように配置され、識別ユニット1002は、識別対象ビデオを予めトレーニングされたローカル及びグローバル特徴伝播LGDモデルに入力し、識別対象ビデオのカテゴリを取得するように配置され、LGDモデルはローカル及びグローバル特徴伝播によって識別対象ビデオの空間-時間特徴を学習する。
本実施例において、ビデオを識別するための装置1000において、取得ユニット1001と識別ユニット1002の具体的な処理及びそのもたらす技術的効果について図2に対応する実施例におけるステップ201とステップ202の関連説明を参照することができ、ここで繰り返さない。
本実施例のいくつかの選択可能な実現形態において、LGDモデルは複数のカスケードされたLGDモジュール、ローカルグローバル組み合わせ分類子及び完全接続層を含む。
本実施例のいくつかの選択可能な実現形態において、各LGDモジュールは、互いに影響を及ぼし、各空間-時間位置のローカル変化とグローバル外観を記述するためのローカルパスとグローバルパスを含む。
本実施例のいくつかの選択可能な実現形態において、各LGDモジュールの伝播方向はグローバルからローカルへの伝播方向とローカルからグローバルへの伝播方向を含み、グローバルからローカルへの伝播方向において、前のLGDモジュールのローカル特徴マップとグローバル特徴ベクトルに基づいて現在のLGDモジュールのローカル特徴マップを学習し、ローカルからグローバルへの伝播方向において、現在のLGDモジュールのローカル特徴マップと前のLGDモジュールのグローバル特徴ベクトルに基づいて現在のLGDモジュールのグローバル特徴ベクトルを学習する。
本実施例のいくつかの選択可能な実現形態において、前のLGDモジュールのローカル特徴マップとグローバル特徴ベクトルに基づいて現在のLGDモジュールのローカル特徴マップを学習することは、前のLGDモジュールのグローバルパスの残差値を前のLGDモジュールのローカル特徴マップに付加し、現在のLGDモジュールのローカル特徴マップを生成することを含み、現在のLGDモジュールのローカル特徴マップと前のLGDモジュールのグローバル特徴ベクトルに基づいて現在のLGDモジュールのグローバル特徴ベクトルを学習することは、前のLGDモジュールのグローバル特徴ベクトルと現在のLGDモジュールのローカル特徴マップのグローバル平均プーリングを線形に埋め込んで、現在のLGDモジュールのグローバル特徴ベクトルを生成することを含む。
本実施例のいくつかの選択可能な実現形態において、各LGDモジュールは少なくとも3つの射影行列によってローカル特徴マップとグローバル特徴ベクトルを生成し、各射影行列の低ランク近似を使用して該LGDモジュールの付加パラメータを減少する。
本実施例のいくつかの選択可能な実現形態において、識別ユニット1002は、識別対象ビデオと複数のカスケードされたLGDモジュールに基づいて、識別対象ビデオのローカル特徴とグローバル特徴を並列学習するように配置される学習サブユニット(図示せず)と、識別対象ビデオのローカル特徴とグローバル特徴をローカルグローバル組み合わせ分類子に入力し、識別対象ビデオの合併特徴を合成するように配置される合成サブユニット(図示せず)と、識別対象ビデオの合併特徴を完全接続層に入力し、識別対象ビデオのカテゴリを取得するように配置される識別サブユニット(図示せず)と、を含む。
本実施例のいくつかの選択可能な実現形態において、各LGDモジュールはLGD-2DモジュールまたはLGD-3Dモジュールである。
本実施例のいくつかの選択可能な実現形態において、学習サブユニットはさらに、識別対象ビデオを複数の識別対象ビデオセグメントに分割し、複数の識別対象ビデオセグメントからマルチフレーム識別対象ビデオフレームを選択し、マルチフレーム識別対象ビデオフレームを複数のカスケードされたLGD-2Dモジュールに入力し、マルチフレーム識別対象ビデオフレームのローカル特徴とグローバル特徴を並列学習し、識別対象ビデオのローカル特徴及びグローバル特徴とするように配置される。
本実施例のいくつかの選択可能な実現形態において、複数の識別対象ビデオセグメントのうちの各識別対象ビデオセグメントは少なくとも1フレームの識別対象ビデオフレームを選択する。
本実施例のいくつかの選択可能な実現形態において、学習サブユニットはさらに、識別対象ビデオを複数の識別対象ビデオセグメントに分割し、複数の識別対象ビデオセグメントを複数のカスケードされたLGD-2Dモジュールに入力し、複数の識別対象ビデオセグメントのローカル特徴とグローバル特徴を並列学習し、識別対象ビデオのローカル特徴とグローバル特徴とするように配置される。
本実施例のいくつかの選択可能な実現形態において、複数のカスケードされたLGD-3Dモジュールは3次元学習を空間次元での2次元畳み込みと時間次元での1次元演算に分解する。
本実施例のいくつかの選択可能な実現形態において、ローカルグローバル組み合わせ分類子は核に基づく分類子である。
以下、図11を参照し、本願の実施例のサーバ(例えば図1に示すようなサーバ103)を実現するために使用できるコンピュータシステム1100の構造模式図である。図11に示されるサーバは一例に過ぎず、本願の実施例の機能と使用範囲に対していかなる制限を構成しない。
図11に示すように、コンピュータシステム1100は中央処理ユニット(CPU)1101を含み、読み取り専用メモリ(ROM)1102に記憶されるプログラムまたは記憶部分1108からランダムアクセスメモリ(RAM)1103にロードされたプログラムに基づき様々な適切な動作と処理を実行することができる。RAM 1103には、システム1100の操作に必要な様々なプログラムとデータが記憶されることができる。CPU 1101、ROM 1102及びRAM 1103はバス1104を介して互いに接続される。入力/出力(I/O)インタフェース1105もバス1104に接続される。
キーボードやマウスなどの入力部分1106、ブラウン管(CRT)、液晶ディスプレイ(LCD)など及びスピーカーなどを含む出力部分1107、ハードディスク等を含む記憶部分1108、及びLANカード、モデムなどを含むネットワークインタフェースカードを含む通信部分1109などの部材はI/Oインタフェース1105に接続される。通信部分1109はインターネットなどのネットワークを介して通信処理を実行する。ドライバ1110はまた、必要に応じて、I/Oインタフェース1105に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア1111は、必要に応じてドライバ1110に取り付けられ、そこから読み取ったコンピュータプログラムを必要に応じて記憶部分1108にインストールするようにする。
特に、本開示の実施例によれば、以上でフローチャートを参照して説明した過程はコンピュータソフトウェアプログラムとして実現されることができる。例えば、本開示の実施例は、コンピュータ可読媒体に載せられるコンピュータプログラムを含むコンピュータプログラム製品を備え、該コンピュータプログラムはフローチャートに示すような方法を実行するためのプログラムコードを含む。このような実施例において、該コンピュータプログラムは通信部分1109を介してネットワークからダウンロード及びインストールされ、及び/またはリムーバブルメディア1111からインストールされることができる。該コンピュータプログラムは中央処理ユニット(CPU)701によって実行されると、本願の方法に限定される上記機能を実行する。
なお、本願に記載のコンピュータ可読媒体はコンピュータ可読信号媒体またはコンピュータ可読記憶媒体または上記両方の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、電気的、磁気的、光学的、電磁的、赤外線、または半導体のシステム、装置またはデバイス、または以上の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、1つまたは複数のワイヤを有する電気的接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、または上記の任意の適切な組み合わせを含むが、これらに限定されない。本願において、コンピュータ可読記憶媒体は、プログラムを含むまたは記憶する任意の有形媒体であってもよく、該プログラムは命令実行システム、装置またはデバイスによって使用されるか、またはそれらと組み合わせて使用することができる。本願において、コンピュータ可読信号媒体は、ベースバンドで、または搬送波の一部として伝播されるデータ信号を含むことができ、コンピュータ可読プログラムコードが載せられる。このように伝播されるデータ信号は、電磁信号、光信号または上記の任意の適切な組み合わせを含むが、これらに限定されない多くの形態を採用することができる。コンピュータ可読信号媒体はさらにコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、該コンピュータ可読媒体は命令実行システム、装置またはデバイスにより使用されるか、またはそれらと組み合わせて使用するプログラムを送信、伝播または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送されることができ、前記媒体は無線、電線、光ケーブル、RFなど、または上記の任意の適切な組み合わせを含むが、これらに限定されない。
1つ以上のプログラミング言語またはその組み合わせで本願の操作を実行するためのコンピュータプログラムコードを編集することができ、前記プログラミング言語は、Java、Smalltalk、C++などのオブジェクト指向のプログラミング言語を含み、「C」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語を更に含む。プログラムコードは完全にユーザコンピュータ上で実現され、一部はユーザコンピュータで実行され、1つの独立したソフトウェアパッケージとして実行され、一部はユーザコンピュータ上で一部はリモートコンピュータで実行され、または完全にリモートコンピュータまたはサーバ上で実行されることができる。リモートコンピュータに関する場合、リモートコンピュータはローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザコンピュータに接続され、または、外部コンピュータ(例えばインターネットサービスプロバイダーを使用してインターネットを介して接続する)に接続されてもよい。
図面のフローチャート及びブロック図は、本願の様々な実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能及び操作を示す。この点で、フローチャートまたはブロック図の各ブロックは1つのモジュール、プログラムセグメント、またはコードの一部を表すことができ、該モジュール、プログラムセグメント、またはコードの一部は規定している論理機能を実現するための1つまたは複数の実行可能な命令を含む。また、注意すべきこととして、いくつかの代替の実現では、ブロックでマークされた機能も図でマークされた順序と異なる順序で発生する可能性がある。例えば、連続して表示される2つのブロックは、実際には基本的に並列して実行でき、関連する機能によっては逆の順序で実行される場合もある。さらに、注意すべきこととして、ブロック図及び/またはフローチャートの各ブロック、及びブロック図及び/またはフローチャートのブロックの組み合わせは、規定している機能または操作を実行する専用のハードウェアに基づくシステムを使用して実現するか、または専用のハードウェアとコンピュータ命令との組み合わせを使用して実現することができる。
本願の実施例に記載の関したユニットはソフトウェアによって実現されることができ、ハードウェアによって実現されることもできる。記載されるユニットはプロセッサーに設けられてもよく、例えば、プロセッサーであって、取得ユニットと識別ユニットを含むように記載されることができる。これらのユニットの名称は、特定の状況での該ユニット自体の限定を構成するものではなく、例えば、取得ユニットは、「識別対象ビデオを取得するユニット」として記載されることもできる。
他の態様として、本願はコンピュータ可読媒体をさらに提供し、該コンピュータ可読媒体は上記実施例に記載のサーバに含まれるものであってもよいし、独立して存在でき、該サーバに搭載されないものであってもよい。上記コンピュータ可読媒体に1つまたは複数のプログラムが載せられ、上記1つまたは複数のプログラムは該サーバによって実行される場合、該サーバに、識別対象ビデオを取得させ、識別対象ビデオを予めトレーニングされたローカル及びグローバル特徴伝播LGDモデルに入力し、識別対象ビデオのカテゴリを取得させ、LGDモデルはローカル及びグローバル特徴伝播によって識別対象ビデオの空間-時間特徴を学習する。
以上のものは、本願の好ましい実施例及び応用される技術原理に対する説明に過ぎる。当業者にとって、本願に関する発明範囲は、上記技術的特徴の特定の組み合わせによって形成される技術的解決手段に限定されなく、同時に上記の発明構想を逸脱することなく、上記技術的特徴またはその同等の特徴により任意に組み合わせることによって形成される技術的解決手段にも含まれるべきであるのを理解すべきである。例えば上記の特徴と本願に開示した(これに限定されない)類似の機能を有する技術特徴を互いに置き換えることによって形成される技術的解決手段である。
1001 取得ユニット
1002 識別ユニット
1105 I/Oインタフェース
1106 入力部分
1107 出力部分
1108 記憶部分
1109 通信部分
1110 ドライバ
1111 リムーバブルメディア

Claims (16)

  1. ビデオを識別するための方法であって、
    識別対象ビデオを取得することと、
    前記識別対象ビデオを予めトレーニングされたローカル及びグローバル特徴伝播LGDモデルに入力し、前記識別対象ビデオのカテゴリを取得することと、を含み、前記LGDモデルはローカル及びグローバル特徴伝播によって前記識別対象ビデオの空間-時間特徴を学習する、ビデオを識別するための方法。
  2. 前記LGDモデルは複数のカスケードされたLGDモジュール、ローカルグローバル組み合わせ分類子及び完全接続層を含む請求項1に記載の方法。
  3. 各LGDモジュールは、互いに影響を及ぼし、各空間-時間位置のローカル変化とグローバル外観を記述するためのローカルパスとグローバルパスを含む請求項2に記載の方法。
  4. 各LGDモジュールの伝播方向はグローバルからローカルへの伝播方向とローカルからグローバルへの伝播方向を含み、前記グローバルからローカルへの伝播方向において、前のLGDモジュールのローカル特徴マップとグローバル特徴ベクトルに基づいて現在のLGDモジュールのローカル特徴マップを学習し、前記ローカルからグローバルへの伝播方向において、前記現在のLGDモジュールのローカル特徴マップと前記前のLGDモジュールのグローバル特徴ベクトルに基づいて前記現在のLGDモジュールのグローバル特徴ベクトルを学習する請求項3に記載の方法。
  5. 前のLGDモジュールのローカル特徴マップとグローバル特徴ベクトルに基づいて現在のLGDモジュールのローカル特徴マップを学習することは、
    前記前のLGDモジュールのグローバルパスの残差値を前記前のLGDモジュールのローカル特徴マップに付加し、前記現在のLGDモジュールのローカル特徴マップを生成することを含み、
    前記現在のLGDモジュールのローカル特徴マップと前記前のLGDモジュールのグローバル特徴ベクトルに基づいて前記現在のLGDモジュールのグローバル特徴ベクトルを学習することは、
    前記前のLGDモジュールのグローバル特徴ベクトルと前記現在のLGDモジュールのローカル特徴マップのグローバル平均プーリングを線形に埋め込んで、前記現在のLGDモジュールのグローバル特徴ベクトルを生成することを含む請求項4に記載の方法。
  6. 各LGDモジュールは少なくとも3つの射影行列によってローカル特徴マップとグローバル特徴ベクトルを生成し、各射影行列の低ランク近似を使用して該LGDモジュールの付加パラメータを減少する請求項5に記載の方法。
  7. 前記識別対象ビデオを予めトレーニングされたローカル及びグローバル特徴伝播LGDモデルに入力し、前記識別対象ビデオのカテゴリを取得することは、
    前記識別対象ビデオと前記複数のカスケードされたLGDモジュールに基づいて、前記識別対象ビデオのローカル特徴とグローバル特徴を並列学習することと、
    前記識別対象ビデオのローカル特徴とグローバル特徴を前記ローカルグローバル組み合わせ分類子に入力し、前記識別対象ビデオの合併特徴を合成することと、
    前記識別対象ビデオの合併特徴を前記完全接続層に入力し、前記識別対象ビデオのカテゴリを取得することと、を含む請求項2-6のいずれか1項に記載の方法。
  8. 各LGDモジュールはLGD-2DモジュールまたはLGD-3Dモジュールである請求項7に記載の方法。
  9. 前記識別対象ビデオと前記複数のカスケードされたLGDモジュールに基づいて、前記識別対象ビデオのローカル特徴とグローバル特徴を並列学習することは、
    前記識別対象ビデオを複数の識別対象ビデオセグメントに分割することと、
    前記複数の識別対象ビデオセグメントからマルチフレーム識別対象ビデオフレームを選択することと、
    前記マルチフレーム識別対象ビデオフレームを複数のカスケードされたLGD-2Dモジュールに入力し、前記マルチフレーム識別対象ビデオフレームのローカル特徴とグローバル特徴を並列学習し、前記識別対象ビデオのローカル特徴とグローバル特徴とすることと、を含む請求項8に記載の方法。
  10. 前記複数の識別対象ビデオセグメントのうちの各識別対象ビデオセグメントは少なくとも1フレームの識別対象ビデオフレームを選択する請求項9に記載の方法。
  11. 前記識別対象ビデオと前記複数のカスケードされたLGDモジュールに基づいて、前記識別対象ビデオのローカル特徴とグローバル特徴を並列学習することは、
    前記識別対象ビデオを複数の識別対象ビデオセグメントに分割することと、
    前記複数の識別対象ビデオセグメントを複数のカスケードされたLGD-3Dモジュールに入力し、前記複数の識別対象ビデオセグメントのローカル特徴とグローバル特徴を並列学習し、前記識別対象ビデオのローカル特徴とグローバル特徴とすることと、を含む請求項8に記載の方法。
  12. 前記複数のカスケードされたLGD-3Dモジュールは3次元学習を空間次元での2次元畳み込みと時間次元での1次元演算に分解する請求項11に記載の方法。
  13. 前記ローカルグローバル組み合わせ分類子は核に基づく分類子である請求項2-6のいずれか1項に記載の方法。
  14. ビデオを識別するための装置であって、
    識別対象ビデオを取得するように配置される取得ユニットと、
    前記識別対象ビデオを予めトレーニングされたローカル及びグローバル特徴伝播LGDモデルに入力し、前記識別対象ビデオのカテゴリを取得するように配置される識別ユニットと、を含み、前記LGDモデルはローカル及びグローバル特徴伝播によって前記識別対象ビデオの空間-時間特徴を学習する、ビデオを識別するための装置。
  15. サーバであって、
    1つまたは複数のプロセッサーと、
    1つまたは複数のプログラムが記憶される記憶装置と、を含み、
    前記1つまたは複数のプログラムは前記1つまたは複数のプロセッサーによって実行されると、前記1つまたは複数のプロセッサーに請求項1-13のいずれかに記載の方法を実現する、サーバ。
  16. コンピュータ可読媒体であって、コンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサーによって実行されると、請求項1-13のいずれかに記載の方法を実現する、コンピュータ可読媒体。
JP2021568598A 2019-06-05 2020-03-19 ビデオを識別するための方法及び装置 Active JP7355851B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910485621.6A CN111460876B (zh) 2019-06-05 2019-06-05 用于识别视频的方法和装置
CN201910485621.6 2019-06-05
PCT/CN2020/080264 WO2020244279A1 (zh) 2019-06-05 2020-03-19 用于识别视频的方法和装置

Publications (2)

Publication Number Publication Date
JP2022532669A true JP2022532669A (ja) 2022-07-15
JP7355851B2 JP7355851B2 (ja) 2023-10-03

Family

ID=71683147

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021568598A Active JP7355851B2 (ja) 2019-06-05 2020-03-19 ビデオを識別するための方法及び装置

Country Status (5)

Country Link
US (1) US11967134B2 (ja)
EP (1) EP3958168A4 (ja)
JP (1) JP7355851B2 (ja)
CN (1) CN111460876B (ja)
WO (1) WO2020244279A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307885A (zh) * 2020-08-21 2021-02-02 北京沃东天骏信息技术有限公司 模型构建及训练方法和装置、时序动作定位方法和装置
CN112257728B (zh) * 2020-11-12 2021-08-17 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备以及存储介质
US11989939B2 (en) * 2021-03-17 2024-05-21 Samsung Electronics Co., Ltd. System and method for enhancing machine learning model for audio/video understanding using gated multi-level attention and temporal adversarial training
US11748987B2 (en) * 2021-04-19 2023-09-05 Larsen & Toubro Infotech Ltd Method and system for performing content-aware deduplication of video files
KR102513285B1 (ko) * 2022-05-25 2023-03-23 오드컨셉 주식회사 멀티 집중 모듈을 이용한 표현 학습 방법 및 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056082A (zh) * 2016-05-31 2016-10-26 杭州电子科技大学 一种基于稀疏低秩编码的视频动作识别方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120008673A1 (en) * 2010-07-12 2012-01-12 VQLink Incorporated System, Method, and Apparatus for Detecting and Classifying Artifacts in Digital Images and Video
US9563950B2 (en) * 2013-03-20 2017-02-07 Cornell University Methods and tools for analyzing brain images
CN105740773B (zh) 2016-01-25 2019-02-01 重庆理工大学 基于深度学习和多尺度信息的行为识别方法
US11423651B2 (en) 2016-02-09 2022-08-23 Hrl Laboratories, Llc System and method for the fusion of bottom-up whole-image features and top-down enttiy classification for accurate image/video scene classification
CN106022310B (zh) * 2016-06-14 2021-08-17 湖南大学 基于htg-hog和stg特征的人体行为识别方法
CN106650674B (zh) 2016-12-27 2019-09-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于混合池化策略的深度卷积特征的动作识别方法
CN108241849B (zh) * 2017-08-28 2021-09-07 北方工业大学 基于视频的人体交互动作识别方法
CN108133188B (zh) * 2017-12-22 2021-12-21 武汉理工大学 一种基于运动历史图像与卷积神经网络的行为识别方法
CN108416288A (zh) * 2018-03-04 2018-08-17 南京理工大学 基于全局与局部网络融合的第一视角交互动作识别方法
CN108960140B (zh) * 2018-07-04 2021-04-27 国家新闻出版广电总局广播科学研究院 基于多区域特征提取和融合的行人再识别方法
CN109472248B (zh) 2018-11-22 2022-03-25 广东工业大学 一种行人重识别方法、系统及电子设备和存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056082A (zh) * 2016-05-31 2016-10-26 杭州电子科技大学 一种基于稀疏低秩编码的视频动作识别方法

Also Published As

Publication number Publication date
CN111460876B (zh) 2021-05-25
US11967134B2 (en) 2024-04-23
EP3958168A1 (en) 2022-02-23
JP7355851B2 (ja) 2023-10-03
US20220215649A1 (en) 2022-07-07
CN111460876A (zh) 2020-07-28
EP3958168A4 (en) 2023-01-04
WO2020244279A1 (zh) 2020-12-10

Similar Documents

Publication Publication Date Title
JP2022532669A (ja) ビデオを識別するための方法及び装置
CN111402143B (zh) 图像处理方法、装置、设备及计算机可读存储介质
CN109816589B (zh) 用于生成漫画风格转换模型的方法和装置
CN108062780B (zh) 图像压缩方法和装置
CN110717851B (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
JP2020533660A (ja) 画像スタイル変換方法および装置、機器、ならびに記憶媒体
WO2020064990A1 (en) Committed information rate variational autoencoders
CN110298319B (zh) 图像合成方法和装置
CN109410253B (zh) 用于生成信息的方法、装置、电子设备和计算机可读介质
CN110163237A (zh) 模型训练及图像处理方法、装置、介质、电子设备
CN113994366A (zh) 用于视频超分辨率的多阶段多参考自举
CN109165573A (zh) 用于提取视频特征向量的方法和装置
CN109948699B (zh) 用于生成特征图的方法和装置
US20210272313A1 (en) Method and Apparatus for Constructing Map
CN113256529B (zh) 图像处理方法、装置、计算机设备及存储介质
CN112906721B (zh) 图像处理方法、装置、设备及计算机可读存储介质
CN114519667A (zh) 一种图像超分辨率重建方法及系统
KR20210116922A (ko) 초해상도 모델의 메타 러닝을 통한 빠른 적응 방법 및 장치
JP7378500B2 (ja) 自己回帰ビデオ生成ニューラルネットワーク
WO2021248432A1 (en) Systems and methods for performing motion transfer using a learning model
Sharma et al. Multilevel progressive recursive dilated networks with correlation filter (MPRDNCF) for image super-resolution
CN111798385A (zh) 图像处理方法及装置、计算机可读介质和电子设备
CN111582208A (zh) 用于生成生物体姿态关键点信息的方法和装置
CN113378808B (zh) 人物图像识别方法、装置、电子设备和计算机可读介质
CN117726511B (zh) 用于旅游景观展示的全景成像装置及方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230828

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230921

R150 Certificate of patent or registration of utility model

Ref document number: 7355851

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150