JP2022541712A - ニューラルネットワークのトレーニング方法、ビデオ認識方法及び装置 - Google Patents

ニューラルネットワークのトレーニング方法、ビデオ認識方法及び装置 Download PDF

Info

Publication number
JP2022541712A
JP2022541712A JP2021570177A JP2021570177A JP2022541712A JP 2022541712 A JP2022541712 A JP 2022541712A JP 2021570177 A JP2021570177 A JP 2021570177A JP 2021570177 A JP2021570177 A JP 2021570177A JP 2022541712 A JP2022541712 A JP 2022541712A
Authority
JP
Japan
Prior art keywords
neural network
directed acyclic
node
feature map
acyclic graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021570177A
Other languages
English (en)
Other versions
JP7163515B2 (ja
Inventor
王子豪
林宸
邵▲じん▼
盛律
▲閻▼俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2022541712A publication Critical patent/JP2022541712A/ja
Application granted granted Critical
Publication of JP7163515B2 publication Critical patent/JP7163515B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本発明は、ニューラルネットワークのトレーニング方法、ビデオ認識方法及び装置を開示し、当該方法は、サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築することであって、複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも1つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも1つの有向非巡回グラフを含み、有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各動作方法には、対応する重みパラメータがあることと、サンプルビデオと各サンプルビデオに対応するイベントタグに基づいて、ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することと、トレーニングされた重みパラメータに基づいて、複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得することと、を含む。【選択図】図1

Description

関連出願への相互参照
本願は、2020年06月19日に中国特許局に提出された、出願番号が202010567864.7であり、発明の名称が「ニューラルネットワークのトレーニング方法、ビデオ認識方法及び装置」である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照により本願に組み込まれる。
本発明は、コンピュータの技術分野に関し、特に、ニューラルネットワークのトレーニング方法、ビデオ認識方法及び装置に関する。
ビデオ認識は、ビデオで発生するイベントを認識することを指し、関連技術では、通常、画像認識のためのニューラルネットワークを簡単に変更して、ビデオ認識に使用する。
ただし、画像認識を実行するニューラルネットワークは画像次元で目標認識を実行するため、画像次元から抽出できない一部のビデオ特徴は無視され、それにより、ビデオ認識を実行するニューラルネットワークの精度に影響を与える。
本発明の実施例は、少なくともニューラルネットワークのトレーニング方法、ビデオ認識方法及び装置を提供する。
第1態様において、本発明の実施例は、ニューラルネットワークのトレーニング方法を提供し、当該方法は、サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築することであって、前記複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも1つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも1つの有向非巡回グラフを含み、前記有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各前記動作方法には、対応する重みパラメータがあることと、前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することと、前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得することと、を含む。
上記の方法において、構築されたニューラルネットワークは、空間特徴を抽出するための有向非巡回グラフだけでなく、時間特徴を抽出するための有向非巡回グラフも含み、有向非巡回グラフの各エッジは、複数の動作方法に対応する。このようにして、サンプルビデオを使用してニューラルネットワークをトレーニングした後、トレーニングされた動作方法の重みパラメータを取得でき、さらに、トレーニングされた動作方法の重みパラメータに基づいて、トレーニングされたニューラルネットワークを取得する。この方法でトレーニングされたニューラルネットワークは、画像次元の空間特徴を認識するだけでなく、時間次元の時間特徴も認識するので、トレーニングされたニューラルネットワークにおけるビデオに対する認識精度が高い。
いくつかの可能な実施形態では、前記有向非巡回グラフは、2つの入力ノードを含み、前記ニューラルネットワークの各ノードは、1つの特徴マップに対応し、前記複数の有向非巡回グラフを含むニューラルネットワークを構築することは、N-1番目(Nは1より大きい整数)の有向非巡回グラフによって出力された特徴マップを、N+1番目の有向非巡回グラフの1つの入力ノードの特徴マップとして使用し、N番目の有向非巡回グラフによって出力された特徴マップを、前記N+1番目の有向非巡回グラフの別の入力ノードの特徴マップとして使用することであって、ここで、前記ニューラルネットワークの最初の有向非巡回グラフの目標入力ノードに対応する特徴マップは、サンプルビデオのサンプリングビデオフレームに対して特徴抽出を実行した後の特徴マップであり、前記目標入力ノードを除いた別の入力ノードは空であり、前記ニューラルネットワークの2番目の有向非巡回グラフの1つの入力ノードの特徴マップは、前記最初の有向非巡回グラフによって出力された特徴マップであり、別の入力ノードは空であることと、を含む。
いくつかの可能な実施形態では、前記有向非巡回グラフの入力ノードを除いた他のノードに対応する特徴マップを直列接続し、直列接続した特徴マップを前記有向非巡回グラフによって出力された特徴マップとして使用する、方法に従って、有向非巡回グラフによって出力された特徴マップを決定する。
いくつかの可能な実施形態では、前記時間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第1動作方法に対応し、前記空間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第2動作方法に対応し、前記複数の第1動作方法は、前記複数の第2動作方法及び、各前記第2動作方法と異なる少なくとも1つの他の動作方法を含む。
いくつかの可能な実施形態では、前記ニューラルネットワークはさらに、最初の有向非巡回グラフに接続されたサンプリング層を含み、前記サンプリング層は、サンプルビデオをサンプリングして、サンプリングビデオフレームを取得し、前記サンプリングビデオフレームに対して特徴抽出を実行して、前記サンプリングビデオフレームに対応する特徴マップを取得し、最初の前記有向非巡回グラフの目標入力ノードに前記サンプリングビデオフレームに対応する特徴マップを入力するように構成され、前記ニューラルネットワークはさらに、最後の有向非巡回グラフの出力ノードに接続された完全接続層を含み、前記完全接続層は、最後の有向非巡回グラフによって出力された特徴マップに基づいて、前記サンプルビデオに対応する複数のイベントの発生確率を決定するように構成され、前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することは、前記完全接続層によって計算された前記サンプルビデオに対応する複数のイベントの発生確率、及び各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することを含む。
いくつかの可能な実施形態では、現在のノードを指す各1レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成する、方法に従って、前記有向非巡回グラフの入力ノードを除いた各ノードに対応する特徴マップを取得する。
上記の方法によって、重みパラメータを使用して、任意のノードの特徴マップに対する、当該任意のノードとその1レベル上位のノードのエッジ間の動作方法の影響を制御することができる。したがって、重みパラメータを制御することにより、任意のノードとその1レベル上位のノードと間のエッジに対応する動作方法を制御することができ、それにより、当該任意のノードの特徴マップの値を変更することができる。
いくつかの可能な実施形態では、前記現在のノードを指す各1レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成することは、前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間の現在のエッジに対して、前記現在のエッジに対応する各前記動作方法に基づいて、前記現在のエッジに対応する1レベル上位のノードの特徴マップを処理して、前記現在のエッジに対応する各前記動作方法に対応する第1中間特徴マップを取得することと、前記現在のエッジに対応する各前記動作方法に対応する第1中間特徴マップは、各前記動作方法に対応する重みパラメータに従って加重加算され、前記現在のエッジに対応する第2中間特徴マップを取得することと、前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間の複数のエッジにそれぞれ対応する第2中間特徴マップを加算して、前記現在のノードに対応する特徴マップを取得することと、を含む。
このような方法により、ノードの特徴マップを決定するときに各動作方法が使用でき、ノードに対応する特徴マップに対する単一動作方法の影響を低減し、ニューラルネットワークの認識精度の向上に役立つ。
いくつかの可能な実施形態では、前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択することは、前記有向非巡回グラフの各前記エッジに対して、各前記エッジに対応する重みパラメータが最大である動作方法を、各前記エッジに対応する目標動作方法として使用することを含む。
いくつかの可能な実施形態では、前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得することは、各前記ノードに対して、前記ノードを指すエッジの数が目標の数より大きい場合、前記ノードを指す各エッジに対応する前記目標動作方法の重みパラメータを決定することと、対応する前記重みパラメータの降順に応じて、前記ノードを指す各エッジを並べ替え、前のK位のエッジを除いた他のエッジを削除することであって、ここで、Kは前記目標の数であることと、削除処理後のニューラルネットワークを、前記トレーニングされたニューラルネットワークとして使用することと、を含む。
このような方法により、一方では、ニューラルネットワークのサイズを縮小することができ、もう一方では、ニューラルネットワークの計算ステップを削減し、ニューラルネットワークの計算効率を向上させることができる。
第2態様によれば、本発明の実施例は、ビデオ認識方法をさらに提供し、当該方法は、認識されるビデオを取得することと、第1態様又は第1態様の任意の可能な実施形態に記載のニューラルネットワークのトレーニング方法に基づいてトレーニングされたニューラルネットワークに、前記認識されるビデオを入力して、前記認識されるビデオに対応する複数のイベントの発生確率を決定し、対応する発生確率がプリセット条件を満たすイベントを、前記認識されるビデオで発生するイベントとして使用することと、を含む。
第3態様によれば、本発明の実施例は、ニューラルネットワークのトレーニング装置を提供し、当該装置は、サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築するように構成される構築部であって、前記複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも1つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも1つの有向非巡回グラフを含み、前記有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各前記動作方法には、対応する重みパラメータがある、構築部と、前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得するように構成される、トレーニング部と、前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得するように構成される、選択部と、を備える。
いくつかの可能な実施形態では、前記有向非巡回グラフは、2つの入力ノードを含み、前記ニューラルネットワークの各ノードは、1つの特徴マップに対応し、前記構築部はさらに、N-1番目(Nは1より大きい整数)の有向非巡回グラフによって出力された特徴マップを、N+1番目の有向非巡回グラフの1つの入力ノードの特徴マップとして使用し、N番目の有向非巡回グラフによって出力された特徴マップを、前記N+1番目の有向非巡回グラフの別の入力ノードの特徴マップとして使用し、ここで、前記ニューラルネットワークの最初の有向非巡回グラフの目標入力ノードに対応する特徴マップは、サンプルビデオのサンプリングビデオフレームに対して特徴抽出を実行した後の特徴マップであり、前記目標入力ノードを除いた別の入力ノードは空であり、前記ニューラルネットワークの2番目の有向非巡回グラフの1つの入力ノードの特徴マップは、前記最初の有向非巡回グラフによって出力された特徴マップであり、別の入力ノードは空であるように構成される。
いくつかの可能な実施形態では、前記構築部はさらに、前記有向非巡回グラフの入力ノードを除いた他のノードに対応する特徴マップを直列接続し、直列接続した特徴マップを前記有向非巡回グラフによって出力された特徴マップとして使用するように構成される。
いくつかの可能な実施形態では、前記時間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第1動作方法に対応し、前記空間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第2動作方法に対応し、前記複数の第1動作方法は、前記複数の第2動作方法及び各前記第2動作方法と異なる少なくとも1つの他の動作方法を含む。
いくつかの可能な実施形態では、前記ニューラルネットワークはさらに、最初の有向非巡回グラフに接続されたサンプリング層を含み、前記サンプリング層は、サンプルビデオをサンプリングして、サンプリングビデオフレームを取得し、前記サンプリングビデオフレームに対して特徴抽出を実行して、前記サンプリングビデオフレームに対応する特徴マップを取得し、最初の前記有向非巡回グラフの目標入力ノードに前記サンプリングビデオフレームに対応する特徴マップを入力するように構成され、前記ニューラルネットワークはさらに、最後の有向非巡回グラフの出力ノードに接続された完全接続層を含み、前記完全接続層は、当該出力ノードの特徴マップに基づいて、前記サンプルビデオに対応する複数のイベントの発生確率を決定するように構成され、前記トレーニング部はさらに、前記完全接続層によって計算された前記サンプルビデオに対応する複数のイベントの発生確率、及び各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得するように構成される。
いくつかの可能な実施形態では、前記構築部はさらに、現在のノードを指す各1レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成するように構成される。
いくつかの可能な実施形態では、前記構築部はさらに、前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間の現在のエッジに対して、前記現在のエッジに対応する各前記動作方法に基づいて、前記現在のエッジに対応する1レベル上位のノードの特徴マップを処理して、前記現在のエッジに対応する各前記動作方法に対応する第1中間特徴マップを取得し、前記現在のエッジに対応する各前記動作方法に対応する第1中間特徴マップは、各前記動作方法に対応する重みパラメータに従って加重加算され、前記現在のエッジに対応する第2中間特徴マップを取得し、前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間の複数のエッジにそれぞれ対応する第2中間特徴マップを加算して、前記現在のノードに対応する特徴マップを取得するように構成される。
いくつかの可能な実施形態では、前記選択部はさらに、前記有向非巡回グラフの各前記エッジに対して、各前記エッジに対応する重みパラメータが最大である動作方法を、各前記エッジに対応する目標動作方法として使用するように構成される。
いくつかの可能な実施形態では、前記選択部はさらに、各前記ノードに対して、前記ノードを指すエッジの数が目標の数より大きい場合、前記ノードを指す各エッジに対応する目標動作方法の重みパラメータを決定し、対応する前記重みパラメータの降順に応じて、前記ノードを指す各エッジを並べ替え、前のK位のエッジを除いた他のエッジを削除し、ここで、Kは前記目標の数であり、削除処理後のニューラルネットワークを、前記トレーニングされたニューラルネットワークとして使用するように構成される。
第4態様によれば、本発明の実施例は、ビデオ認識装置をさらに提供し、当該ビデオ認識装置は、認識されるビデオを取得するように構成される、取得部と、第1態様又は第1態様のいくつかの可能な実施形態に記載のニューラルネットワークのトレーニング方法に基づいてトレーニングされたニューラルネットワークに、前記認識されるビデオを入力して、前記認識されるビデオに対応する複数のイベントの発生確率を決定するように構成される、第1決定部と、対応する発生確率がプリセット条件を満たすイベントを、前記認識されるビデオで発生するイベントとして使用するように構成される、第2決定部と、を備える。
第5態様によれば、本発明の実施例は、プロセッサ、前記プロセッサによって実行可能な機械可読命令が記憶されたメモリ及びバスを備える、コンピュータ機器をさらに提供し、前記コンピュータ機器が実行されるときに、前記プロセッサと前記メモリはバスを介して通信し、前記機械可読命令が前記プロセッサによって実行されるときに、上記の第1態様、又は、第1態様の任意の可能な実施形態に記載の方法のステップ、又は、上記の第2態様に記載の方法のステップを実行する。
第6態様によれば、本発明の実施例は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体をさらに提供し、当該コンピュータプログラムがプロセッサによって実行されるときに、上記の第1態様、又は、第1態様の任意の可能な実施形態に記載の方法のステップ、又は、上記の第2態様に記載の方法のステップを実行する。
第7態様によれば、本発明の実施例は、コンピュータ可読コードを含むコンピュータプログラムをさらに提供し、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、上記の第1態様、又は、第1態様の任意の可能な実施形態に記載の方法のステップ、又は、上記の第2態様に記載の方法のステップを実行する。
本発明の上記の目的、特徴及び利点をより明確で理解しやすくするために、以下では、添付の図面を参照して好ましい実施例を詳細に説明する。
本発明の実施例の技術的解決策をより明確に説明するために、以下では、実施例に必要な図面を簡単に説明する。ここでの図面は、本明細書に組み込まれてその一部を構成し、これらの図面は、本発明と一致する実施例を示すものであり、明細書とともに本発明の技術的解決策を説明するために使用される。以下の図面は、本発明の一部の実施例のみを示すだけで、本実施例の保護範囲を限定するものではなく、当業者は、創造的な労力を要することなく、これらの図面に基づいて他の図面を得ることができることを理解されたい。
本発明の実施例によるニューラルネットワークのトレーニング方法のフローチャートである。 本発明の実施例による有向非巡回グラフを含むニューラルネットワークのネットワーク構造の概略図である。 本発明の実施例による時間畳み込みの処理プロセスの概略図である。 本発明の実施例による別の時間畳み込みの処理プロセスの概略図である。 本発明の実施例によるニューラルネットワークの構造の概略図である。 本発明の実施例による有向非巡回グラフの概略図である。 本発明の実施例によるノードに対応する特徴マップを生成する方法のフローチャートである。 本発明の実施例による構築されたニューラルネットワークの全体的な構造の概略図である。 本発明の実施例によるニューラルネットワークのトレーニング方法のフローチャートの概略図である。 本発明の実施例によるビデオ認識方法のフローチャートの概略図である。 本発明の実施例によるニューラルネットワークのトレーニング装置のアーキテクチャの概略図である。 本発明の実施例によるビデオ認識装置のアーキテクチャの概略図である。 本発明の実施例によるコンピュータ機器の構造の概略図である。 本発明の実施例による別のコンピュータ機器の構造の概略図である。
本発明の上記の目的、特徴及び利点をより理解しやすくするために、以下では、本発明の実施例の図面を参照して、本発明の実施例の技術的解決策を明確且つ完全に説明する。明らかに、説明される実施例は、本発明の実施例の一部であり、全部の実施例ではない。通常本明細書の図面に記載及び図示されている本発明の実施例の構成要素は、様々な異なる構成で配置及び設計することができる。したがって、添付の図面による本発明の実施例の以下の詳細な説明は、保護範囲を限定することを意図するものではなく、単に本発明の特定の実施例を示すものである。本発明の実施例に基づいて、創造的な作業なしに当業者によって得られた他のすべての実施例は、本願の保護範囲に含まれる。
関連技術では、ビデオ認識のプロセスで、通常は、画像認識のための既存のニューラルネットワークが変更されるが、画像認識のための既存のニューラルネットワークは画像次元で認識し、画像次元から抽出できない一部のビデオ特徴は無視され、ニューラルネットワークの認識精度に影響を与える。
さらに、関連技術は、進化ベースのアルゴリズムを使用してビデオ認識のためのニューラルネットワークを検索する。ただし、このような方法では、毎回複数のニューラルネットワークをトレーニングしてから、最高の機能を持つニューラルネットワークを選択して再度調整する必要があるため、ニューラルネットワークの調整プロセスでの計算量が多く、トレーニング効率が低い。
上記の技術案の欠陥はすべて、実施及び注意深い研究の後に発明者によって得られた結果であり、したがって、上記の問題の発見プロセス及び上記の問題に対する以下の本発明の実施例によって提案された解決策は、すべて本発明の実施例に対する発明者の貢献であるべきである。
これに基づき、本発明の実施例は、ニューラルネットワークのトレーニング方法を提供し、構築されたニューラルネットワークは、空間特徴を抽出するための有向非巡回グラフだけでなく、時間特徴を抽出するための有向非巡回グラフも含み、有向非巡回グラフの各エッジは、複数の動作方法に対応する。このようにして、サンプルビデオを使用してニューラルネットワークをトレーニングした後、トレーニングされた動作方法の重みパラメータを取得でき、さらに、トレーニングされた動作方法の重みパラメータに基づいて、トレーニングされたニューラルネットワークを取得する。この方法でトレーニングされたニューラルネットワークは、画像次元の空間特徴を認識するだけでなく、時間次元の時間特徴も認識するので、ビデオに対するトレーニングされたニューラルネットワークの認識精度が高い。
同じ参照番号及び文字は、以下の図面において同じアイテムを示し、したがって、特定のアイテムが1つの図面で定義されると、後続の図面でさらに議論する必要がないことに留意されたい。
本発明の実施例の理解を容易にするために、まず、本発明の実施例で開示されるニューラルネットワークのトレーニング方法を詳細に説明する。本発明の実施例よって提供されるニューラルネットワークのトレーニング方法の実行主体は、一般的に、一定の計算能力を備えたコンピュータ機器である。当該コンピュータ機器は、例えば、端末機器又はサーバ又は他の処理機器を含む。端末機器は、ユーザ機器(User Equipment、UE)、モバイル機器、ユーザ端末、パーソナルコンピュータなどであり得る。さらに、本発明の実施例によって提供される方法は、さらに、プロセッサがコンピュータプログラムコードを実行することによって実現される。
図1は、本発明の実施例によるニューラルネットワークのトレーニング方法のフローチャートである。図1に示されるように、当該方法は、ステップ101ないしステップ103を含む。
ステップ101において、サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築する。
ここで、前記複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも1つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも1つの有向非巡回グラフを含み、前記有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各前記動作方法には、対応する重みパラメータがある。
ステップ102において、前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得する。
ステップ103において、前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得する。
以下は、上記のステップ101ないしステップ103の詳細な説明である。
いくつかの可能な実施形態では、ニューラルネットワークを構築するプロセスにおいて、時間特徴を抽出するための有向非巡回グラフの数及び空間特徴を抽出するための有向非巡回グラフの数はプリセットされている。有向非巡回グラフのノードは特徴マップを表し、ノード間のエッジは動作方法を表す。
複数の有向非巡回グラフを含むニューラルネットワークを構築するプロセスにおいて、N-1番目(Nは1より大きい整数)の有向非巡回グラフによって出力された特徴マップを、N+1番目の有向非巡回グラフの1つの入力ノードの特徴マップとして使用し、N番目の有向非巡回グラフによって出力された特徴マップを、前記N+1番目の有向非巡回グラフの別の入力ノードの特徴マップとして使用することができる。
いくつかの可能な実現形態では、各有向非巡回グラフは、2つの入力ノードを含み、ニューラルネットワークの最初の有向非巡回グラフの任意の入力ノードを目標入力ノードとして使用することができ、目標入力ノードの入力は、サンプルビデオのサンプリングビデオフレームに対して特徴抽出を実行して取得した特徴マップであり、前記ニューラルネットワークの最初の有向非巡回グラフにおいて、前記目標入力ノードを除いた別の入力ノードは空であり、ニューラルネットワークの2番目の有向非巡回グラフの1つの入力ノードの特徴マップは、前記最初の有向非巡回グラフによって出力された特徴マップであり、別の入力ノードは空である。他の実施例では、有向非巡回グラフは、1つ、3つ、又はそれ以上の入力ノードを含み得る。
ここで、有向非巡回グラフによって出力された任意の特徴マップを決定するプロセスでは、当該有向非巡回グラフの入力ノードを除いた他のノードに対応する特徴マップを直列に(contact)接続し、直列接続した特徴マップを当該有向非巡回グラフによって出力された特徴マップとして使用することができる。
例示的に、有向非巡回グラフを含む構築されたニューラルネットワークのネットワークの構造は図2に示されるようであり得、図2は、3つの有向非巡回グラフを含み、白いドットは入力ノードを表し、黒いドットは有向非巡回グラフの入力ノードを除いた他のノードに対応する特徴マップを直列接続した後の特徴マップを表す。最初の有向非巡回グラフの入力ノードは、サンプルビデオのサンプリングビデオフレームの特徴マップに対応し、別の入力ノードは空であり、最初の有向非巡回グラフの出力ノードに対応する特徴マップを、2番目の有向非巡回グラフの1つの入力ノードとし、2番目の有向非巡回グラフの入力ノードは空であり、2番目の有向非巡回グラフによって出力された特徴マップ及び最初の有向非巡回グラフによって出力された特徴マップをそれぞれ、3番目の有向非巡回グラフの2つの入力ノードに対応する特徴マップとし、このように類推する。
1つの実施形態では、時間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第1動作方法に対応し、空間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第2動作方法に対応し、前記複数の第1動作方法は、前記複数の第2動作方法及び、各前記第2動作方法と異なる少なくとも1つの他の動作方法を含む。
例示的に、時間特徴を抽出するための有向非巡回グラフの各エッジに対応する複数の第1動作方法は、平均プーリング動作(例えば、1×3×3平均プーリング)、最大プーリング動作(例えば、1×3×3最大プーリング)、離散畳み込み動作(例えば、1×3×3離散畳み込み)、拡張離散畳み込み(例えば、1×3×3拡張離散畳み込み)を含み得、空間特徴を抽出するための有向非巡回グラフの各エッジに対応する複数の第2動作方法は、平均プーリング動作、最大プーリング動作、離散畳み込み動作、拡張離散畳み込み、及び異なる時間畳み込みを含み得る。
ここで、前記時間畳み込みは、時間特徴を抽出するために使用される。例示的に、時間畳み込みは、3+3×3サイズの時間畳み込みであり得、3+3×3サイズの時間畳み込みは、時間次元での畳み込みカーネルのサイズが3であり、空間次元での畳み込みカーネルのサイズが3×3であることを表し、例示的に、その処理プロセスは図3aに示されるようである。Cinは入力された特徴マップを表し、Coutは処理後に出力された特徴マップを表し、ReLUはアクティブ化関数を表し、conv1×3×3は時間次元での畳み込みカーネルのサイズが1であり、空間次元での畳み込みカーネルのサイズが3×3畳み込み動作であることを表す。conv3×1×1は時間次元の畳み込みカーネルのサイズが3で、空間次元での畳み込みカーネルのサイズが1×1畳み込み動作であることを表す。BatchNormは正規化動作を表し、T、W、及びHはそれぞれ時間次元及び空間の2つの次元を表す。
例示的に、時間畳み込みはさらに、3+1×1サイズの時間畳み込みであり得、3+1×1サイズの時間畳み込みは、時間次元での畳み込みカーネルのサイズが3であり、空間次元での畳み込みカーネルのサイズが1×1であることを表す。例示的に、その処理プロセスは図3bに示されるようである。conv1×1×1は、時間次元での畳み込みカーネルのサイズが1であり、空間次元での畳み込みカーネルのサイズが1×1であることを表し、他の記号の意味は図3aと同じであり、ここでは繰り返して説明しない。
いくつかの可能な実施形態では、ニューラルネットワークの初期構築のプロセスでは、時間特徴を抽出するための各有向非巡回グラフの構造は同じであるが、ニューラルネットワークのトレーニングが完了した後、時間特徴を抽出するための異なる有向非巡回グラフのエッジ対応する目標動作方法は異なる可能性があり、同様に、ニューラルネットワークを構築するプロセスでは、空間特徴を抽出するための各有向非巡回グラフの構造も同じであり、ニューラルネットワークのトレーニングが完了した後、空間特徴を抽出するための異なる有向非巡回グラフのエッジに対応する目標動作方法も異なる可能性がある。
いくつかの可能な実施形態では、時間特徴の抽出のための各有向非巡回グラフは、2つのタイプの有向非巡回グラフを含み、1つは入力された特徴マップのサイズとチャネルの数を変更する第1有向非巡回グラフで、もう1つは入力された特徴マップのサイズとチャネルの数を変更しない第2有向非巡回グラフである。ここで、第1有向非巡回グラフは、第1プリセット数のノードを含み得、第2有向非巡回グラフは、第2プリセット数のノードを含み得、第1プリセット数及び第2プリセット数は同じであり得る。空間特徴の抽出のための各有向非巡回グラフは、2つのタイプの有向非巡回グラフを含み、1つは入力された特徴マップのサイズとチャネルの数を変更する第3有向非巡回グラフで、もう1つは入力された特徴マップのサイズとチャネルの数を変更しない第4有向非巡回グラフである。ここで、第3有向非巡回グラフは、第3プリセット数のノードを含み得、第4有向非巡回グラフは、第4プリセット数のノードを含み得、第3プリセット数及び第4プリセット数は同じであり得る。
したがって、構築されたニューラルネットワークは、上記の4つのタイプの有向非巡回グラフを含み、実際の応用において、各タイプの有向非巡回グラフに対応するプリセット数のノードは、当該有向非巡回グラフ内の各階層のノードの数を含み、各階層のノードの数を決定した後、各ノード間の接続関係を直接に決定することにより、有向非巡回グラフを決定することができる。
例示的に、4つの有向非巡回グラフを含むニューラルネットワークのネットワーク構造は図4に示されるようであり、サンプルビデオをニューラルネットワークに入力した後、まず、サンプリング層に入力して、サンプルビデオをサンプリングし、次に、サンプリングされたビデオフレームに対して特徴を抽出して、最初の有向非巡回グラフに入力し、最後の有向非巡回グラフを完全接続層に入力する。完全接続層の入力は、ニューラルネットワークの出力である。
ここで、有向非巡回グラフを介して、特徴マップのサイズとチャネルの数を制御することにより、一方では、ニューラルネットワークの受容野を拡大でき、もう一方では、ニューラルネットワークの計算量を減らし、計算効率を向上させることができることに留意されたい。上記の方法において、構築されたニューラルネットワークは、空間特徴を抽出するための有向非巡回グラフだけでなく、時間特徴を抽出するための有向非巡回グラフも含み、有向非巡回グラフの各エッジは、複数の動作方法に対応する。このようにして、サンプルビデオを使用してニューラルネットワークをトレーニングした後、トレーニングされた動作方法の重みパラメータを取得でき、さらに、トレーニングされた動作方法の重みパラメータに基づいて、トレーニングされたニューラルネットワークを取得する。このような方法でトレーニングされたニューラルネットワークは、画像次元の空間特徴を認識するだけでなく、時間次元の時間特徴も認識するので、ビデオに対するトレーニングされたニューラルネットワークの認識精度が高い。
いくつかの可能な実施形態では、有向非巡回グラフの入力ノードを除いた各ノードに対応する特徴マップを決定する場合、現在のノードを指す各1レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成する。
例示的に、有向非巡回グラフが図5に示されるようである場合、ノード3に対応する特徴マップを決定するとき、ノード3を指すノードがノード0、ノード1、及びノード2であると、ノード0、ノード1及びノード2に対応する特徴マップ、及びノード0、ノード1、ノード2とノード3との間のエッジにそれぞれ対応する動作方法の重みパラメータに従って、ノード3に対応する特徴マップを決定する。
ここで、当該有向非巡回グラフが時間特徴を抽出するための有向非巡回グラフである場合、ノード0、ノード1、及びノード2とノード3との間のエッジにそれぞれ対応する動作方法は、第1動作方法であり、当該有向非巡回グラフが空間特徴を抽出するための有向非巡回グラフである場合、ノード0、ノード1、及びノード2とノード3との間のエッジにそれぞれ対応する動作方法は、第2動作方法である。
上記の方法によって、重みパラメータを使用して、任意のノードの特徴マップに対する、当該任意のノードとその1レベル上位のノードのエッジ間の動作方法が影響を制御することができる。したがって、重みパラメータを制御することにより、任意のノードとその前のノードと間のエッジに対応する動作方法を制御することができ、それにより、当該任意のノードの特徴マップの値を変更することができる。
ノードに対応する特徴マップを生成するプロセスでは、図6に示される方法を参照でき、当該方法は、以下のステップを含み得る。
ステップ601において、前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間の現在のエッジに対して、前記現在のエッジに対応する各前記動作方法に基づいて、前記現在のエッジに対応する1レベル上位のノードの特徴マップを処理して、前記現在のエッジに対応する各前記動作方法に対応する第1中間特徴マップを取得する。
例示的に、現在のノードが属する有向非巡回グラフが時間特徴を抽出するための有向非巡回グラフであり、現在のノードを指す3つの現在のエッジがあり、各現在のエッジは6つの第1動作方法に対応する場合、任意の現在のエッジに対して、当該現在のエッジに対応する各動作方法によって、当該現在のエッジに接続された前のノードに対応する特徴マップをそれぞれ処理できると、当該現在のエッジに対応する6つの第1中間特徴マップを取得でき、当該現在のノードを指す3つの現在のエッジがある場合、計算によって18個の第1中間特徴マップを取得できる。
現在のノードが属する有向非巡回グラフが空間特徴を抽出するための有向非巡回グラフであり、現在のノードを指す3つの現在のエッジがあり、各現在のエッジは4つの第1動作方法に対応する場合、上記の計算方法と同様に、各現在のエッジに対応する第1中間特徴マップは4つであり、計算によって12個の第1中間特徴マップを取得できる。
ステップ602において、前記現在のエッジに対応する各前記動作方法に対応する第1中間特徴マップは、各前記動作方法に対応する重みパラメータに従って加重加算され、前記現在のエッジに対応する第2中間特徴マップを取得する。
前記重みパラメータは、トレーニングされるモデルパラメータであり、いくつかの可能な実施形態では、重みパラメータにランダムに値を割り当て、次に、ニューラルネットワークのトレーニングプロセス中に常に調整される。
現在のノードを指す各現在のエッジに対応する動作方法には、いずれも対応する重みパラメータがあり、各動作方法に対応する第1中間特徴マップが、対応する重みパラメータに従って加重加算されるときに、第1特徴マップの対応する位置での値と当該第1特徴マップの対応する動作方法の重みパラメータを乗算することができ、その後、対応する位置での乗算結果を加算して、当該現在のエッジに対応する第2中間特徴マップを取得する。
ステップ601の例を続けると、現在のノードを指す3つのエッジがあり、各現在のエッジは6つの第1動作方法に対応し、各第1動作方法は、いずれも対応する重みパラメータを有し、各現在のエッジは6つの第1動作方法に対応できる。次に、各現在のエッジに対応する6つの第1中間特徴マップは、重みパラメータに従って加重加算され、各現在のエッジに対応する第2中間特徴マップを取得する。
ここで、異なるエッジに対応する同じ動作方法の重みパラメータは異なる可能性がある。例えば、エッジ1とエッジ2がすべて現在のノードを指し、エッジ1とエッジ2に対応する動作方法が、両方とも平均プーリング動作を含み、エッジ1に対応する平均プーリング動作の重みパラメータは70%であり得、エッジ2に対応する平均プーリング動作の重みパラメータは10%であり得ることに留意されたい。
例示的に、
Figure 2022541712000002
番目のノードと
Figure 2022541712000003
番目のノードの間のエッジに対応する第2特徴マップを計算するとき、以下の式1によって計算することができる。
Figure 2022541712000004
ここで、oと
Figure 2022541712000005
は動作方法を表し、Oは
Figure 2022541712000006
番目のノードと
Figure 2022541712000007
番目のノードの間の動作方法の集合を表し、
Figure 2022541712000008
は、
Figure 2022541712000009
番目のノードと
Figure 2022541712000010
番目のノードの間の動作方法「o」の重みパラメータを表す。
Figure 2022541712000011
は、
Figure 2022541712000012
番目のノードと
Figure 2022541712000013
番目のノードの間のエッジに対応する動作方法
Figure 2022541712000014
の重みパラメータを表す。
Figure 2022541712000015
は、
Figure 2022541712000016
番目のノードに対応する特徴マップを表し、
Figure 2022541712000017
は、
Figure 2022541712000018
番目のノードと
Figure 2022541712000019
番目のノードの間のエッジに対応する第2特徴マップである。
ステップ603において、前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間の複数のエッジにそれぞれ対応する第2中間特徴マップを加算して、前記現在のノードに対応する特徴マップを取得する。
ここで、各第2中間特徴マップのサイズは同じであり、各第2中間特徴マップを加算するとき、各第2中間特徴マップに対応する位置での値を加算して、現在のノードに対応する特徴マップを取得できる。
さらに、構築されたニューラルネットワークはさらに、サンプリング層及び完全接続層を含み、前記サンプリング層は、入力されたニューラルネットワークのビデオをサンプリングして、サンプリングビデオフレームを取得し、サンプリングビデオフレームに対して特徴抽出を実行して、前記サンプリングビデオフレームに対応する特徴マップを取得し、次に、最初の有向非巡回グラフの目標入力ノードにサンプリングビデオフレームに対応する特徴マップを入力するために使用される。前記完全接続層は、最後の有向非巡回グラフによって出力された特徴マップに基づいて、前記サンプルビデオに対応する複数のイベントの発生確率を決定するために使用される。要約すると、構築されたニューラルネットワークの全体的な構造は図7に示されるようであり、図7は、3つの有向非巡回グラフ、1つの完全接続層及び1つのサンプリング層を含み、完全接続層の出力は、ニューラルネットワークの出力である。
このようにして、ノードの特徴マップを決定するときに各動作方法が使用でき、ノードに対応する特徴マップに対する単一動作方法の影響を低減し、ニューラルネットワークの認識精度の向上に役立つ。
サンプルビデオに対応するイベントタグは、サンプルビデオで発生したイベントを示すために使用され、例示的に、サンプルビデオで発生したイベントは、人が走っていること、子犬が遊んでいること、二人でバドミントンをしていることなどを含み得る。いくつかの可能な実施形態では、サンプルビデオとサンプルビデオに対応するイベントタグに基づいて、構築されたニューラルネットワークをトレーニングするとき、図8に示される方法を使用でき、当該方法は、以下のステップを含む。
ステップ801において、サンプルビデオをニューラルネットワークに入力して、サンプルビデオに対応する複数のイベントの発生確率を出力して取得する。
ここで、サンプルビデオに対応する複数のイベントの数は、ニューラルネットワークをトレーニングするためのサンプルビデオのイベントタグの数と同じである。例えば、400個のイベントタグのサンプルビデオを介してニューラルネットワークをトレーニングする場合、任意のビデオをニューラルネットワークに入力した後、ニューラルネットワークは、入力されたビデオに対応する400個のイベントのそれぞれの発生確率を出力できる。
ステップ802において、サンプルビデオに対応する複数のイベントの発生確率に基づいて、サンプルビデオに対応する予測イベントを決定する。
例えば、対応する発生確率が最大であるイベントを、ニューラルネットワークによって予測されたイベントとして決定する。別のいくつかの可能な実施形態では、サンプルビデオは、複数のイベントタグを搬送する可能性があり、例えば、同時に、子犬が遊んでいるイベントタグ及び二人がバドミントンをしているイベントタグを含むので、サンプルビデオに対応する複数のイベントの発生確率に基づいて、サンプルビデオに対応する予測イベントを決定するプロセスでは、対応する発生確率がプリセットされた確率より大きいイベントを、サンプルビデオに対応する予測イベントとして使用することができる。
ステップ803において、サンプルビデオに対応する予測イベント及びサンプルビデオのイベントタグに基づいて、今回のトレーニングプロセスでの損失値を決定する。
例示的に、サンプルビデオに対応する予測イベント及びサンプルビデオのイベントタグに基づいて、今回のトレーニングプロセスでのクロスエントロピー損失を決定できる。
ステップ804において、今回のトレーニングプロセスでの損失値がプリセットされた損失値よりも小さいか否かを判断する。
判定結果が「はい」である場合、ステップ805を順次に実行し、判定結果が「いいえ」である場合、今回のトレーニングプロセスでのニューラルネットワークパラメータのパラメータ値を調整し、戻ってステップ801を実行する。
ここで、調整されたニューラルネットワークパラメータは、有向非巡回グラフの各エッジに対応する動作方法の重みパラメータを含み、各重みパラメータは、有向非巡回グラフの各エッジに対応する目標動作方法の選択に影響を与えるので、ここでの重みパラメータは、ニューラルネットワークの構造パラメータとして使用され得、調整されたニューラルネットワークパラメータはさらに、例えば、各畳み込み動作の畳み込みカーネルのサイズ、重みなどの動作パラメータを含み得る。
構造パラメータと動作パラメータの収束速度の差が大きいため、動作パラメータが学習の初期段階にあり、学習率が小さい場合、構造パラメータの急速な収束につながる可能性がある。したがって、動作パラメータ及び構造パラメータの同期学習のプロセスは、学習率を制御することによって実現できる。
例示的に、段階的学習率減衰戦略が採用でき、事前にハイパーパラメータSを設定して、動作パラメータ及び構造パラメータがS回最適化されるたびに、学習率が1回減衰され、減衰の振幅はd(プリセットされる)である。これにより、学習率の段階的な減衰を実現でき、構造パラメータ及び動作パラメータの同期学習、即ち同期最適化を実現できる。
従来技術において、パラメータ最適化のプロセスでは、以下の式2及び式3によって最適化を実行する。
Figure 2022541712000020
Figure 2022541712000021
上記の式2において、αは構造パラメータを表し、ωは動作パラメータを表し、
Figure 2022541712000022
は、αが固定されたとき、ωに基づいて計算された損失値を表し、
Figure 2022541712000023
は、αが固定された後、ωをトレーニングして
Figure 2022541712000024
を最小化するときのωの値であり、即ち、最適化されたωである。上記の式3において、
Figure 2022541712000025
は、最適化されたωを変化しなく、αによって計算された損失値に基づいて、
Figure 2022541712000026
が最小になるようにαをトレーニングする。このような方法では、αは継続的に調整される必要があり、αを調整するたびにωを再トレーニングする必要がある。例えば、ωをトレーニングするたびに100回計算する必要があり、αを100回調整する場合、最終的に10,000回計算する必要があり、これは大量の計算になる。
本発明の実施例によって提供される方法において、パラメータ最適化のプロセスでは、通常、以下の式に基づいて最適化を実行する。
Figure 2022541712000027
Figure 2022541712000028
上記の式で、
Figure 2022541712000029
は動作パラメータの学習率を表し、
Figure 2022541712000030
に基づいてωを計算する勾配値を表し、最適化されたωを計算するとき、近似計算法を採用する。このようにして、αの値を最適化するたびに、ωを最適化するとき、1回の計算のみで済むので、αとωの同時最適化と見なすことができる。
このような方法に基づいて、ニューラルネットワーク構造を検索すると同時に、ニューラルネットワーク内部のネットワークパラメータを検索できる。先にネットワーク構造を決定してからネットワークパラメータを決定する方法と比較して、ニューラルネットワークの決定効率が向上される。
ステップ805において、トレーニングされたニューラルネットワークパラメータに基づいて、トレーニングされたニューラルネットワークモデルを決定する。
いくつかの可能な実施形態では、トレーニングされたニューラルネットワークパラメータに基づいて、複数の有向非巡回グラフの各エッジに対して目標動作方法を選択することができ、各エッジに対して目標動作方法を決定した後のニューラルネットワークモデルが、トレーニングされたニューラルネットワークである。
例示的に、トレーニングされた重みパラメータに基づいて、複数の有向非巡回グラフの各エッジに対して目標動作方法を選択するとき、前記有向非巡回グラフの各前記エッジに対して、各前記エッジに対応する重みパラメータが最大である動作方法を、各前記エッジに対応する目標動作方法として使用する。
別のいくつかの可能な実施形態では、ニューラルネットワークのサイズを縮小し、ニューラルネットワークの計算速度を向上させるために、複数の有向非巡回グラフの各エッジに対して目標動作方法を選択した後、さらに、有向非巡回グラフのエッジを削除して、その後、削除したニューラルネットワークを、トレーニングされたニューラルネットワークとして使用することができる。
ここで、各前記ノードに対して、前記ノードを指すエッジの数が目標の数より大きい場合、前記ノードを指す各エッジに対応する前記目標動作方法の重みパラメータを決定し、対応する前記重みパラメータの降順に応じて、前記ノードを指す各エッジを並べ替え、前のK位のエッジを除いた他のエッジを削除し、ここで、Kは前記目標の数であり、削除処理後のニューラルネットワークを、前記トレーニングされたニューラルネットワークとして使用する。
例示的に、目標の数が2つであり、特定のノードを指すエッジの数が3つである場合、当該ノードを指す3つのエッジに対応する目標動作方法の重みパラメータをそれぞれ決定でき、重みパラメータに従って、当該ノードを指す3つのエッジを降順に応じて並べ替え、前の2位のエッジは保留し、第3位のエッジは削除する。
このような方法により、一方では、ニューラルネットワークのサイズを縮小することができ、もう一方では、ニューラルネットワークの計算ステップを削減し、ニューラルネットワークの計算効率を向上させることができる。
同じ構想に基づいて、本発明の実施例は、ビデオ認識方法をさらに提供し、図9は、本発明の実施例によるビデオ認識方法の概略的なフローチャートであり。図9を参照すると、当該方法は、以下のステップを含む。
ステップ901において、認識されるビデオを取得する。
ステップ902において、事前にトレーニングされたニューラルネットワークに前記認識されるビデオを入力して、前記認識されるビデオに対応する複数のイベントの発生確率を決定する。
ここで、前記ニューラルネットワークは、上記の実施例によって提供されたニューラルネットワークのトレーニング方法に基づいて取得したものである。
ステップ903において、対応する発生確率がプリセット条件を満たすイベントを、前記認識されるビデオで発生するイベントとして使用する。
ここで、前記発生確率がプリセット条件を満たすイベントは、発生確率が最大であるイベント、又は発生確率がプリセットされた確率値より大きいイベントであり得る。
以下では、実施例と組み合わせて、上記の認識されるビデオをニューラルネットワークに入力した後、認識されるビデオに対するニューラルネットワークの詳細な処理プロセスについて説明する。前記ニューラルネットワークは、サンプリング層、特徴抽出層、及び完全接続層を含み、前記特徴抽出層は、複数の有向非巡回グラフを含む。
1)サンプリング層
認識されるビデオをニューラルネットワークに入力した後、まず、サンプリング層に入力して、サンプリング層は、認識されるビデオをサンプリングして、複数のサンプリングビデオフレームを取得し、次に、前記サンプリングビデオフレームに対して特徴抽出を実行して、サンプリングビデオフレームに対応する特徴マップを取得し、その後、特徴抽出層にサンプリングビデオフレームに対応する特徴マップを入力する。
2)特徴抽出層
特徴抽出層は、複数の、時間特徴を抽出するための有向非巡回グラフ及び空間特徴を抽出するための有向非巡回グラフを含み、各タイプの有向非巡回グラフの数、及び各タイプの有向非巡回グラフ内のノードの数はプリセットされている。時間特徴を抽出するための有向非巡回グラフと空間特徴を抽出するための有向非巡回グラフの違いは、以下の表1に示される通りである。
Figure 2022541712000031
サンプリング層は、特徴抽出層にサンプリングビデオフレームに対応する特徴マップを入力した後、最初の前記有向非巡回グラフの目標入力ノードにサンプリングビデオフレームに対応する特徴マップを入力することであり得、最初の有向非巡回グラフの別の入力ノードは空であり、2番目の有向非巡回グラフの1つの入力ノードは、最初の有向非巡回グラフの出力ノードに接続され、別の入力ノードは空であり、3番目の有向非巡回グラフの1つの入力ノードは、2番目の有向非巡回グラフのノードに接続され、1つの入力ノードと最初の有向非巡回グラフの出力ノードに接続される。このように類推すると、最後の有向非巡回グラフの出力ノードは、対応する特徴マップを完全接続層に入力する。
3)完全接続層
有向非巡回グラフの出力ノードに対応する特徴マップを完全接続層に入力した後、完全接続層は、入力された特徴マップに基づいて入力された認識される入力ビデオ内の複数のイベントの発生確率を決定することができる。ここで、認識されるビデオに対応する複数のイベントは、ニューラルネットワークをトレーニングするときに適用されるサンプルビデオに対応するイベントタグであり得る。
上記の実施例によって提供される方法において、構築されたニューラルネットワークは、空間特徴を抽出するための有向非巡回グラフだけでなく、時間特徴を抽出するための有向非巡回グラフも含み、有向非巡回グラフの各エッジは、複数の動作方法に対応する。このようにして、サンプルビデオを使用してニューラルネットワークをトレーニングした後、トレーニングされた動作方法の重みパラメータを取得でき、さらに、トレーニングされた動作方法の重みパラメータに基づいて、トレーニングされたニューラルネットワークを取得する。この方法でトレーニングされたニューラルネットワークは、画像次元の空間特徴を認識するだけでなく、時間次元の時間特徴も認識するので、ビデオに対するトレーニングされたニューラルネットワークの認識精度が高い。
当業者は、具体的な実施形態の上記方法において、各ステップの書き込み順序は、厳密な実行順序を意味して実施プロセスを制限するものではなく、各ステップの具体的な実行順序は、その機能と可能な内部ロジックによって決定されるべきであることを理解することができる。
同じ発明構想に基づいて、本発明の実施例は、ニューラルネットワークのトレーニング方法に対応するニューラルネットワークのトレーニング装置をさらに提供し、課題を解決するための本発明の実施例における装置の原理は、本発明の実施例の上記のニューラルネットワークのトレーニング方法に類似しているので、装置の実施は上記方法の実施を参照でき、ここでは重複の部分を繰り返して説明しない。
図10は、本発明の実施例によるニューラルネットワークのトレーニング装置のアーキテクチャの概略図である。図10を参照すると、前記装置は、構築部1001、トレーニング部1002、及び選択部1003を備える。
前記構築部1001は、サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築するように構成され、前記複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも1つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも1つの有向非巡回グラフを含み、前記有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各前記動作方法には、対応する重みパラメータがある。
前記トレーニング部1002は、前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得するように構成される。
前記選択部1003は、前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得するように構成される。
いくつかの可能な実施形態では、前記有向非巡回グラフは、2つの入力ノードを含み、前記ニューラルネットワークの各ノードは、1つの特徴マップに対応し、前記構築部1001はさらに、N-1番目(Nは1より大きい整数)の有向非巡回グラフによって出力された特徴マップを、N+1番目の有向非巡回グラフの1つの入力ノードの特徴マップとして使用し、N番目の有向非巡回グラフによって出力された特徴マップを、前記N+1番目の有向非巡回グラフの別の入力ノードの特徴マップとして使用し、ここで、前記ニューラルネットワークの最初の有向非巡回グラフの目標入力ノードに対応する特徴マップは、サンプルビデオのサンプリングビデオフレームに対して特徴抽出を実行した後の特徴マップであり、前記目標入力ノードを除いた別の入力ノードは空であり、前記ニューラルネットワークの2番目の有向非巡回グラフの1つの入力ノードの特徴マップは、前記最初の有向非巡回グラフによって出力された特徴マップであり、別の入力ノードは空である。
いくつかの可能な実施形態では、前記構築部1001はさらに、前記有向非巡回グラフの入力ノードを除いた他のノードに対応する特徴マップを直列接続し、直列接続した特徴マップを前記有向非巡回グラフによって出力された特徴マップとして使用するように構成される。
いくつかの可能な実施形態では、前記時間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第1動作方法に対応し、前記空間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第2動作方法に対応し、前記複数の第1動作方法は、前記複数の第2動作方法及び、各前記第2動作方法と異なる少なくとも1つの他の動作方法を含む。
いくつかの可能な実施形態では、前記ニューラルネットワークはさらに、最初の有向非巡回グラフに接続されたサンプリング層を含み、前記サンプリング層は、サンプルビデオをサンプリングして、サンプリングビデオフレームを取得し、前記サンプリングビデオフレームに対して特徴抽出を実行して、前記サンプリングビデオフレームに対応する特徴マップを取得し、最初の前記有向非巡回グラフの目標入力ノードに前記サンプリングビデオフレームに対応する特徴マップを入力するように構成され、前記ニューラルネットワークはさらに、最後の有向非巡回グラフの出力ノードに接続された完全接続層を含み、前記完全接続層は、最後の有向非巡回グラフによって出力された特徴マップに基づいて、前記サンプルビデオに対応する複数のイベントの発生確率を決定するように構成され、前記トレーニング部1002はさらに、前記完全接続層によって計算された前記サンプルビデオに対応する複数のイベントの発生確率、及び各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得するように構成される。
いくつかの可能な実施形態では、前記構築部1001はさらに、現在のノードを指す各1レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成するように構成される。
いくつかの可能な実施形態では、前記構築部1001はさらに、前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間の現在のエッジに対して、前記現在のエッジに対応する各前記動作方法に基づいて、前記現在のエッジに対応する1レベル上位のノードの特徴マップを処理して、前記現在のエッジに対応する各前記動作方法に対応する第1中間特徴マップを取得し、前記現在のエッジに対応する各前記動作方法に対応する第1中間特徴マップは、各前記動作方法に対応する重みパラメータに従って加重加算され、前記現在のエッジに対応する第2中間特徴マップを取得し、前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間の複数のエッジにそれぞれ対応する第2中間特徴マップを加算して、前記現在のノードに対応する特徴マップを取得するように構成される。
いくつかの可能な実施形態では、前記選択部1003はさらに、前記有向非巡回グラフの各前記エッジに対して、各前記エッジに対応する重みパラメータが最大である動作方法を、各前記エッジに対応する目標動作方法として使用するように構成される。
いくつかの可能な実施形態では、前記選択部1003はさらに、各前記ノードに対して、前記ノードを指すエッジの数が目標の数より大きい場合、前記ノードを指す各エッジに対応する目標動作方法の重みパラメータを決定し、対応する前記重みパラメータの降順に応じて、前記ノードを指す各エッジを並べ替え、前のK位のエッジを除いた他のエッジを削除し、ここで、Kは前記目標の数であり、削除処理後のニューラルネットワークを、前記トレーニングされたニューラルネットワークとして使用するように構成される。
装置内の各部の処理フロー及び各部間の相互作用フローの説明については、前記方法の実施例における関連する説明を参照し、ここでは繰り返して説明しない。
同じ発明構想に基づいて、本発明の実施例は、ビデオ認識方法に対応するビデオ認識装置をさらに提供し、図11は、本発明の実施例によるビデオ認識装置のアーキテクチャの概略図である。図11を参照すると、当該装置は、取得部1101、第1決定部1102、及び第2決定部1103を備え、前記取得部1101は、認識されるビデオを取得するように構成され、前記第1決定部1102は、上記の実施例に記載のニューラルネットワークのトレーニング方法に基づいて取得したトレーニングされたニューラルネットワークに前記認識されるビデオを入力して、前記認識されるビデオに対応する複数のイベントの発生確率を決定するように構成され、前記第2決定部1103は、対応する発生確率がプリセット条件を満たすイベントを、前記認識されるビデオで発生するイベントとして使用するように構成される。
同じ発明構想に基づいて、本発明の実施例は、コンピュータ機器をさらに提供し、図12は、本発明の実施例によるコンピュータ機器1200の概略構造図である。図12を参照すると、当該コンピュータ機器は、プロセッサ1201、メモリ1202、及びバス1203を備える。ここで、メモリ1202は、メモリ12021及び外部メモリ12022を備え、実行命令を記憶するように構成され、メモリ12021は、内部メモリとも呼ばれ、プロセッサ1201内の計算データと、ハードディスクなどの外部メモリ12022と交換するデータを一時的に記憶するように構成され、プロセッサ1201は、メモリ12021を介して外部メモリ12022とデータを交換するように構成され、コンピュータ機器1200が実行されるときに、プロセッサ1201とメモリ1202はバス1203を介して通信することにより、プロセッサ1201に以下の命令を実行させる。
サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築することであって、前記複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも1つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも1つの有向非巡回グラフを含み、前記有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各前記動作方法には、対応する重みパラメータがあることと、
前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することと、
前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得することと、を含む。
本発明の実施例は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体をさらに提供し、当該コンピュータプログラムがプロセッサによって実行されるときに、上記の実施例に記載のニューラルネットワークのトレーニング方法を実行する。ここで、当該記憶媒体揮発性又は不揮発性コンピュータ可読記憶媒体であり得る。
本発明の実施例によって提供されるニューラルネットワークのトレーニング方法のコンピュータプログラム製品は、プログラムコードが記憶されたコンピュータ可読記憶媒体を含み、前記プログラムコードに含まれる命令は、上記の実施例に記載のニューラルネットワークのトレーニング方法を実行され、詳細については、上記の方法の実施例を参照でき、ここでは繰り返して説明しない。
同じ発明構想に基づいて、本発明の実施例は、コンピュータ機器をさらに提供し、図13は、本発明の実施例によるコンピュータ機器1300の概略構造図である。図13を参照すると、当該コンピュータ機器は、プロセッサ1301、メモリ1302、及びバス1303を備える。ここで、メモリ1302は、メモリ13021及び外部メモリ13022を備え、実行命令を記憶するように構成され、メモリ13021は、内部メモリとも呼ばれ、計算データをプロセッサ1301に一時的に記憶し、データをハードディスクなどの外部メモリ13022と交換するように構成され、プロセッサ1301は、メモリ13021を介して外部メモリ13022とデータを交換するように構成され、コンピュータ機器1300が実行されるときに、プロセッサ1201とメモリ1302はバス1303を介して通信し、以下の方法を実行する。その方法は、認識されるビデオを取得することと、上記の実施例に記載のニューラルネットワークのトレーニング方法に基づいて取得したトレーニングされたニューラルネットワークに前記認識されるビデオを入力して、前記認識されるビデオに対応する複数のイベントの発生確率を決定することと、対応する発生確率がプリセット条件を満たすイベントを、前記認識されるビデオで発生するイベントとして使用することと、を含む。
本発明の実施例は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体をさらに提供し、当該コンピュータプログラムがプロセッサによって実行されるときに、上記の実施例に記載のビデオ認識方法を実行する。ここで、当該記憶媒体揮発性又は不揮発性コンピュータ可読記憶媒体であり得る。
本発明の実施例によって提供されるビデオ認識方法のコンピュータプログラム製品はプログラムコードが記憶されたコンピュータ可読記憶媒体を含み、前記プログラムコードに含まれる命令は、上記の実施例に記載のビデオ認識方法実行され、詳細については、上記の方法の実施例を参照でき、ここでは繰り返して説明しない。
本発明の実施例はコンピュータプログラムをさらに提供し、当該コンピュータプログラムはプロセッサによって実行されるときに、上記の実施例によるにいずれか1つの方法を実現する。当該コンピュータプログラム製品は、ハードウェア、ソフトウェア又はそれらの組み合わせの方式によって実現され得る。1つの代替実施例では、前記コンピュータプログラム製品は、コンピュータ記憶媒体として実現され、別の代替実施例では、コンピュータプログラム製品は、例えばソフトウェア開発キット(Software Development Kit、SDK)などのソフトウェア製品として実現される。
当業者なら明確に理解できるが、説明の便宜及び簡潔のために、上記に説明されたシステム、装置及びユニットの具体的な作業プロセスは、前述の方法の実施例における対応するプロセスを参照することができ、ここでは繰り返して説明しない。本発明で提供されるいくつかの実施例では、開示されたシステム、装置及び方法は、他の方式で実現できることを理解されたい。上記で説明された装置の実施例は例示的なものに過ぎず、例えば、前記ユニットの分割は、論理機能の分割に過ぎず、実際の実現では、他の分割方法があり、さらに例えば、複数のユニット又はコンポーネントを別のシステムに統合又は集積したり、又は一部の特徴を無視するか実行しないことができる。なお、表示又は議論された相互結合又は直接結合又は通信接続は、いくつかの通信インターフェースを使用して実現することができ、装置又はユニット間の間接的な結合又は通信接続は、電気的、機械的又は他の形態であり得る。
前記個別のコンポーネントとして説明されたユニットは、物理的に分離されている場合とされていない場合があり、ユニットとして表示されるコンポーネントは、物理ユニットである場合とそうでない場合もあり、1箇所に配置される場合もあれば、複数のネットワークユニットに分散される場合もある。実際の需要に応じて、その中のユニットの一部又は全部を選択して本実施例における技術的解決策の目的を達成することができる。
さらに、本発明の各実施例における各機能ユニットは、1つの処理ユニットに統合されてもよく、又は各ユニットが物理的に別々に存在してもよく、2つ又は2つ以上のユニットが1つのユニットに統合されてもよい。
前記機能が、ソフトウェア機能ユニットの形態で実現され、独立した製品として販売又は使用される場合、コンピュータ可読記憶媒体に記憶されることができる。このような理解に基づいて、本発明の技術的解決策の本質的な部分、又は既存の技術に貢献のある部分、又は当該技術的解決策の一部は、ソフトウェア製品の形で具現されることができ、前記コンピュータソフトウェア製品は、1つの記憶媒体に記憶され、1台のコンピュータ機器(パーソナルコンピュータ、サーバ、又はネットワーク機器などであり得る)に、本発明の各実施例に記載の方法の全部又は一部のステップを実行させるためのいくつかの命令を含む。前述した記憶媒体は、Uディスク、モバイルハードディスク、読み取り専用メモリ(Read-Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、磁気ディスク又は光ディスク等のプログラムコードを記憶することができる様々な媒体を含む。
最後に、上記の実施例は、本発明の実施形態の実装のみであり、本発明の実施例における技術的解決策を説明するために使用され、本発明の実施例の保護範囲はこれに限定されない。本発明の実施例は、上記の実施例を参照して詳細に説明されているが、当業者は、本発明の実施例で開示される技術的範囲内で、上記の実施例に記載の技術的解決策は、修正又は容易に想到し得る変更、又は、その技術的特徴の一部を同等置換することができこれらの修正、変更、又は置換は、対応する技術的解決策の本質を本発明の実施例の技術的解決策の精神及び範囲から逸脱するものではなく、すべて本発明の実施例の保護範囲内に含まれるべきである。したがって、本願の保護範囲は、特許請求の範囲の保護範囲に従うものとすることに留意されたい。
本発明の実施例は、サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築し、前記複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも1つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも1つの有向非巡回グラフを含み、前記有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各前記動作方法には、対応する重みパラメータがあり、前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得し、前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得する。上記の実施例において、構築されたニューラルネットワークは、空間特徴を抽出するための有向非巡回グラフだけでなく、時間特徴を抽出するための有向非巡回グラフも含み、有向非巡回グラフの各エッジは、複数の動作方法に対応する。このようにして、サンプルビデオを使用してニューラルネットワークをトレーニングした後、トレーニングされた動作方法の重みパラメータを取得でき、さらに、トレーニングされた動作方法の重みパラメータに基づいて、トレーニングされたニューラルネットワークを取得する。この方法でトレーニングされたニューラルネットワークは、画像次元の空間特徴を認識するだけでなく、時間次元の時間特徴も認識するので、ビデオに対するトレーニングされたニューラルネットワークの認識精度は、比較的に高い。
本発明の上記の目的、特徴及び利点をより明確で理解しやすくするために、以下では、添付の図面を参照して好ましい実施例を詳細に説明する。
例えば、本願は以下の項目を提供する。
(項目1)
ニューラルネットワークのトレーニング方法であって、
サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築することであって、前記複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも1つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも1つの有向非巡回グラフを含み、前記有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各前記動作方法には、対応する重みパラメータがあることと、
前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することと、
前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得することと、を含む、前記ニューラルネットワークのトレーニング方法。
(項目2)
前記有向非巡回グラフは、2つの入力ノードを含み、前記ニューラルネットワークの各ノードは、1つの特徴マップに対応し、
前記複数の有向非巡回グラフを含むニューラルネットワークを構築することは、
N-1番目(Nは1より大きい整数)の有向非巡回グラフによって出力された特徴マップを、N+1番目の有向非巡回グラフの1つの入力ノードの特徴マップとして使用し、N番目の有向非巡回グラフによって出力された特徴マップを、前記N+1番目の有向非巡回グラフの別の入力ノードの特徴マップとして使用することを含み、
前記ニューラルネットワークの最初の有向非巡回グラフの目標入力ノードに対応する特徴マップは、サンプルビデオのサンプリングビデオフレームに対して特徴抽出を実行した後の特徴マップであり、前記目標入力ノードを除いた別の入力ノードは空であり、前記ニューラルネットワークの2番目の有向非巡回グラフの1つの入力ノードの特徴マップは、前記最初の有向非巡回グラフによって出力された特徴マップであり、別の入力ノードは空である、
項目1に記載のニューラルネットワークのトレーニング方法。
(項目3)
前記有向非巡回グラフの入力ノードを除いた他のノードに対応する特徴マップを直列接続し、直列接続した特徴マップを前記有向非巡回グラフによって出力された特徴マップとして使用することをさらに含む、
項目2に記載のニューラルネットワークのトレーニング方法。
(項目4)
前記時間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第1動作方法に対応し、前記空間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第2動作方法に対応し、前記複数の第1動作方法は、前記複数の第2動作方法及び各前記第2動作方法と異なる少なくとも1つの他の動作方法を含む、
項目1ないし3のいずれか一項に記載のニューラルネットワークのトレーニング方法。
(項目5)
前記ニューラルネットワークはさらに、最初の有向非巡回グラフに接続されたサンプリング層を含み、前記サンプリング層は、サンプルビデオをサンプリングして、サンプリングビデオフレームを取得し、前記サンプリングビデオフレームに対して特徴抽出を実行して、前記サンプリングビデオフレームに対応する特徴マップを取得し、最初の前記有向非巡回グラフの目標入力ノードに前記サンプリングビデオフレームに対応する特徴マップを入力するように構成され、
前記ニューラルネットワークはさらに、最後の有向非巡回グラフに接続された完全接続層を含み、前記完全接続層は、最後の有向非巡回グラフによって出力された特徴マップに基づいて、前記サンプルビデオに対応する複数のイベントの発生確率を決定するように構成され、
前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することは、
前記完全接続層によって計算された前記サンプルビデオに対応する複数のイベントの発生確率、及び各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することを含む、
項目1ないし4のいずれか一項に記載のニューラルネットワークのトレーニング方法。
(項目6)
前記ニューラルネットワークのトレーニング方法は、
現在のノードを指す各1レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成することをさらに含む、
項目2ないし5のいずれか一項に記載のニューラルネットワークのトレーニング方法。
(項目7)
前記現在のノードを指す各1レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成することは、
前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間の現在のエッジに対して、前記現在のエッジに対応する各前記動作方法に基づいて、前記現在のエッジに対応する1レベル上位のノードの特徴マップを処理して、前記現在のエッジに対応する各前記動作方法に対応する第1中間特徴マップを取得することと、
前記現在のエッジに対応する各前記動作方法に対応する第1中間特徴マップは、各前記動作方法に対応する重みパラメータに従って加重加算され、前記現在のエッジに対応する第2中間特徴マップを取得することと、
前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間の複数のエッジにそれぞれ対応する第2中間特徴マップを加算して、前記現在のノードに対応する特徴マップを取得することと、を含む、
項目6に記載のニューラルネットワークのトレーニング方法。
(項目8)
前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択することは、
前記有向非巡回グラフの各前記エッジに対して、各前記エッジに対応する重みパラメータが最大である動作方法を、各前記エッジに対応する目標動作方法として使用することを含む、
項目1ないし7のいずれか一項に記載のニューラルネットワークのトレーニング方法。
(項目9)
前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得することは、
各前記ノードに対して、前記ノードを指すエッジの数が目標の数より大きい場合、前記ノードを指す各エッジに対応する前記目標動作方法の重みパラメータを決定することと、
対応する前記重みパラメータの降順に応じて、前記ノードを指す各エッジを並べ替え、前のK位のエッジを除いた他のエッジを削除することであって、Kは前記目標の数であることと、
削除処理後のニューラルネットワークを、前記トレーニングされたニューラルネットワークとして使用することと、を含む、
項目8に記載のニューラルネットワークのトレーニング方法。
(項目10)
ビデオ認識方法であって、
認識されるビデオを取得することと、
項目1ないし9のいずれかに記載のニューラルネットワークのトレーニング方法に基づいてトレーニングされたニューラルネットワークに、前記認識されるビデオを入力して、前記認識されるビデオに対応する複数のイベントの発生確率を決定することと、
対応する発生確率がプリセット条件を満たすイベントを、前記認識されるビデオで発生するイベントとして使用することと、を含む、前記ビデオ認識方法。
(項目11)
ニューラルネットワークのトレーニング装置であって、
サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築するように構成される構築部であって、前記複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも1つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも1つの有向非巡回グラフを含み、前記有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各前記動作方法には、対応する重みパラメータがある、構築部と、
前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得するように構成される、トレーニング部と、
前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得するように構成される、選択部と、を備える、前記ニューラルネットワークのトレーニング装置。
(項目12)
前記構築部はさらに、N-1番目(Nは1より大きい整数)の有向非巡回グラフによって出力された特徴マップを、N+1番目の有向非巡回グラフの1つの入力ノードの特徴マップとして使用し、N番目の有向非巡回グラフによって出力された特徴マップを、前記N+1番目の有向非巡回グラフの別の入力ノードの特徴マップとして使用するように構成され、前記ニューラルネットワークの最初の有向非巡回グラフの目標入力ノードに対応する特徴マップは、サンプルビデオのサンプリングビデオフレームに対して特徴抽出を実行した後の特徴マップであり、前記目標入力ノードを除いた別の入力ノードは空であり、前記ニューラルネットワークの2番目の有向非巡回グラフの1つの入力ノードの特徴マップは、前記最初の有向非巡回グラフによって出力された特徴マップであり、別の入力ノードは空である、
項目11に記載のニューラルネットワークのトレーニング装置。
(項目13)
前記構築部はさらに、前記有向非巡回グラフの入力ノードを除いた他のノードに対応する特徴マップを直列接続し、直列接続した特徴マップを前記有向非巡回グラフによって出力された特徴マップとして使用するように構成される、
項目12に記載のニューラルネットワークのトレーニング装置。
(項目14)
前記時間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第1動作方法に対応し、前記空間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第2動作方法に対応し、前記複数の第1動作方法は、前記複数の第2動作方法及び各前記第2動作方法と異なる少なくとも1つの他の動作方法を含む、
項目11ないし13のいずれか一項に記載のニューラルネットワークのトレーニング装置。
(項目15)
前記ニューラルネットワークはさらに、最初の有向非巡回グラフに接続されたサンプリング層を含み、前記サンプリング層は、サンプルビデオをサンプリングして、サンプリングビデオフレームを取得し、前記サンプリングビデオフレームに対して特徴抽出を実行して、前記サンプリングビデオフレームに対応する特徴マップを取得し、最初の前記有向非巡回グラフの目標入力ノードに前記サンプリングビデオフレームに対応する特徴マップを入力するように構成され、前記ニューラルネットワークはさらに、最後の有向非巡回グラフに接続された完全接続層を含み、前記完全接続層は、最後の有向非巡回グラフによって出力された特徴マップに基づいて、前記サンプルビデオに対応する複数のイベントの発生確率を決定するように構成され、
前記トレーニング部はさらに、前記完全接続層によって計算された前記サンプルビデオに対応する複数のイベントの発生確率、及び各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得するように構成される、
項目11ないし14のいずれか一項に記載のニューラルネットワークのトレーニング装置。
(項目16)
前記構築部はさらに、現在のノードを指す各1レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成するように構成される、
項目12ないし15のいずれか一項に記載のニューラルネットワークのトレーニング装置。
(項目17)
前記構築部はさらに、前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間の現在のエッジに対して、前記現在のエッジに対応する各前記動作方法に基づいて、前記現在のエッジに対応する1レベル上位のノードの特徴マップを処理して、前記現在のエッジに対応する各前記動作方法に対応する第1中間特徴マップを取得し、前記現在のエッジに対応する各前記動作方法に対応する第1中間特徴マップは、各前記動作方法に対応する重みパラメータに従って加重加算され、前記現在のエッジに対応する第2中間特徴マップを取得し、前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間の複数のエッジにそれぞれ対応する第2中間特徴マップを加算して、前記現在のノードに対応する特徴マップを取得するように構成される、
項目16に記載のニューラルネットワークのトレーニング装置。
(項目18)
前記選択部はさらに、前記有向非巡回グラフの各前記エッジに対して、各前記エッジに対応する重みパラメータが最大である動作方法を、各前記エッジに対応する目標動作方法として使用するように構成される、
項目11ないし17のいずれか一項に記載のニューラルネットワークのトレーニング装置。
(項目19)
前記選択部はさらに、各前記ノードに対して、前記ノードを指すエッジの数が目標の数より大きい場合、前記ノードを指す各エッジに対応する前記目標動作方法の重みパラメータを決定し、対応する前記重みパラメータの降順に応じて、前記ノードを指す各エッジを並べ替え、前のK位のエッジを除いた他のエッジを削除し、Kは前記目標の数であり、削除処理後のニューラルネットワークを、前記トレーニングされたニューラルネットワークとして使用するように構成される、
項目18に記載のニューラルネットワークのトレーニング装置。
(項目20)
ビデオ認識装置であって、
認識されるビデオを取得するように構成される、取得部と、
項目1ないし9のいずれかに記載のニューラルネットワークのトレーニング方法に基づいてトレーニングされたニューラルネットワークに、前記認識されるビデオを入力して、前記認識されるビデオに対応する複数のイベントの発生確率を決定するように構成される、第1決定部と、
対応する発生確率がプリセット条件を満たすイベントを、前記認識されるビデオで発生するイベントとして使用するように構成される、第2決定部と、を備える、前記ビデオ認識装置。
(項目21)
プロセッサ、前記プロセッサによって実行可能な機械可読命令が記憶されたメモリ及びバスを備える、コンピュータ機器であって、前記コンピュータ機器が実行されるときに、前記プロセッサと前記メモリとは、バスを介して通信し、前記機械可読命令が前記プロセッサによって実行されるときに、項目1ないし9のいずれか一項に記載のニューラルネットワークのトレーニング方法のステップ、又は、項目10に記載のビデオ認識方法のステップを実行する、前記コンピュータ機器。
(項目22)
コンピュータプログラムが記憶された、コンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されるときに、項目1ないし9のいずれか一項に記載のニューラルネットワークのトレーニング方法のステップ、又は、項目10に記載のビデオ認識方法のステップを実行する、前記コンピュータ可読記憶媒体。
(項目23)
コンピュータ可読コードを含む、コンピュータプログラムであって、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサは、項目1ないし9のいずれか一項に記載のニューラルネットワークのトレーニング方法のステップ、又は、項目10に記載のビデオ認識方法のステップを実行する、前記コンピュータプログラム。

Claims (23)

  1. ニューラルネットワークのトレーニング方法であって、
    サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築することであって、前記複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも1つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも1つの有向非巡回グラフを含み、前記有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各前記動作方法には、対応する重みパラメータがあることと、
    前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することと、
    前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得することと、を含む、前記ニューラルネットワークのトレーニング方法。
  2. 前記有向非巡回グラフは、2つの入力ノードを含み、前記ニューラルネットワークの各ノードは、1つの特徴マップに対応し、
    前記複数の有向非巡回グラフを含むニューラルネットワークを構築することは、
    N-1番目(Nは1より大きい整数)の有向非巡回グラフによって出力された特徴マップを、N+1番目の有向非巡回グラフの1つの入力ノードの特徴マップとして使用し、N番目の有向非巡回グラフによって出力された特徴マップを、前記N+1番目の有向非巡回グラフの別の入力ノードの特徴マップとして使用することを含み、
    前記ニューラルネットワークの最初の有向非巡回グラフの目標入力ノードに対応する特徴マップは、サンプルビデオのサンプリングビデオフレームに対して特徴抽出を実行した後の特徴マップであり、前記目標入力ノードを除いた別の入力ノードは空であり、前記ニューラルネットワークの2番目の有向非巡回グラフの1つの入力ノードの特徴マップは、前記最初の有向非巡回グラフによって出力された特徴マップであり、別の入力ノードは空である、
    請求項1に記載のニューラルネットワークのトレーニング方法。
  3. 前記有向非巡回グラフの入力ノードを除いた他のノードに対応する特徴マップを直列接続し、直列接続した特徴マップを前記有向非巡回グラフによって出力された特徴マップとして使用することをさらに含む、
    請求項2に記載のニューラルネットワークのトレーニング方法。
  4. 前記時間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第1動作方法に対応し、前記空間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第2動作方法に対応し、前記複数の第1動作方法は、前記複数の第2動作方法及び各前記第2動作方法と異なる少なくとも1つの他の動作方法を含む、
    請求項1ないし3のいずれか一項に記載のニューラルネットワークのトレーニング方法。
  5. 前記ニューラルネットワークはさらに、最初の有向非巡回グラフに接続されたサンプリング層を含み、前記サンプリング層は、サンプルビデオをサンプリングして、サンプリングビデオフレームを取得し、前記サンプリングビデオフレームに対して特徴抽出を実行して、前記サンプリングビデオフレームに対応する特徴マップを取得し、最初の前記有向非巡回グラフの目標入力ノードに前記サンプリングビデオフレームに対応する特徴マップを入力するように構成され、
    前記ニューラルネットワークはさらに、最後の有向非巡回グラフに接続された完全接続層を含み、前記完全接続層は、最後の有向非巡回グラフによって出力された特徴マップに基づいて、前記サンプルビデオに対応する複数のイベントの発生確率を決定するように構成され、
    前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することは、
    前記完全接続層によって計算された前記サンプルビデオに対応する複数のイベントの発生確率、及び各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することを含む、
    請求項1ないし4のいずれか一項に記載のニューラルネットワークのトレーニング方法。
  6. 前記ニューラルネットワークのトレーニング方法は、
    現在のノードを指す各1レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成することをさらに含む、
    請求項2ないし5のいずれか一項に記載のニューラルネットワークのトレーニング方法。
  7. 前記現在のノードを指す各1レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成することは、
    前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間の現在のエッジに対して、前記現在のエッジに対応する各前記動作方法に基づいて、前記現在のエッジに対応する1レベル上位のノードの特徴マップを処理して、前記現在のエッジに対応する各前記動作方法に対応する第1中間特徴マップを取得することと、
    前記現在のエッジに対応する各前記動作方法に対応する第1中間特徴マップは、各前記動作方法に対応する重みパラメータに従って加重加算され、前記現在のエッジに対応する第2中間特徴マップを取得することと、
    前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間の複数のエッジにそれぞれ対応する第2中間特徴マップを加算して、前記現在のノードに対応する特徴マップを取得することと、を含む、
    請求項6に記載のニューラルネットワークのトレーニング方法。
  8. 前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択することは、
    前記有向非巡回グラフの各前記エッジに対して、各前記エッジに対応する重みパラメータが最大である動作方法を、各前記エッジに対応する目標動作方法として使用することを含む、
    請求項1ないし7のいずれか一項に記載のニューラルネットワークのトレーニング方法。
  9. 前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得することは、
    各前記ノードに対して、前記ノードを指すエッジの数が目標の数より大きい場合、前記ノードを指す各エッジに対応する前記目標動作方法の重みパラメータを決定することと、
    対応する前記重みパラメータの降順に応じて、前記ノードを指す各エッジを並べ替え、前のK位のエッジを除いた他のエッジを削除することであって、Kは前記目標の数であることと、
    削除処理後のニューラルネットワークを、前記トレーニングされたニューラルネットワークとして使用することと、を含む、
    請求項8に記載のニューラルネットワークのトレーニング方法。
  10. ビデオ認識方法であって、
    認識されるビデオを取得することと、
    請求項1ないし9のいずれかに記載のニューラルネットワークのトレーニング方法に基づいてトレーニングされたニューラルネットワークに、前記認識されるビデオを入力して、前記認識されるビデオに対応する複数のイベントの発生確率を決定することと、
    対応する発生確率がプリセット条件を満たすイベントを、前記認識されるビデオで発生するイベントとして使用することと、を含む、前記ビデオ認識方法。
  11. ニューラルネットワークのトレーニング装置であって、
    サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築するように構成される構築部であって、前記複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも1つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも1つの有向非巡回グラフを含み、前記有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各前記動作方法には、対応する重みパラメータがある、構築部と、
    前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得するように構成される、トレーニング部と、
    前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得するように構成される、選択部と、を備える、前記ニューラルネットワークのトレーニング装置。
  12. 前記構築部はさらに、N-1番目(Nは1より大きい整数)の有向非巡回グラフによって出力された特徴マップを、N+1番目の有向非巡回グラフの1つの入力ノードの特徴マップとして使用し、N番目の有向非巡回グラフによって出力された特徴マップを、前記N+1番目の有向非巡回グラフの別の入力ノードの特徴マップとして使用するように構成され、前記ニューラルネットワークの最初の有向非巡回グラフの目標入力ノードに対応する特徴マップは、サンプルビデオのサンプリングビデオフレームに対して特徴抽出を実行した後の特徴マップであり、前記目標入力ノードを除いた別の入力ノードは空であり、前記ニューラルネットワークの2番目の有向非巡回グラフの1つの入力ノードの特徴マップは、前記最初の有向非巡回グラフによって出力された特徴マップであり、別の入力ノードは空である、
    請求項11に記載のニューラルネットワークのトレーニング装置。
  13. 前記構築部はさらに、前記有向非巡回グラフの入力ノードを除いた他のノードに対応する特徴マップを直列接続し、直列接続した特徴マップを前記有向非巡回グラフによって出力された特徴マップとして使用するように構成される、
    請求項12に記載のニューラルネットワークのトレーニング装置。
  14. 前記時間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第1動作方法に対応し、前記空間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第2動作方法に対応し、前記複数の第1動作方法は、前記複数の第2動作方法及び各前記第2動作方法と異なる少なくとも1つの他の動作方法を含む、
    請求項11ないし13のいずれか一項に記載のニューラルネットワークのトレーニング装置。
  15. 前記ニューラルネットワークはさらに、最初の有向非巡回グラフに接続されたサンプリング層を含み、前記サンプリング層は、サンプルビデオをサンプリングして、サンプリングビデオフレームを取得し、前記サンプリングビデオフレームに対して特徴抽出を実行して、前記サンプリングビデオフレームに対応する特徴マップを取得し、最初の前記有向非巡回グラフの目標入力ノードに前記サンプリングビデオフレームに対応する特徴マップを入力するように構成され、前記ニューラルネットワークはさらに、最後の有向非巡回グラフに接続された完全接続層を含み、前記完全接続層は、最後の有向非巡回グラフによって出力された特徴マップに基づいて、前記サンプルビデオに対応する複数のイベントの発生確率を決定するように構成され、
    前記トレーニング部はさらに、前記完全接続層によって計算された前記サンプルビデオに対応する複数のイベントの発生確率、及び各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得するように構成される、
    請求項11ないし14のいずれか一項に記載のニューラルネットワークのトレーニング装置。
  16. 前記構築部はさらに、現在のノードを指す各1レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成するように構成される、
    請求項12ないし15のいずれか一項に記載のニューラルネットワークのトレーニング装置。
  17. 前記構築部はさらに、前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間の現在のエッジに対して、前記現在のエッジに対応する各前記動作方法に基づいて、前記現在のエッジに対応する1レベル上位のノードの特徴マップを処理して、前記現在のエッジに対応する各前記動作方法に対応する第1中間特徴マップを取得し、前記現在のエッジに対応する各前記動作方法に対応する第1中間特徴マップは、各前記動作方法に対応する重みパラメータに従って加重加算され、前記現在のエッジに対応する第2中間特徴マップを取得し、前記現在のノードと前記現在のノードを指す各1レベル上位のノードとの間の複数のエッジにそれぞれ対応する第2中間特徴マップを加算して、前記現在のノードに対応する特徴マップを取得するように構成される、
    請求項16に記載のニューラルネットワークのトレーニング装置。
  18. 前記選択部はさらに、前記有向非巡回グラフの各前記エッジに対して、各前記エッジに対応する重みパラメータが最大である動作方法を、各前記エッジに対応する目標動作方法として使用するように構成される、
    請求項11ないし17のいずれか一項に記載のニューラルネットワークのトレーニング装置。
  19. 前記選択部はさらに、各前記ノードに対して、前記ノードを指すエッジの数が目標の数より大きい場合、前記ノードを指す各エッジに対応する前記目標動作方法の重みパラメータを決定し、対応する前記重みパラメータの降順に応じて、前記ノードを指す各エッジを並べ替え、前のK位のエッジを除いた他のエッジを削除し、Kは前記目標の数であり、削除処理後のニューラルネットワークを、前記トレーニングされたニューラルネットワークとして使用するように構成される、
    請求項18に記載のニューラルネットワークのトレーニング装置。
  20. ビデオ認識装置であって、
    認識されるビデオを取得するように構成される、取得部と、
    請求項1ないし9のいずれかに記載のニューラルネットワークのトレーニング方法に基づいてトレーニングされたニューラルネットワークに、前記認識されるビデオを入力して、前記認識されるビデオに対応する複数のイベントの発生確率を決定するように構成される、第1決定部と、
    対応する発生確率がプリセット条件を満たすイベントを、前記認識されるビデオで発生するイベントとして使用するように構成される、第2決定部と、を備える、前記ビデオ認識装置。
  21. プロセッサ、前記プロセッサによって実行可能な機械可読命令が記憶されたメモリ及びバスを備える、コンピュータ機器であって、前記コンピュータ機器が実行されるときに、前記プロセッサと前記メモリとは、バスを介して通信し、前記機械可読命令が前記プロセッサによって実行されるときに、請求項1ないし9のいずれか一項に記載のニューラルネットワークのトレーニング方法のステップ、又は、請求項10に記載のビデオ認識方法のステップを実行する、前記コンピュータ機器。
  22. コンピュータプログラムが記憶された、コンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されるときに、請求項1ないし9のいずれか一項に記載のニューラルネットワークのトレーニング方法のステップ、又は、請求項10に記載のビデオ認識方法のステップを実行する、前記コンピュータ可読記憶媒体。
  23. コンピュータ可読コードを含む、コンピュータプログラムであって、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサは、請求項1ないし9のいずれか一項に記載のニューラルネットワークのトレーニング方法のステップ、又は、請求項10に記載のビデオ認識方法のステップを実行する、前記コンピュータプログラム。
JP2021570177A 2020-06-19 2021-04-09 ニューラルネットワークのトレーニング方法、ビデオ認識方法及び装置 Active JP7163515B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010567864.7 2020-06-19
CN202010567864.7A CN111767985B (zh) 2020-06-19 2020-06-19 一种神经网络的训练方法、视频识别方法及装置
PCT/CN2021/086199 WO2021253938A1 (zh) 2020-06-19 2021-04-09 一种神经网络的训练方法、视频识别方法及装置

Publications (2)

Publication Number Publication Date
JP2022541712A true JP2022541712A (ja) 2022-09-27
JP7163515B2 JP7163515B2 (ja) 2022-10-31

Family

ID=72721043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021570177A Active JP7163515B2 (ja) 2020-06-19 2021-04-09 ニューラルネットワークのトレーニング方法、ビデオ認識方法及び装置

Country Status (5)

Country Link
JP (1) JP7163515B2 (ja)
KR (1) KR20220011208A (ja)
CN (1) CN111767985B (ja)
TW (1) TWI770967B (ja)
WO (1) WO2021253938A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767985B (zh) * 2020-06-19 2022-07-22 深圳市商汤科技有限公司 一种神经网络的训练方法、视频识别方法及装置
CN112598021A (zh) * 2020-11-27 2021-04-02 西北工业大学 一种基于自动机器学习的图结构搜索方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018520404A (ja) * 2015-04-28 2018-07-26 クゥアルコム・インコーポレイテッドQualcomm Incorporated ニューラルネットワークのためのトレーニング基準としてのフィルタ特異性
JP2018170003A (ja) * 2017-03-30 2018-11-01 富士通株式会社 ビデオ中のイベントの検出装置、方法及び画像処理装置
JP2020052484A (ja) * 2018-09-25 2020-04-02 Awl株式会社 物体認識カメラシステム、再学習システム、及び物体認識プログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281853B (zh) * 2014-09-02 2017-11-17 电子科技大学 一种基于3d卷积神经网络的行为识别方法
WO2017070656A1 (en) * 2015-10-23 2017-04-27 Hauptmann Alexander G Video content retrieval system
US10546211B2 (en) * 2016-07-01 2020-01-28 Google Llc Convolutional neural network on programmable two dimensional image processor
EP3306528B1 (en) * 2016-10-04 2019-12-25 Axis AB Using image analysis algorithms for providing traning data to neural networks
US11010658B2 (en) * 2017-12-22 2021-05-18 Intel Corporation System and method for learning the structure of deep convolutional neural networks
CN108228861B (zh) * 2018-01-12 2020-09-01 第四范式(北京)技术有限公司 用于执行机器学习的特征工程的方法及系统
CN108334910B (zh) * 2018-03-30 2020-11-03 国信优易数据股份有限公司 一种事件检测模型训练方法以及事件检测方法
CN108985259B (zh) * 2018-08-03 2022-03-18 百度在线网络技术(北京)有限公司 人体动作识别方法和装置
CN109284820A (zh) * 2018-10-26 2019-01-29 北京图森未来科技有限公司 一种深度神经网络的结构搜索方法及装置
US20200167659A1 (en) * 2018-11-27 2020-05-28 Electronics And Telecommunications Research Institute Device and method for training neural network
CN110598598A (zh) * 2019-08-30 2019-12-20 西安理工大学 基于有限样本集的双流卷积神经网络人体行为识别方法
CN110705463A (zh) * 2019-09-29 2020-01-17 山东大学 基于多模态双流3d网络的视频人体行为识别方法及系统
CN110852168A (zh) * 2019-10-11 2020-02-28 西北大学 基于神经架构搜索的行人重识别模型构建方法及装置
CN111767985B (zh) * 2020-06-19 2022-07-22 深圳市商汤科技有限公司 一种神经网络的训练方法、视频识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018520404A (ja) * 2015-04-28 2018-07-26 クゥアルコム・インコーポレイテッドQualcomm Incorporated ニューラルネットワークのためのトレーニング基準としてのフィルタ特異性
JP2018170003A (ja) * 2017-03-30 2018-11-01 富士通株式会社 ビデオ中のイベントの検出装置、方法及び画像処理装置
JP2020052484A (ja) * 2018-09-25 2020-04-02 Awl株式会社 物体認識カメラシステム、再学習システム、及び物体認識プログラム

Also Published As

Publication number Publication date
CN111767985B (zh) 2022-07-22
CN111767985A (zh) 2020-10-13
JP7163515B2 (ja) 2022-10-31
WO2021253938A1 (zh) 2021-12-23
TW202201285A (zh) 2022-01-01
TWI770967B (zh) 2022-07-11
KR20220011208A (ko) 2022-01-27

Similar Documents

Publication Publication Date Title
US11531889B2 (en) Weight data storage method and neural network processor based on the method
Mishina et al. Boosted random forest
Aljundi et al. Expert gate: Lifelong learning with a network of experts
WO2021022521A1 (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN114051615A (zh) 动态处理元件阵列扩展
WO2021057056A1 (zh) 神经网络架构搜索方法、图像处理方法、装置和存储介质
US20220108157A1 (en) Hardware architecture for introducing activation sparsity in neural network
WO2022057262A1 (zh) 图像识别方法、装置及计算机可读存储介质
JP7163515B2 (ja) ニューラルネットワークのトレーニング方法、ビデオ認識方法及び装置
WO2021218517A1 (zh) 获取神经网络模型的方法、图像处理方法及装置
JP2019032808A (ja) 機械学習方法および装置
CN108364064A (zh) 操作神经网络的方法、对应网络、装置、以及计算机程序产品
CN111382868A (zh) 神经网络结构搜索方法和神经网络结构搜索装置
CN115129386A (zh) 用于神经网络部署和执行的有效优化
CN111260020A (zh) 卷积神经网络计算的方法和装置
WO2020236255A1 (en) System and method for incremental learning using a grow-and-prune paradigm with neural networks
CN112381227A (zh) 神经网络生成方法、装置、电子设备及存储介质
WO2022063076A1 (zh) 对抗样本的识别方法及装置
Cai et al. Soft and hard filter pruning via dimension reduction
CN115080139A (zh) 用于神经网络部署和执行的有效量化
CN114298289A (zh) 一种数据处理的方法、数据处理设备及存储介质
CN115080138A (zh) 用于神经网络部署和执行的有效存储器使用优化
CN113554145B (zh) 确定神经网络的输出的方法、电子设备和计算机程序产品
KR102227437B1 (ko) 연산 가속화가 적용된 신경망 모델의 생성 및 활용을 위한 장치 및 방법
KR20220083782A (ko) 비디오 처리 방법, 장치, 전자 기기, 저장 매체 및 프로그램 제품

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211125

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221012

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221019

R150 Certificate of patent or registration of utility model

Ref document number: 7163515

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150