JP2022541712A

JP2022541712A - ニューラルネットワークのトレーニング方法、ビデオ認識方法及び装置

Info

Publication number: JP2022541712A
Application number: JP2021570177A
Authority: JP
Inventors: 王子豪; 林宸; 邵▲じん▼; 盛律; ▲閻▼俊杰
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2020-06-19
Filing date: 2021-04-09
Publication date: 2022-09-27
Anticipated expiration: 2041-04-09
Also published as: CN111767985B; CN111767985A; JP7163515B2; WO2021253938A1; TW202201285A; TWI770967B; KR20220011208A

Abstract

本発明は、ニューラルネットワークのトレーニング方法、ビデオ認識方法及び装置を開示し、当該方法は、サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築することであって、複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも１つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも１つの有向非巡回グラフを含み、有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各動作方法には、対応する重みパラメータがあることと、サンプルビデオと各サンプルビデオに対応するイベントタグに基づいて、ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することと、トレーニングされた重みパラメータに基づいて、複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得することと、を含む。【選択図】図１

Description

関連出願への相互参照
本願は、２０２０年０６月１９日に中国特許局に提出された、出願番号が２０２０１０５６７８６４．７であり、発明の名称が「ニューラルネットワークのトレーニング方法、ビデオ認識方法及び装置」である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照により本願に組み込まれる。

本発明は、コンピュータの技術分野に関し、特に、ニューラルネットワークのトレーニング方法、ビデオ認識方法及び装置に関する。

ビデオ認識は、ビデオで発生するイベントを認識することを指し、関連技術では、通常、画像認識のためのニューラルネットワークを簡単に変更して、ビデオ認識に使用する。

ただし、画像認識を実行するニューラルネットワークは画像次元で目標認識を実行するため、画像次元から抽出できない一部のビデオ特徴は無視され、それにより、ビデオ認識を実行するニューラルネットワークの精度に影響を与える。

本発明の実施例は、少なくともニューラルネットワークのトレーニング方法、ビデオ認識方法及び装置を提供する。

第１態様において、本発明の実施例は、ニューラルネットワークのトレーニング方法を提供し、当該方法は、サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築することであって、前記複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも１つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも１つの有向非巡回グラフを含み、前記有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各前記動作方法には、対応する重みパラメータがあることと、前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することと、前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得することと、を含む。

上記の方法において、構築されたニューラルネットワークは、空間特徴を抽出するための有向非巡回グラフだけでなく、時間特徴を抽出するための有向非巡回グラフも含み、有向非巡回グラフの各エッジは、複数の動作方法に対応する。このようにして、サンプルビデオを使用してニューラルネットワークをトレーニングした後、トレーニングされた動作方法の重みパラメータを取得でき、さらに、トレーニングされた動作方法の重みパラメータに基づいて、トレーニングされたニューラルネットワークを取得する。この方法でトレーニングされたニューラルネットワークは、画像次元の空間特徴を認識するだけでなく、時間次元の時間特徴も認識するので、トレーニングされたニューラルネットワークにおけるビデオに対する認識精度が高い。

いくつかの可能な実施形態では、前記有向非巡回グラフは、２つの入力ノードを含み、前記ニューラルネットワークの各ノードは、１つの特徴マップに対応し、前記複数の有向非巡回グラフを含むニューラルネットワークを構築することは、Ｎ-１番目（Ｎは１より大きい整数）の有向非巡回グラフによって出力された特徴マップを、Ｎ＋１番目の有向非巡回グラフの１つの入力ノードの特徴マップとして使用し、Ｎ番目の有向非巡回グラフによって出力された特徴マップを、前記Ｎ＋１番目の有向非巡回グラフの別の入力ノードの特徴マップとして使用することであって、ここで、前記ニューラルネットワークの最初の有向非巡回グラフの目標入力ノードに対応する特徴マップは、サンプルビデオのサンプリングビデオフレームに対して特徴抽出を実行した後の特徴マップであり、前記目標入力ノードを除いた別の入力ノードは空であり、前記ニューラルネットワークの２番目の有向非巡回グラフの１つの入力ノードの特徴マップは、前記最初の有向非巡回グラフによって出力された特徴マップであり、別の入力ノードは空であることと、を含む。

いくつかの可能な実施形態では、前記有向非巡回グラフの入力ノードを除いた他のノードに対応する特徴マップを直列接続し、直列接続した特徴マップを前記有向非巡回グラフによって出力された特徴マップとして使用する、方法に従って、有向非巡回グラフによって出力された特徴マップを決定する。

いくつかの可能な実施形態では、前記時間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第１動作方法に対応し、前記空間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第２動作方法に対応し、前記複数の第１動作方法は、前記複数の第２動作方法及び、各前記第２動作方法と異なる少なくとも１つの他の動作方法を含む。

いくつかの可能な実施形態では、前記ニューラルネットワークはさらに、最初の有向非巡回グラフに接続されたサンプリング層を含み、前記サンプリング層は、サンプルビデオをサンプリングして、サンプリングビデオフレームを取得し、前記サンプリングビデオフレームに対して特徴抽出を実行して、前記サンプリングビデオフレームに対応する特徴マップを取得し、最初の前記有向非巡回グラフの目標入力ノードに前記サンプリングビデオフレームに対応する特徴マップを入力するように構成され、前記ニューラルネットワークはさらに、最後の有向非巡回グラフの出力ノードに接続された完全接続層を含み、前記完全接続層は、最後の有向非巡回グラフによって出力された特徴マップに基づいて、前記サンプルビデオに対応する複数のイベントの発生確率を決定するように構成され、前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することは、前記完全接続層によって計算された前記サンプルビデオに対応する複数のイベントの発生確率、及び各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することを含む。

いくつかの可能な実施形態では、現在のノードを指す各１レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成する、方法に従って、前記有向非巡回グラフの入力ノードを除いた各ノードに対応する特徴マップを取得する。

上記の方法によって、重みパラメータを使用して、任意のノードの特徴マップに対する、当該任意のノードとその１レベル上位のノードのエッジ間の動作方法の影響を制御することができる。したがって、重みパラメータを制御することにより、任意のノードとその１レベル上位のノードと間のエッジに対応する動作方法を制御することができ、それにより、当該任意のノードの特徴マップの値を変更することができる。

いくつかの可能な実施形態では、前記現在のノードを指す各１レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成することは、前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間の現在のエッジに対して、前記現在のエッジに対応する各前記動作方法に基づいて、前記現在のエッジに対応する１レベル上位のノードの特徴マップを処理して、前記現在のエッジに対応する各前記動作方法に対応する第１中間特徴マップを取得することと、前記現在のエッジに対応する各前記動作方法に対応する第１中間特徴マップは、各前記動作方法に対応する重みパラメータに従って加重加算され、前記現在のエッジに対応する第２中間特徴マップを取得することと、前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間の複数のエッジにそれぞれ対応する第２中間特徴マップを加算して、前記現在のノードに対応する特徴マップを取得することと、を含む。

このような方法により、ノードの特徴マップを決定するときに各動作方法が使用でき、ノードに対応する特徴マップに対する単一動作方法の影響を低減し、ニューラルネットワークの認識精度の向上に役立つ。

いくつかの可能な実施形態では、前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択することは、前記有向非巡回グラフの各前記エッジに対して、各前記エッジに対応する重みパラメータが最大である動作方法を、各前記エッジに対応する目標動作方法として使用することを含む。

いくつかの可能な実施形態では、前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得することは、各前記ノードに対して、前記ノードを指すエッジの数が目標の数より大きい場合、前記ノードを指す各エッジに対応する前記目標動作方法の重みパラメータを決定することと、対応する前記重みパラメータの降順に応じて、前記ノードを指す各エッジを並べ替え、前のＫ位のエッジを除いた他のエッジを削除することであって、ここで、Ｋは前記目標の数であることと、削除処理後のニューラルネットワークを、前記トレーニングされたニューラルネットワークとして使用することと、を含む。

このような方法により、一方では、ニューラルネットワークのサイズを縮小することができ、もう一方では、ニューラルネットワークの計算ステップを削減し、ニューラルネットワークの計算効率を向上させることができる。

第２態様によれば、本発明の実施例は、ビデオ認識方法をさらに提供し、当該方法は、認識されるビデオを取得することと、第１態様又は第１態様の任意の可能な実施形態に記載のニューラルネットワークのトレーニング方法に基づいてトレーニングされたニューラルネットワークに、前記認識されるビデオを入力して、前記認識されるビデオに対応する複数のイベントの発生確率を決定し、対応する発生確率がプリセット条件を満たすイベントを、前記認識されるビデオで発生するイベントとして使用することと、を含む。

第３態様によれば、本発明の実施例は、ニューラルネットワークのトレーニング装置を提供し、当該装置は、サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築するように構成される構築部であって、前記複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも１つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも１つの有向非巡回グラフを含み、前記有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各前記動作方法には、対応する重みパラメータがある、構築部と、前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得するように構成される、トレーニング部と、前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得するように構成される、選択部と、を備える。

いくつかの可能な実施形態では、前記有向非巡回グラフは、２つの入力ノードを含み、前記ニューラルネットワークの各ノードは、１つの特徴マップに対応し、前記構築部はさらに、Ｎ-１番目（Ｎは１より大きい整数）の有向非巡回グラフによって出力された特徴マップを、Ｎ＋１番目の有向非巡回グラフの１つの入力ノードの特徴マップとして使用し、Ｎ番目の有向非巡回グラフによって出力された特徴マップを、前記Ｎ＋１番目の有向非巡回グラフの別の入力ノードの特徴マップとして使用し、ここで、前記ニューラルネットワークの最初の有向非巡回グラフの目標入力ノードに対応する特徴マップは、サンプルビデオのサンプリングビデオフレームに対して特徴抽出を実行した後の特徴マップであり、前記目標入力ノードを除いた別の入力ノードは空であり、前記ニューラルネットワークの２番目の有向非巡回グラフの１つの入力ノードの特徴マップは、前記最初の有向非巡回グラフによって出力された特徴マップであり、別の入力ノードは空であるように構成される。

いくつかの可能な実施形態では、前記構築部はさらに、前記有向非巡回グラフの入力ノードを除いた他のノードに対応する特徴マップを直列接続し、直列接続した特徴マップを前記有向非巡回グラフによって出力された特徴マップとして使用するように構成される。

いくつかの可能な実施形態では、前記時間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第１動作方法に対応し、前記空間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第２動作方法に対応し、前記複数の第１動作方法は、前記複数の第２動作方法及び各前記第２動作方法と異なる少なくとも１つの他の動作方法を含む。

いくつかの可能な実施形態では、前記ニューラルネットワークはさらに、最初の有向非巡回グラフに接続されたサンプリング層を含み、前記サンプリング層は、サンプルビデオをサンプリングして、サンプリングビデオフレームを取得し、前記サンプリングビデオフレームに対して特徴抽出を実行して、前記サンプリングビデオフレームに対応する特徴マップを取得し、最初の前記有向非巡回グラフの目標入力ノードに前記サンプリングビデオフレームに対応する特徴マップを入力するように構成され、前記ニューラルネットワークはさらに、最後の有向非巡回グラフの出力ノードに接続された完全接続層を含み、前記完全接続層は、当該出力ノードの特徴マップに基づいて、前記サンプルビデオに対応する複数のイベントの発生確率を決定するように構成され、前記トレーニング部はさらに、前記完全接続層によって計算された前記サンプルビデオに対応する複数のイベントの発生確率、及び各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得するように構成される。

いくつかの可能な実施形態では、前記構築部はさらに、現在のノードを指す各１レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成するように構成される。

いくつかの可能な実施形態では、前記構築部はさらに、前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間の現在のエッジに対して、前記現在のエッジに対応する各前記動作方法に基づいて、前記現在のエッジに対応する１レベル上位のノードの特徴マップを処理して、前記現在のエッジに対応する各前記動作方法に対応する第１中間特徴マップを取得し、前記現在のエッジに対応する各前記動作方法に対応する第１中間特徴マップは、各前記動作方法に対応する重みパラメータに従って加重加算され、前記現在のエッジに対応する第２中間特徴マップを取得し、前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間の複数のエッジにそれぞれ対応する第２中間特徴マップを加算して、前記現在のノードに対応する特徴マップを取得するように構成される。

いくつかの可能な実施形態では、前記選択部はさらに、前記有向非巡回グラフの各前記エッジに対して、各前記エッジに対応する重みパラメータが最大である動作方法を、各前記エッジに対応する目標動作方法として使用するように構成される。

いくつかの可能な実施形態では、前記選択部はさらに、各前記ノードに対して、前記ノードを指すエッジの数が目標の数より大きい場合、前記ノードを指す各エッジに対応する目標動作方法の重みパラメータを決定し、対応する前記重みパラメータの降順に応じて、前記ノードを指す各エッジを並べ替え、前のＫ位のエッジを除いた他のエッジを削除し、ここで、Ｋは前記目標の数であり、削除処理後のニューラルネットワークを、前記トレーニングされたニューラルネットワークとして使用するように構成される。

第４態様によれば、本発明の実施例は、ビデオ認識装置をさらに提供し、当該ビデオ認識装置は、認識されるビデオを取得するように構成される、取得部と、第１態様又は第１態様のいくつかの可能な実施形態に記載のニューラルネットワークのトレーニング方法に基づいてトレーニングされたニューラルネットワークに、前記認識されるビデオを入力して、前記認識されるビデオに対応する複数のイベントの発生確率を決定するように構成される、第１決定部と、対応する発生確率がプリセット条件を満たすイベントを、前記認識されるビデオで発生するイベントとして使用するように構成される、第２決定部と、を備える。

第５態様によれば、本発明の実施例は、プロセッサ、前記プロセッサによって実行可能な機械可読命令が記憶されたメモリ及びバスを備える、コンピュータ機器をさらに提供し、前記コンピュータ機器が実行されるときに、前記プロセッサと前記メモリはバスを介して通信し、前記機械可読命令が前記プロセッサによって実行されるときに、上記の第１態様、又は、第１態様の任意の可能な実施形態に記載の方法のステップ、又は、上記の第２態様に記載の方法のステップを実行する。

第６態様によれば、本発明の実施例は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体をさらに提供し、当該コンピュータプログラムがプロセッサによって実行されるときに、上記の第１態様、又は、第１態様の任意の可能な実施形態に記載の方法のステップ、又は、上記の第２態様に記載の方法のステップを実行する。

第７態様によれば、本発明の実施例は、コンピュータ可読コードを含むコンピュータプログラムをさらに提供し、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、上記の第１態様、又は、第１態様の任意の可能な実施形態に記載の方法のステップ、又は、上記の第２態様に記載の方法のステップを実行する。

本発明の上記の目的、特徴及び利点をより明確で理解しやすくするために、以下では、添付の図面を参照して好ましい実施例を詳細に説明する。

本発明の実施例の技術的解決策をより明確に説明するために、以下では、実施例に必要な図面を簡単に説明する。ここでの図面は、本明細書に組み込まれてその一部を構成し、これらの図面は、本発明と一致する実施例を示すものであり、明細書とともに本発明の技術的解決策を説明するために使用される。以下の図面は、本発明の一部の実施例のみを示すだけで、本実施例の保護範囲を限定するものではなく、当業者は、創造的な労力を要することなく、これらの図面に基づいて他の図面を得ることができることを理解されたい。
本発明の実施例によるニューラルネットワークのトレーニング方法のフローチャートである。本発明の実施例による有向非巡回グラフを含むニューラルネットワークのネットワーク構造の概略図である。本発明の実施例による時間畳み込みの処理プロセスの概略図である。本発明の実施例による別の時間畳み込みの処理プロセスの概略図である。本発明の実施例によるニューラルネットワークの構造の概略図である。本発明の実施例による有向非巡回グラフの概略図である。本発明の実施例によるノードに対応する特徴マップを生成する方法のフローチャートである。本発明の実施例による構築されたニューラルネットワークの全体的な構造の概略図である。本発明の実施例によるニューラルネットワークのトレーニング方法のフローチャートの概略図である。本発明の実施例によるビデオ認識方法のフローチャートの概略図である。本発明の実施例によるニューラルネットワークのトレーニング装置のアーキテクチャの概略図である。本発明の実施例によるビデオ認識装置のアーキテクチャの概略図である。本発明の実施例によるコンピュータ機器の構造の概略図である。本発明の実施例による別のコンピュータ機器の構造の概略図である。

本発明の上記の目的、特徴及び利点をより理解しやすくするために、以下では、本発明の実施例の図面を参照して、本発明の実施例の技術的解決策を明確且つ完全に説明する。明らかに、説明される実施例は、本発明の実施例の一部であり、全部の実施例ではない。通常本明細書の図面に記載及び図示されている本発明の実施例の構成要素は、様々な異なる構成で配置及び設計することができる。したがって、添付の図面による本発明の実施例の以下の詳細な説明は、保護範囲を限定することを意図するものではなく、単に本発明の特定の実施例を示すものである。本発明の実施例に基づいて、創造的な作業なしに当業者によって得られた他のすべての実施例は、本願の保護範囲に含まれる。

関連技術では、ビデオ認識のプロセスで、通常は、画像認識のための既存のニューラルネットワークが変更されるが、画像認識のための既存のニューラルネットワークは画像次元で認識し、画像次元から抽出できない一部のビデオ特徴は無視され、ニューラルネットワークの認識精度に影響を与える。

さらに、関連技術は、進化ベースのアルゴリズムを使用してビデオ認識のためのニューラルネットワークを検索する。ただし、このような方法では、毎回複数のニューラルネットワークをトレーニングしてから、最高の機能を持つニューラルネットワークを選択して再度調整する必要があるため、ニューラルネットワークの調整プロセスでの計算量が多く、トレーニング効率が低い。

上記の技術案の欠陥はすべて、実施及び注意深い研究の後に発明者によって得られた結果であり、したがって、上記の問題の発見プロセス及び上記の問題に対する以下の本発明の実施例によって提案された解決策は、すべて本発明の実施例に対する発明者の貢献であるべきである。

これに基づき、本発明の実施例は、ニューラルネットワークのトレーニング方法を提供し、構築されたニューラルネットワークは、空間特徴を抽出するための有向非巡回グラフだけでなく、時間特徴を抽出するための有向非巡回グラフも含み、有向非巡回グラフの各エッジは、複数の動作方法に対応する。このようにして、サンプルビデオを使用してニューラルネットワークをトレーニングした後、トレーニングされた動作方法の重みパラメータを取得でき、さらに、トレーニングされた動作方法の重みパラメータに基づいて、トレーニングされたニューラルネットワークを取得する。この方法でトレーニングされたニューラルネットワークは、画像次元の空間特徴を認識するだけでなく、時間次元の時間特徴も認識するので、ビデオに対するトレーニングされたニューラルネットワークの認識精度が高い。

同じ参照番号及び文字は、以下の図面において同じアイテムを示し、したがって、特定のアイテムが１つの図面で定義されると、後続の図面でさらに議論する必要がないことに留意されたい。

本発明の実施例の理解を容易にするために、まず、本発明の実施例で開示されるニューラルネットワークのトレーニング方法を詳細に説明する。本発明の実施例よって提供されるニューラルネットワークのトレーニング方法の実行主体は、一般的に、一定の計算能力を備えたコンピュータ機器である。当該コンピュータ機器は、例えば、端末機器又はサーバ又は他の処理機器を含む。端末機器は、ユーザ機器（ＵｓｅｒＥｑｕｉｐｍｅｎｔ、ＵＥ）、モバイル機器、ユーザ端末、パーソナルコンピュータなどであり得る。さらに、本発明の実施例によって提供される方法は、さらに、プロセッサがコンピュータプログラムコードを実行することによって実現される。

図１は、本発明の実施例によるニューラルネットワークのトレーニング方法のフローチャートである。図１に示されるように、当該方法は、ステップ１０１ないしステップ１０３を含む。

ステップ１０１において、サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築する。

ここで、前記複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも１つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも１つの有向非巡回グラフを含み、前記有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各前記動作方法には、対応する重みパラメータがある。

ステップ１０２において、前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得する。

ステップ１０３において、前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得する。

以下は、上記のステップ１０１ないしステップ１０３の詳細な説明である。

いくつかの可能な実施形態では、ニューラルネットワークを構築するプロセスにおいて、時間特徴を抽出するための有向非巡回グラフの数及び空間特徴を抽出するための有向非巡回グラフの数はプリセットされている。有向非巡回グラフのノードは特徴マップを表し、ノード間のエッジは動作方法を表す。

複数の有向非巡回グラフを含むニューラルネットワークを構築するプロセスにおいて、Ｎ-１番目（Ｎは１より大きい整数）の有向非巡回グラフによって出力された特徴マップを、Ｎ＋１番目の有向非巡回グラフの１つの入力ノードの特徴マップとして使用し、Ｎ番目の有向非巡回グラフによって出力された特徴マップを、前記Ｎ＋１番目の有向非巡回グラフの別の入力ノードの特徴マップとして使用することができる。

いくつかの可能な実現形態では、各有向非巡回グラフは、２つの入力ノードを含み、ニューラルネットワークの最初の有向非巡回グラフの任意の入力ノードを目標入力ノードとして使用することができ、目標入力ノードの入力は、サンプルビデオのサンプリングビデオフレームに対して特徴抽出を実行して取得した特徴マップであり、前記ニューラルネットワークの最初の有向非巡回グラフにおいて、前記目標入力ノードを除いた別の入力ノードは空であり、ニューラルネットワークの２番目の有向非巡回グラフの１つの入力ノードの特徴マップは、前記最初の有向非巡回グラフによって出力された特徴マップであり、別の入力ノードは空である。他の実施例では、有向非巡回グラフは、１つ、３つ、又はそれ以上の入力ノードを含み得る。

ここで、有向非巡回グラフによって出力された任意の特徴マップを決定するプロセスでは、当該有向非巡回グラフの入力ノードを除いた他のノードに対応する特徴マップを直列に（ｃｏｎｔａｃｔ）接続し、直列接続した特徴マップを当該有向非巡回グラフによって出力された特徴マップとして使用することができる。

例示的に、有向非巡回グラフを含む構築されたニューラルネットワークのネットワークの構造は図２に示されるようであり得、図２は、３つの有向非巡回グラフを含み、白いドットは入力ノードを表し、黒いドットは有向非巡回グラフの入力ノードを除いた他のノードに対応する特徴マップを直列接続した後の特徴マップを表す。最初の有向非巡回グラフの入力ノードは、サンプルビデオのサンプリングビデオフレームの特徴マップに対応し、別の入力ノードは空であり、最初の有向非巡回グラフの出力ノードに対応する特徴マップを、２番目の有向非巡回グラフの１つの入力ノードとし、２番目の有向非巡回グラフの入力ノードは空であり、２番目の有向非巡回グラフによって出力された特徴マップ及び最初の有向非巡回グラフによって出力された特徴マップをそれぞれ、３番目の有向非巡回グラフの２つの入力ノードに対応する特徴マップとし、このように類推する。

１つの実施形態では、時間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第１動作方法に対応し、空間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第２動作方法に対応し、前記複数の第１動作方法は、前記複数の第２動作方法及び、各前記第２動作方法と異なる少なくとも１つの他の動作方法を含む。

例示的に、時間特徴を抽出するための有向非巡回グラフの各エッジに対応する複数の第１動作方法は、平均プーリング動作（例えば、１×３×３平均プーリング）、最大プーリング動作（例えば、１×３×３最大プーリング）、離散畳み込み動作（例えば、１×３×３離散畳み込み）、拡張離散畳み込み（例えば、１×３×３拡張離散畳み込み）を含み得、空間特徴を抽出するための有向非巡回グラフの各エッジに対応する複数の第２動作方法は、平均プーリング動作、最大プーリング動作、離散畳み込み動作、拡張離散畳み込み、及び異なる時間畳み込みを含み得る。

ここで、前記時間畳み込みは、時間特徴を抽出するために使用される。例示的に、時間畳み込みは、３＋３×３サイズの時間畳み込みであり得、３＋３×３サイズの時間畳み込みは、時間次元での畳み込みカーネルのサイズが３であり、空間次元での畳み込みカーネルのサイズが３×３であることを表し、例示的に、その処理プロセスは図３ａに示されるようである。Ｃｉｎは入力された特徴マップを表し、Ｃｏｕｔは処理後に出力された特徴マップを表し、ＲｅＬＵはアクティブ化関数を表し、ｃｏｎｖ１×３×３は時間次元での畳み込みカーネルのサイズが１であり、空間次元での畳み込みカーネルのサイズが３×３畳み込み動作であることを表す。ｃｏｎｖ３×１×１は時間次元の畳み込みカーネルのサイズが３で、空間次元での畳み込みカーネルのサイズが１×１畳み込み動作であることを表す。ＢａｔｃｈＮｏｒｍは正規化動作を表し、Ｔ、Ｗ、及びＨはそれぞれ時間次元及び空間の２つの次元を表す。

例示的に、時間畳み込みはさらに、３＋１×１サイズの時間畳み込みであり得、３＋１×１サイズの時間畳み込みは、時間次元での畳み込みカーネルのサイズが３であり、空間次元での畳み込みカーネルのサイズが１×１であることを表す。例示的に、その処理プロセスは図３ｂに示されるようである。ｃｏｎｖ１×１×１は、時間次元での畳み込みカーネルのサイズが１であり、空間次元での畳み込みカーネルのサイズが１×１であることを表し、他の記号の意味は図３ａと同じであり、ここでは繰り返して説明しない。

いくつかの可能な実施形態では、ニューラルネットワークの初期構築のプロセスでは、時間特徴を抽出するための各有向非巡回グラフの構造は同じであるが、ニューラルネットワークのトレーニングが完了した後、時間特徴を抽出するための異なる有向非巡回グラフのエッジ対応する目標動作方法は異なる可能性があり、同様に、ニューラルネットワークを構築するプロセスでは、空間特徴を抽出するための各有向非巡回グラフの構造も同じであり、ニューラルネットワークのトレーニングが完了した後、空間特徴を抽出するための異なる有向非巡回グラフのエッジに対応する目標動作方法も異なる可能性がある。

いくつかの可能な実施形態では、時間特徴の抽出のための各有向非巡回グラフは、２つのタイプの有向非巡回グラフを含み、１つは入力された特徴マップのサイズとチャネルの数を変更する第１有向非巡回グラフで、もう１つは入力された特徴マップのサイズとチャネルの数を変更しない第２有向非巡回グラフである。ここで、第１有向非巡回グラフは、第１プリセット数のノードを含み得、第２有向非巡回グラフは、第２プリセット数のノードを含み得、第１プリセット数及び第２プリセット数は同じであり得る。空間特徴の抽出のための各有向非巡回グラフは、２つのタイプの有向非巡回グラフを含み、１つは入力された特徴マップのサイズとチャネルの数を変更する第３有向非巡回グラフで、もう１つは入力された特徴マップのサイズとチャネルの数を変更しない第４有向非巡回グラフである。ここで、第３有向非巡回グラフは、第３プリセット数のノードを含み得、第４有向非巡回グラフは、第４プリセット数のノードを含み得、第３プリセット数及び第４プリセット数は同じであり得る。

したがって、構築されたニューラルネットワークは、上記の４つのタイプの有向非巡回グラフを含み、実際の応用において、各タイプの有向非巡回グラフに対応するプリセット数のノードは、当該有向非巡回グラフ内の各階層のノードの数を含み、各階層のノードの数を決定した後、各ノード間の接続関係を直接に決定することにより、有向非巡回グラフを決定することができる。

例示的に、４つの有向非巡回グラフを含むニューラルネットワークのネットワーク構造は図４に示されるようであり、サンプルビデオをニューラルネットワークに入力した後、まず、サンプリング層に入力して、サンプルビデオをサンプリングし、次に、サンプリングされたビデオフレームに対して特徴を抽出して、最初の有向非巡回グラフに入力し、最後の有向非巡回グラフを完全接続層に入力する。完全接続層の入力は、ニューラルネットワークの出力である。

ここで、有向非巡回グラフを介して、特徴マップのサイズとチャネルの数を制御することにより、一方では、ニューラルネットワークの受容野を拡大でき、もう一方では、ニューラルネットワークの計算量を減らし、計算効率を向上させることができることに留意されたい。上記の方法において、構築されたニューラルネットワークは、空間特徴を抽出するための有向非巡回グラフだけでなく、時間特徴を抽出するための有向非巡回グラフも含み、有向非巡回グラフの各エッジは、複数の動作方法に対応する。このようにして、サンプルビデオを使用してニューラルネットワークをトレーニングした後、トレーニングされた動作方法の重みパラメータを取得でき、さらに、トレーニングされた動作方法の重みパラメータに基づいて、トレーニングされたニューラルネットワークを取得する。このような方法でトレーニングされたニューラルネットワークは、画像次元の空間特徴を認識するだけでなく、時間次元の時間特徴も認識するので、ビデオに対するトレーニングされたニューラルネットワークの認識精度が高い。

いくつかの可能な実施形態では、有向非巡回グラフの入力ノードを除いた各ノードに対応する特徴マップを決定する場合、現在のノードを指す各１レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成する。

例示的に、有向非巡回グラフが図５に示されるようである場合、ノード３に対応する特徴マップを決定するとき、ノード３を指すノードがノード０、ノード１、及びノード２であると、ノード０、ノード１及びノード２に対応する特徴マップ、及びノード０、ノード１、ノード２とノード３との間のエッジにそれぞれ対応する動作方法の重みパラメータに従って、ノード３に対応する特徴マップを決定する。

ここで、当該有向非巡回グラフが時間特徴を抽出するための有向非巡回グラフである場合、ノード０、ノード１、及びノード２とノード３との間のエッジにそれぞれ対応する動作方法は、第１動作方法であり、当該有向非巡回グラフが空間特徴を抽出するための有向非巡回グラフである場合、ノード０、ノード１、及びノード２とノード３との間のエッジにそれぞれ対応する動作方法は、第２動作方法である。

上記の方法によって、重みパラメータを使用して、任意のノードの特徴マップに対する、当該任意のノードとその１レベル上位のノードのエッジ間の動作方法が影響を制御することができる。したがって、重みパラメータを制御することにより、任意のノードとその前のノードと間のエッジに対応する動作方法を制御することができ、それにより、当該任意のノードの特徴マップの値を変更することができる。

ノードに対応する特徴マップを生成するプロセスでは、図６に示される方法を参照でき、当該方法は、以下のステップを含み得る。

ステップ６０１において、前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間の現在のエッジに対して、前記現在のエッジに対応する各前記動作方法に基づいて、前記現在のエッジに対応する１レベル上位のノードの特徴マップを処理して、前記現在のエッジに対応する各前記動作方法に対応する第１中間特徴マップを取得する。

例示的に、現在のノードが属する有向非巡回グラフが時間特徴を抽出するための有向非巡回グラフであり、現在のノードを指す３つの現在のエッジがあり、各現在のエッジは６つの第１動作方法に対応する場合、任意の現在のエッジに対して、当該現在のエッジに対応する各動作方法によって、当該現在のエッジに接続された前のノードに対応する特徴マップをそれぞれ処理できると、当該現在のエッジに対応する６つの第１中間特徴マップを取得でき、当該現在のノードを指す３つの現在のエッジがある場合、計算によって１８個の第１中間特徴マップを取得できる。

現在のノードが属する有向非巡回グラフが空間特徴を抽出するための有向非巡回グラフであり、現在のノードを指す３つの現在のエッジがあり、各現在のエッジは４つの第１動作方法に対応する場合、上記の計算方法と同様に、各現在のエッジに対応する第１中間特徴マップは４つであり、計算によって１２個の第１中間特徴マップを取得できる。

ステップ６０２において、前記現在のエッジに対応する各前記動作方法に対応する第１中間特徴マップは、各前記動作方法に対応する重みパラメータに従って加重加算され、前記現在のエッジに対応する第２中間特徴マップを取得する。

前記重みパラメータは、トレーニングされるモデルパラメータであり、いくつかの可能な実施形態では、重みパラメータにランダムに値を割り当て、次に、ニューラルネットワークのトレーニングプロセス中に常に調整される。

現在のノードを指す各現在のエッジに対応する動作方法には、いずれも対応する重みパラメータがあり、各動作方法に対応する第１中間特徴マップが、対応する重みパラメータに従って加重加算されるときに、第１特徴マップの対応する位置での値と当該第１特徴マップの対応する動作方法の重みパラメータを乗算することができ、その後、対応する位置での乗算結果を加算して、当該現在のエッジに対応する第２中間特徴マップを取得する。

ステップ６０１の例を続けると、現在のノードを指す３つのエッジがあり、各現在のエッジは６つの第１動作方法に対応し、各第１動作方法は、いずれも対応する重みパラメータを有し、各現在のエッジは６つの第１動作方法に対応できる。次に、各現在のエッジに対応する６つの第１中間特徴マップは、重みパラメータに従って加重加算され、各現在のエッジに対応する第２中間特徴マップを取得する。

ここで、異なるエッジに対応する同じ動作方法の重みパラメータは異なる可能性がある。例えば、エッジ１とエッジ２がすべて現在のノードを指し、エッジ１とエッジ２に対応する動作方法が、両方とも平均プーリング動作を含み、エッジ１に対応する平均プーリング動作の重みパラメータは７０％であり得、エッジ２に対応する平均プーリング動作の重みパラメータは１０％であり得ることに留意されたい。

例示的に、

番目のノードと

番目のノードの間のエッジに対応する第２特徴マップを計算するとき、以下の式１によって計算することができる。

ここで、ｏと

は動作方法を表し、Ｏは

番目のノードと

番目のノードの間の動作方法の集合を表し、

は、

番目のノードと

番目のノードの間の動作方法「ｏ」の重みパラメータを表す。

は、

番目のノードと

番目のノードの間のエッジに対応する動作方法

の重みパラメータを表す。

は、

番目のノードに対応する特徴マップを表し、

は、

番目のノードと

番目のノードの間のエッジに対応する第２特徴マップである。

ステップ６０３において、前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間の複数のエッジにそれぞれ対応する第２中間特徴マップを加算して、前記現在のノードに対応する特徴マップを取得する。

ここで、各第２中間特徴マップのサイズは同じであり、各第２中間特徴マップを加算するとき、各第２中間特徴マップに対応する位置での値を加算して、現在のノードに対応する特徴マップを取得できる。

さらに、構築されたニューラルネットワークはさらに、サンプリング層及び完全接続層を含み、前記サンプリング層は、入力されたニューラルネットワークのビデオをサンプリングして、サンプリングビデオフレームを取得し、サンプリングビデオフレームに対して特徴抽出を実行して、前記サンプリングビデオフレームに対応する特徴マップを取得し、次に、最初の有向非巡回グラフの目標入力ノードにサンプリングビデオフレームに対応する特徴マップを入力するために使用される。前記完全接続層は、最後の有向非巡回グラフによって出力された特徴マップに基づいて、前記サンプルビデオに対応する複数のイベントの発生確率を決定するために使用される。要約すると、構築されたニューラルネットワークの全体的な構造は図７に示されるようであり、図７は、３つの有向非巡回グラフ、１つの完全接続層及び１つのサンプリング層を含み、完全接続層の出力は、ニューラルネットワークの出力である。

このようにして、ノードの特徴マップを決定するときに各動作方法が使用でき、ノードに対応する特徴マップに対する単一動作方法の影響を低減し、ニューラルネットワークの認識精度の向上に役立つ。

サンプルビデオに対応するイベントタグは、サンプルビデオで発生したイベントを示すために使用され、例示的に、サンプルビデオで発生したイベントは、人が走っていること、子犬が遊んでいること、二人でバドミントンをしていることなどを含み得る。いくつかの可能な実施形態では、サンプルビデオとサンプルビデオに対応するイベントタグに基づいて、構築されたニューラルネットワークをトレーニングするとき、図８に示される方法を使用でき、当該方法は、以下のステップを含む。

ステップ８０１において、サンプルビデオをニューラルネットワークに入力して、サンプルビデオに対応する複数のイベントの発生確率を出力して取得する。

ここで、サンプルビデオに対応する複数のイベントの数は、ニューラルネットワークをトレーニングするためのサンプルビデオのイベントタグの数と同じである。例えば、４００個のイベントタグのサンプルビデオを介してニューラルネットワークをトレーニングする場合、任意のビデオをニューラルネットワークに入力した後、ニューラルネットワークは、入力されたビデオに対応する４００個のイベントのそれぞれの発生確率を出力できる。

ステップ８０２において、サンプルビデオに対応する複数のイベントの発生確率に基づいて、サンプルビデオに対応する予測イベントを決定する。

例えば、対応する発生確率が最大であるイベントを、ニューラルネットワークによって予測されたイベントとして決定する。別のいくつかの可能な実施形態では、サンプルビデオは、複数のイベントタグを搬送する可能性があり、例えば、同時に、子犬が遊んでいるイベントタグ及び二人がバドミントンをしているイベントタグを含むので、サンプルビデオに対応する複数のイベントの発生確率に基づいて、サンプルビデオに対応する予測イベントを決定するプロセスでは、対応する発生確率がプリセットされた確率より大きいイベントを、サンプルビデオに対応する予測イベントとして使用することができる。

ステップ８０３において、サンプルビデオに対応する予測イベント及びサンプルビデオのイベントタグに基づいて、今回のトレーニングプロセスでの損失値を決定する。

例示的に、サンプルビデオに対応する予測イベント及びサンプルビデオのイベントタグに基づいて、今回のトレーニングプロセスでのクロスエントロピー損失を決定できる。

ステップ８０４において、今回のトレーニングプロセスでの損失値がプリセットされた損失値よりも小さいか否かを判断する。

判定結果が「はい」である場合、ステップ８０５を順次に実行し、判定結果が「いいえ」である場合、今回のトレーニングプロセスでのニューラルネットワークパラメータのパラメータ値を調整し、戻ってステップ８０１を実行する。

ここで、調整されたニューラルネットワークパラメータは、有向非巡回グラフの各エッジに対応する動作方法の重みパラメータを含み、各重みパラメータは、有向非巡回グラフの各エッジに対応する目標動作方法の選択に影響を与えるので、ここでの重みパラメータは、ニューラルネットワークの構造パラメータとして使用され得、調整されたニューラルネットワークパラメータはさらに、例えば、各畳み込み動作の畳み込みカーネルのサイズ、重みなどの動作パラメータを含み得る。

構造パラメータと動作パラメータの収束速度の差が大きいため、動作パラメータが学習の初期段階にあり、学習率が小さい場合、構造パラメータの急速な収束につながる可能性がある。したがって、動作パラメータ及び構造パラメータの同期学習のプロセスは、学習率を制御することによって実現できる。

例示的に、段階的学習率減衰戦略が採用でき、事前にハイパーパラメータＳを設定して、動作パラメータ及び構造パラメータがＳ回最適化されるたびに、学習率が１回減衰され、減衰の振幅はｄ（プリセットされる）である。これにより、学習率の段階的な減衰を実現でき、構造パラメータ及び動作パラメータの同期学習、即ち同期最適化を実現できる。

従来技術において、パラメータ最適化のプロセスでは、以下の式２及び式３によって最適化を実行する。

上記の式２において、αは構造パラメータを表し、ωは動作パラメータを表し、

は、αが固定されたとき、ωに基づいて計算された損失値を表し、

は、αが固定された後、ωをトレーニングして

を最小化するときのωの値であり、即ち、最適化されたωである。上記の式３において、

は、最適化されたωを変化しなく、αによって計算された損失値に基づいて、

が最小になるようにαをトレーニングする。このような方法では、αは継続的に調整される必要があり、αを調整するたびにωを再トレーニングする必要がある。例えば、ωをトレーニングするたびに１００回計算する必要があり、αを１００回調整する場合、最終的に１０，０００回計算する必要があり、これは大量の計算になる。

本発明の実施例によって提供される方法において、パラメータ最適化のプロセスでは、通常、以下の式に基づいて最適化を実行する。

上記の式で、

は動作パラメータの学習率を表し、

に基づいてωを計算する勾配値を表し、最適化されたωを計算するとき、近似計算法を採用する。このようにして、αの値を最適化するたびに、ωを最適化するとき、１回の計算のみで済むので、αとωの同時最適化と見なすことができる。

このような方法に基づいて、ニューラルネットワーク構造を検索すると同時に、ニューラルネットワーク内部のネットワークパラメータを検索できる。先にネットワーク構造を決定してからネットワークパラメータを決定する方法と比較して、ニューラルネットワークの決定効率が向上される。

ステップ８０５において、トレーニングされたニューラルネットワークパラメータに基づいて、トレーニングされたニューラルネットワークモデルを決定する。

いくつかの可能な実施形態では、トレーニングされたニューラルネットワークパラメータに基づいて、複数の有向非巡回グラフの各エッジに対して目標動作方法を選択することができ、各エッジに対して目標動作方法を決定した後のニューラルネットワークモデルが、トレーニングされたニューラルネットワークである。

例示的に、トレーニングされた重みパラメータに基づいて、複数の有向非巡回グラフの各エッジに対して目標動作方法を選択するとき、前記有向非巡回グラフの各前記エッジに対して、各前記エッジに対応する重みパラメータが最大である動作方法を、各前記エッジに対応する目標動作方法として使用する。

別のいくつかの可能な実施形態では、ニューラルネットワークのサイズを縮小し、ニューラルネットワークの計算速度を向上させるために、複数の有向非巡回グラフの各エッジに対して目標動作方法を選択した後、さらに、有向非巡回グラフのエッジを削除して、その後、削除したニューラルネットワークを、トレーニングされたニューラルネットワークとして使用することができる。

ここで、各前記ノードに対して、前記ノードを指すエッジの数が目標の数より大きい場合、前記ノードを指す各エッジに対応する前記目標動作方法の重みパラメータを決定し、対応する前記重みパラメータの降順に応じて、前記ノードを指す各エッジを並べ替え、前のＫ位のエッジを除いた他のエッジを削除し、ここで、Ｋは前記目標の数であり、削除処理後のニューラルネットワークを、前記トレーニングされたニューラルネットワークとして使用する。

例示的に、目標の数が２つであり、特定のノードを指すエッジの数が３つである場合、当該ノードを指す３つのエッジに対応する目標動作方法の重みパラメータをそれぞれ決定でき、重みパラメータに従って、当該ノードを指す３つのエッジを降順に応じて並べ替え、前の２位のエッジは保留し、第３位のエッジは削除する。

同じ構想に基づいて、本発明の実施例は、ビデオ認識方法をさらに提供し、図９は、本発明の実施例によるビデオ認識方法の概略的なフローチャートであり。図９を参照すると、当該方法は、以下のステップを含む。

ステップ９０１において、認識されるビデオを取得する。

ステップ９０２において、事前にトレーニングされたニューラルネットワークに前記認識されるビデオを入力して、前記認識されるビデオに対応する複数のイベントの発生確率を決定する。

ここで、前記ニューラルネットワークは、上記の実施例によって提供されたニューラルネットワークのトレーニング方法に基づいて取得したものである。

ステップ９０３において、対応する発生確率がプリセット条件を満たすイベントを、前記認識されるビデオで発生するイベントとして使用する。

ここで、前記発生確率がプリセット条件を満たすイベントは、発生確率が最大であるイベント、又は発生確率がプリセットされた確率値より大きいイベントであり得る。

以下では、実施例と組み合わせて、上記の認識されるビデオをニューラルネットワークに入力した後、認識されるビデオに対するニューラルネットワークの詳細な処理プロセスについて説明する。前記ニューラルネットワークは、サンプリング層、特徴抽出層、及び完全接続層を含み、前記特徴抽出層は、複数の有向非巡回グラフを含む。

１）サンプリング層
認識されるビデオをニューラルネットワークに入力した後、まず、サンプリング層に入力して、サンプリング層は、認識されるビデオをサンプリングして、複数のサンプリングビデオフレームを取得し、次に、前記サンプリングビデオフレームに対して特徴抽出を実行して、サンプリングビデオフレームに対応する特徴マップを取得し、その後、特徴抽出層にサンプリングビデオフレームに対応する特徴マップを入力する。

２）特徴抽出層
特徴抽出層は、複数の、時間特徴を抽出するための有向非巡回グラフ及び空間特徴を抽出するための有向非巡回グラフを含み、各タイプの有向非巡回グラフの数、及び各タイプの有向非巡回グラフ内のノードの数はプリセットされている。時間特徴を抽出するための有向非巡回グラフと空間特徴を抽出するための有向非巡回グラフの違いは、以下の表１に示される通りである。

サンプリング層は、特徴抽出層にサンプリングビデオフレームに対応する特徴マップを入力した後、最初の前記有向非巡回グラフの目標入力ノードにサンプリングビデオフレームに対応する特徴マップを入力することであり得、最初の有向非巡回グラフの別の入力ノードは空であり、２番目の有向非巡回グラフの１つの入力ノードは、最初の有向非巡回グラフの出力ノードに接続され、別の入力ノードは空であり、３番目の有向非巡回グラフの１つの入力ノードは、２番目の有向非巡回グラフのノードに接続され、１つの入力ノードと最初の有向非巡回グラフの出力ノードに接続される。このように類推すると、最後の有向非巡回グラフの出力ノードは、対応する特徴マップを完全接続層に入力する。

３）完全接続層
有向非巡回グラフの出力ノードに対応する特徴マップを完全接続層に入力した後、完全接続層は、入力された特徴マップに基づいて入力された認識される入力ビデオ内の複数のイベントの発生確率を決定することができる。ここで、認識されるビデオに対応する複数のイベントは、ニューラルネットワークをトレーニングするときに適用されるサンプルビデオに対応するイベントタグであり得る。

上記の実施例によって提供される方法において、構築されたニューラルネットワークは、空間特徴を抽出するための有向非巡回グラフだけでなく、時間特徴を抽出するための有向非巡回グラフも含み、有向非巡回グラフの各エッジは、複数の動作方法に対応する。このようにして、サンプルビデオを使用してニューラルネットワークをトレーニングした後、トレーニングされた動作方法の重みパラメータを取得でき、さらに、トレーニングされた動作方法の重みパラメータに基づいて、トレーニングされたニューラルネットワークを取得する。この方法でトレーニングされたニューラルネットワークは、画像次元の空間特徴を認識するだけでなく、時間次元の時間特徴も認識するので、ビデオに対するトレーニングされたニューラルネットワークの認識精度が高い。

当業者は、具体的な実施形態の上記方法において、各ステップの書き込み順序は、厳密な実行順序を意味して実施プロセスを制限するものではなく、各ステップの具体的な実行順序は、その機能と可能な内部ロジックによって決定されるべきであることを理解することができる。

同じ発明構想に基づいて、本発明の実施例は、ニューラルネットワークのトレーニング方法に対応するニューラルネットワークのトレーニング装置をさらに提供し、課題を解決するための本発明の実施例における装置の原理は、本発明の実施例の上記のニューラルネットワークのトレーニング方法に類似しているので、装置の実施は上記方法の実施を参照でき、ここでは重複の部分を繰り返して説明しない。

図１０は、本発明の実施例によるニューラルネットワークのトレーニング装置のアーキテクチャの概略図である。図１０を参照すると、前記装置は、構築部１００１、トレーニング部１００２、及び選択部１００３を備える。

前記構築部１００１は、サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築するように構成され、前記複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも１つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも１つの有向非巡回グラフを含み、前記有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各前記動作方法には、対応する重みパラメータがある。

前記トレーニング部１００２は、前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得するように構成される。

前記選択部１００３は、前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得するように構成される。

いくつかの可能な実施形態では、前記有向非巡回グラフは、２つの入力ノードを含み、前記ニューラルネットワークの各ノードは、１つの特徴マップに対応し、前記構築部１００１はさらに、Ｎ-１番目（Ｎは１より大きい整数）の有向非巡回グラフによって出力された特徴マップを、Ｎ＋１番目の有向非巡回グラフの１つの入力ノードの特徴マップとして使用し、Ｎ番目の有向非巡回グラフによって出力された特徴マップを、前記Ｎ＋１番目の有向非巡回グラフの別の入力ノードの特徴マップとして使用し、ここで、前記ニューラルネットワークの最初の有向非巡回グラフの目標入力ノードに対応する特徴マップは、サンプルビデオのサンプリングビデオフレームに対して特徴抽出を実行した後の特徴マップであり、前記目標入力ノードを除いた別の入力ノードは空であり、前記ニューラルネットワークの２番目の有向非巡回グラフの１つの入力ノードの特徴マップは、前記最初の有向非巡回グラフによって出力された特徴マップであり、別の入力ノードは空である。

いくつかの可能な実施形態では、前記構築部１００１はさらに、前記有向非巡回グラフの入力ノードを除いた他のノードに対応する特徴マップを直列接続し、直列接続した特徴マップを前記有向非巡回グラフによって出力された特徴マップとして使用するように構成される。

いくつかの可能な実施形態では、前記ニューラルネットワークはさらに、最初の有向非巡回グラフに接続されたサンプリング層を含み、前記サンプリング層は、サンプルビデオをサンプリングして、サンプリングビデオフレームを取得し、前記サンプリングビデオフレームに対して特徴抽出を実行して、前記サンプリングビデオフレームに対応する特徴マップを取得し、最初の前記有向非巡回グラフの目標入力ノードに前記サンプリングビデオフレームに対応する特徴マップを入力するように構成され、前記ニューラルネットワークはさらに、最後の有向非巡回グラフの出力ノードに接続された完全接続層を含み、前記完全接続層は、最後の有向非巡回グラフによって出力された特徴マップに基づいて、前記サンプルビデオに対応する複数のイベントの発生確率を決定するように構成され、前記トレーニング部１００２はさらに、前記完全接続層によって計算された前記サンプルビデオに対応する複数のイベントの発生確率、及び各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得するように構成される。

いくつかの可能な実施形態では、前記構築部１００１はさらに、現在のノードを指す各１レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成するように構成される。

いくつかの可能な実施形態では、前記構築部１００１はさらに、前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間の現在のエッジに対して、前記現在のエッジに対応する各前記動作方法に基づいて、前記現在のエッジに対応する１レベル上位のノードの特徴マップを処理して、前記現在のエッジに対応する各前記動作方法に対応する第１中間特徴マップを取得し、前記現在のエッジに対応する各前記動作方法に対応する第１中間特徴マップは、各前記動作方法に対応する重みパラメータに従って加重加算され、前記現在のエッジに対応する第２中間特徴マップを取得し、前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間の複数のエッジにそれぞれ対応する第２中間特徴マップを加算して、前記現在のノードに対応する特徴マップを取得するように構成される。

いくつかの可能な実施形態では、前記選択部１００３はさらに、前記有向非巡回グラフの各前記エッジに対して、各前記エッジに対応する重みパラメータが最大である動作方法を、各前記エッジに対応する目標動作方法として使用するように構成される。

いくつかの可能な実施形態では、前記選択部１００３はさらに、各前記ノードに対して、前記ノードを指すエッジの数が目標の数より大きい場合、前記ノードを指す各エッジに対応する目標動作方法の重みパラメータを決定し、対応する前記重みパラメータの降順に応じて、前記ノードを指す各エッジを並べ替え、前のＫ位のエッジを除いた他のエッジを削除し、ここで、Ｋは前記目標の数であり、削除処理後のニューラルネットワークを、前記トレーニングされたニューラルネットワークとして使用するように構成される。

装置内の各部の処理フロー及び各部間の相互作用フローの説明については、前記方法の実施例における関連する説明を参照し、ここでは繰り返して説明しない。

同じ発明構想に基づいて、本発明の実施例は、ビデオ認識方法に対応するビデオ認識装置をさらに提供し、図１１は、本発明の実施例によるビデオ認識装置のアーキテクチャの概略図である。図１１を参照すると、当該装置は、取得部１１０１、第１決定部１１０２、及び第２決定部１１０３を備え、前記取得部１１０１は、認識されるビデオを取得するように構成され、前記第１決定部１１０２は、上記の実施例に記載のニューラルネットワークのトレーニング方法に基づいて取得したトレーニングされたニューラルネットワークに前記認識されるビデオを入力して、前記認識されるビデオに対応する複数のイベントの発生確率を決定するように構成され、前記第２決定部１１０３は、対応する発生確率がプリセット条件を満たすイベントを、前記認識されるビデオで発生するイベントとして使用するように構成される。

同じ発明構想に基づいて、本発明の実施例は、コンピュータ機器をさらに提供し、図１２は、本発明の実施例によるコンピュータ機器１２００の概略構造図である。図１２を参照すると、当該コンピュータ機器は、プロセッサ１２０１、メモリ１２０２、及びバス１２０３を備える。ここで、メモリ１２０２は、メモリ１２０２１及び外部メモリ１２０２２を備え、実行命令を記憶するように構成され、メモリ１２０２１は、内部メモリとも呼ばれ、プロセッサ１２０１内の計算データと、ハードディスクなどの外部メモリ１２０２２と交換するデータを一時的に記憶するように構成され、プロセッサ１２０１は、メモリ１２０２１を介して外部メモリ１２０２２とデータを交換するように構成され、コンピュータ機器１２００が実行されるときに、プロセッサ１２０１とメモリ１２０２はバス１２０３を介して通信することにより、プロセッサ１２０１に以下の命令を実行させる。

サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築することであって、前記複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも１つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも１つの有向非巡回グラフを含み、前記有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各前記動作方法には、対応する重みパラメータがあることと、
前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することと、
前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得することと、を含む。

本発明の実施例は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体をさらに提供し、当該コンピュータプログラムがプロセッサによって実行されるときに、上記の実施例に記載のニューラルネットワークのトレーニング方法を実行する。ここで、当該記憶媒体揮発性又は不揮発性コンピュータ可読記憶媒体であり得る。

本発明の実施例によって提供されるニューラルネットワークのトレーニング方法のコンピュータプログラム製品は、プログラムコードが記憶されたコンピュータ可読記憶媒体を含み、前記プログラムコードに含まれる命令は、上記の実施例に記載のニューラルネットワークのトレーニング方法を実行され、詳細については、上記の方法の実施例を参照でき、ここでは繰り返して説明しない。

同じ発明構想に基づいて、本発明の実施例は、コンピュータ機器をさらに提供し、図１３は、本発明の実施例によるコンピュータ機器１３００の概略構造図である。図１３を参照すると、当該コンピュータ機器は、プロセッサ１３０１、メモリ１３０２、及びバス１３０３を備える。ここで、メモリ１３０２は、メモリ１３０２１及び外部メモリ１３０２２を備え、実行命令を記憶するように構成され、メモリ１３０２１は、内部メモリとも呼ばれ、計算データをプロセッサ１３０１に一時的に記憶し、データをハードディスクなどの外部メモリ１３０２２と交換するように構成され、プロセッサ１３０１は、メモリ１３０２１を介して外部メモリ１３０２２とデータを交換するように構成され、コンピュータ機器１３００が実行されるときに、プロセッサ１２０１とメモリ１３０２はバス１３０３を介して通信し、以下の方法を実行する。その方法は、認識されるビデオを取得することと、上記の実施例に記載のニューラルネットワークのトレーニング方法に基づいて取得したトレーニングされたニューラルネットワークに前記認識されるビデオを入力して、前記認識されるビデオに対応する複数のイベントの発生確率を決定することと、対応する発生確率がプリセット条件を満たすイベントを、前記認識されるビデオで発生するイベントとして使用することと、を含む。

本発明の実施例は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体をさらに提供し、当該コンピュータプログラムがプロセッサによって実行されるときに、上記の実施例に記載のビデオ認識方法を実行する。ここで、当該記憶媒体揮発性又は不揮発性コンピュータ可読記憶媒体であり得る。

本発明の実施例によって提供されるビデオ認識方法のコンピュータプログラム製品はプログラムコードが記憶されたコンピュータ可読記憶媒体を含み、前記プログラムコードに含まれる命令は、上記の実施例に記載のビデオ認識方法実行され、詳細については、上記の方法の実施例を参照でき、ここでは繰り返して説明しない。

本発明の実施例はコンピュータプログラムをさらに提供し、当該コンピュータプログラムはプロセッサによって実行されるときに、上記の実施例によるにいずれか１つの方法を実現する。当該コンピュータプログラム製品は、ハードウェア、ソフトウェア又はそれらの組み合わせの方式によって実現され得る。１つの代替実施例では、前記コンピュータプログラム製品は、コンピュータ記憶媒体として実現され、別の代替実施例では、コンピュータプログラム製品は、例えばソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）などのソフトウェア製品として実現される。

当業者なら明確に理解できるが、説明の便宜及び簡潔のために、上記に説明されたシステム、装置及びユニットの具体的な作業プロセスは、前述の方法の実施例における対応するプロセスを参照することができ、ここでは繰り返して説明しない。本発明で提供されるいくつかの実施例では、開示されたシステム、装置及び方法は、他の方式で実現できることを理解されたい。上記で説明された装置の実施例は例示的なものに過ぎず、例えば、前記ユニットの分割は、論理機能の分割に過ぎず、実際の実現では、他の分割方法があり、さらに例えば、複数のユニット又はコンポーネントを別のシステムに統合又は集積したり、又は一部の特徴を無視するか実行しないことができる。なお、表示又は議論された相互結合又は直接結合又は通信接続は、いくつかの通信インターフェースを使用して実現することができ、装置又はユニット間の間接的な結合又は通信接続は、電気的、機械的又は他の形態であり得る。

前記個別のコンポーネントとして説明されたユニットは、物理的に分離されている場合とされていない場合があり、ユニットとして表示されるコンポーネントは、物理ユニットである場合とそうでない場合もあり、１箇所に配置される場合もあれば、複数のネットワークユニットに分散される場合もある。実際の需要に応じて、その中のユニットの一部又は全部を選択して本実施例における技術的解決策の目的を達成することができる。

さらに、本発明の各実施例における各機能ユニットは、１つの処理ユニットに統合されてもよく、又は各ユニットが物理的に別々に存在してもよく、２つ又は２つ以上のユニットが１つのユニットに統合されてもよい。

前記機能が、ソフトウェア機能ユニットの形態で実現され、独立した製品として販売又は使用される場合、コンピュータ可読記憶媒体に記憶されることができる。このような理解に基づいて、本発明の技術的解決策の本質的な部分、又は既存の技術に貢献のある部分、又は当該技術的解決策の一部は、ソフトウェア製品の形で具現されることができ、前記コンピュータソフトウェア製品は、１つの記憶媒体に記憶され、１台のコンピュータ機器（パーソナルコンピュータ、サーバ、又はネットワーク機器などであり得る）に、本発明の各実施例に記載の方法の全部又は一部のステップを実行させるためのいくつかの命令を含む。前述した記憶媒体は、Ｕディスク、モバイルハードディスク、読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、磁気ディスク又は光ディスク等のプログラムコードを記憶することができる様々な媒体を含む。

最後に、上記の実施例は、本発明の実施形態の実装のみであり、本発明の実施例における技術的解決策を説明するために使用され、本発明の実施例の保護範囲はこれに限定されない。本発明の実施例は、上記の実施例を参照して詳細に説明されているが、当業者は、本発明の実施例で開示される技術的範囲内で、上記の実施例に記載の技術的解決策は、修正又は容易に想到し得る変更、又は、その技術的特徴の一部を同等置換することができこれらの修正、変更、又は置換は、対応する技術的解決策の本質を本発明の実施例の技術的解決策の精神及び範囲から逸脱するものではなく、すべて本発明の実施例の保護範囲内に含まれるべきである。したがって、本願の保護範囲は、特許請求の範囲の保護範囲に従うものとすることに留意されたい。

本発明の実施例は、サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築し、前記複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも１つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも１つの有向非巡回グラフを含み、前記有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各前記動作方法には、対応する重みパラメータがあり、前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得し、前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得する。上記の実施例において、構築されたニューラルネットワークは、空間特徴を抽出するための有向非巡回グラフだけでなく、時間特徴を抽出するための有向非巡回グラフも含み、有向非巡回グラフの各エッジは、複数の動作方法に対応する。このようにして、サンプルビデオを使用してニューラルネットワークをトレーニングした後、トレーニングされた動作方法の重みパラメータを取得でき、さらに、トレーニングされた動作方法の重みパラメータに基づいて、トレーニングされたニューラルネットワークを取得する。この方法でトレーニングされたニューラルネットワークは、画像次元の空間特徴を認識するだけでなく、時間次元の時間特徴も認識するので、ビデオに対するトレーニングされたニューラルネットワークの認識精度は、比較的に高い。

本発明の上記の目的、特徴及び利点をより明確で理解しやすくするために、以下では、添付の図面を参照して好ましい実施例を詳細に説明する。
例えば、本願は以下の項目を提供する。
（項目１）
ニューラルネットワークのトレーニング方法であって、
サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築することであって、前記複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも１つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも１つの有向非巡回グラフを含み、前記有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各前記動作方法には、対応する重みパラメータがあることと、
前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することと、
前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得することと、を含む、前記ニューラルネットワークのトレーニング方法。
（項目２）
前記有向非巡回グラフは、２つの入力ノードを含み、前記ニューラルネットワークの各ノードは、１つの特徴マップに対応し、
前記複数の有向非巡回グラフを含むニューラルネットワークを構築することは、
Ｎ-１番目（Ｎは１より大きい整数）の有向非巡回グラフによって出力された特徴マップを、Ｎ＋１番目の有向非巡回グラフの１つの入力ノードの特徴マップとして使用し、Ｎ番目の有向非巡回グラフによって出力された特徴マップを、前記Ｎ＋１番目の有向非巡回グラフの別の入力ノードの特徴マップとして使用することを含み、
前記ニューラルネットワークの最初の有向非巡回グラフの目標入力ノードに対応する特徴マップは、サンプルビデオのサンプリングビデオフレームに対して特徴抽出を実行した後の特徴マップであり、前記目標入力ノードを除いた別の入力ノードは空であり、前記ニューラルネットワークの２番目の有向非巡回グラフの１つの入力ノードの特徴マップは、前記最初の有向非巡回グラフによって出力された特徴マップであり、別の入力ノードは空である、
項目１に記載のニューラルネットワークのトレーニング方法。
（項目３）
前記有向非巡回グラフの入力ノードを除いた他のノードに対応する特徴マップを直列接続し、直列接続した特徴マップを前記有向非巡回グラフによって出力された特徴マップとして使用することをさらに含む、
項目２に記載のニューラルネットワークのトレーニング方法。
（項目４）
前記時間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第１動作方法に対応し、前記空間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第２動作方法に対応し、前記複数の第１動作方法は、前記複数の第２動作方法及び各前記第２動作方法と異なる少なくとも１つの他の動作方法を含む、
項目１ないし３のいずれか一項に記載のニューラルネットワークのトレーニング方法。
（項目５）
前記ニューラルネットワークはさらに、最初の有向非巡回グラフに接続されたサンプリング層を含み、前記サンプリング層は、サンプルビデオをサンプリングして、サンプリングビデオフレームを取得し、前記サンプリングビデオフレームに対して特徴抽出を実行して、前記サンプリングビデオフレームに対応する特徴マップを取得し、最初の前記有向非巡回グラフの目標入力ノードに前記サンプリングビデオフレームに対応する特徴マップを入力するように構成され、
前記ニューラルネットワークはさらに、最後の有向非巡回グラフに接続された完全接続層を含み、前記完全接続層は、最後の有向非巡回グラフによって出力された特徴マップに基づいて、前記サンプルビデオに対応する複数のイベントの発生確率を決定するように構成され、
前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することは、
前記完全接続層によって計算された前記サンプルビデオに対応する複数のイベントの発生確率、及び各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することを含む、
項目１ないし４のいずれか一項に記載のニューラルネットワークのトレーニング方法。
（項目６）
前記ニューラルネットワークのトレーニング方法は、
現在のノードを指す各１レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成することをさらに含む、
項目２ないし５のいずれか一項に記載のニューラルネットワークのトレーニング方法。
（項目７）
前記現在のノードを指す各１レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成することは、
前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間の現在のエッジに対して、前記現在のエッジに対応する各前記動作方法に基づいて、前記現在のエッジに対応する１レベル上位のノードの特徴マップを処理して、前記現在のエッジに対応する各前記動作方法に対応する第１中間特徴マップを取得することと、
前記現在のエッジに対応する各前記動作方法に対応する第１中間特徴マップは、各前記動作方法に対応する重みパラメータに従って加重加算され、前記現在のエッジに対応する第２中間特徴マップを取得することと、
前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間の複数のエッジにそれぞれ対応する第２中間特徴マップを加算して、前記現在のノードに対応する特徴マップを取得することと、を含む、
項目６に記載のニューラルネットワークのトレーニング方法。
（項目８）
前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択することは、
前記有向非巡回グラフの各前記エッジに対して、各前記エッジに対応する重みパラメータが最大である動作方法を、各前記エッジに対応する目標動作方法として使用することを含む、
項目１ないし７のいずれか一項に記載のニューラルネットワークのトレーニング方法。
（項目９）
前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得することは、
各前記ノードに対して、前記ノードを指すエッジの数が目標の数より大きい場合、前記ノードを指す各エッジに対応する前記目標動作方法の重みパラメータを決定することと、
対応する前記重みパラメータの降順に応じて、前記ノードを指す各エッジを並べ替え、前のＫ位のエッジを除いた他のエッジを削除することであって、Ｋは前記目標の数であることと、
削除処理後のニューラルネットワークを、前記トレーニングされたニューラルネットワークとして使用することと、を含む、
項目８に記載のニューラルネットワークのトレーニング方法。
（項目１０）
ビデオ認識方法であって、
認識されるビデオを取得することと、
項目１ないし９のいずれかに記載のニューラルネットワークのトレーニング方法に基づいてトレーニングされたニューラルネットワークに、前記認識されるビデオを入力して、前記認識されるビデオに対応する複数のイベントの発生確率を決定することと、
対応する発生確率がプリセット条件を満たすイベントを、前記認識されるビデオで発生するイベントとして使用することと、を含む、前記ビデオ認識方法。
（項目１１）
ニューラルネットワークのトレーニング装置であって、
サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築するように構成される構築部であって、前記複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも１つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも１つの有向非巡回グラフを含み、前記有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各前記動作方法には、対応する重みパラメータがある、構築部と、
前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得するように構成される、トレーニング部と、
前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得するように構成される、選択部と、を備える、前記ニューラルネットワークのトレーニング装置。
（項目１２）
前記構築部はさらに、Ｎ-１番目（Ｎは１より大きい整数）の有向非巡回グラフによって出力された特徴マップを、Ｎ＋１番目の有向非巡回グラフの１つの入力ノードの特徴マップとして使用し、Ｎ番目の有向非巡回グラフによって出力された特徴マップを、前記Ｎ＋１番目の有向非巡回グラフの別の入力ノードの特徴マップとして使用するように構成され、前記ニューラルネットワークの最初の有向非巡回グラフの目標入力ノードに対応する特徴マップは、サンプルビデオのサンプリングビデオフレームに対して特徴抽出を実行した後の特徴マップであり、前記目標入力ノードを除いた別の入力ノードは空であり、前記ニューラルネットワークの２番目の有向非巡回グラフの１つの入力ノードの特徴マップは、前記最初の有向非巡回グラフによって出力された特徴マップであり、別の入力ノードは空である、
項目１１に記載のニューラルネットワークのトレーニング装置。
（項目１３）
前記構築部はさらに、前記有向非巡回グラフの入力ノードを除いた他のノードに対応する特徴マップを直列接続し、直列接続した特徴マップを前記有向非巡回グラフによって出力された特徴マップとして使用するように構成される、
項目１２に記載のニューラルネットワークのトレーニング装置。
（項目１４）
前記時間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第１動作方法に対応し、前記空間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第２動作方法に対応し、前記複数の第１動作方法は、前記複数の第２動作方法及び各前記第２動作方法と異なる少なくとも１つの他の動作方法を含む、
項目１１ないし１３のいずれか一項に記載のニューラルネットワークのトレーニング装置。
（項目１５）
前記ニューラルネットワークはさらに、最初の有向非巡回グラフに接続されたサンプリング層を含み、前記サンプリング層は、サンプルビデオをサンプリングして、サンプリングビデオフレームを取得し、前記サンプリングビデオフレームに対して特徴抽出を実行して、前記サンプリングビデオフレームに対応する特徴マップを取得し、最初の前記有向非巡回グラフの目標入力ノードに前記サンプリングビデオフレームに対応する特徴マップを入力するように構成され、前記ニューラルネットワークはさらに、最後の有向非巡回グラフに接続された完全接続層を含み、前記完全接続層は、最後の有向非巡回グラフによって出力された特徴マップに基づいて、前記サンプルビデオに対応する複数のイベントの発生確率を決定するように構成され、
前記トレーニング部はさらに、前記完全接続層によって計算された前記サンプルビデオに対応する複数のイベントの発生確率、及び各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得するように構成される、
項目１１ないし１４のいずれか一項に記載のニューラルネットワークのトレーニング装置。
（項目１６）
前記構築部はさらに、現在のノードを指す各１レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成するように構成される、
項目１２ないし１５のいずれか一項に記載のニューラルネットワークのトレーニング装置。
（項目１７）
前記構築部はさらに、前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間の現在のエッジに対して、前記現在のエッジに対応する各前記動作方法に基づいて、前記現在のエッジに対応する１レベル上位のノードの特徴マップを処理して、前記現在のエッジに対応する各前記動作方法に対応する第１中間特徴マップを取得し、前記現在のエッジに対応する各前記動作方法に対応する第１中間特徴マップは、各前記動作方法に対応する重みパラメータに従って加重加算され、前記現在のエッジに対応する第２中間特徴マップを取得し、前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間の複数のエッジにそれぞれ対応する第２中間特徴マップを加算して、前記現在のノードに対応する特徴マップを取得するように構成される、
項目１６に記載のニューラルネットワークのトレーニング装置。
（項目１８）
前記選択部はさらに、前記有向非巡回グラフの各前記エッジに対して、各前記エッジに対応する重みパラメータが最大である動作方法を、各前記エッジに対応する目標動作方法として使用するように構成される、
項目１１ないし１７のいずれか一項に記載のニューラルネットワークのトレーニング装置。
（項目１９）
前記選択部はさらに、各前記ノードに対して、前記ノードを指すエッジの数が目標の数より大きい場合、前記ノードを指す各エッジに対応する前記目標動作方法の重みパラメータを決定し、対応する前記重みパラメータの降順に応じて、前記ノードを指す各エッジを並べ替え、前のＫ位のエッジを除いた他のエッジを削除し、Ｋは前記目標の数であり、削除処理後のニューラルネットワークを、前記トレーニングされたニューラルネットワークとして使用するように構成される、
項目１８に記載のニューラルネットワークのトレーニング装置。
（項目２０）
ビデオ認識装置であって、
認識されるビデオを取得するように構成される、取得部と、
項目１ないし９のいずれかに記載のニューラルネットワークのトレーニング方法に基づいてトレーニングされたニューラルネットワークに、前記認識されるビデオを入力して、前記認識されるビデオに対応する複数のイベントの発生確率を決定するように構成される、第１決定部と、
対応する発生確率がプリセット条件を満たすイベントを、前記認識されるビデオで発生するイベントとして使用するように構成される、第２決定部と、を備える、前記ビデオ認識装置。
（項目２１）
プロセッサ、前記プロセッサによって実行可能な機械可読命令が記憶されたメモリ及びバスを備える、コンピュータ機器であって、前記コンピュータ機器が実行されるときに、前記プロセッサと前記メモリとは、バスを介して通信し、前記機械可読命令が前記プロセッサによって実行されるときに、項目１ないし９のいずれか一項に記載のニューラルネットワークのトレーニング方法のステップ、又は、項目１０に記載のビデオ認識方法のステップを実行する、前記コンピュータ機器。
（項目２２）
コンピュータプログラムが記憶された、コンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されるときに、項目１ないし９のいずれか一項に記載のニューラルネットワークのトレーニング方法のステップ、又は、項目１０に記載のビデオ認識方法のステップを実行する、前記コンピュータ可読記憶媒体。
（項目２３）
コンピュータ可読コードを含む、コンピュータプログラムであって、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサは、項目１ないし９のいずれか一項に記載のニューラルネットワークのトレーニング方法のステップ、又は、項目１０に記載のビデオ認識方法のステップを実行する、前記コンピュータプログラム。

Claims

ニューラルネットワークのトレーニング方法であって、
サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築することであって、前記複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも１つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも１つの有向非巡回グラフを含み、前記有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各前記動作方法には、対応する重みパラメータがあることと、
前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することと、
前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得することと、を含む、前記ニューラルネットワークのトレーニング方法。
前記有向非巡回グラフは、２つの入力ノードを含み、前記ニューラルネットワークの各ノードは、１つの特徴マップに対応し、
前記複数の有向非巡回グラフを含むニューラルネットワークを構築することは、
Ｎ-１番目（Ｎは１より大きい整数）の有向非巡回グラフによって出力された特徴マップを、Ｎ＋１番目の有向非巡回グラフの１つの入力ノードの特徴マップとして使用し、Ｎ番目の有向非巡回グラフによって出力された特徴マップを、前記Ｎ＋１番目の有向非巡回グラフの別の入力ノードの特徴マップとして使用することを含み、
前記ニューラルネットワークの最初の有向非巡回グラフの目標入力ノードに対応する特徴マップは、サンプルビデオのサンプリングビデオフレームに対して特徴抽出を実行した後の特徴マップであり、前記目標入力ノードを除いた別の入力ノードは空であり、前記ニューラルネットワークの２番目の有向非巡回グラフの１つの入力ノードの特徴マップは、前記最初の有向非巡回グラフによって出力された特徴マップであり、別の入力ノードは空である、
請求項１に記載のニューラルネットワークのトレーニング方法。
前記有向非巡回グラフの入力ノードを除いた他のノードに対応する特徴マップを直列接続し、直列接続した特徴マップを前記有向非巡回グラフによって出力された特徴マップとして使用することをさらに含む、
請求項２に記載のニューラルネットワークのトレーニング方法。
前記時間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第１動作方法に対応し、前記空間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第２動作方法に対応し、前記複数の第１動作方法は、前記複数の第２動作方法及び各前記第２動作方法と異なる少なくとも１つの他の動作方法を含む、
請求項１ないし３のいずれか一項に記載のニューラルネットワークのトレーニング方法。
前記ニューラルネットワークはさらに、最初の有向非巡回グラフに接続されたサンプリング層を含み、前記サンプリング層は、サンプルビデオをサンプリングして、サンプリングビデオフレームを取得し、前記サンプリングビデオフレームに対して特徴抽出を実行して、前記サンプリングビデオフレームに対応する特徴マップを取得し、最初の前記有向非巡回グラフの目標入力ノードに前記サンプリングビデオフレームに対応する特徴マップを入力するように構成され、
前記ニューラルネットワークはさらに、最後の有向非巡回グラフに接続された完全接続層を含み、前記完全接続層は、最後の有向非巡回グラフによって出力された特徴マップに基づいて、前記サンプルビデオに対応する複数のイベントの発生確率を決定するように構成され、
前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することは、
前記完全接続層によって計算された前記サンプルビデオに対応する複数のイベントの発生確率、及び各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得することを含む、
請求項１ないし４のいずれか一項に記載のニューラルネットワークのトレーニング方法。
前記ニューラルネットワークのトレーニング方法は、
現在のノードを指す各１レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成することをさらに含む、
請求項２ないし５のいずれか一項に記載のニューラルネットワークのトレーニング方法。
前記現在のノードを指す各１レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成することは、
前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間の現在のエッジに対して、前記現在のエッジに対応する各前記動作方法に基づいて、前記現在のエッジに対応する１レベル上位のノードの特徴マップを処理して、前記現在のエッジに対応する各前記動作方法に対応する第１中間特徴マップを取得することと、
前記現在のエッジに対応する各前記動作方法に対応する第１中間特徴マップは、各前記動作方法に対応する重みパラメータに従って加重加算され、前記現在のエッジに対応する第２中間特徴マップを取得することと、
前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間の複数のエッジにそれぞれ対応する第２中間特徴マップを加算して、前記現在のノードに対応する特徴マップを取得することと、を含む、
請求項６に記載のニューラルネットワークのトレーニング方法。
前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択することは、
前記有向非巡回グラフの各前記エッジに対して、各前記エッジに対応する重みパラメータが最大である動作方法を、各前記エッジに対応する目標動作方法として使用することを含む、
請求項１ないし７のいずれか一項に記載のニューラルネットワークのトレーニング方法。
前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得することは、
各前記ノードに対して、前記ノードを指すエッジの数が目標の数より大きい場合、前記ノードを指す各エッジに対応する前記目標動作方法の重みパラメータを決定することと、
対応する前記重みパラメータの降順に応じて、前記ノードを指す各エッジを並べ替え、前のＫ位のエッジを除いた他のエッジを削除することであって、Ｋは前記目標の数であることと、
削除処理後のニューラルネットワークを、前記トレーニングされたニューラルネットワークとして使用することと、を含む、
請求項８に記載のニューラルネットワークのトレーニング方法。
ビデオ認識方法であって、
認識されるビデオを取得することと、
請求項１ないし９のいずれかに記載のニューラルネットワークのトレーニング方法に基づいてトレーニングされたニューラルネットワークに、前記認識されるビデオを入力して、前記認識されるビデオに対応する複数のイベントの発生確率を決定することと、
対応する発生確率がプリセット条件を満たすイベントを、前記認識されるビデオで発生するイベントとして使用することと、を含む、前記ビデオ認識方法。
ニューラルネットワークのトレーニング装置であって、
サンプルビデオを取得し、複数の有向非巡回グラフを含むニューラルネットワークを構築するように構成される構築部であって、前記複数の有向非巡回グラフは、時間特徴を抽出するための少なくとも１つの有向非巡回グラフ、及び空間特徴を抽出するための少なくとも１つの有向非巡回グラフを含み、前記有向非巡回グラフの各エッジは、それぞれ複数の動作方法に対応し、各前記動作方法には、対応する重みパラメータがある、構築部と、
前記サンプルビデオと各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得するように構成される、トレーニング部と、
前記トレーニングされた重みパラメータに基づいて、前記複数の有向非巡回グラフの各エッジのために目標動作方法を選択して、トレーニングされたニューラルネットワークを取得するように構成される、選択部と、を備える、前記ニューラルネットワークのトレーニング装置。
前記構築部はさらに、Ｎ-１番目（Ｎは１より大きい整数）の有向非巡回グラフによって出力された特徴マップを、Ｎ＋１番目の有向非巡回グラフの１つの入力ノードの特徴マップとして使用し、Ｎ番目の有向非巡回グラフによって出力された特徴マップを、前記Ｎ＋１番目の有向非巡回グラフの別の入力ノードの特徴マップとして使用するように構成され、前記ニューラルネットワークの最初の有向非巡回グラフの目標入力ノードに対応する特徴マップは、サンプルビデオのサンプリングビデオフレームに対して特徴抽出を実行した後の特徴マップであり、前記目標入力ノードを除いた別の入力ノードは空であり、前記ニューラルネットワークの２番目の有向非巡回グラフの１つの入力ノードの特徴マップは、前記最初の有向非巡回グラフによって出力された特徴マップであり、別の入力ノードは空である、
請求項１１に記載のニューラルネットワークのトレーニング装置。
前記構築部はさらに、前記有向非巡回グラフの入力ノードを除いた他のノードに対応する特徴マップを直列接続し、直列接続した特徴マップを前記有向非巡回グラフによって出力された特徴マップとして使用するように構成される、
請求項１２に記載のニューラルネットワークのトレーニング装置。
前記時間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第１動作方法に対応し、前記空間特徴を抽出するための有向非巡回グラフの各エッジは、複数の第２動作方法に対応し、前記複数の第１動作方法は、前記複数の第２動作方法及び各前記第２動作方法と異なる少なくとも１つの他の動作方法を含む、
請求項１１ないし１３のいずれか一項に記載のニューラルネットワークのトレーニング装置。
前記ニューラルネットワークはさらに、最初の有向非巡回グラフに接続されたサンプリング層を含み、前記サンプリング層は、サンプルビデオをサンプリングして、サンプリングビデオフレームを取得し、前記サンプリングビデオフレームに対して特徴抽出を実行して、前記サンプリングビデオフレームに対応する特徴マップを取得し、最初の前記有向非巡回グラフの目標入力ノードに前記サンプリングビデオフレームに対応する特徴マップを入力するように構成され、前記ニューラルネットワークはさらに、最後の有向非巡回グラフに接続された完全接続層を含み、前記完全接続層は、最後の有向非巡回グラフによって出力された特徴マップに基づいて、前記サンプルビデオに対応する複数のイベントの発生確率を決定するように構成され、
前記トレーニング部はさらに、前記完全接続層によって計算された前記サンプルビデオに対応する複数のイベントの発生確率、及び各前記サンプルビデオに対応するイベントタグに基づいて、前記ニューラルネットワークをトレーニングして、トレーニングされた重みパラメータを取得するように構成される、
請求項１１ないし１４のいずれか一項に記載のニューラルネットワークのトレーニング装置。
前記構築部はさらに、現在のノードを指す各１レベル上位のノードに対応する特徴マップ、及び前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間のエッジに対応する前記動作方法の重みパラメータに従って、前記現在のノードに対応する特徴マップを生成するように構成される、
請求項１２ないし１５のいずれか一項に記載のニューラルネットワークのトレーニング装置。
前記構築部はさらに、前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間の現在のエッジに対して、前記現在のエッジに対応する各前記動作方法に基づいて、前記現在のエッジに対応する１レベル上位のノードの特徴マップを処理して、前記現在のエッジに対応する各前記動作方法に対応する第１中間特徴マップを取得し、前記現在のエッジに対応する各前記動作方法に対応する第１中間特徴マップは、各前記動作方法に対応する重みパラメータに従って加重加算され、前記現在のエッジに対応する第２中間特徴マップを取得し、前記現在のノードと前記現在のノードを指す各１レベル上位のノードとの間の複数のエッジにそれぞれ対応する第２中間特徴マップを加算して、前記現在のノードに対応する特徴マップを取得するように構成される、
請求項１６に記載のニューラルネットワークのトレーニング装置。
前記選択部はさらに、前記有向非巡回グラフの各前記エッジに対して、各前記エッジに対応する重みパラメータが最大である動作方法を、各前記エッジに対応する目標動作方法として使用するように構成される、
請求項１１ないし１７のいずれか一項に記載のニューラルネットワークのトレーニング装置。
前記選択部はさらに、各前記ノードに対して、前記ノードを指すエッジの数が目標の数より大きい場合、前記ノードを指す各エッジに対応する前記目標動作方法の重みパラメータを決定し、対応する前記重みパラメータの降順に応じて、前記ノードを指す各エッジを並べ替え、前のＫ位のエッジを除いた他のエッジを削除し、Ｋは前記目標の数であり、削除処理後のニューラルネットワークを、前記トレーニングされたニューラルネットワークとして使用するように構成される、
請求項１８に記載のニューラルネットワークのトレーニング装置。
ビデオ認識装置であって、
認識されるビデオを取得するように構成される、取得部と、
請求項１ないし９のいずれかに記載のニューラルネットワークのトレーニング方法に基づいてトレーニングされたニューラルネットワークに、前記認識されるビデオを入力して、前記認識されるビデオに対応する複数のイベントの発生確率を決定するように構成される、第１決定部と、
対応する発生確率がプリセット条件を満たすイベントを、前記認識されるビデオで発生するイベントとして使用するように構成される、第２決定部と、を備える、前記ビデオ認識装置。
プロセッサ、前記プロセッサによって実行可能な機械可読命令が記憶されたメモリ及びバスを備える、コンピュータ機器であって、前記コンピュータ機器が実行されるときに、前記プロセッサと前記メモリとは、バスを介して通信し、前記機械可読命令が前記プロセッサによって実行されるときに、請求項１ないし９のいずれか一項に記載のニューラルネットワークのトレーニング方法のステップ、又は、請求項１０に記載のビデオ認識方法のステップを実行する、前記コンピュータ機器。
コンピュータプログラムが記憶された、コンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されるときに、請求項１ないし９のいずれか一項に記載のニューラルネットワークのトレーニング方法のステップ、又は、請求項１０に記載のビデオ認識方法のステップを実行する、前記コンピュータ可読記憶媒体。
コンピュータ可読コードを含む、コンピュータプログラムであって、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサは、請求項１ないし９のいずれか一項に記載のニューラルネットワークのトレーニング方法のステップ、又は、請求項１０に記載のビデオ認識方法のステップを実行する、前記コンピュータプログラム。