JP6920771B2 - 3d畳み込みニューラルネットワークに基づく動作識別方法及び装置 - Google Patents

3d畳み込みニューラルネットワークに基づく動作識別方法及び装置 Download PDF

Info

Publication number
JP6920771B2
JP6920771B2 JP2020524869A JP2020524869A JP6920771B2 JP 6920771 B2 JP6920771 B2 JP 6920771B2 JP 2020524869 A JP2020524869 A JP 2020524869A JP 2020524869 A JP2020524869 A JP 2020524869A JP 6920771 B2 JP6920771 B2 JP 6920771B2
Authority
JP
Japan
Prior art keywords
video
identified
motion
neural network
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020524869A
Other languages
English (en)
Other versions
JP2021502638A (ja
Inventor
向陽 季
向陽 季
嘉林 呉
嘉林 呉
武魁 楊
武魁 楊
谷 王
谷 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Publication of JP2021502638A publication Critical patent/JP2021502638A/ja
Application granted granted Critical
Publication of JP6920771B2 publication Critical patent/JP6920771B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Computational Linguistics (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Description

本開示は、ニューラルネットワークの技術分野に関し、特に、ニューラルネットワークに基づく識別方法及び装置に関する。
一般的に、動作の位置決めは、空間のみによる位置決めと、時間・空間による同時の位置決めとの2種類がある。複数の動作実行者による同時の動作が存在する長いビデオでは、異なる動作実例同士が影響し合い、重なっている。ニューラルネットワークからは、種別に関する一般化表現が得られるため、従来のニューラルネットワークに基づく位置決め方法では、それらのオーバーラップ動作を区別させることが困難であった。
従来の動作位置決め方法では、典型的なものとして、フレーム毎に移動している人物を検出し、これらの検出した人物を異なるフレーム間で連結して、1つの動作実例を形成するという2次元・時間の動作位置決めの枠組みがある。これらのアルゴリズムでは、人物を検出する際に1フレームだけの外見的特徴と動作的特徴しか考慮できないため、ニューラルネットワークにおける時間的受容野が大きく減少され、動作幅が小さい動作を背景から分離しにくくなる。また、人物を検出する各検出枠を評価する際に、アルゴリズムがフレームごとに行われるため、検出枠はネットワークを個別に経由しなければならない。これにより、計算コストが大幅に増加してしまう。また、複数の動作実例の存在により、回帰したスコアマップにおける応答がオーバーラップしているので、通常の3次元動作の位置決め方法では、複数の動作実例を位置決めすることが困難であった。
それを鑑みて、本開示は、ニューラルネットワークに基づく動作識別方法の正確率と検出効率を向上させるための、ニューラルネットワークに基づく動作識別方法及び装置を提案している。
本開示の他面によれば、識別すべきビデオをトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得することと、
前記識別すべきビデオの動作抽出結果に基づき、前記識別すべきビデオの動作実例検出結果を特定することと、
前記識別すべきビデオをトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得することと、
前記識別すべきビデオの動作実例検出結果と動作種別判別結果とに基づき、前記識別すべきビデオの動作種別を特定することと、を含むニューラルネットワークに基づく動作識別方法を提供する。
可能性のある実現方式において、前記識別すべきビデオの動作抽出結果は、
前記識別すべきビデオにおける各フレーム画像が1つの動作実例内の1つの動作位置に属する第1の確率、および、
前記識別すべきビデオにおける動作開始フレームと動作終了フレーム、を含む。
可能性のある実現方式において、前記識別すべきビデオの動作抽出結果に基づき、前記識別すべきビデオの動作実例検出結果を特定することは、
前記識別すべきビデオにおける各フレーム画像の第1の確率、および、前記識別すべきビデオにおける動作開始フレームと動作終了フレームに基づき、各フレーム画像における動作検出枠を計算することと、
前記動作検出枠に基づき、各フレーム画像間の検出枠マッチング値を計算することと、
前記検出枠マッチング値に基づき、前記識別すべきビデオにおける動作実例検出枠を特定することと、を含む。
可能性のある実現方式において、前記識別すべきビデオの動作種別判別結果は、各フレーム画像におけるピクセルに対応する動作種別確率を含む。
可能性のある実現方式において、前記識別すべきビデオの動作実例検出結果と動作種別判別結果とに基づき、前記識別すべきビデオの動作種別を特定することは、
各フレーム画像におけるピクセルに対応する動作種別確率のうち、前記動作実例検出枠におけるピクセルに対応する動作種別を特定することと、
前記動作実例検出枠におけるピクセルに対応する動作種別に基づき、前記識別すべきビデオの動作種別を特定することと、を含む。
可能性のある実現方式において、前記識別すべきビデオをトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得することは、
前記識別すべきビデオをトレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得することと、
前記特徴値をトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得することと、を含み、
前記識別すべきビデオを、トレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得することは、
前記識別すべきビデオを、トレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得することと、
前記特徴値をトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得することと、を含む。
本開示の他面によれば、識別すべきビデオをトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得する第1の3次元識別モジュールと、
前記識別すべきビデオの動作抽出結果に基づき、前記識別すべきビデオの動作実例検出結果を特定する動作抽出結果処理モジュールと、
前記識別すべきビデオをトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得する第2の3次元識別モジュールと、
前記識別すべきビデオの動作実例検出結果と動作種別判別結果とに基づき、前記識別すべきビデオの動作種別を特定する動作種別特定モジュールと、を備えたニューラルネットワークに基づく動作識別装置を提供する。
可能性のある実現方式において、前記識別すべきビデオの動作抽出結果は、
前記識別すべきビデオにおける各フレーム画像が1つの動作実例内の1つの動作位置に属する第1の確率、および、
前記識別すべきビデオにおける動作開始フレームと動作終了フレーム、を含む。
可能性のある実現方式において、前記動作抽出結果処理モジュールは、
前記識別すべきビデオにおける各フレーム画像の第1の確率、および、前記識別すべきビデオにおける動作開始フレームと動作終了フレームに基づき、各フレーム画像における動作検出枠を計算する動作検出枠計算サブモジュールと、
前記動作検出枠に基づき、各フレーム画像間の検出枠マッチング値を計算するマッチング値計算サブモジュールと、
前記検出枠マッチング値に基づき、前記識別すべきビデオにおける動作実例検出枠を特定する動作実例特定サブモジュールと、を備える。
可能性のある実現方式において、前記識別すべきビデオの動作種別判別結果は、各フレーム画像におけるピクセルに対応する動作種別確率を含む。
可能性のある実現方式において、前記動作種別特定モジュールは、
各フレーム画像におけるピクセルに対応する動作種別確率のうち、前記動作実例検出枠におけるピクセルに対応する動作種別を特定する第1の動作種別特定サブモジュールと、
前記動作実例検出枠におけるピクセルに対応する動作種別に基づき、前記識別すべきビデオにおける動作種別を特定する第2の動作種別特定サブモジュールと、を備える。
可能性のある実現方式において、前記第1の3次元識別モジュールは、
前記識別すべきビデオをトレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得する第1の2次元識別サブモジュールと、
前記特徴値をトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得する第1の3次元識別サブモジュールと、を備え、
前記第2の3次元識別モジュールは、
前記識別すべきビデオを、トレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得する第2の2次元識別サブモジュールと、
前記特徴値をトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得する第2の3次元識別サブモジュールと、を備える。
本開示の他面によれば、上記ニューラルネットワークに基づく動作識別方法を実行するように配置されているプロセッサと、プロセッサが実行可能な命令を記憶するためのメモリと、を含むニューラルネットワークに基づく動作識別装置を提供する。
本開示の他面によれば、プロセッサによって実行された場合、上記ニューラルネットワークに基づく動作識別方法を実現するコンピュータプログラム命令が記憶された不揮発性コンピュータ読取可能な記憶媒体を提供する。
本開示の実施例によれば、2つの3次元ニューラルネットワークモデルを用いて識別すべきビデオを処理して、動作抽出結果と動作種別判別結果をそれぞれ取得する。そのうち、動作抽出結果に基づき、識別すべきビデオにおける動作実例を特定した後、さらに、動作種別判別結果と合わせて、識別すべきビデオにおける動作種別を特定する。2つの3次元ニューラルネットワークモデルを用いて得られた異なる識別結果を合わせることにより、3次元ニューラルネットワークモデルの識別効率を向上させ、単一の3次元ニューラルネットワークモデルによる計算量を減少することができる。
以下の添付図面を参照して例示的な実施例を詳しく説明することにより、本開示の他の特徴や態様が明瞭になるだろう。
明細書に含まれて明細書の一部を構成した添付図面は、明細書とともに、本開示の例示的な実施例、特徴、および、態様を示し、かつ、本開示の原理を解釈するためのものである。
本開示の一実施例に係るニューラルネットワークに基づく動作識別方法のフローチャートを示す。 本開示の一実施例に係るニューラルネットワークに基づく動作識別方法のフローチャートを示す。 本開示の一実施例に係るニューラルネットワークに基づく動作識別方法のフローチャートを示す。 本開示の一実施例に係るニューラルネットワークに基づく動作識別方法のフローチャートを示す。 本開示の一実施例に係るニューラルネットワークに基づく動作識別方法において単一フレーム動作検出枠を生成する模式図を示す。 本開示の一実施例に係るニューラルネットワークに基づく動作識別方法において動作実例検出枠を生成する模式図を示す。 本開示の一実施例に係るニューラルネットワークに基づく動作識別方法において識別すべきビデオの動作種別を特定する模式図を示す。 本開示の一実施例に係るニューラルネットワークに基づく動作識別装置のブロック図を示す。 本開示の一実施例に係るニューラルネットワークに基づく動作識別装置のブロック図を示す。 本開示の一実施例に係るニューラルネットワークに基づく動作識別装置のブロック図を示す。
以下は、本開示の各種の例示的な実施例、特徴、及び態様を、添付図面を参照しながら、詳しく説明する。添付図面における同一の記号は同一または類似の機能を有する要素を示す。添付図面において、実施例の種々の態様が示されているが、特に指摘した場合を除き、添付図面は、必ずしも縮尺通りに描かれる必要がない。
ここの専門用語である「例示的」は、「例、実施例として使用される、または、説明性のある」ことを意味する。ここに、「例示的」として説明される任意の実施例は、必ずしも他の実施例よりも優れている、または、良くなると解釈される必要がない。
また、本開示をさらに良く説明するために、以下の具体的な実施の形態では、数多くの具体的な詳細が与えられる。当業者として、いくつかの具体的な詳細がなくても、本開示が同様に実施できると理解すべきである。本開示の趣旨を強調するために、幾つかの実施例では、当業者に周知の方法、手段、要素、及び、回路について、詳しく記述されないこととなる。
図1は、本開示の一実施例に係るニューラルネットワークに基づく動作識別方法のフローチャートを示す。図1に示すニューラルネットワークに基づく動作識別方法において、以下のステップを含める。
ステップS10:識別すべきビデオをトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得する。
可能性のある実現方式において、識別すべきビデオは、連続的な画像フレームで構成されたビデオを含み、画像中の人物が、ロングジャンプ、バスケットボールをプレイすること、歌を歌うことなどのような特定の動作種別を実行している。
第1の3次元ニューラルネットワークモデルは、多層3D畳み込み層と多層3Dプーリング層で構成された3D畳み込みニューラルネットワークモデルを含み、識別すべきビデオにおける空間情報と時間情報に基づいてモデル化される。そのうち、空間情報は各フレーム画像におけるピクセルポイントを含み、時間情報はビデオストリームにおける時間情報を含む。動作抽出結果は、識別すべきビデオから抽出された分解動作特徴を含む。
ステップS20:前記識別すべきビデオの動作抽出結果に基づき、前記識別すべきビデオの動作実例検出結果を特定する。
可能性のある実現方式において、動作実例は、時系列特徴を有する分解動作を含み、複数の動作実例が動作種別を構成する。例えば、動作種別では、ロングジャンプには、助走、踏切、着地という3つの動作実例が含まれる。動作抽出結果における分解動作特徴により、識別すべきビデオにおける各動作実例を特定する。
ステップS30:前記識別すべきビデオをトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得する。
可能性のある実現方式において、第2の3次元ニューラルネットワークモデルは、多層3D畳み込み層と多層3Dプーリング層で構成された3D畳み込みニューラルネットワークモデルを含み、識別すべきビデオにおける空間情報と時間情報に基づいてモデル化される。そのうち、空間情報は各フレーム画像におけるピクセルポイントを含み、時間情報はビデオストリームにおける時間情報を含む。動作種別判別結果は、識別すべきビデオから抽出された動作種別特徴を含む。
ステップS30は、ステップ310と同時に実行されてもよいし、ステップS10よりも前に実行されてもよいし、または、ステップS310よりも後に実行されてもよいことが理解できるだろう。
ステップS40:前記識別すべきビデオの動作実例検出結果と動作種別判別結果とに基づき、前記識別すべきビデオの動作種別を特定する。
本実施例では、2つの3次元ニューラルネットワークモデルを用いて識別すべきビデオを処理して、動作抽出結果と動作種別判別結果をそれぞれ取得する。そのうち、動作抽出結果に基づき、識別すべきビデオにおける動作実例を特定した後、さらに、動作種別判別結果と合わせて、識別すべきビデオにおける動作種別を特定する。2つの3次元ニューラルネットワークモデルを用いて得られた異なる識別結果を合わせることにより、3次元ニューラルネットワークモデルの識別効率を向上させ、単一の3次元ニューラルネットワークモデルによる計算量を減少することができる。
図2は、本開示の一実施例に係るニューラルネットワークに基づく動作識別方法のフローチャートを示す。図2に示す方法において、図1に示した実施例を基にして、
ステップS10における前記識別すべきビデオの動作抽出結果は、前記識別すべきビデオにおける各フレーム画像が1つの動作実例内の1つの動作位置に属する第1の確率、および、前記識別すべきビデオにおける動作開始フレームと動作終了フレーム、を含む。
当該実現方式において、動作開始フレームは、1つの動作実例の開始フレームと1つの動作種別の開始フレームを含む。動作終了フレームは、動作種別の終了フレームと1つの動作種別の終了フレームを含む。
動作実例は、時間的に持続して行われる1つの分解動作であり、各分解動作が複数の連続的な動作位置を有し、各分解動作における明らかな特徴を有する動作位置を抽出することで、後続の分析から、さらに正確な動作実例を取得することができる。例えば、ロングジャンプという動作種別における踏切の動作実例では、少なくとも、両足離地、踏切、最高点到達、下落、両足着地という5つの動作位置を含む。
第1の3次元ニューラルネットワークモデルのトレーニング過程において用いられるサンプルビデオには、動作開始フレーム、動作終了フレームがマークされており、画像における動作が所定の1つの動作実例内の所定の動作位置に属することがマークされている。トレーニングされた第1の3次元ニューラルネットワークモデルを用いて処理して得られた動作抽出結果は、識別すべきビデオにおける動作開始フレーム、動作終了フレーム、および、前記識別すべきビデオにおける各フレーム画像が1つの動作実例内の1つの動作位置に属する第1の確率を含む。例えば、識別すべきビデオ1には、20フレーム画像が含まれ、そのうち、6フレーム目が動作開始フレーム、20フレーム目が動作終了フレーム、6フレーム目が踏切となる確率は60%、12フレーム目が最高点到達となる確率は70%などである。
ステップS20は、以下のステップを含める。
ステップS21:前記識別すべきビデオにおける各フレーム画像の第1の確率、および、前記識別すべきビデオにおける動作開始フレームと動作終了フレームに基づき、各フレーム画像における動作検出枠を計算する。
可能性のある実現方式において、図5は、本開示の一実施例に係るニューラルネットワークに基づく動作識別方法において単一フレーム動作検出枠を生成する模式図を示す。図5に示すように、各フレーム画像の第1の確率に基づき、各フレーム画像における当該動作位置を推測できるピクセルポイントの範囲、すなわち、動作検出枠を取得する。例えば、図5における右側の画像について、動作検出枠における主に腕部を含むピクセルに基づき、その動作位置が手を挙げることであると推測できる。
ステップS22:前記動作検出枠に基づき、各フレーム画像間の検出枠マッチング値を計算する。
可能性のある実現方式において、各フレーム画像における動作検出枠内の動作位置の確率に基づき、各フレーム画像における検出枠マッチング値を計算することができる。例えば、動作実例1の最後1フレームにおける動作検出枠内の動作と、動作実例1の最後から2フレーム目における動作検出枠内の動作とのマッチング値がAであり、動作実例1の最後1フレーム目における動作検出枠内の動作と、動作実例2の1フレーム目における動作検出枠内の動作とのマッチング値がBである。
ステップS23:前記検出枠マッチング値に基づき、前記識別すべきビデオにおける動作実例検出枠を特定する。
可能性のある実現方式において、同一の動作実例における各フレーム画像は、動作検出枠内の動作がより強い関連性がある。また、異なる動作実例間の動作同士のマッチング度が低いことが理解されやすい。そのため、上記例におけるマッチング値AがBよりも大きい。各動作実例における動作検出枠に基づき、各動作実例における動作実例検出枠を特定する。
図6は、本開示の一実施例に係るニューラルネットワークに基づく動作識別方法において動作実例検出枠を生成する模式図を示す。図6に示すように、左側の4フレーム画像が同一の動作実例1に属する。左側の4フレーム画像における動作検出枠に基づき、右側の動作実例検出枠を特定し、動作実例検出枠は動作実例におけるすべてのフレームの動作検出枠を含む。
本実施例では、第1の3次元ニューラルネットワークモデルからの動作抽出結果は、識別すべきビデオにおける各フレーム画像が属する動作実例の動作位置の確率を含み、異なる動作実例を区別させる能力を補強して、後続の動作種別の判定過程をさらに正確にする。第1の3次元ニューラルネットワークモデルの動作抽出結果に基づき、識別すべきビデオにおける各動作実例検出枠を特定する。識別すべきビデオにおける各動作実例を特定した後、後続の動作種別の識別過程において、動作種別の位置決めの正確率を高めることができる。
図3は本開示の一実施例に係るニューラルネットワークに基づく動作識別方法のフローチャートを示す。図3に示した方法において、上記実施例を基にして、ステップS30における前記識別すべきビデオにおける動作種別判別結果は、各フレーム画像におけるピクセルに対応する動作種別確率を含む。
当該実施例では、第2の3次元ニューラルネットワークモデルは、識別すべきビデオにおける各フレーム画像上の各ピクセルに対応する動作種別確率を直接に与える。例えば、1フレーム目の画像におけるピクセル1に対応する動作種別が歌を歌うこととなる確率は0.3、走ることとなる確率は0.5、ボールを蹴ることとなる確率は0.2である。そして、ピクセル2に対応する動作種別がボールを蹴ることとなる確率は0.1、走ることとなる確率は0.1、歌を歌うこととなる確率は0.8である。
ステップS40は、
ステップS41:各フレーム画像におけるピクセルに対応する動作種別確率のうち、前記動作実例検出枠におけるピクセルに対応する動作種別を特定することと、
ステップS42:前記動作実例検出枠におけるピクセルに対応する動作種別に基づき、前記識別すべきビデオの動作種別を特定することと、を含む。
図7は、本開示の一実施例に係るニューラルネットワークに基づく動作識別方法において識別すべきビデオの動作種別を特定する模式図を示す。図7に示すように、左上の小立方体が第1の3次元ニューラルネットワークモデルの処理結果に基づいて得られた1つの動作実例検出枠であり、動作実例検出枠の空間位置が動作開始フレーム、動作終了フレーム、および、動作検出枠で構成された立方体であり、識別すべきビデオにおいて動作種別を判定する値の範囲が特定される。
左下の大立方体は、第1の3次元ニューラルネットワークモデルによる処理後の、各ピクセルがいずれも、動作種別確率を持つビデオ情報である。左上の小立方体に基づき、左下の大立方体において動作種別の判定範囲を特定し、最終的に右側の小立方体におけるピクセルの動作種別の和を取得する。そして、右側の小立方体の動作種別のうち、最も確率が大きい動作種別を、識別すべきビデオの動作種別として判定する。
本実施例において、第2の3次元ニューラルネットワークモデルからの動作種別判別結果に基づき、各フレーム画像におけるピクセルに対応する動作種別の確率を取得することができ、各ピクセルのいずれに対しても動作種別の判断を行ったので、後続の識別すべきビデオ全体の動作種別の識別結果をさらに正確にした。しかも、2つの3次元ニューラルネットワークモデルにより、時間情報と空間情報をそれぞれ同時にモデル化することで、動作の位置決めのロバストがさらに向上し、かつ、抽出された動作実例検出枠により、各フレーム画像における動作種別特徴を一つずつに計算する負担を回避し、動作識別の計算量を低減するとともに、動作の開始、動作の終了、および、動作の特定の動作位置でのモデル化に対して、異なる動作実例を区別させる能力を補強して、動作識別の結果をさらに正確にした。
図4は、本開示の一実施例に係るニューラルネットワークに基づく動作識別方法のフローチャートを示す。図4に示す方法において、図1に示した実施例を基にして、
ステップS10は、
ステップS101:前記識別すべきビデオを、トレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得することと、
ステップS102:前記特徴値をトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得することと、を含み、
ステップS30は、
ステップS301:前記識別すべきビデオを、トレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得することと、
ステップS302:前記特徴値をトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得することと、を含む。
当該実施例では、識別すべきビデオを2次元ニューラルネットワークモデルに入力して処理することで、一般化の特徴表現が得られ、特徴値を抽出してから、第1の3次元ニューラルネットワークモデルと第2の3次元ニューラルネットワークモデルのそれぞれに入力して処理する。
本実施例では、識別すべきビデオをまず2次元ニューラルネットワークモデルに入力し、特徴の抽出を行うことにより、3次元ニューラルネットワークモデルの処理効率を向上させ、さらに、識別すべきビデオの動作種別の判定効率を向上させることができる。
図8は、本開示の一実施例に係るニューラルネットワークに基づく動作識別装置のブロック図を示す。図8に示すように、本実施例が提供するニューラルネットワークに基づく動作識別装置は、
識別すべきビデオをトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得する第1の3次元識別モジュール41と、
前記識別すべきビデオの動作抽出結果に基づき、前記識別すべきビデオの動作実例検出結果を特定する動作抽出結果処理モジュール42と、
前記識別すべきビデオをトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得する第2の3次元識別モジュール43と、
前記識別すべきビデオの動作実例検出結果と前記識別すべきビデオの動作種別判別結果とに基づき、前記識別すべきビデオの動作種別を特定する動作種別特定モジュール44と、を備える。
図9は、本開示の一実施例に係るニューラルネットワークに基づく動作識別装置のブロック図を示す。図9に示すように、図8に示した装置を基にして、
前記識別すべきビデオの動作抽出結果は、前記識別すべきビデオにおける各フレーム画像が1つの動作実例内の1つの動作位置に属する第1の確率、および、前記識別すべきビデオにおける動作開始フレームと動作終了フレーム、を含む。
可能性のある実現方式において、前記動作抽出結果処理モジュール42は、
前記識別すべきビデオにおける各フレーム画像の第1の確率、および、前記識別すべきビデオにおける動作開始フレームと動作終了フレームに基づき、各フレーム画像における動作検出枠を計算する動作検出枠計算サブモジュール421と、
前記動作検出枠に基づき、各フレーム画像間の検出枠マッチング値を計算するマッチング値計算サブモジュール422と、
前記検出枠マッチング値に基づき、前記識別すべきビデオにおける動作実例検出枠を特定する動作実例特定サブモジュール423と、を備える。
可能性のある実現方式において、前記識別すべきビデオにおける動作種別判別結果は、各フレーム画像におけるピクセルに対応する動作種別確率を含む。
可能性のある実現方式において、前記動作種別特定モジュール44は、
各フレーム画像におけるピクセルに対応する動作種別確率のうち、前記動作実例検出枠におけるピクセルに対応する動作種別を特定する第1の動作種別特定サブモジュール441と、
前記動作実例検出枠におけるピクセルに対応する動作種別に基づき、前記識別すべきビデオにおける動作種別を特定する第2の動作種別特定サブモジュール442と、を備える。
可能性のある実現方式において、前記第1の3次元識別モジュール41は、
前記識別すべきビデオをトレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得する第1の2次元識別サブモジュール411と、
前記特徴値をトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得する第1の3次元識別サブモジュール412と、を備え、
前記第2の3次元識別モジュール43は、
前記識別すべきビデオを、トレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得する第2の2次元識別サブモジュール431と、
前記特徴値をトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得する第2の3次元識別サブモジュール432と、を備える。
図10は、例示的な一実施例に係るニューラルネットワークに基づく動作識別装置1900のブロック図を示す。例えば、装置1900は、サーバとして提供されてもよい。図10を参照して、装置1900は、1つまたは複数のプロセッサを含む処理アセンブリ1922と、処理アセンブリ1922が実行可能な命令、例えば、アプリケーションプログラムを記憶するためのメモリ1932で代表されるメモリリソースと、を含む。メモリ1932に記憶されたアプリケーションプログラムは、それぞれが1組の命令に対応する1つまたは複数のモジュールを含んでもよい。また、処理アセンブリ1922は、命令を実行することで、上記方法を実行するように配置されている。
装置1900は、装置1900の電源管理を実行するように配置された電源アセンブリ1926と、装置1900をネットワークに接続するように配置された有線または無線ネットワークインターフェース1950と、入出力(I/O)インターフェース1958と、を含んでもよい。装置1900は、例えばWindows ServerTM、Mac OS XTM、UnixTM,LinuxTM、FreeBSDTMなどのメモリ1932に記憶された操作システムに基づいて動作することができる。
例示的な実施例では、たとえば装置1900の処理アセンブリ1922によって実行されることで上記方法を完成するコンピュータプログラム命令を含むメモリ1932などの不揮発性コンピュータ読取可能な記憶媒体を提供してもよい。
本開示は、システム、方法、及び/または、コンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各態様を実現させるためのコンピュータ読取可能なプログラム命令が記憶されたコンピュータ読取可能な記憶媒体を含んでもよい。
コンピュータ読取可能な記憶媒体は、命令実行デバイスで用いられる命令を保持し、記憶する有形のデバイスであってもよい。コンピュータ読取可能な記憶媒体は、例えば、電気記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または上記の任意のデバイスの適切な組み合わせであってよいが、これらに限られない。コンピュータ読取可能な記憶媒体のより具体的な例 (非網羅的なリスト) として、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ (RAM)、読取専用メモリ(ROM)、消去可能なプログラマブル読取り専用メモリ (EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、コンパクトディスク読取専用メモリ(CD−ROM)、デジタル多機能ディスク(DVD)、メモリスティック、ソフトディスク、機械符号化装置、命令が記憶されたパンチカードまたは溝内隆起構造、および上記の任意のデバイスの適切な組み合わせが含まれる。ここで用いられるコンピュータ読取り可能な記憶媒体は、例えば、無線電波やその他の自由伝搬される電磁波、導波管やその他の伝送媒体を介して伝搬される電磁波(例えば、光ファイバケーブルによる光パルス)、または、電線を介して伝送される電気信号のような瞬時信号そのものとして解釈されることはない。
ここに記載のコンピュータ読取可能なプログラム命令は、コンピュータ読取可能な記憶媒体から、それぞれの計算・処理装置にダウンロードされてもよく、または、例えば、インターネット、ローカルエリアネットワーク、広域ネットワーク、及び/または無線ネットワークのようなネットワークを介して、外部コンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは、銅伝送ケーブル、光ファイバ伝送、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、および/またはエッジサーバを含んでもよい。各計算・処理デバイスにおけるネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ読取可能なプログラム命令を受信し、当該コンピュータ読取可能なプログラム命令を各計算・処理デバイスにおけるコンピュータ読取可能な記憶媒体に転送して記憶する。
本開示の動作を実行するためのコンピュータプログラム命令は、アセンブリ命令、インストラクションセットアーキテクチャ(ISA)命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、状態設定データ、または、1つまたは複数のプログラミング言語の任意の組み合わせでプログラミングされたソースコードまたはオブジェクトコードであってもよく、上記プログラミング言語は、Smalltalk、C++のようなオブジェクト指向プログラミング言語と、「C」言語または類似したプログラミング言語のような通常の手続き型プログラミング言語、を含む。コンピュータ読取可能なプログラム命令は、完全にユーザコンピュータにて実行されてもよいし、部分的にユーザコンピュータにて実行されてもよいし、独立したソフトウェアパッケージとして実行されてもよいし、一部がユーザコンピュータにて一部がリモートコンピュータにて実行されてもよいし、または、完全にリモートコンピュータやサーバにて実行されてもよい。リモートコンピュータに係る場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN) を含む任意の種別のネットワークを介してユーザコンピュータに接続されていてもよいし、外部コンピュータに接続されていてもよい(たとえば、インターネットサービスプロバイダを利用してインターネットで接続されてもよい)。いくつかの実施例では、コンピュータ読取可能なプログラム命令の状態情報を用いて、例えば、プログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA) またはプログラマブル論理アレイ(PLA) などのコンピュータ読取可能なプログラム命令を実行することで本開示の各態様を実現できる電子回路をカスタマイズしてもよい。
ここに、本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照して、本開示の各態様を説明していた。理解すべきなのは、フローチャート及び/又はブロック図における各ブロックやフローチャート及び/又はブロック図における各ブロックの組み合わせは、コンピュータ読取可能なプログラム命令によって実現されてもよい。
これらのコンピュータ読取可能なプログラム命令は、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供されて、機械を製造することができ、それにより、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されたときに、フローチャートおよび/またはブロック図における1つまたは複数のブロックに規定された機能/動作を実現する装置が生じる。これらのコンピュータ読取可能なプログラム命令は、コンピュータ読取可能な記憶媒体に記憶されてもよい。これらの命令により、コンピュータ、プログラマブルデータ処理装置および/または他のデバイスが特定の方式で作動されるようになり、それにより、命令が記憶されたコンピュータ読取可能な記憶媒体は、フローチャートおよび/またはブロック図における1つまたは複数のブロックに規定された機能/動作の各態様を実現する命令を含む製造品を備える。
また、コンピュータ読取可能なプログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイスにロードされてもよい。それにより、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイスにて一連の動作ステップが実行されて、コンピュータによる実現過程が生じ、それで、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイスにて実行される命令によって、フローチャートおよび/またはブロック図における1つまたは複数のブロックに規定された機能/動作が実現される。
添付図面におけるフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法、およびコンピュータプログラム製品により実現可能なアーキテクチャ、機能、および動作を示す。この点に関して、フローチャートまたはブロック図における各ブロックは、1つのモジュール、プログラムセグメント、または、命令の一部を代表することができ、前記モジュール、プログラムセグメント、または、命令の一部には、特定の論理機能を実現するための1つまたは複数の実行可能な命令が含まれる。いくつかの代替的な実現では、ブロックに示された機能は、添付図面にマークされた順序とは異なる順序で実行されてもよい。例えば、2つの連続的なブロックは、実際には基本的に並行して実行でき、関係する機能によっては、逆な順序で実行されることもある。また、ブロック図及び/又はフローチャートにおける各ブロック、および、ブロック図及び/又はフローチャートにおけるブロックの組み合わせは、特定の機能又は動作を実行する専用ハードウェアベースのシステムによって実現されてもよく、又は、専用ハードウェアとコンピュータ命令の組み合わせで実現されてもよいことを留意されたい。
以上、本開示の各実施例について説明していたが、上記説明は例示的なものであり、網羅的なものではなく、開示された各実施例に限定されるものでもない。説明していた各実施例の範囲および精神から逸脱しない限り、多くの修正および変更が当業者には自明なものであろう。本文で使用される用語の選択は、各実施例の原理、実際な応用、または市場での技術に対する技術的改善を最もよく説明すること、または、本文に開示された各実施例を当業者が理解できるようにすることを意図している。

Claims (14)

  1. ニューラルネットワークに基づく動作識別方法であって、
    識別すべきビデオをトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得することと、
    前記識別すべきビデオの動作抽出結果に基づき、前記識別すべきビデオの動作実例検出結果を特定することと、
    前記識別すべきビデオをトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得することと、
    前記識別すべきビデオの動作実例検出結果と動作種別判別結果とに基づき、前記識別すべきビデオの動作種別を特定することと、を含む、
    ことを特徴とするニューラルネットワークに基づく動作識別方法。
  2. 前記識別すべきビデオの動作抽出結果は、
    前記識別すべきビデオにおける各フレーム画像が1つの動作実例内の1つの動作位置に属する第1の確率、および、
    前記識別すべきビデオにおける動作開始フレームと動作終了フレーム、を含むことを特徴とする請求項1に記載のニューラルネットワークに基づく動作識別方法。
  3. 前記識別すべきビデオの動作抽出結果に基づき、前記識別すべきビデオの動作実例検出結果を特定することは、
    前記識別すべきビデオにおける各フレーム画像の第1の確率、および、前記識別すべきビデオにおける動作開始フレームと動作終了フレームに基づき、各フレーム画像における動作検出枠を計算することと、
    前記動作検出枠に基づき、各フレーム画像間の検出枠マッチング値を計算することと、
    前記検出枠マッチング値に基づき、前記識別すべきビデオにおける動作実例検出枠を特定することと、を含むことを特徴とする請求項2に記載のニューラルネットワークに基づく動作識別方法。
  4. 前記識別すべきビデオの動作種別判別結果は、
    各フレーム画像におけるピクセルに対応する動作種別確率を含む、ことを特徴とする請求項3に記載のニューラルネットワークに基づく動作識別方法。
  5. 前記識別すべきビデオの動作実例検出結果と動作種別判別結果とに基づき、前記識別すべきビデオの動作種別を特定することは、
    各フレーム画像におけるピクセルに対応する動作種別確率のうち、前記動作実例検出枠におけるピクセルに対応する動作種別を特定することと、
    前記動作実例検出枠におけるピクセルに対応する動作種別に基づき、前記識別すべきビデオの動作種別を特定することと、を含む、ことを特徴とする請求項4に記載のニューラルネットワークに基づく動作識別方法。
  6. 前記識別すべきビデオをトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得することは、
    前記識別すべきビデオをトレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得することと、
    前記特徴値をトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得することと、を含み、
    前記識別すべきビデオを、トレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得することは、
    前記識別すべきビデオを、トレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得することと、
    前記特徴値をトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得することと、を含む、ことを特徴とする請求項1に記載のニューラルネットワークに基づく動作識別方法。
  7. ニューラルネットワークに基づく動作識別装置であって、
    識別すべきビデオをトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得する第1の3次元識別モジュールと、
    前記識別すべきビデオの動作抽出結果に基づき、前記識別すべきビデオの動作実例検出結果を特定する動作抽出結果処理モジュールと、
    前記識別すべきビデオをトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得する第2の3次元識別モジュールと、
    前記識別すべきビデオの動作実例検出結果と動作種別判別結果とに基づき、前記識別すべきビデオの動作種別を特定する動作種別特定モジュールと、を備えたことを特徴とするニューラルネットワークに基づく動作識別装置。
  8. 前記識別すべきビデオの動作抽出結果は、
    前記識別すべきビデオにおける各フレーム画像が1つの動作実例内の1つの動作位置に属する第1の確率、および、
    前記識別すべきビデオにおける動作開始フレームと動作終了フレーム、を含むことを特徴とする請求項7に記載のニューラルネットワークに基づく動作識別装置。
  9. 前記動作抽出結果処理モジュールは、
    前記識別すべきビデオにおける各フレーム画像の第1の確率、および、前記識別すべきビデオにおける動作開始フレームと動作終了フレームに基づき、各フレーム画像における動作検出枠を計算する動作検出枠計算サブモジュールと、
    前記動作検出枠に基づき、各フレーム画像間の検出枠マッチング値を計算するマッチング値計算サブモジュールと、
    前記検出枠マッチング値に基づき、前記識別すべきビデオにおける動作実例検出枠を特定する動作実例特定サブモジュールと、を備えたことを特徴とする請求項8に記載のニューラルネットワークに基づく動作識別装置。
  10. 前記識別すべきビデオの動作種別判別結果は、
    各フレーム画像におけるピクセルに対応する動作種別確率を含む、ことを特徴とする請求項9に記載のニューラルネットワークに基づく動作識別装置。
  11. 前記動作種別特定モジュールは、
    各フレーム画像におけるピクセルに対応する動作種別確率のうち、前記動作実例検出枠におけるピクセルに対応する動作種別を特定する第1の動作種別特定サブモジュールと、
    前記動作実例検出枠におけるピクセルに対応する動作種別に基づき、前記識別すべきビデオにおける動作種別を特定する第2の動作種別特定サブモジュールと、を備えた、ことを特徴とする請求項10に記載のニューラルネットワークに基づく動作識別装置。
  12. 前記第1の3次元識別モジュールは、
    前記識別すべきビデオをトレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得する第1の2次元識別サブモジュールと、
    前記特徴値をトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得する第1の3次元識別サブモジュールと、を備え、
    前記第2の3次元識別モジュールは、
    前記識別すべきビデオを、トレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得する第2の2次元識別サブモジュールと、
    前記特徴値をトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得する第2の3次元識別サブモジュールと、を備えた、ことを特徴とする請求項7に記載のニューラルネットワークに基づく動作識別装置。
  13. 請求項1〜6のいずれか1項に記載の方法を実行するように配置されているプロセッサと、
    プロセッサが実行可能な命令を記憶するためのメモリと、を含むことを特徴とするニューラルネットワークに基づく動作識別装置。
  14. コンピュータプログラム命令が記憶された不揮発性コンピュータ読取可能な記憶媒体であって、
    前記コンピュータプログラム命令は、プロセッサによって実行された場合、請求項1〜6のいずれか1項に記載の方法を実現する、ことを特徴とする不揮発性コンピュータ読取可能な記憶媒体。
JP2020524869A 2017-11-09 2018-11-08 3d畳み込みニューラルネットワークに基づく動作識別方法及び装置 Active JP6920771B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201711097227.2A CN107766839B (zh) 2017-11-09 2017-11-09 基于3d卷积神经网络的动作识别方法和装置
CN201711097227.2 2017-11-09
PCT/CN2018/114487 WO2019091417A1 (zh) 2017-11-09 2018-11-08 基于神经网络的识别方法与装置

Publications (2)

Publication Number Publication Date
JP2021502638A JP2021502638A (ja) 2021-01-28
JP6920771B2 true JP6920771B2 (ja) 2021-08-18

Family

ID=61272228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020524869A Active JP6920771B2 (ja) 2017-11-09 2018-11-08 3d畳み込みニューラルネットワークに基づく動作識別方法及び装置

Country Status (3)

Country Link
JP (1) JP6920771B2 (ja)
CN (1) CN107766839B (ja)
WO (1) WO2019091417A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766839B (zh) * 2017-11-09 2020-01-14 清华大学 基于3d卷积神经网络的动作识别方法和装置
US20190279100A1 (en) * 2018-03-09 2019-09-12 Lattice Semiconductor Corporation Low latency interrupt alerts for artificial neural network systems and methods
CN108681690B (zh) * 2018-04-04 2021-09-03 浙江大学 一种基于深度学习的流水线人员规范操作检测系统
CN108875601A (zh) * 2018-05-31 2018-11-23 郑州云海信息技术有限公司 动作识别方法和lstm神经网络训练方法和相关装置
WO2020000383A1 (en) * 2018-06-29 2020-01-02 Baidu.Com Times Technology (Beijing) Co., Ltd. Systems and methods for low-power, real-time object detection
CN109086873B (zh) * 2018-08-01 2021-05-04 北京旷视科技有限公司 递归神经网络的训练方法、识别方法、装置及处理设备
CN109344755B (zh) * 2018-09-21 2024-02-13 广州市百果园信息技术有限公司 视频动作的识别方法、装置、设备及存储介质
CN111126115A (zh) * 2018-11-01 2020-05-08 顺丰科技有限公司 暴力分拣行为识别方法和装置
CN111435422B (zh) * 2019-01-11 2024-03-08 商汤集团有限公司 动作识别方法、控制方法及装置、电子设备和存储介质
CN111488773B (zh) * 2019-01-29 2021-06-11 广州市百果园信息技术有限公司 一种动作识别方法、装置、设备及存储介质
US10902289B2 (en) * 2019-03-22 2021-01-26 Salesforce.Com, Inc. Two-stage online detection of action start in untrimmed videos
CN110427807B (zh) * 2019-06-21 2022-11-15 诸暨思阔信息科技有限公司 一种时序事件动作检测方法
CN110516572B (zh) * 2019-08-16 2022-06-28 咪咕文化科技有限公司 一种识别体育赛事视频片段的方法、电子设备及存储介质
CN110738101B (zh) * 2019-09-04 2023-07-25 平安科技(深圳)有限公司 行为识别方法、装置及计算机可读存储介质
CN112949359A (zh) * 2019-12-10 2021-06-11 清华大学 基于卷积神经网络的异常行为识别方法和装置
CN111291641B (zh) * 2020-01-20 2024-02-27 上海依图网络科技有限公司 图像识别方法及其装置、计算机可读介质和系统
CN111444895B (zh) * 2020-05-08 2024-04-19 商汤集团有限公司 视频处理方法、装置、电子设备及存储介质
CN111797745A (zh) * 2020-06-28 2020-10-20 北京百度网讯科技有限公司 一种物体检测模型的训练及预测方法、装置、设备及介质
CN112115788A (zh) * 2020-08-14 2020-12-22 咪咕文化科技有限公司 视频动作识别方法、装置、电子设备及存储介质
CN112587129B (zh) * 2020-12-01 2024-02-02 上海影谱科技有限公司 一种人体动作识别方法及装置
CN112767534B (zh) * 2020-12-31 2024-02-09 北京达佳互联信息技术有限公司 视频图像处理方法、装置、电子设备及存储介质
CN113657301A (zh) * 2021-08-20 2021-11-16 北京百度网讯科技有限公司 基于视频流的动作类型识别方法、装置及穿戴设备
CN114333065A (zh) * 2021-12-31 2022-04-12 济南博观智能科技有限公司 一种应用于监控视频的行为识别方法、系统及相关装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966104B (zh) * 2015-06-30 2018-05-11 山东管理学院 一种基于三维卷积神经网络的视频分类方法
US10405739B2 (en) * 2015-10-23 2019-09-10 International Business Machines Corporation Automatically detecting eye type in retinal fundus images
CN105976400B (zh) * 2016-05-10 2017-06-30 北京旷视科技有限公司 基于神经网络模型的目标跟踪方法及装置
CN106503659B (zh) * 2016-10-24 2019-10-15 天津大学 基于稀疏编码张量分解的动作识别方法
CN106557165B (zh) * 2016-11-14 2019-06-21 北京儒博科技有限公司 智能设备的动作模拟交互方法和装置及智能设备
CN106845411B (zh) * 2017-01-19 2020-06-30 清华大学 一种基于深度学习和概率图模型的视频描述生成方法
CN107766839B (zh) * 2017-11-09 2020-01-14 清华大学 基于3d卷积神经网络的动作识别方法和装置

Also Published As

Publication number Publication date
WO2019091417A1 (zh) 2019-05-16
CN107766839B (zh) 2020-01-14
CN107766839A (zh) 2018-03-06
JP2021502638A (ja) 2021-01-28

Similar Documents

Publication Publication Date Title
JP6920771B2 (ja) 3d畳み込みニューラルネットワークに基づく動作識別方法及び装置
US10970854B2 (en) Visual target tracking method and apparatus based on deep adversarial training
JP6458394B2 (ja) 対象追跡方法及び対象追跡装置
JP6755849B2 (ja) 人工ニューラルネットワークのクラスに基づく枝刈り
KR102033050B1 (ko) 시간차 모델을 위한 비지도 학습 기법
JP6939111B2 (ja) 画像認識装置および画像認識方法
US10509957B2 (en) System and method for human pose estimation in unconstrained video
JP6511986B2 (ja) プログラム生成装置、プログラム生成方法および生成プログラム
CN109657539B (zh) 人脸颜值评价方法、装置、可读存储介质及电子设备
Kist et al. Efficient biomedical image segmentation on EdgeTPUs at point of care
CN113901909B (zh) 基于视频的目标检测方法、装置、电子设备和存储介质
JP2020091543A (ja) 学習装置、処理装置、ニューラルネットワーク、学習方法、及びプログラム
JP6942164B2 (ja) 拡大現実のためのリアルタイムモーションフィードバック
Nardi et al. Algorithmic performance-accuracy trade-off in 3d vision applications using hypermapper
WO2019114618A1 (zh) 一种深度神经网络训练方法、装置及计算机设备
US20180341856A1 (en) Balancing memory consumption of multiple graphics processing units in deep learning
CN115082740B (zh) 目标检测模型训练方法、目标检测方法、装置、电子设备
JP2020504383A (ja) 画像前景の検出装置、検出方法及び電子機器
JP2021015479A (ja) 行動認識装置、行動認識方法、及び行動認識プログラム
US11068796B2 (en) Pruning process execution logs
CN116611491A (zh) 目标检测模型的训练方法、装置、电子设备和存储介质
JP7466702B2 (ja) プロトタイプオプションの発見による解釈可能な模倣学習
CN115249361A (zh) 指示表达文本定位模型训练、装置、设备和介质
Zhang et al. Adversarial samples for deep monocular 6d object pose estimation
US20210312634A1 (en) Image reconstruction based on edge loss

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200519

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210628

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210713

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210716

R150 Certificate of patent or registration of utility model

Ref document number: 6920771

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150