JP2020512647A - ビデオ識別及びトレーニング方法、装置、電子デバイス及び媒体 - Google Patents

ビデオ識別及びトレーニング方法、装置、電子デバイス及び媒体 Download PDF

Info

Publication number
JP2020512647A
JP2020512647A JP2019553919A JP2019553919A JP2020512647A JP 2020512647 A JP2020512647 A JP 2020512647A JP 2019553919 A JP2019553919 A JP 2019553919A JP 2019553919 A JP2019553919 A JP 2019553919A JP 2020512647 A JP2020512647 A JP 2020512647A
Authority
JP
Japan
Prior art keywords
keyframe
video
frame
feature
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019553919A
Other languages
English (en)
Other versions
JP6837158B2 (ja
Inventor
タンツォンルイ ホー
タンツォンルイ ホー
ホンウェイ チン
ホンウェイ チン
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド, ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2020512647A publication Critical patent/JP2020512647A/ja
Application granted granted Critical
Publication of JP6837158B2 publication Critical patent/JP6837158B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)

Abstract

本開示の実施例は、ビデオ識別及びトレーニング方法、装置、電子デバイス及び媒体を開示し、ビデオ識別方法は、ビデオ中の第1のキーフレームの特徴を抽出することと、前記第1のキーフレームの特徴と前記ビデオ中の第2のキーフレームの融合特徴を融合して、前記第1のキーフレームの融合特徴を取得し、前記第2のキーフレームの前記ビデオにおける検出時間順序が前記第1のキーフレームの前であることと、前記第1のキーフレームの融合特徴に基づいて前記第1のキーフレームを検出し、前記第1のキーフレームにおける物体検出結果を取得することと、を含む。本開示の実施例は、反復式の複数のフレーム特徴における融合方法によってビデオ中のこれらのキーフレームの共有特徴に含まれる情報を強化し、フレーム識別の精度及びビデオ識別効率を向上させる。【選択図】図1

Description

(関連出願の相互参照)
本願は、2017年12月13日に中国特許局に提出された、出願番号CN201711329718.5、発明の名称「ビデオ識別及びトレーニング方法、装置、電子デバイス、プログラム及び媒体」の中国特許出願の優先権を主張し、そのすべての内容は参照により本願に組み込まれる。
本開示は、コンピュータビジョン技術に関し、特にビデオ識別及びトレーニング方法、装置、電子デバイス及び媒体に関する。
ビデオ識別とは、深層学習法に基づいて実現される画像内容の理解を指し、ピクセルレベルのセマンティックセグメンテーション、物体検出、キーポイント検出などを含むが、これらに限定されない。ビデオ識別は、自動運転、セキュリティ監視などの分野に重要な応用がある。ビデオ識別の基礎は画像認識であり、しかしながら、ビデオにはモーションブラー、ピンぼけなどの画像フレームが存在するため、一つの画像に向ける識別技術を直接ビデオ識別に拡張して使用する場合、その識別性能が低下し、実行速度が遅くなり、ビデオ識別のニーズを満たすことができない。
本開示の実施例は、ビデオ識別の技術的解決策及びビデオ識別ネットワークのトレーニングの技術的解決策を提供する。
本開示の実施例の一態様によれば、ビデオ中の第1のキーフレームの特徴を抽出することと、前記第1のキーフレームの特徴と、前記ビデオにおける検出時間順序が前記第1のキーフレームの前である第2のキーフレームの融合特徴を融合して、前記第1のキーフレームの融合特徴を取得することと、前記第1のキーフレームの融合特徴に基づいて前記第1のキーフレームを検出し、前記第1のキーフレームにおける物体検出結果を取得することと、を含むビデオ識別方法を提供する。
任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記第2のキーフレームは、前記ビデオにおける前記第1のキーフレームと隣接する1つ前のキーフレームを含む。
任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記第2のキーフレームの融合特徴は、前記第2のキーフレームの特徴と前記ビデオにおける検出時間順序が前記第2のキーフレームの前である第3のキーフレームの融合特徴を融合処理して得られる。
任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記第1のキーフレームの特徴と前記ビデオ中の第2のキーフレームの融合特徴を融合する前に、前記第1のキーフレームと前記第2のキーフレームの間のオプティカルフローフィールドを取得することと、前記第1のキーフレームと前記第2のキーフレームの間のオプティカルフローフィールドに基づいて、前記第2のキーフレームの融合特徴と前記第1のキーフレームを位置合わせることと、をさらに含み、前記第1のキーフレームの特徴と前記ビデオ中の第2のキーフレームの融合特徴を融合することは、位置合わせた前記第2のキーフレームの融合特徴と前記第1のキーフレームの特徴を融合することを含む。
任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記第1のキーフレームの特徴と前記ビデオ中の第2のキーフレームの融合特徴を融合することは、前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴の重み係数を決定することと、前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴の重み係数に基づいて、前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴を融合することと、を含む。
任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記方法は、前記第1のキーフレームが前記ビデオ中の最初のキーフレームであるかどうかを確定することをさらに含み、前記第1のキーフレームの特徴と前記ビデオ中の第2のキーフレームの融合特徴を融合することは、前記第1のキーフレームが前記ビデオ中の最初のキーフレームではないことに応じて、前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴を融合することを含む。
任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記方法は、前記第1のキーフレームが前記ビデオ中の最初のキーフレームであることに応じて、前記第1のキーフレームの特徴に基づいて、前記第1のキーフレームにおける物体検出結果を取得することをさらに含む。
任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記ビデオ中から第1のキーフレームを選択することをさらに含む。
任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記ビデオ中から前記第1のキーフレームを選択することは、前記ビデオ中からランダムに選択された画像フレームを前記第1のキーフレームとすること、又は、前記ビデオ中から幾つかのフレーム間隔毎に選択された画像フレームを前記第1のキーフレームとすること、または、前記ビデオを複数の短いビデオシーケンスに分割し、それぞれの短いビデオシーケンス中から画像フレームをそれぞれ選択して前記それぞれの短いビデオシーケンスのキーフレームとすることであって、前記複数の短いビデオシーケンスのキーフレームが前記第1のキーフレームを含むこと、又は、前記ビデオ中から短いビデオシーケンスを選択して、選択された前記短いビデオシーケンス中から選択された画像フレームを前記第1のキーフレームとすることを含む。
任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記短いビデオシーケンス中から選択された画像フレームを前記第1のキーフレームとすることは、前記短いビデオシーケンス中からランダムに選択された画像フレームを前記第1のキーフレームとすること、又は、前記短いビデオシーケンス中の中間フレームを選択して前記第1のキーフレームとすることを含み、ここで、前記中間フレームが、前記中間フレームの所在する前記短いビデオシーケンスにおける最初のフレーム及び最後のフレーム以外の画像フレームを含む。
任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記中間フレームは、前記中間フレームの所在する前記短いビデオシーケンスにおける中央位置又は中央位置の近くに位置する画像フレームを含む。
任意選択で、本開示の上記各ビデオ識別方法の実施例では、第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールドを取得することと、前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールド、及び前記第1のキーフレームの融合特徴に基づいて、前記第1の非キーフレームの特徴を取得することと、前記第1の非キーフレームの特徴に基づいて前記第1の非キーフレームを検出し、前記第1の非キーフレームにおける物体検出結果を取得することと、をさらに含む。
任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記第1のキーフレームと前記第1の非キーフレームの間の距離が予設閾値よりも小さく、又は、前記第1のキーフレームが前記ビデオのキーフレーム内の、前記第1の非キーフレームとの距離が最も近いキーフレームであり、又は、前記第1の非キーフレームと前記第1のキーフレームとが同一の短いビデオシーケンスに属する。
任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールドを取得した後、前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールドに基づいて、前記第1のキーフレームの融合特徴と前記第1の非キーフレームを位置合わせることをさらに含み、前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールド、及び前記第1のキーフレームの融合特徴に基づいて、前記第1の非キーフレームの特徴を取得することは、前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールド、及び位置合わせた前記第1のキーフレームの融合特徴に基づいて、前記第1の非キーフレームの特徴を取得することを含む。
任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記ビデオ中の画像フレームはラベル情報を有し、前記方法は、前記ビデオ中前記第1のキーフレームを含む少なくとも1つの画像フレームにおける物体検出結果とラベル情報との相違に基づいて、前記ビデオ識別方法を実現するビデオ識別ネットワークをトレーニングすることをさらに含む。
任意選択で、本開示の上記各ビデオ識別方法の実施例では、前記ラベル情報には、画像フレームに含まれる少なくとも1つの物体の位置情報及び種別情報を含み、前記種別検出結果は、物体検出ボックス及び前記物体検出ボックスに対応する物体種別を含み、前記ビデオ中の少なくとも1つの画像フレームにおける物体検出結果とラベル情報との相違に基づいて、前記ビデオ識別方法を実現するビデオ識別ネットワークをトレーニングすることは、前記ビデオ中の少なくとも1つの画像フレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置情報との相違、及び/又は前記物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、前記ビデオ識別ネットワーク中のネットワークパラメータ値を調整することを含む。
本開示の実施例の別の態様によれば、ビデオ識別ネットワークを利用してビデオサンプル中の現在キーフレームの特徴及び1つ前のキーフレームの特徴を抽出することと、前記ビデオ識別ネットワークを利用して、前記現在キーフレームの特徴と前記1つ前のキーフレームの特徴を融合し、前記現在キーフレームの融合特徴を取得し、前記ビデオサンプル中の同一セグメントに属する現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールドを取得することと、前記ビデオ識別ネットワークを利用して、前記現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールド、及び前記現在キーフレームの融合特徴に基づいて、前記現在ターゲットフレームの特徴を取得することと、前記ビデオ識別ネットワークを利用して、前記現在ターゲットフレームの特徴に基づいて前記現在ターゲットフレームを検出し、前記現在ターゲットフレームにおける物体検出結果を取得することと、前記現在ターゲットフレームにおける物体検出結果と前記現在ターゲットフレームのラベル情報との相違に基づいて、前記ビデオ識別ネットワークのネットワークパラメータ値を調整することと、を含むビデオ識別ネットワークのトレーニング方法を提供する。
任意選択で、本開示の各トレーニング方法の実施例では、前記現在キーフレームの特徴と前記1つ前のキーフレームの特徴を融合することは、前記現在キーフレームと前記1つ前のキーフレームの間のオプティカルフローフィールドを取得することと、前記現在キーフレームと前記1つ前のキーフレームの間のオプティカルフローフィールドに基づいて、前記1つ前のキーフレームの特徴と前記現在キーフレームを位置合わせることと、位置合わせた前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合することと、を含む。
任意選択で、本開示の各トレーニング方法の実施例では、前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合することは、前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴の重み係数を決定することと、前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴の重み係数に基づいて、前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合することと、を含む。
任意選択で、本開示の各トレーニング方法の実施例では、前記のビデオ中の現在キーフレームの特徴及び1つ前のキーフレームの特徴を抽出する前に、前記ビデオサンプル中から前記現在キーフレーム、前記1つ前のキーフレーム及び前記現在ターゲットフレームを選択することをさらに含む。
任意選択で、本開示の各トレーニング方法の実施例では、前記ビデオサンプル中から前記現在キーフレーム、前記1つ前のキーフレーム及び前記現在ターゲットフレームを選択することは、前記ビデオサンプル中から選択された画像フレームを前記現在ターゲットフレームとすることと、前記ビデオサンプル中の前記現在ターゲットフレームを始点としての第1の距離の前でサンプリングされた画像フレームを前記1つ前のキーフレームとし、前記ビデオサンプル中の前記現在ターゲットフレームを始点としての第2の距離の後でサンプリングされた画像フレームを前記現在キーフレームとすることと、を含む。
任意選択で、本開示の各トレーニング方法の実施例では、前記第2の距離が前記第1の距離よりも小さい。
任意選択で、本開示の各トレーニング方法の実施例では、前記現在ターゲットフレームのラベル情報は、前記現在ターゲットフレーム中に含まれる少なくとも1つの物体の位置情報及び種別情報を含み、前記現在ターゲットフレームの種別検出結果は、前記現在ターゲットフレーム中の物体検出ボックス及び前記物体検出ボックスに対応する物体種別を含み、前記現在ターゲットフレームにおける物体検出結果と前記現在ターゲットフレームのラベル情報との相違に基づいて、前記ビデオ識別ネットワークをトレーニングすることは、前記現在ターゲットフレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置との相違、及び/又は前記物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、前記ビデオ識別ネットワーク中のネットワークパラメータ値を調整することを含む。
任意選択で、本開示の各トレーニング方法の実施例では、各組の前記現在キーフレーム、前記1つ前のキーフレーム及び前記現在ターゲットフレームからトレーニングサンプルを構成し、少なくとも1つのトレーニングサンプルからトレーニングサンプルセットを構成し、前記トレーニングサンプルセット中から順次トレーニングサンプルを選択し、予設トレーニング完了条件を満たすまで、前記ビデオ識別ネットワークを反復トレーニングする。
本開示の実施例の別の態様によれば、識別待ちのビデオを取得することと、本開示のいずれか1つの実施例で説明されるトレーニング方法によってトレーニングされて得られたビデオ識別ネットワークを利用して前記ビデオを識別し、前記ビデオの識別結果を取得することと、を含む別のビデオ識別方法を提供する。
本開示の実施例の別の態様によれば、ビデオ中の第1のキーフレームの特徴を抽出するための特徴抽出ネットワークと、前記第1のキーフレームの特徴と前記ビデオにおける検出時間順序が前記第1のキーフレームの前である第2のキーフレームの融合特徴を融合して、前記第1のキーフレームの融合特徴を取得するための融合ネットワークと、前記第1のキーフレームの融合特徴に基づいて前記第1のキーフレームを検出し、前記第1のキーフレームにおける物体検出結果を取得するための検出ネットワークと、を含むビデオ識別装置を提供する。
任意選択で、前記ビデオ識別装置は前記のいずれか1つの可能なビデオ識別方法を実行するために用いられ、これに応じて、前記ビデオ識別装置は、前記ビデオ識別方法の任意のステップ又は流れを実行するためのモジュールを含む。
本開示の実施例の別の態様によれば、ビデオサンプル中の現在キーフレームの特徴及び1つ前のキーフレームの特徴を抽出し、前記現在キーフレームの特徴と前記1つ前のキーフレームの特徴を融合し、前記現在キーフレームの融合特徴を取得し、前記ビデオサンプル中の同一セグメントに属する現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールドを取得し、前記現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールド、及び前記現在キーフレームの融合特徴に基づいて、前記現在ターゲットフレームの特徴を取得し、前記現在ターゲットフレームの特徴に基づいて前記現在ターゲットフレームを検出し、前記現在ターゲットフレームにおける物体検出結果を取得するためのビデオ識別ネットワークと、前記現在ターゲットフレームにおける物体検出結果と前記現在ターゲットフレームのラベル情報との相違に基づいて、前記ビデオ識別ネットワークのネットワークパラメータ値を調整するためのトレーニングモジュールと、を含むビデオ識別ネットワークのトレーニング装置を提供する。
任意選択で、前記ビデオ識別ネットワークのトレーニング装置は、前記のいずれか1つの可能なビデオ識別ネットワークのトレーニング方法を実行するために用いられ、これに応じて、前記ビデオ識別方法のトレーニング装置は、前記ビデオ識別ネットワークのトレーニング方法の任意のステップ又は流れを実行するためのモジュールを含む。
本開示の実施例の別の態様によれば、識別待ちのビデオを取得するための取得モジュールと、前記のいずれか1つの可能なトレーニング方法によってトレーニングされて得られたビデオ識別ネットワークを利用して前記ビデオを識別し、前記ビデオの識別結果を取得するための識別モジュールと、を含むビデオ識別装置を提供する。
本開示の実施例の別の態様によれば、コンピュータ可読命令を記憶するためのメモリと、前記コンピュータ可読命令を実行することにより本開示のいずれか1つの実施例の方法を実行するためのプロセッサーと、を含む電子デバイスを提供する。
本開示の実施例の別の態様によれば、コンピュータ可読命令を記憶するためのコンピュータ記憶媒体であって、前記コンピュータ可読命令をデバイス上で実行する時に、前記デバイス中のプロセッサーによって本開示のいずれか1つの実施例の方法を実行するコンピュータ記憶媒体を提供する。
本開示の実施例の別の態様によれば、コンピュータ可読命令を含み、前記コンピュータ可読命令をデバイス上で実行する時に、前記デバイス中のプロセッサーによって本開示のいずれか1つの実施例の方法を実行するコンピュータプログラムを提供する。
本開示の実施例の別の態様によれば、コンピュータ可読命令を記憶するためのコンピュータプログラム製品であって、前記命令を実行する時にコンピュータに前記のいずれか1つの可能な実現態様中の方法を実行させるコンピュータプログラム製品を提供する。
1つの選択可能な実施形態では、前記コンピュータプログラム製品はコンピュータ記憶媒体であってもよく、もう1つの選択可能な実施形態では、前記コンピュータプログラム製品はSDKなどのソフトウェア製品であってもよい。
本開示の実施例によって提供されるビデオ識別方法及び装置、電子デバイス、プログラム及び媒体によれば、第1のキーフレームの特徴とビデオ中の第2のキーフレームの融合特徴を融合し、第1のキーフレームの融合特徴を取得し、第1のキーフレームの融合特徴に基づいて第1のキーフレームを検出し、第1のキーフレームにおける物体検出結果を取得するために、ビデオ識別效率の向上に寄与する。
以下、図面及び実施例を参照して、本開示の技術的解決策をより詳細に説明する。
本開示の実施例のビデオ識別方法のフローチャートである。 本開示の実施例のビデオ識別方法の別のフローチャートである。 図2に示すビデオ識別方法の一例の対応過程の模式図である。 本開示の実施例のビデオ識別ネットワークのトレーニング方法のフローチャートである。 図4に示すトレーニング方法の一例の対応過程の模式図である。 本開示の実施例のビデオ識別装置の構造模式図である。 本開示の実施例のビデオ識別装置の別の構造模式図である。 本開示の実施例のビデオ識別ネットワークのトレーニング装置の模式図である。 本開示の実施例のビデオ識別ネットワークのトレーニング装置の別の模式図である。 本開示の実施例の電子デバイスの一応用例の模式図である。
明細書の一部を構成する図面は本開示の実施例を説明し、その説明と共に本開示の原理を解釈することに用いられる。
図面を参照して、以下の詳細な説明からより明確に本開示を理解することができる。
ここで、本開示の様々な例示的な実施例を、図面を参照して詳細に説明する。特に断りしない限り、これらの実施例に示される構成要素及びステップの相対的な配置、数値表現及び数値は、本開示の範囲を限定することを意図するものではないことに注意されたい。
本発明の実施例における「第1」、「第2」などの用語は、区別するために用いられ、本発明の実施例を限定するものではないことを理解されたい。
本発明において「複数」は2つ又は2つ以上を意味し、「少なくとも1つ」は1つ、2つ又は2つ以上を意味していることも理解されたい。
本発明で言及される構成要素、データ又は構造のいずれも、明示的に定義されない、又はそうでない場合に、一般的に1つ又は複数であると理解されることも理解されたい。
また、本発明において、各実施例間の相違点を中心として各実施例を説明するが、同一又は類似な部分について相互に参照すればよく、簡略化のために、重複に説明されない。
同時に、図面に示された各部分の寸法は、説明の便宜上、実際の縮尺関係では描かれていないことを理解されたい。
少なくとも1つの例示的な実施例の以下の説明は、単なる例示であり、本開示及びその応用又は使用は何らかの制限も受けない。
関連技術の当業者に知られている技術、方法及びデバイスは、詳細に議論されないかもしれないが、適切な場合、前記技術、方法及びデバイスは明細書の一部として考慮されるべきである。
同様の参照番号及び文字は、以下の図の同様の構成要素を示すため、ある構成要素がある図で定義されると、以降の図でさらに説明する必要はないことに注意されたい。
本開示の実施例は、他の多数の汎用又は専用コンピューティングシステム環境又は配置とともに動作できる端末デバイス、コンピュータシステム、サーバなどの電子デバイスに適用され得る。端末デバイス、コンピュータシステム、サーバなどの電子デバイスとの使用に適した周知の端末デバイス、コンピューティングシステム、環境及び/又は配置の例には、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、ハンドヘルド又はラップトップデバイス、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブルコンシューマエレクトロニクス、ネットワークパーソナルコンピュータ、小型コンピュータシステム、大型コンピュータシステム及び前記のいずれかのシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
端末デバイス、コンピュータシステム、サーバなどの電子デバイスは、コンピュータシステムによって実行されるコンピュータシステム実行可能命令(例えばプログラムモジュール)の一般的な言語環境において記述できる。常、プログラムモジュールはルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでもよく、それらは特定のタスクを実行するか又は特定の抽象データ型を実現する。コンピュータシステム/サーバは分散型クラウドコンピューティング環境において実施でき、分散型クラウドコンピューティング環境において、タスクは通信ネットワークにわたってリンクされた遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカル又は遠隔計算システムの記憶媒体に存在してもよい。
図1は、本開示の実施例で提供されるビデオ識別方法のフローチャートである。任意選択で、該ビデオ識別方法は、ビデオ識別ネットワークを利用して実現され得るが、本開示の実施例はここに限定されない。
102、ビデオ中の第1のキーフレームの特徴を抽出する。
ここで、任意選択で、該第1のキーフレームは、ビデオ中のいずれか1つのキーフレームであり得、例えば、該第1のキーフレームはビデオの複数のキーフレーム中の現在処理するキーフレームであり得る。又は、該第1のキーフレームは複数のフレームを含み、本開示の実施例では限定されない。
1つの選択可能な例では、該操作102は、メモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行される特徴抽出ネットワークによって実行されてもよい。
104、第1のキーフレームの特徴とビデオ中の第2のキーフレームの融合特徴を融合し、前記第1のキーフレームの融合特徴を取得する。
ここで、第2のキーフレームは前記ビデオ中での検出時間順序が第1のキーフレームの前である。1つ又は複数の選択可能な実施例では、該第2のキーフレームは、例えば前記ビデオ中の第1のキーフレームと隣接する1つ前のキーフレームであり得る。すなわち、該第2のキーフレームは、ビデオの複数のキーフレーム中の第1のキーフレームの前に位置し且つ第1のキーフレームと隣接するキーフレームであり得る。又は、該第2のキーフレームは、該第1のキーフレームの前に位置する他のキーフレームであってもよく、本開示の実施例では限定されない。
該第2のキーフレームの融合特徴は、該第2のキーフレームの特徴及び1つ又は複数の他のフレームの特徴を融合して取得し得る。ここで、ここでの他のフレームは該第2のキーフレームと異なるフレームであり得、任意選択で、該他のフレームは、前記ビデオ中での検出時間順序が該第2のキーフレームの前のフレームであり得る。1つの選択可能な例では、該他のフレームは、該第2のキーフレームの前に位置する1つ又は複数のキーフレームを含む。本開示の各実施例の1つの選択可能な実施形態では、第2のキーフレームの融合特徴は、該第2のキーフレームの特徴及び前記ビデオにおける検出時間順序が該第2のキーフレームの前の第3のキーフレームの融合特徴を融合処理して取得し得る。ここで、任意選択で、第3のキーフレームは、第2のキーフレームの1つ前のキーフレームであり得、まず第2のキーフレームの特徴及びその1つ前のキーフレーム(第3のキーフレーム)の融合特徴を融合し、第2のキーフレームの融合特徴を取得し、その後第2のキーフレームの融合特徴及びその後のキーフレーム(第1のキーフレーム)の特徴を融合し、第1のキーフレームの融合特徴を取得し、このようにして、ビデオ中の最新の未融合のキーフレームの特徴を加えて融合し、特徴融合−伝播−融合−伝播を交互に行うように、第1のキーフレームの特徴と第1のキーフレームの前の全てのキーフレームの特徴を一度に融合する方法に比べて、特徴融合の計算オーバーヘッドを低減させる。
本開示の1つ又は複数の選択可能な実施例では、該第2のキーフレームの融合特徴は、ビデオの複数のキーフレーム中の該第2のキーフレームの前に位置する少なくとも1つのキーフレームの特徴を融合して得られた特徴であるが、本開示の実施例ではここに限定されない。
1つの選択可能な例では、該操作104はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行される融合ネットワークによって実行されてもよい。
106、前記第1のキーフレームの融合特徴に基づいて第1のキーフレームを検出し、第1のキーフレームにおける物体検出結果を取得する。
ここで、第1のキーフレームにおける物体検出結果は、例えば第1のキーフレームの種別、又は第1のキーフレーム中の物体検出ボックス及びその対応の物体種別を含む。
1つの選択可能な例では、該操作106はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行される検出ネットワークによって実行されてもよい。
本開示の実施例で提供されるビデオ識別方法によれば、第1のキーフレームの特徴とビデオ中の第2のキーフレームの融合特徴を融合し、前記第1のキーフレームの融合特徴を取得し、該第1のキーフレームの融合特徴に基づいて該第1のキーフレームを検出し、該第1のキーフレームにおける物体検出結果を取得するため、ビデオ識別效率を向上させることができる。
本開示の実施例では、ビデオを識別する時に、それぞれのキーフレームを現在キーフレーム(即ち前記第1のキーフレーム)とし、該現在キーフレームの特徴とビデオ中の履歴キーフレーム(即ち該現在キーフレームの前に位置するキーフレーム)の融合特徴を融合し、現在キーフレームの融合特徴を取得して、取得した現在キーフレームの融合特徴に基づいて該現在キーフレームを識別し、反復複数のフレーム特徴における融合方法によってビデオ中のキーフレームの共有特徴に含まれる情報を強調することにより、フレーム識別の精度が向上し、ビデオ識別性能が向上する。
本開示の実施例のビデオ識別方法の別の例では、第1のキーフレームの特徴とビデオ中の第2のキーフレームの融合特徴を融合する前に、さらに第1のキーフレームと第2のキーフレームの間のオプティカルフローフィールドを取得し得、該オプティカルフローフィールドは第1のキーフレームと第2のキーフレーム中の画素ポイントごどの変位ベクトルを含む。また、第1のキーフレームと第2のキーフレームの間のオプティカルフローフィールドに基づいて、第2のキーフレームの融合特徴と第1のキーフレームを位置合わせてもよく、例えば、オプティカルフローフィールド中の変位ベクトルに基づいて第2のキーフレームの融合特徴を歪めて第1のキーフレームと位置合わせてもよい。この時に、104では、位置合わせた第2のキーフレームの融合特徴と第1のキーフレームの特徴を融合し、第1のキーフレームの融合特徴を取得し得る。
本開示の実施例のビデオ識別方法の1つの選択可能な実施形態では、第1のキーフレームの特徴と第2のキーフレームの融合特徴を融合することは、第1のキーフレームの特徴と第2のキーフレームの融合特徴の重み係数を決定することと、第1のキーフレームの特徴と第2のキーフレームの融合特徴の重み係数に基づいて、第1のキーフレームの特徴と第2のキーフレームの融合特徴を融合することと、を含む。ここで、第1のキーフレームの特徴の重み係数と第2のキーフレームの融合特徴の重み係数は、それぞれ第1のキーフレームの特徴と第2のキーフレームの融合特徴の特徴融合時の占有割合を示す。少なくとも1つの選択可能な実施例では、第1のキーフレームの特徴と第2のキーフレームの融合特徴の重み係数に基づいて、第1のキーフレームの特徴及びその重み係数の積と、第2のキーフレームの融合特徴及びその重み係数の積とを融合し得るが、本開示の実施例では他の方法で特徴を融合してもよく、本開示の実施例では特徴融合の実現について限定されない。
例えば、前記選択可能な実施形態では、以下のような式によって第1のキーフレームの融合特徴を取得することができる。

式(1)
ただし、前記式(1)では、

は第1のキーフレームの融合特徴を示し、

は第1のキーフレームの特徴を示し、

は第1のキーフレームの特徴の重み係数を示し、

は第2のキーフレームの融合特徴を示し、

は第2のキーフレームの融合特徴の重み係数を示し、

の値が0より大きく1未満である。
本開示の実施例のビデオ識別方法のさらに別の例では、あるキーフレームがビデオの最初のキーフレームであると、特徴融合のステップを実行せず、直接に該最初のキーフレームの特徴に基づいて物体を検出してもよい。これに応じて、該ビデオ識別方法は、
前記第1のキーフレームがビデオ中の最初のキーフレーム(以下1stキーフレームと呼ぶ)であるかどうかを確定することをさらに含み、
前記第1のキーフレームがビデオ中の1stキーフレームであることに応じて、該1stキーフレームの特徴に基づいて1stキーフレームを検出し、該1stキーフレームにおける物体検出結果を取得する。
また、1stキーフレームの特徴を次のキーフレーム(以下2ndキーフレームと呼ぶ)へ伝播して該次のキーフレームの特徴と特徴融合し得る。すなわち、ビデオ中の2ndキーフレームの融合特徴は、1stキーフレームの特徴及び2ndキーフレームの特徴を融合処理して取得し得、この時に、1stキーフレームの特徴は、1stキーフレームの融合特徴と見なすこともできるが、本開示の実施例ではここに限定されない。
任意選択で、第1のキーフレームがビデオ中の1stキーフレームではないことに応じて、前記各実施例中の第1のキーフレームの特徴と第2のキーフレームの融合特徴を融合する操作を実行し得る。
なお、本開示の実施例のビデオ識別方法の1つ又は複数の選択可能な例では、さらにビデオ中から第1のキーフレームを選択し得る。
本開示の各ビデオ識別方法の実施例の1つの選択可能な実施形態では、ビデオ中から第1のキーフレームを選択する。本開示の実施例では、様々な方法でキーフレームを選択することができる。1つの選択可能な例では、ビデオ中からランダムに選択された画像フレームを第1のキーフレームとしてもよい。もう1つの選択可能な例では、ビデオ中から幾つかのフレーム間隔毎に選択された画像フレームを第1のキーフレームとしてもよく、例えば、ビデオ中から9つのフレームごとに1つのフレームを選択してキーフレームとしてもよい。このように、ビデオの複数の第1のキーフレームの間の間隔を固定することができる。もう1つの選択可能な例では、ビデオを複数の短いビデオシーケンス(又はセグメント)に分割し、それぞれの短いビデオシーケンス(又はセグメント)中からそれぞれ画像フレームを選択して該短いビデオシーケンス(又はセグメント)のキーフレームとしてもよく、前記複数の短いビデオシーケンス(又はセグメント)のキーフレームは前記第1のキーフレームを含む。例えば、ビデオを括数フレーム〜数十フレームを含む複数の短いビデオシーケンス又はセグメントに分割し、ここで、該複数の短いビデオシーケンス又はセグメントは同じ長さを有し、即ち該複数の短いビデオシーケンス又はセグメントは同じ数、例えば10フレームのフレームを含み得、又は、該複数の短いビデオシーケンス又はセグメントの長さが異ならせ、それぞれの短いビデオシーケンス又はセグメント中からキーフレームを選択してもよいが、本開示の実施例では限定されない。このように、まず複数の短いビデオシーケンス又はセグメント及びその対応のキーフレームを決定して、それぞれのキーフレームに対して物体検出を行うことができる。
もう1つの選択可能な例では、ビデオ中から1つの短いビデオシーケンスを選択して、選択された短いビデオシーケンス中から選択された画像フレームを第1のキーフレームとしてもよい。このように、物体検出する必要がある時に短いビデオシーケンス又はセグメント及びその第1のキーフレームを選択し得、ここで、任意選択で、予設長さの短いビデオシーケンスを選択してもよく、ランダムにある長さの短いビデオシーケンスを選択してもよいが、本開示の実施例では限定されない。
本開示の実施例では、様々な方法で短いビデオシーケンス又はセグメント中から第1のキーフレームを選択し得る。1つの選択可能な例では、短いビデオシーケンス中からランダムに選択された画像フレームを第1のキーフレームとしてもよい。又は、短いビデオシーケンス中の中間フレームを選択して第1のキーフレームとしてもよく、ここで、ここでの中間フレームとは短いビデオシーケンス中の最初フレーム(第1のフレーム)及び最後フレーム(最後のフレーム)以外の画像フレームを指し、例えば、10フレーム(第0〜9のフレーム)を含む短いビデオシーケンスについて、中間フレームは第1〜8フレーム中の画像フレームであり得る。該中間フレームは、例えば該中間フレームのフレーム番号が予設値であるなどの予設条件を満たしても良い。1つの選択可能な例では、中間フレームは短いビデオシーケンス中の中央位置又は中央位置の近くに位置する画像フレームであり得る。例えば、10フレーム(第0〜9のフレーム)を含む短いビデオシーケンスについて、該中間フレームは第4フレーム又は第5フレームであってもよく、第3フレーム又は第6フレームであってもよく、11フレーム(第0〜10のフレーム)を含む短いビデオシーケンスについて、該中間フレームは第5フレームであってもよく、隣接の第4フレーム又は第6フレームであってもよい。任意選択で、本開示の実施例では、短いビデオシーケンス中の最初フレーム又は最後フレームを該短いビデオシーケンス中の第1のキーフレームとして選択してもよい。
任意選択で、他の方法で第1のキーフレームを選択してもよいが、本開示の実施例では第1のキーフレームの選択方法がここに限定されない。
ビデオ中の共有特徴を多重化するために、本開示の実施例は、識別過程でビデオを短いビデオシーケンスに分割し、それぞれの短いビデオシーケンス中から1つのフレーム(キーフレーム)のみの特徴を抽出し、そしてオプティカルフローフィールドに基づく特徴伝播方法で、該キーフレームの特徴を該短いビデオシーケンス中の他のフレーム(非キーフレーム)に伝播する。短いビデオシーケンス中の最初フレーム又は最後フレームをキーフレームとして選択する手法に対して、中間フレームをキーフレームとして選択するには、平均特徴伝播距離が短くなり、短いビデオシーケンス中のフレーム間の特徴伝播によって生じる誤差を最小限に抑え、短いビデオシーケンス中の総特徴伝播時間を短縮でき、検出結果の精度を向上させることができる。
本開示の実施例のビデオ識別方法のもう1つの例では、さらにキーフレームの特徴に基づいて、非キーフレームに対して物体検出を行っても良い。容易に理解するために、以下、第1の非キーフレームの物体検出を例にして説明するが、ここで、任意選択で、該第1の非キーフレームがビデオ中のいずれか1つの非キーフレームであるフレーム、又はビデオ中のある条件を満たす非キーフレームであり得る。
1つの選択可能な例では、第1の非キーフレームと第1のキーフレームの間のオプティカルフローフィールドを取得し、第1の非キーフレームと第1のキーフレームの間のオプティカルフローフィールド、及び第1のキーフレームの融合特徴に基づいて、第1の非キーフレームの特徴を取得して、第1の非キーフレームの特徴に基づいて該第1の非キーフレームを検出し、第1の非キーフレームにおける物体検出結果を取得し得る。
例示的に、第1のキーフレームと第1の非キーフレームの間の距離が予設閾値よりも小さくても良く、この時、ある非キーフレームについて、その距離が予設閾値以下であるキーフレームを利用し、該非キーフレームに対して物体検出を行っても良く、任意選択で、前記距離条件を満たすキーフレームの数が少なくとも2つ(即ち複数)である場合に、条件を満たす少なくとも2つのキーフレーム中からランダムに選択又は一定の予設条件で1つのキーフレームを選択すればよい。又は、第1のキーフレームは、ビデオの複数のキーフレーム中の、第1の非キーフレームとの距離が最も近いキーフレームであり得、この時に、ビデオ中のある非キーフレームについて、その距離が最も近いキーフレームを利用し、該非キーフレームに対して物体検出を行っても良い。又は、第1の非キーフレームと第1のキーフレームが同一の短いビデオシーケンス又はセグメントに属し、この時に、短いビデオシーケンス又はセグメント中の非キーフレームの全てについては、同一のキーフレーム(即ち該短いビデオシーケンス又はセグメント中のキーフレーム)の融合特徴を利用し物体検出を行えるが、本開示の実施例はここに限定されない。
1つの選択可能な例では、第1の非キーフレームと第1のキーフレームの間のオプティカルフローフィールドを取得した後、第1の非キーフレームと第1のキーフレームの間のオプティカルフローフィールドに基づいて、第1のキーフレームの融合特徴と第1の非キーフレームを位置合わせてもよい。この時に、第1の非キーフレームと第1のキーフレームの間のオプティカルフローフィールド、及び位置合わせた第1のキーフレームの融合特徴に基づいて、第1の非キーフレームの特徴を取得し得る。任意選択で、他の方法で第1の非キーフレームの特徴を取得しても良いが、本開示の実施例はここに限定されない。
該少なくとも1つの実施例によれば、短いビデオシーケンス中の注目された非キーフレームを検出でき、短いビデオシーケンス中の全てのフレームを検出する必要がなく、例えば10フレームの短いビデオシーケンスについて、その内の第5フレームをキーフレームとして検出する以外に、第2、8フレームを選択し検出してもよい。
該少なくとも1つの実施例によれば、短いビデオシーケンス中のフレームごとに検出でき、ビデオのフレームごとの検出を実現することができる。
このように、1つの短いビデオシーケンスについて、1つだけのフレーム(即ちキーフレーム)の特徴が抽出され、他のフレームの特徴がオプティカルフロー伝播によって取得され、キーフレーム特徴が多重化されて、非キーフレームの特徴抽出を回避することにより、冗長計算を避けて、フレームの識別速度を向上させる。
図2は本開示の実施例のビデオ識別方法のもう1つの模式的なフローチャートである。
202、ビデオを複数の短いビデオシーケンス(又はセグメント)に分割する。
該複数の短いビデオシーケンスは、同じ数のフレーム、又は異なる数のフレームを含むか、又は短いビデオシーケンスの一部が同じ数のフレームを含み、短いビデオシーケンスの別の部分が異なる数のフレームを含んでもよい。
204、複数の短いビデオシーケンス中から1つの短いビデオシーケンスを順次選択して現在短いビデオシーケンスとする。
206、現在短いビデオシーケンス中から1つの中間フレームを現在短いビデオシーケンスのキーフレーム、すなわち第1のキーフレームとして選択し、第1のキーフレームの特徴を抽出する。
1つの選択可能な例では、該操作202〜206はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行される選択モジュールによって実行されてもよい。
208、第1のキーフレームがビデオ中の最初のキーフレーム(即ち1stキーフレーム)であるかどうかを確定する。
任意選択で、現在短いビデオシーケンスが複数の短いビデオシーケンス中の最初に検出される短いビデオシーケンスであるかどうかを確定することができる。
第1のキーフレームがビデオ中の1stキーフレームであると、操作210〜212を実行する。逆に、第1のキーフレームがビデオ中の1stキーフレームではないと、操作214を実行する。
1つの選択可能な例では、該操作208はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行される確定モジュールによって実行されてもよい。
210、1stキーフレームの特徴を該1stキーフレームの融合特徴とする。
任意選択で、1stキーフレームの特徴を1stキーフレームの融合特徴としてキャッシュしてもよい。
1つの選択可能な例では、該操作210はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行される光線処理モジュールによって実行されてもよい。
212、1stキーフレームの特徴に基づいて1stキーフレームを検出し、該1stキーフレームにおける物体検出結果を取得する。
1つの選択可能な例では、該操作212はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行される検出ネットワークによって実行されてもよい。
その後、操作220を実行することができる。
214、第1のキーフレームと第2のキーフレームの間のオプティカルフローフィールドに基づいて、該第2のキーフレームの融合特徴と第1のキーフレームを位置合わせる。
第2のキーフレームのビデオにおける検出時間順序が第1のキーフレームの前である。任意選択で、該第2のキーフレームが1つ前の検出のキーフレームであってもよい。
第2のキーフレームの融合特徴は、該第2のキーフレームの特徴、及び前記ビデオにおける検出時間順序が該第2のキーフレームの前である第3のキーフレームの融合特徴を融合処理することにより取得される。
1つの選択可能な例では、該操作214はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行されるオプティカルフロー伝播モジュールによって実行される。
216、位置合わせた第2のキーフレームの融合特徴と第1のキーフレームの特徴を融合し、第1のキーフレームの融合特徴を取得する。
1つの選択可能な例では、該操作216はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行される融合ネットワークによって実行されてもよい。
218、第1のキーフレームの融合特徴に基づいて該第1のキーフレームを検出し、第1のキーフレームにおける物体検出結果を取得する。
本開示の各実施例では、画像フレームにおける物体検出結果は該画像フレームの種別、又は該画像フレーム中の少なくとも1つの物体検出ボックス及びその対応の物体種別であり得る。ここで、第1のキーフレームにおける物体検出結果は、例えば第1のキーフレームの種別、又は第1のキーフレーム中の少なくとも1つの物体検出ボックス及びその対応の物体種別であってもよく、本開示の実施例では限定されない。
1つの選択可能な例では、該操作218はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行される検出ネットワークによって実行されてもよい。
220、現在短いビデオシーケンス中から1つの他のフレームを選択して第1の非キーフレームとし、該第1の非キーフレームと第1のキーフレームの間のオプティカルフローフィールドを取得する。
ここで、1つの選択可能な実施形態では、現在短いビデオシーケンス中の全てのフレームが選択されるまで、現在短いビデオシーケンス中から1つの他のフレームを選択して第1の非キーフレームとし、第1のキーフレームから時間順序逆方向に沿って順次1つの他のフレームを第1の非キーフレームとして選択してもよく、時間順序正方向に沿って順次1つの他のフレームを第1の非キーフレームとして選択してもよく、又は第1のキーフレームから時間順序正方向、時間順序逆方向に沿って順次交互に1つの他のフレームを第1の非キーフレームとして選択し、第1のキーフレームから時間順序逆方向、時間順序正方向に沿って順次交互に1つの他のフレームを第1の非キーフレームとして選択してもよい。なお、もう1つの選択可能な実施形態では、現在短いビデオシーケンス中の各画像フレームのそれぞれを識別する必要がない場合があり、この時に、類似の方法を参照し、現在短いビデオシーケンス中から1つ又は複数の他のフレームを第1の非キーフレームとして選択してもよいが、本開示の実施例はここに限定されない。
222、第1の非キーフレームと第1のキーフレームの間のオプティカルフローフィールドに基づいて、該第1の非キーフレームと第1のキーフレームの融合特徴を位置合わせる。
224、第1の非キーフレームと第1のキーフレームの間のオプティカルフローフィールド、及び位置合わせた第1のキーフレームの融合特徴に基づいて、第1の非キーフレームの特徴を取得する。
1つの選択可能な例では、該操作220〜226はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行されるオプティカルフロー伝播モジュールによって実行されてもよい。
226、第1の非キーフレームの特徴に基づいて該第1の非キーフレームを検出し、第1の非キーフレームにおける物体検出結果を取得する。
ここで、第1の非キーフレームにおける物体検出結果は、例えば第1の非キーフレームの種別、又は第1の非キーフレーム中の少なくとも1つの物体検出ボックス及びその対応の物体種別であり得る。
1つの選択可能な例では、該操作226はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行される検出ネットワークによって実行されてもよい。
1つ又は複数の選択可能な例では、現在短いビデオシーケンス中の識別必要のある非キーフレームについて、現在短いビデオシーケンス中の識別必要のある非キーフレームがすべて識別されるまで順次操作220〜226を実行し、その後、次の短いビデオシーケンスについて、全ての短いビデオシーケンスが識別されるまで前記流れを実行する。
本開示の実施例で提供されるビデオ識別方法では、それぞれのキーフレームの特徴が本フレームの識別に使用されるだけでなく、ビデオ全体に共有される融合特徴にも寄与する。該共有融合特徴は、複数のキーフレームの情報を吸収し、それぞれのキーフレームで現在キーフレーム自体の深層特徴とを融合し、対応の画像がぼやけている時に識別が失敗しないようにこのキーフレーム特徴を強化する。各キーフレームごとに共有の融合特徴を伝播し、同時にそれぞれのキーフレームで更新する。強化のキーフレーム特徴が他の非キーフレームの識別のためにも伝播される。
一般的なのビデオ特徴の多重化では、まずより高速なアルゴリズムを使用して2つのフレーム間のオプティカルフローフィールドを計算し、その後双線形差分特徴変形を使用して参照フレームの特徴を高速にターゲットフレームに伝播する。ただし、オプティカルフローアルゴリズムの誤差によるノイズが発生し、精度が低下する。アテンションメカニズムに基づくビデオ特徴の強化により、モーションブラー、ピンぼけなどによる精度低下の問題をある程度対処できるが、この方法ではオプティカルフローフィールドにより特徴を位置合わせる必要があるので、多数のオプティカルフロー計算により速度が大幅に低下する。本開示の実施例で提供されるビデオ識別方法は、ビデオ情報の冗長性及び相補性を十分に利用し、疎な特徴抽出により冗長計算を回避し、オプティカルフローを通じて多重化特徴を伝播し、これに基づいて、最適化されたキーフレームの位置選択によりオプティカルフロー計算によるノイズを低減し、他のビデオ特徴の多重化方法と比較して、反復式の特徴融合アルゴリズムにより共有特徴に含まれる情報を強化し、同時に速度及び制度を確保する。
本開示の実施例は、反復式の複数のフレーム特徴における融合方法によりビデオ中のこれらのキーフレームの共有特徴に含まれる情報を強化し、フレーム識別の精度を向上させ、ビデオ識別性能を向上させるとともに、第2のキーフレームの特徴と第1のキーフレームの特徴をすべて融合するではなく、最新の1つの未融合フレームの特徴だけを加えて融合し、特徴融合の計算オーバーヘッドが削減され、ビデオ識別効率が向上する。次に、中間フレームをキーフレームのキーフレーム位置として選択する方法は、最初フレームを固定的にキーフレームとして選択する方法と比較して、平均特徴伝播距離が短縮され、短いビデオシーケンス中の画像フレーム間の特徴伝播取込の誤差が低減され、短いビデオシーケンス中の総特徴伝播時間が短縮され、かつ検出結果の精度が向上する。なお、ビデオ中の各画像フレーム間の情報の冗長性及び相補性を十分に利用して、画像フレームごとに特徴を抽出するのではなく、キーフレームの特徴を抽出し、オプティカルフロー伝播方法により画像フレーム間の特徴が多重化され、疎の特徴抽出により冗長計算を回避し、フレームごとに特徴を抽出する方法と比較してビデオ識別の速度及び効率が向上する。
また、「融合−伝播−融合−伝播」方法を交互に採用することにより、融合ごとに最新の1つの未融合フレームの特徴を伝播するだけでよく、融合操作時にオプティカルフローにより各融合するフレームの特徴を伝播する他の方法と比較して、特徴伝播の計算オーバーヘッドが削減される。
本開示の実施例で提供されるビデオ識別方法は様々なシーンに応用され得る。例えば、インテリジェントドローンは、航空写真で野生動物を撮像する場合に、リアルタイム分析を実現するために、写真内の動物をできるだけ迅速かつ正確に識別する必要がある。しかしながら、気流などの影響により、写真が揺れたりぼやけたりすることがあり、同時に野生動物自体も速く走っている場合がある。これらの要素により、写真の品質が低下し、従来のビデオ識別ネットワークは実際の応用における精度及び速度のニーズを満たすことができず、本開示の実施例で提出される技術的解決策は、ビデオ識別の精度及び速度を向上させることができる。
図3に示すように、図2に示すビデオ識別方法の一例の対応過程の模式図である。図2及び図3の例は、本開示の技術的解決策を理解するのを助けることのみを目的としており、本開示を限定するものとして解釈されるべきではないことを理解されたい。
本開示の前記の各実施例のビデオ識別方法は、トレーニングされたビデオ識別ネットワークによって実現され、ビデオ識別ネットワークはニューラルネットワークによって実現され、例えば、ニューラルネットワークは深層ニューラルネットワークであり得る。ビデオ識別ネットワークによって前記各実施例のビデオ識別方法を実現する前に、ビデオ識別ネットワークをトレーニングすることができる。
1つ又は複数の選択可能な実施例では、前記ビデオ識別方法は、ビデオ識別ネットワークのトレーニングを実現することができる。任意選択で、前記ビデオ中の画像フレーム(キーフレーム及び/又は非キーフレームを含む)をサンプル画像フレームとして使用してもよく、ここで、サンプル画像フレームはラベル情報を有しても良い。この時に、該ビデオ識別方法は、ビデオ中の少なくとも1つの画像フレームにおける物体検出結果とラベル情報との相違に基づいて、ビデオ識別ネットワークをトレーニングすることをさらに含み、ここで、前記少なくとも1つの画像フレームは前記第1のキーフレームを含む。例えば、予設トレーニング完了条件を満たすまで、ランダム勾配降下法を使用してトビデオ識別ネットワークをレーニングすることができる。予設トレーニング完了条件は、例えば、少なくとも1つの画像フレームにおける物体検出結果とラベル情報との相違が特定の条件を満たすこと、及び/又はビデオ識別ネットワークのトレーニングが予設回数に達することを含む。
1つの選択可能な実施形態では、前記ラベル情報には、画像フレーム中に含まれる少なくとも1つの物体の位置情報(例えば物体フレームの位置情報)及び/又は種別情報が含まれる。これに応じて、物体検出結果には、物体検出ボックス及び/又は物体検出ボックスに対応する物体種別が含まれる。1つ又は複数の選択可能な例では、ビデオ識別ネットワークをトレーニングする時に、ビデオ中の少なくとも1つの画像フレームにおける物体検出結果中の物体検出ボックスとラベル情報中の対応の位置情報との相違、及び/又は該物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、ビデオ識別ネットワーク中のネットワークパラメータ値を調整する。
以下、図4を参照して、本開示の実施例で提供されるビデオ識別ネットワークのトレーニング方法を詳細に説明する。
図4は、本開示の実施例のビデオ識別ネットワークのトレーニング方法のフローチャートである。
402、ビデオ識別ネットワークを利用して、ビデオサンプル中の現在キーフレームの特徴及び1つ前のキーフレームの特徴を抽出する。
404、ビデオ識別ネットワークを利用して、現在キーフレームの特徴と1つ前のキーフレームの特徴を融合し、現在キーフレームの融合特徴を取得し、ビデオサンプル中の現在ターゲットフレームと現在キーフレームの間のオプティカルフローフィールドを取得する。
ここで、現在ターゲットフレームと現在キーフレームがビデオサンプル中の同一のセグメント(現在セグメントとも呼ぶ)に属し、該現在セグメント中のキーフレーム以外のフレームであり得る。
406、ビデオ識別ネットワークを利用して、現在ターゲットフレームと現在キーフレームの間のオプティカルフローフィールド、及び現在キーフレームの融合特徴に基づいて、現在ターゲットフレームの特徴を取得する。
408、ビデオ識別ネットワークを利用して、現在ターゲットフレームの特徴に基づいて現在ターゲットフレームを検出し、現在ターゲットフレームにおける物体検出結果を取得する。
1つの選択可能な例では、該操作402〜408はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行されるビデオ識別ネットワーク又はビデオ識別装置中の対応のモジュールによって実行されてもよい。
410、現在ターゲットフレームにおける物体検出結果と現在ターゲットフレームのラベル情報との相違に基づいて、ビデオ識別ネットワークをトレーニングし、即ち、ビデオ識別ネットワークのネットワークパラメータ値を調整する。
1つの選択可能な例では、該操作410はメモリに記憶された対応の命令を呼び出すプロセッサーによって実行されてもよく、プロセッサーにより実行されるトレーニングモジュールによって実行されてもよい。
本開示の実施例で提供されるビデオ識別ネットワークのトレーニング方法により、ビデオサンプル中の現在キーフレームの特徴及び1つ前のキーフレームの特徴を融合し、現在キーフレームの融合特徴を取得し、また該現在キーフレームの融合特徴を現在ターゲットフレームに伝播して検出し、現在ターゲットフレームにおける物体検出結果を取得し、現在ターゲットフレームにおける物体検出結果とラベル情報との相違に基づいて、ビデオ識別ネットワークをトレーニングし、本開示の実施例のビデオ識別ネットワークのトレーニング方法によってトレーニングされて取得されたビデオ識別ネットワークに基づいて、ビデオを識別する時に、それぞれのキーフレームについてビデオ中の1つ前のキーフレームの特徴とを融合して現在ターゲットフレームに伝播し検出するようにして、反復式の複数のフレーム特徴における融合方法を通じてビデオ中のこれらのキーフレームの共有特徴に含まれる情報を増強し、フレーム識別の精度が向上し、ビデオ識別性能が向上し、且つ全ての第2のキーフレームの特徴と第1のキーフレームの特徴を融合することではなく、最新1つの未融合キーフレームの特徴を融合するだけで、特徴融合の計算オーバーヘッドを低減でき、ビデオ識別効率を向上させる。
1つの選択可能な例では、前記トレーニング方法は反復実行過程であり得、つまり、予設のトレーニング完了条件を満たすまで、ビデオ中のそれぞれのフレームを現在ターゲットフレームとして前記流れを実行し、ビデオ識別ネットワークのトレーニングが完成する。
本開示の実施例のトレーニング方法の1つの選択可能な実施形態では、現在キーフレームの特徴と1つ前のキーフレームの特徴を融合することは、
現在キーフレームと1つ前のキーフレームの間のオプティカルフローフィールドを取得することと、
現在キーフレームと1つ前のキーフレームの間のオプティカルフローフィールドに基づいて、1つ前のキーフレームの特徴と現在キーフレームを位置合わせることと、
位置合わせた1つ前のキーフレームの特徴と現在キーフレームの特徴を融合することと、を含む。
本開示の実施例のトレーニング方法の1つの選択可能な実施形態では、1つ前のキーフレームの特徴と現在キーフレームの特徴を融合することは、
1つ前のキーフレームの特徴と現在キーフレームの特徴の重み係数を決定することと、
1つ前のキーフレームの特徴と現在キーフレームの特徴の重み係数に基づいて、1つ前のキーフレームの特徴と現在キーフレームの特徴を融合する。
本開示の前記各トレーニング方法の実施例の前に、ビデオサンプル中から現在キーフレーム、1つ前のキーフレーム及び現在ターゲットフレームを選択することをさらに含む。
1つの選択可能な実施形態では、ビデオサンプル中から現在キーフレーム、1つ前のキーフレーム及び現在ターゲットフレームを選択することは、
ビデオサンプル中から選択された画像フレームを現在ターゲットフレームとすることと、
前記ビデオサンプル中の該現在ターゲットフレームを始点としての第1の距離前のサンプリングされた画像フレームを1つ前のキーフレームとし、前記ビデオ中の現在ターゲットフレームを始点としての第2の距離後のサンプリングされた画像フレームを現在キーフレームとすることを含む。
1つの選択可能な例では、前記第2の距離が第1の距離よりも小さくても良い。このように、該現在ターゲットフレームと現在キーフレームの距離が該現在ターゲットフレームと1つ前のキーフレームの距離よりも小さく良い。
例えば、1つの応用例では、ビデオサンプル中からランダムに1つの画像フレームを現在ターゲットフレームとして選択し、該現在ターゲットフレームに前記ラベル情報を付ける。また、該ビデオサンプル中の現在ターゲットフレームから、前へあるランダム距離に向かって、1つの画像フレームをサンプリングして1つ前の短いビデオシーケンスのキーフレーム(即ち1つ前のキーフレーム)とすることができ、例えば、仮に短いビデオシーケンス長さを10フレームとすると、該1つ前のキーフレームが現在ターゲットフレームから前へ5フレーム〜15フレームの間に位置してもよい。該ビデオサンプル中の現在ターゲットフレームから、後へやや小さいランダム距離(即ち第2の距離)に向かって、1つの画像フレームをサンプリングして現在セグメントのキーフレーム(即ち現在キーフレーム)とすることができ、例えば、短いビデオシーケンス長さを10フレームとすると、該現在キーフレームが現在ターゲットフレームから後へ−5フレーム〜5フレームの間に位置してもよい。任意選択で、本開示の実施例は、他の方法によってある画像フレームの1つ前のキーフレーム及び現在キーフレームを取得してもよいが、本開示の実施例では限定されない。
なお、本開示の実施例の前記トレーニング方法において、任意選択で、前記ビデオ中の現在ターゲットフレームフレームのラベル情報には、現在ターゲットフレーム中に含まれる少なくとも1つの物体の位置情報(例えば物体フレームの位置情報)及び/又は種別情報が含まれ、現在ターゲットフレームにおける物体検出結果には現在ターゲットフレーム中の少なくとも1つの物体検出ボックス及び/又は物体検出ボックスに対応する物体種別が含まれる。これに応じて、該実施例では、現在ターゲットフレームにおける物体検出結果と現在ターゲットフレームのラベル情報との相違に基づいて、ビデオ識別ネットワークをトレーニングすることは、現在ターゲットフレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置情報との相違及び/又は該物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、ビデオ識別ネットワーク中のネットワークパラメータ値を調整することを含む。
本開示の各トレーニング方法の実施例では、選択された各組の現在キーフレーム、1つ前のキーフレーム及び現在ターゲットフレームによってトレーニングサンプルを構成し、少なくとも1つのトレーニングサンプルによってトレーニングサンプルセットを構成し、順次トレーニングサンプルセット中からトレーニングサンプルを選択し、前記トレーニング方法の流れを実行し、予設トレーニング完了条件、例えば、現在ターゲットフレームにおける物体検出結果と現在ターゲットフレームのラベル種別情報との相違が予設違いよりも小さく、及び/又はビデオ識別ネットワークのトレーニングが予設回数に達することを満たすまで、ビデオ識別ネットワークを反復にトレーニングする。図5に示すように、図4に示す実施例の1つの対応過程の模式図である。図4及び図5の例は、本開示の技術的解決策を理解するのを助けるためのものであり、本開示を限定するものとして解釈されるべきではないことを理解されたい。
本開示の実施例で提供されるトレーニング方法において、ビデオ中のランダムにサンプリングされた3つの画像を使用して、応用時の動作状態をミュレートする。まず、ランダムに1つのフレームを現在識別ターゲットフレームとして選択し、その後ランダム距離前の段でサンプリングされたフレームを1つ前のセグメントのキーフレームとし、そしてやや小さいランダム距離後の段でサンプリングされたフレームを現在セグメントのキーフレームとする。前のセグメントのキーフレーム特徴をオプティカルフローによって現在セグメントのキーフレームに伝播し、1つのサブネットワークによって位置ごとの融合重みを生成して、この重みにより両者の融合したキーフレーム特徴を取得する。融合のキーフレーム特徴をオプティカルフローによって現在識別ターゲットフレームに伝播し、具体的な識別タスクネットワークに取り込み、ラベルとの誤差が発生し、この誤差を逆方向に伝播することによってフレーム全体を最適化する。
なお、本開示の実施例は、もう1つのビデオ識別方法を提供し、識別待ちのビデオを取得することと、本開示のいずれか1つの実施例のトレーニング方法によってトレーニングされたビデオ識別ネットワークを利用してビデオを識別し、ビデオの識別結果を取得することと、を含む。
本開示の実施例で提供されるいずれか1つのビデオ識別方法又はビデオ識別ネットワークのトレーニング方法は、データ処理能力を有する任意の適当なデバイス、例えば端末デバイス及びサーバなどによって実行され得るが、これらに限定されない。又は、本開示の実施例で提供されるいずれか1つのビデオ識別方法又はビデオ識別ネットワークのトレーニング方法は、プロセッサーによって実行され得、例えばプロセッサーによってメモリに記憶された対応の命令を呼び出し本開示の実施例のいずれか1つのビデオ識別方法又はビデオ識別ネットワークのトレーニング方法を実行する。これは以下では繰り返されない。
上記方法の実施例を実現する全部または一部のステップは、プログラム命令に関連するハードウェアによって実行され、前記のプログラムがコンピュータ可読取記憶媒体に記憶され、該プログラムが実行される時に、上記方法の実施例を含むステップを実行し、前記の記憶媒体にはROM、RAM、磁気ディスクまたはコンパクトディスクなどのプログラムコードを記憶可能な各種の媒体が含まれることが当業者に理解可能である。
図6は本開示の実施例のビデオ識別装置の構造模式図である。該ビデオ識別装置は本開示の実施例で提供される前記ビデオ識別方法を実現するために用いられ得る。図6に示すように、該ビデオ識別装置は、特徴抽出ネットワーク、融合ネットワーク及び検出ネットワークを含む。
特徴抽出ネットワークはビデオ中の第1のキーフレームの特徴を抽出するために用いられる。ここで、該第1のキーフレームはビデオ中のいずれか1つのキーフレームであり得、ビデオの複数のキーフレーム中の現在処理するキーフレームと見なす。
融合ネットワークは、第1のキーフレームの特徴と前記ビデオ中の第2のキーフレームの融合特徴を融合し、第1のキーフレームの融合特徴を取得するために用いられ、ここで、第2のキーフレームのビデオにおける検出時間順序が第1のキーフレームの前であり、該第2のキーフレームは例えば前記ビデオ中の第1のキーフレームと隣接する1つ前のキーフレームであり得る。本開示の各実施例の1つの実施形態では、第2のキーフレームの融合特徴は、該第2のキーフレームの特徴と前記ビデオにおける検出時間順序が該第2のキーフレームの前である第3のキーフレームの融合特徴を融合処理し取得され得る。
検出ネットワークは、前記第1のキーフレームの融合特徴に基づいて第1のキーフレームを検出し、第1のキーフレームにおける物体検出結果を取得するために用いられる。ここで、第1のキーフレームにおける物体検出結果は、例えば第1のキーフレームの種別、又は第1のキーフレーム中の物体検出ボックス及びその対応の物体種別を含む。
本開示の実施例で提供されるビデオ識別装置によれば、第1のキーフレームの特徴とビデオ中の第2のキーフレームの融合特徴を融合し、第1のキーフレームの融合特徴を取得し、第1のキーフレームの融合特徴に基づいて第1のキーフレームを検出し、非キーフレームにおける物体検出結果を取得する。本開示の実施例は、ビデオを識別する時に、それぞれのキーフレームについて、ビデオ中の第2のキーフレームの融合特徴と融合し、取得された第1のキーフレームの融合特徴に基づいてさらに識別し、反復式の複数のフレーム特徴における融合方法によってビデオ中のこれらのキーフレームの共有特徴に含まれる情報を強化し、フレーム識別の精度が向上し、ビデオ識別性能も向上し、そして、全ての第2のキーフレームの特徴と第1のキーフレームの特徴を融合することではなく、最新の未融合キーフレームの特徴を加えて融合し、特徴融合の計算オーバーヘッドを低減し、ビデオ識別効率を向上させる。
図7は本開示の実施例のビデオ識別装置の別の構造模式図である。図7に示すように、図6に示すビデオ識別装置と比較して、該ビデオ識別装置は、第1のキーフレームと第2のキーフレームの間のオプティカルフローフィールドを取得し、第1のキーフレームと第2のキーフレームの間のオプティカルフローフィールドに基づいて、第2のキーフレームの融合特徴と第1のキーフレームとを位置合わせるために用いられるオプティカルフロー伝播モジュールをさらに含む。これに応じて、融合ネットワークは、位置合わせた第2のキーフレームの融合特徴と第1のキーフレームの融合特徴を融合し、第1のキーフレームの融合特徴を取得するために用いられる。
本開示1つの選択可能な実施形態では、融合ネットワークは第1のキーフレームの特徴とビデオ中の第2のキーフレームの融合特徴を融合する時に、第1のキーフレームの特徴と第2のキーフレームの融合特徴の重み係数を決定し、第1のキーフレームの特徴と第2のキーフレームの融合特徴の重み係数に基づいて、第1のキーフレームの特徴と第2のキーフレームの融合特徴を融合するために用いられる。
なお、また図7を参照して、本開示の実施例のビデオ識別装置のさらに別の例では、第1のキーフレームがビデオ中の最初のキーフレームであるかどうかを確定するための確定モジュールをさらに含む。これに応じて、融合ネットワークは、確定モジュールの確定結果に基づいて、第1のキーフレームがビデオ中の最初のキーフレームではないことに応じて、第1のキーフレームの特徴とビデオ中の第2のキーフレームの融合特徴を融合するために用いられる。
なお、任意選択で、もう1つの可能な実現態様では、検出ネットワークは、さらに、確定モジュールの確定結果に基づいて、第1のキーフレームがビデオ中の最初のキーフレームであることに応じて、最初のキーフレームの特徴に基づいて第1のキーフレームを検出し、最初のキーフレームにおける物体検出結果を取得するために用いられる。
なお、また図7を参照して、本開示の実施例のビデオ識別装置のもう1つの例では、ビデオ中から第1のキーフレームを選択するための選択モジュールをさらに含む。
1つの実施形態では、選択モジュールは、ビデオ中からランダムに選択された画像フレームを第1のキーフレームとし、又は、ビデオ中から幾つかのフレーム間隔毎に選択された画像フレームを第1のキーフレームとし、又は、ビデオを複数の短いビデオシーケンスに分割し、それぞれの短いビデオシーケンス中から画像フレームをそれぞれの短いビデオシーケンスのキーフレームとして選択し、複数の短いビデオシーケンスのキーフレームには第1のキーフレームが含まれ、又は、ビデオ中から1つの短いビデオシーケンスを選択し、選択された短いビデオシーケンス中から選択された画像フレームを前記第1のキーフレームとするために用いられる。
1つの選択可能な例では、選択モジュールは短いビデオシーケンス中から選択された画像フレームを第1のキーフレームとし、短いビデオシーケンス中からランダムに選択された画像フレームを第1のキーフレームとし、又は、短いビデオシーケンス中の中間フレームを第1のキーフレームとして選択するために用いられ、ここで、中間フレームは、該中間フレームの所在する短いビデオシーケンス中の最初フレーム及び最後フレーム以外の画像フレームを含む。中間フレームは、例えば該中間フレームの所在する短いビデオシーケンス中の中央位置又は中央位置の近くに位置する画像フレームを含む。
なお、前記各ビデオ識別装置の実施例では、オプティカルフロー伝播モジュールは、さらに、第1の非キーフレームと第1のキーフレームの間のオプティカルフローフィールドを取得し、第1の非キーフレームと第1のキーフレームの間のオプティカルフローフィールド、及び第1のキーフレームの融合特徴に基づいて、第1の非キーフレームの特徴を取得するために用いられる。これに応じて、検出ネットワークは、さらに、第1の非キーフレームの特徴に基づいて第1の非キーフレームを検出し、第1の非キーフレームにおける物体検出結果を取得するために用いられる。
ここで、第1のキーフレームと第1の非キーフレームの間の距離が予設閾値よりも小さく、又は、第1のキーフレームがビデオのキーフレーム中の、第1の非キーフレームとの距離が最も近いキーフレームであり、又は、第1の非キーフレームと第1のキーフレームが同一の短いビデオシーケンスに属する。
1つの実施形態では、オプティカルフロー伝播モジュールは、第1の非キーフレームと第1のキーフレームの間のオプティカルフローフィールドに基づいて、第1のキーフレームの融合特徴と第1の非キーフレームとを位置合わせ、第1の非キーフレームと第1のキーフレームの間のオプティカルフローフィールド、及び位置合わせた第1のキーフレームの融合特徴に基づいて、第1の非キーフレームの特徴を取得するために用いられる。
任意選択で、本開示の実施例で提供される前記ビデオ識別装置は、ビデオ識別ネットワークによって実現され、前記ビデオ中の画像フレームにラベル情報が付けられる。これに応じて、ビデオ識別装置のいくつかの可能な実現態様では、ビデオ中の少なくとも1つの画像フレームにおける物体検出結果とラベル情報との相違に基づいて、ビデオ識別ネットワークをトレーニングするために用いられるトレーニングモジュールをさらに含み、ここで、前記少なくとも1つの画像フレームには第1のキーフレームが含まれる。
1つの実施形態では、前記ラベル情報には、少なくとも1つの物体の位置情報(例えば物体フレームの位置情報)および種別情報が含まれ、種別検出結果には物体検出ボックス及び物体検出ボックスに対応する物体種別が含まれる。これに応じて、トレーニングモジュールは、ビデオ中の少なくとも1つの画像フレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置情報との相違及び/又は該物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、ビデオ識別ネットワーク中のネットワークパラメータ値を調整するために用いられる。
図8は本開示の実施例のビデオ識別ネットワークのトレーニング装置の構造模式図である。該トレーニング装置は、本開示の図4に示すビデオ識別ネットワークのトレーニング方法を実現するために用いられる。図8に示すように、該トレーニング装置は、ビデオ識別ネットワーク及びトレーニングモジュールを含む。
ビデオ識別ネットワークは、ビデオサンプル中の現在キーフレームの特徴及び1つ前のキーフレームの特徴を抽出し、現在キーフレームの特徴と1つ前のキーフレームの特徴を融合し、現在キーフレームの融合特徴を取得し、ビデオサンプル中の現在ターゲットフレームと現在キーフレームの間のオプティカルフローフィールドを取得し、ここで、現在ターゲットフレームと現在キーフレームがビデオサンプル中の同一セグメントに属し、例えば該現在キーフレームが位置するセグメント中の現在キーフレーム以外の他のフレームであり得、現在ターゲットフレームと現在キーフレームの間のオプティカルフローフィールド、及び現在キーフレームの融合特徴に基づいて、現在ターゲットフレームの特徴を取得し、現在ターゲットフレームの特徴に基づいて現在ターゲットフレームを検出し、現在ターゲットフレームにおける物体検出結果を取得するために用いられる。
トレーニングモジュールは、現在ターゲットフレームにおける物体検出結果と現在ターゲットフレームのラベル情報との相違に基づいて、前記ビデオ識別ネットワークをトレーニングする、すなわち、ビデオ識別ネットワークのネットワークパラメータ値を調整するために用いられる。
本開示の実施例ビデオ識別ネットワークのトレーニング装置に基づいて、ビデオサンプル中の現在キーフレームの特徴及び1つ前のキーフレームの特徴を融合し、現在キーフレームの融合特徴を取得して、該現在キーフレームの融合特徴を現在ターゲットフレームに伝播して検出し、現在ターゲットフレームにおける物体検出結果を取得し、現在ターゲットフレームにおける物体検出結果とラベル情報との相違に基づいて、ビデオ識別ネットワークをトレーニングし、本開示の実施例のビデオ識別ネットワークのトレーニング装置によってトレーニングされて得られたビデオ識別ネットワークに基づいて、ビデオを識別する時に、それぞれのキーフレームについてビデオ中の1つ前のキーフレームの特徴と融合してから現在ターゲットフレームに伝播して検出し、反復式の複数のフレーム特徴における融合方法によって、ビデオ中のこれらのキーフレームの共有特徴に含まれる情報を強化し、フレーム識別の精度が向上し、ビデオ識別性能が向上し、そして、全ての第2のキーフレームの特徴と第1のキーフレームの特徴を融合するではなく、最新の未融合キーフレームの特徴を加えて融合し、特徴融合の計算オーバーヘッドを低減し、ビデオ識別効率が向上する。
図9は、本開示の実施例のビデオ識別ネットワークのトレーニング装置の別の構造模式図である。図9に示すように、ビデオ識別ネットワークは、特徴抽出ネットワーク、オプティカルフロー伝播モジュール、融合ネットワーク及び検出ネットワークを含む。
特徴抽出ネットワークは、ビデオ中の現在キーフレームの特徴及び1つ前のキーフレームの特徴を抽出するために用いられる。
オプティカルフロー伝播モジュールは、現在キーフレームと1つ前のキーフレームの間のオプティカルフローフィールドを取得し、現在キーフレームと1つ前のキーフレームの間のオプティカルフローフィールドに基づいて、1つ前のキーフレームの特徴と現在キーフレームとを位置合わせて、現在ターゲットフレームと現在キーフレームの間のオプティカルフローフィールドを取得し、現在ターゲットフレームと現在キーフレームの間のオプティカルフローフィールド、及び現在キーフレームの融合特徴に基づいて、現在ターゲットフレームの特徴を取得するために用いられる。
融合ネットワークは、位置合わせた1つ前のキーフレームの特徴と現在キーフレームの特徴を融合し、現在キーフレームの融合特徴を取得するために用いられる。
検出ネットワークは、現在ターゲットフレームの特徴に基づいて現在ターゲットフレームを検出し、現在ターゲットフレームにおける物体検出結果を取得するために用いられる。
1つの実施形態では、融合ネットワークは1つ前のキーフレームの特徴と現在キーフレームの特徴を融合する時に、1つ前のキーフレームの特徴と現在キーフレームの特徴の重み係数を決定し、1つ前のキーフレームの特徴と現在キーフレームの特徴の重み係数に基づいて、1つ前のキーフレームの特徴と現在キーフレームの特徴を融合するために用いられる。
なお、また図9を参照して、ビデオ識別ネットワークのトレーニング装置のさらに別の例では、ビデオサンプル中から現在キーフレーム、1つ前のキーフレーム及び現在ターゲットフレームを選択するために用いられる選択モジュールをさらに含む。
1つの実施形態では、選択モジュールは、ビデオサンプル中から選択された画像フレームを現在ターゲットフレームとし、ビデオサンプル中の現在ターゲットフレームを始点としての第1の距離前へサンプリングされた画像フレームを1つ前のキーフレームとし、ビデオサンプル中の現在ターゲットフレームを始点としての第2の距離後へサンプリングされた画像フレームを現在キーフレームとする。
例示的に、第2の距離が第1の距離よりも小さくても良い。
前記トレーニング装置では、任意選択で、現在ターゲットフレームのラベル情報には、現在ターゲットフレーム中に含まれる少なくとも1つの物体の位置情報(例えば物体フレームの位置情報)および種別情報が含まれ、現在ターゲットフレームの種別検出結果には現在ターゲットフレーム中の物体検出ボックスと物体検出ボックスに対応する物体種別が含まれる。これに応じて、トレーニングモジュールは、現在ターゲットフレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置情報との相違及び/又は物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、ビデオ識別ネットワーク中のネットワークパラメータ値を調整するために用いられる。
前記トレーニング装置の様々な可能な実現態様では、各組の現在キーフレーム、1つ前のキーフレーム及び現在ターゲットフレームによってトレーニングサンプルを構成し、少なくとも1つのトレーニングサンプルによってトレーニングサンプルセットを構成する。トレーニングモジュールは、順次トレーニングサンプルセット中からトレーニングサンプルを選択し、予設トレーニング完了条件を満たすまでビデオ識別ネットワークを反復トレーニングするために用いられる。
なお、本開示の実施例は、本開示のいずれか1つの実施例のビデオ識別装置又はビデオ識別ネットワークのトレーニング装置を含む電子デバイスをさらに提供する。
なお、本開示の実施例は、
実行可能命令を記憶するためのメモリと、
メモリと通信し実行可能命令を実行することにより本開示のいずれか1つの実施例のビデオ識別方法又はビデオ識別ネットワークのトレーニング方法の操作を実現するためのプロセッサーと、を含むもう1つの電子デバイスをさらに提供する。
図10は本開示の実施例の電子デバイスの応用例の構造模式図である。以下、図10を参照して、本願の実施例の端末デバイス又はサーバの電子デバイスを実現するのに適する構造模式図である。図10に示すように、該電子デバイスは、1つ又は複数のプロセッサー、通信部などを含み、前記1つ又は複数のプロセッサーは、例えば1つ又は複数の中央処理ユニット(CPU)、及び/又は1つ又は複数の画像プロセッサー(GPU)などであり、プロセッサーは読み取り専用メモリ(ROM)中に記憶された実行可能命令又は記憶部からランダムアクセスメモリ(RAM)中にロードされた実行可能命令を実行することによって、各種の適当な動作及び処理を実現する。通信部は、IB(Infiniband)ネットワークカードを含むネットワークカードを含むが、これに限定されなく、プロセッサーは読み取り専用メモリ及び/又はランダムアクセスメモリと通信し実行可能命令を実行し、バスを介して通信部と接続され、かつ通信部を介して他の目標デバイス通信と通信することによって、本願の実施例で提供されるいずれか1つの方法に対応する操作を実現し、例えば、ビデオ中の第1のキーフレームの特徴を抽出し、前記第1のキーフレームの特徴と前記ビデオ中の第2のキーフレームの融合特徴を融合して、前記第1のキーフレームの融合特徴を取得し、ここで、前記第2のキーフレームの前記ビデオにおける検出時間順序が前記第1のキーフレームよりも前であり、前記第1のキーフレームの融合特徴に基づいて前記第1のキーフレームを検出し、前記第1のキーフレームにおける物体検出結果を取得する。また、ビデオ識別ネットワークを利用しビデオ中の現在キーフレームの特徴及び1つ前のキーフレームの特徴を抽出し、前記ビデオ識別ネットワークを利用して、前記現在キーフレームの特徴と前記1つ前のキーフレームの特徴を融合し、現在キーフレームの融合特徴を取得し、前記ビデオ中の現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールドを取得し、ここで、前記現在ターゲットフレームが前記現在キーフレームが位置するセグメント中の前記現在キーフレーム以外の他のフレームであり、前記ビデオ識別ネットワークを利用して、前記現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールド、及び前記現在キーフレームの融合特徴に基づいて、前記現在ターゲットフレームの特徴を取得し、前記ビデオ識別ネットワークを利用して、前記現在ターゲットフレームの特徴に基づいて前記現在ターゲットフレームを検出し、前記現在ターゲットフレームにおける物体検出結果を取得し、前記現在ターゲットフレームにおける物体検出結果と前記現在ターゲットフレームのラベル情報との相違に基づいて、前記ビデオ識別ネットワークをトレーニングする。
また、RAMには、装置操作に必要な各種プログラムやデータを記憶することができる。CPU、ROM及びRAMはバスを介して相互に接続される。RAMを有する場合に、ROMは任意選択可能なモジュールである。RAMは実行可能命令を記憶するか、または動作時に実行可能命令をROMに書き込み、実行可能命令によってプロセッサーに上記通信方法に対応する操作を実行させる。入力/出力(I/O)インタフェースもバスに接続される。通信部は、統合的に設置されてもよく、複数のサブモジュール(例えば複数のIBネットワークカード)を有し、通信バスのリンク上にあるように設置されてもよい。
キーボード、マウス等を含む入力部と、陰極線管(CRT)、液晶ディスプレイー(LCD)等及びスピーカ等を含む出力部と、ハードディスク等を含む記憶部と、LANカード、モデムなどのネットワークインタフェースカードを含む通信インタフェースなどがI/Oインタフェースに接続されている。ドライバも必要に応じてI/Oインタフェースに接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体は、必要に応じてドライバ上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部にインストールする。
なお、図10に示す構造は任意選択的な一実施例に過ぎず、具体的な実践では、実際の必要に応じて上記の図10の部品の数及び種類を選択、削除、追加、または置換することができ、異なる機能部品の設置上でも、分離設置または統合設置の実施例を採用でき、例えばGPUとCPUは分離設置するかまたはGPUをCPUに統合するようにしてもよく、通信デバイスは分離設置してもよく、またCPUまたはGPUに統合してもよいことである。これらの置換可能な実施例はいずれも本願の保護範囲に属する。
なお、本開示の実施例は、コンピュータ可読命令を記憶するためのコンピュータ記憶媒体であって、該命令が実行される時に本開示のいずれか1つの実施例のビデオ識別方法又はビデオ識別ネットワークのトレーニング方法の操作を実現するコンピュータ記憶媒体をさらに提供する。
なお、本開示の実施例は、コンピュータ可読命令を含み、コンピュータ可読命令がデバイス中で実行される時に、デバイス中のプロセッサーは本開示のいずれか1つの実施例のビデオ識別方法又はビデオ識別ネットワークのトレーニング方法の操作中のステップを実現するための実行可能命令を実行するコンピュータプログラムをさらに提供する。
1つの選択可能な実施形態では、前記コンピュータプログラムは、ソフトウェア開発キット(Software Development Kit、SDK)、などのソフトウェア製品であり得る。
1つ又は複数の選択可能な実施形態では、本開示の実施例は、コンピュータ可読命令を記憶するためのコンピュータプログラムプログラム製品であって、前記命令が実行される時にコンピュータに前記のいずれか1つの可能な実現態様中の本開示のいずれか1つの実施例のビデオ識別方法又はビデオ識別ネットワークのトレーニング方法の操作を実行させるコンピュータプログラムプログラム製品をさらに提供する。
該コンピュータプログラム製品は、ハードウェア、ソフトウェア又はその組合わせによって実現され得る。1つの選択可能な例では、前記コンピュータプログラム製品は、コンピュータ記憶媒体として表現され、もう1つの選択可能な例では、前記コンピュータプログラム製品は、SDKなどのソフトウェア製品として表現されてもよい。
1つ又は複数の選択可能な実施形態では、本開示の実施例は、ビデオ識別方法及びその対応の装置及び電子デバイス、コンピュータ記憶媒体、コンピュータプログラム及びコンピュータプログラム製品をさらに提供し、ここで、該方法は、ビデオ中の第1のキーフレームの特徴を抽出することと、前記第1のキーフレームの特徴と前記ビデオ中の第2のキーフレームの融合特徴を融合し、前記第1のキーフレームの融合特徴を取得し、ここで、前記第2のキーフレームの前記ビデオにおける検出時間順序が前記第1のキーフレームの前であることと、前記第1のキーフレームの融合特徴に基づいて前記第1のキーフレームを検出し、前記第1のキーフレームにおける物体検出結果を取得することと、を含む。
1つ又は複数の選択可能な実施形態では、本開示の実施例は、ビデオ識別トレーニングのトレーニング方法及びその対応の装置及び電子デバイス、コンピュータ記憶媒体、コンピュータプログラム及びコンピュータプログラム製品を提供し、ここで、該方法は、ビデオ識別ネットワークを利用しビデオ中の現在キーフレームの特徴及び1つ前のキーフレームの特徴を抽出することと、前記ビデオ識別ネットワークを利用して、前記現在キーフレームの特徴と前記1つ前のキーフレームの特徴を融合し、現在キーフレームの融合特徴を取得することと、前記ビデオ中の現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールドを取得し、ここで、前記現在ターゲットフレームが前記現在キーフレームが位置するセグメント中の前記現在キーフレーム以外の他のフレームであることと、前記ビデオ識別ネットワークを利用して、前記現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールド、及び前記現在キーフレームの融合特徴に基づいて、前記現在ターゲットフレームの特徴を取得することと、前記ビデオ識別ネットワークを利用して、前記現在ターゲットフレームの特徴に基づいて前記現在ターゲットフレームを検出し、前記現在ターゲットフレームにおける物体検出結果を取得することと、前記現在ターゲットフレームにおける物体検出結果と前記現在ターゲットフレームのラベル情報との相違に基づいて、前記ビデオ識別ネットワークをトレーニングすることと、を含む。
特に、本開示の実施例によれば、フローチャートを参照して説明した過程は、コンピュータソフトウェアプログラムとして実現され得る。例えば、本開示の実施例の実施例は、機械可読媒体で有形に具現化されたコンピュータプログラムを含むコンピュータプログラム製品を含み、コンピュータプログラムはフローチャートに示す方法を実行するためのプログラムコードを含み、プログラムコードは本開示の実施例で提供される方法ステップに対応する命令を含む。
1つ又は複数の選択可能な実施形態では、本発明の実施例は、ビデオ識別方法及びその対応の装置及び電子デバイス、コンピュータ記憶媒体、コンピュータプログラム及びコンピュータプログラム製品をさらに提供し、ここで、該方法は、第1の装置から第2の装置へビデオ識別指示を送信し、該指示によって第2の装置に前記のいずれか1つの可能な実施例中のビデオ識別方法を実行させ、第1の装置は第2の装置から送信した物体検出結果を受信する。
いくつかの実施例では、該ビデオ識別指示は命令を呼び出し、第1の装置は、呼び出し方法によって第2の装置にビデオ識別を実行させ、呼び出し命令を受信したことに応じて、第2の装置は前記ビデオ識別方法中の任意の実施例中のステップ及び/又は流れを実行することができる。
本開示の実施例は、任意のビデオ識別シーンに応用され得、例えば、インテリジェントドローンは、航空写真で野生動物を撮像する場合に、リアルタイム分析を実現するために、写真内の動物をできるだけ迅速かつ正確に識別する必要がある。しかしながら、気流などの影響により、写真が揺れたりぼやけたりすることがあり、同時に野生動物自体も速く走っている場合があり、これらの要素により写真の品質が低下し、従来の識別ネットワークが失効になる。本開示の実施例のビデオ識別方法によれば、ビデオ中の他のフレームの融合特徴を現在フレームに伝播し、低い品質の画面の識別精度を向上させる。
本明細書における様々な実施例は漸進的に説明され、各実施例は他の実施例との相違点に集中して説明したが、各実施例間の同一または類似の一部については相互に参照すればよい。システム実施例については、それは基本的に方法実施例に対応するので、説明は比較的簡単であり、関連一部は方法実施例の説明を参照すればよい。
本発明の方法及び装置、機器は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本発明の方法及び装置、機器を実現することができる。方法のステップのための上記順序は説明のために用いられ、本発明の方法のステップは、特に断らない限り、以上説明した順序に限定されない。また、いくつかの実施例では、本発明は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本発明による方法を実現するための機械可読命令を含む。従って、本発明は本発明による方法を実現するためのプログラムが記憶された記録媒体も含む。
本願の説明は、全部ではなく、一部の例示及び説明のために提示されたものであり、本願はこれらに限定されない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本願の原理及び実際応用をより明瞭に説明するため、かつ当業者は本願を理解して特定用途に適した各種修正を加えた各種実施例を設計可能にするように選択され説明されたものである。

Claims (49)

  1. ビデオ中の第1のキーフレームの特徴を抽出することと、
    前記第1のキーフレームの特徴と前記ビデオ中の第2のキーフレームの融合特徴を融合して、前記第1のキーフレームの融合特徴を取得することであって、ここで、前記第2のキーフレームの前記ビデオにおける検出時間順序が前記第1のキーフレームの前である、ことと、
    前記第1のキーフレームの融合特徴に基づいて前記第1のキーフレームを検出し、前記第1のキーフレームにおける物体検出結果を取得することと、を含むことを特徴とするビデオ識別方法。
  2. 前記第2のキーフレームは、前記ビデオにおける前記第1のキーフレームと隣接する1つ前のキーフレームを含むことを特徴とする請求項1に記載の方法。
  3. 前記第2のキーフレームの融合特徴は、前記第2のキーフレームの特徴と前記ビデオにおける検出時間順序が前記第2のキーフレームの前である第3のキーフレームの融合特徴を融合処理して得られることを特徴とする請求項1又は2に記載の方法。
  4. 前記第1のキーフレームの特徴と前記ビデオ中の第2のキーフレームの融合特徴を融合する前に、
    前記第1のキーフレームと前記第2のキーフレームの間のオプティカルフローフィールドを取得することと、
    前記第1のキーフレームと前記第2のキーフレームの間のオプティカルフローフィールドに基づいて、前記第2のキーフレームの融合特徴と前記第1のキーフレームを位置合わせることと、をさらに含み、
    前記第1のキーフレームの特徴と前記ビデオ中の第2のキーフレームの融合特徴を融合することは、位置合わせた前記第2のキーフレームの融合特徴と前記第1のキーフレームの特徴を融合することを含むことを特徴とする請求項1〜3のいずれか1項に記載の方法。
  5. 前記第1のキーフレームの特徴と前記ビデオ中の第2のキーフレームの融合特徴を融合することは、
    前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴の重み係数を決定することと、
    前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴の重み係数に基づいて、前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴を融合することと、を含むことを特徴とする請求項1〜4のいずれか1項に記載の方法。
  6. 前記第1のキーフレームが前記ビデオ中の最初のキーフレームであるかどうかを確定することをさらに含み、
    前記第1のキーフレームの特徴と前記ビデオ中の第2のキーフレームの融合特徴を融合することは、前記第1のキーフレームが前記ビデオ中の最初のキーフレームではないことに応じて、前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴を融合することを含むことを特徴とする請求項1〜5のいずれか1項に記載の方法。
  7. 前記第1のキーフレームが前記ビデオ中の最初のキーフレームであることに応じて、前記第1のキーフレームの特徴に基づいて、前記第1のキーフレームにおける物体検出結果を取得することをさらに含むことを特徴とする請求項6に記載の方法。
  8. 前記ビデオ中から前記第1のキーフレームを選択することをさらに含むことを特徴とする請求項1〜7のいずれか1項に記載の方法。
  9. 前記ビデオ中から前記第1のキーフレームを選択することは、
    前記ビデオ中からランダムに選択された画像フレームを前記第1のキーフレームとすること、または、
    前記ビデオ中から幾つかのフレーム間隔毎に選択された画像フレームを前記第1のキーフレームとすること、または、
    前記ビデオを複数の短いビデオシーケンスに分割し、それぞれの短いビデオシーケンス中から画像フレームをそれぞれ選択して前記それぞれの短いビデオシーケンスのキーフレームとすることであって、前記複数の短いビデオシーケンスのキーフレームが前記第1のキーフレームを含むこと、又は、
    前記ビデオ中から短いビデオシーケンスを選択して、選択された前記短いビデオシーケンス中から選択された画像フレームを前記第1のキーフレームとすることを含むことを特徴とする請求項8に記載の方法。
  10. 前記短いビデオシーケンス中から選択された画像フレームを前記第1のキーフレームとすることは、
    前記短いビデオシーケンス中からランダムに選択された画像フレームを前記第1のキーフレームとすること、または、
    前記短いビデオシーケンス中の中間フレームを選択して前記第1のキーフレームとすることであって、ここで、前記中間フレームが、前記中間フレームの所在する前記短いビデオシーケンスにおける最初のフレーム及び最後のフレーム以外の画像フレームを含むことを含むことを特徴とする請求項9に記載の方法。
  11. 前記中間フレームは、前記中間フレームの所在する前記短いビデオシーケンスにおける中央位置又は中央位置の近くに位置する画像フレームを含むことを特徴とする請求項10に記載の方法。
  12. 第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールドを取得することと、
    前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールド、及び前記第1のキーフレームの融合特徴に基づいて、前記第1の非キーフレームの特徴を取得することと、
    前記第1の非キーフレームの特徴に基づいて前記第1の非キーフレームを検出し、前記第1の非キーフレームにおける物体検出結果を取得することと、をさらに含むことを特徴とする請求項1〜11のいずれか1項に記載の方法。
  13. 前記第1のキーフレームと前記第1の非キーフレームの間の距離が予設閾値よりも小さく、又は、
    前記第1のキーフレームが前記ビデオの複数のキーフレーム中の、前記第1の非キーフレームとの距離が最も近いキーフレームである、又は、
    前記第1の非キーフレームと前記第1のキーフレームとが同一の短いビデオシーケンスに属することを特徴とする請求項12に記載の方法。
  14. 前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールドを取得した後、
    前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールドに基づいて、前記第1のキーフレームの融合特徴と前記第1の非キーフレームを位置合わせることをさらに含み、
    前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールド、及び前記第1のキーフレームの融合特徴に基づいて、前記第1の非キーフレームの特徴を取得することは、
    前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールド、及び位置合わせた前記第1のキーフレームの融合特徴に基づいて、前記第1の非キーフレームの特徴を取得することを含むことを特徴とする請求項12又は13に記載の方法。
  15. 前記ビデオ中の画像フレームはラベル情報を有し、
    前記方法は、
    前記ビデオ中の少なくとも1つの画像フレームにおける物体検出結果とラベル情報との相違に基づいて、前記ビデオ識別方法を実現するビデオ識別ネットワークをトレーニングすることであって、ここで、前記少なくとも1つの画像フレームが前記第1のキーフレームを含むことをさらに含むことを特徴とする請求項1〜14のいずれか1項に記載の方法。
  16. 前記ラベル情報は、画像フレームに含まれる少なくとも1つの物体の位置情報及び種別情報を含み、
    前記種別検出結果は、物体検出ボックス及び前記物体検出ボックスに対応する物体種別を含み、
    前記ビデオ中の少なくとも1つの画像フレームにおける物体検出結果とラベル情報との相違に基づいて、前記ビデオ識別方法を実現するビデオ識別ネットワークをトレーニングすることは、前記ビデオ中の少なくとも1つの画像フレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置情報との相違、及び/又は前記物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、前記ビデオ識別ネットワーク中のネットワークパラメータ値を調整することを含むことを特徴とする請求項15に記載の方法。
  17. ビデオ識別ネットワークを利用してビデオサンプル中の現在キーフレームの特徴及び1つ前のキーフレームの特徴を抽出することと、
    前記ビデオ識別ネットワークを利用して、前記現在キーフレームの特徴と前記1つ前のキーフレームの特徴を融合し、前記現在キーフレームの融合特徴を取得し、前記ビデオサンプル中の同一セグメントに属する現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールドを取得することと、
    前記ビデオ識別ネットワークを利用して、前記現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールド、及び前記現在キーフレームの融合特徴に基づいて、前記現在ターゲットフレームの特徴を取得することと、
    前記ビデオ識別ネットワークを利用して、前記現在ターゲットフレームの特徴に基づいて前記現在ターゲットフレームを検出し、前記現在ターゲットフレームにおける物体検出結果を取得することと、
    前記現在ターゲットフレームにおける物体検出結果と前記現在ターゲットフレームのラベル情報との相違に基づいて、前記ビデオ識別ネットワークのネットワークパラメータ値を調整することと、を含むことを特徴とするビデオ識別ネットワークのトレーニング方法。
  18. 前記現在キーフレームの特徴と前記1つ前のキーフレームの特徴を融合することは、
    前記現在キーフレームと前記1つ前のキーフレームの間のオプティカルフローフィールドを取得することと、
    前記現在キーフレームと前記1つ前のキーフレームの間のオプティカルフローフィールドに基づいて、前記1つ前のキーフレームの特徴と前記現在キーフレームを位置合わせることと、
    位置合わせた前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合することと、を含むことを特徴とする請求項17に記載の方法。
  19. 前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合することは、
    前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴の重み係数を決定することと、
    前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴の重み係数に基づいて、前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合することと、を含むことを特徴とする請求項17又は18に記載の方法。
  20. 前記のビデオ中の現在キーフレームの特徴及び1つ前のキーフレームの特徴を抽出する前に、
    前記ビデオサンプル中から前記現在キーフレーム、前記1つ前のキーフレーム及び前記現在ターゲットフレームを選択することを更に含むことを特徴とする請求項17〜19のいずれか1項に記載の方法。
  21. 前記ビデオサンプル中から前記現在キーフレーム、前記1つ前のキーフレーム及び前記現在ターゲットフレームを選択することは、
    前記ビデオサンプル中から選択された画像フレームを前記現在ターゲットフレームとすることと、
    前記ビデオサンプル中の前記現在ターゲットフレームを始点としての第1の距離の前でサンプリングされた画像フレームを前記1つ前のキーフレームとし、前記ビデオサンプル中の前記現在ターゲットフレームを始点としての第2の距離の後でサンプリングされた画像フレームを前記現在キーフレームとすることと、を含むことを特徴とする請求項20に記載の方法。
  22. 前記第2の距離が前記第1の距離よりも小さいことを特徴とする請求項21に記載の方法。
  23. 前記現在ターゲットフレームのラベル情報は、前記現在ターゲットフレーム中に含まれる少なくとも1つの物体の位置情報及び種別情報を含み、
    前記現在ターゲットフレームの種別検出結果は、前記現在ターゲットフレーム中の物体検出ボックス及び前記物体検出ボックスに対応する物体種別を含み、
    前記現在ターゲットフレームにおける物体検出結果と前記現在ターゲットフレームのラベル情報との相違に基づいて、前記ビデオ識別ネットワークをトレーニングすることは、前記現在ターゲットフレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置との相違、及び/又は前記物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、前記ビデオ識別ネットワーク中のネットワークパラメータ値を調整することを含むことを特徴とする請求項17〜22のいずれか1項に記載の方法。
  24. 識別待ちのビデオを取得することと、
    ビデオ識別ネットワークを利用し前記ビデオを識別し、前記ビデオの識別結果を取得し、ここで、前記ビデオ識別ネットワークが請求項17−23のいずれか1項に記載のトレーニング方法によってトレーニングされて得られることと、を含むことを特徴とするビデオ識別方法。
  25. ビデオ中の第1のキーフレームの特徴を抽出するための特徴抽出ネットワークと、
    前記第1のキーフレームの特徴と前記ビデオ中の第2のキーフレームの融合特徴を融合して、前記第1のキーフレームの融合特徴を取得するための融合ネットワークであって、ここで、前記第2のキーフレームの前記ビデオにおける検出時間順序が前記第1のキーフレームの前である、融合ネットワークと、
    前記第1のキーフレームの融合特徴に基づいて前記第1のキーフレームを検出し、前記第1のキーフレームにおける物体検出結果を取得するための検出ネットワークと、を含むことを特徴とするビデオ識別装置。
  26. 前記第2のキーフレームは、前記ビデオにおける前記第1のキーフレームと隣接する1つ前のキーフレームを含むことを特徴とする請求項25に記載の装置。
  27. 前記第2のキーフレームの融合特徴は、前記第2のキーフレームの特徴と前記ビデオにおける検出時間順序が前記第2のキーフレームの前である第3のキーフレームの融合特徴を融合処理して得られることを特徴とする請求項25又は26に記載の装置。
  28. 前記第1のキーフレームと前記第2のキーフレームの間のオプティカルフローフィールドを取得し、前記第1のキーフレームと前記第2のキーフレームの間のオプティカルフローフィールドに基づいて、前記第2のキーフレームの融合特徴と前記第1のキーフレームを位置合わせるためのオプティカルフロー伝播モジュールを更に含み、
    前記融合ネットワークは、位置合わせた前記第2のキーフレームの融合特徴と前記第1のキーフレームの特徴を融合し、前記第1のキーフレームの融合特徴を取得するために用いられることを特徴とする請求項25〜27のいずれか1項に記載の装置。
  29. 前記融合ネットワークは、前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴を融合する時に、前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴の重み係数を決定し、前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴の重み係数に基づいて、前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴を融合するために用いられることを特徴とする請求項25〜28のいずれか1項に記載の装置。
  30. 前記第1のキーフレームが前記ビデオ中の最初のキーフレームであるかどうかを確定するための確定モジュールを更に含み、
    前記融合ネットワークは、前記確定モジュールの確定結果に基づいて、前記第1のキーフレームが前記ビデオ中の最初のキーフレームではないことに応じて、前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴を融合することを特徴とする請求項25〜29のいずれか1項に記載の装置。
  31. 前記検出ネットワークは、更に前記確定モジュールの確定結果に基づいて、前記第1のキーフレームが前記ビデオ中の最初のキーフレームであることに応じて、前記最初のキーフレームの特徴に基づいて前記第1のキーフレームを検出し、前記最初のキーフレームにおける物体検出結果を取得するために用いられることを特徴とする請求項30に記載の装置。
  32. 前記ビデオ中から第1のキーフレームを選択するための選択モジュールを更に含むことを特徴とする請求項25〜31のいずれか1項に記載の装置。
  33. 前記選択モジュールは、
    前記ビデオ中からランダムに選択された1つの画像フレームを前記第1のキーフレームとするために用いられ、又は、
    前記ビデオ中から幾つかのフレーム間隔毎に選択された画像フレームを前記第1のキーフレームとするために用いられ、又は、
    前記ビデオを複数の短いビデオシーケンスに分割し、それぞれの短いビデオシーケンス中から画像フレームをそれぞれ選択して前記それぞれの短いビデオシーケンスのキーフレームとするために用いられ、前記複数の短いビデオシーケンスのキーフレームが前記第1のキーフレームを含み、又は、
    前記ビデオ中から短いビデオシーケンスを選択して、選択された前記短いビデオシーケンス中から選択された画像フレームを前記第1のキーフレームとするために用いられることを特徴とする請求項32に記載の装置。
  34. 前記選択モジュールは、前記短いビデオシーケンス中から選択されたフレーム画像を前記第1のキーフレームとする時に、
    前記短いビデオシーケンス中からランダムに選択された画像フレームを前記第1のキーフレームとするために用いられ、または、
    前記短いビデオシーケンス中の中間フレームを選択して前記第1のキーフレームとするために用いられ、ここで、前記中間フレームが、前記中間フレームの所在する前記短いビデオシーケンスにおける最初のフレーム及び最後のフレーム以外の画像フレームを含むことを特徴とする請求項33に記載の装置。
  35. 前記中間フレームは、前記中間フレームの所在する前記短いビデオシーケンスにおける中央位置又は中央位置の近くに位置する画像フレームを含むことを特徴とする請求項34に記載の装置。
  36. 前記オプティカルフロー伝播モジュールは、さらに、第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールドを取得し、前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールド、及び前記第1のキーフレームの融合特徴に基づいて、前記第1の非キーフレームの特徴を取得するために用いられ、
    前記検出ネットワークは、さらに、前記第1の非キーフレームの特徴に基づいて前記第1の非キーフレームを検出し、前記第1の非キーフレームにおける物体検出結果を取得するために用いられることを特徴とする請求項25〜35のいずれか1項に記載の装置。
  37. 前記第1のキーフレームと前記第1の非キーフレームの間の距離が予設閾値よりも小さく、又は、
    前記第1のキーフレームが前記ビデオのキーフレーム内の、前記第1の非キーフレームとの距離が最も近いキーフレームであり、又は、
    前記第1の非キーフレームと前記第1のキーフレームとが同一の短いビデオシーケンスに属することを特徴とする請求項36に記載の装置。
  38. 前記オプティカルフロー伝播モジュールは、前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールドを取得し、前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールドに基づいて、前記第1のキーフレームの融合特徴と前記第1の非キーフレームを位置合わせ、前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールド、及び位置合わせた前記第1のキーフレームの融合特徴に基づいて、前記第1の非キーフレームの特徴を取得するために用いられることを特徴とする請求項36又は37に記載の装置。
  39. 前記ビデオ識別装置はビデオ識別ネットワークを含み、前記ビデオ中の画像フレームはラベル情報を有し、
    前記装置は、
    前記ビデオ中の少なくとも1つの画像フレームにおける物体検出結果とラベル情報との相違に基づいて、前記ビデオ識別ネットワークをトレーニングするためのトレーニングモジュールであって、ここで、前記少なくとも1つの画像フレームが前記第1のキーフレームを含む、トレーニングモジュールを更に含むことを特徴とする請求項25〜38のいずれか1項に記載の装置。
  40. 前記ラベル情報は、画像フレームに含まれる少なくとも1つの物体の位置情報及び種別情報を含み、
    前記種別検出結果は、物体検出ボックス及び前記物体検出ボックスに対応する物体種別を含み、
    前記トレーニングモジュールは、前記ビデオ中の少なくとも1つの画像フレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置情報との相違、及び/又は前記物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、前記ビデオ識別ネットワーク中のネットワークパラメータ値を調整するために用いられることを特徴とする請求項39に記載の装置。
  41. ビデオサンプル中の現在キーフレームの特徴及び1つ前のキーフレームの特徴を抽出し、前記現在キーフレームの特徴と前記1つ前のキーフレームの特徴を融合し、前記現在キーフレームの融合特徴を取得し、前記ビデオサンプル中の同一セグメントに属する現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールドを取得し、前記現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールド、及び前記現在キーフレームの融合特徴に基づいて、前記現在ターゲットフレームの特徴を取得し、前記現在ターゲットフレームの特徴に基づいて前記現在ターゲットフレームを検出し、前記現在ターゲットフレームにおける物体検出結果を取得するためのビデオ識別ネットワークと、
    前記現在ターゲットフレームにおける物体検出結果と前記現在ターゲットフレームのラベル情報との相違に基づいて、前記ビデオ識別ネットワークのネットワークパラメータ値を調整するためのトレーニングモジュールと、を含むビデオ識別ネットワークのトレーニング装置。
  42. 前記ビデオ識別ネットワークは、
    ビデオ中の現在キーフレームの特徴及び1つ前のキーフレームの特徴を抽出するための特徴抽出ネットワークと、
    前記現在キーフレームと前記1つ前のキーフレームの間のオプティカルフローフィールドを取得し、前記現在キーフレームと前記1つ前のキーフレームの間のオプティカルフローフィールドに基づいて、前記1つ前のキーフレームの特徴と前記現在キーフレームを位置合わせて、前記現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールドを取得し、前記現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールド、及び前記現在キーフレームの融合特徴に基づいて、前記現在ターゲットフレームの特徴を取得するためのオプティカルフロー伝播モジュールと、
    位置合わせた前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合し、現在キーフレームの融合特徴を取得するための融合ネットワークと、
    前記現在ターゲットフレームの特徴に基づいて前記現在ターゲットフレームを検出し、前記現在ターゲットフレームにおける物体検出結果を取得するための検出ネットワークと、を含むことを特徴とする請求項41に記載の装置。
  43. 前記融合ネットワークは前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合する時に、前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴の重み係数を決定し、前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴の重み係数に基づいて、前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合するために用いられることを特徴とする請求項41又は42に記載の装置。
  44. 前記ビデオサンプル中から前記現在キーフレーム、前記1つ前のキーフレーム及び前記現在ターゲットフレームを選択することための選択モジュールを更に含むことを特徴とする請求項41〜43のいずれか1項に記載の装置。
  45. 前記選択モジュールは、前記ビデオサンプル中から画像フレームを前記現在ターゲットフレームとして選択し、前記ビデオサンプル中の前記現在ターゲットフレームを始点としての第1の距離の前でサンプリングされた画像フレームを前記1つ前のキーフレームとし、前記ビデオサンプル中の前記現在ターゲットフレームを始点としての第2の距離の後でサンプリングされた画像フレームを前記現在キーフレームとするために用いられることを特徴とする請求項44に記載の装置。
  46. 前記第2の距離が前記第1の距離よりも小さいことを特徴とする請求項45に記載の装置。
  47. 前記現在ターゲットフレームのラベル情報は、前記現在ターゲットフレーム中に含まれる少なくとも1つの物体の位置情報及び種別情報を含み、
    前記現在ターゲットフレームの種別検出結果は、前記現在ターゲットフレーム中の物体検出ボックス及び前記物体検出ボックスに対応する物体種別を含み、
    前記トレーニングモジュールは、前記現在ターゲットフレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置との相違、及び/又は前記物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、前記ビデオ識別ネットワーク中のネットワークパラメータ値を調整するために用いられることを特徴とする請求項41〜46のいずれか1項に記載の装置。
  48. コンピュータ可読命令を記憶するためのメモリと、前記コンピュータ可読命令を実行することによって請求項1〜24のいずれか1項に記載の方法を実行するためのプロセッサーと、を含むことを特徴とする電子デバイス。
  49. コンピュータ可読命令を記憶するためのコンピュータ記憶媒体であって、
    前記コンピュータ可読命令がデバイス中で実行される時に、前記デバイス中のプロセッサーが請求項1〜24のいずれか1項に記載の方法を実行することを特徴とするコンピュータ記憶媒体。
JP2019553919A 2017-12-13 2018-10-16 ビデオ識別及びトレーニング方法、装置、電子デバイス及び媒体 Active JP6837158B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201711329718.5A CN108229336B (zh) 2017-12-13 2017-12-13 视频识别及训练方法和装置、电子设备、程序和介质
CN201711329718.5 2017-12-13
PCT/CN2018/110500 WO2019114405A1 (zh) 2017-12-13 2018-10-16 视频识别及训练方法和装置、电子设备和介质

Publications (2)

Publication Number Publication Date
JP2020512647A true JP2020512647A (ja) 2020-04-23
JP6837158B2 JP6837158B2 (ja) 2021-03-03

Family

ID=62652263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019553919A Active JP6837158B2 (ja) 2017-12-13 2018-10-16 ビデオ識別及びトレーニング方法、装置、電子デバイス及び媒体

Country Status (6)

Country Link
US (1) US10909380B2 (ja)
JP (1) JP6837158B2 (ja)
KR (1) KR102365521B1 (ja)
CN (2) CN108229336B (ja)
SG (1) SG11201909887RA (ja)
WO (1) WO2019114405A1 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229336B (zh) * 2017-12-13 2021-06-04 北京市商汤科技开发有限公司 视频识别及训练方法和装置、电子设备、程序和介质
CN108810620B (zh) 2018-07-18 2021-08-17 腾讯科技(深圳)有限公司 识别视频中的关键时间点的方法、装置、设备及存储介质
CN109344703B (zh) * 2018-08-24 2021-06-25 深圳市商汤科技有限公司 对象检测方法及装置、电子设备和存储介质
CN109389086B (zh) * 2018-10-09 2021-03-05 北京科技大学 检测无人机影像目标的方法和系统
CN111353597B (zh) * 2018-12-24 2023-12-05 杭州海康威视数字技术股份有限公司 一种目标检测神经网络训练方法和装置
CN111383245B (zh) * 2018-12-29 2023-09-22 北京地平线机器人技术研发有限公司 视频检测方法、视频检测装置和电子设备
CN109886951A (zh) * 2019-02-22 2019-06-14 北京旷视科技有限公司 视频处理方法、装置及电子设备
CN111754544B (zh) * 2019-03-29 2023-09-05 杭州海康威视数字技术股份有限公司 一种视频帧融合方法、装置、电子设备
CN109977912B (zh) * 2019-04-08 2021-04-16 北京环境特性研究所 视频人体关键点检测方法、装置、计算机设备和存储介质
CN110060264B (zh) * 2019-04-30 2021-03-23 北京市商汤科技开发有限公司 神经网络训练方法、视频帧处理方法、装置及系统
CN110427800A (zh) * 2019-06-17 2019-11-08 平安科技(深圳)有限公司 视频物体加速检测方法、装置、服务器及存储介质
CN110149482B (zh) * 2019-06-28 2021-02-02 Oppo广东移动通信有限公司 对焦方法、装置、电子设备和计算机可读存储介质
CN112199978A (zh) * 2019-07-08 2021-01-08 北京地平线机器人技术研发有限公司 视频物体检测方法和装置、存储介质和电子设备
CN110503076B (zh) * 2019-08-29 2023-06-30 腾讯科技(深圳)有限公司 基于人工智能的视频分类方法、装置、设备和介质
CN110751022B (zh) * 2019-09-03 2023-08-22 平安科技(深圳)有限公司 基于图像识别的城市宠物活动轨迹监测方法及相关设备
CN110738108A (zh) * 2019-09-09 2020-01-31 北京地平线信息技术有限公司 目标物体检测方法、装置、存储介质及电子设备
CN110751646A (zh) * 2019-10-28 2020-02-04 支付宝(杭州)信息技术有限公司 利用车辆视频中的多个图像帧进行损伤识别的方法及装置
CN110933429B (zh) * 2019-11-13 2021-11-12 南京邮电大学 基于深度神经网络的视频压缩感知与重构方法和装置
CN110909655A (zh) * 2019-11-18 2020-03-24 上海眼控科技股份有限公司 一种识别视频事件的方法及设备
CN110841287B (zh) * 2019-11-22 2023-09-26 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机可读存储介质和计算机设备
CN112862828B (zh) * 2019-11-26 2022-11-18 华为技术有限公司 一种语义分割方法、模型训练方法及装置
CN111062395B (zh) * 2019-11-27 2020-12-18 北京理工大学 一种实时的视频语义分割方法
CN111629262B (zh) * 2020-05-08 2022-04-12 Oppo广东移动通信有限公司 视频图像处理方法和装置、电子设备及存储介质
CN111582185B (zh) * 2020-05-11 2023-06-30 北京百度网讯科技有限公司 用于识别图像的方法和装置
CN111652081B (zh) * 2020-05-13 2022-08-05 电子科技大学 一种基于光流特征融合的视频语义分割方法
CN111881726B (zh) * 2020-06-15 2022-11-25 马上消费金融股份有限公司 一种活体检测方法、装置及存储介质
CN111783784A (zh) * 2020-06-30 2020-10-16 创新奇智(合肥)科技有限公司 建筑的空洞检测方法及装置、电子设备、存储介质
CN111860400B (zh) * 2020-07-28 2024-06-07 平安科技(深圳)有限公司 人脸增强识别方法、装置、设备及存储介质
CN112036446B (zh) * 2020-08-06 2023-12-12 汇纳科技股份有限公司 目标识别特征融合的方法、系统、介质及装置
CN112085097A (zh) * 2020-09-09 2020-12-15 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN112115299A (zh) * 2020-09-17 2020-12-22 北京百度网讯科技有限公司 视频搜索方法、装置、推荐方法、电子设备及存储介质
CN112241470B (zh) * 2020-09-24 2024-02-02 北京影谱科技股份有限公司 一种视频分类方法及系统
CN112435653A (zh) * 2020-10-14 2021-03-02 北京地平线机器人技术研发有限公司 语音识别方法、装置和电子设备
CN112528786B (zh) * 2020-11-30 2023-10-31 北京百度网讯科技有限公司 车辆跟踪方法、装置及电子设备
CN112766215A (zh) * 2021-01-29 2021-05-07 北京字跳网络技术有限公司 人脸融合方法、装置、电子设备及存储介质
CN112561912B (zh) * 2021-02-20 2021-06-01 四川大学 一种基于先验知识的医学图像淋巴结检测方法
CN113011371A (zh) * 2021-03-31 2021-06-22 北京市商汤科技开发有限公司 目标检测方法、装置、设备及存储介质
CN114120166B (zh) * 2021-10-14 2023-09-22 北京百度网讯科技有限公司 视频问答方法、装置、电子设备及存储介质
CN114528923B (zh) * 2022-01-25 2023-09-26 山东浪潮科学研究院有限公司 基于时域上下文的视频目标检测方法、装置、设备及介质
CN115115822B (zh) * 2022-06-30 2023-10-31 小米汽车科技有限公司 车端图像处理方法、装置、车辆、存储介质及芯片

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07181024A (ja) * 1993-12-24 1995-07-18 Canon Inc 3次元形状計測方法および装置
JP2005123824A (ja) * 2003-10-15 2005-05-12 Nippon Hoso Kyokai <Nhk> 映像オブジェクト軌跡合成装置、その方法及びそのプログラム
US20150161450A1 (en) * 2012-08-03 2015-06-11 Kodak Alaris Inc. Identifying scene boundaries using group sparsity analysis
US20170220854A1 (en) * 2016-01-29 2017-08-03 Conduent Business Services, Llc Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action
JP2017187954A (ja) * 2016-04-06 2017-10-12 Kddi株式会社 画像合成装置、プログラム及びデータ構造

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8021160B2 (en) * 2006-07-22 2011-09-20 Industrial Technology Research Institute Learning assessment method and device using a virtual tutor
US8135221B2 (en) 2009-10-07 2012-03-13 Eastman Kodak Company Video concept classification using audio-visual atoms
CN101673404B (zh) * 2009-10-19 2015-03-04 北京中星微电子有限公司 一种目标检测的方法和装置
CN102014295B (zh) * 2010-11-19 2012-11-28 嘉兴学院 一种网络敏感视频检测方法
CN102682302B (zh) * 2012-03-12 2014-03-26 浙江工业大学 一种基于关键帧的多特征融合的人体姿态识别方法
US9129399B2 (en) * 2013-03-11 2015-09-08 Adobe Systems Incorporated Optical flow with nearest neighbor field fusion
US9892745B2 (en) * 2013-08-23 2018-02-13 At&T Intellectual Property I, L.P. Augmented multi-tier classifier for multi-modal voice activity detection
BR112016006860B8 (pt) * 2013-09-13 2023-01-10 Arris Entpr Inc Aparelho e método para criar um único fluxo de dados de informações combinadas para renderização em um dispositivo de computação do cliente
US10262426B2 (en) * 2014-10-31 2019-04-16 Fyusion, Inc. System and method for infinite smoothing of image sequences
KR20160099289A (ko) * 2015-02-12 2016-08-22 대전대학교 산학협력단 영상의 전역 특징과 이동객체의 지역 특징을 융합한 동영상 검색 방법 및 그 시스템
CN105005772B (zh) * 2015-07-20 2018-06-12 北京大学 一种视频场景检测方法
KR102444712B1 (ko) * 2016-01-12 2022-09-20 한국전자통신연구원 다중-모달리티 특징 융합을 통한 퍼스널 미디어 자동 재창작 시스템 및 그 동작 방법
US20170277955A1 (en) * 2016-03-23 2017-09-28 Le Holdings (Beijing) Co., Ltd. Video identification method and system
BR102016007265B1 (pt) * 2016-04-01 2022-11-16 Samsung Eletrônica da Amazônia Ltda. Método multimodal e em tempo real para filtragem de conteúdo sensível
CN106599907B (zh) * 2016-11-29 2019-11-29 北京航空航天大学 多特征融合的动态场景分类方法与装置
CN107392917B (zh) * 2017-06-09 2021-09-28 深圳大学 一种基于时空约束的视频显著性检测方法及系统
CN107463881A (zh) * 2017-07-07 2017-12-12 中山大学 一种基于深度增强学习的人物图像搜索方法
CN107463949B (zh) * 2017-07-14 2020-02-21 北京协同创新研究院 一种视频动作分类的处理方法及装置
CN108229336B (zh) * 2017-12-13 2021-06-04 北京市商汤科技开发有限公司 视频识别及训练方法和装置、电子设备、程序和介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07181024A (ja) * 1993-12-24 1995-07-18 Canon Inc 3次元形状計測方法および装置
JP2005123824A (ja) * 2003-10-15 2005-05-12 Nippon Hoso Kyokai <Nhk> 映像オブジェクト軌跡合成装置、その方法及びそのプログラム
US20150161450A1 (en) * 2012-08-03 2015-06-11 Kodak Alaris Inc. Identifying scene boundaries using group sparsity analysis
US20170220854A1 (en) * 2016-01-29 2017-08-03 Conduent Business Services, Llc Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action
JP2017187954A (ja) * 2016-04-06 2017-10-12 Kddi株式会社 画像合成装置、プログラム及びデータ構造

Also Published As

Publication number Publication date
WO2019114405A1 (zh) 2019-06-20
SG11201909887RA (en) 2019-11-28
CN110546645A (zh) 2019-12-06
KR20190126366A (ko) 2019-11-11
KR102365521B1 (ko) 2022-02-21
JP6837158B2 (ja) 2021-03-03
US10909380B2 (en) 2021-02-02
CN110546645B (zh) 2023-09-19
US20190266409A1 (en) 2019-08-29
CN108229336B (zh) 2021-06-04
CN108229336A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
JP2020512647A (ja) ビデオ識別及びトレーニング方法、装置、電子デバイス及び媒体
US11222211B2 (en) Method and apparatus for segmenting video object, electronic device, and storage medium
WO2018166438A1 (zh) 图像处理方法、装置及电子设备
US11276177B1 (en) Segmentation for image effects
CN110853033B (zh) 基于帧间相似度的视频检测方法和装置
CN112954450B (zh) 视频处理方法、装置、电子设备和存储介质
CN108229418B (zh) 人体关键点检测方法和装置、电子设备、存储介质和程序
JP7093427B2 (ja) オブジェクト追跡方法および装置、電子設備並びに記憶媒体
EP2395748A2 (en) Apparatus and method creating ghost-free high dynamic range image using filtering
KR20170038040A (ko) 비디오에서의 컴퓨터화된 현저한 인물 인식
CN109413510B (zh) 视频摘要生成方法和装置、电子设备、计算机存储介质
CN111836118B (zh) 视频处理方法、装置、服务器及存储介质
EP3989158A1 (en) Method, apparatus and device for video similarity detection
CN111985419B (zh) 视频处理方法及相关设备
US9798919B2 (en) Method and apparatus for estimating image motion using disparity information of a multi-view image
CN108229281B (zh) 神经网络的生成方法和人脸检测方法、装置及电子设备
CN113743357A (zh) 视频表征自监督对比学习方法和装置
EP4332910A1 (en) Behavior detection method, electronic device, and computer readable storage medium
US20220327663A1 (en) Video Super-Resolution using Deep Neural Networks
CN112241752A (zh) 模型训练方法、数据处理方法、分类方法、装置、设备
CN112584108B (zh) 用于无人机巡检的线路物理损伤监控方法
CN112991419B (zh) 视差数据生成方法、装置、计算机设备及存储介质
CN112199978A (zh) 视频物体检测方法和装置、存储介质和电子设备
Kannappan et al. Performance evaluation of video summaries using efficient image euclidean distance
EP3065104A1 (en) Method and system for rendering graphical content in an image

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190930

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210208

R150 Certificate of patent or registration of utility model

Ref document number: 6837158

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250