JP2020512647A - ビデオ識別及びトレーニング方法、装置、電子デバイス及び媒体 - Google Patents
ビデオ識別及びトレーニング方法、装置、電子デバイス及び媒体 Download PDFInfo
- Publication number
- JP2020512647A JP2020512647A JP2019553919A JP2019553919A JP2020512647A JP 2020512647 A JP2020512647 A JP 2020512647A JP 2019553919 A JP2019553919 A JP 2019553919A JP 2019553919 A JP2019553919 A JP 2019553919A JP 2020512647 A JP2020512647 A JP 2020512647A
- Authority
- JP
- Japan
- Prior art keywords
- keyframe
- video
- frame
- feature
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 183
- 238000012549 training Methods 0.000 title claims abstract description 109
- 230000004927 fusion Effects 0.000 claims abstract description 182
- 238000001514 detection method Methods 0.000 claims abstract description 176
- 230000003287 optical effect Effects 0.000 claims description 97
- 230000004044 response Effects 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 12
- 238000007499 fusion processing Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 abstract description 16
- 239000000284 extract Substances 0.000 abstract description 6
- 238000007500 overflow downdraw method Methods 0.000 abstract description 4
- 238000004590 computer program Methods 0.000 description 20
- 238000004891 communication Methods 0.000 description 11
- 230000000644 propagated effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000002156 mixing Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010223 real-time analysis Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000796 flavoring agent Substances 0.000 description 1
- 235000019634 flavors Nutrition 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/265—Mixing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Image Analysis (AREA)
Abstract
Description
本願は、2017年12月13日に中国特許局に提出された、出願番号CN201711329718.5、発明の名称「ビデオ識別及びトレーニング方法、装置、電子デバイス、プログラム及び媒体」の中国特許出願の優先権を主張し、そのすべての内容は参照により本願に組み込まれる。
式(1)
ただし、前記式(1)では、
は第1のキーフレームの融合特徴を示し、
は第1のキーフレームの特徴を示し、
は第1のキーフレームの特徴の重み係数を示し、
は第2のキーフレームの融合特徴を示し、
は第2のキーフレームの融合特徴の重み係数を示し、
の値が0より大きく1未満である。
前記第1のキーフレームがビデオ中の最初のキーフレーム(以下1stキーフレームと呼ぶ)であるかどうかを確定することをさらに含み、
前記第1のキーフレームがビデオ中の1stキーフレームであることに応じて、該1stキーフレームの特徴に基づいて1stキーフレームを検出し、該1stキーフレームにおける物体検出結果を取得する。
現在キーフレームと1つ前のキーフレームの間のオプティカルフローフィールドを取得することと、
現在キーフレームと1つ前のキーフレームの間のオプティカルフローフィールドに基づいて、1つ前のキーフレームの特徴と現在キーフレームを位置合わせることと、
位置合わせた1つ前のキーフレームの特徴と現在キーフレームの特徴を融合することと、を含む。
1つ前のキーフレームの特徴と現在キーフレームの特徴の重み係数を決定することと、
1つ前のキーフレームの特徴と現在キーフレームの特徴の重み係数に基づいて、1つ前のキーフレームの特徴と現在キーフレームの特徴を融合する。
ビデオサンプル中から選択された画像フレームを現在ターゲットフレームとすることと、
前記ビデオサンプル中の該現在ターゲットフレームを始点としての第1の距離前のサンプリングされた画像フレームを1つ前のキーフレームとし、前記ビデオ中の現在ターゲットフレームを始点としての第2の距離後のサンプリングされた画像フレームを現在キーフレームとすることを含む。
実行可能命令を記憶するためのメモリと、
メモリと通信し実行可能命令を実行することにより本開示のいずれか1つの実施例のビデオ識別方法又はビデオ識別ネットワークのトレーニング方法の操作を実現するためのプロセッサーと、を含むもう1つの電子デバイスをさらに提供する。
Claims (49)
- ビデオ中の第1のキーフレームの特徴を抽出することと、
前記第1のキーフレームの特徴と前記ビデオ中の第2のキーフレームの融合特徴を融合して、前記第1のキーフレームの融合特徴を取得することであって、ここで、前記第2のキーフレームの前記ビデオにおける検出時間順序が前記第1のキーフレームの前である、ことと、
前記第1のキーフレームの融合特徴に基づいて前記第1のキーフレームを検出し、前記第1のキーフレームにおける物体検出結果を取得することと、を含むことを特徴とするビデオ識別方法。 - 前記第2のキーフレームは、前記ビデオにおける前記第1のキーフレームと隣接する1つ前のキーフレームを含むことを特徴とする請求項1に記載の方法。
- 前記第2のキーフレームの融合特徴は、前記第2のキーフレームの特徴と前記ビデオにおける検出時間順序が前記第2のキーフレームの前である第3のキーフレームの融合特徴を融合処理して得られることを特徴とする請求項1又は2に記載の方法。
- 前記第1のキーフレームの特徴と前記ビデオ中の第2のキーフレームの融合特徴を融合する前に、
前記第1のキーフレームと前記第2のキーフレームの間のオプティカルフローフィールドを取得することと、
前記第1のキーフレームと前記第2のキーフレームの間のオプティカルフローフィールドに基づいて、前記第2のキーフレームの融合特徴と前記第1のキーフレームを位置合わせることと、をさらに含み、
前記第1のキーフレームの特徴と前記ビデオ中の第2のキーフレームの融合特徴を融合することは、位置合わせた前記第2のキーフレームの融合特徴と前記第1のキーフレームの特徴を融合することを含むことを特徴とする請求項1〜3のいずれか1項に記載の方法。 - 前記第1のキーフレームの特徴と前記ビデオ中の第2のキーフレームの融合特徴を融合することは、
前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴の重み係数を決定することと、
前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴の重み係数に基づいて、前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴を融合することと、を含むことを特徴とする請求項1〜4のいずれか1項に記載の方法。 - 前記第1のキーフレームが前記ビデオ中の最初のキーフレームであるかどうかを確定することをさらに含み、
前記第1のキーフレームの特徴と前記ビデオ中の第2のキーフレームの融合特徴を融合することは、前記第1のキーフレームが前記ビデオ中の最初のキーフレームではないことに応じて、前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴を融合することを含むことを特徴とする請求項1〜5のいずれか1項に記載の方法。 - 前記第1のキーフレームが前記ビデオ中の最初のキーフレームであることに応じて、前記第1のキーフレームの特徴に基づいて、前記第1のキーフレームにおける物体検出結果を取得することをさらに含むことを特徴とする請求項6に記載の方法。
- 前記ビデオ中から前記第1のキーフレームを選択することをさらに含むことを特徴とする請求項1〜7のいずれか1項に記載の方法。
- 前記ビデオ中から前記第1のキーフレームを選択することは、
前記ビデオ中からランダムに選択された画像フレームを前記第1のキーフレームとすること、または、
前記ビデオ中から幾つかのフレーム間隔毎に選択された画像フレームを前記第1のキーフレームとすること、または、
前記ビデオを複数の短いビデオシーケンスに分割し、それぞれの短いビデオシーケンス中から画像フレームをそれぞれ選択して前記それぞれの短いビデオシーケンスのキーフレームとすることであって、前記複数の短いビデオシーケンスのキーフレームが前記第1のキーフレームを含むこと、又は、
前記ビデオ中から短いビデオシーケンスを選択して、選択された前記短いビデオシーケンス中から選択された画像フレームを前記第1のキーフレームとすることを含むことを特徴とする請求項8に記載の方法。 - 前記短いビデオシーケンス中から選択された画像フレームを前記第1のキーフレームとすることは、
前記短いビデオシーケンス中からランダムに選択された画像フレームを前記第1のキーフレームとすること、または、
前記短いビデオシーケンス中の中間フレームを選択して前記第1のキーフレームとすることであって、ここで、前記中間フレームが、前記中間フレームの所在する前記短いビデオシーケンスにおける最初のフレーム及び最後のフレーム以外の画像フレームを含むことを含むことを特徴とする請求項9に記載の方法。 - 前記中間フレームは、前記中間フレームの所在する前記短いビデオシーケンスにおける中央位置又は中央位置の近くに位置する画像フレームを含むことを特徴とする請求項10に記載の方法。
- 第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールドを取得することと、
前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールド、及び前記第1のキーフレームの融合特徴に基づいて、前記第1の非キーフレームの特徴を取得することと、
前記第1の非キーフレームの特徴に基づいて前記第1の非キーフレームを検出し、前記第1の非キーフレームにおける物体検出結果を取得することと、をさらに含むことを特徴とする請求項1〜11のいずれか1項に記載の方法。 - 前記第1のキーフレームと前記第1の非キーフレームの間の距離が予設閾値よりも小さく、又は、
前記第1のキーフレームが前記ビデオの複数のキーフレーム中の、前記第1の非キーフレームとの距離が最も近いキーフレームである、又は、
前記第1の非キーフレームと前記第1のキーフレームとが同一の短いビデオシーケンスに属することを特徴とする請求項12に記載の方法。 - 前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールドを取得した後、
前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールドに基づいて、前記第1のキーフレームの融合特徴と前記第1の非キーフレームを位置合わせることをさらに含み、
前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールド、及び前記第1のキーフレームの融合特徴に基づいて、前記第1の非キーフレームの特徴を取得することは、
前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールド、及び位置合わせた前記第1のキーフレームの融合特徴に基づいて、前記第1の非キーフレームの特徴を取得することを含むことを特徴とする請求項12又は13に記載の方法。 - 前記ビデオ中の画像フレームはラベル情報を有し、
前記方法は、
前記ビデオ中の少なくとも1つの画像フレームにおける物体検出結果とラベル情報との相違に基づいて、前記ビデオ識別方法を実現するビデオ識別ネットワークをトレーニングすることであって、ここで、前記少なくとも1つの画像フレームが前記第1のキーフレームを含むことをさらに含むことを特徴とする請求項1〜14のいずれか1項に記載の方法。 - 前記ラベル情報は、画像フレームに含まれる少なくとも1つの物体の位置情報及び種別情報を含み、
前記種別検出結果は、物体検出ボックス及び前記物体検出ボックスに対応する物体種別を含み、
前記ビデオ中の少なくとも1つの画像フレームにおける物体検出結果とラベル情報との相違に基づいて、前記ビデオ識別方法を実現するビデオ識別ネットワークをトレーニングすることは、前記ビデオ中の少なくとも1つの画像フレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置情報との相違、及び/又は前記物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、前記ビデオ識別ネットワーク中のネットワークパラメータ値を調整することを含むことを特徴とする請求項15に記載の方法。 - ビデオ識別ネットワークを利用してビデオサンプル中の現在キーフレームの特徴及び1つ前のキーフレームの特徴を抽出することと、
前記ビデオ識別ネットワークを利用して、前記現在キーフレームの特徴と前記1つ前のキーフレームの特徴を融合し、前記現在キーフレームの融合特徴を取得し、前記ビデオサンプル中の同一セグメントに属する現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールドを取得することと、
前記ビデオ識別ネットワークを利用して、前記現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールド、及び前記現在キーフレームの融合特徴に基づいて、前記現在ターゲットフレームの特徴を取得することと、
前記ビデオ識別ネットワークを利用して、前記現在ターゲットフレームの特徴に基づいて前記現在ターゲットフレームを検出し、前記現在ターゲットフレームにおける物体検出結果を取得することと、
前記現在ターゲットフレームにおける物体検出結果と前記現在ターゲットフレームのラベル情報との相違に基づいて、前記ビデオ識別ネットワークのネットワークパラメータ値を調整することと、を含むことを特徴とするビデオ識別ネットワークのトレーニング方法。 - 前記現在キーフレームの特徴と前記1つ前のキーフレームの特徴を融合することは、
前記現在キーフレームと前記1つ前のキーフレームの間のオプティカルフローフィールドを取得することと、
前記現在キーフレームと前記1つ前のキーフレームの間のオプティカルフローフィールドに基づいて、前記1つ前のキーフレームの特徴と前記現在キーフレームを位置合わせることと、
位置合わせた前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合することと、を含むことを特徴とする請求項17に記載の方法。 - 前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合することは、
前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴の重み係数を決定することと、
前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴の重み係数に基づいて、前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合することと、を含むことを特徴とする請求項17又は18に記載の方法。 - 前記のビデオ中の現在キーフレームの特徴及び1つ前のキーフレームの特徴を抽出する前に、
前記ビデオサンプル中から前記現在キーフレーム、前記1つ前のキーフレーム及び前記現在ターゲットフレームを選択することを更に含むことを特徴とする請求項17〜19のいずれか1項に記載の方法。 - 前記ビデオサンプル中から前記現在キーフレーム、前記1つ前のキーフレーム及び前記現在ターゲットフレームを選択することは、
前記ビデオサンプル中から選択された画像フレームを前記現在ターゲットフレームとすることと、
前記ビデオサンプル中の前記現在ターゲットフレームを始点としての第1の距離の前でサンプリングされた画像フレームを前記1つ前のキーフレームとし、前記ビデオサンプル中の前記現在ターゲットフレームを始点としての第2の距離の後でサンプリングされた画像フレームを前記現在キーフレームとすることと、を含むことを特徴とする請求項20に記載の方法。 - 前記第2の距離が前記第1の距離よりも小さいことを特徴とする請求項21に記載の方法。
- 前記現在ターゲットフレームのラベル情報は、前記現在ターゲットフレーム中に含まれる少なくとも1つの物体の位置情報及び種別情報を含み、
前記現在ターゲットフレームの種別検出結果は、前記現在ターゲットフレーム中の物体検出ボックス及び前記物体検出ボックスに対応する物体種別を含み、
前記現在ターゲットフレームにおける物体検出結果と前記現在ターゲットフレームのラベル情報との相違に基づいて、前記ビデオ識別ネットワークをトレーニングすることは、前記現在ターゲットフレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置との相違、及び/又は前記物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、前記ビデオ識別ネットワーク中のネットワークパラメータ値を調整することを含むことを特徴とする請求項17〜22のいずれか1項に記載の方法。 - 識別待ちのビデオを取得することと、
ビデオ識別ネットワークを利用し前記ビデオを識別し、前記ビデオの識別結果を取得し、ここで、前記ビデオ識別ネットワークが請求項17−23のいずれか1項に記載のトレーニング方法によってトレーニングされて得られることと、を含むことを特徴とするビデオ識別方法。 - ビデオ中の第1のキーフレームの特徴を抽出するための特徴抽出ネットワークと、
前記第1のキーフレームの特徴と前記ビデオ中の第2のキーフレームの融合特徴を融合して、前記第1のキーフレームの融合特徴を取得するための融合ネットワークであって、ここで、前記第2のキーフレームの前記ビデオにおける検出時間順序が前記第1のキーフレームの前である、融合ネットワークと、
前記第1のキーフレームの融合特徴に基づいて前記第1のキーフレームを検出し、前記第1のキーフレームにおける物体検出結果を取得するための検出ネットワークと、を含むことを特徴とするビデオ識別装置。 - 前記第2のキーフレームは、前記ビデオにおける前記第1のキーフレームと隣接する1つ前のキーフレームを含むことを特徴とする請求項25に記載の装置。
- 前記第2のキーフレームの融合特徴は、前記第2のキーフレームの特徴と前記ビデオにおける検出時間順序が前記第2のキーフレームの前である第3のキーフレームの融合特徴を融合処理して得られることを特徴とする請求項25又は26に記載の装置。
- 前記第1のキーフレームと前記第2のキーフレームの間のオプティカルフローフィールドを取得し、前記第1のキーフレームと前記第2のキーフレームの間のオプティカルフローフィールドに基づいて、前記第2のキーフレームの融合特徴と前記第1のキーフレームを位置合わせるためのオプティカルフロー伝播モジュールを更に含み、
前記融合ネットワークは、位置合わせた前記第2のキーフレームの融合特徴と前記第1のキーフレームの特徴を融合し、前記第1のキーフレームの融合特徴を取得するために用いられることを特徴とする請求項25〜27のいずれか1項に記載の装置。 - 前記融合ネットワークは、前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴を融合する時に、前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴の重み係数を決定し、前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴の重み係数に基づいて、前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴を融合するために用いられることを特徴とする請求項25〜28のいずれか1項に記載の装置。
- 前記第1のキーフレームが前記ビデオ中の最初のキーフレームであるかどうかを確定するための確定モジュールを更に含み、
前記融合ネットワークは、前記確定モジュールの確定結果に基づいて、前記第1のキーフレームが前記ビデオ中の最初のキーフレームではないことに応じて、前記第1のキーフレームの特徴と前記第2のキーフレームの融合特徴を融合することを特徴とする請求項25〜29のいずれか1項に記載の装置。 - 前記検出ネットワークは、更に前記確定モジュールの確定結果に基づいて、前記第1のキーフレームが前記ビデオ中の最初のキーフレームであることに応じて、前記最初のキーフレームの特徴に基づいて前記第1のキーフレームを検出し、前記最初のキーフレームにおける物体検出結果を取得するために用いられることを特徴とする請求項30に記載の装置。
- 前記ビデオ中から第1のキーフレームを選択するための選択モジュールを更に含むことを特徴とする請求項25〜31のいずれか1項に記載の装置。
- 前記選択モジュールは、
前記ビデオ中からランダムに選択された1つの画像フレームを前記第1のキーフレームとするために用いられ、又は、
前記ビデオ中から幾つかのフレーム間隔毎に選択された画像フレームを前記第1のキーフレームとするために用いられ、又は、
前記ビデオを複数の短いビデオシーケンスに分割し、それぞれの短いビデオシーケンス中から画像フレームをそれぞれ選択して前記それぞれの短いビデオシーケンスのキーフレームとするために用いられ、前記複数の短いビデオシーケンスのキーフレームが前記第1のキーフレームを含み、又は、
前記ビデオ中から短いビデオシーケンスを選択して、選択された前記短いビデオシーケンス中から選択された画像フレームを前記第1のキーフレームとするために用いられることを特徴とする請求項32に記載の装置。 - 前記選択モジュールは、前記短いビデオシーケンス中から選択されたフレーム画像を前記第1のキーフレームとする時に、
前記短いビデオシーケンス中からランダムに選択された画像フレームを前記第1のキーフレームとするために用いられ、または、
前記短いビデオシーケンス中の中間フレームを選択して前記第1のキーフレームとするために用いられ、ここで、前記中間フレームが、前記中間フレームの所在する前記短いビデオシーケンスにおける最初のフレーム及び最後のフレーム以外の画像フレームを含むことを特徴とする請求項33に記載の装置。 - 前記中間フレームは、前記中間フレームの所在する前記短いビデオシーケンスにおける中央位置又は中央位置の近くに位置する画像フレームを含むことを特徴とする請求項34に記載の装置。
- 前記オプティカルフロー伝播モジュールは、さらに、第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールドを取得し、前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールド、及び前記第1のキーフレームの融合特徴に基づいて、前記第1の非キーフレームの特徴を取得するために用いられ、
前記検出ネットワークは、さらに、前記第1の非キーフレームの特徴に基づいて前記第1の非キーフレームを検出し、前記第1の非キーフレームにおける物体検出結果を取得するために用いられることを特徴とする請求項25〜35のいずれか1項に記載の装置。 - 前記第1のキーフレームと前記第1の非キーフレームの間の距離が予設閾値よりも小さく、又は、
前記第1のキーフレームが前記ビデオのキーフレーム内の、前記第1の非キーフレームとの距離が最も近いキーフレームであり、又は、
前記第1の非キーフレームと前記第1のキーフレームとが同一の短いビデオシーケンスに属することを特徴とする請求項36に記載の装置。 - 前記オプティカルフロー伝播モジュールは、前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールドを取得し、前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールドに基づいて、前記第1のキーフレームの融合特徴と前記第1の非キーフレームを位置合わせ、前記第1の非キーフレームと前記第1のキーフレームの間のオプティカルフローフィールド、及び位置合わせた前記第1のキーフレームの融合特徴に基づいて、前記第1の非キーフレームの特徴を取得するために用いられることを特徴とする請求項36又は37に記載の装置。
- 前記ビデオ識別装置はビデオ識別ネットワークを含み、前記ビデオ中の画像フレームはラベル情報を有し、
前記装置は、
前記ビデオ中の少なくとも1つの画像フレームにおける物体検出結果とラベル情報との相違に基づいて、前記ビデオ識別ネットワークをトレーニングするためのトレーニングモジュールであって、ここで、前記少なくとも1つの画像フレームが前記第1のキーフレームを含む、トレーニングモジュールを更に含むことを特徴とする請求項25〜38のいずれか1項に記載の装置。 - 前記ラベル情報は、画像フレームに含まれる少なくとも1つの物体の位置情報及び種別情報を含み、
前記種別検出結果は、物体検出ボックス及び前記物体検出ボックスに対応する物体種別を含み、
前記トレーニングモジュールは、前記ビデオ中の少なくとも1つの画像フレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置情報との相違、及び/又は前記物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、前記ビデオ識別ネットワーク中のネットワークパラメータ値を調整するために用いられることを特徴とする請求項39に記載の装置。 - ビデオサンプル中の現在キーフレームの特徴及び1つ前のキーフレームの特徴を抽出し、前記現在キーフレームの特徴と前記1つ前のキーフレームの特徴を融合し、前記現在キーフレームの融合特徴を取得し、前記ビデオサンプル中の同一セグメントに属する現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールドを取得し、前記現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールド、及び前記現在キーフレームの融合特徴に基づいて、前記現在ターゲットフレームの特徴を取得し、前記現在ターゲットフレームの特徴に基づいて前記現在ターゲットフレームを検出し、前記現在ターゲットフレームにおける物体検出結果を取得するためのビデオ識別ネットワークと、
前記現在ターゲットフレームにおける物体検出結果と前記現在ターゲットフレームのラベル情報との相違に基づいて、前記ビデオ識別ネットワークのネットワークパラメータ値を調整するためのトレーニングモジュールと、を含むビデオ識別ネットワークのトレーニング装置。 - 前記ビデオ識別ネットワークは、
ビデオ中の現在キーフレームの特徴及び1つ前のキーフレームの特徴を抽出するための特徴抽出ネットワークと、
前記現在キーフレームと前記1つ前のキーフレームの間のオプティカルフローフィールドを取得し、前記現在キーフレームと前記1つ前のキーフレームの間のオプティカルフローフィールドに基づいて、前記1つ前のキーフレームの特徴と前記現在キーフレームを位置合わせて、前記現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールドを取得し、前記現在ターゲットフレームと前記現在キーフレームの間のオプティカルフローフィールド、及び前記現在キーフレームの融合特徴に基づいて、前記現在ターゲットフレームの特徴を取得するためのオプティカルフロー伝播モジュールと、
位置合わせた前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合し、現在キーフレームの融合特徴を取得するための融合ネットワークと、
前記現在ターゲットフレームの特徴に基づいて前記現在ターゲットフレームを検出し、前記現在ターゲットフレームにおける物体検出結果を取得するための検出ネットワークと、を含むことを特徴とする請求項41に記載の装置。 - 前記融合ネットワークは前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合する時に、前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴の重み係数を決定し、前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴の重み係数に基づいて、前記1つ前のキーフレームの特徴と前記現在キーフレームの特徴を融合するために用いられることを特徴とする請求項41又は42に記載の装置。
- 前記ビデオサンプル中から前記現在キーフレーム、前記1つ前のキーフレーム及び前記現在ターゲットフレームを選択することための選択モジュールを更に含むことを特徴とする請求項41〜43のいずれか1項に記載の装置。
- 前記選択モジュールは、前記ビデオサンプル中から画像フレームを前記現在ターゲットフレームとして選択し、前記ビデオサンプル中の前記現在ターゲットフレームを始点としての第1の距離の前でサンプリングされた画像フレームを前記1つ前のキーフレームとし、前記ビデオサンプル中の前記現在ターゲットフレームを始点としての第2の距離の後でサンプリングされた画像フレームを前記現在キーフレームとするために用いられることを特徴とする請求項44に記載の装置。
- 前記第2の距離が前記第1の距離よりも小さいことを特徴とする請求項45に記載の装置。
- 前記現在ターゲットフレームのラベル情報は、前記現在ターゲットフレーム中に含まれる少なくとも1つの物体の位置情報及び種別情報を含み、
前記現在ターゲットフレームの種別検出結果は、前記現在ターゲットフレーム中の物体検出ボックス及び前記物体検出ボックスに対応する物体種別を含み、
前記トレーニングモジュールは、前記現在ターゲットフレームにおける物体検出結果中の物体検出ボックスとラベル情報中の位置との相違、及び/又は前記物体検出ボックスに対応する物体種別とラベル情報中の種別情報との相違に基づいて、前記ビデオ識別ネットワーク中のネットワークパラメータ値を調整するために用いられることを特徴とする請求項41〜46のいずれか1項に記載の装置。 - コンピュータ可読命令を記憶するためのメモリと、前記コンピュータ可読命令を実行することによって請求項1〜24のいずれか1項に記載の方法を実行するためのプロセッサーと、を含むことを特徴とする電子デバイス。
- コンピュータ可読命令を記憶するためのコンピュータ記憶媒体であって、
前記コンピュータ可読命令がデバイス中で実行される時に、前記デバイス中のプロセッサーが請求項1〜24のいずれか1項に記載の方法を実行することを特徴とするコンピュータ記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711329718.5A CN108229336B (zh) | 2017-12-13 | 2017-12-13 | 视频识别及训练方法和装置、电子设备、程序和介质 |
CN201711329718.5 | 2017-12-13 | ||
PCT/CN2018/110500 WO2019114405A1 (zh) | 2017-12-13 | 2018-10-16 | 视频识别及训练方法和装置、电子设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020512647A true JP2020512647A (ja) | 2020-04-23 |
JP6837158B2 JP6837158B2 (ja) | 2021-03-03 |
Family
ID=62652263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019553919A Active JP6837158B2 (ja) | 2017-12-13 | 2018-10-16 | ビデオ識別及びトレーニング方法、装置、電子デバイス及び媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10909380B2 (ja) |
JP (1) | JP6837158B2 (ja) |
KR (1) | KR102365521B1 (ja) |
CN (2) | CN108229336B (ja) |
SG (1) | SG11201909887RA (ja) |
WO (1) | WO2019114405A1 (ja) |
Families Citing this family (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229336B (zh) * | 2017-12-13 | 2021-06-04 | 北京市商汤科技开发有限公司 | 视频识别及训练方法和装置、电子设备、程序和介质 |
CN108810620B (zh) | 2018-07-18 | 2021-08-17 | 腾讯科技(深圳)有限公司 | 识别视频中的关键时间点的方法、装置、设备及存储介质 |
CN109344703B (zh) * | 2018-08-24 | 2021-06-25 | 深圳市商汤科技有限公司 | 对象检测方法及装置、电子设备和存储介质 |
CN109389086B (zh) * | 2018-10-09 | 2021-03-05 | 北京科技大学 | 检测无人机影像目标的方法和系统 |
CN111353597B (zh) * | 2018-12-24 | 2023-12-05 | 杭州海康威视数字技术股份有限公司 | 一种目标检测神经网络训练方法和装置 |
CN111383245B (zh) * | 2018-12-29 | 2023-09-22 | 北京地平线机器人技术研发有限公司 | 视频检测方法、视频检测装置和电子设备 |
CN109886951A (zh) * | 2019-02-22 | 2019-06-14 | 北京旷视科技有限公司 | 视频处理方法、装置及电子设备 |
CN111754544B (zh) * | 2019-03-29 | 2023-09-05 | 杭州海康威视数字技术股份有限公司 | 一种视频帧融合方法、装置、电子设备 |
CN109977912B (zh) * | 2019-04-08 | 2021-04-16 | 北京环境特性研究所 | 视频人体关键点检测方法、装置、计算机设备和存储介质 |
CN110060264B (zh) * | 2019-04-30 | 2021-03-23 | 北京市商汤科技开发有限公司 | 神经网络训练方法、视频帧处理方法、装置及系统 |
CN110427800A (zh) * | 2019-06-17 | 2019-11-08 | 平安科技(深圳)有限公司 | 视频物体加速检测方法、装置、服务器及存储介质 |
CN110149482B (zh) * | 2019-06-28 | 2021-02-02 | Oppo广东移动通信有限公司 | 对焦方法、装置、电子设备和计算机可读存储介质 |
CN112199978A (zh) * | 2019-07-08 | 2021-01-08 | 北京地平线机器人技术研发有限公司 | 视频物体检测方法和装置、存储介质和电子设备 |
CN110503076B (zh) * | 2019-08-29 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 基于人工智能的视频分类方法、装置、设备和介质 |
CN110751022B (zh) * | 2019-09-03 | 2023-08-22 | 平安科技(深圳)有限公司 | 基于图像识别的城市宠物活动轨迹监测方法及相关设备 |
CN110738108A (zh) * | 2019-09-09 | 2020-01-31 | 北京地平线信息技术有限公司 | 目标物体检测方法、装置、存储介质及电子设备 |
CN110751646A (zh) * | 2019-10-28 | 2020-02-04 | 支付宝(杭州)信息技术有限公司 | 利用车辆视频中的多个图像帧进行损伤识别的方法及装置 |
CN110933429B (zh) * | 2019-11-13 | 2021-11-12 | 南京邮电大学 | 基于深度神经网络的视频压缩感知与重构方法和装置 |
CN110909655A (zh) * | 2019-11-18 | 2020-03-24 | 上海眼控科技股份有限公司 | 一种识别视频事件的方法及设备 |
CN110841287B (zh) * | 2019-11-22 | 2023-09-26 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、计算机可读存储介质和计算机设备 |
CN112862828B (zh) * | 2019-11-26 | 2022-11-18 | 华为技术有限公司 | 一种语义分割方法、模型训练方法及装置 |
CN111062395B (zh) * | 2019-11-27 | 2020-12-18 | 北京理工大学 | 一种实时的视频语义分割方法 |
CN111629262B (zh) * | 2020-05-08 | 2022-04-12 | Oppo广东移动通信有限公司 | 视频图像处理方法和装置、电子设备及存储介质 |
CN111582185B (zh) * | 2020-05-11 | 2023-06-30 | 北京百度网讯科技有限公司 | 用于识别图像的方法和装置 |
CN111652081B (zh) * | 2020-05-13 | 2022-08-05 | 电子科技大学 | 一种基于光流特征融合的视频语义分割方法 |
CN111881726B (zh) * | 2020-06-15 | 2022-11-25 | 马上消费金融股份有限公司 | 一种活体检测方法、装置及存储介质 |
CN111783784A (zh) * | 2020-06-30 | 2020-10-16 | 创新奇智(合肥)科技有限公司 | 建筑的空洞检测方法及装置、电子设备、存储介质 |
CN111860400B (zh) * | 2020-07-28 | 2024-06-07 | 平安科技(深圳)有限公司 | 人脸增强识别方法、装置、设备及存储介质 |
CN112036446B (zh) * | 2020-08-06 | 2023-12-12 | 汇纳科技股份有限公司 | 目标识别特征融合的方法、系统、介质及装置 |
CN112085097A (zh) * | 2020-09-09 | 2020-12-15 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN112115299A (zh) * | 2020-09-17 | 2020-12-22 | 北京百度网讯科技有限公司 | 视频搜索方法、装置、推荐方法、电子设备及存储介质 |
CN112241470B (zh) * | 2020-09-24 | 2024-02-02 | 北京影谱科技股份有限公司 | 一种视频分类方法及系统 |
CN112435653A (zh) * | 2020-10-14 | 2021-03-02 | 北京地平线机器人技术研发有限公司 | 语音识别方法、装置和电子设备 |
CN112528786B (zh) * | 2020-11-30 | 2023-10-31 | 北京百度网讯科技有限公司 | 车辆跟踪方法、装置及电子设备 |
CN112766215A (zh) * | 2021-01-29 | 2021-05-07 | 北京字跳网络技术有限公司 | 人脸融合方法、装置、电子设备及存储介质 |
CN112561912B (zh) * | 2021-02-20 | 2021-06-01 | 四川大学 | 一种基于先验知识的医学图像淋巴结检测方法 |
CN113011371A (zh) * | 2021-03-31 | 2021-06-22 | 北京市商汤科技开发有限公司 | 目标检测方法、装置、设备及存储介质 |
CN114120166B (zh) * | 2021-10-14 | 2023-09-22 | 北京百度网讯科技有限公司 | 视频问答方法、装置、电子设备及存储介质 |
CN114528923B (zh) * | 2022-01-25 | 2023-09-26 | 山东浪潮科学研究院有限公司 | 基于时域上下文的视频目标检测方法、装置、设备及介质 |
CN115115822B (zh) * | 2022-06-30 | 2023-10-31 | 小米汽车科技有限公司 | 车端图像处理方法、装置、车辆、存储介质及芯片 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07181024A (ja) * | 1993-12-24 | 1995-07-18 | Canon Inc | 3次元形状計測方法および装置 |
JP2005123824A (ja) * | 2003-10-15 | 2005-05-12 | Nippon Hoso Kyokai <Nhk> | 映像オブジェクト軌跡合成装置、その方法及びそのプログラム |
US20150161450A1 (en) * | 2012-08-03 | 2015-06-11 | Kodak Alaris Inc. | Identifying scene boundaries using group sparsity analysis |
US20170220854A1 (en) * | 2016-01-29 | 2017-08-03 | Conduent Business Services, Llc | Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action |
JP2017187954A (ja) * | 2016-04-06 | 2017-10-12 | Kddi株式会社 | 画像合成装置、プログラム及びデータ構造 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8021160B2 (en) * | 2006-07-22 | 2011-09-20 | Industrial Technology Research Institute | Learning assessment method and device using a virtual tutor |
US8135221B2 (en) | 2009-10-07 | 2012-03-13 | Eastman Kodak Company | Video concept classification using audio-visual atoms |
CN101673404B (zh) * | 2009-10-19 | 2015-03-04 | 北京中星微电子有限公司 | 一种目标检测的方法和装置 |
CN102014295B (zh) * | 2010-11-19 | 2012-11-28 | 嘉兴学院 | 一种网络敏感视频检测方法 |
CN102682302B (zh) * | 2012-03-12 | 2014-03-26 | 浙江工业大学 | 一种基于关键帧的多特征融合的人体姿态识别方法 |
US9129399B2 (en) * | 2013-03-11 | 2015-09-08 | Adobe Systems Incorporated | Optical flow with nearest neighbor field fusion |
US9892745B2 (en) * | 2013-08-23 | 2018-02-13 | At&T Intellectual Property I, L.P. | Augmented multi-tier classifier for multi-modal voice activity detection |
BR112016006860B8 (pt) * | 2013-09-13 | 2023-01-10 | Arris Entpr Inc | Aparelho e método para criar um único fluxo de dados de informações combinadas para renderização em um dispositivo de computação do cliente |
US10262426B2 (en) * | 2014-10-31 | 2019-04-16 | Fyusion, Inc. | System and method for infinite smoothing of image sequences |
KR20160099289A (ko) * | 2015-02-12 | 2016-08-22 | 대전대학교 산학협력단 | 영상의 전역 특징과 이동객체의 지역 특징을 융합한 동영상 검색 방법 및 그 시스템 |
CN105005772B (zh) * | 2015-07-20 | 2018-06-12 | 北京大学 | 一种视频场景检测方法 |
KR102444712B1 (ko) * | 2016-01-12 | 2022-09-20 | 한국전자통신연구원 | 다중-모달리티 특징 융합을 통한 퍼스널 미디어 자동 재창작 시스템 및 그 동작 방법 |
US20170277955A1 (en) * | 2016-03-23 | 2017-09-28 | Le Holdings (Beijing) Co., Ltd. | Video identification method and system |
BR102016007265B1 (pt) * | 2016-04-01 | 2022-11-16 | Samsung Eletrônica da Amazônia Ltda. | Método multimodal e em tempo real para filtragem de conteúdo sensível |
CN106599907B (zh) * | 2016-11-29 | 2019-11-29 | 北京航空航天大学 | 多特征融合的动态场景分类方法与装置 |
CN107392917B (zh) * | 2017-06-09 | 2021-09-28 | 深圳大学 | 一种基于时空约束的视频显著性检测方法及系统 |
CN107463881A (zh) * | 2017-07-07 | 2017-12-12 | 中山大学 | 一种基于深度增强学习的人物图像搜索方法 |
CN107463949B (zh) * | 2017-07-14 | 2020-02-21 | 北京协同创新研究院 | 一种视频动作分类的处理方法及装置 |
CN108229336B (zh) * | 2017-12-13 | 2021-06-04 | 北京市商汤科技开发有限公司 | 视频识别及训练方法和装置、电子设备、程序和介质 |
-
2017
- 2017-12-13 CN CN201711329718.5A patent/CN108229336B/zh active Active
-
2018
- 2018-10-16 WO PCT/CN2018/110500 patent/WO2019114405A1/zh active Application Filing
- 2018-10-16 CN CN201880018915.1A patent/CN110546645B/zh active Active
- 2018-10-16 JP JP2019553919A patent/JP6837158B2/ja active Active
- 2018-10-16 SG SG11201909887R patent/SG11201909887RA/en unknown
- 2018-10-16 KR KR1020197029255A patent/KR102365521B1/ko active IP Right Grant
-
2019
- 2019-05-14 US US16/411,342 patent/US10909380B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07181024A (ja) * | 1993-12-24 | 1995-07-18 | Canon Inc | 3次元形状計測方法および装置 |
JP2005123824A (ja) * | 2003-10-15 | 2005-05-12 | Nippon Hoso Kyokai <Nhk> | 映像オブジェクト軌跡合成装置、その方法及びそのプログラム |
US20150161450A1 (en) * | 2012-08-03 | 2015-06-11 | Kodak Alaris Inc. | Identifying scene boundaries using group sparsity analysis |
US20170220854A1 (en) * | 2016-01-29 | 2017-08-03 | Conduent Business Services, Llc | Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action |
JP2017187954A (ja) * | 2016-04-06 | 2017-10-12 | Kddi株式会社 | 画像合成装置、プログラム及びデータ構造 |
Also Published As
Publication number | Publication date |
---|---|
WO2019114405A1 (zh) | 2019-06-20 |
SG11201909887RA (en) | 2019-11-28 |
CN110546645A (zh) | 2019-12-06 |
KR20190126366A (ko) | 2019-11-11 |
KR102365521B1 (ko) | 2022-02-21 |
JP6837158B2 (ja) | 2021-03-03 |
US10909380B2 (en) | 2021-02-02 |
CN110546645B (zh) | 2023-09-19 |
US20190266409A1 (en) | 2019-08-29 |
CN108229336B (zh) | 2021-06-04 |
CN108229336A (zh) | 2018-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020512647A (ja) | ビデオ識別及びトレーニング方法、装置、電子デバイス及び媒体 | |
US11222211B2 (en) | Method and apparatus for segmenting video object, electronic device, and storage medium | |
WO2018166438A1 (zh) | 图像处理方法、装置及电子设备 | |
US11276177B1 (en) | Segmentation for image effects | |
CN110853033B (zh) | 基于帧间相似度的视频检测方法和装置 | |
CN112954450B (zh) | 视频处理方法、装置、电子设备和存储介质 | |
CN108229418B (zh) | 人体关键点检测方法和装置、电子设备、存储介质和程序 | |
JP7093427B2 (ja) | オブジェクト追跡方法および装置、電子設備並びに記憶媒体 | |
EP2395748A2 (en) | Apparatus and method creating ghost-free high dynamic range image using filtering | |
KR20170038040A (ko) | 비디오에서의 컴퓨터화된 현저한 인물 인식 | |
CN109413510B (zh) | 视频摘要生成方法和装置、电子设备、计算机存储介质 | |
CN111836118B (zh) | 视频处理方法、装置、服务器及存储介质 | |
EP3989158A1 (en) | Method, apparatus and device for video similarity detection | |
CN111985419B (zh) | 视频处理方法及相关设备 | |
US9798919B2 (en) | Method and apparatus for estimating image motion using disparity information of a multi-view image | |
CN108229281B (zh) | 神经网络的生成方法和人脸检测方法、装置及电子设备 | |
CN113743357A (zh) | 视频表征自监督对比学习方法和装置 | |
EP4332910A1 (en) | Behavior detection method, electronic device, and computer readable storage medium | |
US20220327663A1 (en) | Video Super-Resolution using Deep Neural Networks | |
CN112241752A (zh) | 模型训练方法、数据处理方法、分类方法、装置、设备 | |
CN112584108B (zh) | 用于无人机巡检的线路物理损伤监控方法 | |
CN112991419B (zh) | 视差数据生成方法、装置、计算机设备及存储介质 | |
CN112199978A (zh) | 视频物体检测方法和装置、存储介质和电子设备 | |
Kannappan et al. | Performance evaluation of video summaries using efficient image euclidean distance | |
EP3065104A1 (en) | Method and system for rendering graphical content in an image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190930 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210202 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210208 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6837158 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |