JP2022526513A - ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム - Google Patents
ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2022526513A JP2022526513A JP2021556971A JP2021556971A JP2022526513A JP 2022526513 A JP2022526513 A JP 2022526513A JP 2021556971 A JP2021556971 A JP 2021556971A JP 2021556971 A JP2021556971 A JP 2021556971A JP 2022526513 A JP2022526513 A JP 2022526513A
- Authority
- JP
- Japan
- Prior art keywords
- video frame
- target
- image feature
- labeling
- guide
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本願の実施例は、2019年8月29日に提出された、出願番号が第201910807774.8号であり、発明の名称が「ビデオフレームの情報ラベリング方法、装置、機器及び記憶媒体」である中国特許出願の優先権を主張し、その全ての内容が参照によって本願の実施例に組み込まれる。
処理対象ビデオを取得するステップと、
前記処理対象ビデオ内の目標ビデオフレームに対して特徴抽出を行って、前記目標ビデオフレームの目標画像特徴を得るステップと、
前記目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、前記ラベリング済みビデオフレームから前記目標ビデオフレームのガイドビデオフレームを決定するステップであって、前記ラベリング済みビデオフレームは前記処理対象ビデオに属するものであり、前記ガイドビデオフレームは前記目標ビデオフレームに対する情報ラベリングをガイドするためのものであり、前記画像特徴一致度は前記目標画像特徴と前記ラベリング済みビデオフレームに対応する画像特徴との一致度であり、前記ガイドビデオフレームと前記目標ビデオフレームとの画像特徴一致度は、他のラベリング済みビデオフレームと前記目標ビデオフレームとの画像特徴一致度より高い、ステップと、
前記ガイドビデオフレームに対応するラベリング情報に基づいて、前記目標ビデオフレームに対応する目標ラベリング情報を生成するステップと、を含むビデオフレームの情報ラベリング方法を提供する。
処理対象ビデオを取得するように構成される取得モジュールと、
前記処理対象ビデオ内の目標ビデオフレームに対して特徴抽出を行って、前記目標ビデオフレームの目標画像特徴を得るように構成される特徴抽出モジュールと、
前記目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、前記ラベリング済みビデオフレームから前記目標ビデオフレームのガイドビデオフレームを決定するように構成されるガイドフレーム決定モジュールであって、前記ラベリング済みビデオフレームは前記処理対象ビデオに属するものであり、前記ガイドビデオフレームは前記目標ビデオフレームに対する情報ラベリングをガイドするためのものであり、前記画像特徴一致度は前記目標画像特徴と前記ラベリング済みビデオフレームに対応する画像特徴との一致度であり、前記ガイドビデオフレームと前記目標ビデオフレームとの画像特徴一致度は、他のラベリング済みビデオフレームと前記目標ビデオフレームとの画像特徴一致度より高い、ガイドフレーム決定モジュールと、
前記ガイドビデオフレームに対応するラベリング情報に基づいて、前記目標ビデオフレームに対応する目標ラベリング情報を生成するように構成される生成モジュールと、を含むビデオフレームの情報ラベリング装置を提供する。
この適用場面では、本願の実施例で提供されたビデオフレームの情報ラベリング方法は、室内監視アプリケーション、道路監視アプリケーション、駐車場監視アプリケーション等のビデオ対象自動追跡・位置決定機能を有するアプリケーションに利用可能である。対象自動追跡・位置決定を行う時に、ユーザは、まず、ビデオをアプリケーションに読み込み、次に、ビデオにおけるあるビデオフレームにおいて自動追跡・位置決定を行おうとする対象にラベルを付け、アプリケーションは初期ラベリング情報によりビデオ内の他のビデオフレームにラベリング情報を生成し、更にラベリング情報により各ビデオフレームにおいて自動追跡・位置決定を行う対象にラベルを付けて表示する。
この適用場面では、本願の実施例で提供されたビデオフレームの情報ラベリング方法は、ビデオカラー化機能を有するアプリケーション、例えばビデオ編集アプリケーションに利用可能である。ビデオをカラー化する時に、ユーザは、まず、グレースケールビデオにおける一画像フレームをカラー化し、次に、初期色情報を含んでいるグレースケールビデオをアプリケーションに入力し、アプリケーションは初期色ラベリング情報によりビデオ内の他のビデオフレームに色ラベリング情報を生成し、更に生成した色ラベリング情報に基づいて、各ビデオフレームをカラー化し、最後にカラー化したビデオを出力する。
y_t=P(x_t,x_g,y_g)
ここで、Pは畳み込みニューラルネットワークに基づいて構築される。
処理対象ビデオを取得するように構成される取得モジュール1301と、
前記処理対象ビデオ内の目標ビデオフレームに対して特徴抽出を行って、前記目標ビデオフレームの目標画像特徴を得るように構成される特徴抽出モジュール1302と、
前記目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、前記ラベリング済みビデオフレームから前記目標ビデオフレームのガイドビデオフレームを決定するように構成されるガイドフレーム決定モジュールであって、前記ラベリング済みビデオフレームは前記処理対象ビデオに属するものであり、前記ガイドビデオフレームは前記目標ビデオフレームに対する情報ラベリングをガイドするためのものであり、前記画像特徴一致度は前記目標画像特徴と前記ラベリング済みビデオフレームに対応する画像特徴との一致度であり、前記ガイドビデオフレームと前記目標ビデオフレームとの画像特徴一致度は、他のラベリング済みビデオフレームと前記目標ビデオフレームとの画像特徴一致度より高い、ガイドフレーム決定モジュール1303と、
前記ガイドビデオフレームに対応するラベリング情報に基づいて、前記目標ビデオフレームに対応する目標ラベリング情報を生成するように構成される生成モジュール1304と、を含む。
メモリ選択ネットワークのメモリプールから候補画像特徴を取得するように構成される第1取得ユニットであって、前記メモリ選択ネットワークは前記メモリプールと選択ネットワークを含み、前記メモリプールに前記ラベリング済みビデオフレームの画像特徴が記憶されている、第1取得ユニットと、
前記候補画像特徴と前記目標画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される画像特徴スコアを得るように構成される特徴スコアリングユニットであって、前記画像特徴スコアは、前記候補画像特徴と前記目標画像特徴との画像特徴一致度を示すためのものである、特徴スコアリングユニットと、
最高画像特徴スコアに対応するラベリング済みビデオフレームを前記ガイドビデオフレームとして決定するように構成される決定ユニットと、を含み、
前記装置は、更に、
前記目標ビデオフレームの前記目標画像特徴を前記メモリプールに記憶するように構成される記憶モジュールを含む。
初期ラベリングビデオフレーム内のラベリング対象のラベリング対象画像特徴を取得するように構成される第2取得ユニットであって、前記初期ラベリングビデオフレームは、前記処理対象ビデオにおける、ラベリング情報を予め設定したビデオフレームであり、また、前記ラベリング対象は、前記初期ラベリングビデオフレームにおける、ラベリング情報を含む対象である、第2取得ユニットを更に含み、
前記特徴スコアリングユニットは、更に、
前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される前記画像特徴スコアを得るように構成される。
前記特徴スコアリングユニットは、更に、
前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴のうちのいずれか2つの画像特徴に対して関連付け操作を行って、関連画像特徴を得るステップであって、前記関連画像特徴は画像特徴間の類似度を表すためのものであるステップと、
前記関連画像特徴の各々を結合し、結合した後の前記関連画像特徴を前記第1選択ブランチに入力して、前記第1選択ブランチから出力される第1特徴ベクトルを得るステップと、
結合した後の前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴を前記第2選択ブランチに入力して、前記第2選択ブランチから出力される第2特徴ベクトルを得るステップと、
前記第1特徴ベクトルと前記第2特徴ベクトルに基づいて、前記画像特徴スコアを決定するステップと、を実行するように構成される。
前記処理対象ビデオのフレームレートがフレームレート閾値より大きい場合、所定のフレーム数おきに、前記メモリプールから前記ラベリング済みビデオフレームに対応する前記候補画像特徴を取得するか、又は前記メモリプールから前記目標ビデオフレームに対応するnフレームの隣接するラベリング済みビデオフレームの前記候補画像特徴を取得するように構成され、nは正整数である。
前記ガイドビデオフレーム、前記ガイドビデオフレームに対応するラベリング情報及び前記目標ビデオフレームをテンポラル伝播ネットワークに入力して、前記テンポラル伝播ネットワークから出力される前記目標ラベリング情報を得るように構成される。
前記生成モジュール1304は、
前記ガイドビデオフレームに対応するラベリング情報及び前記目標ビデオフレームを前記画像ブランチに入力して、前記画像ブランチから出力される画像情報特徴を得るように構成される第1出力ユニットと、
前記ガイドビデオフレームと前記目標ビデオフレームとの間のビデオフレームオプティカルフローを決定し、前記ビデオフレームオプティカルフローと前記ガイドビデオフレームに対応するラベリング情報を前記運動量ブランチに入力して、前記運動量ブランチから出力される運動量特徴を得るように構成される第2出力ユニットステップと、
前記画像情報特徴と前記運動量特徴に基づいて、前記目標ラベリング情報を決定するように構成される決定ユニットと、を含む。
サンプルビデオにより前記テンポラル伝播ネットワークをトレーニングするように構成される第1トレーニングモジュールであって、前記サンプルビデオ内のサンプルビデオフレームはラベリング情報を含む、第1トレーニングモジュールと、
前記サンプルビデオ内の目標サンプルビデオフレーム及び前記サンプルビデオ内の他のサンプルビデオフレームを前記テンポラル伝播ネットワークに入力して、前記テンポラル伝播ネットワークから出力される予測サンプルラベリング情報を得るように構成されるラベリング情報予測モジュールと、
前記予測サンプルラベリング情報と前記目標サンプルビデオフレームに対応するサンプルラベリング情報に基づいて、前記サンプルビデオフレーム内のサンプルガイドビデオフレームを決定するように構成されるサンプル決定モジュールと、
前記目標サンプルビデオフレームと前記サンプルガイドビデオフレームに基づいて、前記メモリ選択ネットワークをトレーニングするように構成される第2トレーニングモジュールと、を更に含む。
前記予測サンプルラベリング情報と前記サンプルラベリング情報との間の情報正確度を計算するように構成される計算ユニットと、
前記情報正確度に基づいて、前記サンプルビデオフレーム内の正例のサンプルガイドビデオフレームと負例のサンプルガイドビデオフレームを決定するように構成される決定ユニットと、を含み、
前記正例のサンプルガイドビデオフレームに対応する第1情報正確度が前記負例のサンプルガイドビデオフレームに対応する第2情報正確度より高く、前記第1情報正確度は、前記正例のサンプルガイドビデオフレームに基づいて、前記目標サンプルビデオフレームに対して情報ラベリングを行う時の情報正確度であり、前記第2情報正確度は、前記負例のサンプルガイドビデオフレームに基づいて、前記目標サンプルビデオフレームに対して情報ラベリングを行う時の情報正確度である。
520 サーバ
521 メモリ選択ネットワーク
522 テンポラル伝播ネットワーク
1301 取得モジュール
1302 特徴抽出モジュール
1303 ガイドフレーム決定モジュール
1304 生成モジュール
1400 コンピュータ機器
1401 中央処理装置(CPU)
1402 ランダムアクセスメモリ(RAM)
1403 読み出し専用メモリ(ROM)
1404 システムメモリ
1405 システムバス
1406 入力/出力システム(I/Oシステム)
1407 大容量記憶装置
1408 ディスプレイ
1409 入力装置
1410 入力/出力制御器
1411 ネットワークインタフェースユニット
1412 ネットワーク
1413 オペレーティングシステム
1414 アプリケーション
1415 他のプログラムモジュール
Claims (16)
- コンピュータ機器が実行する、ビデオフレームの情報ラベリング方法であって、
処理対象ビデオを取得するステップと、
前記処理対象ビデオ内の目標ビデオフレームに対して特徴抽出を行って、前記目標ビデオフレームの目標画像特徴を得るステップと、
前記目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、前記ラベリング済みビデオフレームから前記目標ビデオフレームのガイドビデオフレームを決定するステップであって、前記ラベリング済みビデオフレームは前記処理対象ビデオに属するものであり、前記ガイドビデオフレームは前記目標ビデオフレームに対する情報ラベリングをガイドするためのものであり、前記画像特徴一致度は前記目標画像特徴と前記ラベリング済みビデオフレームに対応する画像特徴との一致度であり、前記ガイドビデオフレームと前記目標ビデオフレームとの画像特徴一致度は、他のラベリング済みビデオフレームと前記目標ビデオフレームとの画像特徴一致度より高い、ステップと、
前記ガイドビデオフレームに対応するラベリング情報に基づいて、前記目標ビデオフレームに対応する目標ラベリング情報を生成するステップと、を含む
ことを特徴とする方法。 - 前記目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、前記ラベリング済みビデオフレームから前記目標ビデオフレームのガイドビデオフレームを決定するステップは、
メモリ選択ネットワークのメモリプールから候補画像特徴を取得するステップであって、前記メモリ選択ネットワークは前記メモリプールと選択ネットワークを含み、前記メモリプールに前記ラベリング済みビデオフレームの画像特徴が記憶されている、ステップと、
前記候補画像特徴と前記目標画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される画像特徴スコアを得るステップであって、前記画像特徴スコアは、前記候補画像特徴と前記目標画像特徴との画像特徴一致度を示すためのものである、ステップと、
最高画像特徴スコアに対応するラベリング済みビデオフレームを前記ガイドビデオフレームとして決定するステップと、を含み、
前記目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、前記ラベリング済みビデオフレームから前記目標ビデオフレームのガイドビデオフレームを決定した後、
前記目標ビデオフレームの前記目標画像特徴を前記メモリプールに記憶するステップを更に含む
ことを特徴とする請求項1に記載の方法。 - 前記候補画像特徴と前記目標画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される画像特徴スコアを得る前に、
初期ラベリングビデオフレーム内のラベリング対象のラベリング対象画像特徴を取得するステップであって、前記初期ラベリングビデオフレームは、前記処理対象ビデオにおける、ラベリング情報を予め設定したビデオフレームであり、前記ラベリング対象は、前記初期ラベリングビデオフレームにおける、ラベリング情報を含む対象である、ステップを更に含み、
前記候補画像特徴と前記目標画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される画像特徴スコアを得るステップは、
前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される前記画像特徴スコアを得るステップを含む
ことを特徴とする請求項2に記載の方法。 - 前記選択ネットワークは第1選択ブランチと第2選択ブランチを含み、
前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される前記画像特徴スコアを得るステップは、
前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴のうちのいずれか2つの画像特徴に対して関連付け操作を行って、関連画像特徴を得るステップであって、前記関連画像特徴は画像特徴間の類似度を表すためのものである、ステップと、
前記関連画像特徴の各々を結合し、結合した後の前記関連画像特徴を前記第1選択ブランチに入力して、前記第1選択ブランチから出力される第1特徴ベクトルを得るステップと、
結合した後の前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴を前記第2選択ブランチに入力して、前記第2選択ブランチから出力される第2特徴ベクトルを得るステップと、
前記第1特徴ベクトルと前記第2特徴ベクトルに基づいて、前記画像特徴スコアを決定するステップと、を含む
ことを特徴とする請求項3に記載の方法。 - 前記メモリ選択ネットワークのメモリプールから候補画像特徴を取得するステップは、
前記処理対象ビデオのフレームレートがフレームレート閾値より大きい場合、所定のフレーム数おきに、前記メモリプールから前記ラベリング済みビデオフレームに対応する前記候補画像特徴を取得するか、又は前記メモリプールから前記目標ビデオフレームに対応するnフレームの隣接するラベリング済みビデオフレームの前記候補画像特徴を取得するステップを含み、nは正整数である
ことを特徴とする請求項2から4のいずれか一項に記載の方法。 - 前記ガイドビデオフレームに対応するラベリング情報に基づいて、前記目標ビデオフレームに対応する目標ラベリング情報を生成するステップは、
前記ガイドビデオフレーム、前記ガイドビデオフレームに対応するラベリング情報及び前記目標ビデオフレームをテンポラル伝播ネットワークに入力して、前記テンポラル伝播ネットワークから出力される前記目標ラベリング情報を得るステップを含む
ことを特徴とする請求項2から4のいずれか一項に記載の方法。 - 前記テンポラル伝播ネットワークは画像ブランチと運動量ブランチを含み、
前記ガイドビデオフレーム、前記ガイドビデオフレームに対応するラベリング情報及び前記目標ビデオフレームをテンポラル伝播ネットワークに入力して、前記テンポラル伝播ネットワークから出力される前記目標ラベリング情報を得るステップは、
前記ガイドビデオフレームに対応するラベリング情報及び前記目標ビデオフレームを前記画像ブランチに入力して、前記画像ブランチから出力される画像情報特徴を得るステップと、
前記ガイドビデオフレームと前記目標ビデオフレームとの間のビデオフレームオプティカルフローを決定し、前記ビデオフレームオプティカルフローと前記ガイドビデオフレームに対応するラベリング情報を前記運動量ブランチに入力して、前記運動量ブランチから出力される運動量特徴を得るステップと、
前記画像情報特徴と前記運動量特徴に基づいて、前記目標ラベリング情報を決定するステップと、を含む
ことを特徴とする請求項6に記載の方法。 - 前記処理対象ビデオを取得する前に、
サンプルビデオにより前記テンポラル伝播ネットワークをトレーニングするステップであって、前記サンプルビデオ内のサンプルビデオフレームはラベリング情報を含む、ステップと、
前記サンプルビデオ内の目標サンプルビデオフレーム及び前記サンプルビデオ内の他のサンプルビデオフレームを前記テンポラル伝播ネットワークに入力して、前記テンポラル伝播ネットワークから出力される予測サンプルラベリング情報を得るステップと、
前記予測サンプルラベリング情報と前記目標サンプルビデオフレームに対応するサンプルラベリング情報に基づいて、前記サンプルビデオフレーム内のサンプルガイドビデオフレームを決定するステップと、
前記目標サンプルビデオフレームと前記サンプルガイドビデオフレームに基づいて、前記メモリ選択ネットワークをトレーニングするステップと、を更に含む
ことを特徴とする請求項6に記載の方法。 - 前記予測サンプルラベリング情報と前記目標サンプルビデオフレームに対応するサンプルラベリング情報に基づいて、前記サンプルビデオフレーム内のサンプルガイドビデオフレームを決定するステップは、
前記予測サンプルラベリング情報と前記サンプルラベリング情報との間の情報正確度を計算するステップと、
前記情報正確度に基づいて、前記サンプルビデオフレーム内の正例のサンプルガイドビデオフレームと負例のサンプルガイドビデオフレームを決定するステップと、を含み、
前記正例のサンプルガイドビデオフレームに対応する第1情報正確度が前記負例のサンプルガイドビデオフレームに対応する第2情報正確度より高く、前記第1情報正確度は、前記正例のサンプルガイドビデオフレームに基づいて、前記目標サンプルビデオフレームに対して情報ラベリングを行う時の情報正確度であり、前記第2情報正確度は、前記負例のサンプルガイドビデオフレームに基づいて、前記目標サンプルビデオフレームに対して情報ラベリングを行う時の情報正確度である
ことを特徴とする請求項8に記載の方法。 - ビデオフレームの情報ラベリング装置であって、
処理対象ビデオを取得するように構成される取得モジュールと、
前記処理対象ビデオ内の目標ビデオフレームに対して特徴抽出を行って、前記目標ビデオフレームの目標画像特徴を得るように構成される特徴抽出モジュールと、
前記目標ビデオフレームとラベリング済みビデオフレームとの画像特徴一致度に基づいて、前記ラベリング済みビデオフレームから前記目標ビデオフレームのガイドビデオフレームを決定するように構成されるガイドフレーム決定モジュールであって、前記ラベリング済みビデオフレームは前記処理対象ビデオに属するものであり、前記ガイドビデオフレームは前記目標ビデオフレームに対する情報ラベリングをガイドするためのものであり、前記画像特徴一致度は前記目標画像特徴と前記ラベリング済みビデオフレームに対応する画像特徴との一致度であり、前記ガイドビデオフレームと前記目標ビデオフレームとの画像特徴一致度は、他のラベリング済みビデオフレームと前記目標ビデオフレームとの画像特徴一致度より高い、ガイドフレーム決定モジュールと、
前記ガイドビデオフレームに対応するラベリング情報に基づいて、前記目標ビデオフレームに対応する目標ラベリング情報を生成するように構成される生成モジュールと、を含む
ことを特徴とする装置。 - 前記ガイドフレーム決定モジュールは、
メモリ選択ネットワークのメモリプールから候補画像特徴を取得するように構成される第1取得ユニットであって、前記メモリ選択ネットワークは前記メモリプールと選択ネットワークを含み、前記メモリプールに前記ラベリング済みビデオフレームの画像特徴が記憶されている、第1取得ユニットと、
前記候補画像特徴と前記目標画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される画像特徴スコアを得るように構成される特徴スコアリングユニットであって、前記画像特徴スコアは、前記候補画像特徴と前記目標画像特徴との画像特徴一致度を示すためのものである、特徴スコアリングユニットと、
最高画像特徴スコアに対応するラベリング済みビデオフレームを前記ガイドビデオフレームとして決定するように構成される決定ユニットと、を含み、
前記ビデオフレームの情報ラベリング装置は、
前記目標ビデオフレームの前記目標画像特徴を前記メモリプールに記憶するように構成される記憶モジュールを更に含む
ことを特徴とする請求項10に記載の装置。 - 前記ガイドフレーム決定モジュールは、
初期ラベリングビデオフレーム内のラベリング対象のラベリング対象画像特徴を取得するように構成される第2取得ユニットであって、前記初期ラベリングビデオフレームは、前記処理対象ビデオにおける、ラベリング情報を予め設定したビデオフレームであり、前記ラベリング対象は、前記初期ラベリングビデオフレームにおける、ラベリング情報を含む対象である、第2取得ユニットを更に含み、
前記特徴スコアリングユニットは、
前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴を前記選択ネットワークに入力して、前記選択ネットワークから出力される前記画像特徴スコアを得るように更に構成される
ことを特徴とする請求項11に記載の装置。 - 前記選択ネットワークは、第1選択ブランチと第2選択ブランチを含み、
前記特徴スコアリングユニットは、
前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴のうちのいずれか2つの画像特徴に対して関連付け操作を行って、関連画像特徴を得るステップであって、前記関連画像特徴は画像特徴間の類似度を表すためのものである、ステップと、
前記関連画像特徴の各々を結合し、結合した後の前記関連画像特徴を前記第1選択ブランチに入力して、前記第1選択ブランチから出力される第1特徴ベクトルを得るステップと、
結合した後の前記候補画像特徴、前記目標画像特徴及び前記ラベリング対象画像特徴を前記第2選択ブランチに入力して、前記第2選択ブランチから出力される第2特徴ベクトルを得るステップと、
前記第1特徴ベクトルと前記第2特徴ベクトルに基づいて、前記画像特徴スコアを決定するステップと、を実行するように更に構成される
ことを特徴とする請求項12に記載の装置。 - 前記生成モジュールは、
前記ガイドビデオフレーム、前記ガイドビデオフレームに対応するラベリング情報及び前記目標ビデオフレームをテンポラル伝播ネットワークに入力して、前記テンポラル伝播ネットワークから出力される前記目標ラベリング情報を得るように構成される
ことを特徴とする請求項11から13のいずれか一項に記載の装置。 - プロセッサとメモリを含み、前記メモリに少なくとも1つのコマンド、少なくとも1セグメントのプログラム、コードセット又は命令セットが記憶されており、前記少なくとも1つのコマンド、前記少なくとも1セグメントのプログラム、前記コードセット又は前記命令セットが前記プロセッサによってロード、実行されて請求項1から9のいずれか一項に記載の方法を実現することを特徴とするコンピュータ機器。
- 少なくとも1つのコマンド、少なくとも1セグメントのプログラム、コードセット又は命令セットが記憶されており、前記少なくとも1つのコマンド、前記少なくとも1セグメントのプログラム、前記コードセット又は前記命令セットが、プロセッサによってロード、実行されて請求項1から9のいずれか一項に記載の方法を実現することを特徴とするコンピュータ読取可能記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910807774.8 | 2019-08-29 | ||
CN201910807774.8A CN110503074B (zh) | 2019-08-29 | 2019-08-29 | 视频帧的信息标注方法、装置、设备及存储介质 |
PCT/CN2020/106575 WO2021036699A1 (zh) | 2019-08-29 | 2020-08-03 | 视频帧的信息标注方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022526513A true JP2022526513A (ja) | 2022-05-25 |
JP7147078B2 JP7147078B2 (ja) | 2022-10-04 |
Family
ID=68590435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021556971A Active JP7147078B2 (ja) | 2019-08-29 | 2020-08-03 | ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11727688B2 (ja) |
EP (1) | EP4009231A4 (ja) |
JP (1) | JP7147078B2 (ja) |
CN (1) | CN110503074B (ja) |
WO (1) | WO2021036699A1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110503074B (zh) * | 2019-08-29 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 视频帧的信息标注方法、装置、设备及存储介质 |
CN113271424A (zh) * | 2020-02-17 | 2021-08-17 | 北京沃东天骏信息技术有限公司 | 一种音视频通讯方法、装置和系统 |
CN112233171A (zh) * | 2020-09-03 | 2021-01-15 | 上海眼控科技股份有限公司 | 目标标注质量检验方法、装置、计算机设备和存储介质 |
US20220180633A1 (en) * | 2020-12-04 | 2022-06-09 | Samsung Electronics Co., Ltd. | Video object detection and tracking method and apparatus |
CN112950667B (zh) * | 2021-02-10 | 2023-12-22 | 中国科学院深圳先进技术研究院 | 一种视频标注方法、装置、设备及计算机可读存储介质 |
CN115134656A (zh) * | 2021-03-26 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 一种视频数据处理方法、装置、设备以及介质 |
CN113343857B (zh) * | 2021-06-09 | 2023-04-18 | 浙江大华技术股份有限公司 | 标注方法、装置、存储介质及电子装置 |
CN113506610A (zh) * | 2021-07-08 | 2021-10-15 | 联仁健康医疗大数据科技股份有限公司 | 标注规范生成方法、装置、电子设备及存储介质 |
CN113672143A (zh) * | 2021-08-27 | 2021-11-19 | 广州市网星信息技术有限公司 | 图像标注方法、系统、设备和存储介质 |
US20230138254A1 (en) * | 2021-10-29 | 2023-05-04 | International Business Machines Corporation | Temporal contrastive learning for semi-supervised video action recognition |
CN114419502A (zh) * | 2022-01-12 | 2022-04-29 | 深圳力维智联技术有限公司 | 一种数据分析方法、装置及存储介质 |
CN114697702B (zh) * | 2022-03-23 | 2024-01-30 | 咪咕文化科技有限公司 | 音视频标记方法、装置、设备及存储介质 |
CN114863321B (zh) * | 2022-04-08 | 2024-03-08 | 北京凯利时科技有限公司 | 自动视频生成方法、装置及电子设备和芯片系统 |
CN115294506B (zh) * | 2022-10-09 | 2022-12-09 | 深圳比特微电子科技有限公司 | 一种视频高光检测方法和装置 |
CN115757871A (zh) * | 2022-11-15 | 2023-03-07 | 北京字跳网络技术有限公司 | 视频标注方法、装置、设备、介质及产品 |
CN117437635B (zh) * | 2023-12-21 | 2024-04-05 | 杭州海康慧影科技有限公司 | 一种生物组织类图像的预标注方法、装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009539273A (ja) * | 2006-02-03 | 2009-11-12 | イーストマン コダック カンパニー | ビデオクリップからのキーフレーム候補の抽出 |
US20180137892A1 (en) * | 2016-11-16 | 2018-05-17 | Adobe Systems Incorporated | Robust tracking of objects in videos |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324937B (zh) * | 2012-03-21 | 2016-08-03 | 日电(中国)有限公司 | 标注目标的方法和装置 |
CN103914850B (zh) * | 2014-04-22 | 2017-02-15 | 南京影迹网络科技有限公司 | 一种基于运动匹配的视频自动标注方法及自动标注系统 |
US9390315B1 (en) * | 2015-06-25 | 2016-07-12 | A9.Com, Inc. | Image match for featureless objects |
CN107886104A (zh) * | 2016-09-30 | 2018-04-06 | 法乐第(北京)网络科技有限公司 | 一种图像的标注方法 |
CN108965687B (zh) | 2017-05-22 | 2021-01-29 | 阿里巴巴集团控股有限公司 | 拍摄方向识别方法、服务器及监控方法、系统及摄像设备 |
CN108012202B (zh) * | 2017-12-15 | 2020-02-14 | 浙江大华技术股份有限公司 | 视频浓缩方法、设备、计算机可读存储介质及计算机装置 |
CN108965852A (zh) * | 2018-08-14 | 2018-12-07 | 宁波工程学院 | 一种具有容错能力的半自动2d转3d的方法 |
CN109325967B (zh) * | 2018-09-14 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 目标跟踪方法、装置、介质以及设备 |
CN109753975B (zh) * | 2019-02-02 | 2021-03-09 | 杭州睿琪软件有限公司 | 一种训练样本获得方法、装置、电子设备和存储介质 |
CN110163095B (zh) * | 2019-04-16 | 2022-11-29 | 中国科学院深圳先进技术研究院 | 回环检测方法、回环检测装置及终端设备 |
CN110176027B (zh) * | 2019-05-27 | 2023-03-14 | 腾讯科技(深圳)有限公司 | 视频目标跟踪方法、装置、设备及存储介质 |
CN110503074B (zh) * | 2019-08-29 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 视频帧的信息标注方法、装置、设备及存储介质 |
-
2019
- 2019-08-29 CN CN201910807774.8A patent/CN110503074B/zh active Active
-
2020
- 2020-08-03 JP JP2021556971A patent/JP7147078B2/ja active Active
- 2020-08-03 EP EP20859548.8A patent/EP4009231A4/en active Pending
- 2020-08-03 WO PCT/CN2020/106575 patent/WO2021036699A1/zh unknown
-
2021
- 2021-09-13 US US17/473,940 patent/US11727688B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009539273A (ja) * | 2006-02-03 | 2009-11-12 | イーストマン コダック カンパニー | ビデオクリップからのキーフレーム候補の抽出 |
US20180137892A1 (en) * | 2016-11-16 | 2018-05-17 | Adobe Systems Incorporated | Robust tracking of objects in videos |
Non-Patent Citations (1)
Title |
---|
荻野 正 ほか: "機械学習を用いた動画の異常検出システムの検討", 電子情報通信学会技術研究報告, vol. 115, no. 353, JPN6022038371, 28 November 2015 (2015-11-28), JP, pages 5 - 10, ISSN: 0004871453 * |
Also Published As
Publication number | Publication date |
---|---|
EP4009231A4 (en) | 2022-11-23 |
EP4009231A1 (en) | 2022-06-08 |
US20210406553A1 (en) | 2021-12-30 |
WO2021036699A1 (zh) | 2021-03-04 |
US11727688B2 (en) | 2023-08-15 |
CN110503074A (zh) | 2019-11-26 |
JP7147078B2 (ja) | 2022-10-04 |
CN110503074B (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022526513A (ja) | ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム | |
JP7335274B2 (ja) | ジオロケーションの予測のためのシステムおよび方法 | |
US20210326597A1 (en) | Video processing method and apparatus, and electronic device and storage medium | |
WO2019223382A1 (zh) | 单目深度估计方法及其装置、设备和存储介质 | |
JP7273129B2 (ja) | 車線検出方法、装置、電子機器、記憶媒体及び車両 | |
CN111062263B (zh) | 手部姿态估计的方法、设备、计算机设备和存储介质 | |
CN111754541A (zh) | 目标跟踪方法、装置、设备及可读存储介质 | |
CN113377888B (zh) | 训练目标检测模型和检测目标的方法 | |
CN111104930B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN111259779A (zh) | 一种基于中心点轨迹预测的视频动作检测方法 | |
CN112464912B (zh) | 基于YOLO-RGGNet的机器人端人脸检测方法 | |
JP2023536025A (ja) | 路車協調における目標検出方法、装置及び路側機器 | |
CN112734931B (zh) | 一种辅助点云目标检测的方法及系统 | |
CN110705566A (zh) | 一种基于空间金字塔池的多模态融合显著性检测方法 | |
CN117425916A (zh) | 遮挡感知的多对象跟踪 | |
CN114742112A (zh) | 一种对象关联方法、装置及电子设备 | |
CN117576149A (zh) | 一种基于注意力机制的单目标跟踪方法 | |
JP2018120402A (ja) | イベント検出装置、イベント検出方法、プログラム | |
CN116052108A (zh) | 基于Transformer的交通场景小样本目标检测方法及装置 | |
CN114067371B (zh) | 一种跨模态行人轨迹生成式预测框架、方法和装置 | |
CN113610856B (zh) | 训练图像分割模型和图像分割的方法和装置 | |
CN115527083A (zh) | 图像标注方法、装置和电子设备 | |
Zhou et al. | A lightweight neural network for loop closure detection in indoor visual slam | |
CN115362478A (zh) | 用于标记图像之间的空间关系的强化学习模型 | |
Ge et al. | A visual tracking algorithm combining parallel network and dual attention-aware mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210922 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210922 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220912 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220921 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7147078 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |