JP2022534337A - ビデオターゲット追跡方法と装置、コンピュータ装置、プログラム - Google Patents

ビデオターゲット追跡方法と装置、コンピュータ装置、プログラム Download PDF

Info

Publication number
JP2022534337A
JP2022534337A JP2021537733A JP2021537733A JP2022534337A JP 2022534337 A JP2022534337 A JP 2022534337A JP 2021537733 A JP2021537733 A JP 2021537733A JP 2021537733 A JP2021537733 A JP 2021537733A JP 2022534337 A JP2022534337 A JP 2022534337A
Authority
JP
Japan
Prior art keywords
target
map
image frame
detection
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021537733A
Other languages
English (en)
Other versions
JP7236545B2 (ja
Inventor
ツォイ,ジェン
ジエ,ゼチュン
ウエイ,リ
シュイ,チュンイェン
ジャン,トォン
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2022534337A publication Critical patent/JP2022534337A/ja
Application granted granted Critical
Publication of JP7236545B2 publication Critical patent/JP7236545B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20156Automatic seed setting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20164Salient point detection; Corner detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

ビデオターゲット追跡方法、装置、コンピュータ装置及び記憶媒体である。前記方法は、検出対象ビデオにおけるターゲット画像フレームに対応する局所検出マップを取得するステップ(201)と、ターゲット画像フレームに対応する相対動き顕著性マップを取得するステップ(202)と、局所検出マップと相対動き顕著性マップとに基づいて、ターゲット画像フレームに対応する制約情報を決定するステップ(203)と、制約情報により画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得するステップ(204)と、調整された画像分割モデルにより、ターゲット画像フレームにおけるターゲットオブジェクトを抽出するステップ(205)と、を含む。【選択図】図2

Description

本願は、2019年05月27日に中国国家知識産権局に提出された、出願番号が2019104473793で、発明の名称が「ビデオターゲット追跡方法、装置、コンピュータ装置及び記憶媒体」である中国特許出願の優先権を主張するものであり、その全ての内容は参照により本願に組み込まれるものとする。
本願の実施態様は、画像識別の技術分野に関し、特にビデオターゲット追跡方法、装置、コンピュータ装置及び記憶媒体に関する。
ビデオターゲット追跡技術とは、ビデオに興味のあるターゲットオブジェクトを追跡し、ビデオの各画像フレームから該ターゲットオブジェクトを識別することを指す。
関連技術において、半教師あり学習に基づくビデオターゲット追跡方法を提供する。まず、複数のトレーニングサンプルにより画像分割モデルをトレーニングする。次に、検出対象ビデオの一番目の画像フレームを用いて、該画像分割モデルのパラメータを調整することにより、該画像分割モデルを該検出対象ビデオにおけるターゲットオブジェクトの抽出に適応させる。ここで、ターゲットオブジェクトの一番目の画像フレームにおける位置は手動でラベル付けされてもよい。その後、調整された画像分割モデルを利用し、該検出対象ビデオの後続の画像フレームからターゲットオブジェクトを識別する。
検出対象ビデオの一番目の画像フレームと後続の画像フレームとの間の見かけの差異が大きい場合、調整された画像分割モデルにより、後続の画像フレームからターゲットオブジェクトを正確に識別することができない。多くの場合、見かけ情報の変化に伴い、モデルの予測結果が不正確になる。
本願のさまざまな実施態様は、ビデオターゲット追跡方法、装置、コンピュータ装置及び記憶媒体を提供する。
コンピュータ装置が実行するビデオターゲット追跡方法は、
検出対象ビデオにおけるターゲット画像フレームに対応する局所検出マップを取得するステップであって、前記局所検出マップは、前記検出対象ビデオにおける、画像分割モデルにより追跡することが必要となるターゲットオブジェクトの見かけ情報に基づいて生成されるものである、ステップと、
前記ターゲット画像フレームに対応する相対動き顕著性マップを取得するステップであって、前記相対動き顕著性マップは、前記ターゲットオブジェクトの動き情報に基づいて生成されるものである、ステップと、
前記局所検出マップと前記相対動き顕著性マップとに基づいて、前記ターゲット画像フレームに対応する制約情報を決定するステップであって、前記制約情報に、前記ターゲット画像フレームにおける絶対正のサンプル画素、絶対負のサンプル画素及び不確定のサンプル画素が含まれる、ステップと、
前記制約情報により前記画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得するステップと、
前記調整された画像分割モデルにより、前記ターゲット画像フレームにおける前記ターゲットオブジェクトを抽出するステップと、を含む。
ビデオターゲット追跡装置は、
検出対象ビデオにおけるターゲット画像フレームに対応する局所検出マップを取得する検出マップ取得モジュールであって、前記局所検出マップは、前記検出対象ビデオにおける、画像分割モデルにより追跡することが必要となるターゲットオブジェクトの見かけ情報に基づいて生成されるものである、検出マップ取得モジュールと、
前記ターゲット画像フレームに対応する相対動き顕著性マップを取得する動きマップ取得モジュールであって、前記相対動き顕著性マップは、前記ターゲットオブジェクトの動き情報に基づいて生成されるものである、動きマップ取得モジュールと、
前記局所検出マップと前記相対動き顕著性マップとに基づいて、前記ターゲット画像フレームに対応する制約情報を決定する制約情報取得モジュールであって、前記制約情報に、前記ターゲット画像フレームにおける絶対正のサンプル画素、絶対負のサンプル画素及び不確定のサンプル画素が含まれる、制約情報取得モジュールと、
前記制約情報により前記画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得するモデル調整モジュールと、
前記調整された画像分割モデルにより、前記ターゲット画像フレームにおける前記ターゲットオブジェクトを抽出するターゲット分割モジュールと、を含む。
コンピュータ装置は、プロセッサと、前記プロセッサによりロードされて実行されると、上記ビデオターゲット追跡方法を実現する少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶されているメモリとを含む。
コンピュータ可読記憶媒体は、プロセッサによりロードされて実行されると、上記ビデオターゲット追跡方法を実現する少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶されている。
コンピュータプログラム製品は、実行されると、上記ビデオターゲット追跡方法が実行される。
本願の1つ以上の実施態様の詳細は、以下の図面及び説明において提供される。本願の他の特徴及び利点は、明細書、図面及び特許請求の範囲から明らかになる。
本願の実施態様における技術手段をより明確に説明するために、以下、実施態様の説明に必要な図面を簡単に説明するが、明らかに、以下の説明における図面は、本願のいくつかの実施態様に過ぎず、当業者であれば、創造的な労働をしない前提で、これらの図面に基づいて他の図面を得ることができる。
ビデオターゲット追跡の応用環境を例示的に示す概略図である。 ビデオターゲット追跡を例示的に示す概略図である。 本願の一実施態様に係るビデオターゲット追跡方法のフローチャートである。 本願の技術解決策の全体的なフローを例示的に示す概略図である。 ターゲット検出モデルのパラメータ調整プロセスを例示的に示す概略図である。 画像分割モデルを例示的に示すアーキテクチャ図である。 従来の方法及び本願の方法で抽出されたサンプルを例示的に示す概略図である。 本願の一実施態様に係るビデオターゲット追跡装置のブロック図である。 本願の別の実施態様に係るビデオターゲット追跡装置のブロック図である。 本願の一実施態様に係るコンピュータ装置の構成ブロック図である。
本願の目的、技術手段及び利点をより明確にするために、以下、図面を参照しながら本願の実施形態をさらに詳細に説明する。理解すべきこととして、本明細書に説明された具体的な実施態様は、本願を説明するためのものに過ぎず、本願を限定するものではない。
本願に係るビデオターゲット追跡方法は、図1aに示す応用環境に応用することができる。図1aに示すように、コンピュータ装置102とビデオ収集装置104との間でネットワークを介して通信する。
コンピュータ装置102は、ビデオ収集装置104から検出対象ビデオを取得し、検出対象ビデオにおけるターゲット画像フレームに対応する局所検出マップを取得することであって、局所検出マップは、検出対象ビデオにおける、画像分割モデルにより追跡することが必要となるターゲットオブジェクトの見かけ情報に基づいて生成され、画像分割モデルは、検出対象ビデオの画像フレームからターゲットオブジェクトを分割して抽出するニューラルネットワークモデルであることと、ターゲット画像フレームに対応する相対動き顕著性マップを取得することであって、相対動き顕著性マップは、ターゲットオブジェクトの動き情報に基づいて生成されるものであることと、局所検出マップと相対動き顕著性マップとに基づいて、ターゲット画像フレームに対応する制約情報を決定することであって、制約情報に、ターゲット画像フレームにおける絶対正のサンプル画素、絶対負のサンプル画素及び不確定のサンプル画素が含まれることと、制約情報により画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得することと、調整された画像分割モデルにより、ターゲット画像フレームにおけるターゲットオブジェクトを抽出することと、を実行することができる。
ここで、コンピュータ装置102は、独立したサーバ又は複数のサーバで構成されるサーバクラスタで実現されてよい。ビデオ収集装置104は、監視カメラ又はカメラを有する端末を含んでよい。
ビデオターゲット追跡技術は、様々な異なる応用シーンで運用することができる。例えば、セキュリティシーンで、監視ビデオ中の容疑者に対して追跡識別を行うことができる。また、例えば、ビデオ分析処理の応用シーンで、映画又はドラマから特定の人物を含む画像フレームを抽出することにより、該特定の人物のビデオフラグメントを統合することができる。
図1bに示すように、ビデオターゲット追跡の概略図を例示的に示す。図1bにビデオの複数の画像フレームが含まれており、それぞれ11、12、13及び14の符号を付す。該ビデオの各画像フレーム内の人物及び車両を追跡しようとすれば、画像分割モデルをトレーニングし、各画像フレームをそれぞれ該画像分割モデルに入力し、該画像分割モデルによりその中から人物及び車両を分割して抽出することができる。例えば、それぞれ人物と車両にマスクラベルを付けることにより、画像フレームに人物と車両をラベル付けすることができる。
本願の実施態様に係る方法において、各ステップの実行主体はコンピュータ装置である。コンピュータ装置は、計算、処理及び記憶能力を備える任意の電子機器であってもよい。例えば、コンピュータ装置は、PC(Personal Computer、パーソナルコンピュータ)又はサーバであってもよいし、例えば、携帯電話、タブレットコンピュータ、マルチメディア再生装置、ウェアラブル装置、スマートテレビなどの端末装置であってもよいし、無人航空機、車載端末などの他の装置であってもよく、本願の実施態様はこれを限定しない。
説明を容易にするために、下記の方法の実施態様において、各ステップの実行主体をコンピュータ装置として説明するが、これは限定されない。
図2は、本願の一実施態様に係るビデオターゲット追跡方法のフローチャートを示す。該方法は、以下のようなステップ(201~205)を含むことができる。
ステップ201では、検出対象ビデオにおけるターゲット画像フレームに対応する局所検出マップを取得する。
検出対象ビデオにおけるターゲットオブジェクトを追跡することが必要となる場合、1つの画像フレームを与え、該画像フレームにターゲットオブジェクトのマスクをラベル付けし、その後、画像分割モデルにより該検出対象ビデオの他の画像フレームから該ターゲットオブジェクトを分割して抽出することができる。ターゲットオブジェクトは、人であってもよいし、物であってもよく、本願の実施態様はこれを限定しない。任意選択で、検出対象ビデオの一番目の画像フレームにターゲットオブジェクトのマスクをラベル付けし、そして、画像分割モデルにより該検出対象ビデオの後続の画像フレームから該ターゲットオブジェクトを分割して抽出する。また、上記所定の画像フレーム(例えば、一番目の画像フレーム)にターゲットオブジェクトのマスクをラベル付けすることは、手動でラベリングするによって行われることができる。
ターゲット画像フレームは、検出対象ビデオにおける、ターゲットオブジェクトがラベル付けされていない任意の1つの画像フレームであってもよく、即ち、画像分割モデルによりターゲットオブジェクトを抽出することが必要となる画像フレームであってもよい。
局所検出マップは、追跡の必要があるターゲットオブジェクトの見かけ情報に基づいて生成されるものである。ここで、見かけ情報とは、視認可能な情報、例えば色、形状、テクスチャなどの情報を指す。例示的な実施態様において、ターゲット検出モデルによりターゲット画像フレームを処理して、該ターゲット画像フレームに対応する局所検出マップを取得する。ターゲット検出モデルは、畳み込みニューラルネットワークをトレーニングして得られたモデルであってもよい。局所検出マップのサイズは、ターゲット画像フレームのサイズと同じである。例えば、ターゲット画像フレームのサイズが800*600画素であれば、局所検出マップのサイズも800*600画素である。任意選択で、局所検出マップにおけるターゲット画素の値は、ターゲット画像フレームにおける該同じ位置でのターゲット画素がターゲットオブジェクトに属する確率を反映し、該確率はターゲット画素の表現情報に基づいて決定されるものである。
本願の実施態様において、画像分割モデルにより検出対象ビデオにおけるターゲットオブジェクトに対して追跡識別を行う。画像分割モデルは、検出対象ビデオの画像フレームからターゲットオブジェクトを分割して抽出するためのニューラルネットワークモデルであり、畳み込みニューラルネットワークに基づいて構築された深層学習モデルであってもよい。本願の実施態様において、画像分割モデルのターゲットオブジェクト追跡時の分割正確度を確保するために、該画像分割モデルに対してオンライン自己適応トレーニングを行い、該モデルのパラメータ(例えば、ニューラルネットワークの重み)を調整して、調整された画像分割モデルによりターゲットオブジェクトを分割する必要がある。
例示的な実施態様において、本ステップは、以下のようなサブステップ1~3を含んでもよい。
1.検出対象ビデオの既にラベル付けされた画像フレームから、少なくとも1つのトレーニングサンプルを選択する。
トレーニングサンプルは、ターゲット検出モデルをトレーニングすることにより、該ターゲット検出モデルのパラメータを調整して最適化する。トレーニングサンプルは、既にラベル付けされた画像フレーム及び該既にラベル付けされた画像フレームに対応する検出ターゲット枠を含む。既にラベル付けされた画像フレームとは、ターゲットオブジェクトのマスクが既にラベル付けされた画像フレームを指す。既にラベル付けされた画像フレームは、上記で説明したターゲットオブジェクトのマスクが手動でラベリングされた画像フレームを含んでもよいし、画像分割モデルによりターゲットオブジェクトのマスクがラベル付けされた画像フレームを含んでもよい。
既にラベル付けされた任意の1つの画像フレームは、複数の検出ターゲット枠に対応することができる。1つのトレーニングサンプルは、1つの既にラベル付けされた画像フレーム及びこの既にラベル付けされた画像フレームに対応する1つの検出ターゲット枠を含む。したがって、1つの既にラベル付けされた画像フレームから、複数のトレーニングサンプルを選択して取得することができる。検出ターゲット枠とは、ターゲットオブジェクトの割合(占有率)が所定の閾値よりも大きい画像領域を指す。ある既にラベル付けされた画像フレームに枠を追加すると仮定し、この枠内の画像領域において、一部がターゲットオブジェクトに属し、一部がターゲットオブジェクトに属しない可能性があり、ターゲットオブジェクトに属する部分のこの枠における画素の割合(占有率)を計算し、画素の割合が所定の閾値より大きければ、この枠を検出ターゲット枠として決定し、そうでなければ、この枠を検出ターゲット枠として決定しない。該所定の閾値は、実際の需要に応じて予め設定することができ、例示的に、該所定の閾値は0.5である。また、上記枠は、矩形であってもよいし、他の形状であってもよく、本願の実施態様はこれを限定しない。
例示的な実施態様において、以下のようにトレーニングサンプルを選択する。既にラベル付けされた画像フレームに枠をランダムに散布し、枠に占めるターゲットオブジェクトの割合を計算し、枠に占めるターゲットオブジェクトの割合が所定の閾値より大きければ、該枠を既にラベル付けされた画像フレームに対応する検出ターゲット枠として決定するとともに、該既にラベル付けされた画像フレームと該検出ターゲット枠とをトレーニングサンプルとして選択する。
2.トレーニングサンプルによりターゲット検出モデルのパラメータを調整して、調整されたターゲット検出モデルを取得する。
任意選択で、Faster-RCNNネットワークをターゲット検出モデルのフレームワークとして選択する。上記選択されたトレーニングサンプルにより該ターゲット検出モデルのパラメータ(例えば、ネットワーク重み)を微調整して、調整されたターゲット検出モデルを取得する。例示的に、トレーニングサンプルによりターゲット検出モデルのパラメータを調整するプロセスにおいて、バッチサイズ(batch size)は1であってもよく、600回り微調整し、また、枠のサイズ、アスペクト比などもトレーニングプロセスにおいて調整することができ、精度の高いターゲット検出モデルを最終的にトレーニングして得るようにする。
3.調整されたターゲット検出モデルによりターゲット画像フレームを処理して、局所検出マップを取得する。
ターゲット画像フレームを調整されたターゲット検出モデルに入力すると、該ターゲット画像フレームに対応する局所検出マップを取得することができる。
例示的な実施態様において、検出対象ビデオにおける1番目の画像フレーム内のターゲットオブジェクトのマスクは、手動でラベル付けされ、2番目の画像フレームから順にターゲットオブジェクトを分割して抽出する。検出対象ビデオにおけるi(iは1より大きい整数)番目の画像フレームに対応する局所検出マップを取得することが必要となる場合、1番目の画像フレーム及びi-1番目の画像フレームから少なくとも1つのトレーニングサンプルを選択し、該トレーニングサンプルにより現在のターゲット検出モデルのパラメータを調整して、調整されたターゲット検出モデルを取得し、次に該調整されたターゲット検出モデルによりi番目の画像フレームを処理して、該i番目の画像フレームに対応する局所検出マップを取得することができる。
ステップ202では、ターゲット画像フレームに対応する相対動き顕著性マップを取得する。
相対動き顕著性マップは、ターゲットオブジェクトの動き情報に基づいて生成されるものである。ターゲットオブジェクトの検出対象ビデオの各画像フレームにおける位置は、静止したままではなく、動く可能性がある。例えば、ターゲットオブジェクトは、人、動物、車両などの移動可能なオブジェクトである場合、検出対象ビデオの各画像フレームにおける位置が変化する。動き情報は、該ターゲットオブジェクトの動き状況、すなわち異なる画像フレームにおける位置変化状況を反映する。例示的な実施態様において、近接画像フレーム間のオプティカルフローを検出することにより、相対動き顕著性マップを決定し、該オプティカルフローはターゲットオブジェクトの動き情報を反映する。コンピュータビジョンの分野において、オプティカルフローとは、ビデオ画像における各画素点の経時的な動き状況を指す。オプティカルフローは、豊富な動き情報を有するため、動き推定、自動運転及び行動識別の面で広く応用される。相対動き顕著性マップは、ターゲット画像フレームとはサイズが同じである。例えば、ターゲット画像フレームのサイズが800*600画素であれば、相対動き顕著性マップのサイズも800*600画素である。任意選択で、相対動き顕著性マップにおけるターゲット画素の値は、ターゲット画像フレームにおける該同じ位置でのターゲット画素がターゲットオブジェクトに属する確率を反映し、該確率はターゲット画素の動き情報に基づいて決定されるものである。
例示的な実施態様において、本ステップは、以下のようなサブステップ1及び2を含んでもよい。
1.ターゲット画像フレームと近接画像フレームとの間のオプティカルフローを算出する。
近接画像フレームとは、検出対象ビデオにおける、ターゲット画像フレームと位置が近接する画像フレームを指す。近接画像フレームの数は1つであってもよいし、複数であってもよく、本願の実施態様はこれを限定しない。近接画像フレームは、先行画像フレームを含んでもよいし、後続画像フレームを含んでもよいし、先行画像フレームと後続画像フレームとの両方を含んでもよい。ここで、先行画像フレームとは、検出対象ビデオにおける、ターゲット画像フレームよりも前の画像フレームを指し、後続画像フレームとは、検出対象ビデオにおける、ターゲット画像フレームよりも後の画像フレームを指す。任意選択で、先行画像フレームは、ターゲット画像フレームの直前の画像フレームであり、後続画像フレームは、ターゲット画像フレームの直後の画像フレームである。例えば、ターゲット画像フレームがi番目の画像フレームであれば、先行画像フレームはi-1番目の画像フレームであり、後続画像フレームはi+1番目の画像フレームであり、iは1よりも大きい整数である。ターゲット画像フレームに対応するオプティカルフローを算出する場合、ターゲット画像フレームとその直前の画像フレームとの間のオプティカルフロー及び直後の画像フレームとの間のオプティカルフローを総合的に考慮すれば、効果はより高い。
任意選択で、ターゲット画像フレームと近接画像フレームとの間のオプティカルフローを算出するベースモデルとしてFlowNet2を用いる。FlowNet2は、CNN(Convolutional Neural Networks、畳み込みニューラルネットワーク)を利用してオプティカルフローを抽出するモデルであり、速度が速く、精度が高いなどの利点を有する。
2.オプティカルフローに基づいて相対動き顕著性マップを生成する。
上記ステップによりターゲット画像フレームに対応するオプティカルフローを取得した後、該オプティカルフローに基づいてターゲット画像フレームに対応する相対動き顕著性マップを生成する。
例示的な実施態様において、以下のような方式2.1及び2.2で相対動き顕著性マップを生成する。
2.1、局所検出マップにおける背景領域のオプティカルフローに基づいて、背景オプティカルフローを決定する。
ここで、局所検出マップにおける背景領域とは、局所検出マップにおいて検出されたターゲットオブジェクトの所在する領域以外の残りの領域を指す。ターゲット検出モデルから出力されたターゲット画像フレームに対応する局所検出マップに基づいて、ターゲットオブジェクトの所在する領域及び背景領域を決定することができる。任意選択で、背景領域における各画素のオプティカルフローの平均値を背景オプティカルフローとする。
2.2、背景オプティカルフロー及びターゲット画像フレームに対応するオプティカルフローに基づいて、ターゲット画像フレームに対応する相対動き顕著性マップを生成する。
例示的な実施態様において、RMS(Root Mean Square、二乗平均平方根)により各画素のオプティカルフローと背景オプティカルフローとの間の差分を算出して、ターゲット画像フレームに対応する相対動き顕著性マップを取得する。任意選択で、二乗平均平方根値をより安定させるために、絶対オプティカルフローの2-ノルムを増加させ、2つの部分の割合を1:1にさせ、すなわち以下の式で相対動き顕著性マップにおける画素(m,n)の値RMSm,nを算出することができる。
Figure 2022534337000002
ただし、Om,nは画素(m,n)のオプティカルフローであり、ψは背景オプティカルフローである。
ステップ203では、局所検出マップと相対動き顕著性マップとに基づいて、ターゲット画像フレームに対応する制約情報を決定する。
制約情報は、ターゲット画像フレームにおける絶対正のサンプル画素、絶対負のサンプル画素及び不確定のサンプル画素を含む。ここで、絶対正のサンプル画素とは、ターゲット画像フレームにおいて、上記見かけ情報及び動き情報に基づいて決定された、ターゲットオブジェクトに属する画素を指す。絶対負のサンプル画素とは、ターゲット画像フレームにおいて、上記見かけ情報及び動き情報に基づいて決定された、ターゲットオブジェクトに属さない画素を指す。不確定のサンプル画素とは、ターゲット画像フレームにおいて、上記見かけ情報及び動き情報に基づいて、ターゲットオブジェクトに属するか否かを決定できない画素を指す。本願の実施態様において、制約情報は制約フローとも呼ばれる。
任意選択で、ターゲット画像フレームにおけるターゲット画素について、ターゲット画素の局所検出マップにおける値が第1の所定の条件を満たし、かつターゲット画素の相対動き顕著性マップにおける値が第2の所定の条件を満たせば、ターゲット画素が絶対正のサンプル画素であると決定し、ターゲット画素の局所検出マップにおける値が第1の所定の条件を満たさず、かつターゲット画素の相対動き顕著性マップにおける値が第2の所定の条件を満たさなければ、ターゲット画素が絶対負のサンプル画素であると決定し、ターゲット画素の局所検出マップにおける値が第1の所定の条件を満たし、かつターゲット画素の相対動き顕著性マップにおける値が第2の所定の条件を満たさないか、又は、ターゲット画素の局所検出マップにおける値が第1の所定の条件を満たさず、かつターゲット画素の相対動き顕著性マップにおける値が第2の所定の条件を満たせば、ターゲット画素が不確定のサンプル画素であると決定する。ここで、第1の所定の条件及び第2の所定の条件は、実際の状況に応じて予め設定されてもよい。
一例において、第1の所定の条件は、第1の閾値よりも大きいことであり、第2の所定の条件は、第2の閾値よりも大きいことである。例示的に、第1の閾値は0.7であり、第2の閾値は0.5である。該第1の閾値及び第2の閾値は実際の状況に応じて予め設定されてもよく、上記は例示的なものに過ぎない。
ステップ204では、制約情報により画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得する。
ターゲット画像フレームに対応する制約情報を取得した後、該制約情報を利用して画像分割モデルに対して適応学習を行い、そのパラメータを微調整して、ターゲット画像フレームからターゲットオブジェクトを分割して抽出する時の正確度を向上させることができる。
例示的な実施態様において、画像分割モデルの正確度をさらに向上させるために、絶対正のサンプル画素及び絶対負のサンプル画素を採用して、画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得する。すなわち、画像分割モデルのパラメータを調整する際に、絶対正のサンプル画素及び絶対負のサンプル画素のみを採用し、不確定のサンプル画素を考慮しない。
任意選択で、画像分割モデルの損失関数はクロスエントロピー損失関数とすることができ、その表現式は以下のとおりである。
Figure 2022534337000003
ただし、Lは損失関数の値を示し、xはターゲット画像フレームであり、Yはターゲット画像フレームxの画素レベルの制約情報であり、Y及びYはそれぞれ絶対正のサンプル画素及び絶対負のサンプル画素であり、P(□)は画像分割モデルのターゲット画像フレームxに対する予測結果である。該損失関数の表現式は、不確定のサンプル画素の損失を算出しない点で従来の損失関数の表現式と異なる。このようにして、信頼できない領域を無視し、信頼領域をよりよく学習することができる。
ステップ205では、調整された画像分割モデルにより、ターゲット画像フレームにおけるターゲットオブジェクトを抽出する。
調整された画像分割モデルを取得した後、該ターゲット画像フレームを調整された画像分割モデルに入力し、該ターゲット画像フレームにおけるターゲットオブジェクトを分割して抽出する。
なお、画像分割モデルは、1画像フレームごとに適応調整トレーニングを1回行ってもよいし、複数の画像フレーム(例えば、5つの画像フレーム)ごとに適応調整トレーニングを1回行ってもよい。近接画像フレームにおけるターゲットオブジェクトの位置変化が小さいことを考慮するため、画像分割モデルは、複数の画像フレームごとに適応調整トレーニングを1回行い、モデル精度が損なわれることをできるだけ回避する前提で、計算量を減少させ、ビデオ全体に対する処理効率を向上させることができる。また、1回の適応調整トレーニングについては、1回り(ラウンド)トレーニングしてもよいし、複数の回り(例えば、3回り)トレーニングしてもよく、本願の実施態様はこれを限定しない。
本願の実施態様において、制約情報により画像分割モデルのパラメータを調整し、制約情報がターゲットオブジェクトの見かけ情報及び動き情報を統合するため、一方では検出対象ビデオ内のターゲットオブジェクトの異なる画像フレームにおける見かけ差異が大きいという問題を解消することができ、他方では適応学習プロセスにおける誤差伝播を減少させることができ、また、この2つの部分の相補により、毎回のモデルパラメータの更新のためのより正確な指導を生成し、モデルパラメータの調整プロセスをよりよく制約することができる。
図3は、本願の技術解決策の全体的なフローの概略図を例示的に示す。検出対象ビデオにおけるターゲット画像フレームを分割することを例として、ターゲット検出モデルによりターゲット画像フレームに対応する検出ターゲット枠を抽出し、さらに局所検出マップを取得し、オプティカルフローモデルによりターゲット画像フレームに対応するオプティカルフローを抽出するとともに、ターゲット画像フレームに対応する相対動き顕著性マップをさらに算出し、局所検出マップと相対動き顕著性マップとを融合して、制約情報を取得する。該制約情報及び損失関数により、画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得する。最後に、該調整された画像分割モデルにより、ターゲット画像フレームにおけるターゲットオブジェクトを抽出する。画像分割モデルは、特徴抽出器、空間膨張畳み込みモジュール、逆畳み込みアップサンプリングモジュールなどの構成部分を含んでよい。画像分割モデルの具体的な構造については、以下の実施態様の説明を参照することができる。
また、図4に示すように、ターゲット検出モデルのパラメータ調整プロセスの概略図を例示的に示している。既にラベル付けされた画像フレームにおいて枠をランダムに選択し、枠に占めるターゲットオブジェクトの割合を算出し、該割合に基づいてターゲット検出モデルのトレーニングサンプルを選択する。トレーニングサンプルによりターゲット検出モデルのパラメータを微調整して、調整されたターゲット検出モデルを取得する。その後、ターゲット画像フレームを調整されたターゲット検出モデルに入力して、該ターゲット画像フレームに対応する局所検出マップを取得する。
以上説明したように、本願の実施態様に係る技術解決策において、制約情報により画像分割モデルのパラメータを調整し、制約情報がターゲットオブジェクトの見かけ情報及び動き情報の2つの要因を統合して得られたものであるため、一方では検出対象ビデオ内のターゲットオブジェクトの異なる画像フレームにおける見かけ差異が大きいという問題を解消することができ、他方では適応学習プロセスにおける誤差伝播を減少させることができ、また、この2つの部分の相補により、毎回のモデルパラメータの更新のためのより正確な指導を生成することで、モデルパラメータの調整プロセスをよりよく制約することができ、パラメータ調整された画像分割モデルの性能にさらに優れ、最終的にターゲット画像フレームから分割して抽出されたターゲットオブジェクトの正確度がより高いようにする。
また、前後の画像フレーム間のオプティカルフローを算出して、ターゲットオブジェクトの前後の画像フレームにおける動き情報を体現することにより、動き情報をより正確に特徴付けることができる。
また、制約情報により画像分割モデルのパラメータを調整する場合、絶対正のサンプル画素及び絶対負のサンプル画素の損失のみを考慮し、不確定のサンプル画素の損失を排除し、画像分割モデルの正確度をさらに向上させることに役立つ。
例示的な実施態様において、画像分割モデルのプリトレーニングプロセスは以下のとおりである。
1.初期の画像分割モデルを構築する。
2.第1のサンプルセットを用いて初期の画像分割モデルに初期トレーニングを行って、初期トレーニングされた画像分割モデルを取得する。
3.第2のサンプルセットを用いて、初期トレーニングされた画像分割モデルに再トレーニングを行って、プリトレーニング済みの画像分割モデルを取得する。
初期の画像分割モデルは、エンドツーエンドのトレーニング可能な畳み込みニューラルネットワークであってもよく、その入力は1つの画像であり、その出力は該画像内のターゲットのマスクである。一例において、Deeplab V3+をエンドツーエンドのトレーニング可能な畳み込みニューラルネットワークとして選択し、ネットワークは、入力された3チャネルのピクチャ情報を取得した後、同等の大きさの予測マスクパターンを返すことができる。図5に示すように、画像分割モデルのアーキテクチャ図を例示的に示す。最初に、ResNet畳み込みニューラルネットワークを基礎特徴抽出器として使用し、第五層のResNetモデルの後にASPP(Atrous Spatial Pyramid Pooling、Atrous空間ピラミッドプール化)モジュールを追加し、異なるスケールの膨張畳み込み(Atrous Convolution)を運用して処理し、特徴を出力し、第三層のResNetモデルにより抽出された特徴を融合し、これにより、各スケールでの分割予測結果をよりよく回復し、さらに逆畳み込み又はアップサンプリングにより、ネットワークで学習した特徴を高解像度に返すことにより、画像分割モデルの正確率を効果的に向上させることができる。ビデオの各フレームに対し、ネットワークは対応するスケールの応答マップを1枚出力し、この応答マップは分割の確率予測結果である。ResNetネットワークの深さの増加に伴い、対応する特徴抽出能力も増加し、ネットワークモデルのパラメータも同様に増加し、トレーニング時間も増加する。本願の実施態様は、ResNet 101ネットワークをDeeplab V3+特徴抽出器の基礎ネットワークとして選択する。基礎畳み込みニューラルネットワークの後に、ASPPモジュールを接続するとともに、第三層のResNetモデルにより抽出された特徴を導入して、逆畳み込みプロセス及び2つの逆畳み込みのアップサンプリングモジュールに入れることにより、高解像度の分割結果予測マップを取得する。
第1のサンプルセットに少なくとも1つのラベル付きのピクチャが含まれ、第2のサンプルセットに少なくとも1つのラベル付きのビデオが含まれる。例示的に、Pascal VOCデータベースを第1のサンプルセットとして選択し、Pascal VOCデータベースは、2913個の画素レベルでラベル付けされた画像分割データを有する。画像のセマンティックセグメンテーションを学習することにより、画像分割モデルをよりよくトレーニングすることができる。初期トレーニングは、バッチサイズが4で、8000回りトレーニングすることができる。例示的に、DAVIS 16データベースを第2のサンプルセットとして選択し、画像分割モデルをターゲット分割タスクに適応させる。DAVIS 16データベースは、50個の画素レベルでラベル付けされたビデオ、合計3455フレームを有し、そのうちの30個がトレーニングに用いられ、20個がテストに用いられる。任意選択で、画像分割モデルをトレーニングするプロセスにおいて、サンプルにデータ拡張を行い、例えば元画像を複数の異なるスケールに拡張し、例えば元画像のサイズを0.8倍、1.2倍及び1.6倍スケーリングすることにより、画像分割モデルを異なるスケールの画像に対応させることができる。任意選択で、初期学習率を0.001とし、各バッチで4個のサンプルを学習し、2400回りごとに元の学習率の1/10に低下させ、合計で6000回りトレーニングして、最終的にプリトレーニング済みの画像分割モデルを取得する。
なお、上記画像分割モデルのプリトレーニングプロセスは、上記説明したビデオターゲット追跡方法を実行するコンピュータ装置において実行されてもよいし、該コンピュータ装置以外の他の装置において実行されてもよく、その後に他の装置はプリトレーニング済みの画像分割モデルをコンピュータ装置に提供し、該コンピュータ装置は該プリトレーニング済みの画像分割モデルにより上記ビデオターゲット追跡方法を実行する。画像分割モデルのプリトレーニングプロセスがコンピュータ装置又は他の装置で実行されるかに関わらず、コンピュータ装置は、検出対象ビデオにビデオターゲット追跡を行う時、該検出対象ビデオを用いてプリトレーニング済みの画像分割モデルのパラメータに適応学習及び調整を行う必要があり、これにより、該画像分割モデルは、各フレームに対して正確な分割結果を出力することができる。
従来のオンライン自己適応のビデオターゲット追跡方法では、フレームごとに画像分割モデルに適応トレーニングプロセスを1回行い、モデルパラメータの調整を学習し、調整の根拠は直前のフレームの予測結果である。例えば、直前のフレームの予測結果に対してエロージョンアルゴリズムを用いて絶対正のサンプル画素を生成し、さらに絶対正のサンプルから一定のユークリッド距離以外の画素を絶対負のサンプル画素として設定し、このような制約条件によりモデルパラメータの調整を指導し、最後に調整された画像分割モデルにより検出対象のターゲット画像フレームの分割結果を予測する。
本願の実施態様に係る方法に比べて、従来の方法は前のフレームの正確性により多く依存し、より粗くなり、詳細情報を取得しにくいのに対して、本願の実施態様に係る方法は、動き情報及び見かけ情報をよりよく考慮することにより、適応学習プロセスを監督し、さらに局所詳細をよりよく保持することができる。本願の実施態様に係る方法を採用すれば、適応学習プロセスにおいてラベル付けされた絶対正のサンプル画素及び絶対負のサンプル画素はより正確で確実であり、不確定のサンプル画素の数はより少ない。図6に示すように、本願の実施態様に係る方法で、適応学習プロセスにおいてラベル付けされた絶対正のサンプル画素、絶対負のサンプル画素及び不確定のサンプル画素の概略図を例示的に示し、図6の白色領域61における画素は、絶対正のサンプル画素であり、黒色領域62における画素は、絶対負のサンプル画素であり、灰色領域63における画素は、不確定のサンプル画素である。図6から分かるように、不確定のサンプル画素は割合が少なく、より正確で確実なエッジを有する。
実験により、本願の実施態様に係る方法を用いた制約情報の正確度を以下の表-1に示す。
Figure 2022534337000004
上記表-1から分かるように、本願の実施態様に係る方法で得られた制約情報を採用する場合、正と負のサンプルの正確率が高いだけでなく、不確定サンプルの割合が少ないため、本願の実施態様に係る方法の有効性を証明することができる。特にマスク伝播に適しないビデオシーケンスの場合、すなわち追跡しようとするターゲットオブジェクトが動いているオブジェクトである場合、本願の実施態様に係る方法で得られた結果はより目立つ。また、ターゲットオブジェクトの見かけがはっきりし、特徴が明らかである分割問題について、本願の実施態様に係る方法は、非常に正確な結果が得られる。
本願の実施態様に係る方法は、ビデオターゲット分割の精度を顕著に向上させ、ターゲットオブジェクトの動き情報と見かけ情報との融合をよりよく考慮し、ビデオターゲット分割における遮蔽、外観変化が大きく、背景が乱雑であるなどの特殊な状況に対して、モデルの適応学習プロセスに効果的な制約を行い、かつ導入された最適化後の損失関数によりモデルの学習プロセスを制約し、ビデオにおけるターゲット分割の正確率の向上を実現することができる。
なお、図2のフローチャートの各ステップは、矢印の指した順序で示されているが、これらのステップは、必ずしも矢印の指した順序で実行されるものではない。本明細書で明確に説明しない限り、これらのステップの実行は、厳密な順序に限定されず、他の順序で実行されてもよい。さらに、図2における少なくとも一部のステップは、複数のサブステップ又は複数の段階を含んでもよく、これらのサブステップ又は段階は、必ずしも同じ時刻で実行されるものではなく、異なる時刻で実行されてもよいものであり、これらのサブステップ又は段階の実行順序も、必ずしも順次行われるものではなく、その他のステップ又はその他のステップのサブステップ或いは段階の少なくとも一部と順番に又は交互に実行されてもよいものである。
以下、本願の方法の実施態様を実行することができる本願の装置の実施態様である。本願の装置の実施態様に開示されない詳細について、本願の方法の実施態様を参照する。
図7は、本願の一実施態様に係るビデオターゲット追跡装置のブロック図を示す。該装置は、上記方法の例を実現する機能を有し、上記機能は、ハードウェアによって実現されてもよいし、ハードウェアによって対応するソフトウェアを実行することにより実現されてもよい。該装置は、コンピュータ装置であってもよいし、コンピュータ装置に設けられたものであってもよい。該装置700は、検出マップ取得モジュール710、動きマップ取得モジュール720、制約情報取得モジュール730、モデル調整モジュール740及びターゲット分割モジュール750を含むことができる。
検出マップ取得モジュール710は、検出対象ビデオにおけるターゲット画像フレームに対応する局所検出マップを取得し、上記局所検出マップは、上記検出対象ビデオにおける、画像分割モデルにより追跡することが必要となるターゲットオブジェクトの見かけ情報に基づいて生成されるものであり、上記画像分割モデルは、上記検出対象ビデオの画像フレームから上記ターゲットオブジェクトを分割して抽出するためのニューラルネットワークモデルである。
動きマップ取得モジュール720は、上記ターゲット画像フレームに対応する相対動き顕著性マップを取得し、上記相対動き顕著性マップは、上記ターゲットオブジェクトの動き情報に基づいて生成されるものである。
制約情報取得モジュール730は、上記局所検出マップと上記相対動き顕著性マップとに基づいて、上記ターゲット画像フレームに対応する制約情報を決定し、上記制約情報に、上記ターゲット画像フレームにおける絶対正のサンプル画素、絶対負のサンプル画素及び不確定のサンプル画素が含まれる。
モデル調整モジュール740は、上記制約情報により画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得する。
ターゲット分割モジュール750は、上記調整された画像分割モデルにより、上記ターゲット画像フレームにおける上記ターゲットオブジェクトを抽出する。
以上説明したように、本願の実施態様に係る技術解決策において、制約情報により画像分割モデルのパラメータを調整し、制約情報がターゲットオブジェクトの見かけ情報及び動き情報の2つの要因を統合して得られたものであるため、一方では検出対象ビデオ内のターゲットオブジェクトの異なる画像フレームにおける見かけ差異が大きいという問題を解消することができ、他方では適応学習プロセスにおける誤差伝播を減少させることができ、同時に、この2つの部分の相補により、毎回のモデルパラメータの更新のためのより正確な指導を生成することで、モデルパラメータの調整プロセスをよりよく制約することができ、パラメータ調整された画像分割モデルの性能にさらに優れ、最終的にターゲット画像フレームから分割して抽出されたターゲットオブジェクトの正確度がより高いようにする。
例示的な実施態様において、図8に示すように、上記検出マップ取得モジュール710は、サンプル選択サブモジュール711、モデル調整サブモジュール712及び検出マップ取得サブモジュール713を含む。
サンプル選択サブモジュール711は、上記検出対象ビデオの既にラベル付けされた画像フレームから、少なくとも1つのトレーニングサンプルを選択し、上記トレーニングサンプルには、上記既にラベル付けされた画像フレームと、上記既にラベル付けされた画像フレームに対応する検出ターゲット枠とが含まれ、上記検出ターゲット枠とは、上記ターゲットオブジェクトの割合が所定の閾値よりも大きい画像領域を指す。
モデル調整サブモジュール712は、上記トレーニングサンプルによりターゲット検出モデルのパラメータを調整し、調整されたターゲット検出モデルを取得する。
検出マップ取得サブモジュール713は、上記調整されたターゲット検出モデルにより上記ターゲット画像フレームを処理して、上記局所検出マップを取得する。
例示的な実施態様において、上記サンプル選択サブモジュール711は、
上記既にラベル付けされた画像フレームに枠をランダムに散布し、
上記枠に占める上記ターゲットオブジェクトの割合を算出し、
上記枠に占める上記ターゲットオブジェクトの割合が上記所定の閾値よりも大きければ、上記枠を上記既にラベル付けされた画像フレームに対応する検出ターゲット枠として決定するとともに、上記既にラベル付けされた画像フレームと上記検出ターゲット枠とを上記トレーニングサンプルとして選択する。
例示的な実施態様において、図8に示すように、上記動きマップ取得モジュール720は、オプティカルフロー算出サブモジュール721及び動きマップ取得サブモジュール722を含む。
オプティカルフロー算出サブモジュール721は、上記ターゲット画像フレームと近接画像フレームとの間のオプティカルフローを算出する。
動きマップ取得サブモジュール722は、上記オプティカルフローに基づいて上記相対動き顕著性マップを生成する。
例示的な実施態様において、上記動きマップ取得サブモジュール722は、
上記局所検出マップにおける背景領域のオプティカルフローに基づいて、背景オプティカルフローを決定し、上記局所検出マップにおける背景領域とは、上記局所検出マップにおいて検出された上記ターゲットオブジェクトの所在する領域以外の残りの領域であり、
上記背景オプティカルフロー及び上記ターゲット画像フレームに対応する上記オプティカルフローに基づいて、上記相対動き顕著性マップを生成する。
例示的な実施態様において、上記制約情報取得モジュール730は、
上記ターゲット画像フレームにおけるターゲット画素について、
上記ターゲット画素の上記局所検出マップにおける値が第1の所定の条件を満たし、かつ上記ターゲット画素の上記相対動き顕著性マップにおける値が第2の所定の条件を満たす場合、上記ターゲット画素が上記絶対正のサンプル画素であると決定し、
上記ターゲット画素の上記局所検出マップにおける値が上記第1の所定の条件を満たさず、かつ上記ターゲット画素の上記相対動き顕著性マップにおける値が上記第2の所定の条件を満たさない場合、上記ターゲット画素が上記絶対負のサンプル画素であると決定し、
上記ターゲット画素の上記局所検出マップにおける値が上記第1の所定の条件を満たし、かつ上記ターゲット画素の上記相対動き顕著性マップにおける値が上記第2の所定の条件を満たさないか、又は、上記ターゲット画素の上記局所検出マップにおける値が上記第1の所定の条件を満たさず、かつ上記ターゲット画素の上記相対動き顕著性マップにおける値が上記第2の所定の条件を満たす場合、上記ターゲット画素が上記不確定のサンプル画素であると決定する。
例示的な実施態様において、上記モデル調整モジュール740は、上記絶対正のサンプル画素と上記絶対負のサンプル画素とを用いて上記画像分割モデルを再トレーニングし、上記調整された画像分割モデルを取得する。
例示的な実施態様において、上記画像分割モデルのプリトレーニングプロセスは以下のとおりである。
初期の画像分割モデルを構築し、
少なくとも1つのラベル付きのピクチャが含まれる第1のサンプルセットを用いて上記初期の画像分割モデルに初期トレーニングを行い、初期トレーニングされた画像分割モデルを取得し、
少なくとも1つのラベル付きのビデオが含まれる第2のサンプルセットを用いて上記初期トレーニングされた画像分割モデルに再トレーニングを行い、プリトレーニング済みの画像分割モデルを取得する。
なお、上記実施態様に係る装置は、その機能を実現する場合に、上記各機能モジュールの区分のみを例として説明し、実際の応用において、必要に応じて上記機能を割り当てて異なる機能モジュールにより完了し、つまり、装置の内部構成を異なる機能モジュールに分割して、以上に説明した全て又は一部の機能を完了することができる。また、上記実施態様に係る装置と方法は、同じ構想に属し、それらの具体的な実現プロセスの詳細について、方法の実施態様を参照すればよいため、ここでは説明を省略する。
図9は、本願の一実施態様に係るコンピュータ装置900の構成ブロック図を示す。該コンピュータ装置900は、携帯電話、タブレットコンピュータ、電子ブックリーダ装置、ウェアラブル装置、スマートテレビ、マルチメディア再生装置、PC、サーバなどであってもよい。
一般的に、端末900は、プロセッサ901及びメモリ902を含む。
プロセッサ901は、例えば、4コアプロセッサ、8コアプロセッサなどの1つ以上の処理コアを含んでよい。プロセッサ901は、DSP(Digital Signal Processing、デジタル信号処理)、FPGA(Field Programmable Gate Array、フィールドプログラマブルゲートアレイ)、PLA(Programmable Logic Array、プログラマブルロジックアレイ)のうちの少なくとも1つのハードウェアの形態で実現されてよい。プロセッサ901は、アウェイク状態でのデータを処理するためのプロセッサであり、CPU(Central Processing Unit、中央処理装置)とも呼ばれるホストプロセッサと、スタンバイ状態でのデータを処理するための低消費電力プロセッサであるコプロセッサとを含んでもよい。一部の実施態様において、プロセッサ901には、ディスプレイに表示されるコンテンツのレンダリング及びプロットを担当するためのGPU(Graphics Processing Unit、画像処理装置)が集積されてよい。一部の実施態様において、プロセッサ901は、機械学習に関する運算操作を処理するためのAI(Artificial Intelligence、人工知能)プロセッサをさらに含んでもよい。
メモリ902は、非一時的であってもよい1つ以上のコンピュータ可読記憶媒体を含んでもよい。メモリ902は、高速ランダムアクセスメモリ及び1つ以上の磁気ディスク記憶装置、フラッシュメモリ記憶装置のような不揮発性メモリをさらに含んでよい。一部の実施態様において、メモリ902の非一時的コンピュータ可読記憶媒体は、プロセッサ901によって実行されると、本願における方法の実施態様に係るビデオターゲット追跡方法が実現されるコンピュータプログラムを記憶する。
一部の実施態様において、端末900は、周辺機器インタフェース903及び少なくとも1つの周辺機器をさらに含んでもよい。プロセッサ901と、メモリ902と、周辺機器インタフェース903とは、バス又は信号線を介して接続することができる。各周辺機器は、バス、信号線又は回路基板を介して周辺機器インタフェース903に接続することができる。具体的には、周辺機器は、無線周波数回路904、ディスプレイ905、カメラコンポーネント906、オーディオ回路907、測位コンポーネント908及び電源909のうちの少なくとも1つを含んでよい。
当業者であれば理解できるように、上記方法の実施態様の全部又は一部の流れは、コンピュータプログラムから関連のハードウェアへ指示することにより実現されてもよく、上記プログラムは不揮発性コンピュータ可読記憶媒体に記憶されることができ、このプログラムが実行されると、上記のような各方法の実施態様の手順を実行させることができる。ここで、本願で提供された各実施態様に用いられる、メモリ、ストレージ、データベース、又は他の媒体へのいかなる引用でも、不揮発性及び/又は揮発性メモリを含んでもよい。不揮発性メモリは、読み出し専用メモリ(ROM)、プログラマブルROM(PROM)、電気的プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、又はフラッシュメモリを含んでもよい。揮発性メモリは、ランダムアクセスメモリ(RAM)、又は外部キャッシュを含んでもよい。限定ではなく例示として、RAMは、例えば、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、シンクロナスDRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、エンハンスドSDRAM(ESDRAM)、シンクリンク(Synchlink)DRAM(SLDRAM)、ダイレクト・ラムバス(Rambus)RAM(RDRAM)、ダイレクト・ラムバス・ダイナミックRAM(DRDRAM)、及びラムバス・ダイナミックRAM(RDRAM)などの多くの形態で利用可能である。
当業者が理解できるように、図9に示す構成は、端末900を限定するものではなく、図示より多い又は少ないコンポーネントを含んでもよいし、一部のコンポーネントを組み合わせてもよいし、異なるコンポーネントの配置を用いてもよい。
例示的な実施態様において、プロセッサと、少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶されているメモリとを含むコンピュータ装置を提供する。上記少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットは、1つ以上のプロセッサによって実行されると、上記ビデオターゲット追跡方法が実現されるように構成される。
例示的な実施態様において、コンピュータ装置のプロセッサによって実行されると、上記ビデオターゲット追跡方法が実現される少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶されているコンピュータ可読記憶媒体をさらに提供する。
任意選択で、上記コンピュータ可読記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピーディスク及び光データ記憶装置などであってもよい。
例示的な実施態様において、実行されると、上記ビデオターゲット追跡方法が実現されるコンピュータプログラム製品をさらに提供する。
理解すべきこととして、本明細書に説明されたステップ番号は、単にステップ間の一つの可能な実行順序を例示的に示し、他の実施態様において、上記ステップを番号順序に応じて実行しなくてもよく、例えば、2つの異なる番号のステップを同時に実行するか、又は2つの異なる番号のステップを図示と逆の順序に応じて実行し、本願の実施態様はこれを限定しない。
当業者であれば理解できるように、上記実施態様の全部又は一部のステップの実現はハードウェアにより完了してもよいし、プログラムから関連するハードウェアへ命令することにより完了してもよく、上記プログラムはコンピュータ可読記憶媒体に記憶されることができ、上述した記憶媒体はリードオンリーメモリ、磁気ディスク、又は光ディスクなどであってもよい。
以上の実施態様の各技術的特徴を任意に組み合わせることができ、説明の便宜上、上記実施態様における各技術的特徴の全ての可能な組み合わせを説明していないが、これらの技術的特徴の組み合わせに矛盾がない限り、本明細書に記載されている範囲に属すると考えられるべきである。以上の実施態様は、本願のいくつかの実施形態を説明したものに過ぎず、その説明が具体的かつ詳細であるが、これにより本願の特許範囲への限定と理解されるわけにはいかない。なお、当業者であれば、本願の構想から逸脱しない前提で、変形及び改良を行うことができ、これらも本発明の保護範囲に属する。それゆえ、本願の特許保護範囲は、添付の特許請求の範囲に従うべきである。

Claims (15)

  1. コンピュータ装置が実行するビデオターゲット追跡方法であって、
    検出対象ビデオにおけるターゲット画像フレームに対応する局所検出マップを取得するステップであって、前記局所検出マップは、前記検出対象ビデオにおける、画像分割モデルにより追跡することが必要となるターゲットオブジェクトの見かけ情報に基づいて生成されるものである、ステップと、
    前記ターゲット画像フレームに対応する相対動き顕著性マップを取得するステップであって、前記相対動き顕著性マップは、前記ターゲットオブジェクトの動き情報に基づいて生成されるものである、ステップと、
    前記局所検出マップと前記相対動き顕著性マップとに基づいて、前記ターゲット画像フレームに対応する制約情報を決定するステップであって、前記制約情報に、前記ターゲット画像フレームにおける絶対正のサンプル画素、絶対負のサンプル画素及び不確定のサンプル画素が含まれる、ステップと、
    前記制約情報により前記画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得するステップと、
    前記調整された画像分割モデルにより、前記ターゲット画像フレームにおける前記ターゲットオブジェクトを抽出するステップと、を含むことを特徴とする方法。
  2. 検出対象ビデオにおけるターゲット画像フレームに対応する局所検出マップを取得する前記ステップは、
    前記検出対象ビデオの既にラベル付けされた画像フレームから、少なくとも1つのトレーニングサンプルを選択するステップであって、前記トレーニングサンプルには、前記既にラベル付けされた画像フレームと、前記既にラベル付けされた画像フレームに対応する検出ターゲット枠とが含まれ、前記検出ターゲット枠とは、前記検出ターゲット枠に占める前記ターゲットオブジェクトの割合が所定の閾値よりも大きい画像領域を指す、ステップと、
    前記トレーニングサンプルによりターゲット検出モデルのパラメータを調整し、調整されたターゲット検出モデルを取得するステップと、
    前記調整されたターゲット検出モデルにより前記ターゲット画像フレームを処理し、前記局所検出マップを取得するステップと、を含むことを特徴とする請求項1に記載の方法。
  3. 前記検出対象ビデオの既にラベル付けされた画像フレームから、少なくとも1つのトレーニングサンプルを選択する前記ステップは、
    前記既にラベル付けされた画像フレームに枠をランダムに散布するステップと、
    ランダムに散布された前記枠に占める前記ターゲットオブジェクトの割合を算出するステップと、
    前記枠に占める前記ターゲットオブジェクトの割合が前記所定の閾値よりも大きければ、前記枠を前記既にラベル付けされた画像フレームに対応する検出ターゲット枠として決定するとともに、前記既にラベル付けされた画像フレームと前記検出ターゲット枠とを前記トレーニングサンプルとして選択するステップと、を含むことを特徴とする請求項2に記載の方法。
  4. 前記ターゲット画像フレームに対応する相対動き顕著性マップを取得する前記ステップは、
    前記ターゲット画像フレームと近接画像フレームとの間のオプティカルフローを算出するステップと、
    前記オプティカルフローに基づいて、前記相対動き顕著性マップを生成するステップと、を含むことを特徴とする請求項1に記載の方法。
  5. 前記オプティカルフローに基づいて、前記相対動き顕著性マップを生成する前記ステップは、
    前記局所検出マップにおける背景領域のオプティカルフローに基づいて、背景オプティカルフローを決定するステップであって、前記局所検出マップにおける背景領域とは、前記局所検出マップにおいて検出された前記ターゲットオブジェクトの所在する領域以外の残りの領域を指す、ステップと、
    前記背景オプティカルフロー及び前記ターゲット画像フレームに対応する前記オプティカルフローに基づいて、前記相対動き顕著性マップを生成するステップと、を含むことを特徴とする請求項4に記載の方法。
  6. 前記局所検出マップと前記相対動き顕著性マップとに基づいて、前記ターゲット画像フレームに対応する制約情報を決定する前記ステップは、
    前記ターゲット画像フレームにおけるターゲット画素について、
    前記ターゲット画素の前記局所検出マップにおける値が第1の所定の条件を満たし、かつ前記ターゲット画素の前記相対動き顕著性マップにおける値が第2の所定の条件を満たせば、前記ターゲット画素が前記絶対正のサンプル画素であると決定するステップ、
    前記ターゲット画素の前記局所検出マップにおける値が前記第1の所定の条件を満たさず、かつ前記ターゲット画素の前記相対動き顕著性マップにおける値が前記第2の所定の条件を満たさなければ、前記ターゲット画素が前記絶対負のサンプル画素であると決定するステップ、
    前記ターゲット画素の前記局所検出マップにおける値が前記第1の所定の条件を満たし、かつ前記ターゲット画素の前記相対動き顕著性マップにおける値が前記第2の所定の条件を満たさなければ、前記ターゲット画素が前記不確定のサンプル画素であると決定するステップ、又は、
    前記ターゲット画素の前記局所検出マップにおける値が前記第1の所定の条件を満たさず、かつ前記ターゲット画素の前記相対動き顕著性マップにおける値が前記第2の所定の条件を満たせば、前記ターゲット画素が前記不確定のサンプル画素であると決定するステップを含むことを特徴とする請求項1~5のいずれか一項に記載の方法。
  7. 前記制約情報により画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得する前記ステップは、
    前記絶対正のサンプル画素と前記絶対負のサンプル画素とを用いて、前記画像分割モデルのパラメータを調整し、前記調整された画像分割モデルを取得するステップを含むことを特徴とする請求項1~5のいずれか一項に記載の方法。
  8. 前記画像分割モデルのプリトレーニングプロセスは、
    初期の画像分割モデルを構築するステップと、
    第1のサンプルセットを用いて前記初期の画像分割モデルに初期トレーニングを行い、初期トレーニングされた画像分割モデルを取得するステップであって、前記第1のサンプルセットに少なくとも1つのラベル付きのピクチャが含まれる、ステップと、
    第2のサンプルセットを用いて前記初期トレーニングされた画像分割モデルに再トレーニングを行い、プリトレーニング済みの画像分割モデルを取得するステップであって、前記第2のサンプルセットに少なくとも1つのラベル付きのビデオが含まれる、ステップと、を含むことを特徴とする請求項1~5のいずれか一項に記載の方法。
  9. ビデオターゲット追跡装置であって、
    検出対象ビデオにおけるターゲット画像フレームに対応する局所検出マップを取得する検出マップ取得モジュールであって、前記局所検出マップは、前記検出対象ビデオにおける、画像分割モデルにより追跡することが必要となるターゲットオブジェクトの見かけ情報に基づいて生成されるものであり、前記画像分割モデルは、前記検出対象ビデオの画像フレームから前記ターゲットオブジェクトを分割して抽出するためのニューラルネットワークモデルである、検出マップ取得モジュールと、
    前記ターゲット画像フレームに対応する相対動き顕著性マップを取得する動きマップ取得モジュールであって、前記相対動き顕著性マップは、前記ターゲットオブジェクトの動き情報に基づいて生成されるものである、動きマップ取得モジュールと、
    前記局所検出マップと前記相対動き顕著性マップとに基づいて、前記ターゲット画像フレームに対応する制約情報を決定する制約情報取得モジュールであって、前記制約情報に、前記ターゲット画像フレームにおける絶対正のサンプル画素、絶対負のサンプル画素及び不確定のサンプル画素が含まれる、制約情報取得モジュールと、
    前記制約情報により前記画像分割モデルのパラメータを調整し、調整された画像分割モデルを取得するモデル調整モジュールと、
    前記調整された画像分割モデルにより、前記ターゲット画像フレームにおける前記ターゲットオブジェクトを抽出するターゲット分割モジュールと、を含むことを特徴とする装置。
  10. 前記検出マップ取得モジュールは、
    前記検出対象ビデオの既にラベル付けされた画像フレームから、少なくとも1つのトレーニングサンプルを選択するサンプル選択サブモジュールであって、前記トレーニングサンプルには、前記既にラベル付けされた画像フレームと、前記既にラベル付けされた画像フレームに対応する検出ターゲット枠とが含まれ、前記検出ターゲット枠とは、前記ターゲットオブジェクトの割合が所定の閾値よりも大きい画像領域を指す、サンプル選択サブモジュールと、
    前記トレーニングサンプルによりターゲット検出モデルのパラメータを調整し、調整されたターゲット検出モデルを取得するモデル調整サブモジュールと、
    前記調整されたターゲット検出モデルにより前記ターゲット画像フレームを処理し、前記局所検出マップを取得する検出マップ取得サブモジュールと、を含むことを特徴とする請求項9に記載の装置。
  11. 前記動きマップ取得モジュールは、
    前記ターゲット画像フレームと近接画像フレームとの間のオプティカルフローを算出するオプティカルフロー算出サブモジュールと、
    前記オプティカルフローに基づいて、前記相対動き顕著性マップを生成する動きマップ取得サブモジュールと、を含むことを特徴とする請求項9に記載の装置。
  12. 前記制約情報取得モジュールは、
    前記ターゲット画像フレームにおけるターゲット画素について、
    前記ターゲット画素の前記局所検出マップにおける値が第1の所定の条件を満たし、かつ前記ターゲット画素の前記相対動き顕著性マップにおける値が第2の所定の条件を満たす場合、前記ターゲット画素が前記絶対正のサンプル画素であると決定し、
    前記ターゲット画素の前記局所検出マップにおける値が前記第1の所定の条件を満たさず、かつ前記ターゲット画素の前記相対動き顕著性マップにおける値が前記第2の所定の条件を満たさない場合、前記ターゲット画素が前記絶対負のサンプル画素であると決定し、
    前記ターゲット画素の前記局所検出マップにおける値が前記第1の所定の条件を満たし、かつ前記ターゲット画素の前記相対動き顕著性マップにおける値が前記第2の所定の条件を満たさないか、或いは、前記ターゲット画素の前記局所検出マップにおける値が前記第1の所定の条件を満たさず、かつ前記ターゲット画素の前記相対動き顕著性マップにおける値が前記第2の所定の条件を満たす場合、前記ターゲット画素が前記不確定のサンプル画素であると決定することを特徴とする請求項9~11のいずれか一項に記載の装置。
  13. 前記モデル調整モジュールは、
    前記絶対正のサンプル画素と前記絶対負のサンプル画素とを用いて前記画像分割モデルを再トレーニングし、前記調整された画像分割モデルを取得することを特徴とする請求項9~11のいずれか一項に記載の装置。
  14. プロセッサと、
    少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶されているメモリと、を含むコンピュータ装置であって、
    前記少なくとも1つの命令、前記少なくとも1つのプログラム、前記コードセット又は命令セットは、前記プロセッサによりロードされて実行されると、前記プロセッサに、
    請求項1~8のいずれか一項に記載の方法を実行させることを特徴とする、コンピュータ装置。
  15. コンピュータに、請求項1~8のいずれか一項に記載の方法を実行させるためのプログラム。
JP2021537733A 2019-05-27 2020-04-30 ビデオターゲット追跡方法と装置、コンピュータ装置、プログラム Active JP7236545B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910447379.3 2019-05-27
CN201910447379.3A CN110176027B (zh) 2019-05-27 2019-05-27 视频目标跟踪方法、装置、设备及存储介质
PCT/CN2020/088286 WO2020238560A1 (zh) 2019-05-27 2020-04-30 视频目标跟踪方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022534337A true JP2022534337A (ja) 2022-07-29
JP7236545B2 JP7236545B2 (ja) 2023-03-09

Family

ID=67696270

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021537733A Active JP7236545B2 (ja) 2019-05-27 2020-04-30 ビデオターゲット追跡方法と装置、コンピュータ装置、プログラム

Country Status (5)

Country Link
US (1) US12067733B2 (ja)
EP (1) EP3979200A4 (ja)
JP (1) JP7236545B2 (ja)
CN (1) CN110176027B (ja)
WO (1) WO2020238560A1 (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086709B (zh) * 2018-07-27 2023-04-07 腾讯科技(深圳)有限公司 特征提取模型训练方法、装置及存储介质
CN110176027B (zh) 2019-05-27 2023-03-14 腾讯科技(深圳)有限公司 视频目标跟踪方法、装置、设备及存储介质
CN110503074B (zh) * 2019-08-29 2022-04-15 腾讯科技(深圳)有限公司 视频帧的信息标注方法、装置、设备及存储介质
CN110807784B (zh) * 2019-10-30 2022-07-26 北京百度网讯科技有限公司 用于分割物体的方法和装置
CN112784638B (zh) * 2019-11-07 2023-12-08 北京京东乾石科技有限公司 训练样本获取方法和装置、行人检测方法和装置
CN112862855B (zh) * 2019-11-12 2024-05-24 北京京邦达贸易有限公司 图像标注方法、装置、计算设备及存储介质
CN110866515B (zh) * 2019-11-22 2023-05-09 盛景智能科技(嘉兴)有限公司 厂房内对象行为识别方法、装置以及电子设备
CN111242973A (zh) * 2020-01-06 2020-06-05 上海商汤临港智能科技有限公司 目标跟踪方法、装置、电子设备及存储介质
CN111260679B (zh) * 2020-01-07 2022-02-01 广州虎牙科技有限公司 图像处理方法、图像分割模型训练方法及相关装置
CN111274892B (zh) * 2020-01-14 2020-12-18 北京科技大学 一种鲁棒的遥感影像变化检测方法及系统
CN111208148A (zh) * 2020-02-21 2020-05-29 凌云光技术集团有限责任公司 一种挖孔屏漏光缺陷检测系统
CN111340101B (zh) * 2020-02-24 2023-06-30 广州虎牙科技有限公司 稳定性评估方法、装置、电子设备和计算机可读存储介质
CN111444826B (zh) * 2020-03-25 2023-09-29 腾讯科技(深圳)有限公司 视频检测方法、装置、存储介质及计算机设备
CN111476252B (zh) * 2020-04-03 2022-07-29 南京邮电大学 一种面向计算机视觉应用的轻量化无锚框目标检测方法
CN111461130B (zh) * 2020-04-10 2021-02-09 视研智能科技(广州)有限公司 一种高精度图像语义分割算法模型及分割方法
JP7557958B2 (ja) 2020-04-23 2024-09-30 株式会社日立システムズ 画素レベル対象物検出システムおよびそのプログラム
CN111654746B (zh) * 2020-05-15 2022-01-21 北京百度网讯科技有限公司 视频的插帧方法、装置、电子设备和存储介质
CN112132871B (zh) * 2020-08-05 2022-12-06 天津(滨海)人工智能军民融合创新中心 一种基于特征光流信息的视觉特征点追踪方法、装置、存储介质及终端
CN112525145B (zh) * 2020-11-30 2022-05-17 北京航空航天大学 一种飞机降落相对姿态动态视觉测量方法及系统
CN112541475B (zh) * 2020-12-24 2024-01-19 北京百度网讯科技有限公司 感知数据检测方法及装置
KR20220099210A (ko) * 2021-01-05 2022-07-13 삼성디스플레이 주식회사 표시 장치, 이를 포함하는 가상 현실 표시 시스템 및 이를 이용한 입력 영상 기반 사용자 움직임 추정 방법
CN112733802B (zh) * 2021-01-25 2024-02-09 腾讯科技(深圳)有限公司 图像的遮挡检测方法、装置、电子设备及存储介质
CN113011371A (zh) * 2021-03-31 2021-06-22 北京市商汤科技开发有限公司 目标检测方法、装置、设备及存储介质
CN113361519B (zh) * 2021-05-21 2023-07-28 北京百度网讯科技有限公司 目标处理方法、目标处理模型的训练方法及其装置
CN113361373A (zh) * 2021-06-02 2021-09-07 武汉理工大学 一种农业场景下的航拍图像实时语义分割方法
CN113518256B (zh) * 2021-07-23 2023-08-08 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及计算机可读存储介质
CN113807185B (zh) * 2021-08-18 2024-02-27 苏州涟漪信息科技有限公司 一种数据处理方法和装置
US20210385463A1 (en) * 2021-08-20 2021-12-09 Intel Corporation Resource-efficient video coding and motion estimation
US12106487B2 (en) 2021-11-24 2024-10-01 Microsoft Technology Licensing, Llc Feature prediction for efficient video processing
CN114140488A (zh) * 2021-11-30 2022-03-04 北京达佳互联信息技术有限公司 视频目标分割方法及装置、视频目标分割模型的训练方法
CN114359973A (zh) * 2022-03-04 2022-04-15 广州市玄武无线科技股份有限公司 基于视频的商品状态识别方法、设备及计算机可读介质
CN114639171B (zh) * 2022-05-18 2022-07-29 松立控股集团股份有限公司 一种停车场全景安全监控方法
CN114979652A (zh) * 2022-05-20 2022-08-30 北京字节跳动网络技术有限公司 一种视频处理方法、装置、电子设备及存储介质
CN115052154B (zh) * 2022-05-30 2023-04-14 北京百度网讯科技有限公司 一种模型训练和视频编码方法、装置、设备及存储介质
CN115860275B (zh) * 2023-02-23 2023-05-05 深圳市南湖勘测技术有限公司 一种用于土地整备利益统筹测绘采集方法及系统
CN116188460B (zh) * 2023-04-24 2023-08-25 青岛美迪康数字工程有限公司 基于运动矢量的图像识别方法、装置和计算机设备

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8467570B2 (en) * 2006-06-14 2013-06-18 Honeywell International Inc. Tracking system with fused motion and object detection
CN101968884A (zh) * 2009-07-28 2011-02-09 索尼株式会社 检测视频图像中的目标的方法和装置
US9107604B2 (en) * 2011-09-26 2015-08-18 Given Imaging Ltd. Systems and methods for generating electromagnetic interference free localization data for an in-vivo device
US11100335B2 (en) * 2016-03-23 2021-08-24 Placemeter, Inc. Method for queue time estimation
CN106127807A (zh) * 2016-06-21 2016-11-16 中国石油大学(华东) 一种实时的视频多类多目标跟踪方法
CN106530330B (zh) * 2016-12-08 2017-07-25 中国人民解放军国防科学技术大学 基于低秩稀疏的视频目标跟踪方法
US11423548B2 (en) * 2017-01-06 2022-08-23 Board Of Regents, The University Of Texas System Segmenting generic foreground objects in images and videos
US20180204076A1 (en) * 2017-01-13 2018-07-19 The Regents Of The University Of California Moving object detection and classification image analysis methods and systems
CN106709472A (zh) * 2017-01-17 2017-05-24 湖南优象科技有限公司 一种基于光流特征的视频目标检测与跟踪方法
CN106934346B (zh) * 2017-01-24 2019-03-15 北京大学 一种目标检测性能优化的方法
CN107066990B (zh) * 2017-05-04 2019-10-11 厦门美图之家科技有限公司 一种目标跟踪方法及移动设备
CN108305275B (zh) * 2017-08-25 2021-02-12 深圳市腾讯计算机系统有限公司 主动跟踪方法、装置及系统
CN107679455A (zh) * 2017-08-29 2018-02-09 平安科技(深圳)有限公司 目标跟踪装置、方法及计算机可读存储介质
CN107644429B (zh) * 2017-09-30 2020-05-19 华中科技大学 一种基于强目标约束视频显著性的视频分割方法
CN107886515B (zh) * 2017-11-10 2020-04-21 清华大学 利用光流场的图像分割方法及装置
CN108122247B (zh) * 2017-12-25 2018-11-13 北京航空航天大学 一种基于图像显著性和特征先验模型的视频目标检测方法
CN109035293B (zh) * 2018-05-22 2022-07-15 安徽大学 适用于视频图像中显著人体实例分割的方法
CN108765465B (zh) * 2018-05-31 2020-07-10 西安电子科技大学 一种无监督sar图像变化检测方法
CN109145781B (zh) * 2018-08-03 2021-05-04 北京字节跳动网络技术有限公司 用于处理图像的方法和装置
CN109376603A (zh) * 2018-09-25 2019-02-22 北京周同科技有限公司 一种视频识别方法、装置、计算机设备及存储介质
CN109461168B (zh) * 2018-10-15 2021-03-16 腾讯科技(深圳)有限公司 目标对象的识别方法和装置、存储介质、电子装置
CN109635657B (zh) * 2018-11-12 2023-01-06 平安科技(深圳)有限公司 目标跟踪方法、装置、设备及存储介质
CN109492608B (zh) * 2018-11-27 2019-11-05 腾讯科技(深圳)有限公司 图像分割方法、装置、计算机设备及存储介质
CN109711445B (zh) * 2018-12-18 2020-10-16 绍兴文理学院 目标跟踪分类器在线训练样本的超像素中智相似加权方法
CN110176027B (zh) * 2019-05-27 2023-03-14 腾讯科技(深圳)有限公司 视频目标跟踪方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YE WANG,外7名: "Unsupervised Video Object Segmentation with Distractor-Aware Online Adaptation", [ONLINE], JPN6022035235, 19 December 2018 (2018-12-19), ISSN: 0004862902 *

Also Published As

Publication number Publication date
CN110176027A (zh) 2019-08-27
EP3979200A1 (en) 2022-04-06
WO2020238560A1 (zh) 2020-12-03
US20210398294A1 (en) 2021-12-23
US12067733B2 (en) 2024-08-20
CN110176027B (zh) 2023-03-14
JP7236545B2 (ja) 2023-03-09
EP3979200A4 (en) 2022-07-27

Similar Documents

Publication Publication Date Title
JP7236545B2 (ja) ビデオターゲット追跡方法と装置、コンピュータ装置、プログラム
CN112052787B (zh) 基于人工智能的目标检测方法、装置及电子设备
US11170210B2 (en) Gesture identification, control, and neural network training methods and apparatuses, and electronic devices
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
CN108780508B (zh) 用于归一化图像的系统和方法
US20190279014A1 (en) Method and apparatus for detecting object keypoint, and electronic device
CN108416266B (zh) 一种利用光流提取运动目标的视频行为快速识别方法
CN111161311A (zh) 一种基于深度学习的视觉多目标跟踪方法及装置
EP2864933B1 (en) Method, apparatus and computer program product for human-face features extraction
CN111275034B (zh) 从图像中提取文本区域的方法、装置、设备和存储介质
CN108334878B (zh) 视频图像检测方法、装置、设备及可读存储介质
CN111652181B (zh) 目标跟踪方法、装置及电子设备
US11720745B2 (en) Detecting occlusion of digital ink
CN112836625A (zh) 人脸活体检测方法、装置、电子设备
US11367206B2 (en) Edge-guided ranking loss for monocular depth prediction
Sharjeel et al. Real time drone detection by moving camera using COROLA and CNN algorithm
CN113744280B (zh) 图像处理方法、装置、设备及介质
CN117079305A (zh) 姿态估计方法、姿态估计装置以及计算机可读存储介质
CN115984712A (zh) 基于多尺度特征的遥感图像小目标检测方法及系统
CN113344200B (zh) 用于训练可分离卷积网络的方法、路侧设备及云控平台
CN114627534A (zh) 活体判别方法及电子设备、存储介质
CN114120423A (zh) 人脸图像检测方法、装置、电子设备和计算机可读介质
CN116228850A (zh) 物体姿态估计方法、装置、电子设备及可读存储介质
CN113537359A (zh) 训练数据的生成方法及装置、计算机可读介质和电子设备
CN107563284B (zh) 行人追踪方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230227

R150 Certificate of patent or registration of utility model

Ref document number: 7236545

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150