JP2021502645A - Target detection methods and devices, training methods, electronic devices and media - Google Patents

Target detection methods and devices, training methods, electronic devices and media Download PDF

Info

Publication number
JP2021502645A
JP2021502645A JP2020526040A JP2020526040A JP2021502645A JP 2021502645 A JP2021502645 A JP 2021502645A JP 2020526040 A JP2020526040 A JP 2020526040A JP 2020526040 A JP2020526040 A JP 2020526040A JP 2021502645 A JP2021502645 A JP 2021502645A
Authority
JP
Japan
Prior art keywords
frame
detection frame
detection
regression
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020526040A
Other languages
Japanese (ja)
Other versions
JP7165731B2 (en
Inventor
ポー リー
ポー リー
ウェイ ウー
ウェイ ウー
Original Assignee
ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド
ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド, ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド filed Critical ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド
Publication of JP2021502645A publication Critical patent/JP2021502645A/en
Application granted granted Critical
Publication of JP7165731B2 publication Critical patent/JP7165731B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)

Abstract

本開示の実施例は、目標検出方法及び装置、トレーニング方法、電子機器並びに媒体を開示する。目標検出方法は、検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、前記テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することと、前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することとを含む。本開示の実施例は、目標追跡の速度と正確性を高めることができる。The embodiments of the present disclosure disclose target detection methods and devices, training methods, electronic devices and media. The target detection method is an image of the detection frame and the detection frame of the target object, and the features of the template frame whose image size is smaller than the detection frame are extracted by the neural network, respectively, and the features of the template frame. Obtaining the classification weight and the regression weight of the local region detector based on the above, inputting the characteristics of the detection frame to the local region detector, and outputting from the local region detector of a plurality of candidate frames. This includes acquiring the classification result and the regression result, and acquiring the detection frame of the target object in the detection frame from the classification result and the regression result of a plurality of candidate frames output from the local region detector. .. The embodiments of the present disclosure can increase the speed and accuracy of target tracking.

Description

本開示は、コンピュータビジョン技術に関し、特に、目標検出方法及び装置、トレーニング方法、電子機器並びに媒体に関する。
<関連出願の相互参照>
本願は、2017年11月12日に中国特許局に提出された、出願番号CN201711110587.1、発明の名称「目標検出方法及び装置、トレーニング方法、電子機器、プログラム並びに媒体」の中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
The present disclosure relates to computer vision technology, in particular to target detection methods and devices, training methods, electronic devices and media.
<Cross-reference of related applications>
This application is prioritized by the Chinese patent application filed with the Chinese Patent Office on November 12, 2017, with application number CN201711110587.1, and the title of the invention "Target detection method and device, training method, electronic device, program and medium". Claim the right and all of its disclosures are incorporated herein by reference.

単一目標追跡は、人工知能分野の重要な課題となっており、自動運転、多目標追跡等の一連のタスクに用いられる。単一目標追跡の主なタスクは、ビデオシーケンスのセグメント内の1フレームの画像において追跡される目標を指定し、その後のフレーム画像においてこの指定された目標を継続的に追跡することである。 Single-target tracking has become an important issue in the field of artificial intelligence, and is used for a series of tasks such as autonomous driving and multi-target tracking. The main task of single target tracking is to specify a target to be tracked in one frame of image within a segment of the video sequence, and to continuously track this specified target in subsequent frame images.

本開示の実施例は、目標追跡を行うための技術的手段を提供する。 The embodiments of the present disclosure provide technical means for performing target tracking.

本開示の実施例の一方面によれば、
検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、
前記テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することと、
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することと、を含む目標追跡方法を提供する。
According to one side of the embodiments of the present disclosure
Extracting the features of the detection frame and the template frame, which is the image of the detection frame of the target object and the size of the image is smaller than the detection frame, by the neural network, respectively.
Obtaining the classification weight and regression weight of the local region detector based on the characteristics of the template frame,
The characteristics of the detection frame are input to the local area detector, and the classification result and the regression result of a plurality of candidate frames output from the local area detector are acquired.
Provided is a target tracking method including acquiring a detection frame of the target object in the detection frame based on a classification result and a regression result of a plurality of candidate frames output from the local region detector.

本開示の実施例の別の方面によれば、
検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、
第1の畳み込み層によって前記テンプレートフレームの特徴のチャンネルを増加し、取得された第1の特徴を前記局所領域検出器の分類の重みとし、第2の畳み込み層によって前記テンプレートフレームの特徴のチャンネルを増加し、得られた第2の特徴を前記局所領域検出器の回帰の重みとすることと、
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することと、
取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層をトレーニングすることと、を含む目標検出ネットワークのトレーニング方法を提供する。
According to another aspect of the embodiments of the present disclosure,
Extracting the features of the detection frame and the template frame, which is the image of the detection frame of the target object and the size of the image is smaller than the detection frame, by the neural network, respectively.
The first convolution layer increases the channels of the features of the template frame, the acquired first features are the weight of the classification of the local region detector, and the second convolution layer provides the channels of the features of the template frame. The second feature obtained by increasing is to be the regression weight of the local region detector.
The characteristics of the detection frame are input to the local area detector, and the classification result and the regression result of a plurality of candidate frames output from the local area detector are acquired.
Obtaining the detection frame of the target object in the detection frame from the classification result and the regression result of the plurality of candidate frames output from the local region detector, and
The detection frame of the target object in the acquired detection frame is used as a prediction detection frame, and the neural network, the first convolution layer, and the second convolution are based on the labeling information of the detection frame and the prediction detection frame. It provides training methods for layer training and target detection networks, including.

本開示の実施例のまた1つの方面によれば、
検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をそれぞれ抽出するためのニューラルネットワークと、
前記テンプレートフレームの特徴のチャンネルを増加し、得られた第1の特徴を局所領域検出器の分類の重みとするための第1の畳み込み層と、
前記テンプレートフレームの特徴のチャンネルを増加し、得られた第2の特徴を前記局所領域検出器の回帰の重みとするための第2の畳み込み層と、
前記検出フレームの特徴により複数の候補枠の分類結果と回帰結果を出力するための局所領域検出器と、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得するための取得ユニットと、を含む目標検出装置を提供する。
According to another aspect of the embodiments of the present disclosure,
A neural network for extracting the features of the detection frame and the template frame, which is an image of the detection frame of the target object and whose image size is smaller than the detection frame.
A first convolution layer for increasing the channels of the features of the template frame and weighting the obtained first features to the classification of the local region detector.
A second convolution layer for increasing the channels of the features of the template frame and weighting the resulting second features to the regression of the local region detector.
A local region detector for outputting classification results and regression results of a plurality of candidate frames according to the characteristics of the detection frame, and
Provided is a target detection device including an acquisition unit for acquiring a detection frame of the target object in the detection frame based on a classification result and a regression result of a plurality of candidate frames output from the local region detector.

本開示の実施例の更なる別の方面によれば、本開示の実施例のいずれか1つに記載の前記目標検出装置を含む電子機器を提供する。 According to yet another aspect of the embodiments of the present disclosure, there is provided an electronic device comprising the target detection device according to any one of the embodiments of the present disclosure.

本開示の実施例の更なる別の方面によれば、
実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して、前記実行可能コマンドを実行することにより、本開示の実施例のいずれか1つに記載の前記方法の操作を完成するためのプロセッサと、を含む別の電子機器を提供する。
According to yet another aspect of the embodiments of the present disclosure,
Memory for storing executable commands and
Provided is another electronic device comprising a processor for completing the operation of the method according to any one of the embodiments of the present disclosure by communicating with the memory and executing the executable command. To do.

本開示の実施例の更なる別の方面によれば、コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、前記コマンドが実行されると、本開示の実施例のいずれか1つに記載の前記方法の操作が実現されるコンピュータ記憶媒体を提供する。 According to yet another aspect of the embodiments of the present disclosure, it is a computer storage medium for storing a computer-readable command, and when the command is executed, it becomes one of the embodiments of the present disclosure. Provided is a computer storage medium in which the operation of the above-described method is realized.

本開示の実施例の更なる別の方面によれば、コンピュータ読取可能コマンドを含むコンピュータプログラムであって、前記コンピュータ読取可能コマンドが機器上で作動すると、前記機器におけるプロセッサに本開示の実施例のいずれか1つに記載の前記方法におけるステップを実現するための実行可能コマンドを実行させるコンピュータプログラムを提供する。 According to yet another aspect of the embodiments of the present disclosure, a computer program comprising a computer-readable command that, when the computer-readable command is activated on the device, tells the processor in the device of the embodiments of the present disclosure. Provided is a computer program that executes an executable command for realizing the step in the method according to any one of the above.

本開示の上記実施例によれば、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出し、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得し、検出フレームの特徴を局所領域検出器に入力し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得する。本開示の実施例では、同一のニューラルネットワーク又は同じ構成を有するニューラルネットワークにより同一の目標対象物の類似特徴をよりよく抽出でき、異なるフレームから抽出された目標対象物の特徴変化が小さく、検出フレームにおける目標対象物の検出結果の正確性を高めることに寄与する。また、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することにより、局所領域検出器は検出フレームの複数の候補枠の分類結果と回帰結果を取得し、更に検出フレームにおける前記目標対象物の検出枠を取得することができ、目標対象物の位置と大きさの変化をよりよく推定でき、検出フレームでの目標対象物の位置をより精確に確定でき、目標追跡の速度や正確性が高くなり、追跡効果に優れ、速度が速い。 According to the above embodiment of the present disclosure, the characteristics of the template frame and the detection frame are extracted by the neural network, the classification weight of the local region detector and the regression weight are acquired based on the characteristics of the template frame, and the detection frame is obtained. Is input to the local area detector, the classification result and regression result of multiple candidate frames output from the local area detector are acquired, and the classification result and regression of multiple candidate frames output from the local area detector are acquired. Based on the result, the detection frame of the target object in the detection frame is acquired. In the embodiment of the present disclosure, similar features of the same target object can be better extracted by the same neural network or a neural network having the same configuration, the feature change of the target object extracted from different frames is small, and the detection frame. Contributes to improving the accuracy of the detection result of the target object in. In addition, by acquiring the classification weight and the regression weight of the local area detector based on the characteristics of the template frame, the local area detector acquires the classification result and the regression result of a plurality of candidate frames of the detection frame, and further. The detection frame of the target object in the detection frame can be acquired, the change in the position and size of the target object can be better estimated, the position of the target object in the detection frame can be determined more accurately, and the target can be determined. The tracking speed and accuracy are high, the tracking effect is excellent, and the speed is fast.

以下、図面及び実施例によって本開示の技術的手段をさらに詳しく説明する。 Hereinafter, the technical means of the present disclosure will be described in more detail with reference to the drawings and examples.

明細書の一部を構成する図面は、本開示の実施例を説明するためのものであって、また、実施例に対する説明と共に本開示の原理を解釈するためのものである。
図面を伴う以下の詳細な説明により、本開示をより明瞭に理解することができる。
本開示の目標検出方法の一実施例のフローチャートである。 本開示の目標検出方法の別の実施例のフローチャートである。 本開示の目標検出ネットワークのトレーニング方法の一実施例のフローチャートである。 本開示の目標検出ネットワークのトレーニング方法の別の実施例のフローチャートである。 本開示の目標検出装置の一実施例の構成模式図である。 本開示の目標検出装置の別の実施例の構成模式図である。 本開示の目標検出装置のまた1つの実施例の構成模式図である。 本開示の目標検出装置の一適用実施例の構成模式図である。 本開示の目標検出装置の別の適用実施例の構成模式図である。 本開示の電子機器の一適用実施例の構成模式図である。
The drawings that form part of the specification are for explaining the embodiments of the present disclosure and for interpreting the principles of the present disclosure along with the description for the embodiments.
The following detailed description, accompanied by drawings, provides a clearer understanding of the present disclosure.
It is a flowchart of one Example of the target detection method of this disclosure. It is a flowchart of another embodiment of the target detection method of this disclosure. It is a flowchart of one Example of the training method of the target detection network of this disclosure. It is a flowchart of another embodiment of the training method of the target detection network of this disclosure. It is a block diagram of one Example of the target detection apparatus of this disclosure. It is a block diagram of another Example of the target detection apparatus of this disclosure. It is a block diagram of another Example of the target detection apparatus of this disclosure. It is a block diagram of one application example of the target detection apparatus of this disclosure. It is a block diagram of another application embodiment of the target detection apparatus of this disclosure. It is a block diagram of one application example of the electronic device of this disclosure.

ここで、図面を参照しながら本開示の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及びステップの相対的配置、数式及び値は本開示の範囲を限定するものではないことに注意すべきである。 Here, various exemplary embodiments of the present disclosure will be described in detail with reference to the drawings. It should be noted that unless otherwise stated, the relative arrangements, formulas and values of members and steps described in these examples do not limit the scope of the present disclosure.

更に、本開示の実施例では、「複数」は2つ又は2つ以上を指してよく、「少なくとも1つ」は1つ、2つ又は2つ以上を指してよいことを理解すべきである。 Further, it should be understood that in the embodiments of the present disclosure, "plurality" may refer to two or more, and "at least one" may refer to one, two or more. ..

本願の実施例における「第1の」、「第2の」等の用語は、異なるステップ、機器又はモジュール等を区別するためのものに過ぎず、特定の技術的意味を表したり、必然的な論理的順序を表したりすることではないことが当業者にとって理解可能である。 Terms such as "first" and "second" in the embodiments of the present application are merely for distinguishing different steps, devices, modules, etc., and may represent a specific technical meaning or are inevitable. It is understandable to those skilled in the art that it does not represent a logical order.

更に、本開示で言及された任意の部材、データ又は構造は、明確に限定されない限り又は明細書の前後で反対的なものが示唆されない限り、一般的には1つ又は複数と理解してよいことを理解すべきである。 Further, any member, data or structure referred to in this disclosure may generally be understood as one or more unless expressly limited or when the opposite is suggested before and after the specification. You should understand that.

更に、本開示では、各実施例について、相違点を強調して説明し、同一又は類似的な点について、相互に参照することができるので、簡潔化するために、繰り返して説明しないことを理解すべきである。 Furthermore, it is understood that in the present disclosure, each embodiment will be described with emphasis on differences, and the same or similar points can be referred to each other, and therefore, for the sake of brevity, they will not be described repeatedly. Should.

同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。 At the same time, for convenience of explanation, it should be understood that the dimensions of each part shown in the drawings are not drawn according to the actual proportional relationship.

以下の少なくとも一つの例示的な実施例に対する説明は、実質的に、説明するためのものに過ぎず、本開示及びその適用または使用をなんら限定するものではない。 The description for at least one exemplary example below is merely for illustration purposes and does not limit the disclosure and its application or use in any way.

関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部としての援用と見なすべきである。 Techniques, methods and equipment known to those skilled in the art may not be described in detail, but in some cases said techniques, methods and equipment should be considered as reference as part of the specification.

なお、以下の図面において、類似する符号及び英文字は類似項目を表し、ある項目がある図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。 It should be noted that in the drawings below, similar symbols and letters represent similar items, and if an item is defined in one drawing, it does not need to be further described in subsequent drawings.

本開示の実施例は端末装置、コンピュータシステム、サーバ等の電子機器に適用可能であり、それは他の多くの汎用または専用コンピューティングシステム環境または構成で動作可能である。端末装置、コンピュータシステム、サーバ等の電子機器と共に使用するのに適する公知の端末装置、コンピューティングシステム、環境及び/または構成の例としては、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム及び前記システムのいずれかを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。 The embodiments of the present disclosure are applicable to electronic devices such as terminal devices, computer systems, servers, etc., which can operate in many other general purpose or dedicated computing system environments or configurations. Examples of known terminal devices, computing systems, environments and / or configurations suitable for use with electronic devices such as terminal devices, computer systems, servers include personal computer systems, server computer systems, thin clients, fat clients, etc. Handheld or laptop devices, microprocessor-based systems, set-top boxes, programmable consumer electronics, networked personal computers, small computer systems, large computer systems and distributed cloud computing technology environments including any of the above systems. Including, but not limited to.

端末装置、コンピュータシステム、サーバ等の電子機器はコンピュータシステムにより実行されるコンピュータシステム実行可能コマンド(例えば、プログラムモジュール)の一般的なコンテキストで記述できる。通常、プログラムモジュールは特定のタスクを実行するかまたは特定の抽象データ型を実現するルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでよい。コンピュータシステム/サーバは分散型クラウドコンピューティング環境において実施されてよい。分散型クラウドコンピューティング環境において、タスクは通信ネットワークを介してリンクされる遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたはリモートのコンピューティングシステムの記憶媒体に存在してよい。 Electronic devices such as terminal devices, computer systems, and servers can be described in the general context of computer system executable commands (eg, program modules) executed by the computer system. In general, a program module may include routines, programs, objective programs, components, logics, data structures, etc. that perform a particular task or implement a particular abstract data type. The computer system / server may be implemented in a distributed cloud computing environment. In a decentralized cloud computing environment, tasks are performed by remote processing devices linked over a communication network. In a distributed cloud computing environment, the program module may reside on the storage medium of a local or remote computing system, including storage equipment.

図1は本開示の目標検出方法の一実施例のフローチャートである。図1に示すように、該実施例の目標検出方法は以下の操作を含む。 FIG. 1 is a flowchart of an embodiment of the target detection method of the present disclosure. As shown in FIG. 1, the target detection method of the embodiment includes the following operations.

102、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出する。
ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像の大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。検出フレームが目標対象物の検出を行う現在フレームにおける目標対象物の存在可能な領域画像である場合に、本開示の各実施例の一実施形態では、該領域画像の大きさがテンプレートフレームの画像より大きく、例えば、該領域画像はテンプレートフレームの画像の中心点を中心点として、大きさがテンプレートフレーム画像の大きさの2−4倍であってよい。
102. The features of the template frame and the detection frame are extracted by the neural network.
Here, the template frame is an image of the detection frame of the target object, the size of the image of the template frame is smaller than the detection frame, and the detection frame is the current frame for detecting the target object or the target object in the current frame. It is a possible area image of. When the detection frame is a region image in which the target object can exist in the current frame for detecting the target object, in one embodiment of each embodiment of the present disclosure, the size of the region image is the image of the template frame. Larger, for example, the region image may be 2-4 times larger than the size of the template frame image, with the center point of the image of the template frame as the center point.

本開示の各実施例の一実施形態では、テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームであり、ビデオシーケンスにおいて目標追跡を行う開始フレームであってよく、該開始フレームのビデオフレームシーケンスでの位置が柔軟に設定され、例えばビデオフレームシーケンスにおける先頭フレーム又は任意の中間フレームであってよい。検出フレームは目標追跡を行うフレームであり、検出フレームの画像において目標対象物の検出枠が特定された後、該検出フレームにおける検出枠に対応する画像を次の検出フレームのテンプレートフレームの画像としてよい。 In one embodiment of each embodiment of the present disclosure, the template frame is a frame in which the detection timing is located before the detection frame in the video sequence and the detection frame of the target object is specified, and the target tracking is performed in the video sequence. It may be the start frame to be performed, and the position of the start frame in the video frame sequence can be flexibly set, for example, the first frame in the video frame sequence or any intermediate frame. The detection frame is a frame for tracking the target, and after the detection frame of the target object is specified in the image of the detection frame, the image corresponding to the detection frame in the detection frame may be used as the image of the template frame of the next detection frame. ..

本開示の各実施例の一実施形態では、該操作102において、同一のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよいし、同じ構成を有する別々のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよい。 In one embodiment of each embodiment of the present disclosure, in the operation 102, the features of the template frame and the detection frame may be extracted by the same neural network, or the template frame and the template frame may be extracted by different neural networks having the same configuration. The characteristics of each detection frame may be extracted.

選択可能な一例において、該操作102はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動するニューラルネットワークによって実行されてもよい。 In one selectable example, the operation 102 may be executed by invoking a corresponding command stored in memory by the processor or by a neural network running on the processor.

104、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得する。 104. Acquire the classification weight and the regression weight of the local region detector based on the characteristics of the template frame.

本開示の各実施例の一実施形態では、第1の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第1の特徴を局所領域検出器の分類の重みとするようにしてもよい。 In one embodiment of each embodiment of the present disclosure, a convolution operation is performed on the features of the template frame by the first convolution layer, and the first feature acquired by the convolution operation is used as the weight of the classification of the local region detector. You may try to do it.

例えば、選択可能な一例では、第1の畳み込み層によってテンプレートフレームの特徴のチャンネル数を増加して、チャンネル数がテンプレートフレームの特徴のチャンネル数の2k(kが0より大きい整数である)倍になる第1の特徴を取得するように、局所領域検出器の分類の重みを取得することができる。 For example, in a selectable example, the first convolution layer increases the number of channels in the template frame feature so that the number of channels is 2k (k is an integer greater than 0) times the number of channels in the template frame feature. The weight of the classification of the local region detector can be obtained so as to obtain the first feature.

本開示の各実施例の一実施形態では、第2の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第2の特徴を局所領域検出器の回帰の重みとするようにしてもよい。 In one embodiment of each embodiment of the present disclosure, a second convolution layer performs a convolution operation on the features of the template frame, and the second feature acquired by the convolution operation is used as the regression weight of the local region detector. You may try to do it.

例えば、選択可能な一例では、第2の畳み込み層によってテンプレートフレームの特徴のチャンネル数を増加して、チャンネル数がテンプレートフレームの特徴のチャンネル数の4k(kが0より大きい整数である)倍になる第2の特徴を取得するように、局所領域検出器の回帰の重みを取得することができる。 For example, in a selectable example, the second convolution layer increases the number of channels in the template frame feature so that the number of channels is 4k (k is an integer greater than 0) times the number of channels in the template frame feature. The regression weight of the local region detector can be obtained so as to obtain the second feature.

選択可能な一例において、該操作104はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、それぞれプロセッサで作動する第1の畳み込み層と第2の畳み込み層により実行されてもよい。 In a selectable example, the operation 104 may be executed by invoking a corresponding command stored in memory by the processor, or may be executed by a first convolution layer and a second convolution layer operated by the processor, respectively. Good.

106、検出フレームの特徴を局所領域検出器に入力し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得する。
ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。
106, the characteristics of the detection frame are input to the local area detector, and the classification result and the regression result of a plurality of candidate frames output from the local area detector are acquired.
Here, the classification result includes the probability value which is the detection frame of the target object of each candidate frame, and the regression result includes the deviation amount from the detection frame corresponding to the template frame of each candidate frame.

本開示の各実施例の選択可能な一例では、上記複数の候補枠は、検出フレームの各位置でのK個の候補枠を含んでよい。ここで、Kが予め設定された、1より大きい整数である。K個の候補枠の長さと幅の割合はそれぞれ異なっており、例えば、K個の候補枠の長さと幅の割合は、1:1、2:1、2:1、3:1、1:3等を含んでよい。分類結果は、各位置でのK個の候補枠が目標対象物の検出枠である確率値を表すためのものである。 In a selectable example of each embodiment of the present disclosure, the plurality of candidate frames may include K candidate frames at each position of the detection frame. Here, K is a preset integer greater than 1. The ratio of length and width of K candidate frames is different, for example, the ratio of length and width of K candidate frames is 1: 1, 2: 1, 2: 1, 3: 1, 1: 1. 3 etc. may be included. The classification result is for expressing the probability value that the K candidate frames at each position are the detection frames of the target object.

本開示の目標検出方法の選択可能な一実施例では、該操作106によって複数の候補枠が目標対象物の検出枠である確率値を取得した後、更に、該分類結果に対して正規化処理を行って、各候補枠が目標対象物の検出枠である確率値の和を1にすることを含んでよい。このように、各候補枠が目標対象物の検出枠であるか否かを容易に判断することに寄与する。 In one selectable embodiment of the target detection method of the present disclosure, after the probability value that a plurality of candidate frames are the detection frames of the target object is acquired by the operation 106, the classification result is further normalized. Is performed, and the sum of the probability values in which each candidate frame is the detection frame of the target object is set to 1. In this way, it contributes to easily determining whether or not each candidate frame is a detection frame for the target object.

本開示の各実施例の選択可能な一例では、回帰結果は検出フレーム画像の各位置でのK個の候補枠のそれぞれの、テンプレートフレームにおける目標対象物の検出枠からのずれ量を含み、このずれ量は位置と大きさの変化量を含んでよく、この位置は中心点の位置であってもよく、基準枠の4つの頂点の位置等であってもよい。 In a selectable example of each embodiment of the present disclosure, the regression result includes the amount of deviation of each of the K candidate frames at each position of the detection frame image from the detection frame of the target object in the template frame. The amount of deviation may include the amount of change in position and size, and this position may be the position of the center point, the position of the four vertices of the reference frame, or the like.

第2の特徴のチャンネル数がテンプレートフレームの特徴のチャンネル数の4k倍になる場合に、各候補枠のそれぞれの、テンプレートフレームにおける目標対象物の検出枠からのずれ量は、例えば中心点の位置の横座標のずれ量(dx)、中心点の位置の縦座標のずれ量(dy)、高さの変化量(dh)及び幅の変化量(dw)を含んでよい。 When the number of channels of the second feature is 4k times the number of channels of the feature of the template frame, the amount of deviation of each candidate frame from the detection frame of the target object in the template frame is, for example, the position of the center point. The abscissa deviation amount (dx), the vertical coordinate deviation amount (dy) of the position of the center point, the height change amount (dh), and the width change amount (dw) may be included.

本開示の各実施例の一実施形態では、該操作106には、分類の重みを用いて検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、回帰の重みを用いて検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することと、を含んでよい。 In one embodiment of each embodiment of the present disclosure, in the operation 106, a convolution operation is performed on the features of the detection frame using the classification weights to acquire the classification results of a plurality of candidate frames, and regression. It may include performing a convolution operation on the feature of the detection frame using the weight of and acquiring the regression results of a plurality of candidate frames.

選択可能な一例において、該操作106はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する局所領域検出器によって実行されてもよい。 In one selectable example, the operation 106 may be executed by invoking the corresponding command stored in memory by the processor or by a local region detector operated by the processor.

108、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得する。 108, The detection frame of the target object in the detection frame is acquired from the classification result and the regression result of the plurality of candidate frames output from the local area detector.

選択可能な一例において、該操作108はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する取得ユニットによって実行されてもよい。 In a selectable example, the operation 108 may be executed by invoking a corresponding command stored in memory by the processor or by an acquisition unit operated by the processor.

本開示の上記実施例の目標検出方法によれば、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出し、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得し、検出フレームの特徴を局所領域検出器に入力し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得する。本開示の実施例では、同一のニューラルネットワーク又は同じ構成を有するニューラルネットワークにより同一の目標対象物の類似特徴をよりよく抽出でき、異なるフレームから抽出された目標対象物の特徴変化が小さく、検出フレームにおける目標対象物の検出結果の正確性を高めることに寄与する。また、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することにより、局所領域検出器は検出フレームの複数の候補枠の分類結果と回帰結果を取得し、更に検出フレームにおける前記目標対象物の検出枠を取得することができ、目標対象物の位置と大きさの変化をよりよく推定でき、検出フレームでの目標対象物の位置をより精確に確定でき、目標追跡の速度や正確性が高くなり、追跡効果に優れ、速度が速い。 According to the target detection method of the above embodiment of the present disclosure, the characteristics of the template frame and the detection frame are extracted by the neural network, and the classification weight and the regression weight of the local region detector are obtained based on the characteristics of the template frame. Then, the characteristics of the detection frame are input to the local area detector, the classification result and regression result of the multiple candidate frames output from the local area detector are acquired, and the multiple candidate frames output from the local area detector are acquired. The detection frame of the target object in the detection frame is acquired from the classification result and the regression result. In the embodiment of the present disclosure, similar features of the same target object can be better extracted by the same neural network or a neural network having the same configuration, the feature change of the target object extracted from different frames is small, and the detection frame. Contributes to improving the accuracy of the detection result of the target object in. In addition, by acquiring the classification weight and the regression weight of the local area detector based on the characteristics of the template frame, the local area detector acquires the classification result and the regression result of a plurality of candidate frames of the detection frame, and further. The detection frame of the target object in the detection frame can be acquired, the change in the position and size of the target object can be better estimated, the position of the target object in the detection frame can be determined more accurately, and the target can be determined. The tracking speed and accuracy are high, the tracking effect is excellent, and the speed is fast.

本開示の実施例では、テンプレートフレームに基づいて、局所領域検出器は検出フレームから大量の候補枠を高速に生成し、且つ検出フレームの各位置でのK個の候補枠のそれぞれの、テンプレートフレームにおける目標対象物の検出枠からのずれ量を取得することができ、目標対象物の位置と大きさの変化をよりよく推定でき、検出フレームでの目標対象物の位置をより精確に確定でき、目標追跡の速度や正確性が高くなり、追跡効果に優れ、速度が速い。 In the embodiment of the present disclosure, based on the template frame, the local region detector quickly generates a large number of candidate frames from the detection frame, and each of the K candidate frames at each position of the detection frame is a template frame. The amount of deviation from the detection frame of the target object can be obtained, the change in the position and size of the target object can be better estimated, and the position of the target object in the detection frame can be determined more accurately. The speed and accuracy of target tracking are high, the tracking effect is excellent, and the speed is fast.

本開示の目標検出方法の別の実施例では、
ニューラルネットワークにより、ビデオシーケンスにおいて時系列的に検出フレームの後に位置する少なくとも1つの他の検出フレームの特徴を抽出することと、
上記少なくとも1つの他の検出フレームの特徴を局所領域検出器に順に入力し、局所領域検出器から出力される上記少なくとも1つの他の検出フレームにおける複数の候補枠及び各候補枠の分類結果と回帰結果を順に取得し、即ち、順に上記少なくとも1つの他の検出フレームの特徴に対して操作106を実行することと、
上記少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果により、上記少なくとも1つの他の検出フレームにおける目標対象物の検出枠を順に取得し、即ち、順に上記少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果に対して操作108を実行することと、を更に含んでよい。
In another embodiment of the target detection method of the present disclosure,
A neural network is used to extract the features of at least one other detection frame that chronologically follows the detection frame in the video sequence.
The features of the at least one other detection frame are input to the local region detector in order, and the plurality of candidate frames in the at least one other detection frame output from the local region detector and the classification result and regression of each candidate frame. Acquiring the results in sequence, that is, performing operation 106 on the features of at least one of the other detection frames in sequence,
Based on the classification result and the regression result of the plurality of candidate frames of the at least one other detection frame, the detection frames of the target object in the at least one other detection frame are sequentially acquired, that is, the at least one other detection frame is sequentially acquired. It may further include executing operation 108 on the classification result and the regression result of a plurality of candidate frames of the detection frame.

本開示の目標検出方法のまた1つの実施例では、検出フレームが目標対象物の検出を行う現在フレームにおける目標対象物の存在可能な領域画像である場合に、更に、予めテンプレートフレームの中心点を中心点として、現在フレームから長さ及び/又は幅がそれぞれテンプレートフレームの画像の長さ及び/又は幅より大きい領域画像を切り出して検出フレームとすることを含んでよい。 In another embodiment of the target detection method of the present disclosure, when the detection frame is a region image in which the target object can exist in the current frame for detecting the target object, the center point of the template frame is further set in advance. As the center point, a region image whose length and / or width is larger than the length and / or width of the image of the template frame, respectively, may be cut out from the current frame and used as a detection frame.

図2は本開示の目標検出方法の別の実施例のフローチャートである。図2に示すように、該実施例の目標検出方法は以下の操作を含む。 FIG. 2 is a flowchart of another embodiment of the target detection method of the present disclosure. As shown in FIG. 2, the target detection method of the embodiment includes the following operations.

202、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出する。
ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームである。
202, the features of the template frame and the detection frame are extracted by the neural network.
Here, the template frame is an image of the detection frame of the target object, the image size of the template frame is smaller than the detection frame, and the detection frame is the current frame for detecting the target object or the target object in the current frame. It is a region image that can exist. The template frame is a frame in which the detection timing is positioned before the detection frame in the video sequence and the detection frame of the target object is specified.

本開示の各実施例の一実施形態では、該操作202において、同一のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよいし、同じ構成を有する別々のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよい。 In one embodiment of each embodiment of the present disclosure, in the operation 202, the features of the template frame and the detection frame may be extracted by the same neural network, or the template frame and the template frame may be extracted by different neural networks having the same configuration. The characteristics of each detection frame may be extracted.

選択可能な一例において、該操作202はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動するニューラルネットワークによって実行されてもよい。 In one selectable example, the operation 202 may be executed by invoking a corresponding command stored in memory by the processor or by a neural network running on the processor.

204、第3の畳み込み層によって検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が検出フレームの特徴のチャンネル数と同様な第3の特徴を取得し、第4の畳み込み層によって検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が検出フレームの特徴のチャンネル数と同様な第4の特徴を取得する。 204, the third convolution layer performs a convolution operation on the features of the detection frame, the number of channels acquires the third feature similar to the number of channels of the features of the detection frame, and the fourth convolution layer of the detection frame. A convolution operation is performed on the feature, and a fourth feature whose number of channels is the same as the number of channels of the feature of the detection frame is acquired.

選択可能な一例において、該操作204はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、それぞれプロセッサで作動する第3の畳み込み層と第4の畳み込み層により実行されてもよい。 In a selectable example, the operation 204 may be executed by invoking a corresponding command stored in memory by the processor, or may be executed by a third convolution layer and a fourth convolution layer operated by the processor, respectively. Good.

206、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得する。 206, Obtain the classification weight and regression weight of the local region detector based on the characteristics of the template frame.

本開示の各実施例の一実施形態では、第1の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第1の特徴を局所領域検出器の分類の重みとするようにしてもよい。 In one embodiment of each embodiment of the present disclosure, a convolution operation is performed on the features of the template frame by the first convolution layer, and the first feature acquired by the convolution operation is used as the weight of the classification of the local region detector. You may try to do it.

本開示の各実施例の一実施形態では、第2の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第2の特徴を局所領域検出器の回帰の重みとするようにしてもよい。 In one embodiment of each embodiment of the present disclosure, a second convolution layer performs a convolution operation on the features of the template frame, and the second feature acquired by the convolution operation is used as the regression weight of the local region detector. You may try to do it.

ここで、操作206と204は実行順序が限定されなく、同時に実行されてもよいし、任意の先後順序で実行されてもよい。 Here, the operations 206 and 204 are not limited in the execution order, and may be executed at the same time, or may be executed in any first-after order.

選択可能な一例において、該操作206はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、それぞれプロセッサで作動する第1の畳み込み層と第2の畳み込み層により実行されてもよい。 In a selectable example, the operation 206 may be executed by invoking a corresponding command stored in memory by the processor, or may be executed by a first convolution layer and a second convolution layer operated by the processor, respectively. Good.

208、分類の重みを用いて第3の特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得し、回帰の重みを用いて第4の特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得する。
ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。
208, the convolution operation is performed on the third feature using the classification weights, the classification results of a plurality of candidate frames are acquired, and the convolution operation is performed on the fourth feature using the regression weights. Get the regression result of the candidate frame of.
Here, the classification result includes the probability value which is the detection frame of the target object of each candidate frame, and the regression result includes the deviation amount from the detection frame corresponding to the template frame of each candidate frame.

選択可能な一例において、該操作208はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する局所領域検出器によって実行されてもよい。 In one selectable example, the operation 208 may be executed by invoking the corresponding command stored in memory by the processor or by a local region detector operated by the processor.

210、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得する。 210, The detection frame of the target object in the detection frame is acquired from the classification result and the regression result of the plurality of candidate frames output from the local area detector.

選択可能な一例において、該操作210はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する取得ユニットによって実行されてもよい。 In one selectable example, the operation 210 may be executed by invoking a corresponding command stored in memory by the processor or by an acquisition unit operated by the processor.

本開示の各実施例の一実施形態では、操作108又は210には、分類結果と回帰結果により複数の候補枠から1つの候補枠を選択し、選択された候補枠のずれ量により選択された候補枠を回帰させ、検出フレームにおける目標対象物の検出枠を取得することを含んでよい。 In one embodiment of each embodiment of the present disclosure, in operation 108 or 210, one candidate frame is selected from a plurality of candidate frames based on the classification result and the regression result, and is selected according to the deviation amount of the selected candidate frames. It may include regressing the candidate frame and acquiring the detection frame of the target object in the detection frame.

選択可能な一例では、分類結果と回帰結果により複数の候補枠から1つの候補枠を選択する時に、分類結果と回帰結果の重み係数により複数の候補枠から1つの候補枠を選択し、例えば、分類結果と回帰結果の重み係数により、それぞれ各候補枠の確率値と分類結果の重み係数との積と、ずれ量と回帰結果の重み係数との積との和に基づいて総合的スコアを算出し、上記複数の候補枠の総合的スコアにより上記複数の候補枠から1つの候補枠を選択するように実現することができる。 In one selectable example, when one candidate frame is selected from a plurality of candidate frames based on the classification result and the regression result, one candidate frame is selected from the plurality of candidate frames based on the weighting coefficient of the classification result and the regression result. Based on the weighting coefficients of the classification result and the regression result, the overall score is calculated based on the sum of the product of the probability value of each candidate frame and the weighting coefficient of the classification result and the product of the deviation amount and the weighting coefficient of the regression result. Then, it can be realized that one candidate frame is selected from the plurality of candidate frames based on the total score of the plurality of candidate frames.

別の選択可能な例では、上記各実施例によって回帰結果を取得した後に、更に、回帰結果の位置と大きさの変化量により候補枠の確率値を調整することを含んでよい。例えば、回帰結果の位置と大きさの変化量により候補枠の確率値を調整する。例えば、位置の変化量が大きく(即ち、位置移動が大きく)、大きさの変化量が大きい(即ち、形状変化が大きい)候補枠の確率値に対してペナルティを与えて、その確率値を低くする。それに対応して、この例では、分類結果と回帰結果により複数の候補枠から1つの候補枠を選択する時に、調整後の分類結果により複数の候補枠から1つの候補枠を選択し、例えば、調整後の確率値により複数の候補枠から確率値が最も高い候補枠を選択するように実現することができる。 Another selectable example may include, after obtaining the regression results by each of the above embodiments, further adjusting the probability value of the candidate frame according to the amount of change in the position and size of the regression results. For example, the probability value of the candidate frame is adjusted according to the amount of change in the position and size of the regression result. For example, a penalty is given to the probability value of a candidate frame in which the amount of change in position is large (that is, the amount of position movement is large) and the amount of change in size is large (that is, the shape change is large), and the probability value is lowered. To do. Correspondingly, in this example, when one candidate frame is selected from a plurality of candidate frames based on the classification result and the regression result, one candidate frame is selected from the plurality of candidate frames based on the adjusted classification result, for example. It can be realized that the candidate frame having the highest probability value is selected from a plurality of candidate frames according to the adjusted probability value.

選択可能な一例において、回帰結果の位置と大きさの変化量により候補枠の確率値を調整する上記操作は、プロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する調整ユニットによって実行されてもよい。 In one selectable example, the above operation of adjusting the probability value of the candidate frame according to the amount of change in the position and size of the regression result may be executed by calling the corresponding command stored in the memory by the processor, and the processor may execute the operation. It may be performed by an operating adjustment unit.

図3は本開示の目標検出ネットワークのトレーニング方法の一実施例のフローチャートである。本開示の実施例の目標検出ネットワークは、本開示の実施例のニューラルネットワーク、第1の畳み込み層及び第2の畳み込み層を含む。図3に示すように、該実施例のトレーニング方法は以下の操作を含む。 FIG. 3 is a flowchart of an embodiment of the training method of the target detection network of the present disclosure. The target detection network of the embodiments of the present disclosure includes the neural network of the embodiments of the present disclosure, a first convolution layer and a second convolution layer. As shown in FIG. 3, the training method of the embodiment includes the following operations.

302、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出する。
ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームである。
302, the features of the template frame and the detection frame are extracted by the neural network.
Here, the template frame is an image of the detection frame of the target object, the image size of the template frame is smaller than the detection frame, and the detection frame is the current frame for detecting the target object or the target object in the current frame. It is a region image that can exist. The template frame is a frame in which the detection timing is positioned before the detection frame in the video sequence and the detection frame of the target object is specified.

本開示の各実施例の一実施形態では、該操作302において、同一のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよいし、同じ構成を有する別々のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよい。 In one embodiment of each embodiment of the present disclosure, in the operation 302, the features of the template frame and the detection frame may be extracted by the same neural network, or the template frame and the template frame may be extracted by different neural networks having the same configuration. The characteristics of each detection frame may be extracted.

選択可能な一例において、該操作302はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動するニューラルネットワークによって実行されてもよい。 In one selectable example, the operation 302 may be executed by invoking a corresponding command stored in memory by the processor or by a neural network running on the processor.

304、第1の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第1の特徴を局所領域検出器の分類の重みとし、第2の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第2の特徴を局所領域検出器の回帰の重みとする。 304, the first convolution layer performs a convolution operation on the features of the template frame, the first feature acquired by the convolution operation is used as the weight of the classification of the local area detector, and the second convolution layer of the template frame. A convolution operation is performed on the feature, and the second feature acquired by the convolution operation is used as the regression weight of the local region detector.

選択可能な一例において、該操作304はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、それぞれプロセッサで作動する第1の畳み込み層と第2の畳み込み層により実行されてもよい。 In a selectable example, the operation 304 may be executed by invoking a corresponding command stored in memory by the processor, or may be executed by a first convolution layer and a second convolution layer operated by the processor, respectively. Good.

306、検出フレームの特徴を局所領域検出器に入力し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得する。
ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。
306, The characteristics of the detection frame are input to the local area detector, and the classification result and the regression result of a plurality of candidate frames output from the local area detector are acquired.
Here, the classification result includes the probability value which is the detection frame of the target object of each candidate frame, and the regression result includes the deviation amount from the detection frame corresponding to the template frame of each candidate frame.

本開示の各実施例の一実施形態では、該操作306は、分類の重みを用いて検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、回帰の重みを用いて検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することと、を含んでよい。 In one embodiment of each embodiment of the present disclosure, the operation 306 performs a convolution operation on the features of the detection frame using the classification weights to acquire the classification results of a plurality of candidate frames, and regresses. It may include performing a convolution operation on the feature of the detection frame using the weight and acquiring the regression result of a plurality of candidate frames.

選択可能な一例において、該操作306はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する領域検出器によって実行されてもよい。 In one selectable example, the operation 306 may be executed by invoking the corresponding command stored in memory by the processor or by a region detector operated by the processor.

308、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得する。 308, The detection frame of the target object in the detection frame is acquired from the classification result and the regression result of a plurality of candidate frames output from the local area detector.

選択可能な一例において、該操作308はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する取得ユニットによって実行されてもよい。 In one selectable example, the operation 308 may be executed by invoking a corresponding command stored in memory by the processor or by an acquisition unit operated by the processor.

310、取得された検出フレームにおける目標対象物の検出枠を予測検出枠とし、検出フレームのラベリング情報と予測検出枠に基づいてニューラルネットワーク、第1の畳み込み層及び第2の畳み込み層をトレーニングする。 310. Using the detection frame of the target object in the acquired detection frame as the prediction detection frame, the neural network, the first convolution layer, and the second convolution layer are trained based on the labeling information of the detection frame and the prediction detection frame.

選択可能な一例において、該操作310はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動するトレーニングユニットによって実行されてもよい。 In one selectable example, the operation 310 may be executed by invoking a corresponding command stored in memory by the processor or by a training unit operated by the processor.

本開示の上記実施例の目標検出ネットワークのトレーニング方法によれば、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出し、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得し、検出フレームの特徴を局所領域検出器に入力し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得し、検出フレームのラベリング情報と予測検出枠に基づいて目標検出ネットワークをトレーニングする。本開示の実施例に基づいてトレーニングされた目標検出ネットワークによれば、同一のニューラルネットワーク又は同じ構成を有するニューラルネットワークにより同一の目標対象物の類似特徴をよりよく抽出でき、異なるフレームから抽出された目標対象物の特徴変化が小さく、検出フレームにおける目標対象物の検出結果の正確性を高めることに寄与する。また、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することにより、局所領域検出器は検出フレームの複数の候補枠の分類結果と回帰結果を取得し、更に検出フレームにおける前記目標対象物の検出枠を取得することができ、目標対象物の位置と大きさの変化をよりよく推定でき、検出フレームでの目標対象物の位置をより精確に確定でき、目標追跡の速度や正確性が高くなり、追跡効果に優れ、速度が速い。 According to the target detection network training method of the above-described embodiment of the present disclosure, the characteristics of the template frame and the detection frame are extracted by the neural network, and the weight and regression of the classification of the local region detector based on the characteristics of the template frame. The weights are acquired, the characteristics of the detection frame are input to the local area detector, the classification results and regression results of multiple candidate frames output from the local area detector are acquired, and multiple output from the local area detector. Based on the classification result and regression result of the candidate frame, the detection frame of the target object in the detection frame is acquired, and the target detection network is trained based on the labeling information of the detection frame and the prediction detection frame. According to the target detection network trained based on the examples of the present disclosure, similar features of the same target object can be better extracted by the same neural network or a neural network having the same configuration, and extracted from different frames. The characteristic change of the target object is small, which contributes to improving the accuracy of the detection result of the target object in the detection frame. In addition, by acquiring the classification weight and the regression weight of the local area detector based on the characteristics of the template frame, the local area detector acquires the classification result and the regression result of a plurality of candidate frames of the detection frame, and further. The detection frame of the target object in the detection frame can be acquired, the change in the position and size of the target object can be better estimated, the position of the target object in the detection frame can be determined more accurately, and the target can be determined. The tracking speed and accuracy are high, the tracking effect is excellent, and the speed is fast.

本開示のトレーニング方法の別の実施例では、ニューラルネットワークによりビデオシーケンスにおいて時系列的に検出フレームの後に位置する少なくとも1つの他の検出フレームの特徴を抽出することと、
少なくとも1つの他の検出フレームの特徴を局所領域検出器に順に入力し、局所領域検出器から出力される少なくとも1つの他の検出フレームにおける複数の候補枠及び各候補枠の分類結果と回帰結果を順に取得し、即ち、順に少なくとも1つの他の検出フレームの特徴に対して操作306を実行することと、
少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果により、少なくとも1つの他の検出フレームにおける目標対象物の検出枠を順に取得し、即ち、順に少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果に対して操作308を実行することと、を更に含んでよい。
In another embodiment of the training method of the present disclosure, a neural network is used to extract features of at least one other detection frame that chronologically follows the detection frame in the video sequence.
The features of at least one other detection frame are input to the local region detector in order, and the classification result and regression result of a plurality of candidate frames and each candidate frame in at least one other detection frame output from the local region detector are input. Acquiring in sequence, i.e. performing operation 306 on features of at least one other detection frame in sequence.
Based on the classification result and the regression result of the plurality of candidate frames of at least one other detection frame, the detection frames of the target object in at least one other detection frame are sequentially acquired, that is, the detection frames of at least one other detection frame are sequentially acquired. The operation 308 may be further included for the classification result and the regression result of a plurality of candidate frames.

本開示のトレーニング方法のまた1つの実施例では、検出フレームが目標対象物の検出を行う現在フレームにおける目標対象物の存在可能な領域画像である場合に、予めテンプレートフレームの中心点を中心点として、現在フレームから長さ及び/又は幅がそれぞれテンプレートフレームの画像の長さ及び/又は幅より大きい領域画像を切り出して検出フレームとすることを更に含んでよい。 In another embodiment of the training method of the present disclosure, when the detection frame is a region image in which the target object can exist in the current frame for detecting the target object, the center point of the template frame is set as the center point in advance. It may further include cutting out a region image whose length and / or width is larger than the length and / or width of the image of the template frame, respectively, from the current frame to obtain a detection frame.

図4は本開示の目標検出ネットワークのトレーニング方法の別の実施例のフローチャートである。本開示の実施例の目標検出ネットワークは、本開示の実施例のニューラルネットワーク、第1の畳み込み層、第2の畳み込み層、第3の畳み込み層及び第4の畳み込み層を含む。図4に示すように、該実施例のトレーニング方法は以下の操作を含む。 FIG. 4 is a flowchart of another embodiment of the training method of the target detection network of the present disclosure. The target detection network of the embodiments of the present disclosure includes the neural network of the embodiments of the present disclosure, a first convolution layer, a second convolution layer, a third convolution layer, and a fourth convolution layer. As shown in FIG. 4, the training method of the embodiment includes the following operations.

402、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出する。
ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームである。
402, the features of the template frame and the detection frame are extracted by the neural network.
Here, the template frame is an image of the detection frame of the target object, the image size of the template frame is smaller than the detection frame, and the detection frame is the current frame for detecting the target object or the target object in the current frame. It is a region image that can exist. The template frame is a frame in which the detection timing is positioned before the detection frame in the video sequence and the detection frame of the target object is specified.

本開示の各実施例の一実施形態では、該操作402において、同一のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよいし、同じ構成を有する別々のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよい。 In one embodiment of each embodiment of the present disclosure, in the operation 402, the features of the template frame and the detection frame may be extracted by the same neural network, or the template frame and the template frame may be extracted by different neural networks having the same configuration. The characteristics of each detection frame may be extracted.

選択可能な一例において、該操作402はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動するニューラルネットワークによって実行されてもよい。 In one selectable example, the operation 402 may be executed by invoking a corresponding command stored in memory by the processor or by a neural network running on the processor.

404、第3の畳み込み層によって検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が検出フレームの特徴のチャンネル数と同様な第3の特徴を取得し、第4の畳み込み層によって検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が検出フレームの特徴のチャンネル数と同様な第4の特徴を取得する。 404, the third convolution layer performs a convolution operation on the features of the detection frame, the number of channels acquires the third feature similar to the number of channels of the features of the detection frame, and the fourth convolution layer of the detection frame. A convolution operation is performed on the feature, and a fourth feature whose number of channels is the same as the number of channels of the feature of the detection frame is acquired.

選択可能な一例において、該操作404はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、それぞれプロセッサで作動する第3の畳み込み層と第4の畳み込み層により実行されてもよい。 In a selectable example, the operation 404 may be executed by invoking a corresponding command stored in memory by the processor, or may be executed by a third convolution layer and a fourth convolution layer operated by the processor, respectively. Good.

406、第1の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第1の特徴を局所領域検出器の分類の重みとし、第2の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第2の特徴を局所領域検出器の回帰の重みとする。 406, the first convolution layer performs a convolution operation on the features of the template frame, the first feature acquired by the convolution operation is used as the weight of the classification of the local area detector, and the second convolution layer of the template frame. A convolution operation is performed on the feature, and the second feature acquired by the convolution operation is used as the regression weight of the local region detector.

ここで、操作406と404は実行順序が限定されなく、同時に実行されてもよいし、任意の先後順序で実行されてもよい。 Here, the operations 406 and 404 are not limited in the execution order, and may be executed at the same time, or may be executed in any first-after order.

選択可能な一例において、該操作406はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、それぞれプロセッサで作動する第1の畳み込み層と第2の畳み込み層により実行されてもよい。 In a selectable example, the operation 406 may be executed by invoking a corresponding command stored in memory by the processor, or may be executed by a first convolution layer and a second convolution layer operated by the processor, respectively. Good.

408、分類の重みを用いて第3の特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得し、回帰の重みを用いて第4の特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得する。
ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。
408, the convolution operation is performed on the third feature using the classification weight, the classification results of a plurality of candidate frames are acquired, and the convolution operation is performed on the fourth feature using the regression weight. Get the regression result of the candidate frame of.
Here, the classification result includes the probability value which is the detection frame of the target object of each candidate frame, and the regression result includes the deviation amount from the detection frame corresponding to the template frame of each candidate frame.

選択可能な一例において、該操作408はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する局所領域検出器によって実行されてもよい。 In a selectable example, the operation 408 may be executed by invoking a corresponding command stored in memory by the processor or by a local region detector operated by the processor.

410、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得する。 410, The detection frame of the target object in the detection frame is acquired from the classification result and the regression result of a plurality of candidate frames output from the local area detector.

選択可能な一例において、該操作410はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する第1の特徴抽出ユニット701によって実行されてもよい。 In a selectable example, the operation 410 may be executed by invoking a corresponding command stored in memory by the processor, or may be executed by a first feature extraction unit 701 running on the processor.

412、取得された検出フレームにおける目標対象物の検出枠を予測検出枠とし、ラベリングされた検出フレームでの目標対象物の検出枠の位置及び大きさと予測検出枠の位置及び大きさとの差により、ニューラルネットワーク、第1の畳み込み層及び第2の畳み込み層の重み値を調整する。 412, the detection frame of the target object in the acquired detection frame is used as the prediction detection frame, and the difference between the position and size of the detection frame of the target object in the labeled detection frame and the position and size of the prediction detection frame Adjust the weight values of the neural network, the first convolution layer and the second convolution layer.

選択可能な一例において、該操作412はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動するトレーニングユニットによって実行されてもよい。 In one selectable example, the operation 412 may be executed by invoking a corresponding command stored in memory by the processor or by a training unit operated by the processor.

本開示の各実施例の一実施形態では、操作308又は410には、分類結果と回帰結果により複数の候補枠から1つの候補枠を選択し、選択された候補枠のずれ量により選択された候補枠を回帰させ、検出フレームにおける目標対象物の検出枠を取得することを含んでよい。 In one embodiment of each embodiment of the present disclosure, in operation 308 or 410, one candidate frame is selected from a plurality of candidate frames based on the classification result and the regression result, and is selected according to the deviation amount of the selected candidate frames. It may include regressing the candidate frame and acquiring the detection frame of the target object in the detection frame.

選択可能な一例では、分類結果と回帰結果により複数の候補枠から1つの候補枠を選択する時に、分類結果と回帰結果の重み係数により複数の候補枠から1つの候補枠を選択し、例えば、分類結果と回帰結果の重み係数により、それぞれ各候補枠の確率値と分類結果の重み係数との積と、ずれ量と回帰結果の重み係数との積との和に基づいて総合的スコアを算出し、上記複数の候補枠の総合的スコアにより上記複数の候補枠から確率値が高くてずれ量が小さい候補枠を選択するように実現することができる。 In one selectable example, when one candidate frame is selected from a plurality of candidate frames based on the classification result and the regression result, one candidate frame is selected from the plurality of candidate frames based on the weighting coefficient of the classification result and the regression result. Based on the weighting coefficients of the classification result and the regression result, the overall score is calculated based on the sum of the product of the probability value of each candidate frame and the weighting coefficient of the classification result and the product of the deviation amount and the weighting coefficient of the regression result. Then, it is possible to select a candidate frame having a high probability value and a small deviation amount from the plurality of candidate frames based on the total score of the plurality of candidate frames.

別の選択可能な例では、上記各実施例によって回帰結果を取得した後に、更に、回帰結果の位置と大きさの変化量により候補枠の確率値を調整することを含んでよい。例えば、回帰結果の位置と大きさの変化量により候補枠の確率値を調整する。それに対応して、この例では、分類結果と回帰結果により複数の候補枠から1つの候補枠を選択する時に、調整後の分類結果により複数の候補枠から1つの候補枠を選択し、例えば、調整後の確率値により複数の候補枠から確率値が最も高い候補枠を選択するように実現することができる。 Another selectable example may include, after obtaining the regression results by each of the above embodiments, further adjusting the probability value of the candidate frame according to the amount of change in the position and size of the regression results. For example, the probability value of the candidate frame is adjusted according to the amount of change in the position and size of the regression result. Correspondingly, in this example, when one candidate frame is selected from a plurality of candidate frames based on the classification result and the regression result, one candidate frame is selected from the plurality of candidate frames based on the adjusted classification result, for example. It can be realized that the candidate frame having the highest probability value is selected from a plurality of candidate frames according to the adjusted probability value.

選択可能な一例において、上記回帰結果の位置と大きさの変化量により候補枠の確率値を調整する操作はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する調整ユニットによって実行されてもよい。 In one selectable example, the operation of adjusting the probability value of the candidate frame according to the amount of change in the position and size of the regression result may be executed by calling the corresponding command stored in the memory by the processor, and is operated by the processor. It may be performed by the adjusting unit.

本開示の各実施例の一実施形態では、操作308又は410には、分類結果と回帰結果により複数の候補枠から1つの候補枠を選択し、選択された候補枠のずれ量により選択された候補枠を回帰させ、検出フレームにおける目標対象物の検出枠を取得することを含んでよい。 In one embodiment of each embodiment of the present disclosure, in operation 308 or 410, one candidate frame is selected from a plurality of candidate frames based on the classification result and the regression result, and is selected according to the deviation amount of the selected candidate frames. It may include regressing the candidate frame and acquiring the detection frame of the target object in the detection frame.

選択可能な一例では、分類結果と回帰結果により複数の候補枠から1つの候補枠を選択する時に、分類結果と回帰結果の重み係数により複数の候補枠から1つの候補枠を選択し、例えば、分類結果と回帰結果の重み係数により、それぞれ各候補枠の確率値とずれ量に基づいて総合的スコアを算出し、上記複数の候補枠の総合的スコアにより上記複数の候補枠から1つの候補枠を選択するように実現することができる。 In one selectable example, when one candidate frame is selected from a plurality of candidate frames based on the classification result and the regression result, one candidate frame is selected from the plurality of candidate frames based on the weighting coefficient of the classification result and the regression result. The overall score is calculated based on the probability value and the amount of deviation of each candidate frame based on the weighting coefficient of the classification result and the regression result, and one candidate frame from the plurality of candidate frames is calculated based on the overall score of the plurality of candidate frames. Can be realized to select.

別の選択可能な例では、上記各実施例によって回帰結果を取得した後に、更に、回帰結果の位置と大きさの変化量により候補枠の確率値を調整することを含んでよい。例えば、回帰結果の位置と大きさの変化量により候補枠の確率値を調整する。例えば、位置の変化量が大きく(即ち、位置移動が大きく)、大きさの変化量が大きい(即ち、形状変化が大きい)候補枠の確率値に対してペナルティを与えて、その確率値を低くする。それに対応して、この例では、分類結果と回帰結果により複数の候補枠から1つの候補枠を選択する時に、調整後の分類結果により複数の候補枠から1つの候補枠を選択し、例えば、調整後の確率値により複数の候補枠から確率値が最も高い候補枠を選択するように実現することができる。 Another selectable example may include, after obtaining the regression results by each of the above embodiments, further adjusting the probability value of the candidate frame according to the amount of change in the position and size of the regression results. For example, the probability value of the candidate frame is adjusted according to the amount of change in the position and size of the regression result. For example, a penalty is given to the probability value of a candidate frame in which the amount of change in position is large (that is, the amount of position movement is large) and the amount of change in size is large (that is, the shape change is large), and the probability value is lowered. To do. Correspondingly, in this example, when one candidate frame is selected from a plurality of candidate frames based on the classification result and the regression result, one candidate frame is selected from the plurality of candidate frames based on the adjusted classification result, for example. It can be realized that the candidate frame having the highest probability value is selected from a plurality of candidate frames according to the adjusted probability value.

本開示の各実施例では、局所領域検出器は、第3の畳み込み層、第4の畳み込み層及び2つの畳み込み操作ユニットを含んでよい。ここで、局所領域検出器と第1の畳み込み層、第2の畳み込み層が結合されて形成された局所領域検出器はリージョンプロポーザルネットワーク(Region Proposal Network)と呼んでもよい。 In each embodiment of the present disclosure, the local region detector may include a third convolution layer, a fourth convolution layer and two convolution operation units. Here, the local region detector formed by combining the local region detector, the first convolution layer, and the second convolution layer may be referred to as a region proposal network (Region Proposal Network).

本開示の実施例で提供される目標検出方法、目標検出ネットワークのトレーニング方法のいずれか一つはデータ処理能力を有するいかなる適切な機器によって実行されてもよく、機器は端末装置とサーバ等を含むが、それらに限定されない。又は、本開示の実施例で提供される目標検出方法、目標検出ネットワークのトレーニング方法のいずれか一つはプロセッサによって実行されてもよく、例えば、プロセッサはメモリに記憶された対応のコマンドを呼び出すことで本開示の実施例に係わる目標検出方法、目標検出ネットワークのトレーニング方法のいずれか一つを実行する。以下、詳細な説明を省略する。 Any one of the target detection method and the target detection network training method provided in the embodiments of the present disclosure may be executed by any suitable device having data processing capability, and the device includes a terminal device, a server, and the like. However, it is not limited to them. Alternatively, any one of the target detection method and the target detection network training method provided in the embodiments of the present disclosure may be executed by the processor, for example, the processor calls the corresponding command stored in the memory. In, either one of the target detection method and the target detection network training method according to the embodiment of the present disclosure is executed. Hereinafter, detailed description will be omitted.

当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完成できることを理解すべき、前記プログラムは、ROM、RAM、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムが実行されると、上記方法の実施例を含むステップを実行する。 Those skilled in the art should understand that all or part of the steps to realize an embodiment of the above method can be completed by programmatically issuing instructions to the relevant hardware, said program being ROM, RAM, magnetic disk or A program code such as an optical disk can be stored in a computer-readable storage medium including various media capable of storing the program code, and when the program is executed, a step including an embodiment of the above method is executed.

図5は本開示の目標検出装置の一実施例の構成模式図である。本開示の各実施例の目標検出装置は、本開示の上記の各目標検出方法の実施例を実現するために利用可能である。図5に示すように、該実施例の目標検出装置はニューラルネットワーク、第1の畳み込み層、第2の畳み込み層、局所領域検出器及び取得ユニットを含む。 FIG. 5 is a schematic configuration diagram of an embodiment of the target detection device of the present disclosure. The target detection device of each embodiment of the present disclosure can be used to realize the embodiment of each of the above-mentioned target detection methods of the present disclosure. As shown in FIG. 5, the target detector of the embodiment includes a neural network, a first convolution layer, a second convolution layer, a local region detector and an acquisition unit.

ニューラルネットワークは、検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが検出フレームより小さいテンプレートフレームの特徴をそれぞれ抽出するために用いられる。ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像の大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームである。テンプレートフレームと検出フレームの特徴を抽出するニューラルネットワークは同一のニューラルネットワークであってもよいし、同じ構成を有する別々のニューラルネットワークであってもよい。 The neural network is used to extract the features of the detection frame and the image of the detection frame of the target object, and the size of the image is smaller than the detection frame, respectively. Here, the template frame is an image of the detection frame of the target object, the size of the image of the template frame is smaller than the detection frame, and the detection frame is the current frame for detecting the target object or the target object in the current frame. It is a possible area image of. The template frame is a frame in which the detection timing is positioned before the detection frame in the video sequence and the detection frame of the target object is specified. The neural network that extracts the features of the template frame and the detection frame may be the same neural network, or may be different neural networks having the same configuration.

第1の畳み込み層は、前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第1の特徴を前記局所領域検出器の分類の重みとするために用いられる。 The first convolution layer is used to perform a convolution operation on the features of the template frame, and to use the first features acquired by the convolution operation as the weight of the classification of the local region detector.

第2の畳み込み層は、第2の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第2の特徴を前記局所領域検出器の回帰の重みとするために用いられる。 The second convolution layer is used to perform a convolution operation on the features of the template frame by the second convolution layer, and to use the second features acquired by the convolution operation as the regression weight of the local region detector. Used.

局所領域検出器は、検出フレームの特徴により複数の候補枠の分類結果と回帰結果を出力するために用いられ、ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。 The local region detector is used to output the classification result and the regression result of a plurality of candidate frames according to the characteristics of the detection frame, and here, the classification result is the probability that the classification result is the detection frame of each target object of each candidate frame. The value is included, and the regression result includes the amount of deviation from the detection frame corresponding to the template frame of each candidate frame.

取得ユニットは、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得するために用いられる。 The acquisition unit is used to acquire the detection frame of the target object in the detection frame based on the classification result and the regression result of a plurality of candidate frames output from the local area detector.

本開示の上記実施例の目標検出装置によれば、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出し、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得し、検出フレームの特徴を局所領域検出器に入力し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得する。本開示の実施例では、同一のニューラルネットワーク又は同じ構成を有するニューラルネットワークにより同一の目標対象物の類似特徴をよりよく抽出でき、異なるフレームから抽出された目標対象物の特徴変化が小さく、検出フレームにおける目標対象物の検出結果の正確性を高めることに寄与する。また、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することにより、局所領域検出器は検出フレームの複数の候補枠の分類結果と回帰結果を取得し、更に検出フレームにおける前記目標対象物の検出枠を取得することができ、目標対象物の位置と大きさの変化をよりよく推定でき、検出フレームでの目標対象物の位置をより精確に確定でき、目標追跡の速度や正確性が高くなり、追跡効果に優れ、速度が速い。 According to the target detection device of the above embodiment of the present disclosure, the characteristics of the template frame and the detection frame are extracted by the neural network, and the classification weight and the regression weight of the local region detector are acquired based on the characteristics of the template frame. Then, the characteristics of the detection frame are input to the local area detector, the classification result and regression result of the multiple candidate frames output from the local area detector are acquired, and the multiple candidate frames output from the local area detector are acquired. The detection frame of the target object in the detection frame is acquired from the classification result and the regression result. In the embodiment of the present disclosure, similar features of the same target object can be better extracted by the same neural network or a neural network having the same configuration, the feature change of the target object extracted from different frames is small, and the detection frame. Contributes to improving the accuracy of the detection result of the target object in. In addition, by acquiring the classification weight and the regression weight of the local area detector based on the characteristics of the template frame, the local area detector acquires the classification result and the regression result of a plurality of candidate frames of the detection frame, and further. The detection frame of the target object in the detection frame can be acquired, the change in the position and size of the target object can be better estimated, the position of the target object in the detection frame can be determined more accurately, and the target can be determined. The tracking speed and accuracy are high, the tracking effect is excellent, and the speed is fast.

本開示の目標検出装置の各実施例の一実施形態では、局所領域検出器は、分類の重みを用いて検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、回帰の重みを用いて検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することとに用いられる。 In one embodiment of each embodiment of the target detection apparatus of the present disclosure, the local region detector performs a convolution operation on the features of the detection frame using the classification weights to acquire the classification results of a plurality of candidate frames. It is also used to perform a convolution operation on the features of the detection frame using the regression weights and acquire the regression results of a plurality of candidate frames.

検出フレームが目標対象物の検出を行う現在フレームにおける目標対象物の存在可能な領域画像である場合に、本開示の目標検出装置の別の実施例では、テンプレートフレームの中心点を中心点として、現在フレームから長さ及び/又は幅がそれぞれテンプレートフレームの画像の長さ及び/又は幅より大きい領域画像を切り出して検出フレームとするための前処理ユニットを更に含んでよい。図6に示すように、本開示の目標検出装置の別の実施例の構成模式図である。 In another embodiment of the target detection device of the present disclosure, where the detection frame is an image of a region in which the target object can exist in the current frame for detecting the target object, the center point of the template frame is set as the center point. A preprocessing unit for cutting out a region image whose length and / or width is larger than the length and / or width of the image of the template frame, respectively, from the current frame and making it a detection frame may be included. As shown in FIG. 6, it is a block diagram of another embodiment of the target detection apparatus of this disclosure.

また、図6を再度参照し、本開示の目標検出装置のまた1つの実施例では、検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が検出フレームの特徴のチャンネル数と同様な第3の特徴を取得するための第3の畳み込み層を更に含んでよい。それに対応して、該実施例では、局所領域検出器は、分類の重みを用いて第3の特徴に対して畳み込み操作を行うために用いられる。 Further, referring to FIG. 6 again, in another embodiment of the target detection device of the present disclosure, a convolution operation is performed on the feature of the detection frame, and the number of channels is the same as the number of channels of the feature of the detection frame. A third convolution layer may be further included to obtain the characteristics of. Correspondingly, in this embodiment, the local region detector is used to perform a convolution operation on the third feature using the classification weights.

また、図6を再度参照し、本開示の目標検出装置の更なる別の実施例では、検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が検出フレームの特徴のチャンネル数と同様な第4の特徴を取得するための第4の畳み込み層を更に含んでよい。それに対応して、該実施例では、局所領域検出器は、回帰の重みを用いて第4の特徴に対して畳み込み操作を行うために用いられる。 Further, referring to FIG. 6 again, in yet another embodiment of the target detection device of the present disclosure, a convolution operation is performed on the feature of the detection frame, and the number of channels is the same as the number of channels of the feature of the detection frame. A fourth convolutional layer for acquiring the characteristics of 4 may be further included. Correspondingly, in this embodiment, the local region detector is used to perform a convolution operation on the fourth feature using the regression weights.

本開示の目標検出装置の各実施例の別の実施形態では、取得ユニットは、分類結果と回帰結果により複数の候補枠から1つの候補枠を選択し、選択された候補枠のずれ量により選択された候補枠を回帰させ、検出フレームにおける目標対象物の検出枠を取得するために用いられる。 In another embodiment of each embodiment of the target detection apparatus of the present disclosure, the acquisition unit selects one candidate frame from a plurality of candidate frames based on the classification result and the regression result, and selects by the deviation amount of the selected candidate frames. It is used to regress the candidate frame and acquire the detection frame of the target object in the detection frame.

例示的には、取得ユニットは分類結果と回帰結果により複数の候補枠から1つの候補枠を選択する時に、分類結果と回帰結果の重み係数により複数の候補枠から1つの候補枠を選択するために用いられる。 Illustratively, when the acquisition unit selects one candidate frame from a plurality of candidate frames based on the classification result and the regression result, the acquisition unit selects one candidate frame from the plurality of candidate frames based on the weighting coefficient of the classification result and the regression result. Used for.

また、図6を再度参照し、本開示の目標検出装置の更なる別の実施例では、回帰結果により分類結果を調整するための調整ユニットを更に含んでよい。それに対応して、取得ユニットは分類結果と回帰結果により複数の候補枠から1つの候補枠を選択する時に、調整後の分類結果により複数の候補枠から1つの候補枠を選択するために用いられる。 Also, with reference to FIG. 6 again, in yet another embodiment of the target detection apparatus of the present disclosure, an adjustment unit for adjusting the classification result based on the regression result may be further included. Correspondingly, the acquisition unit is used to select one candidate frame from a plurality of candidate frames according to the adjusted classification result when selecting one candidate frame from a plurality of candidate frames based on the classification result and the regression result. ..

図7は本開示の目標検出装置の更なる別の実施例の構成模式図である。該実施例の目標検出装置は、本開示の図3〜図4の目標検出ネットワークのトレーニング方法の実施例のいずれか一つを実現するために利用可能である。図7に示すように、図5又は図6に示す実施例と比べると、該実施例の目標検出装置は、取得された検出フレームにおける目標対象物の検出枠を予測検出枠とし、検出フレームのラベリング情報と予測検出枠に基づいてニューラルネットワーク、第1の畳み込み層及び第2の畳み込み層をトレーニングするためのトレーニングユニットを更に含む。 FIG. 7 is a schematic configuration diagram of still another embodiment of the target detection device of the present disclosure. The target detection device of the embodiment can be used to realize any one of the examples of the training method of the target detection network of FIGS. 3 to 4 of the present disclosure. As shown in FIG. 7, as compared with the embodiment shown in FIG. 5 or 6, the target detection device of the embodiment uses the detection frame of the target object in the acquired detection frame as the prediction detection frame, and the detection frame of the detection frame. It further includes a neural network, a training unit for training the first convolution layer and the second convolution layer based on the labeling information and the predictive detection frame.

一実施形態では、検出フレームのラベリング情報は、ラベリングされた検出フレームでの目標対象物の検出枠の位置と大きさを含む。それに対応して、該実施形態では、トレーニングユニットは、ラベリングされた検出枠の位置及び大きさと予測検出枠の位置及び大きさとの差により、ニューラルネットワーク、第1の畳み込み層及び第2の畳み込み層の重み値を調整するために用いられる。 In one embodiment, the detection frame labeling information includes the position and size of the detection frame of the target object in the labeled detection frame. Correspondingly, in the embodiment, the training unit has a neural network, a first convolution layer and a second convolution layer due to the difference between the position and size of the labeled detection frame and the position and size of the predicted detection frame. It is used to adjust the weight value of.

本開示の上記実施例によれば、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出し、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得し、検出フレームの特徴を局所領域検出器に入力し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得し、検出フレームのラベリング情報と予測検出枠に基づいて目標検出ネットワークをトレーニングする。本開示の実施例に基づいてトレーニングされた目標検出ネットワークによれば、同一のニューラルネットワーク又は同じ構成を有するニューラルネットワークにより同一の目標対象物の類似特徴をよりよく抽出でき、異なるフレームから抽出された目標対象物の特徴変化が小さく、検出フレームにおける目標対象物の検出結果の正確性を高めることに寄与する。また、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することにより、局所領域検出器は検出フレームの複数の候補枠の分類結果と回帰結果を取得し、更に検出フレームにおける前記目標対象物の検出枠を取得することができ、目標対象物の位置と大きさの変化をよりよく推定でき、検出フレームでの目標対象物の位置をより精確に確定でき、目標追跡の速度や正確性が高くなり、追跡効果に優れ、速度が速い。 According to the above embodiment of the present disclosure, the characteristics of the template frame and the detection frame are extracted by the neural network, the classification weight of the local region detector and the regression weight are acquired based on the characteristics of the template frame, and the detection frame is obtained. Is input to the local area detector, the classification result and regression result of multiple candidate frames output from the local area detector are acquired, and the classification result and regression of multiple candidate frames output from the local area detector are acquired. Based on the result, the detection frame of the target object in the detection frame is acquired, and the target detection network is trained based on the labeling information of the detection frame and the prediction detection frame. According to the target detection network trained based on the examples of the present disclosure, similar features of the same target object can be better extracted by the same neural network or a neural network having the same configuration, and extracted from different frames. The characteristic change of the target object is small, which contributes to improving the accuracy of the detection result of the target object in the detection frame. In addition, by acquiring the classification weight and the regression weight of the local area detector based on the characteristics of the template frame, the local area detector acquires the classification result and the regression result of a plurality of candidate frames of the detection frame, and further. The detection frame of the target object in the detection frame can be acquired, the change in the position and size of the target object can be better estimated, the position of the target object in the detection frame can be determined more accurately, and the target can be determined. The tracking speed and accuracy are high, the tracking effect is excellent, and the speed is fast.

図8は本開示の目標検出装置の一適用実施例の構成模式図である。図9は本開示の目標検出装置の別の適用実施例の構成模式図である。図8及び図9では、LxMxN(例えば、256x20x20)において、Lはチャンネル数を表し、MとNはそれぞれ高さ(即ち、長さ)と幅を表す。 FIG. 8 is a schematic configuration diagram of an application embodiment of the target detection device of the present disclosure. FIG. 9 is a schematic configuration diagram of another application embodiment of the target detection device of the present disclosure. In FIGS. 8 and 9, at LxMxN (eg, 256x20x20), L represents the number of channels and M and N represent the height (ie, length) and width, respectively.

本開示の実施例は、本開示の上記実施例のいずれか1つの目標検出装置を含む電子機器を更に提供する。 The embodiments of the present disclosure further provide an electronic device that includes a target detector of any one of the above embodiments of the present disclosure.

本開示の実施例は、実行可能コマンドを記憶するためのメモリと、メモリと通信して、実行可能コマンドを実行することにより本開示の上記実施例のいずれか1つの目標検出方法又は目標検出ネットワークのトレーニング方法の操作を完成するためのプロセッサと、を含む別の電子機器を更に提供する。 The embodiments of the present disclosure include a memory for storing an executable command and a target detection method or target detection network of any one of the above embodiments of the present disclosure by communicating with the memory and executing the executable command. Further provides additional electronic equipment, including a processor for completing the operation of the training method.

図10は本開示の電子機器の一適用実施例の構成模式図である。以下、本願の実施例の端末装置又はサーバを実現するのに適する電子機器の構成模式図を示す図10を参照する。図10に示すように、該電子機器は1つ又は複数のプロセッサ、通信部などを含む。前記1つ又は複数のプロセッサは、例えば、1つ又は複数の中央処理ユニット(CPU)、及び/又は1つ又は複数の画像プロセッサ(GPU)などであり、プロセッサは、読み取り専用メモリ(ROM)に記憶された実行可能コマンド又は記憶部からランダムアクセスメモリ(RAM)にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信部はネットワークカードを含んでよいが、それに限定されなく、前記ネットワークカードはIB(Infiniband)ネットワークカードを含んでよいが、それに限定されない。プロセッサは実行可能コマンドを実行するように読み取り専用メモリ及び/又はランダムアクセスメモリと通信し、バスを介して通信部に接続され、通信部を介して他の対象装置と通信して、本開示の実施例で提供される方法のいずれか一項に対応する操作を完成してよい。例えば、ニューラルネットワークにより、検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をそれぞれ抽出し、前記テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得し、前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得する。更に、例えば、ニューラルネットワークにより、検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をそれぞれ抽出し、第1の畳み込み層によって前記テンプレートフレームの特徴のチャンネルを増加し、取得された第1の特徴を前記局所領域検出器の分類の重みとし、第2の畳み込み層によって前記テンプレートフレームの特徴のチャンネルを増加し、得られた第2の特徴を前記局所領域検出器の回帰の重みとし、前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得し、取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層をトレーニングする。 FIG. 10 is a schematic configuration diagram of an application embodiment of the electronic device of the present disclosure. Hereinafter, FIG. 10 will be referred to, which shows a schematic configuration diagram of an electronic device suitable for realizing the terminal device or server according to the embodiment of the present application. As shown in FIG. 10, the electronic device includes one or more processors, a communication unit, and the like. The one or more processors are, for example, one or more central processing units (CPUs) and / or one or more image processors (GPUs), where the processors are in read-only memory (ROM). Various appropriate operations and processes can be realized by the stored executable command or the executable command loaded from the storage unit into the random access memory (RAM). The communication unit may include, but is not limited to, a network card, the network card may include, but is not limited to, an IB (Infiniband) network card. The processor communicates with a read-only memory and / or a random access memory to execute an executable command, is connected to a communication unit via a bus, and communicates with another target device via the communication unit, according to the present disclosure. The operation corresponding to any one of the methods provided in the examples may be completed. For example, the neural network extracts the features of the detection frame and the image of the detection frame of the target object, and the size of the image is smaller than the detection frame, respectively, and localizes based on the features of the template frame. The classification weight and the regression weight of the region detector are acquired, the characteristics of the detection frame are input to the local region detector, and the classification result and the regression result of a plurality of candidate frames output from the local region detector are input. The detection frame of the target object in the detection frame is acquired from the classification result and the regression result of the plurality of candidate frames output from the local area detector. Further, for example, the features of the detection frame and the image of the detection frame of the target object, which are smaller than the detection frame, are extracted by the neural network, and the first convolution layer is used to extract the features of the template frame. The channel of the feature of the template frame is increased, the acquired first feature is used as the weight of the classification of the local region detector, and the channel of the feature of the template frame is increased by the second convolution layer, and the obtained first feature is obtained. The feature 2 is used as the regression weight of the local region detector, the feature of the detection frame is input to the local region detector, and the classification result and the regression result of a plurality of candidate frames output from the local region detector are input. The detection frame of the target object in the detection frame is acquired based on the classification result and the regression result of the plurality of candidate frames acquired and output from the local region detector, and the target object in the acquired detection frame. The detection frame is used as a prediction detection frame, and the neural network, the first convolution layer, and the second convolution layer are trained based on the labeling information of the detection frame and the prediction detection frame.

また、RAMには、装置の動作に必要な様々なプログラムやデータが格納されていてもよい。CPU、ROM及びRAMは、バスを介して相互に接続される。RAMを有する場合に、ROMは選択可能なモジュールである。RAMはプロセッサに本開示の上記方法のいずれか一項に対応する操作を実行させるための実行可能コマンドを格納するか、または動作時当該実行可能コマンドをROMに書き込む。入力/出力(I/O)インターフェイスもバスに接続される。通信部は、集積的に設置されてもよく、複数のサブモジュール(例えば複数のIBネットワークカード)を有し、且つバスを介してリンクされるように設置されてもよい。 Further, the RAM may store various programs and data necessary for the operation of the device. The CPU, ROM and RAM are connected to each other via a bus. If you have RAM, ROM is a selectable module. The RAM stores an executable command for causing the processor to perform an operation corresponding to any one of the above methods of the present disclosure, or writes the executable command to the ROM during operation. The input / output (I / O) interface is also connected to the bus. The communication unit may be installed in an integrated manner, may have a plurality of submodules (for example, a plurality of IB network cards), and may be installed so as to be linked via a bus.

キーボード、マウスなどを含む入力部と、例えば陰極線管(CRT)、液晶ディスプレイー(LCD)など及びスピーカなどを含む出力部と、ハードディスクなどを含む記憶部と、例えばLANカード、モデムなどのネットワークインターフェイスカードを含む通信部とがI/Oインターフェイスに接続されている。通信部は例えばインターネットのようなネットワークを介して通信処理を実行する。ドライブも必要に応じてI/Oインターフェイスに接続される。例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体は、必要に応じてドライブ上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部にインストールする。 An input unit including a keyboard, a mouse, etc., an output unit including a cathode ray tube (CRT), a liquid crystal display (LCD), a speaker, etc., a storage unit including a hard disk, etc., and a network interface such as a LAN card, a modem, etc. The communication unit including the card is connected to the I / O interface. The communication unit executes communication processing via a network such as the Internet. The drive is also connected to the I / O interface as needed. For example, a removable medium such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is mounted on a drive as needed, and a computer program read from the removable medium is installed in a storage unit as needed.

なお、図10に示すアーキテクチャは選択可能な一実施形態に過ぎない。具体的な実践過程では、実際の必要に応じて上記図10の部品の数及び種類を選択、削除、追加、または置換することができる。異なる機能の部品の設置について、個別な設置または集積な設置などの実現方式を採用でき、例えばGPUとCPUは、個別に設置されるかまたはGPUをCPUに集積させて、通信部は、個別に設置されるか、またはCPUやGPUに集積的に設置されることなどが可能です。これらの代替的な実施形態はすべて本願の保護範囲に含まれる。 The architecture shown in FIG. 10 is only one selectable embodiment. In a specific practical process, the number and type of parts shown in FIG. 10 can be selected, deleted, added, or replaced as actually required. For the installation of parts with different functions, implementation methods such as individual installation or integrated installation can be adopted. For example, the GPU and CPU are installed separately or the GPU is integrated in the CPU, and the communication unit is individually installed. It can be installed, or it can be installed in a CPU or GPU in an integrated manner. All of these alternative embodiments are within the scope of protection of the present application.

また、本開示の実施例は、コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、該コマンドが実行されると、本開示の上記実施例の目標検出方法又は目標検出ネットワークのトレーニング方法のいずれか1つの操作が実現されるコンピュータ記憶媒体を更に提供する。 Further, the embodiment of the present disclosure is a computer storage medium for storing a computer-readable command, and when the command is executed, the target detection method or the target detection network training method of the above-described embodiment of the present disclosure is executed. Further provided is a computer storage medium in which any one of the above operations is realized.

また、本開示の実施例は、コンピュータ読取可能コマンドを含むコンピュータプログラムであって、該コンピュータ読取可能コマンドが機器上で作動すると、該機器におけるプロセッサに本開示の上記実施例の目標検出方法又は目標検出ネットワークのトレーニング方法のいずれか1つの操作を実現するための実行可能コマンドを実行させるコンピュータプログラムを更に提供する。 Further, the embodiment of the present disclosure is a computer program including a computer-readable command, and when the computer-readable command is activated on the device, the target detection method or the target of the above-described embodiment of the present disclosure is applied to the processor in the device. Further provided is a computer program that executes an executable command to implement any one of the detection network training methods.

本開示の実施例は単一目標追跡を行うことができる。例えば、多目標追跡システムにおいて、フレームごとに目標検出を行わなくてもよく、所定の検出間隔、例えば10フレームごとに一回検出し、その間の9フレームについては単一目標追跡によって中間フレームでの目標の位置を特定するようにしてもよい。本開示の実施例のアルゴリズムは速度が速いので、全体的に多目標追跡システムに追跡をより速く完了させ、よりよい効果を達成することができる。 The embodiments of the present disclosure can perform single target tracking. For example, in a multi-target tracking system, it is not necessary to perform target detection for each frame, and detection is performed once every 10 frames at a predetermined detection interval, and 9 frames in the meantime are detected in an intermediate frame by single target tracking. The position of the target may be specified. Due to the high speed of the algorithms in the embodiments of the present disclosure, the overall multi-target tracking system can complete the tracking faster and achieve better effects.

当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完成できることを理解すべき、前記プログラムは、ROM、RAM、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムが実行されると、上記方法の実施例を含むステップを実行する。 Those skilled in the art should understand that all or part of the steps to realize an embodiment of the above method can be completed by programmatically issuing instructions to the relevant hardware, said program being ROM, RAM, magnetic disk or A program code such as an optical disk can be stored in a computer-readable storage medium including various media capable of storing the program code, and when the program is executed, a step including an embodiment of the above method is executed.

本明細書における様々な実施例は漸進的に説明され、各実施例について他の実施例との相違点に集中して説明したが、各実施例の同一または類似の部分については相互に参照すればよい。システム実施例については、基本的に方法実施例に対応するので、簡単に説明したが、関連部分は方法実施例の説明の一部を参照すればよい。 The various examples herein have been described incrementally, with each example focused on the differences from the other examples, but the same or similar parts of each example are referred to each other. Just do it. Since the system embodiment basically corresponds to the method embodiment, it has been briefly described, but the related part may refer to a part of the description of the method embodiment.

本開示の方法及び装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェア、またはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本開示の方法及び装置を実現することができる。前記方法のステップの上記順序は単に説明するためのものであり、他の形態で特に説明しない限り、本開示の方法のステップは、上記具体的に説明した順序に限定されない。また、いくつかの実施例では、本開示は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本開示の方法を実現するための機械可読コマンドを含む。従って、本開示は本開示の方法を実行するためのプログラムが記憶された記録媒体も含む。 The methods and devices of the present disclosure can be realized in various forms. For example, the methods and devices of the present disclosure can be implemented by software, hardware, firmware, or any combination of software, hardware, firmware. The order of the steps of the method is merely for illustration purposes, and the steps of the methods of the present disclosure are not limited to the specifically described order, unless specifically described in other embodiments. Also, in some embodiments, the disclosure may be programs stored on a recording medium, which include machine-readable commands to implement the methods of the disclosure. Accordingly, the present disclosure also includes a recording medium in which a program for executing the method of the present disclosure is stored.

本願の説明は、例示及び説明のためのものであり、漏れなくまたは本願を開示された形式に限定するものではない。当業者にとっては多くの修正及び変形が明らかなことである。実施例を選択し説明する目的は、本願の原理及び実際応用をより好適に説明し、当業者に本願を理解させて特定用途に適する各種の修正を加えた各種の実施例を設計させることにある。 The description of the present application is for illustration and explanation purposes only and is not intended to be complete or limited to the disclosed form. Many modifications and modifications are apparent to those skilled in the art. The purpose of selecting and explaining the examples is to better explain the principles and practical applications of the present application, to allow those skilled in the art to understand the present application, and to design various examples with various modifications suitable for a specific application. is there.

Claims (43)

検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、
前記テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することと、
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することと、を含むことを特徴とする目標検出方法。
Extracting the features of the detection frame and the template frame, which is the image of the detection frame of the target object and the size of the image is smaller than the detection frame, by the neural network, respectively.
Obtaining the classification weight and regression weight of the local region detector based on the characteristics of the template frame,
The characteristics of the detection frame are input to the local area detector, and the classification result and the regression result of a plurality of candidate frames output from the local area detector are acquired.
A target detection method comprising acquiring a detection frame for a target object in the detection frame based on a classification result and a regression result of a plurality of candidate frames output from the local region detector.
前記ニューラルネットワークにより、ビデオシーケンスにおいて時系列的に前記検出フレームの後に位置する少なくとも1つの他の検出フレームの特徴を抽出することと、
前記少なくとも1つの他の検出フレームの特徴を前記局所領域検出器に順に入力し、前記局所領域検出器から出力される前記少なくとも1つの他の検出フレームにおける複数の候補枠及び各候補枠の分類結果と回帰結果を順に取得することと、
前記少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果により、前記少なくとも1つの他の検出フレームにおける前記目標対象物の検出枠を順に取得することと、を更に含むことを特徴とする請求項1に記載の方法。
The neural network is used to extract features of at least one other detection frame that are chronologically located after the detection frame in the video sequence.
The features of the at least one other detection frame are input to the local region detector in order, and a plurality of candidate frames and the classification result of each candidate frame in the at least one other detection frame output from the local region detector. And to get the regression results in order,
The feature is that the detection frames of the target object in the at least one other detection frame are sequentially acquired based on the classification result and the regression result of the plurality of candidate frames of the at least one other detection frame. The method according to claim 1.
ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出することは、
同一のニューラルネットワークにより前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出すること、又は、
同じ構成を有する別々のニューラルネットワークにより前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出することを含むことを特徴とする請求項1又は2に記載の方法。
Extracting the characteristics of the template frame and the detection frame by the neural network is
Extracting the features of the template frame and the detection frame by the same neural network, or
The method according to claim 1 or 2, wherein the features of the template frame and the detection frame are extracted by separate neural networks having the same configuration.
前記テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが前記検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームであることを特徴とする請求項1〜3のいずれか一項に記載の方法。 The template frame according to any one of claims 1 to 3, wherein the detection timing is located before the detection frame in the video sequence, and the detection frame of the target object is specified. the method of. 前記検出フレームは、前記目標対象物の検出を行う現在フレーム又は現在フレームにおける前記目標対象物の存在可能な領域画像であることを特徴とする請求項1〜4のいずれか一項に記載の方法。 The method according to any one of claims 1 to 4, wherein the detection frame is a current frame for detecting the target object or a region image in which the target object can exist in the current frame. .. 前記検出フレームが前記目標対象物の検出を行う現在フレームにおける前記目標対象物の存在可能な領域画像である場合に、
前記テンプレートフレームの中心点を中心点とし、現在フレームから長さ及び/又は幅がそれぞれ前記テンプレートフレームの画像の長さ及び/又は幅より大きい領域画像を切り出して前記検出フレームとすることを更に含むことを特徴とする請求項5に記載の方法。
When the detection frame is a region image in which the target object can exist in the current frame for detecting the target object,
It further includes cutting out a region image having a center point of the template frame as a center point and having a length and / or width larger than the length and / or width of the image of the template frame, respectively, from the current frame to obtain the detection frame. The method according to claim 5, wherein the method is characterized by the above.
前記テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みを取得することは、
第1の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第1の特徴を前記局所領域検出器の分類の重みとすることを含むことを特徴とする請求項1〜6のいずれか一項に記載の方法。
Obtaining the classification weights of the local region detector based on the characteristics of the template frame
A claim comprising performing a convolution operation on the features of the template frame by the first convolution layer and using the first features acquired by the convolution operation as weights for classification of the local region detector. Item 8. The method according to any one of Items 1 to 6.
前記テンプレートフレームの特徴に基づいて局所領域検出器の回帰の重みを取得することは、
第2の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第2の特徴を前記局所領域検出器の回帰の重みとすることを含むことを特徴とする請求項1〜7のいずれか一項に記載の方法。
Obtaining the regression weights of the local region detector based on the characteristics of the template frame
A claim comprising performing a convolution operation on the features of the template frame by the second convolution layer and using the second features acquired by the convolution operation as the regression weight of the local region detector. Item 8. The method according to any one of Items 1 to 7.
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することは、
前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することと、を含むことを特徴とする請求項1〜8のいずれか一項に記載の方法。
It is possible to input the characteristics of the detection frame into the local area detector and acquire the classification result and the regression result of a plurality of candidate frames output from the local area detector.
A convolution operation is performed on the features of the detection frame using the weights of the classification to acquire classification results of a plurality of candidate frames, and a convolution operation is performed on the features of the detection frame using the weights of the regression. The method according to any one of claims 1 to 8, wherein the method is to obtain the regression results of a plurality of candidate frames, and to include.
前記検出フレームの特徴を抽出した後に、第3の畳み込み層によって前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第3の特徴を取得することを更に含み、
前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することは、前記分類の重みを用いて前記第3の特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することを含むことを特徴とする請求項9に記載の方法。
After extracting the features of the detection frame, a convolution operation is performed on the features of the detection frame by the third convolution layer to acquire a third feature whose number of channels is the same as the number of channels of the features of the detection frame. Including that
Acquiring the classification results of a plurality of candidate frames by performing a convolution operation on the feature of the detection frame using the weight of the classification is a convolution operation on the feature of the third feature using the weight of the classification. The method according to claim 9, wherein the method includes obtaining the classification results of a plurality of candidate frames.
前記テンプレートフレームの特徴を抽出した後に、第4の畳み込み層によって前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第4の特徴を取得することを更に含み、
前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することは、前記回帰の重みを用いて前記第4の特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することを含むことを特徴とする請求項9又は10に記載の方法。
After extracting the features of the template frame, a convolution operation is performed on the features of the detection frame by the fourth convolution layer to acquire a fourth feature whose number of channels is the same as the number of channels of the features of the detection frame. Including that
Acquiring the regression results of a plurality of candidate frames by performing a convolution operation on the feature of the detection frame using the weight of the regression is a convolution operation on the feature of the fourth feature using the weight of the regression. The method according to claim 9 or 10, wherein the method comprises performing regression results of a plurality of candidate frames.
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することは、
前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択し、選択された候補枠のずれ量により前記選択された候補枠を回帰させ、前記検出フレームにおける前記目標対象物の検出枠を取得することを含むことを特徴とする請求項1〜11のいずれか一項に記載の方法。
Acquiring the detection frame of the target object in the detection frame from the classification result and the regression result of the plurality of candidate frames output from the local region detector is possible.
One candidate frame is selected from the plurality of candidate frames based on the classification result and the regression result, the selected candidate frame is regressed according to the deviation amount of the selected candidate frame, and the target object in the detection frame is used. The method according to any one of claims 1 to 11, which comprises acquiring a detection frame.
前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択することは、
前記分類結果と前記回帰結果の重み係数により前記複数の候補枠から1つの候補枠を選択することを含むことを特徴とする請求項12に記載の方法。
Selecting one candidate frame from the plurality of candidate frames based on the classification result and the regression result is not possible.
The method according to claim 12, wherein one candidate frame is selected from the plurality of candidate frames based on the weighting coefficient of the classification result and the regression result.
回帰結果を取得した後に、前記回帰結果により前記分類結果を調整することを更に含み、
前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択することは、調整後の分類結果により前記複数の候補枠から1つの候補枠を選択することを含むことを特徴とする請求項12に記載の方法。
Further including adjusting the classification result according to the regression result after obtaining the regression result.
The selection of one candidate frame from the plurality of candidate frames based on the classification result and the regression result includes selecting one candidate frame from the plurality of candidate frames based on the adjusted classification result. The method according to claim 12.
検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、
第1の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第1の特徴を前記局所領域検出器の分類の重みとし、第2の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第2の特徴を前記局所領域検出器の回帰の重みとすることと、
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することと、
取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層をトレーニングすることと、を含むことを特徴とする目標検出ネットワークのトレーニング方法。
Extracting the features of the detection frame and the template frame, which is the image of the detection frame of the target object and the size of the image is smaller than the detection frame, by the neural network, respectively.
A convolution operation is performed on the features of the template frame by the first convolution layer, the first feature acquired by the convolution operation is used as the classification weight of the local region detector, and the template frame is performed by the second convolution layer. The convolution operation is performed on the feature of, and the second feature acquired by the convolution operation is used as the regression weight of the local region detector.
The characteristics of the detection frame are input to the local area detector, and the classification result and the regression result of a plurality of candidate frames output from the local area detector are acquired.
Obtaining the detection frame of the target object in the detection frame from the classification result and the regression result of the plurality of candidate frames output from the local region detector, and
The detection frame of the target object in the acquired detection frame is used as a prediction detection frame, and the neural network, the first convolution layer, and the second convolution are based on the labeling information of the detection frame and the prediction detection frame. A method of training a target detection network, characterized by training and including layers.
前記ニューラルネットワークによりビデオシーケンスにおいて時系列的に前記検出フレームの後に位置する少なくとも1つの他の検出フレームの特徴を抽出することと、
前記少なくとも1つの他の検出フレームの特徴を前記局所領域検出器に順に入力し、前記局所領域検出器から出力される前記少なくとも1つの他の検出フレームにおける複数の候補枠及び各候補枠の分類結果と回帰結果を順に取得することと、
前記少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果により、前記少なくとも1つの他の検出フレームにおける前記目標対象物の検出枠を順に取得することと、を更に含むことを特徴とする請求項15に記載の方法。
Extracting the features of at least one other detection frame located after the detection frame in time series in the video sequence by the neural network.
The features of the at least one other detection frame are input to the local region detector in order, and a plurality of candidate frames and the classification result of each candidate frame in the at least one other detection frame output from the local region detector. And to get the regression results in order,
The feature is that the detection frames of the target object in the at least one other detection frame are sequentially acquired based on the classification result and the regression result of the plurality of candidate frames of the at least one other detection frame. The method according to claim 15.
ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出することは、
同一のニューラルネットワークにより前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出すること、又は、
同じ構成を有する別々のニューラルネットワークにより前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出することを含むことを特徴とする請求項15又は16に記載の方法。
Extracting the characteristics of the template frame and the detection frame by the neural network is
Extracting the features of the template frame and the detection frame by the same neural network, or
The method according to claim 15 or 16, wherein the features of the template frame and the detection frame are extracted by separate neural networks having the same configuration.
前記テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが前記検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームであることを特徴とする請求項15〜17のいずれか一項に記載の方法。 The template frame according to any one of claims 15 to 17, wherein the detection timing is positioned before the detection frame in the video sequence, and the detection frame of the target object is specified. the method of. 前記検出フレームは、前記目標対象物の検出を行う現在フレーム又は現在フレームにおける前記目標対象物の存在可能な領域画像であることを特徴とする請求項15〜18のいずれか一項に記載の方法。 The method according to any one of claims 15 to 18, wherein the detection frame is a current frame for detecting the target object or a region image in which the target object can exist in the current frame. .. 前記検出フレームが前記目標対象物の検出を行う現在フレームにおける前記目標対象物の存在可能な領域画像である場合に、
前記テンプレートフレームの中心点を中心点とし、現在フレームから長さ及び/又は幅がそれぞれ前記テンプレートフレームの画像の長さ及び/又は幅より大きい領域画像を切り出して前記検出フレームとすることを更に含むことを特徴とする請求項19に記載の方法。
When the detection frame is a region image in which the target object can exist in the current frame for detecting the target object,
It further includes cutting out a region image having a center point of the template frame as a center point and having a length and / or width larger than the length and / or width of the image of the template frame, respectively, from the current frame to obtain the detection frame. The method according to claim 19, wherein the method is characterized by the above.
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することは、
前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することと、を含むことを特徴とする請求項15〜20のいずれか一項に記載の方法。
It is possible to input the characteristics of the detection frame into the local area detector and acquire the classification result and the regression result of a plurality of candidate frames output from the local area detector.
A convolution operation is performed on the features of the detection frame using the weights of the classification to acquire classification results of a plurality of candidate frames, and a convolution operation is performed on the features of the detection frame using the weights of the regression. The method according to any one of claims 15 to 20, wherein the method is to obtain the regression results of a plurality of candidate frames, and to include.
前記検出フレームの特徴を抽出した後に、
第3の畳み込み層によって前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第3の特徴を取得することを更に含み、
前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することは、前記分類の重みを用いて前記第3の特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することを含むことを特徴とする請求項21に記載の方法。
After extracting the characteristics of the detection frame,
Further including performing a convolution operation on the feature of the detection frame by the third convolution layer to acquire a third feature whose number of channels is similar to the number of channels of the feature of the detection frame.
Acquiring the classification results of a plurality of candidate frames by performing a convolution operation on the feature of the detection frame using the weight of the classification is a convolution operation on the feature of the third feature using the weight of the classification. The method according to claim 21, wherein the method includes obtaining the classification results of a plurality of candidate frames.
前記テンプレートフレームの特徴を抽出した後に、
第4の畳み込み層によって前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第4の特徴を取得することを更に含み、
前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することは、前記回帰の重みを用いて前記第4の特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することを含むことを特徴とする請求項21に記載の方法。
After extracting the features of the template frame,
Further including performing a convolution operation on the feature of the detection frame by the fourth convolution layer to acquire a fourth feature whose number of channels is similar to the number of channels of the feature of the detection frame.
Acquiring the regression results of a plurality of candidate frames by performing a convolution operation on the feature of the detection frame using the weight of the regression is a convolution operation on the feature of the fourth feature using the weight of the regression. 21. The method according to claim 21, wherein the method includes performing regression results of a plurality of candidate frames.
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することは、
前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択し、選択された候補枠のずれ量により前記選択された候補枠を回帰させ、前記検出フレームにおける前記目標対象物の検出枠を取得することを含むことを特徴とする請求項15〜23のいずれか一項に記載の方法。
Acquiring the detection frame of the target object in the detection frame from the classification result and the regression result of the plurality of candidate frames output from the local region detector is possible.
One candidate frame is selected from the plurality of candidate frames based on the classification result and the regression result, the selected candidate frame is regressed according to the deviation amount of the selected candidate frame, and the target object in the detection frame is used. The method according to any one of claims 15 to 23, which comprises acquiring a detection frame.
前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択することは、
前記分類結果と前記回帰結果の重み係数により前記複数の候補枠から1つの候補枠を選択することを含むことを特徴とする請求項24に記載の方法。
Selecting one candidate frame from the plurality of candidate frames based on the classification result and the regression result is not possible.
24. The method of claim 24, wherein one candidate frame is selected from the plurality of candidate frames based on the weighting coefficient of the classification result and the regression result.
回帰結果を取得した後に、前記回帰結果により前記分類結果を調整することを更に含み、
前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択することは、調整後の分類結果により前記複数の候補枠から1つの候補枠を選択することを含むことを特徴とする請求項25に記載の方法。
Further including adjusting the classification result according to the regression result after obtaining the regression result.
The selection of one candidate frame from the plurality of candidate frames based on the classification result and the regression result includes selecting one candidate frame from the plurality of candidate frames based on the adjusted classification result. 25. The method of claim 25.
前記検出フレームのラベリング情報は、ラベリングされた前記検出フレームでの前記目標対象物の検出枠の位置と大きさを含み、
取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて、前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層をトレーニングすることは、
前記ラベリングされた検出枠の位置及び大きさと前記予測検出枠の位置及び大きさとの差により、前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層の重み値を調整することを含むことを特徴とする請求項15〜26のいずれか一項に記載の方法。
The labeling information of the detection frame includes the position and size of the detection frame of the target object in the labeled detection frame.
The detection frame of the target object in the acquired detection frame is used as a prediction detection frame, and based on the labeling information of the detection frame and the prediction detection frame, the neural network, the first convolution layer, and the second Training the convolutionary layer is
Including adjusting the weight values of the neural network, the first convolutional layer, and the second convolutional layer by the difference between the position and size of the labeled detection frame and the position and size of the predicted detection frame. The method according to any one of claims 15 to 26.
検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をそれぞれ抽出するためのニューラルネットワークと、
前記テンプレートフレームの特徴のチャンネルを増加し、得られた第1の特徴を局所領域検出器の分類の重みとするための第1の畳み込み層と、
前記テンプレートフレームの特徴のチャンネルを増加し、得られた第2の特徴を前記局所領域検出器の回帰の重みとするための第2の畳み込み層と、
前記検出フレームの特徴により複数の候補枠の分類結果と回帰結果を出力するための局所領域検出器と、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得するための取得ユニットと、を含むことを特徴とする目標検出装置。
A neural network for extracting the features of the detection frame and the template frame, which is an image of the detection frame of the target object and whose image size is smaller than the detection frame.
A first convolution layer for increasing the channels of the features of the template frame and weighting the obtained first features to the classification of the local region detector.
A second convolution layer for increasing the channels of the features of the template frame and weighting the resulting second features to the regression of the local region detector.
A local region detector for outputting classification results and regression results of a plurality of candidate frames according to the characteristics of the detection frame, and
A target detection characterized by including an acquisition unit for acquiring a detection frame of the target object in the detection frame based on a classification result and a regression result of a plurality of candidate frames output from the local region detector. apparatus.
前記ニューラルネットワークは、同じ構成を有し、前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出するために用いられる別々のニューラルネットワークを含むことを特徴とする請求項28に記載の装置。 28. The apparatus of claim 28, wherein the neural network has the same configuration and includes separate neural networks used to extract features of the template frame and the detection frame, respectively. 前記テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが前記検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームであることを特徴とする請求項28又は29に記載の装置。 The apparatus according to claim 28 or 29, wherein the template frame is a frame in which the detection timing is located before the detection frame in the video sequence and the detection frame of the target object is specified. 前記検出フレームは、前記目標対象物の検出を行う現在フレーム又は現在フレームにおける前記目標対象物の存在可能な領域画像であることを特徴とする請求項28〜30のいずれか一項に記載の装置。 The apparatus according to any one of claims 28 to 30, wherein the detection frame is a current frame for detecting the target object or a region image in which the target object can exist in the current frame. .. 前記テンプレートフレームの中心点を中心点とし、現在フレームから長さ及び/又は幅がそれぞれ前記テンプレートフレームの画像の長さ及び/又は幅より大きい領域画像を切り出して前記検出フレームとするための前処理ユニットを更に含むことを特徴とする請求項31に記載の装置。 Preprocessing for cutting out a region image whose length and / or width is larger than the length and / or width of the image of the template frame, respectively, from the current frame with the center point of the template frame as the center point to obtain the detection frame. 31. The apparatus of claim 31, further comprising a unit. 前記局所領域検出器は、前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することとに用いられることを特徴とする請求項28〜32のいずれか一項に記載の装置。 The local region detector performs a convolution operation on the features of the detection frame using the weights of the classification to acquire the classification results of a plurality of candidate frames, and uses the weights of the regression to obtain the detection frame. The apparatus according to any one of claims 28 to 32, wherein the convolution operation is performed on the feature of the above, and the device is used for acquiring regression results of a plurality of candidate frames. 前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第3の特徴を取得するための第3の畳み込み層と、
前記分類の重みを用いて前記第3の特徴に対して畳み込み操作を行うための前記局所領域検出器と、を更に含むことを特徴とする請求項33に記載の装置。
A third convolution layer for performing a convolution operation on the features of the detection frame and acquiring a third feature in which the number of channels is the same as the number of channels of the features of the detection frame.
33. The apparatus of claim 33, further comprising the local region detector for performing a convolution operation on the third feature using the weights of the classification.
前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第4の特徴を取得するための第4の畳み込み層と、
前記回帰の重みを用いて前記第4の特徴に対して畳み込み操作を行うための前記局所領域検出器と、を更に含むことを特徴とする請求項33に記載の装置。
A fourth convolution layer for performing a convolution operation on the features of the detection frame and acquiring a fourth feature in which the number of channels is the same as the number of channels of the features of the detection frame.
33. The apparatus of claim 33, further comprising the local region detector for performing a convolution operation on the fourth feature using the weights of the regression.
前記取得ユニットは、前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択し、選択された候補枠のずれ量により前記選択された候補枠を回帰させ、前記検出フレームにおける前記目標対象物の検出枠を取得するために用いられることを特徴とする請求項28〜35のいずれか一項に記載の装置。 The acquisition unit selects one candidate frame from the plurality of candidate frames based on the classification result and the regression result, returns the selected candidate frame according to the deviation amount of the selected candidate frame, and returns the selected candidate frame in the detection frame. The apparatus according to any one of claims 28 to 35, which is used for acquiring a detection frame for the target object. 前記取得ユニットは、前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択する時に、前記分類結果と前記回帰結果の重み係数により前記複数の候補枠から1つの候補枠を選択するために用いられることを特徴とする請求項36に記載の装置。 When the acquisition unit selects one candidate frame from the plurality of candidate frames based on the classification result and the regression result, the acquisition unit selects one candidate frame from the plurality of candidate frames based on the weighting coefficient of the classification result and the regression result. 36. The device of claim 36, characterized in that it is used for selection. 前記回帰結果により前記分類結果を調整するための調整ユニットを更に含み、
前記取得ユニットは、前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択する時に、調整後の分類結果により前記複数の候補枠から1つの候補枠を選択するために用いられることを特徴とする請求項36に記載の装置。
An adjustment unit for adjusting the classification result according to the regression result is further included.
The acquisition unit is used to select one candidate frame from the plurality of candidate frames based on the adjusted classification result when selecting one candidate frame from the plurality of candidate frames based on the classification result and the regression result. 36. The apparatus according to claim 36.
取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層をトレーニングするためのトレーニングユニットを更に含むことを特徴とする請求項28〜38のいずれか一項に記載の装置。 The detection frame of the target object in the acquired detection frame is used as a prediction detection frame, and the neural network, the first convolution layer, and the second convolution are based on the labeling information of the detection frame and the prediction detection frame. The device according to any one of claims 28 to 38, further comprising a training unit for training layers. 前記検出フレームのラベリング情報は、ラベリングされた前記検出フレームでの前記目標対象物の検出枠の位置と大きさを含み、
前記トレーニングユニットは、前記ラベリングされた検出枠の位置及び大きさと前記予測検出枠の位置及び大きさとの差により、前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層の重み値を調整するために用いられることを特徴とする請求項39に記載の装置。
The labeling information of the detection frame includes the position and size of the detection frame of the target object in the labeled detection frame.
The training unit determines the weight values of the neural network, the first convolution layer, and the second convolution layer by the difference between the position and size of the labeled detection frame and the position and size of the prediction detection frame. 39. The apparatus of claim 39, characterized in that it is used for coordinating.
請求項28〜40のいずれか一項に記載の目標検出装置を含むことを特徴とする電子機器。 An electronic device comprising the target detection device according to any one of claims 28 to 40. 実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して、前記実行可能コマンドを実行することにより請求項1〜27のいずれか一項に記載の方法の操作を完成するためのプロセッサと、を含むことを特徴とする電子機器。
Memory for storing executable commands and
An electronic device comprising: a processor for completing the operation of the method according to any one of claims 1-27 by communicating with the memory and executing the executable command.
コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、前記コマンドが実行されると、請求項1〜27のいずれか一項に記載の方法の操作が実現されることを特徴とするコンピュータ記憶媒体。 A computer storage medium for storing a computer-readable command, wherein when the command is executed, the operation of the method according to any one of claims 1 to 27 is realized. Storage medium.
JP2020526040A 2017-11-12 2018-11-09 Target detection method and device, training method, electronic device and medium Active JP7165731B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201711110587.1A CN108230359B (en) 2017-11-12 2017-11-12 Object detection method and apparatus, training method, electronic device, program, and medium
CN201711110587.1 2017-11-12
PCT/CN2018/114884 WO2019091464A1 (en) 2017-11-12 2018-11-09 Target detection method and apparatus, training method, electronic device and medium

Publications (2)

Publication Number Publication Date
JP2021502645A true JP2021502645A (en) 2021-01-28
JP7165731B2 JP7165731B2 (en) 2022-11-04

Family

ID=62655730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020526040A Active JP7165731B2 (en) 2017-11-12 2018-11-09 Target detection method and device, training method, electronic device and medium

Country Status (7)

Country Link
US (1) US11455782B2 (en)
JP (1) JP7165731B2 (en)
KR (1) KR20200087784A (en)
CN (1) CN108230359B (en)
PH (1) PH12020550588A1 (en)
SG (1) SG11202004324WA (en)
WO (1) WO2019091464A1 (en)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108230359B (en) * 2017-11-12 2021-01-26 北京市商汤科技开发有限公司 Object detection method and apparatus, training method, electronic device, program, and medium
CN109584276B (en) * 2018-12-04 2020-09-25 北京字节跳动网络技术有限公司 Key point detection method, device, equipment and readable medium
CN109726683B (en) * 2018-12-29 2021-06-22 北京市商汤科技开发有限公司 Target object detection method and device, electronic equipment and storage medium
CN111435432B (en) * 2019-01-15 2023-05-26 北京市商汤科技开发有限公司 Network optimization method and device, image processing method and device and storage medium
CN110136107B (en) * 2019-05-07 2023-09-05 上海交通大学 Automatic analysis method based on DSSD and time domain constraint X-ray coronary angiography sequence
CN110399900A (en) * 2019-06-26 2019-11-01 腾讯科技(深圳)有限公司 Method for checking object, device, equipment and medium
CN110533184B (en) * 2019-08-31 2023-01-06 南京人工智能高等研究院有限公司 Network model training method and device
CN110598785B (en) * 2019-09-11 2021-09-07 腾讯科技(深圳)有限公司 Training sample image generation method and device
US11429809B2 (en) 2019-09-24 2022-08-30 Beijing Sensetime Technology Development Co., Ltd Image processing method, image processing device, and storage medium
CN110647938B (en) * 2019-09-24 2022-07-15 北京市商汤科技开发有限公司 Image processing method and related device
CN111860090A (en) * 2019-11-06 2020-10-30 北京嘀嘀无限科技发展有限公司 Vehicle verification method and device
CN110866509B (en) * 2019-11-20 2023-04-28 腾讯科技(深圳)有限公司 Action recognition method, device, computer storage medium and computer equipment
US11080833B2 (en) * 2019-11-22 2021-08-03 Adobe Inc. Image manipulation using deep learning techniques in a patch matching operation
CN110942065B (en) * 2019-11-26 2023-12-12 Oppo广东移动通信有限公司 Text box selection method, text box selection device, terminal equipment and computer readable storage medium
KR102311798B1 (en) * 2019-12-12 2021-10-08 포항공과대학교 산학협력단 Apparatus and method for tracking multiple objects
JP7490359B2 (en) * 2019-12-24 2024-05-27 キヤノン株式会社 Information processing device, information processing method, and program
CN111383244B (en) * 2020-02-28 2023-09-01 浙江大华技术股份有限公司 Target detection tracking method
CN111898701B (en) * 2020-08-13 2023-07-25 网易(杭州)网络有限公司 Model training, frame image generation and frame insertion methods, devices, equipment and media
CN112215899B (en) * 2020-09-18 2024-01-30 深圳市瑞立视多媒体科技有限公司 Frame data online processing method and device and computer equipment
CN112381136B (en) * 2020-11-12 2022-08-19 深兰智能科技(上海)有限公司 Target detection method and device
CN112464797B (en) * 2020-11-25 2024-04-02 创新奇智(成都)科技有限公司 Smoking behavior detection method and device, storage medium and electronic equipment
CN112465691A (en) * 2020-11-25 2021-03-09 北京旷视科技有限公司 Image processing method, image processing device, electronic equipment and computer readable medium
CN112465868B (en) * 2020-11-30 2024-01-12 浙江华锐捷技术有限公司 Target detection tracking method and device, storage medium and electronic device
CN112580474B (en) * 2020-12-09 2021-09-24 云从科技集团股份有限公司 Target object detection method, system, device and medium based on computer vision
CN112528932B (en) * 2020-12-22 2023-12-08 阿波罗智联(北京)科技有限公司 Method and device for optimizing position information, road side equipment and cloud control platform
CN112906478B (en) * 2021-01-22 2024-01-09 北京百度网讯科技有限公司 Target object identification method, device, equipment and storage medium
CN113128564B (en) * 2021-03-23 2022-03-22 武汉泰沃滋信息技术有限公司 Typical target detection method and system based on deep learning under complex background
CN113221962B (en) * 2021-04-21 2022-06-21 哈尔滨工程大学 Three-dimensional point cloud single-stage target detection method for decoupling classification and regression tasks
CN113076923A (en) * 2021-04-21 2021-07-06 山东大学 Mask wearing detection method and device based on lightweight network MobileNet-SSD and storage medium
CN113160247B (en) * 2021-04-22 2022-07-05 福州大学 Anti-noise twin network target tracking method based on frequency separation
CN113327253B (en) * 2021-05-24 2024-05-24 北京市遥感信息研究所 Weak and small target detection method based on satellite-borne infrared remote sensing image
CN113065618A (en) * 2021-06-03 2021-07-02 常州微亿智造科技有限公司 Detection method and detection device in industrial quality inspection

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018026108A (en) * 2016-08-08 2018-02-15 パナソニックIpマネジメント株式会社 Object tracking method, object tracking device, and program

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6192360B1 (en) * 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
US20070230792A1 (en) * 2004-04-08 2007-10-04 Mobileye Technologies Ltd. Pedestrian Detection
CN104424634B (en) * 2013-08-23 2017-05-03 株式会社理光 Object tracking method and device
US10796223B2 (en) * 2014-02-10 2020-10-06 Mitsubishi Electric Corporation Hierarchical neural network apparatus, classifier learning method and discriminating method
CN106355188B (en) * 2015-07-13 2020-01-21 阿里巴巴集团控股有限公司 Image detection method and device
CN105740910A (en) * 2016-02-02 2016-07-06 北京格灵深瞳信息技术有限公司 Vehicle object detection method and device
US11144761B2 (en) * 2016-04-04 2021-10-12 Xerox Corporation Deep data association for online multi-class multi-object tracking
CN105976400B (en) * 2016-05-10 2017-06-30 北京旷视科技有限公司 Method for tracking target and device based on neural network model
CN106326837B (en) * 2016-08-09 2019-09-17 北京旷视科技有限公司 Object tracking method and device
CN106650630B (en) * 2016-11-11 2019-08-23 纳恩博(北京)科技有限公司 A kind of method for tracking target and electronic equipment
CN106709936A (en) * 2016-12-14 2017-05-24 北京工业大学 Single target tracking method based on convolution neural network
CN107066990B (en) * 2017-05-04 2019-10-11 厦门美图之家科技有限公司 A kind of method for tracking target and mobile device
CN108230359B (en) * 2017-11-12 2021-01-26 北京市商汤科技开发有限公司 Object detection method and apparatus, training method, electronic device, program, and medium
CN109726683B (en) * 2018-12-29 2021-06-22 北京市商汤科技开发有限公司 Target object detection method and device, electronic equipment and storage medium

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018026108A (en) * 2016-08-08 2018-02-15 パナソニックIpマネジメント株式会社 Object tracking method, object tracking device, and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LUCA BERTINETTO, JACK VALMADRE, JOAO F. HENRIQUES: "Fully-Convolutional Siamese Networks for Object Tracking", ARXIV [ONLINE], vol. arXiv:1606.09549v1, JPN6022007195, 30 January 2016 (2016-01-30), ISSN: 0004888247 *

Also Published As

Publication number Publication date
US11455782B2 (en) 2022-09-27
JP7165731B2 (en) 2022-11-04
PH12020550588A1 (en) 2021-04-26
SG11202004324WA (en) 2020-06-29
WO2019091464A1 (en) 2019-05-16
US20200265255A1 (en) 2020-08-20
CN108230359A (en) 2018-06-29
CN108230359B (en) 2021-01-26
KR20200087784A (en) 2020-07-21

Similar Documents

Publication Publication Date Title
JP2021502645A (en) Target detection methods and devices, training methods, electronic devices and media
JP6999028B2 (en) Target tracking methods and devices, electronic devices and storage media
US11170210B2 (en) Gesture identification, control, and neural network training methods and apparatuses, and electronic devices
US20210398294A1 (en) Video target tracking method and apparatus, computer device, and storage medium
JP7153090B2 (en) Target object detection method and device, electronic device, and storage medium
US11222236B2 (en) Image question answering method, apparatus and system, and storage medium
US10885365B2 (en) Method and apparatus for detecting object keypoint, and electronic device
TWI773189B (en) Method of detecting object based on artificial intelligence, device, equipment and computer-readable storage medium
US10915741B2 (en) Time domain action detecting methods and system, electronic devices, and computer storage medium
US11055535B2 (en) Method and device for video classification
CN109117831B (en) Training method and device of object detection network
US11062453B2 (en) Method and system for scene parsing and storage medium
US11270158B2 (en) Instance segmentation methods and apparatuses, electronic devices, programs, and media
WO2018153323A1 (en) Method and device for detecting object in video, and electronic device
Xu et al. Centernet heatmap propagation for real-time video object detection
US11030750B2 (en) Multi-level convolutional LSTM model for the segmentation of MR images
JP7093427B2 (en) Object tracking methods and equipment, electronic equipment and storage media
CN113971751A (en) Training feature extraction model, and method and device for detecting similar images
KR102305023B1 (en) Key frame scheduling method and apparatus, electronic device, program and medium
CN113766330A (en) Method and device for generating recommendation information based on video
JP2022185144A (en) Object detection method and training method and device of object detection model
JP2020534609A (en) Target tracking methods and devices, electronic devices and storage media
KR102637342B1 (en) Method and apparatus of tracking target objects and electric device
CN116310356B (en) Training method, target detection method, device and equipment of deep learning model
CN111967403A (en) Video moving area determining method and device and electronic equipment

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200508

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200508

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221024

R150 Certificate of patent or registration of utility model

Ref document number: 7165731

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150