JP2022532322A - Image processing methods and devices, electronic devices and storage media - Google Patents

Image processing methods and devices, electronic devices and storage media Download PDF

Info

Publication number
JP2022532322A
JP2022532322A JP2021566025A JP2021566025A JP2022532322A JP 2022532322 A JP2022532322 A JP 2022532322A JP 2021566025 A JP2021566025 A JP 2021566025A JP 2021566025 A JP2021566025 A JP 2021566025A JP 2022532322 A JP2022532322 A JP 2022532322A
Authority
JP
Japan
Prior art keywords
level
feature map
scale
image processing
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021566025A
Other languages
Japanese (ja)
Inventor
シンジアン ワン
シーロン ジャン
リートン フォン
ウェイ ジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2022532322A publication Critical patent/JP2022532322A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

本開示の実施例は、画像処理方法、装置、電子機器、記憶媒体及びプログラム製品を提供し、前記画像処理方法は、処理対象画像に対してMレベルの特徴抽出を実行して、前記処理対象画像のMレベルの第1特徴マップを得ることであって、前記Mレベルの第1特徴マップの各レベルの第1特徴マップの尺度は異なる、Mは、1より大きい整数であることと、各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることであって、前記特徴マップ組のそれぞれは、前記第1特徴マップ及び前記第1特徴マップに隣接する第1特徴マップを含むことと、前記Mレベルの第2特徴マップに対して目標検出を実行して、前記処理対象画像の目標検出結果を得ることと、を含む。本開示の実施例は、目標検出効果を向上させることができる。【選択図】図1aEmbodiments of the present disclosure provide an image processing method, an apparatus, an electronic device, a storage medium, and a program product, wherein the image processing method performs M-level feature extraction on an image to be processed, and obtaining an M-level first feature map of an image, wherein the scale of the first feature map for each level of the M-level first feature map is different, M being an integer greater than 1; performing scaling and fusion on feature map sets corresponding to the first feature maps of levels, respectively, to obtain second feature maps of M levels, each of said feature map sets corresponding to said first 1 feature map and a first feature map adjacent to said first feature map; and performing target detection on said M-level second feature map to obtain a target detection result for said image to be processed. and including. Embodiments of the present disclosure can improve target detection effectiveness. [Selection drawing] Fig. 1a

Description

[関連出願への相互参照]
本願は、2020年04月17日に中国特許局に提出された、出願番号が202010306929.2である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が引用によって本開示に組み込まれる。
[技術分野]
本開示は、コンピュータ技術分野に関し、特に、画像処理方法及び装置、電子機器並びに記憶媒体に関する。
[Cross-reference to related applications]
This application is submitted based on a Chinese patent application with an application number of 20100306929.2 filed with the Chinese Patent Office on April 17, 2020, claiming the priority of the Chinese patent application. The entire contents of the Chinese patent application are incorporated herein by reference.
[Technical field]
The present disclosure relates to the field of computer technology, and in particular to image processing methods and devices, electronic devices and storage media.

深層学習による画像への処理プロセスでは、通常、画像内の目標(例えば、物体、動物、歩行者)を検出して、画像内の目標の位置やカテゴリなどの情報を決定する必要がある。ただし、画像内の近距離と遠距離の羊のような、画像内の目標の尺度がかなり異なる場合がある。関連技術では、画像の尺度の差異が大きい目標の検出効果が芳しくない。 In the process of processing an image by deep learning, it is usually necessary to detect a target in the image (for example, an object, an animal, a pedestrian) and determine information such as the position or category of the target in the image. However, the scale of the target in the image can be quite different, such as short-distance and long-distance sheep in the image. In the related technique, the detection effect of the target with a large difference in the scale of the image is not good.

本開示は、画像処理の技術方案を提案する。 The present disclosure proposes a technical plan for image processing.

本開示の一態様によれば、画像処理方法を提供し、前記画像処理方法は、処理対象画像に対してM(Mは、1より大きい整数である)レベルの特徴抽出を実行して、前記処理対象画像のMレベルの第1特徴マップを得ることであって、前記Mレベルの第1特徴マップの各レベルの第1特徴マップの尺度は異なること、各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることであって、各特徴マップ組は、前記第1特徴マップ及び前記第1特徴マップに隣接する第1特徴マップを含むことと、前記Mレベルの第2特徴マップに対して目標検出を実行して、前記処理対象画像の目標検出結果を得ることと、を含む。 According to one aspect of the present disclosure, an image processing method is provided, in which the image processing method performs M (M is an integer greater than 1) level feature extraction on the image to be processed. To obtain the M-level first feature map of the image to be processed, the scale of the first feature map of each level of the M-level first feature map is different, and it corresponds to the first feature map of each level. Scale adjustment and fusion are performed for each feature map set to obtain an M-level second feature map, and each feature map set is adjacent to the first feature map and the first feature map. Includes a first feature map to be processed, and performing target detection on the M-level second feature map to obtain a target detection result of the image to be processed.

本開示のいくつかの実施例において、第i(iは整数であり、且つ1<i<Mである)レベルの第1特徴マップに対応する特徴マップ組は、第i-1レベルの第1特徴マップ、第iレベルの第1特徴マップ及び第i+1レベルの第1特徴マップを含み、前記各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることは、前記第i-1レベルの第1特徴マップの尺度を縮小して、1番目の第iレベルの第3特徴マップを得ることと、前記第iレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第iレベルの第3特徴マップを得ることと、前記第i+1レベルの第1特徴マップの尺度を拡大して、3番目の第iレベルの第3特徴マップを得ることと、前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと、3番目の第iレベルの第3特徴マップとを融合して、第iレベルの第2特徴マップを得ることと、を含み、ここで、前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと3番目の第iレベルの第3特徴マップとの尺度は同じである。 In some embodiments of the present disclosure, the feature map set corresponding to the first feature map at the i-th (i is an integer and 1 <i <M) level is the first at the i-1 level. Scale adjustment and fusion are performed for each of the feature map sets corresponding to the feature map, the first feature map of the i-level, and the first feature map of the i + 1 level. To obtain the second feature map of the M level, the scale of the first feature map of the i-1 level is reduced to obtain the third feature map of the first i level, and to obtain the third feature map of the first i level. Performing a transformation so that the scale is not changed for the first feature map of the level to obtain the third feature map of the second i-level and expanding the scale of the first feature map of the i + 1 level. Then, the third feature map of the third i-level is obtained, the third feature map of the first i-level, the third feature map of the second i-level, and the third feature map. Including fusing with the third feature map of the i-level to obtain the second feature map of the i-level, wherein the first i-level third feature map and the second feature map are described. The scale of the third feature map of the third i-level and the third feature map of the third i-level is the same.

このようにして、第iレベルの第1特徴マップに対応する特徴マップ組に対して、尺度の大きい第i-1レベルの第1特徴マップを、第iレベルの第1特徴マップと同じ尺度に縮小し、尺度の小さい第i+1レベルの第1特徴マップを、第iレベルの第1特徴マップと同じ尺度に拡大することにより、当該特徴マップ組の各特徴マップの尺度を統一することができる。 In this way, for the feature map set corresponding to the first feature map of the i-level, the first feature map of the i-1 level having a large scale is set to the same scale as the first feature map of the i-level. By reducing the scale and expanding the smaller scale i + 1 level first feature map to the same scale as the i level first feature map, the scale of each feature map of the feature map set can be unified.

本開示のいくつかの実施例において、第1レベルの第1特徴マップに対応する特徴マップ組は、前記第1レベルの第1特徴マップ及び第2レベルの第1特徴マップを含み、前記各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることは、前記第1レベルの第1特徴マップに対して尺度が変更されないように変換を実行して、1番目の第1レベルの第3特徴マップを得ることと、前記第2レベルの第1特徴マップの尺度を拡大して、2番目の第1レベルの第3特徴マップを得ることと、前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップとを融合して、第1レベルの第2特徴マップを得ることと、を含み、ここで、前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップの尺度は同じである。 In some embodiments of the present disclosure, the feature map set corresponding to the first level first feature map includes the first level first feature map and the second level first feature map, and each of the above levels. Performing scale adjustment and fusion for each feature map set corresponding to the first feature map of the above to obtain an M-level second feature map is a scale for the first level first feature map. Perform the transformation so that is not changed to obtain the first level third feature map and scale the second level first feature map to the second first level. Obtaining the third feature map and fusing the first level third feature map and the second first level third feature map to obtain the first level second feature map. Here, the scales of the first level third feature map and the second first level third feature map are the same.

このようにして、第1レベルの第1特徴マップの場合、前レベルの特徴マップがなく、第1レベルの第1特徴マップ自身と、隣接する第2レベルの第1特徴マップとだけを処理することができ、得られた1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップの尺度は同じである。1番目の第1レベルの第3特徴マップと2番目の第1レベルの第3特徴マップとを加算して、第1レベルの第2特徴マップを得る。これにより、第1レベルの隣接する特徴マップの融合を実現することができる。 In this way, in the case of the first level first feature map, there is no previous level feature map, and only the first level first feature map itself and the adjacent second level first feature map are processed. The scale of the obtained first level third feature map and the second first level third feature map can be the same. The first level third feature map and the second first level third feature map are added to obtain the first level second feature map. As a result, it is possible to realize the fusion of the adjacent feature maps of the first level.

本開示のいくつかの実施例において、第Mレベルの第1特徴マップに対応する特徴マップ組は、第M-1レベルの第1特徴マップ及び前記第Mレベルの第1特徴マップを含み、前記各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることは、前記第M-1レベルの第1特徴マップの尺度を縮小して、1番目の第Mレベルの第3特徴マップを得ることと、前記第Mレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第Mレベルの第3特徴マップを得ることと、前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第2特徴マップとを融合して、第Mレベルの第2特徴マップを得ることと、を含み、ここで、前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第3特徴マップの尺度は同じである。 In some embodiments of the present disclosure, the feature map set corresponding to the first feature map of the M level includes the first feature map of the M-1 level and the first feature map of the M level. Performing scale adjustment and fusion for each feature map set corresponding to the first feature map of each level to obtain the second feature map of the M level is the first feature map of the M-1 level. To obtain the first M-level third feature map by reducing the scale of, and to perform conversion so that the scale does not change with respect to the first M-level first feature map, the second Obtaining the third feature map of the third M level and fusing the third feature map of the first M level and the second feature map of the second M level to obtain the second feature map of the second M level. Including obtaining a feature map, where the scales of the first M-level third feature map and the second M-level third feature map are the same.

このようにして、第Mレベルの第1特徴マップの場合、その次のレベルの特徴マップがなく、第Mレベルの第1特徴マップ自身と、隣接する第M-1レベルの第1特徴マップとだけを処理することができ、得られた1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第3特徴マップの尺度は同じである。1番目の第Mレベルの第3特徴マップと2番目の第Mレベルの第3特徴マップとを加算して、第Mレベルの第2特徴マップを得ることができる。これにより、第1レベルの隣接する特徴マップの融合を実現することができる。 In this way, in the case of the first feature map of the M level, there is no feature map of the next level, and the first feature map of the M level itself and the first feature map of the adjacent M-1 level Only can be processed, and the scales of the obtained first M-level third feature map and the second M-level third feature map are the same. The third feature map of the first M level and the third feature map of the second M level can be added to obtain the second feature map of the M level. As a result, it is possible to realize the fusion of the adjacent feature maps of the first level.

本開示のいくつかの実施例において、前記第i-1レベルの第1特徴マップの尺度を縮小して、1番目の第iレベルの第3特徴マップを得ることは、第1畳み込み層によって、前記第i-1レベルの第1特徴マップを畳み込んで、前記1番目の第iレベルの第3特徴マップを得ることを含み、前記第1畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズはnであり、N、nは、1より大きい整数であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、前記第iレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第iレベルの第3特徴マップを得ることは、第2畳み込み層によって前記第iレベルの第1特徴マップを畳み込んで、前記2番目の第iレベルの第3特徴マップを得ることを含み、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1であり、前記第i+1レベルの第1特徴マップの尺度を拡大して、3番目の第iレベルの第3特徴マップを得ることは、第3畳み込み層及びアップサンプリング層によって、前記第i+1レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、前記3番目の第iレベルの第3特徴マップを得ることを含み、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である。 In some embodiments of the present disclosure, reducing the scale of the i-1 level first feature map to obtain the first i level third feature map is by means of the first convolution layer. The size of the convolution kernel of the first convolution layer is N × N, including convolving the first feature map of the i-1 level to obtain the third feature map of the first i level. , The step size is n, N, n is an integer greater than 1, and the scale of the first feature map of the i-1 level is n times the scale of the first feature map of the i level. It is possible to obtain the second i-level third feature map by performing the transformation so that the scale is not changed with respect to the i-level first feature map by the second convolution layer. Containing the first feature map of the level to obtain the third feature map of the second i-level, the size of the convolution kernel of the second convolution layer is N × N, and the step size is 1. Therefore, to expand the scale of the first feature map of the i + 1 level to obtain the third feature map of the third i level is to obtain the third feature map of the third i level by the third convolution layer and the upsampling layer. The size of the convolution kernel of the third convolution layer is N × N, including convolving and upsampling the first feature map to obtain the third i-level third feature map. The size is 1.

このようにして、異なる畳み込み層を設定することにより、第iレベルの第1特徴マップに対応する特徴マップ組の各特徴マップへの処理を実現することができ、後続の融合処理のために、特徴マップ組の各特徴マップの尺度を統一することができる。 By setting different convolution layers in this way, it is possible to realize processing for each feature map of the feature map set corresponding to the first level first feature map, and for the subsequent fusion processing, The scale of each feature map in the feature map set can be unified.

本開示のいくつかの実施例において、前記第1レベルの第1特徴マップに対して尺度が変更されないように変換を実行して、1番目の第1レベルの第3特徴マップを得ることは、第2畳み込み層によって前記第1レベルの第1特徴マップを畳み込んで、前記1番目の第1レベルの第3特徴マップを得ることを含み、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1であり、Nは、1より大きい整数であり、前記第2レベルの第1特徴マップの尺度を拡大して、2番目の第1レベルの第3特徴マップを得ることは、第3畳み込み層及びアップサンプリング層によって、前記第2レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、2番目の第1レベルの第3特徴マップを得ることを含み、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である。 In some embodiments of the present disclosure, performing a transformation so that the scale is not changed with respect to the first level first feature map to obtain the first first level third feature map. The size of the convolution kernel of the second convolution layer is N ×, including convolving the first level first feature map with the second convolution layer to obtain the first first level third feature map. N, the step size is 1, N is an integer greater than 1, and the scale of the first level first feature map is expanded to obtain the second first level third feature map. That includes convolving and upsampling the second level first feature map with the third convolution layer and upsampling layer to obtain the second first level third feature map. The size of the convolution kernel of the third convolution layer is N × N, and the step size is 1.

このようにして、異なる畳み込み層を設定することにより、第1レベルの第1特徴マップに対応する特徴マップ組の各特徴マップへの処理を実現することができる。 By setting different convolution layers in this way, it is possible to realize processing for each feature map of the feature map set corresponding to the first level first feature map.

本開示のいくつかの実施例において、前記第M-1レベルの第1特徴マップの尺度を縮小して、1番目の第Mレベルの第3特徴マップを得ることは、第1畳み込み層によって、前記第M-1レベルの第1特徴マップを畳み込んで、前記1番目の第Mレベルの第3特徴マップを得ることを含み、前記第1畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズはnであり、N、nは、1より大きい整数であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、前記第Mレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第Mレベルの第3特徴マップを得ることは、第2畳み込み層によって前記第Mレベルの第1特徴マップを畳み込んで、前記2番目の第Mレベルの第3特徴マップを得ることを含み、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である。 In some embodiments of the present disclosure, reducing the scale of the M-1 level first feature map to obtain the first M level third feature map is by means of the first convolutional layer. The size of the convolution kernel of the first convolution layer is N × N, including convolving the first feature map of the first M-1 level to obtain the third feature map of the first M level. , The step size is n, N, n is an integer greater than 1, and the scale of the first feature map of the i-1 level is n times the scale of the first feature map of the i level. It is possible to obtain the third feature map of the second M level by performing the transformation so that the scale is not changed with respect to the first feature map of the M level by the second convolution layer. Containing the first feature map of the level to obtain the third feature map of the second M level, the size of the convolution kernel of the second convolution layer is N × N and the step size is 1. Is.

このようにして、異なる畳み込み層を設定することにより、第Mレベルの第1特徴マップに対応する特徴マップ組の各特徴マップへの処理を実現することができる。 By setting different convolution layers in this way, it is possible to realize processing for each feature map of the feature map set corresponding to the first feature map of the M level.

本開示のいくつかの実施例において、前記第2畳み込み層及び前記第3畳み込み層は、変形可能な畳み込み層又は膨張畳み込み層を含む。 In some embodiments of the present disclosure, the second convolution layer and the third convolution layer include a deformable convolution layer or an expansion convolution layer.

このようにして、第2畳み込み層及び第3畳み込み層が変形可能な畳み込み層である場合、別途的な畳み込み層を設定することによってオフセットを学習し、その後、入力された特徴マップ及びオフセットを両方とも、変形可能な畳み込み層の入力として使用し、サンプリングポイントをオフセットさせてから、畳み込むことができる。第2畳み込み層及び第3畳み込み層が膨張畳み込み層である場合、膨張畳み込みの膨張率を事前に設定することにより、畳み込みの受容野を適切に調整するのに役に立ち、特徴マップ融合の効果を更に向上させることができる。 In this way, if the second and third convolution layers are deformable convolution layers, the offset is learned by setting a separate convolution layer, and then both the input feature map and the offset. Either can be used as an input for a deformable convolution layer, offset sampling points, and then convolved. When the 2nd and 3rd convolutional layers are expansion convolutional layers, presetting the expansion rate of the expansion convolution helps to properly adjust the receptive fields of the convolution, further enhancing the effect of feature map fusion. Can be improved.

本開示のいくつかの実施例において、前記画像処理方法は、画像処理ネットワークによって実現され、前記画像処理ネットワークは、前記Mレベルの第1特徴マップに対して、尺度調整と融合とをP回実行するための直列接続されたP(Pは正の整数である)レベルの融合ネットワークブロックを含み、各レベルの融合ネットワークブロックは、複数の第1畳み込み層、複数の第2畳み込み層及び複数の第3畳み込み層を含み、前記各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることは、前記Mレベルの第1特徴マップを第1レベルの融合ネットワークブロックに入力して、1回目に融合されたMレベルの第4特徴マップを出力することと、j-1(jは整数であり、且つ1<j<Pである)回目に融合されたMレベルの第4特徴マップを第jレベルの融合ネットワークブロックに入力して、j回目に融合されたMレベルの第4特徴マップを出力することと、P-1回目に融合されたMレベルの第4特徴マップを第Pレベルの融合ネットワークブロックに入力して、前記Mレベルの第2特徴マップを出力することと、を含む。 In some embodiments of the present disclosure, the image processing method is implemented by an image processing network, which performs scale adjustment and fusion P times with respect to the M-level first feature map. Containing series-connected P (P is a positive integer) level fusion network block for each level of fusion network block, a plurality of first convolution layers, a plurality of second convolution layers and a plurality of first convolution layers. Obtaining an M-level second feature map by performing scale adjustment and fusion on each feature map set corresponding to the first feature map of each level, including the three convolutional layers, is the M-level. The first feature map is input to the first level fusion network block and the first fused M level fourth feature map is output, and j-1 (j is an integer and 1 <j. The 4th feature map of the M level fused at the <P) th time is input to the fusion network block of the jth level, and the 4th feature map of the M level fused at the jth time is output, and P. -Including inputting the M-level fourth feature map fused for the first time into the P-level fusion network block and outputting the M-level second feature map.

このようにして、直接接続されたPレベルの融合ネットワークブロックによって画像を処理することにより、融合効果を更に向上させることができる。 In this way, the fusion effect can be further improved by processing the image with the directly connected P-level fusion network block.

本開示のいくつかの実施例において、各レベルの融合ネットワークブロックは正規化層を更に含み、前記j-1回目に融合されたMレベルの第4特徴マップを第jレベルの融合ネットワークブロックに入力して、j回目に融合されたMレベルの第4特徴マップを出力することは、前記第jレベルの融合ネットワークブロックの第1畳み込み層、第2畳み込み層及び第3畳み込み層によって、前記j-1回目に融合されたMレベルの第4特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、前記j回目に融合されたMレベルの中間特徴マップを得ることと、前記正規化層によって前記j回目に融合されたMレベルの中間特徴マップに対して聯合バッチ正規化処理を実行して、前記j回目に融合されたMレベルの第4特徴マップを得ることと、を含む。 In some embodiments of the present disclosure, each level of fusion network block further comprises a normalization layer, and the j-1st fused M-level fourth feature map is input to the j-level fusion network block. Then, the fourth feature map of the M level fused at the jth time is output by the first convolution layer, the second convolution layer and the third convolution layer of the j-level fusion network block. Scale adjustment and fusion are performed on the feature map sets corresponding to the first fused M-level fourth feature map, respectively, to obtain the j-th fused M-level intermediate feature map. The combined batch normalization process is executed on the M-level intermediate feature map fused by the normalization layer at the jth time to obtain the M-level fourth feature map fused at the jth time. ,including.

このようにして、前記正規化層によって前記j回目に融合されたMレベルの中間特徴マップに対して聯合バッチ正規化処理を実行することにより、トレーニングプロセスを効果的に安定させ、性能を更に向上させることができ、特に、検出タスクのバッチが比較的に小さい場合、聯合バッチ正規化によって優れる効果をもたらすことができる。 In this way, by executing the combined batch normalization process on the M-level intermediate feature map fused by the normalization layer for the jth time, the training process is effectively stabilized and the performance is further improved. Combined batch normalization can have a significant effect, especially if the batch of detection tasks is relatively small.

本開示のいくつかの実施例において、前記画像処理方法は、画像処理ネットワークによって実現され、前記画像処理ネットワークは、回帰ネットワーク及び分類ネットワークを更に含み、前記Mレベルの第2特徴マップに対して目標検出を実行して、前記処理対象画像の目標検出結果を得ることは、前記Mレベルの第2特徴マップを前記回帰ネットワークに入力して、前記処理対象画像内の目標に対応する画像枠を決定することと、前記Mレベルの第2特徴マップを前記分類ネットワークに入力して、前記処理対象画像内の目標のカテゴリを決定することであって、前記目標検出結果は、前記目標に対応する画像枠及び前記目標のカテゴリを含むことと、を含む。 In some embodiments of the present disclosure, the image processing method is implemented by an image processing network, which further comprises a regression network and a classification network, which is a target for the M-level second feature map. To execute the detection and obtain the target detection result of the processed image, the M-level second feature map is input to the regression network to determine the image frame corresponding to the target in the processed image. In addition, the M-level second feature map is input to the classification network to determine the category of the target in the processed image, and the target detection result is the image corresponding to the target. Includes the frame and the category of the target.

このようにして、回帰ネットワーク及び分類ネットワークはそれぞれ、目標検出の回帰タスク及び分類タスクを実現するために用いられる。 In this way, the regression network and the classification network are used to realize the regression task and the classification task of target detection, respectively.

本開示の一態様によれば、画像処理装置を提供し、前記画像処理装置は、処理対象画像に対してM(Mは、1より大きい整数である)レベルの特徴抽出を実行して、前記処理対象画像のMレベルの第1特徴マップを得るように構成される特徴抽出モジュールであって、前記Mレベルの第1特徴マップの各レベルの第1特徴マップの尺度は異なる特徴抽出モジュールと、各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得るように構成される尺度調整及び融合モジュールであって、特徴マップ組のそれぞれは、前記第1特徴マップ及び前記第1特徴マップに隣接する第1特徴マップを含む尺度調整及び融合モジュールと、前記Mレベルの第2特徴マップに対して目標検出を実行して、前記処理対象画像の目標検出結果を得るように構成される目標検出モジュールと、を備える。 According to one aspect of the present disclosure, an image processing apparatus is provided, in which the image processing apparatus performs M (M is an integer larger than 1) level feature extraction on the image to be processed, and the above-mentioned image processing apparatus is performed. It is a feature extraction module configured to obtain an M-level first feature map of the image to be processed, and the scale of the first feature map at each level of the M-level first feature map is different from that of the feature extraction module. It is a scale adjustment and fusion module configured to perform scale adjustment and fusion for each feature map set corresponding to the first feature map of each level to obtain an M level second feature map. Each of the feature map sets performs target detection on the scale adjustment and fusion module including the first feature map and the first feature map adjacent to the first feature map, and the M level second feature map. A target detection module configured to obtain a target detection result of the image to be processed is provided.

本開示の一態様によれば、電子機器を提供し、前記電子機器は、プロセッサと、プロセッサ実行可能な命令が記憶されているメモリと、を備え、ここで、前記プロセッサは、前記メモリに記憶されている命令を呼び出して、上記の画像処理方法を実行するように構成される。 According to one aspect of the present disclosure, an electronic device is provided, wherein the electronic device comprises a processor and a memory in which a processor-executable instruction is stored, wherein the processor is stored in the memory. It is configured to call the command given and execute the above image processing method.

本開示の一態様によれば、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令がプロセッサによって実行されるときに、上記の画像処理方法を実現する。 According to one aspect of the present disclosure, a computer-readable storage medium in which a computer program instruction is stored is provided, and the above-mentioned image processing method is realized when the computer program instruction is executed by a processor.

本開示の一態様によれば、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品は、1つ又は複数の命令を含み、前記1つ又は複数の命令は、プロセッサに、上記の画像処理方法を実行させる。 According to one aspect of the present disclosure, a computer program product is provided, the computer program product comprising one or more instructions, the one or more instructions causing the processor to perform the image processing method described above. Let me.

本開示の実施例では、処理対象画像に対してMレベルの特徴抽出を実行してMレベルの第1特徴マップを得、各第1特徴マップと、それに隣接する特徴マップとを融合してMレベルの第2特徴マップを得、Mレベルの第2特徴マップに対して目標検出を実行して目標検出結果を得ることができ、それにより、Mレベルの第1特徴マップの隣接層間の特徴の関連情報を融合し、目標検出の効果を効果的に向上させることができる。 In the embodiment of the present disclosure, M-level feature extraction is performed on the image to be processed to obtain an M-level first feature map, and each first feature map and an adjacent feature map are fused to M. The second feature map of the level can be obtained and the target detection can be performed on the second feature map of the M level to obtain the target detection result, whereby the features between the adjacent layers of the first feature map of the M level can be obtained. By fusing related information, the effect of target detection can be effectively improved.

上記した一般的な説明及び後述する詳細な説明は、単なる例示及び説明に過ぎず、本開示を限定するものではないことを理解されたい。以下、図面を参照した例示的な実施例に対する詳細な説明によれば、本開示の他の特徴及び態様は明らかになる。 It should be understood that the general description described above and the detailed description described below are merely examples and explanations and do not limit the present disclosure. Hereinafter, detailed description of the exemplary embodiments with reference to the drawings will reveal other features and embodiments of the present disclosure.

本開示の実施例に係る画像処理方法のフローチャートを示す。The flowchart of the image processing method which concerns on embodiment of this disclosure is shown. 多次元の特徴の組み合わせを生成するための4つの異なる方法の概略図を示す。Schematic representations of four different methods for generating combinations of multidimensional features are shown. 変形可能な畳み込み層の動作原理の概略図を示す。The schematic diagram of the operation principle of the deformable convolution layer is shown. 関連技術に係るバッチ正規化の概略図を示す。A schematic diagram of batch normalization related to related techniques is shown. 関連技術に係るバッチ正規化の概略図を示す。A schematic diagram of batch normalization related to related techniques is shown. 本開示の実施例に係る聯合バッチ正規化の概略図を示す。The schematic diagram of the union batch normalization which concerns on the Example of this disclosure is shown. 関連技術に係る検出器の概略図を示す。The schematic diagram of the detector which concerns on a related technique is shown. 本開示の実施例に係る画像処理ネットワークの概略図を示す。The schematic diagram of the image processing network which concerns on embodiment of this disclosure is shown. 本開示の実施例に係る画像処理装置のブロック図を示す。The block diagram of the image processing apparatus which concerns on embodiment of this disclosure is shown. 本開示の実施例に係る電子機器のブロック図を示す。The block diagram of the electronic device which concerns on embodiment of this disclosure is shown. 本開示の実施例に係る電子機器のブロック図を示す。The block diagram of the electronic device which concerns on embodiment of this disclosure is shown.

上記の図面は、本明細書に組み込まれてその一部を構成し、これらの図面は、本開示と合致する実施例を示し、明細書とともに本開示の技術的解決策を説明するために使用される。 The above drawings are incorporated herein to constitute a portion thereof, and these drawings are used to illustrate examples consistent with the present disclosure and to illustrate the technical solutions of the present disclosure together with the specification. Will be done.

以下、本開示の様々な例示的な実施例、特徴及び態様を、図面を参照して詳細に説明する。図面における同じ参照番号は、同じ又は類似の機能の要素を表示する。実施例の様々な態様を図面に示したが、特に明記しない限り、縮尺通りに図面を描く必要がない。 Hereinafter, various exemplary examples, features and embodiments of the present disclosure will be described in detail with reference to the drawings. The same reference number in the drawing indicates an element of the same or similar function. Various embodiments of the examples are shown in the drawings, but it is not necessary to draw the drawings to scale unless otherwise specified.

明細書における「例示的」という記載は、「例、実施例又は説明として使用される」ことを意味する。ここで、「例示的」として記載される任意の実施例は、他の実施例より適切であるか又は優れると解釈される必要はない。 The term "exemplary" in the specification means "used as an example, example or description". Here, any example described as "exemplary" need not be construed as more appropriate or superior to the other examples.

本明細書における「及び/又は」という用語は、単に関連対象の関連関係を表し、3種類の関係が存在し得ることを示し、例えば、A及び/又はBは、Aが独立で存在する場合、AとBが同時に存在する場合、Bが独立で存在する場合のような3つの場合を表す。更に、本明細書における「少なくとも1つ」という用語は、複数のうちの1つ又は複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCで構成された集合から選択された任意の1つ又は複数の要素を含むことを示す。 As used herein, the term "and / or" simply refers to the relationships of related objects, indicating that three types of relationships can exist, for example, A and / or B, where A exists independently. , A and B exist at the same time, and represent three cases such as the case where B exists independently. Further, the term "at least one" as used herein refers to any combination of one or more of a plurality, and includes, for example, at least one of A, B, C. This indicates that it contains any one or more elements selected from the set composed of A, B and C.

更に、本開示をよりよく説明するために、以下の実施形態において、多数の詳細が記載されている。当業者は、幾つかの詳細が記載されなくても本開示が実施できることを理解されたい。いくつかの実施例において、本開示の要旨を強調するために、当業者に周知の方法、手段、要素及び回路について詳細に説明しない。 Further, in order to better illustrate the present disclosure, a number of details are provided in the following embodiments. It will be appreciated by those skilled in the art that this disclosure can be carried out without some details being provided. In some embodiments, the methods, means, elements and circuits well known to those of skill in the art will not be described in detail in order to emphasize the gist of the present disclosure.

図1aは、本開示の実施例に係る画像処理方法のフローチャートを示し、図1aに示されたように、前記画像処理方法は、次のステップを含む。 FIG. 1a shows a flowchart of an image processing method according to an embodiment of the present disclosure, and as shown in FIG. 1a, the image processing method includes the following steps.

ステップS11において、処理対象画像に対してM(Mは、1より大きい整数である)レベルの特徴抽出を実行して、前記処理対象画像のMレベルの第1特徴マップを得、前記Mレベルの第1特徴マップの各レベルの第1特徴マップの尺度は異なる。 In step S11, M (M is an integer larger than 1) level feature extraction is performed on the processed image to obtain the M level first feature map of the processed image, and the M level is obtained. The scale of the first feature map at each level of the first feature map is different.

ステップS12において、各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得、ここで、前記特徴マップ組のそれぞれは、前記第1特徴マップ及び前記第1特徴マップに隣接する第1特徴マップを含む。 In step S12, scale adjustment and fusion are performed on the feature map sets corresponding to the first feature maps of each level to obtain the second feature map of the M level, and here, each of the feature map sets. Includes the first feature map and a first feature map adjacent to the first feature map.

ステップS13において、前記Mレベルの第2特徴マップに対して目標検出を実行して、前記処理対象画像の目標検出結果を得る。 In step S13, the target detection is executed for the second feature map of the M level, and the target detection result of the processing target image is obtained.

本開示のいくつかの実施例において、前記画像処理方法は、端末機器又はサーバなどの電子機器によって実行され、端末機器は、ユーザ機器(UE:User Equipment)、モバイル機器、ユーザ端末、端末、セルラー電話、コードレス電話、携帯情報端末(PDA:Personal Digital Assistant)、ハンドヘルド機器、コンピューティング機器、車載機器、ウェアラブル機器などであってもよく、前記方法は、プロセッサがメモリに記憶されたコンピュータ読み取り可能な命令を呼び出す方式により実現されることができ、あるいは、サーバによって前記方法を実行することができる。 In some embodiments of the present disclosure, the image processing method is performed by an electronic device such as a terminal device or a server, where the terminal device is a user device (UE: User Computing), mobile device, user terminal, terminal, cellular. It may be a telephone, a cordless telephone, a mobile information terminal (PDA), a handheld device, a computing device, an in-vehicle device, a wearable device, or the like, and the method is computer-readable in which a processor is stored in a memory. It can be realized by a method of calling an instruction, or the method can be executed by a server.

例えば、処理対象画像は、目標(例えば、物体、動物、歩行者など)を含む画像であってもよいし、処理対象画像は、画像収集機器(例えば、カメラ)によって収集されたものであってもよいし、他の方式によって取得されたものであってもよく、本開示はこれらに対して特に限定しない。 For example, the image to be processed may be an image including a target (for example, an object, an animal, a pedestrian, etc.), and the image to be processed may be an image collected by an image collecting device (for example, a camera). It may be obtained by another method, and the present disclosure is not particularly limited thereto.

本開示のいくつかの実施例において、ステップS11において、例えば、特徴ピラミッドネットワークによって処理対象画像に対して複数レベルの特徴抽出を実行することにより、ネットワークの異なる層から特徴マップを抽出し、処理対象画像のM(Mは、1より大きい整数である)レベルの第1特徴マップ(特徴ピラミッドとも呼ばれる)を取得することができる。ここで、Mレベルの第1特徴マップの各レベルの第1特徴マップの尺度は異なる。当該特徴ピラミッドネットワークは、少なくともM層の畳み込み層やプーリング層などを含み得、本開示は、特徴ピラミッドネットワークのネットワーク構造に対して特に限定しない。単一尺度画像を使用して検出することにより、ストレージと計算のコストを低減することができる。 In some embodiments of the present disclosure, in step S11, feature maps are extracted from different layers of the network and processed by, for example, performing feature extraction at multiple levels on the image to be processed by the feature pyramid network. It is possible to obtain a first feature map (also called a feature pyramid) at the M (M is an integer greater than 1) level of the image. Here, the scale of the first feature map of each level of the first feature map of M level is different. The characteristic pyramid network may include at least an M-layer convolution layer, a pooling layer, and the like, and the present disclosure is not particularly limited to the network structure of the characteristic pyramid network. Detection using single-scale images can reduce storage and computational costs.

図1bは、多次元の特徴の組み合わせを生成するための4つの異なる方法の概略図であり、前記図1bは、特徴化された画像ピラミッドを示す図(a)と、単一尺度の特徴を示す図(b)と、ピラミッド特徴階層構造を示す図(c)と、特徴ピラミッドネットワークを示す図(d)とを含み、図1bに示されたように、図1bの図(a)特徴化された画像ピラミッドは、画像ピラミッドを用いて特徴ピラミッドを構築する。各尺度の画像で独立して特徴を計算し、予測出力の速度が遅い。図1bの図(b)が単一尺度特徴の場合を示しており、検出システムは、単一尺度特徴のみを使用することにより、検出速度を速くさせ、予測を出力する。図1bの図(c)がピラミッド特徴階層構造の場合を示しており、ピラミッド特徴階層構造を複数回使用して予測を出力する。図1bの図(d)に示される特徴ピラミッドネットワークは、図(b)及び図(c)と同じく予測を出力する速度が速く、しかもそれらよりも精度が高い。このようにして、特徴ピラミッドネットワークのトップダウンプロセスは、アップサンプリングすることにより、最上層の小さな特徴マップを隣接する特徴マップと同じサイズに拡大する。これの利点は、最上層の強いセマンティック特徴を使用するだけでなく、最下層の高解像度情報も使用することである。 FIG. 1b is a schematic representation of four different methods for generating a combination of multidimensional features, wherein FIG. 1b shows a diagram (a) showing a characterized image pyramid and features of a single scale. FIG. 1b includes a diagram (b) showing, a diagram (c) showing a pyramid feature hierarchical structure, and a diagram (d) showing a feature pyramid network, as shown in FIG. 1b. The resulting image pyramid builds a feature pyramid using the image pyramid. Features are calculated independently for images of each scale, and the speed of predictive output is slow. FIG. 1b (b) shows the case of a single scale feature, where the detection system speeds up the detection and outputs a prediction by using only the single scale feature. FIG. 1b (c) shows the case of the pyramid feature hierarchical structure, and the prediction is output by using the pyramid feature hierarchical structure a plurality of times. The feature pyramid network shown in FIG. 1b (d) has a high speed of outputting predictions as in FIGS. (B) and (c), and is more accurate than them. In this way, the top-down process of the feature pyramid network expands the top-level small feature map to the same size as the adjacent feature map by upsampling. The advantage of this is that it not only uses the strong semantic features of the top layer, but also the high resolution information of the bottom layer.

後続の処理では、Mレベルの第1特徴マップを直接に融合する時に、異なる層間のセマンティック情報を融合することができるが、隣接する層間の特徴の相関性を表すことができない。この場合、ステップS12により、各レベルの第1特徴マップと、それに隣接する第1特徴マップとの融合を実現することができる。 In the subsequent processing, when the M-level first feature map is directly fused, the semantic information between different layers can be fused, but the correlation of the features between adjacent layers cannot be expressed. In this case, step S12 can realize the fusion of the first feature map of each level and the first feature map adjacent thereto.

本開示のいくつかの実施例において、ステップS12において、各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることができ、各特徴マップ組は、前記第1特徴マップ及び前記第1特徴マップに隣接する第1特徴マップを含む。例えば、任意の第1特徴マップに対して、隣接する2q個の特徴マップ(つまり、前後の其々q(q≧1)個の特徴マップを取得する)の尺度を当該第1特徴マップと同じ尺度に調整し、調整後の2q個の特徴マップと当該第1特徴マップとを加算して、当該第1特徴マップに対応する第2特徴マップを得、本開示はqの値に対して特に限定しない。 In some embodiments of the present disclosure, in step S12, scale adjustment and fusion are performed on the feature map sets corresponding to the first feature maps of each level to obtain the second feature map of M level. Each feature map set may include the first feature map and a first feature map adjacent to the first feature map. For example, for any first feature map, the scale of 2q adjacent feature maps (that is, acquiring q (q ≧ 1) feature maps before and after each) is the same as that of the first feature map. Adjusted to a scale, the adjusted 2q feature maps and the first feature map are added to obtain a second feature map corresponding to the first feature map, the present disclosure of which is particularly relative to the value of q. Not limited.

本開示のいくつかの実施例において、第1特徴マップの特徴マップ組(第1特徴マップ及び隣接する2q個の特徴マップを含む)の尺度を特定の尺度に統一してもよく、例えば、特徴マップ組のすべての特徴マップを第1特徴マップの尺度の何倍に拡大し、又は第1特徴マップの尺度の数分の一に縮小する。そして、調整後の各特徴マップを加算して、当該第1特徴マップに対応する第2特徴マップを得る。本開示は、特徴マップ組への尺度調整の尺度範囲及び方式に対して特に限定しない。 In some embodiments of the present disclosure, the scale of the feature map set of the first feature map (including the first feature map and adjacent 2q feature maps) may be unified to a specific scale, for example, features. Enlarge all feature maps in the map set by many times the scale of the first feature map, or reduce them to a fraction of the scale of the first feature map. Then, each adjusted feature map is added to obtain a second feature map corresponding to the first feature map. The present disclosure is not particularly limited to the scale range and method of scale adjustment to the feature map set.

このようにして、特徴マップ次元の相関性と空間的次元の相関を取得することができ、融合された特徴マップの精度を向上させることができる。 In this way, the correlation of the feature map dimension and the correlation of the spatial dimension can be obtained, and the accuracy of the fused feature map can be improved.

本開示のいくつかの実施例において、ステップS13において、Mレベルの第2特徴マップに対して目標検出を実行して、処理対象画像の目標検出結果を得ることができる。例えば、Mレベルの第2特徴マップに対してそれぞれ回帰処理と分類処理を実行する。回帰処理後、処理対象画像内の目標の所在画像領域(つまり、検出枠)を決定することができ、分類処理後、処理対象画像内の目標のカテゴリを決定することができる。当該処理対象画像の目標検出結果は、処理対象画像内の目標の所在画像領域(つまり、検出枠)及び目標のカテゴリなどを含み得る。 In some embodiments of the present disclosure, in step S13, target detection can be performed on the M-level second feature map to obtain the target detection result of the image to be processed. For example, regression processing and classification processing are executed for the second feature map of M level, respectively. After the regression processing, the location image area (that is, the detection frame) of the target in the processing target image can be determined, and after the classification processing, the target category in the processing target image can be determined. The target detection result of the processing target image may include a target location image area (that is, a detection frame) in the processing target image, a target category, and the like.

本開示の実施例によれば、処理対象画像に対してMレベルの特徴抽出を実行してMレベルの第1特徴マップを得、各第1特徴マップと、それに隣接する特徴マップとを融合してMレベルの第2特徴マップを得、Mレベルの第2特徴マップに対して目標検出を実行して目標検出結果を得ることができ、それにより、Mレベルの第1特徴マップの隣接層間の特徴の関連情報を融合し、目標検出の効果を効果的に向上させることができる。 According to the embodiment of the present disclosure, M-level feature extraction is performed on the image to be processed to obtain an M-level first feature map, and each first feature map and an adjacent feature map are fused. The second feature map of the M level can be obtained, and the target detection result can be obtained by performing the target detection on the second feature map of the M level, whereby the adjacent layers of the first feature map of the M level can be obtained. It is possible to effectively improve the effect of target detection by fusing the related information of the features.

本開示のいくつかの実施例において、ステップS11により取得されたMレベルの第1特徴マップの各レベルの第1特徴マップの尺度は逓減的なものであっても良く、例えば、第1レベルの第1特徴マップの尺度は512×512であり、第2レベルの第1特徴マップの尺度は256×256であり、第3レベルの第1特徴マップの尺度は128×128である。本開示は、Mレベルの第1特徴マップの尺度の値に対して特に限定しない。 In some embodiments of the present disclosure, the scale of the first feature map at each level of the M level first feature map acquired in step S11 may be gradual, eg, the first level. The scale of the first feature map is 512 × 512, the scale of the first feature map of the second level is 256 × 256, and the scale of the first feature map of the third level is 128 × 128. The present disclosure is not particularly limited to the value of the scale of the first feature map of M level.

本開示のいくつかの実施例において、Mレベルの第1特徴マップの第i(iは整数であり、且つ1<i<Mである)レベルの第1特徴マップについて、第iレベルの第1特徴マップに対応する特徴マップ組は、第i-1レベルの第1特徴マップ、第iレベルの第1特徴マップ及び第i+1レベルの第1特徴マップを含む。ここで、ステップS12は、
前記第i-1レベルの第1特徴マップの尺度を縮小して、1番目の第iレベルの第3特徴マップを得ることと、
前記第iレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第iレベルの第3特徴マップを得ることと、
前記第i+1レベルの第1特徴マップの尺度を拡大して、3番目の第iレベルの第3特徴マップを得ることと、
前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと、3番目の第iレベルの第3特徴マップとを融合して、第iレベルの第2特徴マップを得ることと、を含み、
ここで、前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと3番目の第iレベルの第3特徴マップとの尺度は同じである。
In some embodiments of the present disclosure, for the first feature map of the i (i is an integer and 1 <i <M) level of the first feature map of the M level, the first of the i level. The feature map set corresponding to the feature map includes the first feature map of the i-1 level, the first feature map of the i level, and the first feature map of the i + 1 level. Here, step S12 is
Reducing the scale of the first feature map of the first i-1 level to obtain the third feature map of the first i level,
Performing a transformation on the i-level first feature map so that the scale is not changed to obtain a second i-level third feature map.
By expanding the scale of the first feature map of the first i + 1 level to obtain the third feature map of the third i level,
The third feature map of the first i-level, the third feature map of the second i-level, and the third feature map of the third i-level are fused to form the third feature map of the i-level. 2 Including getting a feature map
Here, the scales of the first i-level third feature map, the second i-level third feature map, and the third i-level third feature map are the same.

例えば、第iレベルの第1特徴マップに対応する特徴マップ組に対して、尺度の大きい第i-1レベルの第1特徴マップを、第iレベルの第1特徴マップと同じ尺度に縮小し、尺度の小さい第i+1レベルの第1特徴マップを、第iレベルの第1特徴マップと同じ尺度に拡大することにより、当該特徴マップ組の各特徴マップの尺度を統一することができる。 For example, for the feature map set corresponding to the first feature map of the i-level, the first feature map of the i-1 level having a large scale is reduced to the same scale as the first feature map of the i-level. By enlarging the first feature map of the i + 1 level, which has a smaller scale, to the same scale as the first feature map of the i level, the scale of each feature map of the feature map set can be unified.

本開示のいくつかの実施例において、第i-1レベルの第1特徴マップの尺度を縮小して、1番目の第iレベルの第3特徴マップを得ることができ、第iレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第iレベルの第3特徴マップを得ることができ、第i+1レベルの第1特徴マップの尺度を拡大して、3番目の第iレベルの第3特徴マップを得ることができる。ここで、1番目の第iレベルの第3特徴マップと、2番目の第iレベルの第3特徴マップと3番目の第iレベルの第3特徴マップとの尺度は同じである。 In some embodiments of the present disclosure, the scale of the first level first feature map can be scaled down to obtain the first level i third feature map, the first level i first. A transformation can be performed on the feature map so that the scale does not change to obtain the second i-level third feature map, and the scale of the first i + 1 level first feature map is scaled up to 3 A third feature map of the third i-level can be obtained. Here, the scales of the first i-level third feature map, the second i-level third feature map, and the third i-level third feature map are the same.

本開示のいくつかの実施例において、畳み込みやダウンサンプリングなどの方式により、尺度の縮小を実現し、逆畳み込み、アップサンプリング、及びステップサイズが1より小さい畳み込みなどの方式により、尺度の拡大を実現し、ステップサイズが1である畳み込み又は他の処理方式により、尺度が変更されないような変換を実現することができ、本開示は、これらに対して特に限定しない。 In some embodiments of the present disclosure, methods such as convolution and downsampling achieve scale reduction, and deconvolution, upsampling, and convolution with a step size smaller than 1 achieve scale expansion. However, the convolution or other processing method having a step size of 1 can realize a conversion in which the scale is not changed, and the present disclosure is not particularly limited thereto.

本開示のいくつかの実施例において、1番目の第iレベルの第3特徴マップ、2番目の第iレベルの第3特徴マップ及び3番目の第iレベルの第3特徴マップを直接加算し、又は事前設定された重みに従って加算及び融合することにより、第iレベルの第2特徴マップを得ることができ、当該第iレベルの第2特徴マップの尺度と第iレベルの第1特徴マップの尺度は同じである。これにより、隣接する特徴マップの融合を実現し、特徴の抽出効果を向上させることができる。 In some embodiments of the present disclosure, the first i-level third feature map, the second i-level third feature map, and the third i-level third feature map are directly added together. Alternatively, by adding and fusing according to preset weights, the i-level second feature map can be obtained, and the i-level second feature map scale and the i-level first feature map scale can be obtained. Is the same. As a result, it is possible to realize the fusion of adjacent feature maps and improve the feature extraction effect.

本開示のいくつかの実施例において、前記第i-1レベルの第1特徴マップの尺度を縮小して、1番目の第iレベルの第3特徴マップを得ることは、第1畳み込み層によって、前記第i-1レベルの第1特徴マップを畳み込んで、前記1番目の第iレベルの第3特徴マップを得ることを含み、前記第1畳み込み層の畳み込みカーネルのサイズはN×N(Nは1より大きい整数である)であり、ステップサイズはn(nは、1より大きい整数である)であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、
前記第iレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第iレベルの第3特徴マップを得ることは、第2畳み込み層によって前記第iレベルの第1特徴マップを畳み込んで、前記2番目の第iレベルの第3特徴マップを得ることを含み、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1であり、
前記第i+1レベルの第1特徴マップの尺度を拡大して、3番目の第iレベルの第3特徴マップを得ることは、第3畳み込み層及びアップサンプリング層によって、前記第i+1レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、前記3番目の第iレベルの第3特徴マップを得ることを含み、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である。
In some embodiments of the present disclosure, reducing the scale of the i-1 level first feature map to obtain the first i level third feature map is by means of the first convolution layer. The size of the convolution kernel of the first convolution layer is N × N (N), including convolving the first feature map of the i-1 level to obtain the third feature map of the first i level. Is an integer greater than 1), the step size is n (n is an integer greater than 1), and the scale of the i-1 level first feature map is the i-level th. It is n times the scale of one feature map,
Performing a transformation on the i-level first feature map so that the scale is not changed to obtain a second i-level third feature map is performed by the second convolution layer of the i-level. The size of the convolution kernel of the second convolution layer is N × N and the step size is 1, including convolving the first feature map to obtain the second i-level third feature map. ,
Enlarging the scale of the first feature map of the i + 1 level to obtain the third feature map of the third i level is to obtain the first feature of the i + 1 level by the third convolution layer and the upsampling layer. The size of the convolution kernel of the third convolution layer is N × N and the step size is 1 including convolving and upsampling the map to obtain the third feature map of the third i-level. Is.

例えば、異なる畳み込み層を設定することにより、第iレベルの第1特徴マップに対応する特徴マップ組の各特徴マップへの処理を実現することができる。 For example, by setting different convolution layers, it is possible to realize processing for each feature map of the feature map set corresponding to the first level first feature map.

本開示のいくつかの実施例において、第1畳み込み層によって、第i-1レベルの第1特徴マップを畳み込んで、1番目の第iレベルの第3特徴マップを得る。当該第1畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズはn(nは、1より大きい整数である)であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、畳み込むことにより尺度の縮小を実現する。例えば、第i-1レベルの第1特徴マップの尺度は256×256であり、第iレベルの第1特徴マップの尺度は128×128である場合、n=2であり、即ち、第i-1レベルの第1特徴マップの長さと幅が両方とも、第iレベルの第1特徴マップの長さと幅の2倍である。畳み込み後、取得された1番目の第iレベルの第3特徴マップの尺度は128×128である。ここで、Nは例えば3であり、本開示は、Nとnの値に対して特に限定しない。 In some embodiments of the present disclosure, the first convolutional layer convolves the first level i-1 feature map to obtain the first level i third feature map. The size of the convolution kernel of the first convolution layer is N × N (N is an integer greater than 1), the step size is n (n is an integer greater than 1), and the i-. The scale of the 1st level 1st feature map is n times the scale of the 1st level 1st feature map, and the scale can be reduced by convolution. For example, if the scale of the first feature map of the i-1 level is 256 × 256 and the scale of the first feature map of the i level is 128 × 128, then n = 2, that is, the i-th. Both the length and width of the 1st level 1st feature map are twice the length and width of the ist level 1st feature map. After convolution, the scale of the first i-level third feature map obtained is 128 × 128. Here, N is, for example, 3, and the present disclosure is not particularly limited to the values of N and n.

本開示のいくつかの実施例において、第2畳み込み層によって第iレベルの第1特徴マップを畳み込んで、2番目の第iレベルの第3特徴マップを得ることができ、当該第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1であり、つまり、畳み込むことにより尺度が変更されないような変換を実現することができる。例えば、第iレベルの第1特徴マップの尺度は128×128であり、畳み込み後、取得された2番目の第iレベルの第3特徴マップの尺度は128×128である。理解できることとして、当業者は、他の方式を用いて尺度が変更されないような変換を実現することができ、本開示は、これらに対して特に限定しない。 In some embodiments of the present disclosure, a second convolutional layer can be used to convolve a first level i-level feature map to obtain a second i-level third feature map, the second convolutional layer. The size of the convolution kernel of is N × N, and the step size is 1, that is, it is possible to realize a conversion in which the scale is not changed by convolution. For example, the scale of the first feature map of the i-level is 128 × 128, and the scale of the third feature map of the second i-level acquired after convolution is 128 × 128. As will be appreciated, those skilled in the art will be able to implement transformations that do not change the scale using other methods, and the present disclosure is not particularly limited thereto.

本開示のいくつかの実施例において、第3畳み込み層及びアップサンプリング層によって、第i+1レベルの第1特徴マップを畳み込んでn倍のアップサンプリングを行い、3番目の第iレベルの第3特徴マップを得ることができ、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1であり、つまり畳み込み及びアップサンプリングすることにより尺度の拡大を実現することができる。例えば、第i+1レベルの第1特徴マップの尺度が64×64であり、第iレベルの第1特徴マップの尺度が128×128である場合、n=2である。畳み込み及び2倍のアップサンプリング後、取得された3番目の第iレベルの第3特徴マップの尺度は128×128である。理解できることとして、当業者は、逆畳み込みやステップサイズが1/nである畳み込みなど、他の方式を用いて尺度の拡大を実現することができ、本開示は、これらに対して特に限定しない。 In some embodiments of the present disclosure, the third convolution layer and the upsampling layer convolve the first feature map of the i + 1 level to perform n times upsampling, and the third feature of the third i level. A map can be obtained, the size of the convolution kernel of the third convolution layer is N × N, the step size is 1, that is, expansion of the scale can be realized by convolution and upsampling. For example, if the scale of the first feature map of the i + 1 level is 64 × 64 and the scale of the first feature map of the i level is 128 × 128, n = 2. After convolution and double upsampling, the scale of the third feature map of the third i-level obtained is 128 × 128. As will be appreciated, those skilled in the art can achieve scale expansion using other methods such as deconvolution and convolution with a step size of 1 / n, and the present disclosure is not particularly limited thereto.

これにより、特徴マップ組の各特徴マップの尺度を統一することにより、後続の融合処理に役に立つことができる。 As a result, by unifying the scale of each feature map of the feature map set, it can be useful for the subsequent fusion process.

本開示のいくつかの実施例において、1番目の第iレベルの第3特徴マップと、2番目の第iレベルの第3特徴マップと、3番目の第iレベルの第3特徴マップとを直接加算して、第iレベルの第2特徴マップを得る。全体的な処理プロセスは、次の通りである。 In some embodiments of the present disclosure, the first i-level third feature map, the second i-level third feature map, and the third i-level third feature map are directly populated. Add up to get the second feature map of the i-level. The overall processing process is as follows.

Y^i=Upsample(w^1*x^(i+1) )+w^0*x^i+ w^(-1) *_(s=2) x^(i-1) 式(1)
対応するコードは、次の通りである。
Y ^ i = Upsample (w ^ 1 * x ^ (i + 1)) + w ^ 0 * x ^ i + w ^ (-1) * _ (s = 2) x ^ (i-1) Equation (1)
The corresponding code is:

Figure 2022532322000002
Figure 2022532322000002

式(1)では、Y^iは、第iレベルの第2特徴マップを表し、x^(i+1)、x^i及びx^(i-1)は、それぞれ、第i+1レベルの第1特徴マップ、第iレベルの第1特徴マップ及び第i-1レベルの第1特徴マップを表し、w^1、w^0及びw^(-1)は、それぞれ、第3畳み込み層、第2畳み込み層及び第1畳み込み層の重みを表し、*は、畳み込み操作を表し、sは、ステップサイズを表し、Upsampleは、アップサンプリング操作を表す。 In equation (1), Y ^ i represents the second feature map of the i-th level, and x ^ (i + 1), x ^ i and x ^ (i-1) are the second features of the i + 1 level, respectively. Represents a 1-feature map, an i-level 1st feature map, and a 1st-level first feature map, where w ^ 1, w ^ 0, and w ^ (-1) are the third convolution layer and the third, respectively. The weights of the two convolution layers and the first convolution layer are represented, * represents a convolution operation, s represents a step size, and Upsample represents an upsampling operation.

式(1)の処理プロセスは、ピラミッド畳み込み又は尺度空間畳み込みとも呼ばれる。当該ピラミッド畳み込み処理は、隣接する層情報を融合した第2特徴マップを得ることができ、後続の目標検出効果を効果的に向上させることができる。 The processing process of equation (1) is also referred to as pyramid convolution or scale space convolution. The pyramid convolution process can obtain a second feature map in which adjacent layer information is fused, and can effectively improve the subsequent target detection effect.

本開示のいくつかの実施例において、Mレベルの第1特徴マップの第1レベルの第1特徴マップについて、第1レベルの第1特徴マップに対応する特徴マップ組は、前記第1レベルの第1特徴マップ及び第2レベルの第1特徴マップを含む。ここで、ステップS12は、
前記第1レベルの第1特徴マップに対して尺度が変更されないように変換を実行して、1番目の第1レベルの第3特徴マップを得ることと、
前記第2レベルの第1特徴マップの尺度を拡大して、2番目の第1レベルの第3特徴マップを得ることと、
前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップとを融合して、第1レベルの第2特徴マップを得ることと、を含み、
前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップの尺度は同じである。
In some embodiments of the present disclosure, with respect to the first level first feature map of the M level first feature map, the feature map set corresponding to the first level first feature map is the first level first feature map. Includes 1 feature map and 2nd level 1st feature map. Here, step S12 is
To obtain the first level third feature map by performing a transformation so that the scale is not changed with respect to the first level first feature map.
Enlarging the scale of the first level first feature map to obtain the second first level third feature map,
Including fusing the first level third feature map and the second first level third feature map to obtain a first level second feature map.
The scales of the first level third feature map and the second first level third feature map are the same.

例えば、第1レベルの第1特徴マップの場合、前レベルの特徴マップがなく、第1レベルの第1特徴マップ自身と、隣接する第2レベルの第1特徴マップとだけを処理することができる。 For example, in the case of the first level first feature map, there is no previous level feature map, and only the first level first feature map itself and the adjacent second level first feature map can be processed. ..

本開示のいくつかの実施例において、第1レベルの第1特徴マップに対して尺度が変更されないように変換を実行して、1番目の第1レベルの第3特徴マップを得、第2レベルの第1特徴マップの尺度を拡大して、2番目の第iレベルの第3特徴マップを得ることができる。ここで、1番目の第1レベルの第3特徴マップと2番目の第1レベルの第3特徴マップとの尺度は同じである。 In some embodiments of the present disclosure, transformations are performed so that the scale is not changed for the first level first feature map to obtain the first first level third feature map and the second level. The scale of the first feature map of can be expanded to obtain the third feature map of the second i-level. Here, the scales of the first level third feature map and the second first level third feature map are the same.

本開示のいくつかの実施例において、1番目の第1レベルの第3特徴マップと2番目の第1レベルの第3特徴マップとを加算して、第1レベルの第2特徴マップを得ることができる。これにより、第1レベルの隣接する特徴マップの融合を実現することができる。 In some embodiments of the present disclosure, the first level third feature map and the second first level third feature map are added to obtain a first level second feature map. Can be done. As a result, it is possible to realize the fusion of the adjacent feature maps of the first level.

本開示のいくつかの実施例において、前記第1レベルの第1特徴マップに対して尺度が変更されないように変換を実行して、1番目の第1レベルの第3特徴マップを得ることは、第2畳み込み層によって前記第1レベルの第1特徴マップを畳み込んで、前記1番目の第1レベルの第3特徴マップを得ることを含み、前記第2畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズは1であり、
前記第2レベルの第1特徴マップの尺度を拡大して、2番目の第1レベルの第3特徴マップを得ることは、第3畳み込み層及びアップサンプリング層によって、前記第2レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、2番目の第1レベルの第3特徴マップを得ることを含み、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である。
In some embodiments of the present disclosure, performing a transformation so that the scale is not changed with respect to the first level first feature map to obtain the first first level third feature map. The size of the convolution kernel of the second convolution layer is N ×, including convolving the first level first feature map with the second convolution layer to obtain the first first level third feature map. N (N is an integer greater than 1), the step size is 1, and
Enlarging the scale of the first level first feature map to obtain the second first level third feature map is to obtain the second level first feature by means of the third convolution layer and the upsampling layer. The size of the convolution kernel of the third convolution layer is N × N, and the step size is 1, including convolving and upsampling the map to obtain the third feature map of the second first level. be.

つまり、異なる畳み込み層を設定することにより、第1レベルの第1特徴マップに対応する特徴マップ組の各特徴マップへの処理を実現することができる。第2畳み込み層によって第1レベルの第1特徴マップを畳み込んで、1番目の第1レベルの第3特徴マップを得、つまり畳み込みにより尺度が変更されないような変換を実現することができ、第3畳み込み層及びアップサンプリング層によって、第2レベルの第1特徴マップを畳み込んでn倍のアップサンプリングを行い、2番目の第1レベルの第3特徴マップを得、つまり畳み込み及びアップサンプリングすることにより尺度の拡大を実現することができる。処理方式は、上記の説明と同じであり、ここでは繰り返して記載しない。
この方式により、特徴マップ組の各特徴マップの尺度を統一し、後続に融合するのに便利をもたらすことができる。
That is, by setting different convolution layers, it is possible to realize processing for each feature map of the feature map set corresponding to the first level first feature map. The second convolution layer can convolve the first level first feature map to obtain the first first level third feature map, i.e., a transformation can be achieved in which the convolution does not change the scale. 3 The convolution layer and the upsampling layer convolve the first feature map of the second level and perform n times upsampling to obtain the third feature map of the second first level, that is, convolution and upsampling. It is possible to realize the expansion of the scale. The processing method is the same as the above description, and is not described repeatedly here.
By this method, it is possible to unify the scale of each feature map of the feature map set and bring convenience to the subsequent fusion.

本開示のいくつかの実施例において、Mレベルの第1特徴マップの第Mレベルの第1特徴マップについて、第Mレベルの第1特徴マップに対応する特徴マップ組は、第M-1レベルの第1特徴マップ及び前記第Mレベルの第1特徴マップを含む。ここで、ステップS12は、
前記第M-1レベルの第1特徴マップの尺度を縮小して、1番目の第Mレベルの第3特徴マップを得ることと、
前記第Mレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第Mレベルの第3特徴マップを得ることと、
前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第2特徴マップとを融合して、第Mレベルの第2特徴マップを得ることと、を含み、
ここで、前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第3特徴マップの尺度は同じである。
In some embodiments of the present disclosure, for the M-level first feature map of the M-level first feature map, the feature map set corresponding to the M-level first feature map is of the M-1 level. Includes a first feature map and the M-level first feature map. Here, step S12 is
By reducing the scale of the first feature map of the first M-1 level to obtain the third feature map of the first M level,
To obtain the second M-level third feature map by performing a transformation so that the scale is not changed for the first M-level feature map.
Including fusing the first M-level third feature map and the second M-level second feature map to obtain a second M-level feature map.
Here, the scales of the first M-level third feature map and the second M-level third feature map are the same.

例えば、第Mレベルの第1特徴マップの場合、その次のレベルの特徴マップがなく、第Mレベルの第1特徴マップ自身と、隣接する第M-1レベルの第1特徴マップとだけを処理することができる。 For example, in the case of the first feature map of the first M level, there is no feature map of the next level, and only the first feature map of the M level and the adjacent first feature map of the M-1 level are processed. can do.

本開示のいくつかの実施例において、第M-1レベルの第1特徴マップの尺度を縮小して、1番目の第Mレベルの第3特徴マップを得ることができ、第Mレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第Mレベルの第3特徴マップを得ることができる。ここで、1番目の第Mレベルの第3特徴マップと2番目の第Mレベルの第3特徴マップとの尺度は同じである。 In some embodiments of the present disclosure, the scale of the first feature map of the M-1 level can be scaled down to obtain the third feature map of the first M level, the first of the M level. A transformation can be performed on the feature map so that the scale is not changed to obtain a second M-level third feature map. Here, the scales of the first M-level third feature map and the second M-level third feature map are the same.

本開示のいくつかの実施例において、1番目の第Mレベルの第3特徴マップと2番目の第Mレベルの第3特徴マップとを加算して、第Mレベルの第2特徴マップを得ることができる。これにより、第1レベルの隣接する特徴マップの融合を実現することができる。 In some embodiments of the present disclosure, the first M-level third feature map and the second M-level third feature map are added to obtain a second M-level feature map. Can be done. As a result, it is possible to realize the fusion of the adjacent feature maps of the first level.

本開示のいくつかの実施例において、前記第M-1レベルの第1特徴マップの尺度を縮小して、1番目の第Mレベルの第3特徴マップを得ることは、第1畳み込み層によって、前記第M-1レベルの第1特徴マップを畳み込んで、前記1番目の第Mレベルの第3特徴マップを得ることを含み、前記第1畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズはn(nは、1より大きい整数である)であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、
前記第Mレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第Mレベルの第3特徴マップを得ることは、第2畳み込み層によって前記第Mレベルの第1特徴マップを畳み込んで、前記2番目の第Mレベルの第3特徴マップを得ることを含み、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である。
In some embodiments of the present disclosure, reducing the scale of the M-1 level first feature map to obtain the first M level third feature map is by means of the first convolution layer. Convolving the first feature map of the first M-1 level to obtain the third feature map of the first M level, the size of the convolution kernel of the first convolution layer is N × N (N). Is an integer greater than 1), the step size is n (n is an integer greater than 1), and the scale of the first feature map of the i-1 level is the i-level. It is n times the scale of the first feature map,
Performing a transformation on the M-level first feature map so that the scale is not changed to obtain a second M-level third feature map is performed by the second convolution layer of the M-level. The size of the convolution kernel of the second convolution layer is N × N and the step size is 1, including convolving the first feature map to obtain the second M-level third feature map. ..

つまり、異なる畳み込み層を設定することにより、第Mレベルの第1特徴マップに対応する特徴マップ組の各特徴マップへの処理を実現することができる。第1畳み込み層によって、第M-1レベルの第1特徴マップを畳み込んで、1番目の第Mレベルの第3特徴マップを得、つまり畳み込むことにより尺度の縮小を実現し、第2畳み込み層によって第Mレベルの第1特徴マップを畳み込んで、2番目の第Mレベルの第3特徴マップを得、つまり畳み込むことにより尺度が変更されないように変換を実行することができる。処理方式は、上記の説明と同じであり、ここでは繰り返して記載しない。この方式により、特徴マップ組の各特徴マップの尺度を統一し、後続に融合するのに便利をもたらすことができる。 That is, by setting different convolution layers, it is possible to realize processing for each feature map of the feature map set corresponding to the first feature map of the M level. The first convolution layer convolves the first feature map of the M-1 level to obtain the third feature map of the first M level, that is, the convolution realizes the reduction of the scale, and the second convolution layer. The first M-level feature map can be convoluted to obtain a second M-level third feature map, i.e., the conversion can be performed so that the scale is not changed by the convolution. The processing method is the same as the above description, and is not described repeatedly here. By this method, it is possible to unify the scale of each feature map of the feature map set and bring convenience to the subsequent fusion.

本開示のいくつかの実施例において、第2畳み込み層及び前記第3畳み込み層は、変形可能な畳み込み層又は膨張畳み込み層を含む。 In some embodiments of the present disclosure, the second convolution layer and the third convolution layer include a deformable convolution layer or an expansion convolution layer.

図1cは、変形可能な畳み込み層の動作原理の概略図であり、前記畳み込み層は、入力特徴マップ11、変形可能な畳み込み層12、畳み込み13、オフセット14及び出力特徴マップ15を含む。図1cに示されたように、先ず、別途的な畳み込み13を使用してオフセット14を学習し、入力特徴マップ11を共有する。その後、入力特徴マップ11及びオフセット14を両方とも、変形可能な畳み込み層12の入力として使用し、サンプリングポイントをオフセットさせてから、畳み込むことにより、出力特徴マップ15を取得する。 FIG. 1c is a schematic diagram of the operating principle of a deformable convolutional layer, which includes an input feature map 11, a deformable convolutional layer 12, a convolution 13, an offset 14, and an output feature map 15. As shown in FIG. 1c, first, the offset 14 is learned using a separate convolution 13 and the input feature map 11 is shared. After that, both the input feature map 11 and the offset 14 are used as inputs of the deformable convolution layer 12, the sampling points are offset, and then the convolution is performed to acquire the output feature map 15.

ピラミッド畳み込みが最下層に移動した後、ピラミッド畳み込みのうちの通常の畳み込みは、変形可能な畳み込み又は膨張畳み込みに置き換えることができるが、最下層の畳み込みと重みを共有する。これにより、特徴マップの異なる位置で受容野を動的に調整して、下層の特徴マップの通常の畳み込みとの位置合わせを実現することができる。この場合、調整後のピラミッド畳み込みは、均一の尺度を有するピラミッド畳み込みとも呼ばれる。 After the pyramid convolution has moved to the bottom layer, the normal convolution of the pyramid convolution can be replaced with a deformable or inflatable convolution, but shares weight with the bottom layer convolution. This allows the receptive fields to be dynamically adjusted at different positions in the feature map to achieve alignment with the normal convolution of the underlying feature map. In this case, the adjusted pyramid convolution is also referred to as a pyramid convolution with a uniform scale.

つまり、第iレベルの第1特徴マップに対応する特徴マップ組の場合、第i-1レベルの第1特徴マップに対応する第1畳み込み層は通常の畳み込みであり、第iレベルの第1特徴マップに対応する第2畳み込み層及び第i+1レベルの第1特徴マップに対応する第3畳み込み層は、変形可能な畳み込み又は膨張畳み込みである。 That is, in the case of the feature map set corresponding to the first feature map of the i-level, the first convolution layer corresponding to the first feature map of the i-1 level is a normal convolution, and the first feature of the i-level. The second convolution layer corresponding to the map and the third convolution layer corresponding to the first feature map of the i + 1 level are deformable convolutions or expansion convolutions.

本開示のいくつかの実施例において、第2畳み込み層及び第3畳み込み層が変形可能な畳み込み層である場合、別途的な畳み込み層を設定することによってオフセットを学習した後、入力された特徴マップ及びオフセットを両方とも、変形可能な畳み込み層の入力として使用し、サンプリングポイントをオフセットさせてから、畳み込むことができる。 In some embodiments of the present disclosure, when the second convolution layer and the third convolution layer are deformable convolution layers, the feature map input after learning the offset by setting a separate convolution layer. And offsets can both be used as inputs to the deformable convolution layer to offset the sampling points before convolution.

本開示のいくつかの実施例において、第2畳み込み層及び第3畳み込み層が膨張畳み込み層である場合、膨張畳み込みの膨張率を事前に設定することにより、畳み込みの受容野を適切に調整するのに役に立つことができる。本開示は、膨張率の設定に対して特に限定しない。 In some embodiments of the present disclosure, when the second and third convolutional layers are inflatable convolutional layers, the receptive fields of the convolution are appropriately adjusted by presetting the expansion rate of the inflatable convolution. Can be useful for. The present disclosure is not particularly limited to the setting of the expansion rate.

これにより、畳み込みの受容野を適切に調整し、特徴マップの融合効果を更に向上させることができる。 This makes it possible to appropriately adjust the receptive fields of the convolution and further improve the fusion effect of the feature map.

本開示のいくつかの実施例において、本開示の実施例に係る画像処理方法は、画像処理ネットワークによって実現されることができ、当該画像処理ネットワークは、処理対象画像に対して複数レベルの特徴抽出を実行するための特徴ピラミッドネットワークを含み得る。 In some embodiments of the present disclosure, the image processing method according to the embodiments of the present disclosure can be realized by an image processing network, and the image processing network can extract features at a plurality of levels with respect to the image to be processed. May include a feature pyramid network for performing.

本開示のいくつかの実施例において、当該画像処理ネットワークは、前記Mレベルの第1特徴マップに対して、尺度調整と融合とをP回実行するための直列接続されたP(Pは正の整数である)レベルの融合ネットワークブロックを含み得、各レベルの融合ネットワークブロックは、複数の第1畳み込み層、複数の第2畳み込み層及び複数の第3畳み込み層を含む。 In some embodiments of the present disclosure, the image processing network is serially connected P (where P is positive) for performing scaling and fusion P times with respect to the M-level first feature map. It may include level fusion network blocks (which are integers), and each level fusion network block includes a plurality of first convolution layers, a plurality of second convolution layers, and a plurality of third convolution layers.

本開示のいくつかの実施例において、尺度調整プロセス及び融合プロセスを複数回実行することができ、当該プロセスは、Pレベルの融合ネットワークブロックによって実現されることができ、各レベルの融合ネットワークブロック(PConvと略称できる)は、隣接する特徴マップで構成された各特徴マップ組を処理するための、複数の第1畳み込み層、複数の第2畳み込み層及び複数の第3畳み込み層を含む。Pは例えば4であり、本開示は、Pの値に対して特に限定しない。 In some embodiments of the present disclosure, the scaling and fusion processes can be performed multiple times, which can be implemented by P-level fusion network blocks, each level of fusion network block ( PConv) includes a plurality of first convolution layers, a plurality of second convolution layers, and a plurality of third convolution layers for processing each feature map set composed of adjacent feature maps. P is, for example, 4, and the present disclosure is not particularly limited to the value of P.

本開示のいくつかの実施例において、各レベルの融合ネットワークブロックは、複数の特徴マップ組を処理することができ、各特徴マップ組は、特徴マップ組の各特徴マップを畳み込むための1つの畳み込み層組に対応する。例えば、第i-1レベルの第1特徴マップ、第iレベルの第1特徴マップ及び第i+1レベルの第1特徴マップを含む特徴マップ組に対して、当該特徴マップ組に対応する畳み込み層組は、第1畳み込み層、第2畳み込み層、第3畳み込み層及びアップサンプリング層を含み、第i-1レベルの第1特徴マップ、第iレベルの第1特徴マップ及び第i+1レベルの第1特徴マップをそれぞれ畳み込むためのものである。 In some embodiments of the present disclosure, each level of fusion network block can process multiple feature map sets, where each feature map set is one convolution for convolving each feature map of the feature map set. Corresponds to the stratum. For example, for a feature map set including a first feature map at the i-1 level, a first feature map at the i-level, and a first feature map at the i + 1 level, the convolutional layer set corresponding to the feature map set is , 1st convolution layer, 2nd convolution layer, 3rd convolution layer and upsampling layer, 1st feature map of i-1 level, 1st feature map of i level and 1st feature map of i + 1 level. Is for folding each.

本開示のいくつかの実施例において、ステップS12は、
前記Mレベルの第1特徴マップを第1レベルの融合ネットワークブロックに入力して、1回目に融合されたMレベルの第4特徴マップを出力することと、
j-1(jは整数であり、且つ1<j<Pである)回目に融合されたMレベルの第4特徴マップを第jレベルの融合ネットワークブロックに入力して、j回目に融合されたMレベルの第4特徴マップを出力することと、
P-1回目に融合されたMレベルの第4特徴マップを第Pレベルの融合ネットワークブロックに入力して、前記Mレベルの第2特徴マップを出力することと、を含む。
In some embodiments of the present disclosure, step S12 is
The first M-level feature map is input to the first-level fusion network block, and the first fused M-level fourth feature map is output.
The M-level fourth feature map fused at the j-1 (j is an integer and 1 <j <P) th time is input to the j-level fusion network block, and the fusion is performed at the jth time. Outputting the 4th feature map of M level and
P-The first fusion of the M-level fourth feature map is input to the P-level fusion network block, and the M-level second feature map is output.

例えば、Mレベルの第1特徴マップを第1レベルの融合ネットワークブロックに入力して、1回目の尺度調整及び融合を実行して、1回目に融合されたMレベルの第4特徴マップを出力し、1回目に融合されたMレベルの第4特徴マップを次のレベルの融合ネットワークブロックに入力することができる。j-1(jは整数であり、且つ1<j<Pである)回目に融合されたMレベルの第4特徴マップを第jレベルの融合ネットワークブロックに入力して、j回目の尺度調整及び融合を実行して、j回目に融合されたMレベルの第4特徴マップを出力することができる。P-1回目に融合されたMレベルの第4特徴マップを第Pレベルの融合ネットワークブロックに入力して、P回目の尺度調整及び融合を実行して、Mレベルの第2特徴マップを出力することができる。 For example, the M-level first feature map is input to the first-level fusion network block, the first scale adjustment and fusion are performed, and the first fused M-level fourth feature map is output. The first fused M-level fourth feature map can be input to the next level fused network block. The j-1 (j is an integer and 1 <j <P) th-fused M-level fourth feature map is input to the j-level fusion network block, and the j-th scale adjustment and The fusion can be executed and the M-level fourth feature map fused can be output. P-1 The 4th M-level feature map fused is input to the P-level fusion network block, the P-th scale adjustment and fusion are performed, and the M-level 2nd feature map is output. be able to.

これにより、融合効果を更に向上させることができる。 Thereby, the fusion effect can be further improved.

本開示のいくつかの実施例において、各レベルの融合ネットワークブロックは、融合後の特徴マップを正規化するための正規化層を更に含む。ここで、j-1回目に融合されたMレベルの第4特徴マップを第jレベルの融合ネットワークブロックに入力して、j回目に融合されたMレベルの第4特徴マップを出力することは、
前記第jレベルの融合ネットワークブロックの第1畳み込み層、第2畳み込み層及び第3畳み込み層によって、前記j-1回目に融合されたMレベルの第4特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、前記j回目に融合されたMレベルの中間特徴マップを得ることと、
前記正規化層によって前記j回目に融合されたMレベルの中間特徴マップに対して聯合バッチ正規化処理を実行して、前記j回目に融合されたMレベルの第4特徴マップを得ることと、を含む。
In some embodiments of the present disclosure, each level of fusion network block further comprises a normalization layer for normalizing the post-fusion feature map. Here, inputting the j-1st fused M-level fourth feature map into the j-level fusion network block and outputting the j-1st fused M-level fourth feature map is possible.
For the feature map set corresponding to the M-level fourth feature map fused at the j-1st time by the first convolution layer, the second convolution layer, and the third convolution layer of the j-level fusion network block. Performing scale adjustment and fusion, respectively, to obtain the M-level intermediate feature map fused at the jth time,
The combined batch normalization process is executed on the M-level intermediate feature map fused by the normalization layer at the jth time to obtain the M-level fourth feature map fused at the jth time. including.

例えば、j回目の尺度調整及び融合は、第jレベルの融合ネットワークブロックの第1畳み込み層、第2畳み込み層及び第3畳み込み層によって、前記j-1回目に融合されたMレベルの第4特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、前記j回目に融合されたMレベルの中間特徴マップを得ることができる。 For example, the j-th scale adjustment and fusion is the fourth feature of the M-level fused by the first convolution layer, the second convolution layer, and the third convolution layer of the j-level fusion network block. Scale adjustment and fusion can be performed on the feature map sets corresponding to the maps, respectively, to obtain the M-level intermediate feature map fused at the jth time.

例えば、バッチ正規化の入力パラメータは、B={x1...m}、拡大倍数γ、オフセット係数β(学習されるパラメータ)である。 For example, the input parameters for batch normalization are B = {x 1 ... m }, magnification multiple γ, and offset coefficient β (parameters to be learned).

バッチ正規化の出力は、次の通りである。 The output of batch normalization is as follows.

Figure 2022532322000003
Figure 2022532322000003

学習される拡大倍数γ、オフセット係数βを戻す。 Returns the learned expansion multiple γ and offset coefficient β.

ここで、式(2)は、標準化後のネットワークの応答の式であり、式(3)は、バッチ処理データの平均値を計算するための式であり、式(4)は、バッチ処理データの分散を計算するための式であり、式(5)は、正規化のための式であり、式(6)は、尺度変換及びオフセットのための式である。 Here, the formula (2) is a formula of the response of the network after standardization, the formula (3) is a formula for calculating the average value of the batch processing data, and the formula (4) is the batch processing data. Equation (5) is an equation for normalization, and equation (6) is an equation for scale conversion and offset.

本開示のいくつかの実施例において、第jレベルの融合ネットワークブロックは、j-1回目に融合されたMレベルの第4特徴マップに対応する複数の特徴マップ組を処理することができ、各特徴マップ組は、特徴マップ組の各特徴マップを畳み込むための1つの畳み込み層組に対応する。例えば、第i-1レベルの第1特徴マップ、第iレベルの第1特徴マップ及び第i+1レベルの第1特徴マップを含む特徴マップ組に対して、当該特徴マップ組に対応する畳み込み層組は、第1畳み込み層、第2畳み込み層、第3畳み込み層及びアップサンプリング層を含み、第i-1レベルの第1特徴マップ、第iレベルの第1特徴マップ及び第i+1レベルの第1特徴マップをそれぞれ畳み込むためのものである。 In some embodiments of the present disclosure, the j-level fusion network block can process a plurality of feature map sets corresponding to the j-1th fused M-level fourth feature map, each. The feature map set corresponds to one convolutional layer set for folding each feature map of the feature map set. For example, for a feature map set including a first feature map at the i-1 level, a first feature map at the i-level, and a first feature map at the i + 1 level, the convolutional layer set corresponding to the feature map set is , 1st convolution layer, 2nd convolution layer, 3rd convolution layer and upsampling layer, 1st feature map of i-1 level, 1st feature map of i level and 1st feature map of i + 1 level. Is for folding each.

本開示のいくつかの実施例において、正規化層によって、j回目に融合されたMレベルの中間特徴マップの統計値(例えば、平均値と分散)を統計し、j回目に融合されたMレベルの中間特徴マップに対して聯合バッチ正規化処理を実行し、正規化された結果を、j回目に融合されたMレベルの第4特徴マップとして決定する。 In some embodiments of the present disclosure, the normalization layer statistics the statistical values (eg, mean and variance) of the M-level intermediate feature map fused in the j-th time, and the M-level fused in the j-th time. The union batch normalization process is executed for the intermediate feature map of the above, and the normalized result is determined as the fourth feature map of the M level fused in the jth time.

図2a及び図2bは、関連技術に係るバッチ正規化の概略図を示し、図2cは、本開示の実施例に係る聯合バッチ正規化の概略図を示す。ここで、畳み込み層21処理後、複数の特徴マップ(図2a、図2b及び図2cでは、2つの特徴マップを例として説明する)を出力し、バッチ正規化層(BNと略称)22によって、複数の特徴マップに対してそれぞれバッチ正規化を実行し、バッチ正規化後、活性化層(例えば、ReLU層)23によって活性化する。ここで、γ及びβは、それぞれ、拡大倍数及びオフセット係数を表し、これらは、学習することにより取得でき、μ及びσは、それぞれ、平均値及び標準偏差を表し、これらは統計で取得できる。 2a and 2b show a schematic diagram of batch normalization according to the related technique, and FIG. 2c shows a schematic diagram of the combined batch normalization according to the embodiment of the present disclosure. Here, after the folding layer 21 processing, a plurality of feature maps (in FIG. 2a, FIG. 2b and FIG. 2c, two feature maps will be described as an example) are output, and the batch normalization layer (abbreviated as BN) 22 is used. Batch normalization is executed for each of the plurality of feature maps, and after batch normalization, activation is performed by the activation layer (for example, ReLU layer) 23. Here, γ and β represent the expansion multiple and the offset coefficient, respectively, which can be obtained by learning, and μ and σ represent the mean value and the standard deviation, respectively, which can be obtained statistically.

関連技術において、図2aに示されたように、2つのバッチ正規化層22に拡大倍数γ及びオフセット係数βを共有させて、各特徴マップの平均値μ及び標準偏差σをそれぞれ統計するようにすることができ、図2bに示されたように、2つのバッチ正規化層22に拡大倍数γ及びオフセット係数βをそれぞれ学習させて、各特徴マップの平均値μ及び標準偏差σをそれぞれ統計することができる。 In a related technique, as shown in FIG. 2a, the two batch normalization layers 22 are made to share the magnification multiple γ and the offset coefficient β so that the mean value μ and standard deviation σ of each feature map are statistic, respectively. As shown in FIG. 2b, the two batch normalization layers 22 are trained with the magnification multiple γ and the offset coefficient β, respectively, and the mean value μ and standard deviation σ of each feature map are statistic. be able to.

本開示の実施例に係る聯合バッチ正規化処理において、図2cに示されたように、2つのバッチ正規化層22に拡大倍数γ及びオフセット係数βを共有させて、全ての特徴マップの平均値μ及び標準偏差σを共同に統計するようにすることができる。 In the combined batch normalization process according to the embodiment of the present disclosure, as shown in FIG. 2c, the two batch normalization layers 22 share the expansion multiple γ and the offset coefficient β, and the average value of all the feature maps. It is possible to jointly statistic μ and standard deviation σ.

全ての尺度の特徴マップの統計値を共同に統計することにより、トレーニングプロセスを効果的に安定させ、性能を更に向上させることができ、特に、検出タスクのバッチが比較的小さい場合、聯合バッチ正規化によって優れる効果をもたらすことができる。 Joint statistics of feature map statistics for all scales can effectively stabilize the training process and further improve performance, especially if the batch of detection tasks is relatively small. It can bring about an excellent effect by the conversion.

本開示のいくつかの実施例において、当該画像処理ネットワークは、目標検出の回帰タスク及び分類タスクを実現するための回帰ネットワーク及び分類ネットワークを更に含み得る。ここで、回帰ネットワーク及び分類ネットワークは、畳み込み層、活性化層、全結合層などを含み得、本開示は、回帰ネットワーク及び分類ネットワークのネットワーク構造に対して特に限定しない。 In some embodiments of the present disclosure, the image processing network may further include a regression network and a classification network for achieving the regression and classification tasks of target detection. Here, the recurrent network and the classification network may include a convolution layer, an activation layer, a fully connected layer, and the like, and the present disclosure is not particularly limited to the network structure of the recurrent network and the classification network.

本開示の実施例では、ステップS13は、
前記Mレベルの第2特徴マップを前記回帰ネットワークに入力して、前記処理対象画像内の目標に対応する画像枠を決定することと、
前記Mレベルの第2特徴マップを前記分類ネットワークに入力して、前記処理対象画像内の目標のカテゴリを決定することであって、前記目標検出結果は、前記目標に対応する画像枠及び前記目標のカテゴリを含む、ことと、を含み得る。
In the embodiments of the present disclosure, step S13 is
The second feature map of the M level is input to the regression network to determine the image frame corresponding to the target in the image to be processed.
The second feature map of the M level is input to the classification network to determine the category of the target in the image to be processed, and the target detection result is the image frame corresponding to the target and the target. Includes, and may include.

例えば、Mレベルの第2特徴マップに従って目標検出の回帰タスク及び分類タスクを実現することができる。Mレベルの第2特徴マップを回帰ネットワークに入力して回帰処理することにより、処理対象画像内の目標に対応する画像枠を取得することができ、Mレベルの第2特徴マップを分類ネットワークに入力して処理することにより、処理対象画像内の目標のカテゴリを決定することができる。ここで、処理対象画像的目標検出結果は、前記目標に対応する画像枠及び前記目標のカテゴリを含み得る。 For example, the regression task and the classification task of target detection can be realized according to the second feature map of M level. By inputting the M-level second feature map into the regression network and performing regression processing, it is possible to acquire an image frame corresponding to the target in the image to be processed, and input the M-level second feature map into the classification network. By processing the image, the category of the target in the image to be processed can be determined. Here, the processing target image target detection result may include an image frame corresponding to the target and a category of the target.

関連技術における検出器は、通常、回帰タスク及び分類タスクのために、それぞれ回帰ヘッダ及び分類ヘッダを設計する。本開示の実施例に係る画像処理ネットワークは、Pレベルの融合ネットワークブロック(ピラミッド畳み込みを使用する)を回帰タスクと分類タスクとの組み合わせヘッダとして利用し、受容野への2つのタスクの微弱な違いのみに従って、共有しない畳み込みを回帰ネットワーク及び分類ネットワークに追加し、これによって、計算量を大幅に低減させるとともに、性能も損なわない。 Detectors in related techniques typically design regression headers and classification headers for regression and classification tasks, respectively. The image processing network according to the embodiment of the present disclosure uses a P-level fusion network block (using a pyramid convolution) as a combined header for a regression task and a classification task, with a slight difference between the two tasks to the receptor field. Only according to, non-shared convolutions are added to the regression and classification networks, which significantly reduces the amount of computation and does not compromise performance.

図3aは、関連技術に係る検出器の概略図を示し、図3bは、本開示の実施例に係る画像処理ネットワークの概略図を示す。 FIG. 3a shows a schematic diagram of a detector according to a related technique, and FIG. 3b shows a schematic diagram of an image processing network according to an embodiment of the present disclosure.

図3aに示されたように、関連技術における検出器は、回帰タスク及び分類タスクのために、それぞれ回帰ヘッダ31及び分類ヘッダ32を設計し、これらは、それぞれ、複数レベルのネットワークブロック(例えば、畳み込みブロック)によって特徴マップを処理し、最後のレベルのネットワークブロックで回帰タスク及び分類タスクを実現し、回帰タスクによって、画像内のK個の目標の検出枠の4つの頂点座標を取得し、分類タスクによって、画像内のK個の目標のカテゴリ(合計C個のカテゴリがあると設定する)を取得する。ここで、各レベルのネットワークブロックは、畳み込み層、活性化層、全結合層などを含み得、本開示は、これらに対して特に限定しない。 As shown in FIG. 3a, detectors in related arts design regression headers 31 and classification headers 32, respectively, for regression and classification tasks, each of which is a multi-level network block (eg, eg). The feature map is processed by the convolution block), the regression task and the classification task are realized by the network block at the last level, and the regression task acquires the coordinates of the four vertices of the detection frame of K targets in the image and classifies them. By the task, K target categories in the image (set to have a total of C categories) are acquired. Here, the network block at each level may include a convolution layer, an activation layer, a fully connected layer, and the like, and the present disclosure is not particularly limited thereto.

図3bに示されたように、本開示の実施例に係る画像処理ネットワークは、Pレベルの融合ネットワークブロック(P畳み込みブロックとも呼ばれる)を回帰タスクと分類タスクとの組み合わせヘッダ33として使用し、Mレベルの第1特徴マップを組み合わせヘッダ33によって処理した後、Mレベルの第2特徴マップを得る。Mレベルの第2特徴マップを回帰ネットワーク及び分類ネットワークの各自の追加ヘッダ34のネットワークブロックに入力して処理し、最後のレベルのネットワークブロック(畳み込み層、活性化層、全結合層などを含む)で回帰タスク及び分類タスクを実現する。回帰ネットワーク及び分類ネットワークの追加ヘッダ34は、少なくとも1つの畳み込み層を含み得る。受容野への回帰タスクと分類タスクの微弱な違いに従って、2つの追加ヘッダ34の畳み込み層に対して、異なる畳み込みパラメータを設定することができ、本開示は、これらに対して特に限定しない。 As shown in FIG. 3b, the image processing network according to the embodiment of the present disclosure uses a P-level fusion network block (also referred to as a P convolution block) as a combination header 33 for a regression task and a classification task, M. After processing the first feature map of the level by the combination header 33, the second feature map of the M level is obtained. The M-level second feature map is processed by inputting it into the network block of each additional header 34 of the regression network and the classification network, and the last level network block (including the convolution layer, the activation layer, the fully connected layer, etc.). Realize the regression task and the classification task with. The additional header 34 of the regression network and the classification network may include at least one convolution layer. Different convolutional parameters can be set for the convolutional layers of the two additional headers 34 according to the subtle differences between the receptive field return task and the classification task, and the present disclosure is not particularly limited thereto.

図3bに示されたように、回帰タスクによって、画像内のK個の目標の検出枠の4つの頂点座標を取得し、分類タスクによって、画像内のK個の目標のカテゴリ(合計C個のカテゴリがあると設定する)を取得する。本開示は、追加ヘッダ34のネットワークブロック及び最後のレベルのネットワークブロックのネットワーク構造に対して特に限定しない。 As shown in FIG. 3b, the regression task acquires the coordinates of the four vertices of the detection frame of the K targets in the image, and the classification task acquires the categories of the K targets in the image (total of C). Set if there is a category). The present disclosure is not particularly limited to the network structure of the additional header 34 network block and the last level network block.

これにより、本開示の実施例に係る画像処理ネットワークは、計算量を大幅に低減させるとともに、性能を損なわないことができる。 As a result, the image processing network according to the embodiment of the present disclosure can significantly reduce the amount of calculation and can not impair the performance.

本開示のいくつかの実施例において、本開示の実施例に係る画像処理ネットワークを適用する前に、画像処理ネットワークをトレーニングすることができる。即ち、トレーニング集合内のサンプル画像を画像処理ネットワークに入力し、特徴ピラミッドネットワーク、Pレベルの融合ネットワークブロック、回帰ネットワーク及び分類ネットワークによって処理することで、サンプル画像のサンプル目標検出結果を取得し、複数のサンプル画像のサンプル目標検出結果とラベル付けの結果との差異に従って、ネットワーク損失を決定し、ネットワーク損失に従って画像処理ネットワークのパラメータを調整し、トレーニング条件(例えば、ネットワーク収束)を満たす場合、トレーニング後の画像処理ネットワークを取得する。本開示は、トレーニングプロセスに対して特に限定しない。 In some embodiments of the present disclosure, the image processing network can be trained prior to applying the image processing network according to the embodiments of the present disclosure. That is, by inputting the sample images in the training set into the image processing network and processing them by the feature pyramid network, the P-level fusion network block, the regression network, and the classification network, the sample target detection results of the sample images are acquired, and a plurality of them are obtained. After training, if the network loss is determined according to the difference between the sample target detection result and the labeling result of the sample image of the sample image, the parameters of the image processing network are adjusted according to the network loss, and the training conditions (for example, network convergence) are satisfied. Get the image processing network of. The present disclosure is not particularly limited to the training process.

本開示のいくつかの実施例において、特徴ピラミッドの隣接層間の特徴の相関性を更に利用するために、3次元の畳み込み形式として、ピラミッド畳み込みを提案し、即ち、特徴マップの次元及び空間的次元の相関性に同時に注目する。本開示の実施例に係る画像処理方法は、空間的に尺度の大きいピラミッド畳み込みによって、特徴ピラミッドの隣接層間の特徴の関連情報を融合し、特徴マップ次元と空間的次元の相関性をよりよく取得することができる。これにより、物体検出分野において、特徴ピラミッドが異なる尺度の特徴を抽出する場合、隣接層間の特徴の相関性を見逃して、異なる層間のセマンティック情報だけに関心を持つという問題を解決する。 In some embodiments of the present disclosure, in order to further utilize the correlation of features between adjacent layers of a feature pyramid, a pyramid convolution is proposed as a three-dimensional convolution form, i.e., the dimensional and spatial dimensions of the feature map. At the same time, pay attention to the correlation of. The image processing method according to the embodiment of the present disclosure fuses the relevant information of the features between the adjacent layers of the feature pyramid by spatially large-scale pyramid convolution, and better obtains the correlation between the feature map dimension and the spatial dimension. can do. This solves the problem in the field of object detection that when a feature pyramid extracts features of different scales, it overlooks the correlation of features between adjacent layers and is only interested in semantic information between different layers.

本開示のいくつかの実施例において、聯合バッチ正規化と、尺度空間的畳み込みと自然に組み合わせることにより、すべての尺度特徴マップの統計を全体的に統計し、トレーニングプロセスを効果的に安定化させ、性能を更に向上させ、これによって、バッチが小さい場合でもバッチ正規化を適用することができる。これにより、バッチ正規化が実際の応用で、データバッチが小さいときに正確な統計を取得できないため、物体検出分野でいつも十分に適用されていないという問題を解決する。 In some embodiments of the present disclosure, combined batch normalization and scale spatial convolution are naturally combined to provide global statistics for all scale feature maps and effectively stabilize the training process. The performance is further improved, which allows batch normalization to be applied even when the batch is small. This solves the problem that batch normalization is not always fully applied in the field of object detection because it is a practical application and accurate statistics cannot be obtained when the data batch is small.

本開示のいくつかの実施例において、通常の特徴ピラミッドとガウスピラミッドの差異を減らすために、本開示の実施例に係る画像処理方法は、通常の畳み込みの代わりに変形可能な畳み込みを使用でき、ピラミッド畳み込みを尺度が均一である畳み込みに改善し、これによって、通常の特徴ピラミッドとガウスピラミッドの差異を減らすことにより、異なる尺度の抽出を処理するときにネットワークがより合理的で効率的に処理するようにする。1段式の検出器は、共有ヘッダモジュールを用いて更なる特徴抽出を実行し、これにより、計算量を大幅に低減するとともに性能を損なわず、推理速度を速くさせることができる。これにより、現在の特徴ピラミッド及び共有ヘッダモジュールのパラメータへの設計が不合理であるという問題を解決する。 In some embodiments of the present disclosure, in order to reduce the difference between the conventional feature pyramid and the Gaussian pyramid, the image processing method according to the embodiments of the present disclosure may use a deformable convolution instead of the conventional convolution. The network handles the extraction of different scales more reasonably and efficiently by improving the pyramid convolution to a scale-uniform convolution, thereby reducing the difference between the normal feature pyramid and the Gaussian pyramid. To do so. The one-stage detector uses a shared header module to perform further feature extraction, which can significantly reduce the amount of computation, not impair performance, and increase the inference speed. This solves the problem of irrational design of the parameters of the current feature pyramid and shared header modules.

本開示のいくつかの実施例において、本開示の実施例に係る画像処理方法は、尺度変化の大きいデータ集合において、非常に小さい速度損失で1段式の検出器の性能を大幅に向上させるとともに、2段式の検出器も有効であることを検出することができる。 In some embodiments of the present disclosure, the image processing method according to the embodiments of the present disclosure can significantly improve the performance of a one-stage detector with very small speed loss in a data set with large scale changes. It can also detect that a two-stage detector is also effective.

本開示の実施例に係る画像処理方法は、物体検出、歩行者検出などの場面に適用することができ、物体の尺度変化の大きい場面(例えば、物体がカメラからの近距離と遠距離に位置する)の検出タスクを実現することができ、検出性能と検出速度を同時に向上させることができる。 The image processing method according to the embodiment of the present disclosure can be applied to scenes such as object detection and pedestrian detection, and the scene where the scale change of the object is large (for example, the object is located at a short distance and a long distance from the camera). The detection task can be realized, and the detection performance and the detection speed can be improved at the same time.

本開示で述べた上述の各方法の実施例は、原理及び論理に違反することなく、互いに組み合わせて、組み合わせされた実施例を生成することができ、紙数に限りがあるので、本開示を繰り返して説明しないことを理解されたい。 The embodiments of the above-mentioned methods described in the present disclosure can be combined with each other to generate a combined embodiment without violating the principle and logic, and the number of papers is limited. Please understand that I will not explain it repeatedly.

当業者は、実施形態の上記の方法において、各ステップの実行順序はそれらの機能と可能な内部ロジックによって決定されることを理解することができる。 One of ordinary skill in the art can understand that in the above method of the embodiment, the execution order of each step is determined by their function and possible internal logic.

なお、本開示は、本開示で提供する任意の画像処理方法を実現するために使用されることができる、画像処理装置、電子機器、コンピュータ可読記憶媒体、プログラムを更に提供し、対応する技術的解決策及び説明は、方法部分の対応する説明を参照することができ、ここでは繰り返して説明しない。 It should be noted that the present disclosure further provides image processing devices, electronic devices, computer-readable storage media, and programs that can be used to realize any of the image processing methods provided in the present disclosure, and the corresponding technical techniques. The solution and description may refer to the corresponding description of the method portion and will not be repeated herein.

図4は、本開示の実施例に係る画像処理装置のブロック図を示し、図4に示されたように、前記画像処理装置は、
処理対象画像に対してM(Mは、1より大きい整数である)レベルの特徴抽出を実行して、前記処理対象画像のMレベルの第1特徴マップを得るように構成される特徴抽出モジュール41であって、前記Mレベルの第1特徴マップの各レベルの第1特徴マップの尺度は異なる、特徴抽出モジュール41と、
各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得るように構成される尺度調整及び融合モジュール42であって、前記特徴マップ組のそれぞれは、前記第1特徴マップ及び前記第1特徴マップに隣接する第1特徴マップを含む、尺度調整及び融合モジュール42と、
前記Mレベルの第2特徴マップに対して目標検出を実行して、前記処理対象画像の目標検出結果を得るように構成される目標検出モジュール43と、を備える。
FIG. 4 shows a block diagram of the image processing apparatus according to the embodiment of the present disclosure, and as shown in FIG. 4, the image processing apparatus is
A feature extraction module 41 configured to perform M (M is an integer greater than 1) level feature extraction on the processed image to obtain an M level first feature map of the processed image. The feature extraction module 41 and the feature extraction module 41, which have different scales of the first feature map of each level of the first feature map of the M level,
A scale adjustment and fusion module 42 configured to perform scale adjustment and fusion for each feature map set corresponding to the first feature map of each level to obtain an M level second feature map. , Each of the feature map sets includes a scale adjustment and fusion module 42, including the first feature map and a first feature map adjacent to the first feature map.
A target detection module 43 configured to execute target detection on the M-level second feature map and obtain a target detection result of the processed image is provided.

本開示のいくつかの実施例において、第i(iは整数であり、且つ1<i<Mである)レベルの第1特徴マップに対応する特徴マップ組は、第i-1レベルの第1特徴マップ、第iレベルの第1特徴マップ及び第i+1レベルの第1特徴マップを含み、前記尺度調整及び融合モジュールは、前記第i-1レベルの第1特徴マップの尺度を縮小して、1番目の第iレベルの第3特徴マップを得るように構成される第1尺度縮小サブモジュールと、前記第iレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第iレベルの第3特徴マップを得るように構成される第1変換サブモジュールと、前記第i+1レベルの第1特徴マップの尺度を拡大して、3番目の第iレベルの第3特徴マップを得るように構成される第1尺度拡大サブモジュールと、前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと、3番目の第iレベルの第3特徴マップとを融合して、第iレベルの第2特徴マップを得るように構成される第1融合サブモジュールと、を備え、前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと3番目の第iレベルの第3特徴マップとの尺度は同じである。本開示のいくつかの実施例において、第1レベルの第1特徴マップに対応する特徴マップ組は、前記第1レベルの第1特徴マップ及び第2レベルの第1特徴マップを含み、前記尺度調整及び融合モジュールは、前記第1レベルの第1特徴マップに対して尺度が変更されないように変換を実行して、1番目の第1レベルの第3特徴マップを得るように構成される第2変換サブモジュールと、前記第2レベルの第1特徴マップの尺度を拡大して、2番目の第1レベルの第3特徴マップを得るように構成される第2尺度拡大サブモジュールと、前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップとを融合して、第1レベルの第2特徴マップを得るように構成される第2融合サブモジュールと、を備え、前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップの尺度は同じである。第Mレベルの第1特徴マップに対応する特徴マップ組は、第M-1レベルの第1特徴マップ及び前記第Mレベルの第1特徴マップを含み、前記尺度調整及び融合モジュールは、前記第M-1レベルの第1特徴マップの尺度を縮小して、1番目の第Mレベルの第3特徴マップを得るように構成される第2尺度縮小サブモジュールと、前記第Mレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第Mレベルの第3特徴マップを得るように構成される第3変換サブモジュールと、前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第2特徴マップとを融合して、第Mレベルの第2特徴マップを得るように構成される第3融合サブモジュールと、を備え、前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第3特徴マップの尺度は同じである。本開示のいくつかの実施例において、前記第1尺度縮小サブモジュール配置は、第1畳み込み層によって、前記第i-1レベルの第1特徴マップを畳み込んで、前記1番目の第iレベルの第3特徴マップを得るように構成され、前記第1畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズはn(nは、1より大きい整数である)であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、前記第1変換サブモジュールは、第2畳み込み層によって前記第iレベルの第1特徴マップを畳み込んで、前記2番目の第iレベルの第3特徴マップを得るように構成され、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1であり、前記第1尺度拡大サブモジュールは、第3畳み込み層及びアップサンプリング層によって、前記第i+1レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、前記3番目の第iレベルの第3特徴マップを得るように構成され、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である。本開示のいくつかの実施例において、前記第2変換サブモジュールは、第2畳み込み層によって前記第1レベルの第1特徴マップを畳み込んで、前記1番目の第1レベルの第3特徴マップを得るように構成され、前記第2畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズは1であり、前記第2尺度拡大サブモジュールは、第3畳み込み層及びアップサンプリング層によって、前記第2レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、2番目の第1レベルの第3特徴マップを得るように構成され、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である。本開示のいくつかの実施例において、前記第2尺度縮小サブモジュールは、第1畳み込み層によって、前記第M-1レベルの第1特徴マップを畳み込んで、前記1番目の第Mレベルの第3特徴マップを得るように構成され、前記第1畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズはn(nは、1より大きい整数である)であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、前記第3変換サブモジュールは、第2畳み込み層によって前記第Mレベルの第1特徴マップを畳み込んで、前記2番目の第Mレベルの第3特徴マップを得るように構成され、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である。本開示のいくつかの実施例において、前記第2畳み込み層及び前記第3畳み込み層は、変形可能な畳み込み層又は膨張畳み込み層を含む。本開示のいくつかの実施例において、前記画像処理装置は、画像処理ネットワークによって実現され、前記画像処理ネットワークは、前記Mレベルの第1特徴マップに対して、尺度調整と融合とをP回実行するための直列接続されたP(Pは正の整数である)レベルの融合ネットワークブロックを含み、各レベルの融合ネットワークブロックは、複数の第1畳み込み層、複数の第2畳み込み層及び複数の第3畳み込み層を含み、前記尺度調整及び融合モジュールは、前記Mレベルの第1特徴マップを第1レベルの融合ネットワークブロックに入力して、1回目に融合されたMレベルの第4特徴マップを出力するように構成される第1融合サブモジュールと、j-1(jは整数であり、且つ1<j<Pである)回目に融合されたMレベルの第4特徴マップを第jレベルの融合ネットワークブロックに入力して、j回目に融合されたMレベルの第4特徴マップを出力するように構成される第2融合サブモジュールと、P-1回目に融合されたMレベルの第4特徴マップを第Pレベルの融合ネットワークブロックに入力して、前記Mレベルの第2特徴マップを出力するように構成される第3融合サブモジュールと、を備える。本開示のいくつかの実施例において、各レベルの融合ネットワークブロックは正規化層を更に含み、前記第2融合サブモジュールは、前記第jレベルの融合ネットワークブロックの第1畳み込み層、第2畳み込み層及び第3畳み込み層によって、前記j-1回目に融合されたMレベルの第4特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、前記j回目に融合されたMレベルの中間特徴マップを得、前記正規化層によって前記j回目に融合されたMレベルの中間特徴マップに対して聯合バッチ正規化処理を実行して、前記j回目に融合されたMレベルの第4特徴マップを得るように構成される。本開示のいくつかの実施例において、前記画像処理装置は、画像処理ネットワークによって実現され、前記画像処理ネットワークは、回帰ネットワーク及び分類ネットワークを更に含み、前記目標検出モジュールは、前記Mレベルの第2特徴マップを前記回帰ネットワークに入力して、前記処理対象画像内の目標に対応する画像枠を決定するように構成される回帰サブモジュールと、前記Mレベルの第2特徴マップを前記分類ネットワークに入力して、前記処理対象画像内の目標のカテゴリを決定するように構成される分類サブモジュールであって、前記目標検出結果は、前記目標に対応する画像枠及び前記目標のカテゴリを含む、分類サブモジュールと、を備える。 In some embodiments of the present disclosure, the feature map set corresponding to the first feature map at the i-th (i is an integer and 1 <i <M) level is the first at the i-1 level. The scale adjustment and fusion module includes a feature map, an i-level first feature map and a first i + 1 level first feature map, and the scale adjustment and fusion module scales down the i-1 level first feature map to 1 A first scale reduction submodule configured to obtain a third i-level feature map and a conversion performed so that the scale is not changed for the i-level first feature map, 2 The first conversion submodule configured to obtain the third feature map of the third i-level and the third feature of the third i-level by expanding the scale of the first feature map of the i + 1 level. A first scale magnifying submodule configured to obtain a map, the first i-level third feature map, the second i-level third feature map, and a third i-level. The first fusion submodule configured to fuse with the third feature map of the first i-level to obtain the second feature map of the i-level, and the third feature map of the first i-level. The scales of the second i-level third feature map and the third i-level third feature map are the same. In some embodiments of the present disclosure, the feature map set corresponding to the first level first feature map includes said first level first feature map and second level first feature map, said scale adjustment. And the fusion module is configured to perform a transformation on the first level first feature map so that the scale is not changed to obtain a first level third feature map. The submodule, the second scale expansion submodule configured to expand the scale of the second level first feature map to obtain the second first level third feature map, and the first. A second fusion submodule configured to fuse the first level third feature map and the second first level third feature map to obtain a first level second feature map. In addition, the scales of the first level third feature map and the second first level third feature map are the same. The feature map set corresponding to the first feature map of the M level includes the first feature map of the M-1 level and the first feature map of the M level, and the scale adjustment and fusion module is the M. A second scale reduction submodule configured to scale down a -1 level first feature map to obtain a first M level third feature map, and the M level first feature map. A third conversion submodule configured to perform a conversion so that the scale is not changed for the second M level to obtain a third feature map of the second M level, and a third of the first M level. The first feature map comprises a third fusion submodule configured to fuse the feature map with the second M level second feature map to obtain a second M level feature map. The scales of the third feature map of the second M level and the third feature map of the second M level are the same. In some embodiments of the present disclosure, the first scale reduction submodule arrangement convolves the first feature map of the i-1 level with the first convolution layer and is of the first i level. It is configured to obtain a third feature map, the size of the convolution kernel of the first convolution layer is N × N (N is an integer greater than 1), and the step size is n (n is greater than 1). The scale of the first feature map of the i-1 level is n times the scale of the first feature map of the i-level, and the first conversion submodule is the second convolution. The layer is configured to convolve the i-level first feature map to obtain the second i-level third feature map, and the size of the convolution kernel of the second convolution layer is N × N. Yes, the step size is 1, and the 1st scale expansion submodule convolves and upsamples the 1st feature map of the i + 1 level by the 3rd convolution layer and the upsampling layer, and the 3rd. The size of the convolution kernel of the third convolution layer is N × N, and the step size is 1. In some embodiments of the present disclosure, the second conversion submodule convolves the first level first feature map with the second convolution layer to obtain the first level third feature map. Configured to obtain, the size of the convolution kernel of the second convolution layer is N × N (N is an integer greater than 1), the step size is 1, and the second scale expansion submodule is The third convolution layer and the upsampling layer are configured to convolve and upsample the second level first feature map to obtain the second first level third feature map. The size of the convolution kernel of the convolution layer is N × N, and the step size is 1. In some embodiments of the present disclosure, the second scale reduction submodule convolves the first feature map of the first M-1 level with the first convolution layer and the first M level. It is configured to obtain a three-feature map, the size of the convolution kernel of the first convolution layer is N × N (N is an integer greater than 1), and the step size is n (n is an integer greater than 1). The scale of the first feature map of the i-1 level is n times the scale of the first feature map of the i-level, and the third conversion submodule is the second convolution layer. Convolves the first feature map of the M level to obtain the third feature map of the second M level, and the size of the convolution kernel of the second convolution layer is N × N. , The step size is 1. In some embodiments of the present disclosure, the second convolution layer and the third convolution layer include a deformable convolution layer or an expansion convolution layer. In some embodiments of the present disclosure, the image processing apparatus is implemented by an image processing network, which performs scale adjustment and fusion P times with respect to the M-level first feature map. Containing series-connected P (P is a positive integer) level fusion network block for each level of fusion network block, a plurality of first convolution layers, a plurality of second convolution layers and a plurality of first convolution layers. The scale adjustment and fusion module, which includes three convolutional layers, inputs the M-level first feature map into the first-level fusion network block and outputs the first-fused M-level fourth feature map. The j-level fusion of the first fusion submodule configured to do so and the j-1 (j is an integer and 1 <j <P) th-time fused M-level fourth feature map. A second fusion submodule configured to input to the network block and output the jth fused M-level fourth feature map, and a P-1st fused M-level fourth feature map. Is provided in a third fusion submodule configured to input the P-level fusion network block and output the M-level second feature map. In some embodiments of the present disclosure, the fusion network block at each level further comprises a normalization layer, wherein the second fusion submodule is a first convolution layer, a second convolution layer of the j-level fusion network block. And, by the third convolution layer, scale adjustment and fusion were performed for the feature map set corresponding to the M-level fourth feature map fused in the j-1th time, respectively, and the fusion was performed in the jth time. An M-level intermediate feature map is obtained, and a union batch normalization process is executed on the M-level intermediate feature map fused by the normalization layer at the jth time, and the M-level intermediate feature map fused at the jth time is executed. It is configured to obtain a fourth feature map. In some embodiments of the present disclosure, the image processing apparatus is realized by an image processing network, the image processing network further includes a regression network and a classification network, and the target detection module is the M-level second. The feature map is input to the regression network, and the regression submodule configured to determine the image frame corresponding to the target in the processed image and the M-level second feature map are input to the classification network. The classification submodule is configured to determine the category of the target in the image to be processed, and the target detection result includes the image frame corresponding to the target and the category of the target. Equipped with a module.

いくつかの実施例において、本開示の実施例で提供される装置の機能又はモジュールは、上記の画像処理方法の実施例で説明された方法を実行するように構成されることができ、その実現は、上記の画像処理方法の実施例の説明を参照することができ、簡潔にするために、ここでは繰り返して説明しない。 In some embodiments, the functions or modules of the apparatus provided in the embodiments of the present disclosure can be configured to perform the methods described in the embodiments of the image processing methods described above, and the realization thereof. Can refer to the description of the embodiment of the image processing method described above, and is not repeated here for the sake of brevity.

本開示の実施例は、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体を更に提供し、前記コンピュータプログラム命令がプロセッサによって実行されるときに、上記の画像処理方法を実現する。コンピュータ可読記憶媒体は、揮発性コンピュータ可読記憶媒体又は不揮発性コンピュータ可読記憶媒体であってもよい。本開示の実施例は、電子機器を更に提案し、前記電子機器は、プロセッサと、プロセッサ実行可能命令を記憶するように構成されるメモリとを備え、ここで、前記プロセッサは、前記メモリによって記憶された命令を呼び出して、上記の画像処理方法を実行するように構成される。本開示の実施例は、コンピュータ読み取り可能なコードを含むコンピュータプログラム製品を更に提供し、コンピュータ読み取り可能なコードが機器で実行されると、当該機器におけるプロセッサは、上記のいずれか1つの実施例によって提供された画像処理方法を実現するための命令を実行する。本開示の実施例は、別のコンピュータプログラム製品を更に提供し、前記コンピュータプログラム製品は、コンピュータ可読命令を記憶するように構成され、命令が実行されると、コンピュータが上記のいずれか1つの実施例で提供された画像処理方法の操作を実行するようにする。電子機器は、端末、サーバ又は他の形の機器として提供されるできる。 The embodiments of the present disclosure further provide a computer-readable storage medium in which computer program instructions are stored, and realize the above-mentioned image processing method when the computer program instructions are executed by a processor. The computer-readable storage medium may be a volatile computer-readable storage medium or a non-volatile computer-readable storage medium. The embodiments of the present disclosure further propose electronic devices, wherein the electronic device comprises a processor and a memory configured to store processor executable instructions, wherein the processor is stored by the memory. It is configured to call the issued instruction to execute the above image processing method. The embodiments of the present disclosure further provide a computer program product containing computer readable code, and when the computer readable code is executed in the device, the processor in the device is according to any one of the above embodiments. Execute a command to realize the provided image processing method. The embodiments of the present disclosure further provide another computer program product, wherein the computer program product is configured to store a computer-readable instruction, and when the instruction is executed, the computer implements any one of the above. Make sure to perform the operation of the image processing method provided in the example. The electronic device can be provided as a terminal, a server or other form of device.

図5は、本開示の実施例に係る電子機器800のブロック図を示す。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器又は携帯情報端末などの端末であってもよい。 FIG. 5 shows a block diagram of the electronic device 800 according to the embodiment of the present disclosure. For example, the electronic device 800 may be a terminal such as a mobile phone, a computer, a digital broadcasting terminal, a messaging device, a game console, a tablet device, a medical device, a fitness device, or a mobile information terminal.

図5を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電力コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インターフェース812、センサコンポーネント814、及び通信コンポーネント816のうちの1つ又は複数のコンポーネントを備えることができる。 Referring to FIG. 5, the electronic device 800 includes processing component 802, memory 804, power component 806, multimedia component 808, audio component 810, input / output (I / O) interface 812, sensor component 814, and communication component 816. It can be equipped with one or more of the components.

処理コンポーネント802は、一般的に、電子機器800の全体的な動作、例えば、ディスプレイ、電話の呼び出し、データ通信、カメラ操作及び記録操作に関する動作を制御する。処理コンポーネント802は、上記の画像処理方法のステップのすべて又は一部を遂行するための命令を実行するための1つ又は複数のプロセッサ820を備えることができる。加えて、処理コンポーネント802は、処理コンポーネント802と他のコンポーネントの間のインタラクションを容易にするための1つ又は複数のモジュールを備えることができる。例えば、処理コンポーネント802は、マルチメディアコンポーネント808と処理コンポーネント802との間のインタラクションを容易にするためのマルチメディアモジュールを備えることができる。メモリ804は、電子機器800での操作をサポートするための様々なタイプのデータを格納するように構成される。これらのデータの例には、電子機器800で動作する任意のアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ804は、スタティックランダムアクセスメモリ(SRAM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROM)、プログラム可能な読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク、又は光ディスクなど、あらゆるタイプの揮発性又は不揮発性ストレージデバイス又はそれらの組み合わせによって実現されることができる。電力コンポーネント806は、電子機器800の様々なコンポーネントに電力を提供する。電力コンポーネント806は、電力管理システム、1つ又は複数の電源、及び電子機器800のための電力の生成、管理及び配分に関する他のコンポーネントを備えることができる。マルチメディアコンポーネント808は、前記電子機器800とユーザとの間の出力インターフェースとして提供されるスクリーンを備える。いくつかの実施例において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を備えることができる。スクリーンがタッチパネルを備える場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実装されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルでのジェスチャーを検知するための1つ又は複数のタッチセンサを備える。前記タッチセンサは、タッチ又はスワイプの操作の境界を感知するだけでなく、前記タッチ又はスワイプ動作に関連する持続時間及び圧力も検出することができる。いくつかの実施例において、マルチメディアコンポーネント808は、1つのフロントカメラ及び/又はリアカメラを備える。電子機器800が撮影モード又はビデオモードなどの動作モードにあるとき、フロントカメラ及び/又はリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは、固定された光学レンズシステムであってもよく、焦点距離と光学ズーム機能を有するものであってもよい。オーディオコンポーネント810は、オーディオ信号を出力及び/又は入力するように構成される。例えば、オーディオコンポーネント810は、1つのマイクロフォン(MIC)を備え、電子機器800が通話モード、録音モード及び音声認識モードなどの動作モードにあるとき、マイクロフォンは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、メモリ804に更に記憶されてもよく、又は通信コンポーネント816を介して送信されてもよい。いくつかの実施例において、オーディオコンポーネント810は、更に、オーディオ信号を出力するためのスピーカを備える。I/Oインターフェース812は、処理コンポーネント802と周辺インターフェースモジュールとの間にインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン、ロックボタンを備えることができるが、これらに限定されない。センサコンポーネント814は、電子機器800に各態様の状態評価を提供するための1つ又は複数のセンサを備える。例えば、センサコンポーネント814は、電子機器800のオン/オフ状態と、電子機器800のディスプレイやキーパッドなどのコンポーネントの相対的な位置づけを検出することができ、センサコンポーネント814はまた、電子機器800又は電子機器800のコンポーネントの位置の変化、ユーザとの電子機器800の接触の有無、電子機器800の向き又は加速/減速、及び電子機器800の温度の変化も検出することができる。センサコンポーネント814は、物理的接触なしに近くの物体の存在を検出するように構成された近接センサを備えることができる。センサコンポーネント814はまた、撮像用途で使用するためのCMOS又はCCD画像センサなどの光センサを更に備えることができる。いくつかの実施例において、当該センサコンポーネント814は、更に、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサ又は温度センサを備えることができる。通信コンポーネント816は、電子機器800と他の装置の間の有線又は無線通信を容易にするように構成される。電子機器800は、WiFi、2G又は3G、又はそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、前記通信コンポーネント816は、放送チャンネルを介して外部放送管理システムからの放送信号又は放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント816は、更に、短距離通信を促進するために、近距離通信(NFC)モジュールを備える。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術及び他の技術に基づいて表すことができる。例示的な実施例において、電子機器800は、上記の画像処理方法を実行するように構成される、1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子によって具現されることができる。例示的な実施例において、コンピュータプログラム命令を含むメモリ804などの、コンピュータ可読記憶媒体を更に提供し、上述のコンピュータプログラム命令が電子機器800のプロセッサ820によって実行されることにより、上記の画像処理方法を遂行することができる。 The processing component 802 generally controls the overall operation of the electronic device 800, such as operations relating to displays, telephone calls, data communications, camera operations and recording operations. The processing component 802 may include one or more processors 820 for executing instructions to perform all or part of the steps of the image processing method described above. In addition, the processing component 802 may include one or more modules to facilitate the interaction between the processing component 802 and the other components. For example, the processing component 802 may include a multimedia module for facilitating the interaction between the multimedia component 808 and the processing component 802. The memory 804 is configured to store various types of data to support operations in the electronic device 800. Examples of these data include instructions, contact data, phonebook data, messages, photographs, videos, etc. of any application or method running on the electronic device 800. Memory 804 includes static random access memory (SRAM), electrically erasable programmable read-only memory (EEPROM), erasable programmable read-only memory (EPROM), and programmable read-only memory (PROM). It can be implemented by any type of volatile or non-volatile storage device or a combination thereof, such as read-only memory (ROM), magnetic memory, flash memory, magnetic disk, or optical disk. The power component 806 provides power to various components of the electronic device 800. The power component 806 can include a power management system, one or more power sources, and other components related to the generation, management, and distribution of power for the electronic device 800. The multimedia component 808 includes a screen provided as an output interface between the electronic device 800 and the user. In some embodiments, the screen can include a liquid crystal display (LCD) and a touch panel (TP). If the screen comprises a touch panel, the screen can be implemented as a touch screen for receiving input signals from the user. The touch panel comprises one or more touch sensors for detecting touches, swipes and gestures on the touch panel. The touch sensor can not only detect the boundaries of the touch or swipe operation, but also the duration and pressure associated with the touch or swipe operation. In some embodiments, the multimedia component 808 comprises one front camera and / or rear camera. When the electronic device 800 is in an operating mode such as a shooting mode or a video mode, the front camera and / or the rear camera can receive external multimedia data. Each front camera and rear camera may be a fixed optical lens system or may have a focal length and an optical zoom function. The audio component 810 is configured to output and / or input an audio signal. For example, the audio component 810 comprises one microphone (MIC), and the microphone is configured to receive an external audio signal when the electronic device 800 is in an operating mode such as a call mode, a recording mode and a voice recognition mode. To. The received audio signal may be further stored in memory 804 or may be transmitted via the communication component 816. In some embodiments, the audio component 810 further comprises a speaker for outputting an audio signal. The I / O interface 812 provides an interface between the processing component 802 and the peripheral interface module, which peripheral interface module may be a keyboard, click wheel, buttons, or the like. These buttons may include, but are not limited to, a home button, a volume button, a start button, and a lock button. The sensor component 814 comprises one or more sensors for providing the electronic device 800 with a state assessment of each aspect. For example, the sensor component 814 can detect the on / off state of the electronic device 800 and the relative position of the component such as the display or keypad of the electronic device 800, and the sensor component 814 can also detect the electronic device 800 or the electronic device 800 or. It is also possible to detect a change in the position of a component of the electronic device 800, the presence or absence of contact of the electronic device 800 with the user, the orientation or acceleration / deceleration of the electronic device 800, and the change in the temperature of the electronic device 800. The sensor component 814 can include a proximity sensor configured to detect the presence of nearby objects without physical contact. The sensor component 814 can also further include an optical sensor such as a CMOS or CCD image sensor for use in imaging applications. In some embodiments, the sensor component 814 can further include an accelerometer, a gyroscope sensor, a magnetic sensor, a pressure sensor or a temperature sensor. The communication component 816 is configured to facilitate wired or wireless communication between the electronic device 800 and other devices. The electronic device 800 can access a wireless network based on a communication standard such as WiFi, 2G or 3G, or a combination thereof. In an exemplary embodiment, the communication component 816 receives broadcast signals or broadcast-related information from an external broadcast management system via a broadcast channel. In an exemplary embodiment, the communication component 816 further comprises a Near Field Communication (NFC) module to facilitate short range communication. For example, NFC modules can be represented based on Radio Frequency Identification (RFID) technology, Infrared Data Association (IrDA) technology, Ultra Wideband (UWB) technology, Bluetooth (BT) technology and other technologies. In an exemplary embodiment, the electronic device 800 is configured to perform the image processing method described above, one or more integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing. It can be embodied by an integrated circuit (DSPD), programmable logic device (PLD), field programmable gate array (FPGA), controller, microcontroller, microprocessor or other electronic element. In an exemplary embodiment, a computer-readable storage medium, such as a memory 804 containing computer program instructions, is further provided, wherein the computer program instructions are executed by the processor 820 of the electronic device 800, whereby the image processing method described above. Can be carried out.

図6は、本開示の実施例に係る電子機器1900のブロック図を示す。例えば、電子機器1900は、サーバとして提供されることができる。図6を参照すると、電子機器1900は、1つ又は複数のプロセッサを含む処理コンポーネント1922と、処理コンポーネント1922によって実行可能な命令(アプリケーションなど)を記憶するように構成されるメモリリソースとして表されるメモリ1932と、を備える。メモリ1932に記憶されたアプリケーションは、それぞれが1組の命令に対応する1つ又は複数のモジュールを備えることができる。更に、処理コンポーネント1922は、命令を実行することにより、上記の画像処理方法を実行するように構成される。 FIG. 6 shows a block diagram of the electronic device 1900 according to the embodiment of the present disclosure. For example, the electronic device 1900 can be provided as a server. Referring to FIG. 6, the electronic device 1900 is represented as a processing component 1922 including one or more processors and a memory resource configured to store instructions (such as an application) that can be executed by the processing component 1922. It includes a memory 1932. An application stored in memory 1932 may include one or more modules, each corresponding to a set of instructions. Further, the processing component 1922 is configured to execute the above image processing method by executing an instruction.

電子機器1900は、更に、電子装置1900の電源管理を実行するように構成される電力コンポーネント1926と、電子装置1900をネットワークに接続するように構成される有線又は無線ネットワークインターフェース1950と、入力/出力(I/O)インターフェース1958と、を備えることができる。電子機器1900は、メモリ1932に記憶されたオペレーティングシステム、例えば、Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM又は類似したものに基づいて操作されることができる。例示的な実施例において、コンピュータプログラム命令を含むメモリ1932などの、不揮発性コンピュータ可読記憶媒体を更に提供し、電子機器1900の処理コンポーネント1922によって上述のコンピュータプログラム命令を実行することにより、上記の画像処理方法を遂行することができる。 The electronic device 1900 also has an input / output with a power component 1926 configured to perform power management of the electronic device 1900 and a wired or wireless network interface 1950 configured to connect the electronic device 1900 to a network. (I / O) interface 1958 and can be provided. The electronic device 1900 can be operated on the basis of an operating system stored in memory 1932, such as Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM or the like. In an exemplary embodiment, a non-volatile computer readable storage medium, such as a memory 1932 containing computer program instructions, is further provided and the above computer program instructions are executed by the processing component 1922 of the electronic device 1900 to perform the above image. The processing method can be carried out.

本開示は、システム、方法及び/又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を含み得、当該コンピュータ可読記憶媒体には、プロセッサに、本開示の実施例の様々な態様を実現させるためのコンピュータ可読プログラム命令が含まれる。 The present disclosure may be a system, method and / or computer program product. The computer program product may include a computer readable storage medium, which includes computer readable program instructions for the processor to realize various aspects of the embodiments of the present disclosure.

コンピュータ可読記憶媒体は、命令実行機器によって使用される命令を保持及び記憶することができる有形機器であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶機器、磁気記憶機器、光学記憶機器、電磁記憶機器、半導体記憶機器又は前述の任意の適切な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体の例(非網羅的リスト)は、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、命令が記憶されたパンチカード又は溝の凸構造、及び前述の任意の適切な組み合わせなどの機械的符号化機器を含む。ここで使用されるコンピュータ可読記憶媒体は、電波や自由に伝播される他の電磁波、導波管や他の伝播媒体を介して伝播される電磁波(光ファイバーケーブルを介した光パルスなど)、又はワイヤを介して伝送される電子信号などの、一時的な信号として解釈されてはならない。 The computer-readable storage medium may be a tangible device capable of holding and storing instructions used by the instruction executing device. The computer-readable storage medium can be, for example, an electrical storage device, a magnetic storage device, an optical storage device, an electromagnetic storage device, a semiconductor storage device, or any suitable combination described above, but is not limited thereto. Examples of computer-readable storage media (non-exhaustive list) are portable computer disksets, hard disks, random access memory (RAM), read-only memory (ROM), erasable programmable read-only memory (EPROM or flash memory), static random access. Memory (SRAM), Portable Compact Disc Read-Only Memory (CD-ROM), Digital Versatile Disc (DVD), Memory Stick, Floppy Disk, Punch Card or Groove Convex Structure with Instructions Stored, and any of the above-mentioned suitable. Includes mechanical coding equipment such as combinations. The computer-readable storage medium used here is radio waves, other electromagnetic waves propagating freely, electromagnetic waves propagating through waveguides or other propagating media (such as optical pulses through fiber optic cables), or wires. It should not be interpreted as a temporary signal, such as an electronic signal transmitted via.

本明細書で説明するコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各コンピューティング/処理機器にダウンロードされるか、インターネット、ローカルエリアネットワーク、広域ネットワーク及び/又は無線ネットワークなどのネットワークを介して外部コンピュータ又は外部記憶機器にダウンロードされることができる。ネットワークは、銅線伝送ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータ及び/又はエッジサーバなどを含み得る。各コンピューティング/処理機器におけるネットワークアダプターカード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、他のコンピューティング/処理機器のコンピュータ可読記憶媒体への記憶のために、当該コンピュータ可読プログラム命令を転送する。 The computer-readable program instructions described herein are downloaded from a computer-readable storage medium to each computing / processing device or via a network such as the Internet, local area networks, wide area networks and / or wireless networks to external computers. Alternatively, it can be downloaded to an external storage device. The network may include copper wire transmission cables, fiber optic transmissions, wireless transmissions, routers, firewalls, switches, gateway computers and / or edge servers and the like. The network adapter card or network interface in each computing / processing device receives computer-readable program instructions from the network and issues the computer-readable program instructions for storage in the computer-readable storage medium of other computing / processing equipment. Forward.

本開示の操作を実行するためのコンピュータプログラム命令は、アセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、状態設定データ、又は以1つ又は複数のプログラミング言語の任意の組み合わせでプログラミングされたソースコード又は目標コードであってもよく、前記プログラミング言語は、Smalltalk、C++などのオブジェクト指向プログラミング言語、及び「C」言語又は類似のプログラミング言語などの一般的な手続き型プログラミング言語を含む。コンピュータ可読プログラム命令は、完全にユーザのコンピュータで実行されてもよく、その一部がユーザのコンピュータで実行されてもよく、1つの独立したソフトウェアパッケージとして実行されてもよく、その一部がユーザのコンピュータで実行されかつその他の部分がリモートコンピュータで実行されてもよく、完全にリモートコンピュータ又はサーバで実行されてもよい。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意のタイプのネットワークを経由して、ユーザのコンピュータに接続するか、又は、外部コンピュータに接続することができる(例えば、インターネットサービスプロバイダを使用してインターネットを経由して外部コンピュータにアクセスすることができる)。いくつかの実施例において、コンピュータ可読命令の状態情報を使用することにより、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)又はプログラマブルロジックアレイ(PLA)などの、電子回路をカスタマイズし、当該電子回路は、コンピュータ可読プログラム命令を実行し、それにより、本開示の各態様を実現することができる。 The computer programming instructions for performing the operations of the present disclosure may be assembly instructions, instruction set architecture (ISA) instructions, machine instructions, machine-related instructions, microcodes, firmware instructions, state setting data, or one or more programmings. The programming language may be source code or target code programmed in any combination of languages, such as object-oriented programming languages such as Smalltalk, C ++, and common programming languages such as "C" language or similar programming languages. Includes procedural programming languages. Computer-readable program instructions may be executed entirely on the user's computer, some may be executed on the user's computer, or some may be executed as a single independent software package, some of which may be executed by the user. It may be run on one computer and other parts may be run on a remote computer, or it may be run entirely on a remote computer or server. In the case of a remote computer, the remote computer may connect to the user's computer or connect to an external computer via any type of network, including a local area network (LAN) or wide area network (WAN). Yes (for example, you can use an internet service provider to access an external computer over the internet). In some embodiments, computer-readable instruction state information is used to customize an electronic circuit, such as a programmable logic circuit, field programmable gate array (FPGA) or programmable logic array (PLA). , Computer-readable program instructions can be executed, thereby realizing each aspect of the present disclosure.

ここで、本開示の実施例に係る方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロックを参照して、本開示の各態様について説明したが、フローチャート及び/又はブロック図の各ブロック、及びフローチャート及び/又はブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解されたい。 Here, each aspect of the present disclosure has been described with reference to the flowcharts and / or blocks of the methods, devices (systems) and computer program products according to the embodiments of the present disclosure, but each block of the flowchart and / or block diagram has been described. It should be understood that each block combination of the flowchart and / or the block diagram can be realized by computer-readable program instructions.

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサに提供することができ、それにより、これらの命令がコンピュータ又は他のプログラム可能なデータ処理装置のプロセッサによって実行されるときに、フローチャート及び/又はブロック図における1つの又は複数のブロックで指定された機能/動作を実現する手段を創出する。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよく、コンピュータ、プログラム可能データ処理装置及び/又は他の機器が、これらの命令に応じて特定方式で動作することができる。したがって、命令が記憶されたコンピュータ可読媒体は、フローチャート及び/又はブロック図における1つ又は複数のブロックで指定された機能/動作の各態様の命令を含む、製品を含むことができる。 These computer-readable program instructions can be provided to the processor of a general purpose computer, dedicated computer or other programmable data processing device, whereby these instructions can be provided to the processor of the computer or other programmable data processing device. When executed by, it creates a means to realize the function / operation specified by one or more blocks in the flowchart and / or the block diagram. These computer-readable program instructions may be stored in a computer-readable storage medium, and the computer, programmable data processing device and / or other device may operate in a particular manner in response to these instructions. Thus, the computer-readable medium in which the instructions are stored can include a product that includes instructions for each aspect of the function / operation specified in one or more blocks in the flowchart and / or block diagram.

また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラム可能なデータ処理装置、又は他の機器にロードすることで、コンピュータ、プログラム可能な数据処理装置又は他の機器に、一連の操作ステップを実行させることにより、コンピュータによって実現されるプロセスを生成し、それにより、コンピュータ、他のプログラム可能な数据処理装置、又は他の機器で実行される命令により、フローチャート及び/又はブロック図における1つ又は複数のブロックで指定された機能/動作を実現することができる。 Also, by loading computer-readable program instructions into a computer, other programmable data processing device, or other device, the computer, programmable number of processing devices, or other device can perform a series of operational steps. Thereby generating a process realized by a computer, thereby one or more in a flowchart and / or a block diagram by instructions executed by a computer, other programmable number processing device, or other equipment. The function / operation specified by the block can be realized.

添付の図面におけるフローチャート及びブロック図は、本開示の複数の実施例に係るシステム、方法及びコンピュータプログラム製品の実現可能な実装アーキテクチャ、機能及び動作を示す。これに関して、フローチャート又はブロック図における各ブロックは、1つのモジュール、プログラムセグメント又は命令の一部を表すことができ、前記モジュール、プログラムセグメント又は命令の一部は、指定された論理機能を実現するための1つ又は複数の実行可能な命令を含む。いくつかの代替的な実現では、ブロックで表示された機能は、図面で表示された順序とは異なる順序で実行することもできる。例えば、2つの連続するブロックは、実際には、並行して実行されることができ、関連する機能によっては、逆の順序で実行されることもできる。ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、指定された機能又は動作を実行するハードウェアに基づく専用システムによって実現することができ、又は専用ハードウェアとコンピュータ命令の組み合わせによって実現されることができることに留意されたい。 The flowcharts and block diagrams in the accompanying drawings show the feasible implementation architectures, functions and operations of the systems, methods and computer program products according to the embodiments of the present disclosure. In this regard, each block in a flowchart or block diagram can represent a part of a module, program segment or instruction, the module, program segment or part of the instruction to realize a specified logical function. Includes one or more executable instructions of. In some alternative implementations, the functions displayed in blocks can also be performed in a different order than they are displayed in the drawing. For example, two consecutive blocks can actually be executed in parallel and, depending on the related functions, in reverse order. Each block in the block diagram and / or flowchart, and the combination of blocks in the block diagram and / or flowchart, can be implemented by a dedicated system based on the hardware performing the specified function or operation, or with dedicated hardware. Note that this can be achieved by a combination of computer instructions.

当該コンピュータプログラム製品は、ハードウェア、ソフトウェア又はそれらを組み合わせることによって実現されることができる。例示的な実施例において、前記コンピュータプログラム製品は、コンピュータ記憶媒体で具現され、別の代替実施例において、コンピュータプログラム製品は、ソフトウェア開発キット(SDK:Software Development Kit)など、ソフトウェア製品で具現される。 The computer program product can be realized by hardware, software or a combination thereof. In an exemplary embodiment, the computer program product is embodied in a computer storage medium, and in another alternative embodiment, the computer program product is embodied in a software product, such as a software development kit (SDK). ..

以上、本開示の各実施例を説明したが、以上の説明は、例示的なものであり、網羅的ではなく、開示された各実施例に限定されない。説明された各実施例の範囲及び精神から逸脱することなく、多くの修正及び変更は、当業者にとっては明らかである。本明細書で使用される用語の選択は、各実施例の原理、実際の応用又は市場における技術の改善を最もよく説明するか、当業者が本明細書で開示された各実施例を理解することができるようにすることを意図する。 Although each embodiment of the present disclosure has been described above, the above description is exemplary, not exhaustive, and is not limited to each disclosed embodiment. Many modifications and changes will be apparent to those of skill in the art without departing from the scope and spirit of each of the embodiments described. The choice of terminology used herein best describes the principles of each embodiment, actual application or technical improvement in the market, or one of ordinary skill in the art will understand each embodiment disclosed herein. Intended to be able to.

本開示の実施例では、処理対象画像に対してMレベルの特徴抽出を実行してMレベルの第1特徴マップを得、各第1特徴マップと、それに隣接する特徴マップとを融合してMレベルの第2特徴マップを得、Mレベルの第2特徴マップに対して目標検出を実行して目標検出結果を得ることができ、それにより、Mレベルの第1特徴マップの隣接層間の特徴の関連情報を融合し、目標検出の効果を効果的に向上させることができる。 In the embodiment of the present disclosure, M-level feature extraction is performed on the image to be processed to obtain an M-level first feature map, and each first feature map and an adjacent feature map are fused to M. The second feature map of the level can be obtained, the target detection can be performed on the second feature map of the M level to obtain the target detection result, whereby the features between the adjacent layers of the first feature map of the M level can be obtained. By fusing related information, the effect of target detection can be effectively improved.

Claims (25)

画像処理方法であって、
処理対象画像に対してM(Mは、1より大きい整数である)レベルの特徴抽出を実行して、前記処理対象画像のMレベルの第1特徴マップを得ることであって、前記Mレベルの第1特徴マップの各レベルの第1特徴マップの尺度は異なる、ことと、
各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることであって、前記特徴マップ組のそれぞれは、前記第1特徴マップ及び前記第1特徴マップに隣接する第1特徴マップを含む、ことと、
前記Mレベルの第2特徴マップに対して目標検出を実行して、前記処理対象画像の目標検出結果を得ることと、を含む、
画像処理方法。
It ’s an image processing method.
Performing M (M is an integer larger than 1) level feature extraction on the processed image to obtain the M level first feature map of the processed image, that is, the M level. The scale of the first feature map at each level of the first feature map is different,
Scale adjustment and fusion are performed on the feature map sets corresponding to the first feature maps of each level to obtain the second feature map of the M level, and each of the feature map sets is described above. It includes a first feature map and a first feature map adjacent to the first feature map.
Including performing target detection on the M-level second feature map to obtain a target detection result of the processed image.
Image processing method.
第i(iは整数であり、且つ1<i<Mである)レベルの第1特徴マップに対応する特徴マップ組は、第i-1レベルの第1特徴マップ、第iレベルの第1特徴マップ及び第i+1レベルの第1特徴マップを含み、
前記各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることは、
前記第i-1レベルの第1特徴マップの尺度を縮小して、1番目の第iレベルの第3特徴マップを得ることと、
前記第iレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第iレベルの第3特徴マップを得ることと、
前記第i+1レベルの第1特徴マップの尺度を拡大して、3番目の第iレベルの第3特徴マップを得ることと、
前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと、前記3番目の第iレベルの第3特徴マップとを融合して、第iレベルの第2特徴マップを得ることと、を含み、
前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと前記3番目の第iレベルの第3特徴マップとの尺度は同じである、
請求項1に記載の画像処理方法。
The feature map set corresponding to the first feature map of the i-th (i is an integer and 1 <i <M) level is the first feature map of the i-1 level and the first feature of the i-level. Includes map and 1st feature map for i + 1 level
Performing scale adjustment and fusion on the feature map set corresponding to the first feature map of each level to obtain the second feature map of M level can be obtained.
Reducing the scale of the first feature map of the first i-1 level to obtain the third feature map of the first i level,
Performing a transformation on the i-level first feature map so that the scale is not changed to obtain a second i-level third feature map.
By expanding the scale of the first feature map of the first i + 1 level to obtain the third feature map of the third i level,
The first i-level third feature map, the second i-level third feature map, and the third i-level third feature map are fused to form the i-level. Including getting a second feature map
The scales of the first i-level third feature map, the second i-level third feature map, and the third i-level third feature map are the same.
The image processing method according to claim 1.
第1レベルの第1特徴マップに対応する特徴マップ組は、前記第1レベルの第1特徴マップ及び第2レベルの第1特徴マップを含み、前記各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることは、
前記第1レベルの第1特徴マップに対して尺度が変更されないように変換を実行して、1番目の第1レベルの第3特徴マップを得ることと、
前記第2レベルの第1特徴マップの尺度を拡大して、2番目の第1レベルの第3特徴マップを得ることと、
前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップとを融合して、第1レベルの第2特徴マップを得ることと、を含み、
前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップの尺度は同じである、
請求項1又は2に記載の画像処理方法。
The feature map set corresponding to the first level first feature map includes the first level first feature map and the second level first feature map, and the feature map corresponding to the first level first feature map. Performing scale adjustment and fusion for each pair to obtain an M-level second feature map is
To obtain the first level third feature map by performing a transformation so that the scale is not changed with respect to the first level first feature map.
Enlarging the scale of the first level first feature map to obtain the second first level third feature map,
Including fusing the first level third feature map and the second first level third feature map to obtain a first level second feature map.
The scales of the first level third feature map and the second first level third feature map are the same.
The image processing method according to claim 1 or 2.
第Mレベルの第1特徴マップに対応する特徴マップ組は、第M-1レベルの第1特徴マップ及び前記第Mレベルの第1特徴マップを含み、
前記各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることは、
前記第M-1レベルの第1特徴マップの尺度を縮小して、1番目の第Mレベルの第3特徴マップを得ることと、
前記第Mレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第Mレベルの第3特徴マップを得ることと、
前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第2特徴マップとを融合して、第Mレベルの第2特徴マップを得ることと、を含み、
前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第3特徴マップの尺度は同じである、
請求項1ないし3のいずれか一項に記載の画像処理方法。
The feature map set corresponding to the first feature map of the M level includes the first feature map of the M-1 level and the first feature map of the M level.
Performing scale adjustment and fusion on the feature map set corresponding to the first feature map of each level to obtain the second feature map of M level can be obtained.
By reducing the scale of the first feature map of the first M-1 level to obtain the third feature map of the first M level,
To obtain the second M-level third feature map by performing a transformation so that the scale is not changed for the first M-level feature map.
Including fusing the first M-level third feature map and the second M-level second feature map to obtain a second M-level feature map.
The scales of the first M-level third feature map and the second M-level third feature map are the same.
The image processing method according to any one of claims 1 to 3.
前記第i-1レベルの第1特徴マップの尺度を縮小して、1番目の第iレベルの第3特徴マップを得ることは、
第1畳み込み層によって、前記第i-1レベルの第1特徴マップを畳み込んで、前記1番目の第iレベルの第3特徴マップを得ることを含み、前記第1畳み込み層の畳み込みカーネルのサイズはN×N(Nは1より大きい整数である)であり、ステップサイズはn(nは、1より大きい整数である)であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、
前記第iレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第iレベルの第3特徴マップを得ることは、
第2畳み込み層によって前記第iレベルの第1特徴マップを畳み込んで、前記2番目の第iレベルの第3特徴マップを得ることを含み、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1であり、
前記第i+1レベルの第1特徴マップの尺度を拡大して、3番目の第iレベルの第3特徴マップを得ることは、
第3畳み込み層及びアップサンプリング層によって、前記第i+1レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、前記3番目の第iレベルの第3特徴マップを得ることを含み、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である、
請求項2ないし4のいずれか一項に記載の画像処理方法。
Reducing the scale of the first feature map of the first i-1 level to obtain the third feature map of the first i level
The size of the convolution kernel of the first convolution layer, including convolving the first feature map of the i-1 level with the first convolution layer to obtain the third feature map of the first i level. Is N × N (N is an integer greater than 1), the step size is n (n is an integer greater than 1), and the scale of the first feature map of the i-1 level is It is n times the scale of the first feature map of the i-th level.
Performing a transformation on the i-level first feature map so that the scale is not changed to obtain a second i-level third feature map can be achieved.
The size of the convolution kernel of the second convolution layer is N ×, including convolving the first feature map of the i-level with the second convolution layer to obtain the third feature map of the second i-level. N, the step size is 1,
Enlarging the scale of the first feature map of the first i + 1 level to obtain the third feature map of the third i level
The third convolution layer and the upsampling layer include convolving and upsampling the first feature map of the i + 1 level to obtain the third feature map of the third i level. The size of the convolution kernel of the convolution layer is N × N, and the step size is 1.
The image processing method according to any one of claims 2 to 4.
前記第1レベルの第1特徴マップに対して尺度が変更されないように変換を実行して、1番目の第1レベルの第3特徴マップを得ることは、
第2畳み込み層によって前記第1レベルの第1特徴マップを畳み込んで、前記1番目の第1レベルの第3特徴マップを得ることを含み、前記第2畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズは1であり、
前記第2レベルの第1特徴マップの尺度を拡大して、2番目の第1レベルの第3特徴マップを得ることは、
第3畳み込み層及びアップサンプリング層によって、前記第2レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、2番目の第1レベルの第3特徴マップを得ることを含み、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である、
請求項3に記載の画像処理方法。
Performing a transformation on the first level first feature map so that the scale is not changed to obtain the first level third feature map is
The size of the convolution kernel of the second convolution layer is N ×, including convolving the first level first feature map with the second convolution layer to obtain the first first level third feature map. N (N is an integer greater than 1), the step size is 1, and
Enlarging the scale of the first level first feature map to obtain the second first level third feature map
The third convolution layer and the upsampling layer include convolving and upsampling the second level first feature map to obtain a second first level third feature map, the third convolution. The size of the layer convolution kernel is N × N and the step size is 1.
The image processing method according to claim 3.
前記第M-1レベルの第1特徴マップの尺度を縮小して、1番目の第Mレベルの第3特徴マップを得ることは、
第1畳み込み層によって、前記第M-1レベルの第1特徴マップを畳み込んで、前記1番目の第Mレベルの第3特徴マップを得ることを含み、前記第1畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズはn(nは、1より大きい整数である)であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、
前記第Mレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第Mレベルの第3特徴マップを得ることは、
第2畳み込み層によって前記第Mレベルの第1特徴マップを畳み込んで、前記2番目の第Mレベルの第3特徴マップを得ることを含み、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である、
請求項4に記載の画像処理方法。
Reducing the scale of the first feature map of the first M-1 level to obtain the third feature map of the first M level is possible.
The size of the convolution kernel of the first convolution layer, including convolving the first feature map of the M-1 level with the first convolution layer to obtain the third feature map of the first M level. Is N × N (N is an integer greater than 1), the step size is n (n is an integer greater than 1), and the scale of the first feature map of the i-1 level is , N times the scale of the first feature map of the i-th level.
Performing a transformation on the M-level first feature map so that the scale is not changed to obtain a second M-level third feature map is
The size of the convolution kernel of the second convolution layer is N ×, including convolving the first feature map of the M level with the second convolution layer to obtain the third feature map of the second M level. N, step size is 1,
The image processing method according to claim 4.
前記第2畳み込み層及び前記第3畳み込み層は、変形可能な畳み込み層又は膨張畳み込み層を含む、
請求項5ないし7のいずれか一項に記載の画像処理方法。
The second convolution layer and the third convolution layer include a deformable convolution layer or an expansion convolution layer.
The image processing method according to any one of claims 5 to 7.
前記画像処理方法は、画像処理ネットワークによって実現され、前記画像処理ネットワークは、前記Mレベルの第1特徴マップに対して、尺度調整と融合とをP回実行するための直列接続されたP(Pは正の整数である)レベルの融合ネットワークブロックを含み、各レベルの融合ネットワークブロックは、複数の第1畳み込み層、複数の第2畳み込み層及び複数の第3畳み込み層を含み、
前記各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得ることは、
前記Mレベルの第1特徴マップを第1レベルの融合ネットワークブロックに入力して、1回目に融合されたMレベルの第4特徴マップを出力することと、
j-1(jは整数であり、且つ1<j<Pである)回目に融合されたMレベルの第4特徴マップを第jレベルの融合ネットワークブロックに入力して、j回目に融合されたMレベルの第4特徴マップを出力することと、
P-1回目に融合されたMレベルの第4特徴マップを第Pレベルの融合ネットワークブロックに入力して、前記Mレベルの第2特徴マップを出力することと、を含む、
請求項5ないし8のいずれか一項に記載の画像処理方法。
The image processing method is realized by an image processing network, and the image processing network is connected in series to P (P) for performing scale adjustment and fusion P times with respect to the M-level first feature map. Contains level fusion network blocks (where is a positive integer), and each level fusion network block comprises a plurality of first convolution layers, a plurality of second convolution layers, and a plurality of third convolution layers.
Performing scale adjustment and fusion on the feature map set corresponding to the first feature map of each level to obtain the second feature map of M level can be obtained.
The first M-level feature map is input to the first-level fusion network block, and the first fused M-level fourth feature map is output.
The M-level fourth feature map fused at the j-1 (j is an integer and 1 <j <P) th time is input to the j-level fusion network block, and the fusion is performed at the jth time. Outputting the 4th feature map of M level and
P-1 The M-level fourth feature map fused for the first time is input to the P-level fusion network block, and the M-level second feature map is output.
The image processing method according to any one of claims 5 to 8.
各レベルの融合ネットワークブロックは正規化層を更に含み、
前記j-1回目に融合されたMレベルの第4特徴マップを第jレベルの融合ネットワークブロックに入力して、j回目に融合されたMレベルの第4特徴マップを出力することは、
前記第jレベルの融合ネットワークブロックの第1畳み込み層、第2畳み込み層及び第3畳み込み層によって、前記j-1回目に融合されたMレベルの第4特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、前記j回目に融合されたMレベルの中間特徴マップを得ることと、
前記正規化層によって前記j回目に融合されたMレベルの中間特徴マップに対して聯合バッチ正規化処理を実行して、前記j回目に融合されたMレベルの第4特徴マップを得ることと、を含む、
請求項9に記載の画像処理方法。
Each level of fusion network block further contains a normalization layer,
Inputting the j-1st fused M-level fourth feature map into the j-level fusion network block and outputting the j-1st fused M-level fourth feature map is possible.
For the feature map set corresponding to the M-level fourth feature map fused at the j-1st time by the first convolution layer, the second convolution layer, and the third convolution layer of the j-level fusion network block. Performing scale adjustment and fusion, respectively, to obtain the M-level intermediate feature map fused at the jth time,
The combined batch normalization process is executed on the M-level intermediate feature map fused by the normalization layer at the jth time to obtain the M-level fourth feature map fused at the jth time. including,
The image processing method according to claim 9.
前記画像処理方法は、画像処理ネットワークによって実現され、前記画像処理ネットワークは、回帰ネットワーク及び分類ネットワークを更に含み、前記Mレベルの第2特徴マップに対して目標検出を実行して、前記処理対象画像の目標検出結果を得ることは、
前記Mレベルの第2特徴マップを前記回帰ネットワークに入力して、前記処理対象画像内の目標に対応する画像枠を決定することと、
前記Mレベルの第2特徴マップを前記分類ネットワークに入力して、前記処理対象画像内の目標のカテゴリを決定することであって、前記目標検出結果は、前記目標に対応する画像枠及び前記目標のカテゴリを含む、ことと、を含む、
請求項1ないし10のいずれか一項に記載の画像処理方法。
The image processing method is realized by an image processing network, which further includes a regression network and a classification network, performs target detection on the M-level second feature map, and performs the processing target image. To obtain the target detection result of
The second feature map of the M level is input to the regression network to determine the image frame corresponding to the target in the image to be processed.
The second feature map of the M level is input to the classification network to determine the category of the target in the image to be processed, and the target detection result is the image frame corresponding to the target and the target. Including, including, including,
The image processing method according to any one of claims 1 to 10.
画像処理装置であって、
処理対象画像に対してM(Mは、1より大きい整数である)レベルの特徴抽出を実行して、前記処理対象画像のMレベルの第1特徴マップを得るように構成される特徴抽出モジュールであって、前記Mレベルの第1特徴マップの各レベルの第1特徴マップの尺度は異なる、特徴抽出モジュールと、
各レベルの第1特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、Mレベルの第2特徴マップを得るように構成される尺度調整及び融合モジュールであって、前記特徴マップ組のそれぞれは、前記第1特徴マップ及び前記第1特徴マップに隣接する第1特徴マップを含む、尺度調整及び融合モジュールと、
前記Mレベルの第2特徴マップに対して目標検出を実行して、前記処理対象画像の目標検出結果を得るように構成される目標検出モジュールと、を備える、
画像処理装置。
It is an image processing device
A feature extraction module configured to perform M (M is an integer greater than 1) level feature extraction on the processed image to obtain the M level first feature map of the processed image. Therefore, the scale of the first feature map of each level of the first feature map of the M level is different from that of the feature extraction module.
It is a scale adjustment and fusion module configured to perform scale adjustment and fusion for each feature map set corresponding to the first feature map of each level to obtain an M level second feature map. Each of the feature map sets includes a scale adjustment and fusion module comprising the first feature map and a first feature map adjacent to the first feature map.
A target detection module configured to execute target detection on the M-level second feature map and obtain a target detection result of the processed image is provided.
Image processing device.
第i(iは整数であり、且つ1<i<Mである)レベルの第1特徴マップに対応する特徴マップ組は、第i-1レベルの第1特徴マップ、第iレベルの第1特徴マップ及び第i+1レベルの第1特徴マップを含み、
前記尺度調整及び融合モジュールは、前記第i-1レベルの第1特徴マップの尺度を縮小して、1番目の第iレベルの第3特徴マップを得るように構成される第1尺度縮小サブモジュールと、前記第iレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第iレベルの第3特徴マップを得るように構成される第1変換サブモジュールと、前記第i+1レベルの第1特徴マップの尺度を拡大して、3番目の第iレベルの第3特徴マップを得るように構成される第1尺度拡大サブモジュールと、前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと、前記3番目の第iレベルの第3特徴マップとを融合して、第iレベルの第2特徴マップを得るように構成される第1融合サブモジュールと、を備え、前記1番目の第iレベルの第3特徴マップと、前記2番目の第iレベルの第3特徴マップと前記3番目の第iレベルの第3特徴マップとの尺度は同じである、
請求項12に記載の画像処理装置。
The feature map set corresponding to the first feature map of the i-th (i is an integer and 1 <i <M) level is the first feature map of the i-1 level and the first feature of the i-level. Includes map and 1st feature map for i + 1 level
The scale adjustment and fusion module is a first scale reduction submodule configured to reduce the scale of the i-1 level first feature map to obtain a first i level third feature map. And a first conversion submodule configured to perform a transformation on the i-level first feature map so that the scale is not changed to obtain a second i-level third feature map. The first scale expansion submodule configured to expand the scale of the first feature map of the i + 1 level to obtain the third feature map of the third i level, and the first i level. The third feature map of the third level, the third feature map of the second i-level, and the third feature map of the third i-level are fused to obtain the second feature map of the i-level. The first fusion submodule configured in the above, the first i-level third feature map, the second i-level third feature map, and the third i-level third feature map. The scale is the same as the 3 feature maps,
The image processing apparatus according to claim 12.
第1レベルの第1特徴マップに対応する特徴マップ組は、前記第1レベルの第1特徴マップ及び第2レベルの第1特徴マップを含み、前記尺度調整及び融合モジュールは、前記第1レベルの第1特徴マップに対して尺度が変更されないように変換を実行して、1番目の第1レベルの第3特徴マップを得るように構成される第2変換サブモジュールと、前記第2レベルの第1特徴マップの尺度を拡大して、2番目の第1レベルの第3特徴マップを得るように構成される第2尺度拡大サブモジュールと、前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップとを融合して、第1レベルの第2特徴マップを得るように構成される第2融合サブモジュールと、を備え、前記1番目の第1レベルの第3特徴マップと前記2番目の第1レベルの第3特徴マップの尺度は同じである、
請求項12又は13に記載の画像処理装置。
The feature map set corresponding to the first level first feature map includes the first level first feature map and the second level first feature map, and the scale adjustment and fusion module is the first level. A second conversion submodule configured to perform a transformation so that the scale is not changed for the first feature map to obtain a first level third feature map, and the second level second. The second scale expansion submodule configured to magnify the scale of one feature map to obtain the second first level third feature map, and the first level third feature map and said. It comprises a second fusion submodule configured to fuse with a second first level third feature map to obtain a first level second feature map, the first level said. The scales of the third feature map and the third feature map of the second first level are the same.
The image processing apparatus according to claim 12 or 13.
第Mレベルの第1特徴マップに対応する特徴マップ組は、第M-1レベルの第1特徴マップ及び前記第Mレベルの第1特徴マップを含み、前記尺度調整及び融合モジュールは、前記第M-1レベルの第1特徴マップの尺度を縮小して、1番目の第Mレベルの第3特徴マップを得るように構成される第2尺度縮小サブモジュールと、前記第Mレベルの第1特徴マップに対して尺度が変更されないように変換を実行して、2番目の第Mレベルの第3特徴マップを得るように構成される第3変換サブモジュールと、前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第2特徴マップとを融合して、第Mレベルの第2特徴マップを得るように構成される第3融合サブモジュールと、を備え、前記1番目の第Mレベルの第3特徴マップと前記2番目の第Mレベルの第3特徴マップの尺度は同じである、
請求項12ないし14のいずれか一項に記載の画像処理装置。
The feature map set corresponding to the first feature map of the M level includes the first feature map of the M-1 level and the first feature map of the M level, and the scale adjustment and fusion module is the M. A second scale reduction submodule configured to scale down a -1 level first feature map to obtain a first M level third feature map, and the M level first feature map. A third conversion submodule configured to perform a conversion so that the scale is not changed for the second M level to obtain a third feature map of the second M level, and a third of the first M level. The first feature map comprises a third fusion submodule configured to fuse the feature map with the second M level second feature map to obtain a second M level feature map. The scales of the third feature map of the second M level and the third feature map of the second M level are the same.
The image processing apparatus according to any one of claims 12 to 14.
前記第1尺度縮小サブモジュールは、第1畳み込み層によって、前記第i-1レベルの第1特徴マップを畳み込んで、前記1番目の第iレベルの第3特徴マップを得るように構成され、前記第1畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズはn(nは、1より大きい整数である)であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、前記第1変換サブモジュールは、第2畳み込み層によって前記第iレベルの第1特徴マップを畳み込んで、前記2番目の第iレベルの第3特徴マップを得るように構成され、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1であり、前記第1尺度拡大サブモジュールは、第3畳み込み層及びアップサンプリング層によって、前記第i+1レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、前記3番目の第iレベルの第3特徴マップを得るように構成され、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である、
請求項13ないし15のいずれか一項に記載の画像処理装置。
The first scale reduction submodule is configured to convolve the first level i-1 feature map with the first convolution layer to obtain the first level third feature map. The size of the convolution kernel of the first convolution layer is N × N (N is an integer greater than 1), the step size is n (n is an integer greater than 1), and the i-. The scale of the 1st level 1st feature map is n times the scale of the 1st level 1 feature map, and the 1st transformation submodule is the 1st feature map of the ist level by the 2nd convolution layer. Is configured to convolve to obtain the third feature map of the second i-level, the size of the convolution kernel of the second convolution layer is N × N, the step size is 1, and the first. The one-scale expansion submodule convolves and upsamples the first feature map of the i + 1 level by the third convolution layer and the upsampling layer to obtain the third feature map of the third i level. The size of the convolution kernel of the third convolution layer is N × N, and the step size is 1.
The image processing apparatus according to any one of claims 13 to 15.
前記第2変換サブモジュールは、第2畳み込み層によって前記第1レベルの第1特徴マップを畳み込んで、前記1番目の第1レベルの第3特徴マップを得るように構成され、前記第2畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズは1であり、前記第2尺度拡大サブモジュールは、第3畳み込み層及びアップサンプリング層によって、前記第2レベルの第1特徴マップに対して畳み込み、アップサンプリングを行い、2番目の第1レベルの第3特徴マップを得るように構成され、前記第3畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である、
請求項15に記載の画像処理装置。
The second conversion submodule is configured to fold the first level first feature map with the second convolution layer to obtain the first level third feature map, the second convolution. The size of the layer convolution kernel is N × N (N is an integer greater than 1), the step size is 1, and the second scale expansion submodule is provided by the third convolution layer and the upsampling layer. It is configured to convolve and upsample the first level first feature map to obtain the second first level third feature map, and the size of the convolution kernel of the third convolution layer is N ×. N, and the step size is 1.
The image processing apparatus according to claim 15.
前記第2尺度縮小サブモジュールは、第1畳み込み層によって、前記第M-1レベルの第1特徴マップを畳み込んで、前記1番目の第Mレベルの第3特徴マップを得るように構成され、前記第1畳み込み層の畳み込みカーネルのサイズはN×N(Nは、1より大きい整数である)であり、ステップサイズはn(nは、1より大きい整数である)であり、前記第i-1レベルの第1特徴マップの尺度は、前記第iレベルの第1特徴マップの尺度のn倍であり、前記第3変換サブモジュールは、第2畳み込み層によって前記第Mレベルの第1特徴マップを畳み込んで、前記2番目の第Mレベルの第3特徴マップを得るように構成され、前記第2畳み込み層の畳み込みカーネルのサイズはN×Nであり、ステップサイズは1である、
請求項16に記載の画像処理装置。
The second scale reduction submodule is configured to convolve the first M-1 level feature map with the first convolution layer to obtain the first M level third feature map. The size of the convolution kernel of the first convolution layer is N × N (N is an integer greater than 1), the step size is n (n is an integer greater than 1), and the i-. The scale of the 1st level 1st feature map is n times the scale of the ist level 1st feature map, and the 3rd transformation submodule is the 1st feature map of the M level by the 2nd convolution layer. Is configured to convolve to obtain the second M-level third feature map, the size of the convolution kernel of the second convolution layer is N × N, and the step size is 1.
The image processing apparatus according to claim 16.
前記第2畳み込み層及び前記第3畳み込み層は、変形可能な畳み込み層又は膨張畳み込み層を含む、
請求項16ないし18のいずれか一項に記載の画像処理装置。
The second convolution layer and the third convolution layer include a deformable convolution layer or an expansion convolution layer.
The image processing apparatus according to any one of claims 16 to 18.
前記画像処理装置は、画像処理ネットワークによって実現され、前記画像処理ネットワークは、前記Mレベルの第1特徴マップに対して、尺度調整と融合とをP回実行するための直列接続されたP(Pは正の整数である)レベルの融合ネットワークブロックを含み、各レベルの融合ネットワークブロックは、複数の第1畳み込み層、複数の第2畳み込み層及び複数の第3畳み込み層を含み、前記尺度調整及び融合モジュールは、前記Mレベルの第1特徴マップを第1レベルの融合ネットワークブロックに入力して、1回目に融合されたMレベルの第4特徴マップを出力するように構成される第1融合サブモジュールと、j-1(jは整数であり、且つ1<j<Pである)回目に融合されたMレベルの第4特徴マップを第jレベルの融合ネットワークブロックに入力して、j回目に融合されたMレベルの第4特徴マップを出力するように構成される第2融合サブモジュールと、P-1回目に融合されたMレベルの第4特徴マップを第Pレベルの融合ネットワークブロックに入力して、前記Mレベルの第2特徴マップを出力するように構成される第3融合サブモジュールと、を備える、
請求項16ないし19のいずれか一項に記載の画像処理装置。
The image processing apparatus is realized by an image processing network, and the image processing network is connected in series to P (P) for performing scale adjustment and fusion P times with respect to the M-level first feature map. Contains level fusion network blocks (where is a positive integer), each level of fusion network block comprising a plurality of first convolutional layers, a plurality of second convolutional layers and a plurality of third convolutional layers, said scale adjustment and. The fusion module is configured to input the M-level first feature map into the first-level fusion network block and output the first-fused M-level fourth feature map. Input the module and the M-level fourth feature map fused to the j-1 (j is an integer and 1 <j <P) th time into the j-level fusion network block, and the jth time. Input the 2nd fusion submodule configured to output the fused M-level 4th feature map and the P-1st fused M-level 4th feature map into the P-level fusion network block. A third fusion submodule configured to output the M-level second feature map.
The image processing apparatus according to any one of claims 16 to 19.
各レベルの融合ネットワークブロックは正規化層を更に含み、前記第2融合サブモジュールは、前記第jレベルの融合ネットワークブロックの第1畳み込み層、第2畳み込み層及び第3畳み込み層によって、前記j-1回目に融合されたMレベルの第4特徴マップに対応する特徴マップ組に対してそれぞれ尺度調整と融合とを実行して、前記j回目に融合されたMレベルの中間特徴マップを得、前記正規化層によって前記j回目に融合されたMレベルの中間特徴マップに対して聯合バッチ正規化処理を実行して、前記j回目に融合されたMレベルの第4特徴マップを得るように構成される、
請求項20に記載の画像処理装置。
The fusion network block at each level further comprises a normalization layer, and the second fusion submodule is the j- by the first convolution layer, the second convolution layer and the third convolution layer of the j-level fusion network block. Scale adjustment and fusion are performed on the feature map sets corresponding to the first fused M-level fourth feature map, respectively, to obtain the j-th fused M-level intermediate feature map. It is configured to execute the union batch normalization process on the M-level intermediate feature map fused at the jth time by the normalization layer to obtain the M-level fourth feature map fused at the jth time. ,
The image processing apparatus according to claim 20.
前記画像処理装置は、画像処理ネットワークによって実現され、前記画像処理ネットワークは、回帰ネットワーク及び分類ネットワークを更に含み、前記目標検出モジュールは、前記Mレベルの第2特徴マップを前記回帰ネットワークに入力して、前記処理対象画像内の目標に対応する画像枠を決定するように構成される回帰サブモジュールと、前記Mレベルの第2特徴マップを前記分類ネットワークに入力して、前記処理対象画像内の目標のカテゴリを決定するように構成される分類サブモジュールであって、前記目標検出結果は、前記目標に対応する画像枠及び前記目標のカテゴリを含む、分類サブモジュールと、を備える、
請求項13ないし21のいずれか一項に記載の画像処理装置。
The image processing apparatus is realized by an image processing network, the image processing network further includes a regression network and a classification network, and the target detection module inputs the M-level second feature map into the regression network. , The regression submodule configured to determine the image frame corresponding to the target in the processed image and the M-level second feature map are input to the classification network to enter the target in the processed image. A classification submodule configured to determine a category of, wherein the target detection result comprises a classification submodule including an image frame corresponding to the target and the target category.
The image processing apparatus according to any one of claims 13 to 21.
電子機器であって、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記メモリに記憶されている命令を呼び出して、請求項1ないし11のいずれか一項に記載の画像処理方法を実行するように構成される、
電子機器。
It ’s an electronic device,
With the processor
With memory configured to store processor executable instructions,
The processor is configured to call an instruction stored in the memory to execute the image processing method according to any one of claims 1 to 11.
Electronics.
コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、
前記コンピュータプログラム命令がプロセッサによって実行されるときに、請求項1ないし11のいずれか一項に記載の画像処理方法を実現する、
コンピュータ可読記憶媒体。
A computer-readable storage medium that stores computer program instructions.
The image processing method according to any one of claims 1 to 11 is realized when the computer program instruction is executed by the processor.
Computer-readable storage medium.
1つ又は複数の命令を含むコンピュータプログラム製品であって、
前記1つ又は複数の命令は、プロセッサに、請求項1ないし11のいずれか一項に記載の画像処理方法を実行させる、
コンピュータプログラム製品。
A computer program product that contains one or more instructions.
The one or more instructions causes the processor to execute the image processing method according to any one of claims 1 to 11.
Computer program product.
JP2021566025A 2020-04-17 2021-03-19 Image processing methods and devices, electronic devices and storage media Pending JP2022532322A (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010306929.2A CN111507408B (en) 2020-04-17 2020-04-17 Image processing method and device, electronic equipment and storage medium
CN202010306929.2 2020-04-17
PCT/CN2021/081782 WO2021208667A1 (en) 2020-04-17 2021-03-19 Image processing method and apparatus, electronic device, and storage medium

Publications (1)

Publication Number Publication Date
JP2022532322A true JP2022532322A (en) 2022-07-14

Family

ID=71874374

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021566025A Pending JP2022532322A (en) 2020-04-17 2021-03-19 Image processing methods and devices, electronic devices and storage media

Country Status (5)

Country Link
JP (1) JP2022532322A (en)
KR (1) KR20220011207A (en)
CN (1) CN111507408B (en)
TW (1) TWI782480B (en)
WO (1) WO2021208667A1 (en)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507408B (en) * 2020-04-17 2022-11-04 深圳市商汤科技有限公司 Image processing method and device, electronic equipment and storage medium
CN111967401A (en) * 2020-08-19 2020-11-20 上海眼控科技股份有限公司 Target detection method, device and storage medium
CN112200201A (en) * 2020-10-13 2021-01-08 上海商汤智能科技有限公司 Target detection method and device, electronic equipment and storage medium
CN112232361B (en) * 2020-10-13 2021-09-21 国网电子商务有限公司 Image processing method and device, electronic equipment and computer readable storage medium
CN113191390B (en) * 2021-04-01 2022-06-14 华中科技大学 Image classification model construction method, image classification method and storage medium
CN114463605B (en) * 2022-04-13 2022-08-12 中山大学 Continuous learning image classification method and device based on deep learning
CN115223018B (en) * 2022-06-08 2023-07-04 东北石油大学 Camouflage object collaborative detection method and device, electronic equipment and storage medium
CN115131641A (en) * 2022-06-30 2022-09-30 北京百度网讯科技有限公司 Image recognition method and device, electronic equipment and storage medium
CN115018059B (en) * 2022-08-09 2022-11-18 北京灵汐科技有限公司 Data processing method and device, neural network model, device and medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018534694A (en) * 2015-11-04 2018-11-22 エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. Convolutional neural network with subcategory recognition for object detection
JP2018205929A (en) * 2017-05-31 2018-12-27 株式会社Preferred Networks Learning device, learning method, learning model, detection device and gripping system
JP2020027659A (en) * 2018-08-10 2020-02-20 ネイバー コーポレーションNAVER Corporation Method for training convolutional recurrent neural network, and inputted video semantic segmentation method using trained convolutional recurrent neural network

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096670B (en) * 2016-06-17 2019-07-30 深圳市商汤科技有限公司 Concatenated convolutional neural metwork training and image detecting method, apparatus and system
US10929977B2 (en) * 2016-08-25 2021-02-23 Intel Corporation Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
US20180060719A1 (en) * 2016-08-29 2018-03-01 International Business Machines Corporation Scale-space label fusion using two-stage deep neural net
TWI691930B (en) * 2018-09-19 2020-04-21 財團法人工業技術研究院 Neural network-based classification method and classification device thereof
CN109816671B (en) * 2019-01-31 2021-09-24 深兰科技(上海)有限公司 Target detection method, device and storage medium
CN110378976B (en) * 2019-07-18 2020-11-13 北京市商汤科技开发有限公司 Image processing method and device, electronic equipment and storage medium
CN110647834B (en) * 2019-09-18 2021-06-25 北京市商汤科技开发有限公司 Human face and human hand correlation detection method and device, electronic equipment and storage medium
CN110852349B (en) * 2019-10-21 2024-02-20 上海联影智能医疗科技有限公司 Image processing method, detection method, related equipment and storage medium
CN111507408B (en) * 2020-04-17 2022-11-04 深圳市商汤科技有限公司 Image processing method and device, electronic equipment and storage medium

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018534694A (en) * 2015-11-04 2018-11-22 エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. Convolutional neural network with subcategory recognition for object detection
JP2018205929A (en) * 2017-05-31 2018-12-27 株式会社Preferred Networks Learning device, learning method, learning model, detection device and gripping system
JP2020027659A (en) * 2018-08-10 2020-02-20 ネイバー コーポレーションNAVER Corporation Method for training convolutional recurrent neural network, and inputted video semantic segmentation method using trained convolutional recurrent neural network

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHAO LIU, ET AL.: "Hierarchical Feature Fusion With Text Attention For Multi-scale Text Detection", 2018 IEEE 23RD INTERNATIONAL CONFERENCE ON DIGITAL SIGNAL PROCESSING (DSP), JPN6022048959, 2018, ISSN: 0005087445 *

Also Published As

Publication number Publication date
TW202141423A (en) 2021-11-01
CN111507408A (en) 2020-08-07
KR20220011207A (en) 2022-01-27
WO2021208667A1 (en) 2021-10-21
TWI782480B (en) 2022-11-01
CN111507408B (en) 2022-11-04

Similar Documents

Publication Publication Date Title
JP2022532322A (en) Image processing methods and devices, electronic devices and storage media
TWI773481B (en) Image processing method and apparatus, electronic device and computer-readable storage medium
JP7262659B2 (en) Target object matching method and device, electronic device and storage medium
US20210012143A1 (en) Key Point Detection Method and Apparatus, and Storage Medium
US20210319538A1 (en) Image processing method and device, electronic equipment and storage medium
KR20210102180A (en) Image processing method and apparatus, electronic device and storage medium
KR20210019537A (en) Image processing method and apparatus, electronic device and storage medium
KR20210047336A (en) Image processing method and apparatus, electronic device and storage medium
US20220392202A1 (en) Imaging processing method and apparatus, electronic device, and storage medium
JP2022522551A (en) Image processing methods and devices, electronic devices and storage media
KR20210090238A (en) Video processing method and apparatus, electronic device, and storage medium
JP2022533065A (en) Character recognition methods and devices, electronic devices and storage media
CN114677517B (en) Semantic segmentation network model for unmanned aerial vehicle and image segmentation and identification method
WO2022247091A1 (en) Crowd positioning method and apparatus, electronic device, and storage medium
CN111523555A (en) Image processing method and device, electronic equipment and storage medium
WO2022141969A1 (en) Image segmentation method and apparatus, electronic device, storage medium, and program
CN110633715A (en) Image processing method, network training method and device and electronic equipment
CN114842404A (en) Method and device for generating time sequence action nomination, electronic equipment and storage medium
CN114359808A (en) Target detection method and device, electronic equipment and storage medium
KR20240046777A (en) Activity recognition methods and devices, electronic devices and storage media
CN114445778A (en) Counting method and device, electronic equipment and storage medium
CN112749709A (en) Image processing method and device, electronic equipment and storage medium
CN113537350B (en) Image processing method and device, electronic equipment and storage medium
CN111723715B (en) Video saliency detection method and device, electronic equipment and storage medium
CN113297983A (en) Crowd positioning method and device, electronic equipment and storage medium

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211105

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221122

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230620