JP2022039921A - 目標検出方法及び装置、コンピュータシステム並びに可読記憶媒体 - Google Patents

目標検出方法及び装置、コンピュータシステム並びに可読記憶媒体 Download PDF

Info

Publication number
JP2022039921A
JP2022039921A JP2021040067A JP2021040067A JP2022039921A JP 2022039921 A JP2022039921 A JP 2022039921A JP 2021040067 A JP2021040067 A JP 2021040067A JP 2021040067 A JP2021040067 A JP 2021040067A JP 2022039921 A JP2022039921 A JP 2022039921A
Authority
JP
Japan
Prior art keywords
image
target detection
training
detected
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021040067A
Other languages
English (en)
Other versions
JP7079358B2 (ja
Inventor
ペンハオ・チャオ
Penghao Zhao
ハイビン・チャン
Haibin Zhang
シューペン・リー
Shupeng Li
エン・シー
En Shi
ヨンカン・シー
Yongkang Xie
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022039921A publication Critical patent/JP2022039921A/ja
Application granted granted Critical
Publication of JP7079358B2 publication Critical patent/JP7079358B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • G06T7/0008Industrial image inspection checking presence/absence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4084Scaling of whole images or parts thereof, e.g. expanding or contracting in the transform domain, e.g. fast Fourier transform [FFT] domain scaling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/66Trinkets, e.g. shirt buttons or jewellery items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/11Technique with transformation invariance effect

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Remote Sensing (AREA)
  • Astronomy & Astrophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】人間の介入を必要とせず、小さい目標の検出タスクを高品質的に完成する目標検出方法及び装置、コンピュータシステム並びに可読記憶媒体を提供する。【解決手段】目標検出方法は、第1トレーニングデータセットにおける各トレーニング画像での目標割合を統計することによって、第1トレーニングデータセットにおける典型的目標割合を確定しS101、少なくとも一つの典型的目標割合に基づき画像スケーリングサイズを確定し、画像スケーリングサイズに基づき、第1トレーニングデータセットにおける各トレーニング画像をスケーリングしS102、各スケーリングされたトレーニング画像をスライシングすることによって、第2トレーニングデータセットを取得しS103、第2トレーニングデータセットを用いて目標検出モデルをトレーニングしS104、トレーニングされた目標検出モデルを用いて検出すべき画像に目標検出を行うS105を含む。【選択図】図1

Description

本開示はコンピュータビジョンと画像処理分野に関し、具体的には、目標検出方法及び装置、コンピュータシステム並びに可読記憶媒体に関する。
近年、目標検出を代表とするコンピュータビジョン技術は目覚ましく進んでいる。目標検出技術の応用により、多くの業界に、より良い体験、より高い効率をもたらすと同時に、コストも削減される。例えば、自動車の自動運転分野において、目標検出技術を用いて、行人、車輌、障害物を検出することができ、それにより自動車運転の安全性と便利さを高め、セキュリティ警備とモニタリング分野において、目標検出技術を用いて、特定の人物又は物の出現、移動などの情報をモニタリングすることができ、また、医療診断分野において、目標検出技術を用いて病変領域を発見したり、細胞の数を統計したりすることができる。
但し、いくつかの業界又は分野において、目標が画像取得領域に対して非常に小さく、一般的に、1:100~1:1000の範囲にあるため、現在の目標検出技術を用いて目標収集領域に対して撮影された画像でこのような非常に小さい目標を検出することを実現しにくく、ひていは実現できない場合がある。例えば、工業分野において、溶接鋼板のX線スキャン図でコールドジョイントを測定したり、携帯電話のカバーガラスのスキャン画像で欠陥を検出する必要がある場合、コールドジョイントの可動欠陥が画像の全体に対する割合は非常に小さいため、現在の目標検出技術をそのまま用いて、このような非常に小さい目標の検出を実現することができない。
本開示の第1の態様によれば、本開示の実施例は、第1トレーニングデータセットにおける各トレーニング画像での目標割合を統計することによって、第1トレーニングデータセットにおける少なくとも一つの典型的目標割合を確定することと、少なくとも一つの典型的目標割合に基づき、少なくとも一つの画像スケーリングサイズを確定し、少なくとも一つの画像スケーリングサイズに基づき、第1トレーニングデータセットにおける各トレーニング画像をスケーリングすることと、各スケーリングされたトレーニング画像をスライシングすることによって、第2トレーニングデータセットを取得することと、第2トレーニングデータセットを用いて目標検出モデルをトレーニングすることと、トレーニングされた目標検出モデルを用いて検出すべき画像に目標検出を行うこととを含む目標検出方法を開示する。
本開示の第2の態様によれば、本開示の実施例は、第1トレーニングデータセットにおける各トレーニング画像での目標割合を統計することによって、第1トレーニングデータセットにおける少なくとも一つの典型的目標割合を確定し、少なくとも一つの典型的目標割合に基づき、少なくとも一つの画像スケーリングサイズを確定し、少なくとも一つの画像スケーリングサイズに基づき、第1トレーニングデータセットにおける各トレーニング画像をスケーリングするように構成される画像スライシング構成モジュールと、各スケーリングされたトレーニング画像をスケーリングすることによって、第2トレーニングデータセットを取得し、第2トレーニングデータセットを用いて目標検出モデルをトレーニングするように構成されるモデルトレーニングモジュールと、トレーニングされた目標検出モデルを用いて、検出すべき画像に目標検出を行うように構成される目標検出モジュールとを含む目標検出装置を開示する。
本開示の第3態様によれば、本開示の実施例はプロセッサと、コンピュータプログラムが記憶されたメモリとを含むコンピュータシステムを開示し、当該コンピュータプログラムはプロセッサにより実行される時に、プロセッサに前記目標検出方法を実行させる。
本開示の第4態様によれば、本開示の実施例はコンピュータプログラムが記憶されたコンピュータ可読記憶媒体を開示し、当該コンピュータプログラムはコンピュータシステムのプロセッサにより実行される時に、コンピュータシステムに前記目標検出方法を実行させる。
本開示の第5態様によれば、本開示の実施例はコンピュータプログラムを含むコンピュータプログラム製品を開示し、当該コンピュータプログラムはプロセッサにより実行される時に、前記目標検出方法を実現させる。
本開示の一つ以上の実施例によれば、第1トレーニングデータセットにおける目標割合を統計することによって、第1トレーニングデータセットにおける少なくとも一つの典型的目標割合を確定し、少なくとも一つの典型的目標割合に基づき、少なくとも一つの画像スケーリングサイズを確定し、少なくとも一つの画像スケーリングサイズに基づき、第1トレーニングデータセットにおける各トレーニング画像をスケーリングし、各スケーリングされたトレーニング画像をスライシングすることによって、第2トレーニングデータセットを取得し、第2トレーニングデータセットを用いて目標検出モデルをトレーニングすることによって、トレーニングされた目標検出モデルは、目標の検出すべき画像に対する割合が非常に小さい場合でも検出すべき画像で目標を的確に検出でき、従って、人間の介入を必要とせず、小さい目標の検出タスクを高品質的に完成することができる。
図面は、実施例を例示的に示して、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために用いられる。示される実施例は例示の目的のみであり、特許請求の範囲を限定するものではない。すべての図面において、同一の符号は類似しているが、必ずしも同じとは限らない要素を指す。
本開示の実施例による目標検出方法を示す流れ図である。 スケーリングされたトレーニング画像の一例を示す概略図である。 図2aに示すスケーリングされたトレーニング画像をスライシングすることを示す概略図である。 図1に示す目標検出方法におけるステップS105を示す流れ図である。 本開示の実施例による目標検出装置を示す構造ブロック図である。 本開示の実施例を実現するために用いられる例示的なコンピュータシステムを示す構造ブロック図である。
以下、図面及び実施例に合わせて本発明を詳細に説明する。理解できるように、ここで記載された具体的な実施例は、関連発明を説明するためのものに過ぎず、本発明を限定するものではない。なお、説明すべきこととして、本開示を簡単に説明するために、図面において関連発明に関連する部分のみを示す。
説明すべきこととして、矛盾しない限り、本開示の実施例及び実施例における特徴は、互いに組み合わせることができる。コンテキストで別途、明確に示されていない限り、特に要素の数を限定しなければ、当該要素は一つであってもよいし、複数であってもよい。なお、本開示で使用されるステップ又は機能モジュールの番号は各ステップ又は機能モジュールを識別するためのものに過ぎず、各ステップの実行順序又は各機能モジュールの間の接続関係を限定するものではない。
現在、以下のいくつかの小さい目標の検出案を有する。案1)、特徴ピラミッドネットワーク(FPN)レイヤを用いて、入力画像での特徴に対するマルチスケールの融合によって、小さい目標の検出効果を改善する。案2)、入力画像に対して異なるスケールの拡大を行い、異なるスケールで拡大された入力画像に目標検出を行い、続いて異なるスケールで拡大された入力画像の目標検出の結果を合併する。案3)、トレーニング画像をスライシングし、トレーニング画像に関連する注釈情報を修正することにより、トレーニング画像スライスとそれに関連する注釈情報とを取得し、トレーニング画像スライス及びそれに関連する注釈情報を用いて目標検出モデルをトレーニングし、トレーニングされた目標検出モデルを用いて目標検出を行う。
以上のいくつかの案には以下の欠点を有する。案1)は目標割合が1:10のようなレベルの小さい目標のみに検出効果を改善することができ、例えば、目標割合が1:100である非常に小さい目標検出に適用しない。案2)は目標のサイズを対応的に増大することができるが、画像プロセッサ(GPU)のディスプレイメモリに制限があるため、目標検出モデルの入力画像サイズは一般的に2000画素程度にあるしかなく、明らかに、入力画像を5000画素、ひいては10000画素に拡大する必要のある非常に小さい目標の検出に適用しない。案3)は異なるトレーニングデータセットに対して異なるトレーニング画像スライスサイズを手動で選択する必要があり、トレーニングされた目標検出モデルは検出すべき画像全体に目標検出を行うため、非常に小さい目標の検出に適用しない。
現在の小さい目標の検出案は目標割合が非常に小さい極小の目標に対して検出効果が非常に悪く、人間の介入を必要とせず目標検出モデルをトレーニングし極小目標の検出タスクを高品質的に完成することができない。
現在の小さい目標検出案における上記問題に鑑み、本開示は目標検出方法及び装置を開示し、それにより人間の介入を必要とせず、極小目標の検出タスクを高品質的に完成する。本開示の実施例による目標検出方法及び装置は、例えば、工業品質検査、農業航空撮影などのシーンに適用することができる。以下、図面を参照しながら、本開示の実施例による目標検出方法及び装置について詳細に説明する。
図1は本開示の実施例による目標検出方法100を示す流れ図である。図1に示すように、目標検出方法100は、第1トレーニングデータセットにおける各トレーニング画像での目標割合を統計することによって、第1トレーニングデータセットにおける少なくとも一つの典型的目標割合を確定するステップS101と、少なくとも一つの典型的目標割合に基づき、少なくとも一つの画像スケーリングサイズを確定し、少なくとも一つの画像スケーリングサイズに基づき、第1トレーニングデータセットにおける各トレーニング画像をスケーリングするステップS102と、各スケーリングされたトレーニング画像をスライシングすることによって、第2トレーニングデータセットを取得するテップS103と、第2トレーニングデータセットを用いて目標検出モデルをトレーニングするステップS104と、トレーニングされた目標検出モデルを用いて、検出すべき画像に目標検出を行うステップS105とを含む。
本開示の実施例による目標検出方法は、第1トレーニングデータセットにおける典型的目標割合に基づき、少なくとも一つ画像スケーリングサイズを適応的に確定し、少なくとも一つ画像スケーリングサイズに基づき、第1トレーニングデータセットにおける各トレーニング画像をスケーリングし、各スケーリングされたトレーニング画像をスライシングすることによって第2トレーニングデータセットを取得し、第2トレーニングデータセットを用いて目標検出モデルをトレーニングすることにより、トレーニングされた目標検出モデルは、目標の検出すべき画像に対する割合が非常に小さい場合でも検出すべき画像で目標を的確に検出することができ、従って、人間の介入を必要とせず、極小目標の検出タスクを高品質的に完成することができる。
ここでは、第1トレーニングデータセットは複数のトレーニング画像と複数のトレーニング画像にそれぞれ関連する注釈情報とを含む。いずれか一つのトレーニング画像に対して、当該トレーニング画像において、一つ以上の目標を有してもよく、いずれか一つの目標の目標割合とは、当該目標の目標検出フレームのサイズが当該トレーニング画像全体のサイズに対する比例を指し、当該トレーニング画像に関連する注釈情報は当該トレーニング画像における各目標検出フレームに関連する座標情報を含む。
いくつかの実施例において、第1トレーニングデータセットにおける各トレーニング画像での全ての目標割合をクラスタすることによって、第1トレーニングデータセットにおける少なくとも一つの典型的目標割合を取得することができる。例えば、いずれか一つのトレーニングデータセットAに対して、トレーニングデータセットAにおける各トレーニング画像での全ての目標割合をクラスタすることによって、トレーニングデータセットAにおける三つの典型的目標割合R1、R2、R3を取得することができる。
いくつかの実施例において、目標検出モデルを容易にトレーニングするために、第1トレーニングデータセットにおける各トレーニング画像での大部分の目標検出フレームのサイズをある固定サイズの近くにスケーリングすることができる。従って、第1トレーニングデータセットにおける少なくとも一つの典型的目標割合と当該固定サイズに基づき、少なくとも一つの画像スケーリングサイズを確定することができる。例えば、トレーニングデータセットAに対して、各トレーニング画像での大部分の目標検出フレームのサイズを固定サイズTにスケーリングする必要があるとすれば、固定サイズTをトレーニングデータセットAにおける三つの典型的目標割合R1、R2、及びR3で除算することによって、三つの画像スケーリングサイズT/R、T/R及びT/Rを確定することができる。
いくつかの実施例において、目標検出モデルのトレーニング効果を高めるために、さらに目標検出モデルの最適検出サイズに基づき、少なくとも一つの画像スケーリングサイズを確定することができる。つまり、第1トレーニングデータセットにおける少なくとも一つの典型的目標割合と目標検出モデルの最適検出サイズに基づき、少なくとも一つの画像スケーリングサイズを確定することができ、それにより第1トレーニングデータセットにおける各トレーニング画像での大部分の目標検出フレームのサイズを目標検出モデルの最適検出サイズの近くにスケーリングされる。例えば、トレーニングデータセットAに対して、目標検出モデルの最適検出サイズがTであるとすれば、目標検出モデルの最適検出サイズTをトレーニングデータセットAにおける典型的目標割合R1、R2、及びR3で除算することによって、三つの画像スケーリングサイズT/R、T/R及びT/Rを確定することができる。
いくつかの実施例において、少なくとも一つの画像スケーリングサイズに基づき、第1トレーニングデータセットにおける各トレーニング画像をスケーリングすることは、少なくとも一つの画像スケーリングサイズにおけるいずれか一つの画像スケーリングサイズに対して、第1トレーニングデータセットにおける各トレーニング画像をいずれも当該画像スケーリングサイズにスケーリングすることを含むことができる。例えば、トレーニングデータセットAに対して、トレーニングデータセットAにおける各トレーニング画像を画像スケーリングサイズT/R、T/R及びT/Rに従って三回スケーリングし、それによりトレーニングデータセットAにおける各トレーニング画像での大部分の目標検出フレームはいずれも目標検出モデルの最適検出サイズTの近くにスケーリングすることができる。
代替的には、いくつかの実施例において、少なくとも一つの画像スケーリングサイズに基づき、第1トレーニングデータセットにおける各トレーニング画像をスケーリングすることは、第1トレーニングデータセットにおける少なくとも一つの典型的目標割合に基づき、第1トレーニングデータセットにおけるトレーニング画像を少なくとも一つのトレーニング画像群に分割し、各トレーニング画像群におけるトレーニング画像を対応する画像スケーリングサイズにスケーリングすることを含むことができる。例えば、トレーニングデータセットAに対して、トレーニングデータセットAにおける典型的目標割合R1、R2及びR3に基づき、トレーニングデータセットAにおけるトレーニング画像をA1、A2及びA3の三つのトレーニング画像群に分割し、A1、A2及びA3の三つのトレーニング画像群におけるトレーニング画像をそれぞれ三つの画像スケーリングサイズT/R、T/R及びT/Rにスケーリングすることができる。トレーニングデータセットAにおける各トレーニング画像を画像スケーリングサイズT/R、T/R及びT/Rに従って三回スケーリングすることに比べて、本実施例の処理効率は比較的高いが、トレーニング効果は少し劣っている。
極小目標を検出する必要がある応用シーンにおいて、第1トレーニングデータセットにおける典型的目標割合は、例えば、1:100~1:1000の範囲にあり、各スケーリングされたトレーニング画像のサイズが非常に大きく、それにより画像プロセッサのディスプレイメモリが足りないという問題は生じる。そのため、各スケーリングされたトレーニング画像をスライシングする必要がある。いくつかの実施例において、各スケーリングされたトレーニング画像をスライシングすることによって第2トレーニングデータセットを取得することは、各スケーリングされたトレーニング画像をスライシングすることによって、トレーニング画像スライスセットを取得することと、第1トレーニングデータセットにおける各トレーニング画像に関連する注釈情報を変換することによって、トレーニング画像スライスセットにおける各トレーニング画像スライスに関連する注釈情報を取得することとを含み、ここでは、トレーニング画像スライスセットとトレーニング画像スライスセットにおける各トレーニング画像スライスに関連する注釈情報とで第2トレーニングデータセットを構成する。第2トレーニングデータセットに基づき、目標検出モデルをトレーニングすることは、画像プロセッサのディスプレイメモリが足りないという問題を避けると共に、目標検出モデルの極小目標への検出能力を向上させることができる。
ここで、第1トレーニングデータセットにおける各トレーニング画像に関連する注釈情報を変換することとは、第1トレーニングデータセットにおける各トレーニング画像での目標検出フレームに関連する座標情報を変換することを意味する。つまり、第1トレーニングデータセットにおけるいずれか一つのトレーニング画像でのいずれか一つの目標検出フレームに対して、当該目標検出フレームに関連する座標情報を当該トレーニング画像に基づく座標情報から当該目標検出フレームを含むトレーニング画像スライスに基づく座標情報に変換し、ここでは、当該トレーニング画像スライスは当該トレーニング画像をスライシングすることによって取得されたものである。
いくつかの実施例において、目標検出モデルの入力画像サイズをトレーニング画像スライスサイズとして用いて、各スケーリングされたトレーニング画像をスライシングすることができる。つまり、トレーニング画像スライスサイズを手作業で設置する必要がなく、目標検出モデルの入力画像サイズを直接利用して各スケーリングされたトレーニング画像をスライシングすることができる。
いくつかの実施例において、目標検出モデルの入力画像サイズをトレーニング画像スライスサイズとして用いる場合、目標検出モデルの入力画像サイズと最適検出サイズとの差より小さい動きステップ長を用いて、各スケーリングされたトレーニング画像をスライシングすることができる。このようにして、各スケーリングされたトレーニング画像での各目標検出フレームは少なくとも一つのトレーニング画像スライスに完全に現れることを保証できる。
例えば、目標検出モデルの入力画像サイズはIで、最適検出サイズはTであるとすれば、トレーニング画像スライスサイズをIに設置し、且つ動きステップ長SをI-Tより小さく(即ち、S<I-T、例えば、S=I-2T)設置することができる。図2aはスケーリングされたトレーニング画像の一例を示す概略図である。図2bは図2aに示すスケーリングされたトレーニング画像をスライシングすることを示す概略図である。図2aと図2bに示すように、トレーニング画像スライスサイズがIで、動きステップ長がSである場合、大きさがI×Iであるスライドウィンドウをスケーリングされたトレーニング画像の左上隅の頂点からそれぞれ横軸方向と縦軸方向に沿ってスライドさせることによって、スケーリングされたトレーニング画像をスライシングし、ここでは、スライドウィンドウが毎回移動する距離、即ち、動きステップ長はSであり、スライドウィンドウがスライドするたびに、トレーニング画像スライスを取得することができ、例えば、トレーニング画像スライスQ及びQ1である。場合によっては、多くのトレーニング画像スライスを取得するために、動きステップ長Sを適当に小さくすることができる。
いくつかの実施例において、目標検出モデルの入力画像サイズをトレーニング画像スライスサイズとして用いて、目標検出モデルの入力画像サイズと最適検出サイズとの差より小さい動きステップ長を用いて、各スケーリングされたトレーニング画像をスライシングする場合、各スケーリングされたトレーニング画像での各目標検出フレームはいずれも、少なくとも一つのトレーニング画像スライス中に完全に現れることができる。トレーニング画像スライス間の重ね合わせ領域を何度も検出することを減るために、第2トレーニングデータセットにおけるいずれか一つのトレーニング画像スライスに対して、当該トレーニング画像スライスに関連する注釈情報から当該トレーニング画像スライスでの不完全な目標検出フレームに関連する座標情報を除去することができる。例えば、図2bに示すように、目標検出フレームa1がトレーニング画像スライスQにおいて不完全であるため、トレーニング画像スライスQに関連する注釈情報から目標検出フレームa1に関連する座標情報を除去することができ、一方、目標検出フレームa1はトレーニング画像スライスQ1に完全に現れるため、トレーニング画像スライスQ1に関連する注釈情報において目標検出フレームa1に関連する座標情報を保持する。
いくつかの実施例において、第2トレーニングデータセットにおける各トレーニング画像スライスに関連する注釈情報から、そのサイズと目標検出モデルの最適検出サイズとの差が大きい目標検出フレームに関連する座標情報を除去することができ、それによりそれらの目標検出フレームは目標検出モデルのトレーニングに参与しない。このようにして、目標検出モデルのトレーニング効率を高めると同時に、目標検出モデルのトレーニング効果を向上させることができる。
いくつかの実施例において、極小目標を検出する必要がある応用シーンにおいて、第1トレーニングデータセットにおける各トレーニング画像での目標割合が非常に小さく、各トレーニング画像の大部分の領域は目標検出フレームを含まない背景領域であり、目標検出フレームを含むトレーニング画像スライスのみを用いて目標検出モデルをトレーニングすれば、トレーニングされた目標検出モデルはこの後の検出すべき画像の背景領域を引き続き検出する時に多くの誤検出問題を生じる可能性がある。こういう状況の発生を避けるために、第2トレーニングデータセットにおける目標検出フレームを含むトレーニング画像スライス、目標検出フレームを含まないトレーニング画像スライス、及びそれらに関連する注釈情報を用いて、目標検出モデルをトレーニングすることができる。このようにして、目標検出モデルの目標検出フレームを含まない背景領域への学習を補強し、非常に小さい目標の検出を実現する時に目標検出フレームを含まない背景領域への誤検出の問題を減少することができる。
いくつかの実施例において、図3に示すように、トレーニングされた目標検出モデルを用いて検出すべき画像に目標検出を行うことは、少なくとも一つの画像スケーリングサイズに基づき、検出すべき画像をスケーリングするステップS1051と、ススケーリングされた検出すべき画像をスライシングすることによって検出すべき画像スライスセットを取得するテップS1052と、検出すべき画像スライスセットをトレーニングされた目標検出モデルに入力して目標検出を行うステップS1053とを含むことができる。検出すべき画像をスケーリングしスライシングすることによって、画像プロセッサのディスプレイメモリが足りないという問題を避ける一方、検出すべき画像スライスへの極小目標の検出を実現でき、それにより検出すべき画像の全体への非常に小さい目標の検出を実現できる。
いくつかの実施例において、目標検出モデルの入力画像サイズを検出すべき画像スライスサイズとして用いて、スケーリングされた検出すべき画像をスライシングすることができる。このようにして、画像プロセッサのディスプレイメモリが足りないという問題を避けることができる。つまり、検出すべき画像スライスサイズがトレーニング画像スライスサイズと同一になるように設置してよく、即ち、目標検出モデルの入力画像サイズに等しい。理解すべきことは、検出すべき画像スライスサイズを適切に増大してもよく、それを目標検出モデルの入力画像サイズより大きいようにすることにより検出すべき画像のスライシング効率を増加することである。
いくつかの実施例において、目標検出モデルの入力画像サイズと最適検出サイズとの差より小さい動きステップ長を用いて、スケーリングされた検出すべき画像をスライシングすることができる。例えば、スケーリングされた検出すべき画像をスライシングするために用いられる動きステップ長を、スケーリングされたトレーニング画像をスライシングするために用いられる動きステップ長に等しくするように設置できる。このようにして、スケーリングされたト検出すべき画像での各目標検出フレームは少なくとも一つの検出すべき画像スライス中に完全に現れることを保証できる。
いくつかの実施例において、検出すべき画像スライスセットにおけるいずれか一つの検出すべき画像スライスに対して、当該検出すべき画像スライスでそのエッジと重なる目標検出フレームを検出すれば、当該目標検出フレームを捨てる。例えば、トレーニングされた目標検出モデルは、ある検出すべき画像スライスに目標検出を行う時、当該検出すべき画像スライスでのある目標検出モデルが不完全であると発見したら、該目標検出モデルを捨てることができる(即ち、当該目標検出モデルを検出したと見なさない)。このようにして、検出すべき画像スライスの間の重ね合わせ領域を何度も検出することを減らす。
いくつかの実施例において、検出すべき画像スライスセットをトレーニングされた目標検出モデルに入力して目標検出を行うことは、トレーニングされた目標検出モデルを用いて、検出すべき画像スライスセットにおける各検出すべき画像スライスでの目標検出フレームに関連する座標情報を取得することと、検出すべき画像スライスセットにおける各検出すべき画像スライスでの目標検出フレームに関連する座標情報を、検出すべき画像に基づく座標情報に変換することとを含むことができる。例えば、いずれか一つの検出すべき画像スライスで検出されたいずれか一つの目標検出フレームに対して、当該目標検出フレームに関連する座標情報を、当該検出すべき画像スライスに基づく座標情報から検出すべき画像に基づく座標情報に変換することができる。このようにして、検出すべき画像に対する直観的な目標検出結果を得ることができる。
上述したように、本開示の実施例による目標検出方法は人間の介入を必要とせず、非常に小さい目標の検出タスクを高品質的に完成することができ、例えば、工業品質検査、農業航空撮影などのシーンに適用される。
図4は本開示の実施例による目標検出装置400を示す構造ブロック図である。図4に示すように、目標検出装置400は、画像スライシング構成モジュール401、モデルトレーニングモジュール402、及び目標検出モジュール403を含む。画像スライシング構成モジュール401は、第1トレーニングデータセットにおける各トレーニング画像での目標割合を統計することによって、第1トレーニングデータセットにおける少なくとも一つの典型的目標割合を確定し、少なくとも一つの典型的目標割合に基づき、少なくとも一つの画像スケーリングサイズを確定し、少なくとも一つの画像スケーリングサイズに基づき、第1トレーニングデータセットにおける各トレーニング画像をスケーリングするように構成される。モデルトレーニングモジュール402は各スケーリングされたトレーニング画像をスライシングすることによって、第2トレーニングデータセットを取得し、第2トレーニングデータセットを用いて目標検出モデルをトレーニングするように構成される。目標検出モジュール403は、トレーニングされた目標検出モデルを用いて検出すべき画像に目標検出を行うように構成される。
本実施例において、目標検出装置400及びその対応する機能モジュールの具体的な実施形態と技術的効果は図1の説明した実施例での関連説明を参照することができ、ここでは説明しない。
図5は本開示の実施例を実現するために用いられる例示的なコンピュータシステムを示す構造ブロック図である。以下、図5に関連して、本開示の実施例を実現するために適するコンピュータシステム500を説明する。図5に示すコンピュータシステム500は一例に過ぎず、本開示の実施例の機能と使用範囲へのいかなる限定を構成しないことが明らかである。
図5に示すように、コンピュータシステム500は処理装置(例えば、中央処理装置、グラフィックプロセッサなど)501を含むことができ、それはリードオンリーメモリ(ROM)502に記憶されるプログラム又は記憶装置508からランダムアクセスメモリ(RAM)503にロードされるプログラムによって、種々の適当な動作と処理を実行することができる。RAM503の中に、さらにコンピュータシステム500の動作に必要な種々のプログラムとデータを記憶する。処理装置501、ROM502、及びRAM503はバス504によって互いに接続される。入力/出力(I/O)インターフェース505もバス504に接続される。
通常、例えば、タッチスクリーン、タッチパネル、カメラ、加速度計、ジャイロスコープなどを含む入力装置506、例えば、液晶ディスプレイ(LCD、Liquid Crystal Display)、スピーカー、バイブレータなどを含む出力装置507、例えば、フラッシュメモリ(Flash Card)などを含む記憶装置508、及び通信装置509などの装置はI/Oインターフェース505に接続することができる。通信装置509はコンピュータシステム500と他のデバイスとの無線又は有線通信を許容してデータを交換することができる。図5は種々の装置を有するコンピュータシステム500を示したが、示した装置を全部実施し又は備えることを要求しないことを理解されたい。代替的に、より多く又はより少ない装置を実施し又は備えることができる。図5に示した各ブロックは一つの装置を表してもよく、必要に応じて、複数の装置を表してもよい。
特に、本開示の実施例によれば、上記の流れ図を参照しながら説明したプロセスをコンピュータソフトウェアプログラムとして実現することができる。例えば、本開示の実施例はコンピュータ可読記憶媒体を提供し、それにコンピュータプログラムが記憶され、当該コンピュータプログラムは図1に示すような方法100を実行するために用いられるプログラムコードを含む。このような実施例において、当該コンピュータプログラムは通信装置509によってネットワークからダウンロードされインストールされ、又は記憶装置508からインストールされ、又はROM502からインストールされることができる。当該コンピュータプログラムは処理装置501に実行される時、本開示の実施例による装置に限定される上記機能を実現する。
説明すべきことは、本開示の実施例に記載するコンピュータ可読媒体は、コンピュータ可読信号媒体、又はコンピュータ可読記憶媒体でよく、又は上記両者の任意の組み合わせでよいことである。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁、赤外線又は半導体のシステム、装置、又は部品、又はそれらの任意の組み合わせであってよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、一つ以上の導線を有する電気コネクタ、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトリードオンリーメモリ(CD-ROM)、光学記憶部品、磁気記憶部品、又は上記の任意の適当な組み合わせを含むことができるが、これらに限定されない。本開示の実施例において、コンピュータ可読記憶媒体はプログラムを含むか記憶する任意の有形媒体であってよく、当該プログラムはコマンド実行システム、装置、又は部品によって使用し、又はそれと組み合わせて使用することができる。本開示の実施例において、コンピュータ可読信号媒体は、ベースバンドにおいて、又はキャリアの一部として伝播されるデータ信号を含むことができ、その中にコンピュータが可読なプログラムコードが保持される。このような伝播されるデータ信号は複数種の形態を用いることができ、電磁気信号、光信号、又は上記の任意の適当な組み合わせを含むが、これらに限定されない。コンピュータ可読信号媒体は、さらにコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、当該コンピュータ可読信号媒体は、コマンド実行システム、装置、又は部品によって用いられ、又はそれらと組み合わせて用いられるプログラムを送信、伝播又は伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適当な媒体によって伝送でき、電線、光ファイバーケーブル、RF(Radio Frequency、無線周波数)など、又は上記の任意の適当な組み合わせを含むが、これらに限定されない。
上記のコンピュータ可読媒体は上記のコンピュータシステム500に含まれるものであってよく、単独に存在し、当該コンピュータシステム500に組み立てられないものであってもよい。上記のコンピュータ可読媒体に一つ以上のプログラムが保持され、上記の一つ以上のプログラムが当該計算装置に実行される時、当該コンピュータシステムに、第1トレーニングデータセットにおける各トレーニング画像での目標割合を統計することによって、第1トレーニングデータセットにおける少なくとも一つの典型的目標割合を確定し、少なくとも一つの典型的目標割合に基づき、少なくとも一つの画像スケーリングサイズを確定し、少なくとも一つの画像スケーリングサイズに基づき、第1トレーニングデータセットにおける各トレーニング画像をスケーリングし、各スケーリングされたトレーニング画像をスライシングすることによって、第2トレーニングデータセットを取得し、第2トレーニングデータセットを用いて目標検出モデルをトレーニングし、トレーニングされた目標検出モデルを用いて検出すべき画像に目標検出を行うようにさせる。
一つ以上のプログラミング言語又はそれらの組み合わせによって本開示の実施例の動作を実行するためのコンピュータプログラムコードを書き、前記プログラミング言語はJava、Smalltalk、C++などのオブジェクト指向のプログラミング言語を含み、さらに「C」プログラミング言語又は類似のプログラミング言語などの通常の手続き型プログラミング言語を含む。プログラムコードはユーザのコンピュータ上で完全に実行され、ユーザのコンピュータ上で部分的に実行され、独立するパッケージとして実行され、一部がユーザのコンピュータに実行され一部がリモートコンピュータに実行され、又はリモートコンピュータやサーバーに完全に実行されることができる。リモートコンピュータに関する場合に、リモートコンピュータはローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意の種類のネットワークによってユーザのコンピュータに接続されてよく、或いは、外部のコンピュータに接続されてよい(例えば、インターネットサービスプロバイダを利用してインターネットによって接続される)。
図面における流れ図とブロック図は本開示の各実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能及び動作を図示する。この点に関して、流れ図又はブロック図内の各ブロックはモジュール、プログラムセグメント、又はコードの一部を表してよく、当該モジュール、プログラムセグメント、又はコードの一部は一つ以上の規定する論理機能を実現するために用いられる実行可能なコマンドを含む。いくつかの代替としての実現において、ブロックに付けられる機能は、図面に付けられる順番と違う順番に従って実現されることも注意すべきである。例えば、二つの連続的に示されるブロックは、実際には、基本的に並列的に実行してもよいし、時には逆の順で実行させてもよいし、それは係る機能によって確定する。注意すべきことは、ブロック図及び/又は流れ図内の各ブロック、及びブロック図及び/又は流れ図内のブロックの組み合わせは、規定する機能又は動作を実行する専用のハードウェアに基づくシステムによって実現でき、専用のハードウェアとコンピュータコマンドとの組み合わせによって実現できることである。
本開示の実施例に記載されたモジュールはソフトウェアによって実現可能であり、ハードウェアによって実現可能である。記載されたモジュールはプロセッサ内に設置されてもよいし、例えば、プロセッサであって、画像スライシング構成モジュール、モデルトレーニングモジュール、及び目標検出モジュールを含むと記載されてもよい。ここで、それらのモジュールの名称は、ある状況で、当該モジュールそのものに対する制限を構成しない。
上述の記載は本開示の好ましい実施例及び運用する技術原理についての説明に過ぎない。当業者であれば、本開示の実施例に係る発明の範囲は上述の技術的特徴の特定の組み合わせによって形成された技術的解決手段に限定されず、また、上述の発明構想から逸脱させず、上述の技術的特徴又はその同等特徴の任意組み合わせによって形成された他の技術的解決手段も含むものである。例えば、上述の特徴を本開示の実施例が開示した(これに限定されない)類似する機能を有する技術特徴と相互に置換することによって形成された技術的解決手段である。

Claims (17)

  1. 目標検出方法であって、
    第1トレーニングデータセットにおける各トレーニング画像での目標割合を統計することによって、前記第1トレーニングデータセットにおける少なくとも一つの典型的目標割合を確定することと、
    前記少なくとも一つの典型的目標割合に基づき、少なくとも一つの画像スケーリングサイズを確定し、前記少なくとも一つの画像スケーリングサイズに基づき、前記第1トレーニングデータセットにおける各トレーニング画像をスケーリングすることと、
    各スケーリングされたトレーニング画像をスライシングすることによって、第2トレーニングデータセットを取得することと、
    前記第2トレーニングデータセットを用いて目標検出モデルをトレーニングすることと、
    トレーニングされた目標検出モデルを用いて検出すべき画像に目標検出を行うことを含むことを特徴とする目標検出方法。
  2. さらに、前記目標検出モデルの最適検出サイズに基づき、前記少なくとも一つの画像スケーリングサイズを確定することを特徴とする請求項1に記載の目標検出方法。
  3. 前記少なくとも一つの画像スケーリングサイズに基づき、前記第1トレーニングデータセットにおける各トレーニング画像をスケーリングすることは、
    前記少なくとも一つの画像スケーリングサイズにおけるいずれか一つの画像スケーリングサイズに対して、前記第1トレーニングデータセットにおける各トレーニング画像をいずれも当該画像スケーリングサイズにスケーリングさせることを特徴とする請求項1に記載の目標検出方法。
  4. 各スケーリングされたトレーニング画像をスライシングすることによって、第2トレーニングデータセットを取得することは、
    前記各スケーリングされたトレーニング画像をスライシングすることによって、トレーニング画像スライスセットを取得することと、
    前記第1トレーニングデータセットにおける各トレーニング画像に関連する注釈情報を変換することによって、前記トレーニング画像スライスセットにおける各トレーニング画像スライスに関連する注釈情報を取得することを含み、
    前記トレーニング画像スライスセットと前記トレーニング画像スライスセットにおける各トレーニング画像スライスに関連する注釈情報とで前記第2トレーニングデータセットを構成することを特徴とする請求項1に記載の目標検出方法。
  5. 前記目標検出モデルの入力画像サイズをトレーニング画像スライスサイズとして用いて、前記各スケーリングされたトレーニング画像をスライシングすることを特徴とする請求項4に記載の目標検出方法。
  6. 前記目標検出モデルの入力画像サイズと最適検出サイズとの差より小さい動きステップ長を用いて、前記各スケーリングされたトレーニング画像をスライシングすることを特徴とする請求項5に記載の目標検出方法。
  7. 前記第2トレーニングデータセットにおけるいずれか一つのトレーニング画像スライスに対して、当該トレーニング画像スライスに関連する注釈情報から当該トレーニング画像スライス画像での不完全な目標検出フレームに関連する座標情報を除去することをさらに含むことを特徴とする請求項6に記載の目標検出方法。
  8. 前記第2トレーニングデータセットにおける目標検出フレームを含むトレーニング画像スライス、目標検出フレームを含まないトレーニング画像スライス、及びそれらに関連する注釈情報を用いて、前記目標検出モデルをトレーニングすることを特徴とする請求項1に記載の目標検出方法。
  9. 前記トレーニングされた目標検出モデルを用いて前記検出すべき画像に目標検出を行うことは、
    前記少なくとも一つの画像スケーリングサイズに基づき、前記検出すべき画像をスケーリングすることと、
    スケーリングされた検出すべき画像をスライシングすることによって、検出すべき画像スライスセットを取得することと、
    前記検出すべき画像スライスセットを前記トレーニングされた目標検出モデルに入力して、目標検出を行うこととを含むことを特徴とする請求項1に記載の目標検出方法。
  10. 前記目標検出モデルの入力画像サイズを検出すべき画像スライスサイズとして用いて、前記スケーリングされた検出すべき画像をスライシングすることを特徴とする請求項9に記載の目標検出方法。
  11. 前記目標検出モデルの入力画像サイズと最適検出サイズとの差より小さい動きステップ長を用いて、前記スケーリングされた検出すべき画像をスライシングすることを特徴とする請求項10に記載の目標検出方法。
  12. 前記検出すべき画像スライスセットにおけるいずれか一つの検出すべき画像スライスに対して、当該検出すべき画像スライスでそのエッジと重なる目標検出フレームを検出すれば、当該目標検出フレームを捨てることを特徴とする請求項11に記載の目標検出方法。
  13. 前記検出すべき画像スライスセットを前記トレーニングされた目標検出モデルに入力して、目標検出を行うことは、
    前記トレーニングされた目標検出モデルを用いて、前記検出すべき画像スライスセットにおける各検出すべき画像スライスでの目標検出フレームに関連する座標情報を取得することと、
    前記検出すべき画像スライスセットにおける各検出すべき画像スライスでの目標検出フレームに関連する座標情報を、前記検出すべき画像に基づく座標情報に変換することとを含むことを特徴とする請求項9に記載の目標検出方法。
  14. 目標検出装置であって、
    第1トレーニングデータセットにおける各トレーニング画像での目標割合を統計することによって、前記第1トレーニングデータセットにおける少なくとも一つの典型的目標割合を確定し、
    前記少なくとも一つの典型的目標割合に基づき、少なくとも一つの画像スケーリングサイズを確定し、前記少なくとも一つの画像スケーリングサイズに基づき、前記第1トレーニングデータセットにおける各トレーニング画像をスケーリングするように構成される画像スライシング構成モジュールと、
    各スケーリングされたトレーニング画像をスライシングすることによって、第2トレーニングデータセットを取得し、
    前記第2トレーニングデータセットを用いて、目標検出モデルをトレーニングするように構成されるモデルトレーニングモジュールと、
    トレーニングされた目標検出モデルを用いて、検出すべき画像に目標検出を行うように構成される目標検出モデルとを含むことを特徴とする目標検出装置。
  15. コンピュータシステムであって、
    プロセッサと、
    コンピュータプログラムが記憶されたメモリとを含み、前記コンピュータプログラムは前記プロセッサによって実行される時に、前記プロセッサに請求項1~13のいずれか一項に記載の目標検出方法を実行させることを特徴とするコンピュータシステム。
  16. コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、前記コンピュータプログラムはコンピュータシステムのプロセッサにより実行される時に、前記コンピュータシステムに請求項1~13のいずれか一項に記載の目標検出方法を実行させることを特徴とするコンピュータ可読記憶媒体。
  17. コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムはプロセッサにより実行される時に、請求項1~13のいずれか一項に記載の方法を実現させることを特徴とするコンピュータプログラム製品。
JP2021040067A 2020-08-27 2021-03-12 目標検出方法及び装置、コンピュータシステム並びに可読記憶媒体 Active JP7079358B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010878201.7A CN112001912B (zh) 2020-08-27 2020-08-27 目标检测方法和装置、计算机系统和可读存储介质
CN202010878201.7 2020-08-27

Publications (2)

Publication Number Publication Date
JP2022039921A true JP2022039921A (ja) 2022-03-10
JP7079358B2 JP7079358B2 (ja) 2022-06-01

Family

ID=73472063

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021040067A Active JP7079358B2 (ja) 2020-08-27 2021-03-12 目標検出方法及び装置、コンピュータシステム並びに可読記憶媒体

Country Status (5)

Country Link
US (1) US20220067375A1 (ja)
EP (1) EP3819823B1 (ja)
JP (1) JP7079358B2 (ja)
KR (1) KR102558704B1 (ja)
CN (1) CN112001912B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112614572B (zh) * 2020-12-28 2023-02-21 深圳开立生物医疗科技股份有限公司 一种病灶标记方法、装置、图像处理设备及医疗系统
CN112906611B (zh) * 2021-03-05 2024-04-26 新疆爱华盈通信息技术有限公司 一种井盖检测方法、装置、电子设备及存储介质
CN112927247A (zh) * 2021-03-08 2021-06-08 常州微亿智造科技有限公司 基于目标检测的切图方法、切图装置和存储介质
CN113191451B (zh) * 2021-05-21 2024-04-09 北京文安智能技术股份有限公司 图像数据集处理方法和目标检测模型训练方法
CN113870196A (zh) * 2021-09-10 2021-12-31 苏州浪潮智能科技有限公司 一种基于锚点切图的图像处理方法、装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508673A (zh) * 2018-11-13 2019-03-22 大连理工大学 一种基于棒状像素的交通场景障碍检测与识别方法
CN111027547A (zh) * 2019-12-06 2020-04-17 南京大学 一种针对二维图像中的多尺度多形态目标的自动检测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341517B (zh) * 2017-07-07 2020-08-11 哈尔滨工业大学 基于深度学习层级间特征融合的多尺度小物体检测方法
CN109934242A (zh) * 2017-12-15 2019-06-25 北京京东尚科信息技术有限公司 图片识别方法和装置
CN110555808B (zh) * 2018-05-31 2022-05-31 杭州海康威视数字技术股份有限公司 一种图像处理方法、装置、设备及机器可读存储介质
US10509987B1 (en) * 2019-01-22 2019-12-17 StradVision, Inc. Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
CN110826566B (zh) * 2019-11-01 2022-03-01 北京环境特性研究所 一种基于深度学习的目标切片提取方法
CN111582012A (zh) * 2019-12-24 2020-08-25 珠海大横琴科技发展有限公司 一种检测小目标船只方法及装置
US11386645B2 (en) * 2020-07-01 2022-07-12 International Business Machines Corporation Dataset driven custom learning for multi-scale object detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508673A (zh) * 2018-11-13 2019-03-22 大连理工大学 一种基于棒状像素的交通场景障碍检测与识别方法
CN111027547A (zh) * 2019-12-06 2020-04-17 南京大学 一种针对二维图像中的多尺度多形态目标的自动检测方法

Also Published As

Publication number Publication date
EP3819823A3 (en) 2021-09-29
EP3819823B1 (en) 2023-04-26
JP7079358B2 (ja) 2022-06-01
US20220067375A1 (en) 2022-03-03
EP3819823A2 (en) 2021-05-12
KR102558704B1 (ko) 2023-07-21
CN112001912B (zh) 2024-04-05
CN112001912A (zh) 2020-11-27
KR20220027739A (ko) 2022-03-08

Similar Documents

Publication Publication Date Title
JP7079358B2 (ja) 目標検出方法及び装置、コンピュータシステム並びに可読記憶媒体
US10429944B2 (en) System and method for deep learning based hand gesture recognition in first person view
US20210158533A1 (en) Image processing method and apparatus, and storage medium
CN108062525B (zh) 一种基于手部区域预测的深度学习手部检测方法
CN101277429B (zh) 监控中多路视频信息融合处理与显示的方法和系统
US7999846B2 (en) Image processing apparatus, image processing system, and recording medium for programs therefor
US11921278B2 (en) Image status determining method an apparatus, device, system, and computer storage medium
JP7107354B2 (ja) 情報処理装置、情報処理方法およびプログラム
JPH08322033A (ja) 画像の中の画素を分類するためのコンピュータユニットの中に色テーブルを形成する方法
CN106534780A (zh) 三维全景视频监控装置及其视频图像处理方法
CN113128368B (zh) 一种人物交互关系的检测方法、装置及系统
JP2008009849A (ja) 人物追跡装置
CN111209811B (zh) 一种实时检测眼球注意力位置的方法及系统
CN106920247A (zh) 一种基于比对网络的目标跟踪方法及装置
CN113393448A (zh) 一种形变检测方法、装置、设备及计算机可读存储介质
CN111382695A (zh) 用于检测目标的边界点的方法和装置
CN101739675A (zh) 无形变图像配准合成方法和装置
CN111310595B (zh) 用于生成信息的方法和装置
US20220245920A1 (en) Object display method and apparatus, electronic device, and computer readable storage medium
Chen et al. Screen image segmentation and correction for a computer display
Hu et al. Cell-based visual surveillance with active cameras for 3D human gaze computation
WO2023197390A1 (zh) 姿态跟踪方法、装置、电子设备和计算机可读介质
Jenisha et al. Unveiling Clarity: A Survey on Haze Removal Techniques Using Deep Learning Approaches
CN115410232B (zh) 板书抓拍方法、装置、电子设备及可读存储介质
US20210096717A1 (en) Touch control system and touch control method of display screen, and electronic device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220511

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220520

R150 Certificate of patent or registration of utility model

Ref document number: 7079358

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150